CN112418875B - 跨平台税务智能客服语料迁移方法及装置 - Google Patents

跨平台税务智能客服语料迁移方法及装置 Download PDF

Info

Publication number
CN112418875B
CN112418875B CN202011131586.7A CN202011131586A CN112418875B CN 112418875 B CN112418875 B CN 112418875B CN 202011131586 A CN202011131586 A CN 202011131586A CN 112418875 B CN112418875 B CN 112418875B
Authority
CN
China
Prior art keywords
corpus
questions
standard
target
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011131586.7A
Other languages
English (en)
Other versions
CN112418875A (zh
Inventor
王芳
刘振宇
张天飒
林文辉
王志刚
杨硕
马谊骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011131586.7A priority Critical patent/CN112418875B/zh
Publication of CN112418875A publication Critical patent/CN112418875A/zh
Application granted granted Critical
Publication of CN112418875B publication Critical patent/CN112418875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission

Abstract

本发明公开了跨平台税务智能客服语料迁移方法及装置。该方法包括:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;从原有平台的源语料库中,分别提取与各标准问题对应的答案;照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。该方法可以快速、准确地将智能客服原有平台的语料库迁移到智能客服的目标平台中,完成语料跨平台迁移,满足了智能客服系统对语料的精确搜索,逐步提升了纳税人对客户服务的满意度。

Description

跨平台税务智能客服语料迁移方法及装置
技术领域
本发明属于税务服务技术领域,具体涉及跨平台税务智能客服语料迁移方法及装置。
背景技术
目前,税务领域中智能客服系统所依托的平台多种多样,其各自使用的语料模型并不相同。在因现有平台使用期限到期而面临将智能客服切换到其他平台的场景中,需要将现有平台的语料库迁移到目标平台的语料库中。
通常,已有语料库的语料模型与目标平台语料库要求的语料模型并不匹配。语料库动辄10万+的语料,如果由语料录入员人工逐条录入,工作量庞大,作业效率低,不能满足开发要求。
另外,目前客服语料跨平台迁移后,目标平台重建语料结果质量不佳。
发明内容
针对现有技术的不足,本发明提供的跨平台税务智能客服语料迁移方法和装置,以解决现有技术中因为语料模型不匹配导致跨平台建立语料库失败的问题。
第一方面,本发明提供一种跨平台税务智能客服语料迁移方法,包括:
利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
从原有平台的源语料库中,分别提取与各标准问题对应的答案;
按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
第二方面,本发明提供一种跨平台税务智能客服语料迁移装置,包括:
源语料库去重模块,用于:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
答案提取模块,用于:从原有平台的源语料库中,分别提取与各标准问题对应的答案;
目标语料库组织模块,用于:按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
目标语料库迁移模块,用于:将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
相较于目前智能客服无法跨平台共用知识库/语料库的现象,本发明提供的跨平台税务智能客服语料迁移的方法,可以快速、准确地将智能客服原有平台的语料库迁移到智能客服的目标平台中,完成语料跨平台迁移,解决了因为语料模型不匹配导致语料库建立失败的问题,降低了在因平台使用期限到期而导致的建立语料模型的成本,满足了智能客服系统对语料的精确搜索,逐步提升了纳税人对客户服务的满意度。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明优选实施方式的跨平台税务智能客服语料迁移方法的流程示意图;
图2是本发明优选实施方式的跨平台税务智能客服语料迁移装置的组成示意图;
图3为本发明优选实施方式中智能客服的问答示例;
图4为本发明优选实施方式中X省的excel语料文件内容展示图;
图5为本发明优选实施方式中按照语料模型对应的样式模板组织以标准问题为索引的语料的word文档形式的示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
具体地,税务领域包括金税、金融、金盾等行业领域,其中,开票是用户量较大的业务类型之一。
随着人工智能技术的飞速发展,纳税服务步入“互联网+税务”的智能化时代。智能客服系统24小时在线为纳税人提供便捷智能、无处不在的客户服务,例如某以微信公众号为平台的智能客服系统。在纳税服务平台提供的咨询入口,纳税人通过语音或文字输入其咨询的问题,并触发纳税服务平台的智能客服提供针对该问题的答案。
应该理解为,具体实施时,迁移就是将从第一个智能客服的平台的语料库迁移到第二个智能客服的平台中,使得第二个智能客服的平台可以使用第一个智能客服的平台在开发、使用和维护过程中积累的语料库中的有用信息。
如图1所示,本发明实施例的跨平台税务智能客服语料迁移方法,包括:
利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
从原有平台的源语料库中,分别提取与各标准问题对应的答案;
按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
进一步地,预先构建的目标平台的语料模型中,以标准问题为索引,
标准问题对应的格式数据包括:标准问题、类别标记、关联问题、相似问题及答案;
其中,标准问题是对应有标准答案的问题,在目标语料库内,各标准问题相互不重复;
关联问题是从业务流程上,与标准问题对应的向上延伸问题或向下延伸问题,该关联问题对应有标准答案;
相似问题是与标准问题的问法不同,但语义相似、且可以用同一个答案来回答的问题;
答案是分别对应于标准问题、关联问题及相似问题的标准答案。
进一步地,按照语料模型对应的样式模板组织各标准问题对应的格式数据,包括;
在样式模板中,将标准问题作为当前的问题,占一个内容格;
向标准问题附加其对应的类别标记,类别标记占一个内容格;
向标准问题附加其对应的各相似问题,每一个相似问题占一个内容格;
向标准问题附加其对应的关联问题,每一个关联问题占一个内容格;
向标准问题附加其对应的标准答案,标准答案占一个内容格。
应该理解为,这里的内容格可以为数据库中的一个记录项,可以为excel文档中的一个记录格,也可以为word文档中的一个文本区域和/或图片区域。
进一步地,利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相同的多个问题,并保留其中一个问题作为标准问题保留,将其他问题删除。
进一步地,利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到相似问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相似的多个问题,保留其中一个问题作为标准问题,将其他问题标记为该标准问题的相似问题。
进一步地,按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库,包括:
目标平台的目标语料库为word文档的形式;
在获取到答案中的文本后,将该文本写入到目标word语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到目标word语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,下载图片并将下载的图片插入到目标word语料文档中;
在获取到答案中图片对应的超链接地址后,下载图片并将下载的图片插入到目标word语料文档中;
在目标word语料文档中,答案中的文本、图片和网址保留在源语料库中的先后顺序。
进一步地,将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库,包括:
将目标word语料文档上传到目标平台的智能客服的后台,后台在训练智能客服的过程中,生成由目标平台的智能客服使用的知识库;目标平台的智能客服利用知识库提供税务智能客户服务。
进一步地,在待迁移的原有平台的源语料库为excel文档的形式时,
在获取到答案中的文本后,将该文本写入到中间txt语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到中间txt语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,将存储地址写入到中间txt语料文档中;
在获取到答案中图片对应的超链接地址后,将超链接地址写入到中间txt语料文档中;
在中间txt语料文档中,答案中的文本、图片和网址保留在源语料库中的先后顺序。
进一步地,税务智能客服应用中,问题的类别标记包括:注册、登录、开发票、发票管理。
应该理解为,具体实施时,在迁移源语料库时,根据问题的内容将问题进行分类,并为问题附加对应的类别标记,以便于后续在使用目标语料库时,进行分类搜索,提高搜索效率。
后续使用目标语料库,包括以下场景:
将该目标语料库上传到智能客服的后台,通过训练智能客服,生成用于提供客户服务的知识库中。该智能客服上线后,通过后台在线提供客户服务。针对接收到的用户在对话窗口咨询的问题,智能客服通过检索知识库及调用预先训练的规则,在对话窗口显示针对该咨询问题的答案。
应该理解为,具体实施时,类别标记根据业务类型预先确定。如,某税务智能客服应用中,可提供咨询的问题种类包括:注册、登录、开发票、发票管理等。例如注册有关的问题中,“如何注册”分在“注册”的类别。例如登录有关的问题中,“登录不了”就分在“登录”的类别。例如,发票管理有关的问题中,“Ukey发票管理”,就分在“发票管理”的类别。
应该理解为,采用数字、文字、符号、及标点的组合(称为文本)来记载用户可能咨询的问题,也即通过人机接口获取的用户问题。
知识管理员根据税务智能客服的服务范围、服务特点及业务规则,并根据实际答疑的具体情况,将用户问题分为关联问题、相似问题、标准问题,并确定适用于目标平台的语料模型。
具体实施时,智能客服在线服务时,作为日志的一部分,同步地记录用户问的问题及提供的匹配该问题的答案。
具体地,构建目标平台的语料模型,包括:
1.1)、标准问题
标准问题是对应有标准答案的问题。标准问题在语料库或知识库内,是不可重复的。这里的不可重复,是指标准问题本身可以作为语料库内的标识,在后续知识搜索时作为关键词或索引来使用。
具体地,一个标准问题一定对应有一个答案;
而一个答案可能对应于多个标准问题。
为了便于后续智能客服进行知识检索,通常,一个标准问题一定对应有一个类别标识。
例如:用户在平台的咨询入口通过语音或文字反馈的“不能进行实时认证”就是一个排他的标准问题;在语料库中,没有另一个标准问题与该标准问题的内涵或外延是相同的。
应该理解为,针对税务智能客服的目标平台,其预先设定的全部的标准问题以枚举的方式记载在语料文档内。
另外,一个标准问题通常可以作为另一个标准问题的关联问题。
1.2)、关联问题
关联问题是从业务流程上,一个标准问题对应的向上延伸或向下延伸的问题。例如咨询了注册之后,有可能接下来就咨询登录问题,因此把登陆问题作为注册问题的关联问题,将登陆问题挂在注册问题上。
应该理解为,关联问题本身也是标准问题;在其对应的标准问题有关的知识范畴内,该关联问题以关联问题而存在且具有定向跳转的功能。
具体地,一个标准问题可以对应有多个关联问题,或者不具有关联问题。
在语料库或知识库中,一个标准问题的关联问题可以通过该标准问题直接且唯一地确定。
具体实施时,关联问题是在编辑语料时,手动添加至与其关联的标准问题的格式数据中的。
当用户在对话窗口询问的时候,在与该标准问题对应的答案显示之后,与该标准问题对应的全部的关联问题随后在用户聊天的界面显示;当用户点击其中某一个关联问题时,就相当于用户在咨询这个关联问题,客服机器人再将与这个关联问题对应的答案回复给用户/显示在聊天界面。
1.3)、相似问题
相似问题是指与标准问题的问法不同,但问题的语义相似的、且可以用同一个答案来回答的问题。相似问题,可以理解为换了一个问法的标准问题。相似问题的语义与标准问题从语义理解上是大体一致的。各相似问题对应的答案与该标准问题对应的答案相同。
例如:以下是可以等同为“不能进行实时认证”这一标准问题的5个相似问题:
相似问题:1、采集认证界面实时认证按钮是灰色的?
相似问题:2、实时认证的按钮是灰色是要安装插件吗?
相似问题:3、实时认证是灰色的。
相似问题:4、为什么不能进行实时认证,那个按钮是灰色的?
相似问题:5、实时认证点不了。
应该理解为,该语料模型对应有一个语料模板。该语料模板中,每一条语料以问题本身作为检索时的索引来使用。
应该理解为,语料库为动态更新的,并不是固定不变的。在税务智能客服开发、使用及维护的过程中,可以持续更新语料,如增加语料、删除语料或编辑语料(如对语料进行修改或调整)。
1.4)、答案
各标准问题、各关联问题、各相似问题均分别对应有一个答案,也即,答案不会为空或Null。答案的样式模板中,包含以下样式元素:
1、字体。字体以粗体、斜体、或下划线等样式组合后呈现;
2、字号。字号分为大、中、小三种字号,可选择;
3、行级图片。行级图片是在模板中占一行的图片;也就是说,该行中,除外该图片,再无其他显示内容(如,文字或符号);可以有多个行级图片。
4、超链接。超链接记载为超链接的地址。用户在对话窗口中点击该超链接后,对应的内容页面以新建页面展示。
超链接对应的页面将以新页面打开,一般不会在聊天框/对话窗口内显示超链接的内容。
5、无序列表:无序列的列表。
6、有序列表:以递增或递减的阿拉伯数字为序号的列表。
具体实施时,针对具体问题的答案,可以只有文本(包括超链接)、只有图片(至少一张),或者图文结合。通常,图文结合,既有文字又有图片或超链接,称为富文本格式的答案。
在向用户展示回复的答案时,通常展示图片的原始大小而不是与屏幕尺寸成比例的缩略图。用户可以通过增大浏览页面(如,浏览器)的显示比例,达到使图片以更大尺寸显示的目的。
另外,行级图片的行距是不定义的;可以间隔单行或多行;并且在模板中设置为多行行距时,待语料从知识库中被检索到并在用户对话窗口显示时,也只有一行的行距。
某包含图片及文本行的答案示例展示图3所示。
1.5)、语料模型的样式模板
某税务智能客服平台的语料模型的样式模板如下表1所示。应该理解为,表1中各内容格的顺序和展示样式仅作为示例,并不用于限制语料模型的样式模板。
表1、语料模型的样式模板示例
以标准问题为索引,其对应格式数据包括:类别标记、关联问题、相似问题及答案。
该语料模型的样式模板中,标准问题也即当前的问题行;类别标记占样式模板中的一个内容格;各相似问题分别占样式模板中的一个内容格;标准问题对应的答案占样式模板中的一个内容格。
标准问题及与其对应的全部相似问题对应相同的答案。
具体地,根据获取的源语料库,生成适用于目标平台的目标语料库,包括:
2.1)、对源语料库中的问题去重
源语料库/源知识库在经过长期、多人的维护后,随着知识的增加、删除、修改,可能会出现在多个相同问题出现多次的结果。而具体实施时,知识维护人员,面对庞大的知识语料,为了效率等因素考量,有时候并不会做整体上的删除操作。因此,需要对问题进行去重处理。
从源知识库的知识分别对应的源语料中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相同的多个问题,并保留其中一个问题作为标准问题保留,将其他问题删除。
2.2)、对语料中的相似问题去重
从源知识库的知识分别对应的源语料中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相似的多个问题,保留其中一个问题作为标准问题,将其他问题标记为该标准问题的相似问题。
若某一标准问题没有搜索到相似问题,也没有预先定义的相似问题,则从目标语料文档中删去为相似问题预留的内容格。也即,目标语料文档中不留没有内容的空行。
以下具体展示通过搜索源语料文档,对其对重复之处进行去重操作的步骤。
X省的excel源语料数据如图4所示。按照目标平台的语料模型的样式模板对该待迁移的语料库进行改造。具体地,将图4中的标准问法替换为相应的标准问题;将关联问题答案作为标准问题的答案进行提取;将其关联问题调整为该标准问题的相似问题。
具体地,在某源excel语料文档中,同一个标准问题出现了8次;因为标准问题在新的目标语料文档中是唯一的,所以需要把重复的7次删除。具体地,针对该源excel语料文档去重时,因记载在第一列的8行中记载的标准问题一致,则将后面7行的标准问题删掉;若第二列仍有重复,仍需删除重复项。但如果第三列的相似问题有重复,则不需要删除重复项。
进一步地,将记载在第二列的关联问题分别作为其他的标准问题写入目标word语料文档中。
具体地,目标Word语料文档中标准问题不能重复(也即,目标Word语料文档中同一个标准问题只能被记载一次),相似问题可以重复(也即,目标Word语料文档中,同一个相似问题可以被记载多次)。
具体实施时,采用代码编程实现以上去重步骤,得到目标语料文档。
具体实施时,去重步骤包括:搜索存在重复标准问题、关联问题及相似问题的源语料文档,并在确定重复项后进行相应的删除操作。
2.3)、提取答案内容,生成目标语料库
进一步地,搜索源语料,生成与各标准问题分别对应的答案。具体地,各答案涉及提取以下三类内容:文本、图片和网址。
具体实施时,从现有平台的知识库/语料库中获取的语料,以excel文档和/或word文档的形式存储。因为Excel语料文档中不能插入图片作为答案。而目前的情况是,各类问题的答案多需要以图片格式呈现。因此,需要将源Excel语料文档转换成目标word文档。
具体实施时,从现有平台的知识库/语料库以正则匹配的方式提取文字、图片地址和网址时,可以利用如下命令行:
匹配图片地址:re.compile("src=\\S*")
匹配文字:re.compile(">[^<]+<")
匹配网址:re.compile("href=\\S*")。
具体实施时,文本夹在符号“>”与符号“<”之间;具体地,在获取到文本后,将其插入到txt文件或目标word语料文档中;
具体实施时,图片地址以“src=”开头;具体地,在获取到图片的存储地址后,下载图片并插入到目标word语料文档中;
具体实施时,网址以“href=”开头;具体地,在获取到网址后,以超链接的形式将该网址写入到目标word语料文档中。
特别地,为了保证语义上的逻辑,在写入到目标word语料文档中时,文本、图片和网址等这三类内容仍旧保留源语料中的先后顺序,如图5所示。
具体地,将源Excel语料文档处理为目标word语料文档时,包括以下步骤:
1、删除第一行表头;表头包括:标准问题、关联问题、相似问题、答案等展示语料要素属性的关键词。
2、对各列去重,删除重复的记录项;
3、将excel另存为以制表符\t分隔的txt文件;
4、读取txt文件内容,提取标准问题、关联问题、相似问题、答案等内容写入word文档。
以上步骤中,在Excel语料文档中删除重复的问题后,另存为以制表符\t分隔的txt文件,以方便后续读取和写入到word语料文档。这里,txt文件作为是中间文件,用于进一步处理得到word语料文档。
应该理解为,这里“以制表符\t分隔”是指将标准问题、相似问题、关联问题、答案等采用制表符分隔。
具体地,针对Excel里以链接的形式记载的图片,通过点击链接访问对应的图片,并将图片插入到word文档内。
转换好的目标word语料文档中,可能会出现图片插入后word文档较大的情况,但是,目标平台选择的数据组织方式/存储方式,可以兼容大容量的word文件,并支持针对大容量文件的搜索或调用,因此,不会影响后续语料的上传、下载、搜索、使用及在对话窗口内展示。
具体地,根据目标语料库,完成源语料库的跨平台迁移,包括:
转换好的目标word语料文档即为源语料库跨平台迁移后生成的目标语料库。该目标语料库上传到智能客服的后台,通过训练智能客服,生成用于提供客户服务的知识库。
该智能客服上线后,通过后台在线提供客户服务。针对接收到的用户在对话窗口咨询的问题,智能客服通过检索知识库及调用预先训练的规则,在对话窗口显示针对该咨询问题的答案。
在后续智能客服平台运行及维护时,通过编辑当前的目标word语料文档,可以生成新的目标语料库,用于训练智能客服,以用于改进智能客服的搜索效率及准确度。
综上,相较于目前智能客服跨平台无法共用知识库/语料库的现象,本实施例的方法可以快速、准确地将智能客服原有平台的语料库迁移到智能客服的目标平台中,完成语料跨平台迁移,解决了因为语料模型不匹配导致语料库建立失败的问题,降低了在因平台使用期限到期而导致的建立语料模型的成本,满足了智能客服系统对语料的精确搜索,逐步提升了纳税人对客户服务的满意度。
第二方面,本发明实施例的跨平台税务智能客服语料迁移装置,包括:
源语料库去重模块,用于:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
答案提取模块,用于:从原有平台的源语料库中,分别提取与各标准问题对应的答案;
目标语料库组织模块,用于:按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
目标语料库迁移模块,用于:将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
该跨平台税务智能客服语料迁移装置为与第一方面中的跨平台税务智能客服语料迁移方法对应的装置,具有与该跨平台税务智能客服语料迁移方法相同的技术构思、技术方案及技术效果,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (8)

1.一种跨平台税务智能客服语料迁移方法,其特征在于,包括:
利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;其中,所述预先构建的目标平台的语料模型中,以标准问题为索引,
所述标准问题对应的格式数据包括:标准问题、类别标记、关联问题、相似问题及答案;
其中,标准问题是对应有标准答案的问题,在目标语料库内,各标准问题相互不重复;
关联问题是从业务流程上,与标准问题对应的向上延伸问题或向下延伸问题,该关联问题对应有标准答案;
相似问题是与标准问题的问法不同,但语义相似、且可以用同一个答案来回答的问题;
答案是分别对应于标准问题、关联问题及相似问题的标准答案;
从原有平台的源语料库中,分别提取与各标准问题对应的答案;
按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;其中,所述按照语料模型对应的样式模板组织各标准问题对应的格式数据,包括:
在所述样式模板中,将标准问题作为当前的问题,占一个内容格;
向标准问题附加其对应的类别标记,所述类别标记占一个内容格;
向标准问题附加其对应的各相似问题,每一个相似问题占一个内容格;
向标准问题附加其对应的关联问题,每一个关联问题占一个内容格;
向标准问题附加其对应的标准答案,所述标准答案占一个内容格;
将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
2.根据权利要求1所述的方法,其特征在于,
所述利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相同的多个问题,并保留其中一个问题作为标准问题保留,将其他问题删除。
3.根据权利要求2所述的方法,其特征在于,
所述利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到相似问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相似的多个问题,保留其中一个问题作为标准问题,将其他问题标记为该标准问题的相似问题。
4.根据权利要求3所述的方法,其特征在于,
所述按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库,包括:
所述目标平台的目标语料库为word文档的形式;
在获取到答案中的文本后,将该文本写入到目标word语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到目标word语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,下载图片并将下载的图片插入到目标word语料文档中;
在获取到答案中图片对应的超链接地址后,下载图片并将下载的图片插入到目标word语料文档中;
在目标word语料文档中,所述答案中的文本、图片和网址保留在源语料库中的先后顺序。
5.根据权利要求4所述的方法,其特征在于,
所述将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库,包括:
将所述目标word语料文档上传到目标平台的智能客服的后台,所述后台在训练智能客服的过程中,生成由目标平台的智能客服使用的知识库;所述目标平台的智能客服利用所述知识库提供税务智能客户服务。
6.根据权利要求5所述的方法,其特征在于,
在所述待迁移的原有平台的源语料库为excel文档的形式时,
在获取到答案中的文本后,将该文本写入到中间txt语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到中间txt语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,将所述存储地址写入到中间txt语料文档中;
在获取到答案中图片对应的超链接地址后,将所述超链接地址写入到中间txt语料文档中;
在中间txt语料文档中,所述答案中的文本、图片和网址保留在源语料库中的先后顺序。
7.根据权利要求6所述的方法,其特征在于,
所述税务智能客服应用中,问题的类别标记包括:注册、登录、开发票、发票管理。
8.一种跨平台税务智能客服语料迁移装置,其特征在于,包括:
源语料库去重模块,用于:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;其中,所述预先构建的目标平台的语料模型中,以标准问题为索引,
所述标准问题对应的格式数据包括:标准问题、类别标记、关联问题、相似问题及答案;
其中,标准问题是对应有标准答案的问题,在目标语料库内,各标准问题相互不重复;
关联问题是从业务流程上,与标准问题对应的向上延伸问题或向下延伸问题,该关联问题对应有标准答案;
相似问题是与标准问题的问法不同,但语义相似、且可以用同一个答案来回答的问题;
答案是分别对应于标准问题、关联问题及相似问题的标准答案;
答案提取模块,用于:从原有平台的源语料库中,分别提取与各标准问题对应的答案;
目标语料库组织模块,用于:按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;其中,所述按照语料模型对应的样式模板组织各标准问题对应的格式数据,包括:
在所述样式模板中,将标准问题作为当前的问题,占一个内容格;
向标准问题附加其对应的类别标记,所述类别标记占一个内容格;
向标准问题附加其对应的各相似问题,每一个相似问题占一个内容格;
向标准问题附加其对应的关联问题,每一个关联问题占一个内容格;
向标准问题附加其对应的标准答案,所述标准答案占一个内容格;
目标语料库迁移模块,用于:将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
CN202011131586.7A 2020-10-21 2020-10-21 跨平台税务智能客服语料迁移方法及装置 Active CN112418875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011131586.7A CN112418875B (zh) 2020-10-21 2020-10-21 跨平台税务智能客服语料迁移方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011131586.7A CN112418875B (zh) 2020-10-21 2020-10-21 跨平台税务智能客服语料迁移方法及装置

Publications (2)

Publication Number Publication Date
CN112418875A CN112418875A (zh) 2021-02-26
CN112418875B true CN112418875B (zh) 2024-03-26

Family

ID=74841567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011131586.7A Active CN112418875B (zh) 2020-10-21 2020-10-21 跨平台税务智能客服语料迁移方法及装置

Country Status (1)

Country Link
CN (1) CN112418875B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434657B (zh) * 2021-07-21 2023-04-07 广州华多网络科技有限公司 电商客服应答方法及其相应的装置、设备、介质
US20230259791A1 (en) * 2022-02-15 2023-08-17 International Business Machines Corporation Method and system to transfer learning from one machine to another machine

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016008453A1 (zh) * 2014-07-18 2016-01-21 上海触乐信息科技有限公司 智能服务交互平台装置、系统及其实现方法
CA2918806A1 (en) * 2015-01-22 2016-07-22 Gubagoo Inc. Systems and methods for call backup and takeover using web and mobile interfaces
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN109658114A (zh) * 2018-12-21 2019-04-19 万达信息股份有限公司 大型语料库的高效智能客服方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110990546A (zh) * 2019-11-29 2020-04-10 中国银行股份有限公司 智能问答语料库更新方法和装置
CN111654581A (zh) * 2020-04-30 2020-09-11 南京智音云数字科技有限公司 一种智能对话机器人控制方法及系统
CN111767382A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 生成反馈信息的方法、装置及终端设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098737A1 (en) * 2014-10-06 2016-04-07 International Business Machines Corporation Corpus Management Based on Question Affinity
US9940370B2 (en) * 2015-01-02 2018-04-10 International Business Machines Corporation Corpus augmentation system
US10229188B2 (en) * 2015-12-04 2019-03-12 International Business Machines Corporation Automatic corpus expansion using question answering techniques
US11157536B2 (en) * 2016-05-03 2021-10-26 International Business Machines Corporation Text simplification for a question and answer system
US11734328B2 (en) * 2018-08-31 2023-08-22 Accenture Global Solutions Limited Artificial intelligence based corpus enrichment for knowledge population and query response
US11113475B2 (en) * 2019-04-15 2021-09-07 Accenture Global Solutions Limited Chatbot generator platform

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016008453A1 (zh) * 2014-07-18 2016-01-21 上海触乐信息科技有限公司 智能服务交互平台装置、系统及其实现方法
CA2918806A1 (en) * 2015-01-22 2016-07-22 Gubagoo Inc. Systems and methods for call backup and takeover using web and mobile interfaces
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN109658114A (zh) * 2018-12-21 2019-04-19 万达信息股份有限公司 大型语料库的高效智能客服方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110990546A (zh) * 2019-11-29 2020-04-10 中国银行股份有限公司 智能问答语料库更新方法和装置
CN111654581A (zh) * 2020-04-30 2020-09-11 南京智音云数字科技有限公司 一种智能对话机器人控制方法及系统
CN111767382A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 生成反馈信息的方法、装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于购买意向的移动电子商务智能客服系统;蔡志文;林建宗;;科技管理研究(18);全文 *

Also Published As

Publication number Publication date
CN112418875A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
US11294968B2 (en) Combining website characteristics in an automatically generated website
CN109074383B (zh) 文档背景内可视化的文档搜索
US7606797B2 (en) Reverse value attribute extraction
CN112418875B (zh) 跨平台税务智能客服语料迁移方法及装置
CN101667118A (zh) 多语言版本的开发、替换方法及装置
US20170109442A1 (en) Customizing a website string content specific to an industry
US20150278248A1 (en) Personal Information Management Service System
CN112926299B (zh) 一种文本比对方法、合同审阅方法、审核系统
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN111695518A (zh) 结构化文档信息标注的方法、装置及电子设备
US10261987B1 (en) Pre-processing E-book in scanned format
CN113407678B (zh) 知识图谱构建方法、装置和设备
US10452412B2 (en) Graphical user interface for non-hierarchical file system
CN114861614A (zh) 用于填充数据的方法及装置、电子设备、介质
CN111291042B (zh) 一种用于供电服务的电力数据处理系统及方法
CN114579796A (zh) 机器阅读理解方法及装置
CN113742291A (zh) 一种文件保存方法、装置以及计算机存储介质
Kumar et al. Implementation of MVC (Model-View-Controller) design architecture to develop web based Institutional repositories: A tool for Information and knowledge sharing
US8782519B1 (en) Systems and methods for archiving and displaying lengthy documents based on content priority levels
CN110851517A (zh) 一种源数据抽取方法、装置、设备及计算机存储介质
CN114024955B (zh) 基于rpa及ai的文件处理方法、装置、设备及介质
CN115270748B (zh) 文件生成方法、装置、电子设备和存储介质
CN115659182B (zh) 一种模型更新方法、装置及设备
JP3734391B2 (ja) 個体名の抽出装置、抽出方法、並びに記録媒体
CN113688607A (zh) 在线文档作者的画像更新方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant