CN114265921A - 问答知识库构建方法及其装置、设备、介质、产品 - Google Patents
问答知识库构建方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN114265921A CN114265921A CN202111638989.5A CN202111638989A CN114265921A CN 114265921 A CN114265921 A CN 114265921A CN 202111638989 A CN202111638989 A CN 202111638989A CN 114265921 A CN114265921 A CN 114265921A
- Authority
- CN
- China
- Prior art keywords
- question
- text
- reply
- texts
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000009411 base construction Methods 0.000 title claims abstract description 18
- 230000036961 partial effect Effects 0.000 claims abstract description 13
- 230000000717 retained effect Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 73
- 238000012549 training Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 25
- 238000010276 construction Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 20
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 23
- 238000003062 neural network model Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种问答知识库构建方法及其装置、设备、介质、产品,所述方法包括:获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;将与问答知识库内问题单元中的问题文本实现语义匹配的问句文本添加至该问题单元中;将与该问句文本相对应的答案文本配置为所述问题单元相对应的回复单元中的回复文本;确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本。本申请基于语料的有效优选与基于语义的精准匹配构建出的问答知识库,能够全面提升智能客服系统的智能化程度。
Description
技术领域
本申请涉及智能客服技术领域,尤其涉及一种问答知识库构建方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
目前,在电商场景上,由于顾客的咨询问题较多,一般商家会配置相应的智能客服机器人来辅助客服解答问题,但是智能客服机器人常无法有效回答顾客的各类问题,或者顾客对智能客服机器人的回答不满意,因此,针对不同的问题提供优质的话术就会显得尤为重要。
现阶段,智能客服系统一般均会根据自己服务的业务渠道或者业务场景建立相应的知识库。知识库一般包含标准问题、相似问题以及问题答案。问题答案一般是由业务人员通过对业务知识的理解,或者查询一些优秀的人工客服的回复后,再进行答案的编辑,最后存入知识库中。由于业务人员的水平参差不齐,对问题答案的编写也便存在偏差。由于问题答案会直接显示到智能客服的前端,是与顾客聊天必不可少的环节,如果答案编写优秀,容易为商家带来商品交易总额、服务质量的提升等。
实践中,依靠大量的业务人员从海量的聊天记录中取材或者参考历史聊天记录进行问题答案的编写,是相当低效的,而且成本高昂,这对于改进智能客服系统的回复准确性及有效性而言,收效甚微。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种问答知识库构建方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种问答知识库构建方法,包括如下步骤:
获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;
将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中;其中,每个所述的问题单元包括一个或多个所述的问题文本,其中一个问题文本作为标准问题,余者均为该标准问题的相似问题;
将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元相对应的回复单元中的回复文本;
确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建。
具体化的实施例中,获取语料数据库,包括如下步骤:
从预设的智能客服系统中调用全量聊天记录;
对所述聊天记录进行数据清洗,将其中由该智能客服系统自动应答的聊天记录删除,仅保留人工客服用户应答的聊天记录,使被保留的每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;
将被保留的聊天记录存储至语料数据库中。
具体化的实施例中,将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中,包括如下步骤:
采用预先训练至收敛状态的文本提取第一模型,提取所述问答知识库内各个问题单元中各个问题文本的句向量;
采用所述文本提取第一模型,提取所述语料数据库中各个问句文本的句向量;
计算所述每个问句文本的句向量与每个所述的问题文本的句向量之间的数据距离,确定数据距离相对应的相似距离评分;
为每个问句文本保留一个分值最高的相似距离评分,获得所有问句文本与其最相似的问题文本之间的相似距离评分所构成的评分序列;
筛选出评分序列中相似距离评分超过预设阈值的元素,将每一元素所对应的问句文本作为与该元素所对应的问题文本实现语义匹配的问句文本,将该问句文本添加至该问题文本所在的问题单元中构成相似问题。
扩展的实施例中,所述文本提取第一模型的训练过程,包括如下步骤:
采用所述问答知识库内一个问题单元中的一个相似问题为正样本,或采用另一问题单元中的相似问题为负样本,输入所述文本提取第一模型提取句向量;
通过分类器将该文本提取第一模型进行二分类映射,获得相应的分类标签;
以所述正样本相似问题相对应的标准问题为监督标签,计算该分类标签的损失值,若该损失值达到预设阈值而达到收敛状态,终止训练;否则,实施梯度更新,采用下一样本实施迭代训练。
具体化的实施例中,确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建,包括如下步骤:
采用预先训练至收敛状态的文本提取第二模型,提取出所述问答知识库内每个回复单元中的每个回复文本的句向量;
计算表征每个回复单元中两两回复文本的句向量之间的数值距离的相似距离评分,获得该回复单元中每个回复文本与该回复单元中各个回复文本之间的相似距离评分构成的相似距离评分序列;
根据每个回复单元中的每个回复文本的所述相似距离评分序列,计算每个回复文本相对应的平均相似距离评分;
将每个回复单元中,平均相似距离评分低于预设阈值的回复文本删除,只保留平均相似距离评分高于该预设阈值的回复文本以完成该问答知识库的构建。
扩展的实施例中,完成该问答知识库的构建之后,包括如下步骤:
将所述问答知识库接入预设的智能客服系统,由该智能客服系统响应提问用户提出的问句文本,从该问答知识库中确定与该问句文本构成语义相匹配的回复单元,以该回复单元中的回复文本之一应答该问句文本。
适应本申请的目的之一而提供的一种问答知识库构建装置,包括:语料调用模块、问题匹配模块、答案配置模块,以及挖掘构建模块,其中,所述语料调用模块,用于获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;所述问题匹配模块,用于将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中;其中,每个所述的问题单元包括一个或多个所述的问题文本,其中一个问题文本作为标准问题,余者均为该标准问题的相似问题;所述答案配置模块,用于将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元相对应的回复单元中的回复文本;所述挖掘构建模块,用于确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建。
具体化的实施例中,所述语料调用模块,包括:数据获取单元,用于从预设的智能客服系统中调用全量聊天记录;数据清洗单元,用于对所述聊天记录进行数据清洗,将其中由该智能客服系统自动应答的聊天记录删除,仅保留人工客服用户应答的聊天记录,使被保留的每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;数据存储单元,用于将被保留的聊天记录存储至语料数据库中。
具体化的实施例中,所述问题匹配模块,包括:问题提取单元,用于采用预先训练至收敛状态的文本提取第一模型,提取所述问答知识库内各个问题单元中各个问题文本的句向量;问句提取单元,用于采用所述文本提取第一模型,提取所述语料数据库中各个问句文本的句向量;距离评分单元,用于计算所述每个问句文本的句向量与每个所述的问题文本的句向量之间的数据距离,确定数据距离相对应的相似距离评分;排他处理单元,用于为每个问句文本保留一个分值最高的相似距离评分,获得所有问句文本与其最相似的问题文本之间的相似距离评分所构成的评分序列;问句添加单元,用于筛选出评分序列中相似距离评分超过预设阈值的元素,将每一元素所对应的问句文本作为与该元素所对应的问题文本实现语义匹配的问句文本,将该问句文本添加至该问题文本所在的问题单元中构成相似问题。
扩展的实施例中,所述文本提取第一模型由训练装置执行训练任务,该训练装置包括:样本调用模块,用于采用所述问答知识库内一个问题单元中的一个相似问题为正样本,或采用另一问题单元中的相似问题为负样本,输入所述文本提取第一模型提取句向量;分类映射模块,用于通过分类器将该文本提取第一模型进行二分类映射,获得相应的分类标签;监督迭代模块,用于以所述正样本相似问题相对应的标准问题为监督标签,计算该分类标签的损失值,若该损失值达到预设阈值而达到收敛状态,终止训练;否则,实施梯度更新,采用下一样本实施迭代训练。
具体化的实施例中,所述答案配置模块,包括:回复提取单元,用于采用预先训练至收敛状态的文本提取第二模型,提取出所述问答知识库内每个回复单元中的每个回复文本的句向量;评分量化单元,用于计算表征每个回复单元中两两回复文本的句向量之间的数值距离的相似距离评分,获得该回复单元中每个回复文本与该回复单元中各个回复文本之间的相似距离评分构成的相似距离评分序列;均值计算单元,用于根据每个回复单元中的每个回复文本的所述相似距离评分序列,计算每个回复文本相对应的平均相似距离评分;回复清理单元,用于将每个回复单元中,平均相似距离评分低于预设阈值的回复文本删除,只保留平均相似距离评分高于该预设阈值的回复文本以完成该问答知识库的构建。
扩展的实施例中,本申请的问答知识库构建装置,还包括:知识库接入模块,用于将所述问答知识库接入预设的智能客服系统,由该智能客服系统响应提问用户提出的问句文本,从该问答知识库中确定与该问句文本构成语义相匹配的回复单元,以该回复单元中的回复文本之一应答该问句文本。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的问答知识库构建方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的问答知识库构建方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
首先,本申请在构建可供智能客服系统使用的问答知识库时,采用提问用户与人工客服用户一问一答形成的聊天记录为语料,在聊天记录中匹配出与问答知识库中预先提供的问题单元中的问题文本在语义上构成相似的提问用户的问句文本,将该问句文本作为该问题文本所关联的标准问题的相似问题,并且将该问句文本相对应的下一句由人工客服用户应答的答案文本作为该标准问题相对应的回复单元中的回复文本,使该问答知识库中,与问题单元相对应的回复单元内的回复文本得到充盈。在此基础上,进一步对每个回复单元内的多个回复文本进行优选,通过比较每个回复文本到其他各个回复文本之间的数据距离相对应的平均相似距离评分,选取评分较高的部分回复文本作为保留的目标回复文本,从而实现对从语料数据库挖掘出的回复文本的优选,实现自动化地利用语料数据库构建问答知识库。由于语料数据库中的答案文本是人工客服用户所回复的内容,具有真人表达语感,且通常也更匹配问题本身,因此,当其被用于智能客服系统中对应回复相关提问用户时,一方面可以使回复更为准确,另一方面也可改善用户体验。
其次,本申请在利用语料数据库构建问答知识库的过程中,在进行问题文本与问句文本的匹配时,利用了彼此之间的语义关联性,而在后续对预选入问答知识库中的回复文本进行优选时,也同样采用数据距离算法从语义层面量化了各个回复文本之间的相似性,基于语义进行文本的相似性进行考察,可以确保所匹配出的对象在含义和意思上更为相关,强化了文本之间的相关性,使最终获得的结果更为精准,因此,对于海量聊天记录而言,采用本申请的技术方案,无需依赖人工处理,便可实现问答知识库的有效构建,大大节省构建成本,且大幅提升构建效率。
此外,本申请基于语料的有效优选与基于语义的精准匹配构建出的问答知识库,能够全面提升智能客服系统的智能化程度,使电商平台之类的大型客服场景能够免除大量的人力工作,而节省相应的实施成本,取得规模化经济效用。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的问答知识库构建方法的典型实施例的流程示意图;
图2为本申请实施例中获取语料数据库过程的流程示意图;
图3为本申请实施例中从语料数据库中选取问句文本添加至问答知识库的过程的流程示意图;
图4为本申请实施例中的文本特征提取第一模型被训练过程的流程示意图;
图5为本申请实施例中对问答知识库中每个回复单元的回复文本进行优选的过程的流程示意图;
图6为本申请的问答知识库构建方法的扩展实施例的流程示意图;
图7为本申请的问答知识库构建装置的原理框图;
图8为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种问答知识库构建方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
本申请示例性的一个应用场景,是基于独立站的电商平台中的应用,每个独立站即为电商平台的一个商户实例,拥有独立的访问域名,由其实际拥有者负责进行商品的发布和更新。
每个独立站的商户实例均可配置电商平台提供的智能客服系统实现引入智能客服机器人,利用智能客服系统用于为相关的消费者用户提供咨询服务,消费者用户进入该商户实例相应的智能客服界面,输入需要咨询的问题,作为问句文本,电商平台的智能客服系统接收该问句文本后,利用该问句文本与为该独立站预配置的问答知识库中的问题单元中的标准问题进行语义匹配,匹配出与该问句文本在语义上最相近似的标准问题,然后,调用与该标准问题相映射的预先存储的回复单元中的一个回复文本,输出至该智能客服界面中,借助应答消费者用户的提问,满足其咨询需求。
在消费者用户作为提问用户与智能客服机器人进行聊天的过程中,通常会允许提问用户引入人工客服,当接入人工客服时,智能客服系统便将建立该提问用户与独立站的人工客服用户之间的对话通道,由双方继续进行人工对话,于是,提问用户输入问句文本,人工客服用户回复答案文本,轮替产生聊天数据。
基于智能客服界面聊天所产生的聊天记录,包括提问用户提出的问句文本以及人工客服用户人工回复或机器人自动回复的答案文本,均会被携带发言者特征信息而存档,存储于数据库中,可被用做数据挖掘之用,例如本申请将调这一数据库中的聊天记录作为其语料数据库使用。
除此之外,本申请的智能客服系统的应用场景当然也不受限于电商平台,实际上,但凡需要采用人机对话的领域,理论上均可采用本申请的技术方案进行处理。故此,本申请关于应用场景的示例,仅为方便读者理解的需要而给出,故本领域技术人员应当知晓,不应以本申请示例性的应用场景对本申请的创造精神所应涵盖的范围加以任何限制。
请参阅图1,本申请的问答知识库构建方法在其典型实施例中,包括如下步骤:
步骤S1100、获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本:
如前所述,智能客服系统在服务于提问用户的过程中,因应提问用户与人工客服用户之间的对话,会产生一系列的聊天记录,这些聊天记录中,通常可被处理为一问一答的组织形式。具体而言,如果存在一问多答的情况,或者多问一答的情况,可以预先进行数据清理,一种实施方式中,可将连续的多个答案合并为一句,同理可将连续的多个问句合并为单句。聊天记录中的问句及答案,主要取其文本部分,故本申请主要采用其问句文本及答案文本的内容。
据此,不难理解,提问用户与人工客服用户之间聊天对话首先的聊天记录中,包含一问一答形式的问句文本及其相对应的答案文本,每个问句文本一般均有其相对应的答案文本,这些聊天记录可从智能客服系统的聊天记录数据库中获取,进一步被构造为本申请所需的语料数据库。
步骤S1200、将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中;其中,每个所述的问题单元包括一个或多个所述的问题文本,其中一个问题文本作为标准问题,余者均为该标准问题的相似问题:
为了确定所述语料数据库中的对话内容对于本申请的问答知识库的参考价值,需要将语料数据库中的问句文本与所述问答知识库中预备的问题文本进行语义匹配,在此基础上进一步完善问答知识库。
所述的问答知识库,为智能客服系统所预备,本步骤中,所述问答知识库包括多个问题单元和与每个问题单元相对应的回复单元。每个问题单元对应存储一个标准问题及与该标准问题在语义上构成相似的相似问题,标准问题及相似问题均以问题文本的形式存储,而每个回复单元则包含用于应答其相应的问题单元中的标准问题或相似问题的多个回复文本。
为了将所述的问句文本与所述各个问题单元中的问题文本进行语义匹配,事先可采用预先训练至收敛状态的第一深度神经网络模型对问答知识库中的全量问题文本一一进行语义提取,获得表示其深层语义信息的句向量,将该句向量与该句向量相应的问题文本关联存储于问答知识库中以备调用。
同理,对于所述语料数据库中的各个问句文本,也采用该第一深度神经网络模型对其进取表示其深层语义信息的句向量,然后将其关联该问句文本存储于所述的语料数据库中,以备调用。
所述的第一深度神经网络模型,专用于本申请中问题文本、问句文本的表示学习,可为基于CNN、RNN实现的卷积神经网络模型,包括但不限于TextCNN、LSTM、Transformer、Bert、Albert、Electra等,适于对文本进行表示学习而获取相应的句向量的基础模型。本领域技术人员可以根据本申请所揭示的原理,选用现有技术中合适的基础模型用作本步骤的第一深度神经网络模型。
将每个问句文本与问题文本进行语义匹配时,可采用任意一种数据距离算法,调用其彼此的句向量,计算每个问句文本的句向量与所述问答知识库中的各个问题文本的句向量之间的数据距离,确定出与该问句文本数据距离最近也即最为相似的问题文本,将该问题文本确定为与该问句文本实现匹配的问题文本,将该问句文本作为该问题文本所在的问题单元中的一个相似问题,添加存储至该问题单元中。
变通的实施例中,为了确保问题文本与问句文本之间的语义匹配度,还可通过预设阈值对两者的数据距离或其量化而得的相似距离评分进行鉴别,当该数据距离或相似距离评分满足该预设阈值的限定时,才确认该问句文本与该问题文本实现匹配。
此处,计算数据距离时,可以采用余弦相似距离算法、欧氏距离算法、皮尔逊系数算法、杰卡德指数算法、切比雪夫距离算法等等任意一种距离算法进行计算,本领域技术人员对此均可变通实施。
步骤S1300、将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元相对应的回复单元中的回复文本:
当语料数据库中的一个问句文本被添加至与其实现语义匹配的问答知识库中的问题文本所在的问题单元构成其中的相似问题之后,该问句文本在该语料数据库中相对应的答案文本,也被相应添加至与该问题单元相对应的回复单元中,配置成该回复单元中的一个回复文本。不难理解,由于问答知识库中该问题单元与该回复单元具有相应性,而语料数据库中该问句文本与该答案文本又是一问一答的结果,因此,将后者从语料数据库中存储至问答知识库中,符合语义关联性,这一手段使得问答知识库具备了关于相似问题及其回复文本的有效的数据来源,并且由于所述答案文本是人工客服用户给出的,因此一般相对更为准确且更具亲和力。
步骤S1400、确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建:
尽管经过在前的各个步骤,实现从所述语料数据库中将其中的部分问句文本及其相应的答案文本存储至所述问答知识库中,但是,由于语义的模糊性,仍然难以避免在问答知识库中出现质量不佳的部分回复文本,特别是容易出现这些回复文本虽然与其自身的问句文本密切对应,但可能与该问句文本所在的问题单元内的其他相似问题或标准问题不太对应,因此,可以在此基础上,进一步对每个回复单元中的回复文本做进一步的优化。
具体而言,对于每一回复单元,可以逐一针对其中的每个回复文本,确定该回复文本与该回复单元中的所有回复文本,特别是除其自身之外的其他所有回复文本之间的数据距离或其量化而得的相似距离评分,然后,针对每个回复文本,计算其各个相似距离评分之间的平均相似距离评分,于是,回复单元中的每个回复文本便获得一个平均相似距离评分,对此,可利用一个预设阈值,对各个回复文本的平均相似距离评分进行筛选,只有满足该预设阈值约束的回复文本,才作为目标回复文本予以保留在该回复单元中,对于未能满足该预设阈值约束的其他回复文本,则从该回复单元中删除。针对每个回复单元均进行这样的操作,至此,便实现了对所有回复单元中的回复文本的优选,被保留的回复文本,在语义上更为优势,更能贴切对应其所属的回复单元所对应的问题单元中的标准问题和相似问题。
为了计算数据距离,可以事先采用预训练的第二深度神经网络模型对所述的各个回复文本进行表示学习,获得表示其深层语义信息的句向量,与该回复文本关联存储于该问答知识库中以供调用。
此处,计算数据距离时,可以采用余弦相似距离算法、欧氏距离算法、皮尔逊系数算法、杰卡德指数算法、切比雪夫距离算法等等任意一种距离算法进行计算,本领域技术人员对此均可变通实施。
同理,所述的第二深度神经网络模型,专用于本申请中回复文本的表示学习,可为基于CNN、RNN实现的卷积神经网络模型,包括但不限于TextCNN、LSTM、Transformer、Bert、Albert、Electra等,适于对文本进行表示学习而获取相应的句向量的基础模型。本领域技术人员可以根据本申请所揭示的原理,选用现有技术中合适的基础模型用作本步骤的第二深度神经网络模型。
经过上述过程处理而得的问答知识库,不仅拥有预先设定的标准问题和相似问题,而且也以语料数据库为基础数据源扩增了部分问句文本作为新增相似问题,并且,还进一步填入了与所述问句文本相对应的答案文本作为其回复文本,且被保留的回复文本是择优之后的结果,因此,问答知识库具有了体系化的知识结构,适于接入智能客服系统,用于基于提问用户所提出的问句文本而为其匹配语义上相关联的回复文本,作为对该问句文本的应答结果。
经本申请所制备的问答知识库,也可进一步提供给人工用户做进一步的编制,以便指导人工用户编写出更优话术的回复文本,反哺到该问答知识库中,对此,不影响本申请的创造精神的体现,还可进一步确保本申请的问答知识库的知识质量。
通过以上本申请的典型实施例的说明,可以理解,本申请具有多方面的积极优势,包括但不限于如下各个方面:
首先,本申请在构建可供智能客服系统使用的问答知识库时,采用提问用户与人工客服用户一问一答形成的聊天记录为语料,在聊天记录中匹配出与问答知识库中预先提供的问题单元中的问题文本在语义上构成相似的提问用户的问句文本,将该问句文本作为该问题文本所关联的标准问题的相似问题,并且将该问句文本相对应的下一句由人工客服用户应答的答案文本作为该标准问题相对应的回复单元中的回复文本,使该问答知识库中,与问题单元相对应的回复单元内的回复文本得到充盈。在此基础上,进一步对每个回复单元内的多个回复文本进行优选,通过比较每个回复文本到其他各个回复文本之间的数据距离相对应的平均相似距离评分,选取评分较高的部分回复文本作为保留的目标回复文本,从而实现对从语料数据库挖掘出的回复文本的优选,实现自动化地利用语料数据库构建问答知识库。由于语料数据库中的答案文本是人工客服用户所回复的内容,具有真人表达语感,且通常也更匹配问题本身,因此,当其被用于智能客服系统中对应回复相关提问用户时,一方面可以使回复更为准确,另一方面也可改善用户体验。
其次,本申请在利用语料数据库构建问答知识库的过程中,在进行问题文本与问句文本的匹配时,利用了彼此之间的语义关联性,而在后续对预选入问答知识库中的回复文本进行优选时,也同样采用数据距离算法从语义层面量化了各个回复文本之间的相似性,基于语义进行文本的相似性进行考察,可以确保所匹配出的对象在含义和意思上更为相关,强化了文本之间的相关性,使最终获得的结果更为精准,因此,对于海量聊天记录而言,采用本申请的技术方案,无需依赖人工处理,便可实现问答知识库的有效构建,大大节省构建成本,且大幅提升构建效率。
此外,本申请基于语料的有效优选与基于语义的精准匹配构建出的问答知识库,能够全面提升智能客服系统的智能化程度,使电商平台之类的大型客服场景能够免除大量的人力工作,而节省相应的实施成本,取得规模化经济效用。
请参阅图2,具体化的实施例中,所述步骤S1100、获取语料数据库,包括如下步骤:
步骤S1110、从预设的智能客服系统中调用全量聊天记录:
以电商平台的智能客服系统为具体应用场景的基础,所述智能客服系统自身产生大量的聊天记录,包括提问用户与智能客服机器人对话生成的聊天记录以及提问用户与人工客服用户对话生成的聊天记录。为了制备本申请的语料数据库,可以从智能客服系统的数据库中全量提取这些聊天记录。
需要注意的是,如果智能客服系统以独立站为单位使用问答知识库并独立维护该独立站的聊天记录,则全量获取该独立站相对应的聊天记录,是指该独立站相应的聊天记录。同理,如果智能客服系统以整个电商平台的所有站点为单位使用统一的问答知识库并且统一维护所有站点的聊天记录,则可全量获取整个电商平台的所有聊天记录。
步骤S1120、对所述聊天记录进行数据清洗,将其中由该智能客服系统自动应答的聊天记录删除,仅保留人工客服用户应答的聊天记录,使被保留的每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本:
所述的聊天记录存储于智能客服系统的数据库中,每条聊天数据对应标记其发言用户,因此可以根据发言用户识别出相应的聊天数据是属于机器人还是人工客服用户,将属于机器人的对话内容,包括机器人自身回复的答案文本以及该答案文本相对应的问句文本,均予以删除。仅保留人工客服用户与提问用户对话产生的聊天记录,由此,使被保留的每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本。
步骤S1130、将被保留的聊天记录存储至语料数据库中:
适应本申请的技术方案所需,将前面步骤清洗后保留下来的聊天记录存储至本申请的语料数据库中,即可供后续调用。
本实施例中,将智能客服系统日常服务过程中产生的人工对话部分的聊天记录进行筛选而构造为本申请的语料数据库,使该语料数据库依赖于实际应用场景中的更有意义的对话,这些对话的内容可以确保问答知识库重新投入该智能客服系统中使用时,能够在语义上更为匹配实际需求,从而使用户感受到智能客服系统在表达、亲和力、语义对应性等方面的提升,能够提升智能客服系统机器人在后续应答用户提问的准确度并改善用户答询体验。
请参阅图3,具体化的实施例中,所述步骤S1200、将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中,包括如下步骤:
步骤S1210、采用预先训练至收敛状态的文本提取第一模型,提取所述问答知识库内各个问题单元中各个问题文本的句向量:
采用一个专用的文本提取第一模型,该第一模型,如前所述,是基于本申请所述的第一深度神经网络模型实现的,其事先被训练至收敛状态,因此习得对输入其中的文本提取出表征其深层语义信息的句向量的能力。
借助该第一模型,逐一提取所述问答知识库内各个问题单元中各个问题文本的句向量,该句向量被关联其相应的问题文本存储于问答知识库中,以备后续调用。
步骤S1220、采用所述文本提取第一模型,提取所述语料数据库中各个问句文本的句向量:
同理,仍采用所述第一模型,逐一提取出所述语料数据库中各个问句文本的句向量。由于所述问句文本本质上也是用户提问内容,与所述问答知识库中的问题文本在性质上相同,且该问句文本也可能被添加至问答知识库中构成其中的相似问题,因此,该第一模型同理也胜任对问句文本提取句向量的任务,而逐一对各个问句文本进行表示学习获得相应的句向量。同理,所述句向量可以关联其相应的问句文本存储于所述语料数据库中以备调用,后续还可随同问句文本一道存储至所述的问答知识库中,以备在该问答知识库被接入智能客服系统之后,由智能客服系统按需调用。
步骤S1230、计算所述每个问句文本的句向量与每个所述的问题文本的句向量之间的数据距离,确定数据距离相对应的相似距离评分:
经过前面的步骤,语料数据库中的每个问句文本与问答知识库中的每个问题文本,均获得其自身相对应的句向量,据此,针对语料数据库中每个问句文本的句向量,可以将其逐一与问答知识库中各个问题文本的句向量计算余弦相似距离,获得相应的相似度数值作为相似距离评分,这一相似距离评分越大,则表示两个句向量之间的数据距离越近,反之,相似距离评分越小,表示两个句向量之间的数据距离越远。
当然也可如前所述采用其他数据距离算法替换,例如采用欧氏距离算法计算。需要注意的是,欧氏距离算法计算出来的原始数据直接表示距离数值,该数值越大,表示两个句向量的距离越远;反之,该数值越小,表示两个句向量的距离越近。因此可将其反向转换为所述的相似距离评分,使其按照如前所述进行表示。据此,可知,适应不同相似距离算法,本领域技术人员在具体计算过程中,应根据各种算法的计算结果所表示的意义,进行灵活的变通,可统一为所述的相似距离评分以便如本申请所示进行标准化处理。
步骤S1240、为每个问句文本保留一个分值最高的相似距离评分,获得所有问句文本与其最相似的问题文本之间的相似距离评分所构成的评分序列:
经过前面的计算,一个问句文本可能与多个问题文本均具有较高的相似距离评分,例如分别为0.92和0.85,均高于0.8,这种情况下,表明问句文本似乎可以同时构成与该两个数值相对应的问题文本在语义上相匹配,这种情况如果不加处理,容易导致一个问句文本被并入问答知识库中的多个问题单元的情况,导致最终在应用时容易出现歧义。因此,作为因应,本实施例中,对于每个问句文本,只保留与其相似距离评分所有问题文本中的最高分的问题文本所对应的相似距离评分,据此,每个问句文本仅留下一个相似距离评分,该相似距离评分唯一性地对应仅一个问题文本。进而,可将所有问句文本的唯一保留的相似距离评分构造为评分序列,以便进行快速计算。该序列中的每一个元素,存储一个特定问句文本与一个特定问题文本之间的相似距离评分。
步骤S1250、筛选出评分序列中相似距离评分超过预设阈值的元素,将每一元素所对应的问句文本作为与该元素所对应的问题文本实现语义匹配的问句文本,将该问句文本添加至该问题文本所在的问题单元中构成相似问题:
不难理解,问句文本与问题文本之间的相似距离评分,有高有低,如果评分过低的情况下仍将问句文本纳入所述的问答知识库,则容易降低该问答知识库的知识质量,因此,可预先设定一个预设阈值,该预设阈值为经验阈值或实验阈值,然后,将所述评分序列中的每个元素中的相似距离评分与该预设阈值进行比较,当一个问句文本与一个问题文本之间的相似距离评分高于该预设阈值时,则表示该问句文本与该问题文本实现语义匹配,该问句文本便可构成该问题文本的相似问题,否则,则可废弃该问句文本而不将其添加至所述的问答知识库中。
经本步骤,实现对评分序列中各个元素的筛选,将相似距离评分超过预设阈值的元素所对应的问句文本添加至该元素所对应的问题文本所在的问题单元中构成其中的相似问题。
本实施例中,具体详述了确定问题文本与问句文本之间实现语义匹配的判断方法,其中,通过对每个问句文本仅保留一个与之相似距离评分最高的问题文本,实现去重,使得一个问句文本不会被同时添加至问答知识库的多个不同的问题单元中,不会造成问答知识库出现歧义,有助于提升智能客服系统对相似问题进行匹配的精准度。
请参阅图4,扩展的实施例中,所述文本提取第一模型的训练过程,包括如下步骤:
步骤S2100、采用所述问答知识库内一个问题单元中的一个相似问题为正样本,或采用另一问题单元中的相似问题为负样本,输入所述文本提取第一模型提取句向量:
由于所述问答知识库已经预先构造了其中的各个问题单元,每个问题单元已经设置好相应的标准问题和相似问题相对应的问题文本,且这些问题文本容易从相应的智能客服系统的固有的问答知识库中取材,因此,可以采用该问答知识库中的问题文本作为对本申请的文本提取第一模型进行训练的训练样本。
所述的第一模型在实施训练时,可接入一个二分类器辅助训练,因此,可为训练过程提供正样本和负样本。每次迭代训练时,将所述问答知识库内一个问题单元中的一个相似问题作为正样本,该问题单元的标准问题则被作为二分类器的监督标签使用,以便对模型训练过程实施正向监督。或者,仍使用该问题单元的标准问题作为分类器的监督标签,便却使用该问题单元之外的其他问题单元的任意一个相似问题作为负样本亦可,以便对模型训练过程实施反向监督。
训练样本被输入至所述的第一模型中,根据该第一模型固有的模型原理进行表示学习,从而提取出表征该训练样本的深层语义信息的句向量。
如前所述,第一模型可以从各种适于对文本进行表示学习的现有模型中选型,恕不赘述。
步骤S2200、通过分类器将该文本提取第一模型进行二分类映射,获得相应的分类标签:
所述的分类器,如前所述,可采用二分类器。该句向量被全连接后进入二分类器进行分类映射,映射到二值化分类空间,获得相应的分类标签。
步骤S2300、以所述正样本相似问题相对应的标准问题为监督标签,计算该分类标签的损失值,若该损失值达到预设阈值而达到收敛状态,终止训练;否则,实施梯度更新,采用下一样本实施迭代训练:
如前所述被作为监督标签的标准问题,在此处,其监督标签被用于计算前一步骤获得的分类标签的交叉熵损失值,然后将该损失值与一预设阈值进行比较,如果该损失值达到所述的预设阈值,则可判断第一模型已经收敛,从而可以终止对第一模型的训练,将其投入使用,用于为本申请的问题文本及问句文本提取相应的句向量。如果该损失值未达到该预设阈值,则表示模型并未收敛,此时,通过参数回传对第一模型的权重实施梯度更新,促使模型进一步迫近收敛,然后,继续调用下一样本,实施对第一模型的迭代训练,直至第一模型被训练至收敛状态为止。
本实施例中,直接采用本申请的问答知识库用于对本申请所用的第一模型进行训练,通过模型拟合作为训练样本的相似问题与其标准问题之间的近似函数,使第一模型最终习得提取相似问题的句向量的能力,后续可有效用于为本申请的问答知识库有效提取问题文本和问句文本的句向量。
请参阅图5,具体化的实施例中,所述步骤S1400、确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建,包括如下步骤:
步骤S1410、采用预先训练至收敛状态的文本提取第二模型,提取出所述问答知识库内每个回复单元中的每个回复文本的句向量:
本申请的文本特征提取第二模型,其选型更为简单,例如可以采用具有自监督学习能力的Bert模型,以本申请的语料数据库中的答案文本或问答知识库中的回复文本作为其训练样本,将其微调训练至收敛状态即可。或者,也可直接采用预训练状态的Bert模型。同理,也可采用本申请所称的其他现有技术中的文本特征提取相关的深度神经网络模型来实施,对此,本领域技术人员可灵活适用。
所述第二模型被训练至收敛状态后,便可投入本申请中使用,逐一为所述问答知识库中的回复文本提取出其相应的句向量,然后将每个句向量与其相应的回复文本关联存储于问答知识库中以备后续调用。
步骤S1420、计算表征每个回复单元中两两回复文本的句向量之间的数值距离的相似距离评分,获得该回复单元中每个回复文本与该回复单元中各个回复文本之间的相似距离评分构成的相似距离评分序列:
如前所述,每个回复单元中通常存在多个回复文本,这些回复文本代表不同的话术,其信息质量参差不齐,因此,需要以回复单元为单位,对每个回复单元中的多个回复文本进行择优处理。
据此,可先计算每个回复单元中两两回复文本的句向量之间的数据距离,如前所述,计算数值距离可采用各种前文所列的可选方式,此处同理以余弦相似距离算法为例,计算获得表征两两回复文本之间数据距离的相似距离评分。同理,该相似距离评分越大,表示两个回复文本之间的数据距离越相近,两者在语义上也越接近,反之,如果相似距离评分越小,表示两个回复文本之间的数据距离越远,两者在语义上也越远。
据此,不难理解,对于同一回复单元中的每个回复文本而言,其与整个回复单元内的所有各个回复文本,特别是除其自身之外的其他各个回复文本,均有相对应的相似距离评分,构成一个相似距离评分序列。对应的,每个回复文本均为这样的一个相似距离评分序列。
步骤S1430、根据每个回复单元中的每个回复文本的所述相似距离评分序列,计算每个回复文本相对应的平均相似距离评分:
针对每个回复文本,将其相似距离评分序列中的所有元素的相似距离评分进行求和后求均值,即获得该回复文本相对应的平均相似距离评分,该平均相似距离评分便表征了该回复文本到当前回复单元中的所有各个回复文本之间的总体相似距离,同理,该相似距离越大,表明该回复文本的语义价值越高,当该相似距离越小,相应的,表示该回复文本的语义价值越低。
步骤S1440、将每个回复单元中,平均相似距离评分低于预设阈值的回复文本删除,只保留平均相似距离评分高于该预设阈值的回复文本以完成该问答知识库的构建:
为了实现选优,对于每个回复单元,可通过一个预设阈值对其中各个回复文本的平均相似距离评分进行筛选,将平均相似距离评分低于所述预设阈值的回复文本从其回复单元中删除,而对于平均相似距离评分高于所述预设阈值的回复文本则予在保留在其回复单元中,由此,便实现了对每个回复单元中的回复文本的择优和净化,完成了对问答知识库的构建过程。
本实施例中,采用求取相同回复单元内各个回复文本的平均相似距离评分的方式,对同一回复单元内的各个回复文本的相对信息价值进行标准化衡量,在相同衡量基准的基础上,采用预设阈值对回复文本进行去伪存真的优化,确保回复文本的信息价值的有效性,从而确保问答知识库的知识质量。
请参阅图6,扩展的实施例中,所述步骤S1400中,完成该问答知识库的构建之后,包括如下步骤:
步骤S1500、将所述问答知识库接入预设的智能客服系统,由该智能客服系统响应提问用户提出的问句文本,从该问答知识库中确定与该问句文本构成语义相匹配的回复单元,以该回复单元中的回复文本之一应答该问句文本:
在本申请前文所揭示的各个实施例的基础上获得的问答知识库,其知识质量较高,且其中问题文本与回复文本之间的语义关联性佳,因此,更适于为智能客服系统服务。据此,可将本申请获得的问答知识库重新接入预设的智能客服系统,例如本申请示例的电商平台的智能客服系统,用于提供智能客服机器人服务。在该智能客服机器人被提问用户调用时,由提问用户向其发送问句文本,然后,由机器人采用本申请的文本提取第一模型提取该问句文本的句向量,根据该句向量与该问答知识库中的各个问题文本的句向量进行相似匹配,确定具有最高相似距离评分的问题文本,调用该问题文本所在的问题单元相对应的回复单元中的任一回复文本,作为答案文本,回复该提问用户。
本实施例中,利用本申请所制备的问答知识库,实现对现有的智能客服系统的问答知识库的升级,可以进一步的提升智能客服系统的智能程度,让提问用户获得更准确的答案文本,改善用户提问体验。
请参阅图7,适应本申请的目的之一而提供的一种问答知识库构建装置,是对本申请的问答知识库构建方法的功能化体现,该装置包括:语料调用模块1100、问题匹配模块1200、答案配置模块1300,以及挖掘构建模块1400,其中,所述语料调用模块1100,用于获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;所述问题匹配模块1200,用于将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中;其中,每个所述的问题单元包括一个或多个所述的问题文本,其中一个问题文本作为标准问题,余者均为该标准问题的相似问题;所述答案配置模块1300,用于将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元相对应的回复单元中的回复文本;所述挖掘构建模块1400,用于确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建。
具体化的实施例中,所述语料调用模块1100,包括:数据获取单元,用于从预设的智能客服系统中调用全量聊天记录;数据清洗单元,用于对所述聊天记录进行数据清洗,将其中由该智能客服系统自动应答的聊天记录删除,仅保留人工客服用户应答的聊天记录,使被保留的每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;数据存储单元,用于将被保留的聊天记录存储至语料数据库中。
具体化的实施例中,所述问题匹配模块1200,包括:问题提取单元,用于采用预先训练至收敛状态的文本提取第一模型,提取所述问答知识库内各个问题单元中各个问题文本的句向量;问句提取单元,用于采用所述文本提取第一模型,提取所述语料数据库中各个问句文本的句向量;距离评分单元,用于计算所述每个问句文本的句向量与每个所述的问题文本的句向量之间的数据距离,确定数据距离相对应的相似距离评分;排他处理单元,用于为每个问句文本保留一个分值最高的相似距离评分,获得所有问句文本与其最相似的问题文本之间的相似距离评分所构成的评分序列;问句添加单元,用于筛选出评分序列中相似距离评分超过预设阈值的元素,将每一元素所对应的问句文本作为与该元素所对应的问题文本实现语义匹配的问句文本,将该问句文本添加至该问题文本所在的问题单元中构成相似问题。
扩展的实施例中,所述文本提取第一模型由训练装置执行训练任务,该训练装置包括:样本调用模块,用于采用所述问答知识库内一个问题单元中的一个相似问题为正样本,或采用另一问题单元中的相似问题为负样本,输入所述文本提取第一模型提取句向量;分类映射模块,用于通过分类器将该文本提取第一模型进行二分类映射,获得相应的分类标签;监督迭代模块,用于以所述正样本相似问题相对应的标准问题为监督标签,计算该分类标签的损失值,若该损失值达到预设阈值而达到收敛状态,终止训练;否则,实施梯度更新,采用下一样本实施迭代训练。
具体化的实施例中,所述答案配置模块1300,包括:回复提取单元,用于采用预先训练至收敛状态的文本提取第二模型,提取出所述问答知识库内每个回复单元中的每个回复文本的句向量;评分量化单元,用于计算表征每个回复单元中两两回复文本的句向量之间的数值距离的相似距离评分,获得该回复单元中每个回复文本与该回复单元中各个回复文本之间的相似距离评分构成的相似距离评分序列;均值计算单元,用于根据每个回复单元中的每个回复文本的所述相似距离评分序列,计算每个回复文本相对应的平均相似距离评分;回复清理单元,用于将每个回复单元中,平均相似距离评分低于预设阈值的回复文本删除,只保留平均相似距离评分高于该预设阈值的回复文本以完成该问答知识库的构建。
扩展的实施例中,本申请的问答知识库构建装置,还包括:知识库接入模块,用于将所述问答知识库接入预设的智能客服系统,由该智能客服系统响应提问用户提出的问句文本,从该问答知识库中确定与该问句文本构成语义相匹配的回复单元,以该回复单元中的回复文本之一应答该问句文本。
为解决上述技术问题,本申请实施例还提供计算机设备。如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种问答知识库构建方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的问答知识库构建方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的问答知识库构建装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的问答知识库构建方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请基于语料的有效优选与基于语义的精准匹配构建出的问答知识库,能够全面提升智能客服系统的智能化程度,使电商平台之类的大型客服场景能够免除大量的人力工作,而节省相应的实施成本,取得规模化经济效用,具有广阔的应用前景。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种问答知识库构建方法,其特征在于,包括如下步骤:
获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;
将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中;其中,每个所述的问题单元包括一个或多个所述的问题文本,其中一个问题文本作为标准问题,余者均为该标准问题的相似问题;
将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元相对应的回复单元中的回复文本;
确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建。
2.根据权利要求1所述的问答知识库构建方法,其特征在于,获取语料数据库,包括如下步骤:
从预设的智能客服系统中调用全量聊天记录;
对所述聊天记录进行数据清洗,将其中由该智能客服系统自动应答的聊天记录删除,仅保留人工客服用户应答的聊天记录,使被保留的每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;
将被保留的聊天记录存储至语料数据库中。
3.根据权利要求1所述的问答知识库构建方法,其特征在于,将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中,包括如下步骤:
采用预先训练至收敛状态的文本提取第一模型,提取所述问答知识库内各个问题单元中各个问题文本的句向量;
采用所述文本提取第一模型,提取所述语料数据库中各个问句文本的句向量;
计算所述每个问句文本的句向量与每个所述的问题文本的句向量之间的数据距离,确定数据距离相对应的相似距离评分;
为每个问句文本保留一个分值最高的相似距离评分,获得所有问句文本与其最相似的问题文本之间的相似距离评分所构成的评分序列;
筛选出评分序列中相似距离评分超过预设阈值的元素,将每一元素所对应的问句文本作为与该元素所对应的问题文本实现语义匹配的问句文本,将该问句文本添加至该问题文本所在的问题单元中构成相似问题。
4.根据权利要求1所述的问答知识库构建方法,其特征在于,所述文本提取第一模型的训练过程,包括如下步骤:
采用所述问答知识库内一个问题单元中的一个相似问题为正样本,或采用另一问题单元中的相似问题为负样本,输入所述文本提取第一模型提取句向量;
通过分类器将该文本提取第一模型进行二分类映射,获得相应的分类标签;
以所述正样本相似问题相对应的标准问题为监督标签,计算该分类标签的损失值,若该损失值达到预设阈值而达到收敛状态,终止训练;否则,实施梯度更新,采用下一样本实施迭代训练。
5.根据权利要求1所述的问答知识库构建方法,其特征在于,确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建,包括如下步骤:
采用预先训练至收敛状态的文本提取第二模型,提取出所述问答知识库内每个回复单元中的每个回复文本的句向量;
计算表征每个回复单元中两两回复文本的句向量之间的数值距离的相似距离评分,获得该回复单元中每个回复文本与该回复单元中各个回复文本之间的相似距离评分构成的相似距离评分序列;
根据每个回复单元中的每个回复文本的所述相似距离评分序列,计算每个回复文本相对应的平均相似距离评分;
将每个回复单元中,平均相似距离评分低于预设阈值的回复文本删除,只保留平均相似距离评分高于该预设阈值的回复文本以完成该问答知识库的构建。
6.根据权利要求1至5中任意一项所述的问答知识库构建方法,其特征在于,完成该问答知识库的构建之后,包括如下步骤:
将所述问答知识库接入预设的智能客服系统,由该智能客服系统响应提问用户提出的问句文本,从该问答知识库中确定与该问句文本构成语义相匹配的回复单元,以该回复单元中的回复文本之一应答该问句文本。
7.一种问答知识库构建装置,其特征在于,包括:
语料调用模块,用于获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;
问题匹配模块,用于将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中;其中,每个所述的问题单元包括一个或多个所述的问题文本,其中一个问题文本作为标准问题,余者均为该标准问题的相似问题;
答案配置模块,用于将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元相对应的回复单元中的回复文本;
挖掘构建模块,用于确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638989.5A CN114265921A (zh) | 2021-12-29 | 2021-12-29 | 问答知识库构建方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638989.5A CN114265921A (zh) | 2021-12-29 | 2021-12-29 | 问答知识库构建方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114265921A true CN114265921A (zh) | 2022-04-01 |
Family
ID=80831540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111638989.5A Pending CN114265921A (zh) | 2021-12-29 | 2021-12-29 | 问答知识库构建方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114265921A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860952A (zh) * | 2023-09-04 | 2023-10-10 | 富璟科技(深圳)有限公司 | 基于人工智能的rpa智能应答处理方法及系统 |
CN116911313A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种语义漂移文本的识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019114512A1 (zh) * | 2017-12-14 | 2019-06-20 | 株式会社日立制作所 | 用于客户服务的方法、装置、电子设备、计算机可读存储介质 |
WO2021104323A1 (zh) * | 2019-11-25 | 2021-06-03 | 京东方科技集团股份有限公司 | 用于确定文本相似度的方法、获取语义答案文本的方法及问答方法 |
CN112948561A (zh) * | 2021-03-29 | 2021-06-11 | 建信金融科技有限责任公司 | 一种问答知识库自动扩建的方法和装置 |
CN113192016A (zh) * | 2021-04-21 | 2021-07-30 | 深圳力维智联技术有限公司 | 传送带异常变形检测方法、装置、设备及存储介质 |
-
2021
- 2021-12-29 CN CN202111638989.5A patent/CN114265921A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019114512A1 (zh) * | 2017-12-14 | 2019-06-20 | 株式会社日立制作所 | 用于客户服务的方法、装置、电子设备、计算机可读存储介质 |
CN110069607A (zh) * | 2017-12-14 | 2019-07-30 | 株式会社日立制作所 | 用于客户服务的方法、装置、电子设备、计算机可读存储介质 |
WO2021104323A1 (zh) * | 2019-11-25 | 2021-06-03 | 京东方科技集团股份有限公司 | 用于确定文本相似度的方法、获取语义答案文本的方法及问答方法 |
CN112948561A (zh) * | 2021-03-29 | 2021-06-11 | 建信金融科技有限责任公司 | 一种问答知识库自动扩建的方法和装置 |
CN113192016A (zh) * | 2021-04-21 | 2021-07-30 | 深圳力维智联技术有限公司 | 传送带异常变形检测方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860952A (zh) * | 2023-09-04 | 2023-10-10 | 富璟科技(深圳)有限公司 | 基于人工智能的rpa智能应答处理方法及系统 |
CN116860952B (zh) * | 2023-09-04 | 2023-11-03 | 富璟科技(深圳)有限公司 | 基于人工智能的rpa智能应答处理方法及系统 |
CN116911313A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种语义漂移文本的识别方法及装置 |
CN116911313B (zh) * | 2023-09-12 | 2024-02-20 | 深圳须弥云图空间科技有限公司 | 一种语义漂移文本的识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708869B (zh) | 人机对话的处理方法及装置 | |
US11645517B2 (en) | Information processing method and terminal, and computer storage medium | |
US10650311B2 (en) | Suggesting resources using context hashing | |
CN111553162B (zh) | 一种意图识别的方法以及相关装置 | |
CN109829052A (zh) | 一种基于人机交互的开放式对话方法和系统 | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
CN114265921A (zh) | 问答知识库构建方法及其装置、设备、介质、产品 | |
CN109325780A (zh) | 一种面向电子政务领域的智能客服系统的交互方法 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN112417158A (zh) | 文本数据分类模型的训练方法、分类方法、装置和设备 | |
CN114548092A (zh) | 客服会话调度方法及其装置、设备、介质、产品 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN114428845A (zh) | 智能客服自动应答方法及其装置、设备、介质、产品 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN113806537A (zh) | 商品类目分类方法及其装置、设备、介质、产品 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN115062617A (zh) | 基于提示学习的任务处理方法、装置、设备及介质 | |
CN118378148A (zh) | 多标签分类模型的训练方法、多标签分类方法及相关装置 | |
CN110674276A (zh) | 机器人自学习方法、机器人终端、装置及可读存储介质 | |
CN116414964A (zh) | 智能客服问答知识库构建方法、装置、设备及介质 | |
CN117493013A (zh) | 提示文本生成方法及其装置、设备、介质 | |
US20230206007A1 (en) | Method for mining conversation content and method for generating conversation content evaluation model | |
CN116561284A (zh) | 智能应答方法、装置、电子设备及介质 | |
CN113434657B (zh) | 电商客服应答方法及其相应的装置、设备、介质 | |
CN110633468A (zh) | 一种关于对象特征提取的信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |