CN111209384B - 基于人工智能的问答数据处理方法、装置及电子设备 - Google Patents

基于人工智能的问答数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN111209384B
CN111209384B CN202010019179.0A CN202010019179A CN111209384B CN 111209384 B CN111209384 B CN 111209384B CN 202010019179 A CN202010019179 A CN 202010019179A CN 111209384 B CN111209384 B CN 111209384B
Authority
CN
China
Prior art keywords
question
answer
answer data
matching
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010019179.0A
Other languages
English (en)
Other versions
CN111209384A (zh
Inventor
司鹏达
邓强
钟滨
徐进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010019179.0A priority Critical patent/CN111209384B/zh
Publication of CN111209384A publication Critical patent/CN111209384A/zh
Application granted granted Critical
Publication of CN111209384B publication Critical patent/CN111209384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于人工智能的问答数据处理方法、装置、设备及存储介质;方法包括:获取问答数据的语义特征;对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数;当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型,通过本发明,能够从不同维度识别出答非所问的问答数据,从而提高问答数据的质量。

Description

基于人工智能的问答数据处理方法、装置及电子设备
技术领域
本发明涉及人工智能技术,尤其涉及一种基于人工智能的问答数据处理方法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
基于人机交互的智能问答是人工智能的重要应用方向,广泛应用在各个领域的咨询场景中,随着互联网技术的发展,在越来越多的场景下需要根据问题搜索答案,以得到用于答案问题的答案,例如,在医疗场景中,用户可以向线上的机器人咨询医疗问题,机器人在问答数据(包括问题和答案)搜索合适的答案以回应患者。
依靠人工建立问答数据难以满足实际应用中数据量大、数据快速更新的需求。而依靠自动化手段建立的问答数据中答非所问的类型占据了相当大的比例,又影响了智能问答的准确性。
发明内容
本发明实施例提供一种基于人工智能的问答数据处理方法、装置、电子设备及存储介质,能够准确识别答非所问的问答数据。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的问答数据处理方法,包括:
获取问答数据的语义特征;
对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;
基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数;
当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型。
本发明实施例提供一种基于人工智能的问答数据处理装置,包括:
语义特征获取模块,用于获取问答数据的语义特征;
特征解耦模块,用于对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;
匹配模块,用于基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数;
数据类型确定模块,用于当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型。
在上述方案中,所述装置还包括:
问答数据获取模块,用于:
当用于答复问题的文本的长度超过文本长度阈值时,提取所述文本的摘要以作为所述问题的答案,并结合所述问题组成问答数据;
当用于答复问题的文本长度不超过文本长度阈值时,将所述文本作为所述问题的答案,并结合所述问题组成所述问答数据。
在上述方案中,所述问答数据获取模块,还用于:
对所述文本进行编码得到对应的嵌入向量,并基于注意力机制从所述嵌入向量中提取对应所述文本的语义向量;
对所述语义向量进行解码处理,得到对应所述文本的摘要。
在上述方案中,所述语义特征获取模块,还用于:
通过语义特征提取网络的各特征提取层,分别提取表征所述问答数据中问题与答案之间的语义关系的子语义特征;
结合对应各特征提取层中的权重,对所述各特征提取层所提取的子语义特征进行加权处理,得到表征所述问答数据中问题与答案之间的语义关系的语义特征;
其中,所述语义关系包括所述问题与所述答案在实体维度的匹配关系、以及所述问题与所述答案在意图维度的匹配关系。
在上述方案中,所述特征解耦模块,还用于:
通过问答匹配模型中的实体全连接层,将所述问答数据的语义特征,从语义特征空间映射到实体特征空间,以得到用于表征实体维度匹配信息的实体特征;
通过问答匹配模型中的意图全连接层,将所述问答数据的语义特征转换,从语义特征空间映射到意图特征空间,以得到用于表征意图维度匹配信息的意图特征;
其中,所述实体全连接层和所述意图全连接层是基于对抗训练得到的。
在上述方案中,所述匹配模块,还用于:
通过问答匹配模型的实体匹配层,并结合对应所述问答数据的实体特征对所述问答数据进行分类,得到所述问答数据为基于实体维度匹配的问答数据的第一概率,以作为所述实体匹配分数;
通过问答匹配模型的意图匹配层,并结合对应所述问答数据的意图特征对所述问答数据进行分类,得到所述问答数据为基于意图维度匹配的问答数据的第二概率,以作为所述意图匹配分数。
在上述方案中,所述数据类型确定模块,还用于:
当满足以下条件至少之一时,确定所述问答数据属于答非所问的类型:
所述实体匹配分数小于所述实体匹配分数阈值;
所述意图匹配分数小于所述意图匹配分数。
在上述方案中,所述装置还包括:
训练模块,用于:
对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合;
其中,所述经过人工标注的标准问答数据样本由相互匹配的问题样本和答案样本组成;
构建用于识别出答非所问的类型的问答匹配模型;
基于所述训练样本集合,对所述问答匹配模型进行训练。
在上述方案中,所述训练模块,还用于:
随机替换所述标准问答数据样本中的答案样本的实体词,以使所述标准问答数据样本中的答案样本的实体词与问题样本的实体词不匹配,并将经过替换的标准问答数据样本确定为实体不匹配且意图匹配的第一问答数据样本;
随机打乱所述标准问答数据样本中的问题样本和答案样本,以生成实体不匹配且意图不匹配的第二问答数据样本;
随机替换所述第二问答数据样本中的答案样本的实体词,以使所述第二问答数据样本中的答案样本的实体词与问题样本的实体词匹配,并将经过替换的第二问答数据样本确定为实体匹配且意图不匹配的第三问答数据样本;
将所述标准问答数据样本、所述第一问答数据样本、所述第二问答数据样本以及所述第三问答数据样本中的至少之一,组合成所述训练样本集合。
在上述方案中,所述训练模块,还用于:
初始化所述问答匹配模型,并初始化包括输入样本以及对应所述输入样本的问答数据匹配结果的损失函数;
在所述问答匹配模型每次迭代训练过程中执行以下处理:
通过所述问答匹配模型,对所述训练样本集合包括的问答数据样本进行匹配,得到对应所述问答数据样本的问答数据匹配结果;
将对应所述问答数据样本的真实匹配结果和所述问答数据匹配结果代入所述损失函数,以确定所述损失函数取得最小值时对应的问答匹配模型参数;
根据所确定的问答匹配模型参数更新所述问答匹配模型。
在上述方案中,所述问答匹配模型包括:语义特征提取网络、实体全连接层、意图全连接层、实体匹配层、意图匹配层、实体对抗层以及意图对抗层,所述训练模块,还用于:
通过所述语义特征提取网络,对所述训练样本集合包括的问答数据样本进行语义特征提取;
通过所述实体全连接层,将所述语义特征转换为所述实体特征;
通过所述意图全连接层,将所述语义特征转换为所述意图特征;
通过所述实体匹配层,对所述问答数据样本进行基于所述实体特征的实体匹配,得到对应所述问答数据样本的实体匹配结果;
通过所述意图匹配层,对所述问答数据样本进行基于所述实体特征的意图匹配,得到对应所述问答数据样本的意图匹配结果;
通过所述实体对抗层,对所述问答数据样本进行基于所述意图特征的实体匹配,得到对应所述问答数据样本的实体匹配结果;
通过所述意图对抗层,对所述问答数据样本进行基于所述实体特征的意图匹配,得到对应所述问答数据样本的意图匹配结果。
在上述方案中,所述训练模块,还用于:
将通过所述实体匹配层得到的对应所述问答数据样本的实体匹配结果、以及对应所述问答数据样本的真实实体匹配结果,代入对应所述实体匹配层的第一损失函数;
将通过所述意图匹配层得到的对应所述问答数据样本的意图匹配结果、以及对应所述问答数据样本的真实意图匹配结果,代入对应所述意图匹配层的第二损失函数;
将通过所述实体对抗层得到的对应所述问答数据样本的实体匹配结果、以及对应所述问答数据样本的真实实体匹配结果所对应的取反结果,代入对应所述实体对抗层中对抗学习的第三损失函数;
将通过所述意图对抗层得到的对应所述问答数据样本的意图匹配结果、以及对应所述问答数据样本的真实意图匹配结果所对应的取反结果,代入对应所述意图对抗层中对抗学习的第四损失函数;
将通过所述实体对抗层得到的对应所述问答数据样本的实体匹配结果、以及对应所述问答数据样本的真实实体匹配结果,代入对应所述实体对抗层中分类学习的第五损失函数;
将通过所述意图对抗层得到的对应所述问答数据样本的意图匹配结果、以及对应所述问答数据样本的真实意图匹配结果,代入对应所述意图对抗层中分类学习的第六损失函数;
确定所述第五损失函数取得最小值时对应的实体对抗层的参数,并确定所述第六损失函数取得最小值时对应的意图对抗层的参数;
确定所述第一损失函数、所述第二损失函数、所述第三损失函数以及所述第四损失函数的和取得最小值时对应的问答匹配模型的参数。
在上述方案中,所述装置还包括:
过滤模块,用于:
从数据库中获取至少一个所述问答数据;
当所述问答数据被判断为答非所问的问答数据时,将答非所问的问答数据从所述数据库中删除。
本发明实施例提供一种基于人工智能的问答数据处理方法,包括:
响应于在客户端中接收到用户的问题查询操作,从数据库中获取对应所述问答查询操作所提交的问题的至少两个候选答案;
通过问答匹配模型,对每个所述候选答案与所述问题分别组成的问答数据识别属于答非所问的类型的问答数据;
在所述组成的问答数据中过滤掉属于答非所问的类型的问答数据,并
在所述客户端的展示界面中呈现过滤后剩余的问答数据中的候选答案。
本发明实施例提供一种基于人工智能的问答数据处理装置,包括:
候选答案获取模块,用于响应于在客户端中接收到用户的问题查询操作,从数据库中获取对应所述问答查询操作所提交的问题的至少两个候选答案;
问答数据匹配模块,用于通过问答匹配模型,对每个所述候选答案与所述问题分别组成的问答数据识别属于答非所问的类型的问答数据;
呈现模块,用于在所述组成的问答数据中过滤掉属于答非所问的类型的问答数据,并
在所述客户端的展示界面中呈现过滤后剩余的问答数据中的候选答案。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于人工智能的问答数据处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于人工智能的问答数据处理方法。
本发明实施例具有以下有益效果:
通过将问答数据的语义特征解耦到意图和实体这两个维度,来对问答数据进行意图和实体这两个方面的匹配,最终准确识别出属于答非所问的类型的问答数据。
附图说明
图1A是相关技术中所使用的问答匹配模型的结构图;
图1B是本发明实施例提供的问答匹配模型的结构图;
图2A-2B是本发明实施例提供的基于人工智能的问答数据处理系统的一个可选的结构示意图;
图3是本发明实施例提供的应用基于人工智能的问答数据处理方法的设备的一个可选的结构示意图;
图4A-4B是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图;
图5是本发明实施例提供的对抗解耦框架的示意图;
图6A-6B是本发明实施例提供的对抗解耦框架中特征可视化示意图;
图7A-7C是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图;
图8是本发明实施例提供的语义特征提取网络模型的架构图
图9是本发明实施例提供的语义特征分布示意图;
图10是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图;
图11是本发明实施例提供的基于人工智能的问答数据处理方法在应用中的产品界面;
图12是本发明实施例提供的基于人工智能的问答数据处理方法在应用中的产品界面;
图13是本发明实施例提供的基于人工智能的问答数据处理方法的主体框架图;
图14是本发明实施例提供的基于人工智能的问答数据处理方法的问答匹配模型的模型框架图;
图15是本发明实施例提供的基于人工智能的问答数据处理方法的数据增强示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)泛化能力(Generalization Ability)指机器学习算法对新鲜样本的适应能力,简而言之是在原有的数据集上添加新的数据集,通过训练输出一个合理的结果,学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,即称为泛化能力。
在问答数据中,答非所问的问答数据占据了相当大的比例,严重拉低了问答数据的整体质量,对于这个问题,相关技术中可以用来解决答非所问的问答数据的方法有如下几种:通过句子相似度来判断问答数据是否为答非所问的类型,即根据问题和答案之间的实体相似度进行判别;通过意图分类来判断问答数据是否为答非所问的类型,即对于问题进行意图识别,再根据识别结果与答案的意图相似度进行判别。
相关技术存在以下缺点,基于句子相似度的判断方式只能大致判断出问题和答案之间是否存在相似的实体,因此,难以实现快速精确的匹配,且只能识别出实体不匹配所导致的答非所问的情形,对于实体匹配但是意图不匹配的答非所问的情形就无法识别出来了;在通过意图分类来判断问答数据是否为答非所问的类型的方式中,其所使用的意图识别模型往往用于特定领域的数据上,用来分析用户需求,但是对于较为开放的数据,意图识别模型往往无法识别出特定的句式模板,也因此无法准确地得到问题中的需求。
基于此,本发明实施例提出了一种基于人工智能的问答数据处理方法,利用多维度的问答匹配模型来完成问答匹配任务,将问答数据作为一个整体输入到特征提取网络来提取语义特征,并利用解耦框架将答非所问的情形解耦到不同层面来解决答非所问的问题,将答非所问的情形分为意图不匹配和实体不匹配这两个方面,利用对抗的方式将意图不匹配和实体不匹配解耦到不同的子空间,并且利用数据增强的方法扩充训练数据,最终使得训练得到的问答数据识别模型可以准确识别上述两方面的答非所问情形,问答匹配模型的训练方式是基于端到端进行的,并在测试阶段通过多个方面来衡量匹配程度,本发明实施例所使用的训练数据集是针对于某一领域的,且经过人工标注的问答数据,大量的实验结果表明,本发明实施例提供的问答匹配模型优于其他模型,并以速度和准确性为优势实现了最先进的性能。
作为示例,判断问答数据是否答非所问是文本匹配任务,可以定义如下:输入是问答数据(问题、答案),输出是指示问题是否与答案匹配的标签,在阅读理解领域,答案选择任务非常接近此任务,类似于一般文本句子匹配,相关技术解决答案选择任务的常用方案是计算答案集中每个答案和问题的语义相似度分数,然后根据分数对它们进行排序。
申请人发现,该方案不能解决快速问答数据中问题与答案匹配的问题,因为问题和答案不是独立和互补的,仅语义相似性不能反映答案是否与问题匹配,例如,给定问题Q(“如何学习微积分?”)和答案A(“如何学习微积分?太烦人了!”),需要判断Q和A是否匹配,显然,这里的A具有更高的相似性,但实际上A与Q不匹配,即这里的A不是一个好的答案,通过分析上述例子,申请人发现Q实际上是想问一个方法,即“如何做”,但是A与之不匹配,从另一个角度讲,A与Q的意图不匹配,这激发申请人认识到问答数据中的问题具有多个属性的,例如实体,意图,情感等,相应地,应该从这些属性区分答案是否与问题匹配,因此,此任务是多属性匹配任务,旨在提供多个匹配标签,只有每个标签都显示答案与问题匹配,才能最终判断答案与问题匹配。
相关技术中有很多模型用于解决文本匹配任务,其也可以用于解决上述提出的判断问答数据是否答非所问的任务,即使这些模型没有为多属性匹配任务设计特殊的结构,它们也可以基于强大的特征提取功能和神经网络的端到端训练方法中学习每个属性的匹配特征,但是申请人发现单个模型无法同时学习各个属性的匹配特征,这是由于各个属性的匹配特征之间的干扰引起的,从而促使重新设计一个新的框架来解决问答数据的匹配问题。
如上,相关技术中的问答匹配将问题和答案视为各自独立的句子,这与问题与答案描述同一事物的事实不一致,针对此缺陷,本发明实施例中分别确定基于各个属性的匹配标签,从而设计了一个对抗式解耦框架,该框架可以分离不同属性的匹配特征,参见图1A-1B,图1A是相关技术中所使用的问答匹配模型的结构图,图1B是本发明实施例提供的问答匹配模型的结构图,图1A和图1B显示了相关技术提供的模型与本发明实施例提供的问答匹配模型之间的区别,根据相关技术中提供的模型,分别对问题和答案输入到神经网路模型中,通过各自的神经网络模型提取到对应问题和答案的问题语义特征和答案语义特征,对问题语义特征和答案语义特征进行相似度计算,以得到相似度得分,并输出是否匹配的标签,根据本发明实施例提供的问答匹配模型,将问题和答案输入相同的神经网络模型中,得到对应问题与答案之间的语义关系的特征图,并通过对抗解耦架构对特征图进行解耦,分别得到各个属性(1-T)的匹配关系,例如在实体属性以及意图属性,通过各个属性的匹配结果得到问题与答案是否匹配的标签,具体而言,是针对每个属性的匹配关系配置一个特征生成器和一系列特征分类器。下面具体说明。
本发明实施例提供一种基于人工智能的问答数据处理方法、装置、电子设备和存储介质,能够从不同维度识别出答非所问的问答数据,从而提高问答数据的质量,下面说明本发明实施例提供的电子设备的示例性应用,本发明实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明电子设备实施为服务器时的示例性应用。
参见图2A,图2A是本发明实施例提供的基于人工智能的问答数据处理系统100的一个可选的架构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,服务器200获取第三方数据库500中的问答数据,对问答数据进行实体匹配以及意图匹配,以确定出属于答非所问的类型的问答数据,将属于答非所问的类型的问答数据进行过滤,将不属于答非所问的类型的问答数据推送至问答服务提供方600,以使得终端400向问答服务提供方600发送问答搜索操作时,问答服务提供方600基于问答搜索操作中的问题从不属于答非所问的类型的问答数据中获取对应于问答搜索操作中的问题的答案,并将答案推送至终端400,以使使用终端400的用户能够获悉与问题相匹配的答案。
电子设备还可以实施为终端,参见图2B,图2B是本发明实施例提供的基于人工智能的问答数据处理系统100的一个可选的架构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,终端400接收到用户发送的问题查询操作,终端400从第三方数据库500中获取对应问答查询操作所提交的问题的至少两个候选答案,终端400通过本地或者服务器200中的问答匹配模型对所获取的候选答案与问题查询操作所对应的问题进行匹配处理,删除属于答非所问的类型的问答数据,并在终端400上呈现剩余的问答数据中的候选答案。
参见图3,图3是本发明实施例提供的应用基于人工智能的问答数据处理方法的设备的一个可选的结构示意图,图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。终端200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memo ry)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块252,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于人工智能的问答数据处理装置可以采用软件方式实现,图3示出了存储在存储器250中的基于人工智能的问答数据处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:语义特征获取模块2551、特征解耦模块2552、匹配模块2553、数据类型确定模块2554、问答数据获取模块2555、训练模块2556和过滤模块2557,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的基于人工智能的问答数据处理装置可以采用硬件方式实现,作为示例,本发明实施例提供的基于人工智能的问答数据处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的问答数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Spe cific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex ProgrammableLogic Devic e)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面将结合本发明实施例提供的服务器的示例性应用和实施,下面将基于模型的训练以及模型的应用这两个阶段说明本发明实施例提供的基于人工智能的问答数据处理方法。
参见图4A,图4A是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图,将结合图4A示出的步骤101-103进行说明。
在步骤101中,服务器对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合;其中,经过人工标注的标准问答数据样本由相互匹配的问题样本和答案样本组成。
参见图4B,基于图4A,图4B是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图,步骤101中对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合,可以通过图4B示出的步骤1011-1014具体实现。
在步骤1011中,随机替换标准问答数据样本中的答案样本的实体词,以使标准问答数据样本中的答案样本的实体词与问题样本的实体词不匹配,并将经过替换的标准问答数据样本确定为实体不匹配且意图匹配的第一问答数据样本。
在步骤1012中,随机打乱标准问答数据样本中的问题样本和答案样本,以生成实体不匹配且意图不匹配的第二问答数据样本。
在步骤1013中,随机替换第二问答数据样本中的答案样本的实体词,以使第二问答数据样本中的答案样本的实体词与问题样本的实体词匹配,并将经过替换的第二问答数据样本确定为实体匹配且意图不匹配的第三问答数据样本。
在步骤1014中,将标准问答数据样本、第一问答数据样本、第二问答数据样本以及第三问答数据样本中的至少之一,组合成训练样本集合。
这里的匹配是指答即所问,申请人发现目前还没有一个较为完善的问题答案数据集作为训练样本集合,其中每个问答数据都有多个属性的匹配标签,为了填补这一空白,建立了一个从某一领域收集的新数据集,这里以医学领域为例,获得了100万个与医学相关的原始问答数据,然后随机抽取其中的5万样本进行标记,即获取到了5万个经过标记的问答数据,医学上的问题具有两个属性:实体属性和意图属性,实体属性表示询问者所面对的对象,例如疾病,症状或药物,意图属性表示问题想要的信息,例如治疗方法,疾病原因或药品价格,因此,给每个问答数据设置两个匹配标签,一个用于实体匹配,另一个用于意图匹配,表1给出了不同属性的匹配,其中我们将实体信息标记为深色,将意图信息标记为浅色。
问题Q 答案A 实体属性 意图属性
我感冒了,怎么办 失眠需要更多的运动 不匹配 匹配
我感冒了,怎么办 感冒了真糟糕 匹配 不匹配
我感冒了,怎么办 在感冒后吃药 匹配 匹配
表1不同属性的匹配表格
在步骤102中,服务器构建用于识别出答非所问的类型的问答匹配模型。
在一些实施例中,基于语义特征提取网络、实体全连接层、意图全连接层、实体匹配层、意图匹配层、实体对抗层以及意图对抗层,构建初始化的问答匹配模型。
在一些实施例中,本发明实施例提供的问答匹配模型所要解决的任务是判断问答数据中的答案是否与问题匹配,给它一个清晰的定义如下:对于一个问题Q和一个答案A,任务是给出标签z表示A是否匹配Q,(使用z=0表示匹配,而z=1表示不匹配),目标是估计条件概率P(z|Q,A),如上,一个问题有各种各样的属性,为了更准确地解决任务,需要为每个属性提供一个是否匹配的标签,这意味着z不是0或1,实际上是大小为T的向量,T是属性的数量,并且z中第k维的值zk表示在属性快中A是否匹配Q,此后,旨在计算z的每个维度的条件概率,如公式1所示:
P(z|Q,A)=P(z1,···,zk,···,zT|Q,A) (1)
以医学领域为例,对于与医学有关的问答数据,提出了两个属性:实体属性和意图属性,为了简单起见,用E表示实体,用I表示意图,参见图5,图5是本发明实施例提供的对抗解耦框架的示意图,对于一个问答数据(Q,A),首先利用模型M提取问答数据的语义特征f,其中f包含所有信息,因而使用两个特征生成器Ge和Gi分别将语义特征f转换为实体特征fe和意图特征fi中,fe包含实体匹配信息(“感冒了”),而fi包含意图匹配信息(“怎么办”以及“太糟糕了”),通过两个分类器De和Di来获得相应的实体匹配标签ze和意图匹配标签zi,为避免不同属性之间的干扰,因而希望fi不包含任何实体匹配信息,而fe不包含任何意图匹配信息,从而添加了两个对抗分类器,分别是实体对抗分类器Dadv-e和意图对抗分类器Dadv-i,对抗分类器和特征生成器形成对抗关系,从而在训练过程中逐渐删除其他属性的匹配信息。
在步骤103中,基于训练样本集合,服务器对问答匹配模型进行训练。
在一些实施例中,对于问答匹配模型,使用12层的基于转换器的双向编码器表示(BERT,Bidirectional Encoder Representations from Transformers)模型的基础上构建解耦框架,框架中的每个生成器和分类器都是通过全连接层实现的,将学习率,慢热学习比例分别设置为3e-5和0.1,对于损耗系数λ,将对应De的λe,对应Di的λi设置为1.0,并将对应Dadv-e的λadve,对应Dadv-i的λadvi设置为0.5,Ge和Gi在对抗关系中很容易表现良好,因此使λadve和λadvi在训练过程中指数增长到0.5。
在一些实施例中,步骤103中基于训练样本集合,对问答匹配模型进行训练,可以通过以下技术方案具体实现,初始化问答匹配模型,并初始化包括输入样本以及对应输入样本的问答数据匹配结果的损失函数;在问答匹配模型每次迭代训练过程中执行以下处理:通过问答匹配模型,对训练样本集合包括的问答数据样本进行匹配,得到对应问答数据样本的问答数据匹配结果;将对应问答数据样本的真实匹配结果和问答数据匹配结果代入损失函数,以确定损失函数取得最小值时对应的问答匹配模型参数;根据所确定的问答匹配模型参数更新问答匹配模型。
在一些实施例中,问答匹配模型包括:语义特征提取网络、实体全连接层、意图全连接层、实体匹配层、意图匹配层、实体对抗层以及意图对抗层;上述通过问答匹配模型,对训练样本集合包括的问答数据样本进行匹配,得到对应问答数据样本的问答数据匹配结果,可以具体通过以下技术方案实现,通过语义特征提取网络,对训练样本集合包括的问答数据样本进行语义特征提取;通过实体全连接层,将语义特征转换为实体特征;通过意图全连接层,将语义特征转换为意图特征;通过实体匹配层,对问答数据样本进行基于实体特征的实体匹配,得到对应问答数据样本的实体匹配结果;通过意图匹配层,对问答数据样本进行基于实体特征的意图匹配,得到对应问答数据样本的意图匹配结果;通过实体对抗层,对问答数据样本进行基于意图特征的实体匹配,得到对应问答数据样本的实体匹配结果;通过意图对抗层,对问答数据样本进行基于实体特征的意图匹配,得到对应问答数据样本的意图匹配结果。
在一些实施例中,上述将对应问答数据样本的真实匹配结果和问答数据匹配结果代入损失函数,以确定损失函数取得最小值时对应的问答匹配模型参数,可以通过以下技术方案实现,将通过实体匹配层得到的对应问答数据样本的实体匹配结果、以及对应问答数据样本的真实实体匹配结果,代入对应实体匹配层的第一损失函数;将通过意图匹配层得到的对应问答数据样本的意图匹配结果、以及对应问答数据样本的真实意图匹配结果,代入对应意图匹配层的第二损失函数;将通过实体对抗层得到的对应问答数据样本的实体匹配结果、以及对应问答数据样本的真实实体匹配结果所对应的取反结果,代入对应实体对抗层中对抗学习的第三损失函数;将通过意图对抗层得到的对应问答数据样本的意图匹配结果、以及对应问答数据样本的真实意图匹配结果所对应的取反结果,代入对应意图对抗层中对抗学习的第四损失函数;将通过实体对抗层得到的对应问答数据样本的实体匹配结果、以及对应问答数据样本的真实实体匹配结果,代入对应实体对抗层中分类学习的第五损失函数;将通过意图对抗层得到的对应问答数据样本的意图匹配结果、以及对应问答数据样本的真实意图匹配结果,代入对应意图对抗层中分类学习的第六损失函数;确定第五损失函数取得最小值时对应的实体对抗层的参数,并确定第六损失函数取得最小值时对应的意图对抗层的参数;确定第一损失函数、第二损失函数、第三损失函数以及第四损失函数的和取得最小值时对应的问答匹配模型的参数。
在一些实施例中,下面仍然以医学问答数据为例,详细描述上述问答匹配模型,为每个匹配属性(实体以及意图)构建生成器和分类器,以得出分别与实体匹配标签ze和意图匹配标签zi的实体匹配概率pe和意图匹配概率pi,使用交叉熵作为损失函数,这里使用对抗学习来区分不同属性的匹配特征,在这里描述实体生成器Ge和实体对抗分类器Dadv-e之间的对抗关系,以及意图生成器Gi和意图对抗分类器Dadv-i之间的关系,使Dadv-e判断答案A是否在意图方面与问题Q匹配,Dadv-e尝试利用实体匹配信息做出判断后,修复了Dadv-e并训练Ge来尽可能地降低意图匹配的概率,在这种对抗下,Dadv-e尝试利用意图特征fi的意图匹配信息,而Ge尝试不产生意图特征fi的意图匹配信息,上述过程在公式(2)-(9)呈现:
lossadv-e=-∑zilog(Dadv-e(fe)) (2)
lossr-e=-∑(1-zi)log(Dadv-e(fe)) (3)
lossadv-i=-∑zelog(Dadv-i(fi)) (4)
lossr-i=-∑(1-ze)log(Dadv-i(fi)) (5)
pe=De(Ge(f)) (6)
pi=Di(Gi(f)) (7)
losse=-∑zelog(pe) (8)
lossi=-∑zilog(pi) (9)
其中,这里的losse是第一损失函数的主体,lossi是第二损失函数的主体,lossr-i是第三损失函数的主体,lossr-e是第四损失函数的主体,lossadv-i是第五损失函数的主体,lossadv-e是第六损失函数的主体,在训练过程中,以最小化lossadv-e来更新Dadv-e,以最小化lossadv-i来更新Dadv-i,以最小化losse、lossi、lossr-i和lossr-e的和来更新模型M,Ge,Gi,De和Di
在一些实施例中,仍然以医学领域的问答数据为例对上述获得的问答匹配模型进行测试,基于搜集的约100万个医学问答数据,随机抽样5万问答数据,经过人工标注以及删除不完整的问答数据后,剩下42793对,问答数据分为三类:实体意图均匹配,实体不匹配意图匹配、以及实体匹配意图不匹配,下述表2列出了数据集的统计特征,数据集是一个问答数据集,其中在多个属性上都给出了匹配标签,从而帮助进一步研究多属性文本匹配任务。
项目 数据统计结果
总计42793 总计42793
匹配27607 匹配27607
实体不匹配2474 实体不匹配2474
意图不匹配12712 意图不匹配12712
平均疑问句1.05 平均疑问句1.05
平均答案句3.06 平均答案句3.06
平均疑问词8.12 平均疑问词8.12
平均答案词85.80 平均答案词85.80
平均疑问字符14.09 平均疑问字符14.09
平均答案字符144.26 平均答案字符144.26
表2:数据集的统计特征项目统计结果
在实验过程中,随机抽取了1500个样本进行测试,将1500个样本进行验证,然后将其余样本用作训练数据,使用BERT模型作为基准线,为了验证BERT模型是否可以很好地学习这两个属性的匹配特征,还训练了双BERT模型,一个用于实体属性匹配,另一个用于意图属性匹配,其标签由双BERT模型中的两个BERT模型的标签确定,为了验证对抗性流程的必要性,删除了Dadv-e和Dadv-i,以建立一个新模型作为一个基准,我们将其称为无对抗模型,另外,利用一些经典的文本匹配模型作为基准,列出了一系列用于句子对建模的网络设计,并在不同数据集中广泛地比较了它们的性能,具体来说,选择了五个模型并进行实验,如下所示:模型1:使用长短期记忆网络来获取句子对的特征;模型2:使用具有快捷连接作为编码器的堆叠式双向长短期记忆网络;模型3:提出了一种新颖的相似性关注机制;模型4:利用注意力机制将问题分解为子问题;模型5:增强了链式长短期记忆网络并引入了递归体系结构。
选择这五个模型作为基准,对于问答数据,将问题的长度限制为96,将答案的长度限制为192,因为答案通常比问题长得多,对于所有基准,执行相同的操作,在表3中给出了实验结果。
模型 准确率 召回率 匹配分数
问答匹配模型 0.7481 0.8000 0.7731
BERT模型 0.7084 0.7840 0.7443
双BERT模型 0.7488 0.8107 0.7785
无对抗模型 0.7089 0.8053 0.7540
模型1 0.4477 0 0.4453 0.4465
模型2 0.5147 0.4213 0.4633
模型3 0.6837 0.4267 0.5255
模型4 0.5579 0.4240 0.4818
模型5 0.4940 0.6533 0.5625
表3:不同模型的实验结果
双BERT模型的匹配分数得分最高,为0.7785,而BERT模型的得分为0.7443,这表明BERT模型无法同时很好地学习这两个属性的匹配功能,还可以推断出这是由于两个属性的匹配特征的干扰引起的,问答匹配模型获得匹配分数是0.7731,比BERT模型的结果约高0.03,这确实显示了解耦框架的进步性,表明提取各种属性的匹配特征的能力更强,还反映了解耦的必要性和有效性,与双BERT模型相比,问答匹配模型的匹配分数得分低0.005,双BERT模型是集成模型,而不是单个模型,在表4中给出了这三个模型的参数量和训练时间,以进行比较。
模型 参数 一次训练时间
问答匹配模型 1.035M 30分钟
BERT模型 102.3M 29分钟
双BERT模型 204.6M 58分钟
表4:参数量和训练时间
显然,问答匹配模型仅比BERT模型多了一些参数和训练时间,而双BERT模型有两次训练,换句话说,问答匹配模型的框架可以使单个BERT模型的效果近似为双BERT模型,当属性多于两个时,问答匹配模型的效率将具有更大的优势,这意味着,双BERT模型的参数几乎是问答匹配模型的两倍,问答匹配模型的框架极大地提高了单个BERT模型的性能,使其更接近双BERT模型,这证明了问答匹配模型的框架的有效性,无对抗模型获得0.7540的匹配分数,低于问答匹配模型,但高于BERT模型,这意味着它可以在一定程度上分离不同属性的匹配,但不如问答匹配模型的性能完美,上述比较证明了对抗过程的必要性,因为它使解耦更加彻底。
模型3,模型4和模型5的性能要优于模型1和模型2,模型1和模型2于句子编码(SE)模型,SE模型直接提取两个句子的特征并将其转换为最终输出,其他三个模型属于句子交互(SI)模型,在获得句子特征后添加一个交互部分,实验结果表明,SI模型更适合该任务,因为它可以通过特征的相互作用提取更多信息。
为了验证本发明实施例提供的解耦框架是否也适用于其他特征提取器,进行了模型简化测试,首先,选择两个基准:模型1和模型4,一个是SE模型和一个是SI模型,然后,将解耦框架应用于上述基准模型,并获得两个新模型,将其称为对抗模型1和对抗模型4,通过相同的数据训练和测试这两个模型,结果显示在表5中。
模型 精确度 召回率 匹配分数
模型1 0.4477 0 0.4453 0.4465
对抗模型1 0.4877 0.3706 0.4212
模型4 0.5579 0.4240 0.4818
对抗模型4 0.5894 0.5360 0.5615
表5解耦框架应用于其他模型的模型简化测试结果
显然,对抗模型4优于原始模型4,但对抗模型1则不然,本发明实施例的解耦框架可以帮助模型4分离两个属性的匹配特征,同时对于模型1似乎毫无帮助,如上,SE模型仅分别获得两个句子的特征,而SI模型则完全整合了这些特征,这导致SI模型的特征比SE模型的特征更全面,换句话说,SI模型比SE模式提取更多的信息,因此,本发明实施例的解耦框架可以帮助SI模型分离匹配特征,对于SE模型,其提取的特征可能仅包含一种类型的匹配信息,本发明实施例的问答匹配模型在应用于SE模型时无法运行,因为BERT模型可被视为一种特殊的SI模型,通过模型简化测试,本发明实施例的解耦框架适用于任何SI模型,这证明了它的普遍性。
为了进一步比较不同模型之间的预测结果,表6给出了两个示例,用深色表示实体,用浅色标识意图,其中包含对不同模型和人工标记者的判断。
/>
表6两个问答数据在不同模型中的预测结果
对于第一个问答数据,其答案只是其问题的重复,毫无疑问,答案与问题不匹配,因为它没有提供有用的信息,本发明实施例的问答匹配模型和双BER T模型给出正确的预测,而BERT提供错误的结果,这表明BERT实际上是根据问题和答案之间的相似性来判断,对于第二个问答数据,BERT认为其答案与问题不匹配,而本发明实施例的问答匹配模型和双BERT模型给出相反的结果,显然,答案与实体方面的问题匹配,因为两者都是关于“避孕药具”的,另一方面,在意图方面,“后果”实际上与“月经不调”相匹配。似乎BERT模型无法提取这种潜在的匹配信息,从这两个问答数据中,进一步认为,判断一个答案是否在多方面与问题相匹配是必要且重要的,BERT模型无法同时很好地提取这两个特征,但是本发明实施例提供的解耦框架提高了其获取两个特征的能力。
为了验证本发明实施例提出的解耦框架是否成功分离了实体特征和意图特征,在测试数据上获得了这两个属性的最终特征,将最终特征转换为二维向量并可视化这些向量,参见图6A,加号代表意图和实体均匹配的问答数据,乘号代表实体匹配但意图不匹配的问答数据,图6A是本发明实施例提供的对抗解耦框架中特征可视化示意图,图6A中显示了匹配的问答数据和意图不匹配的问答数据的结果,这从两个方面反映了潜在空间中特征的分布,两种类型的问答数据的特征在实体潜在空间中彼此混合,参见图6B,加号代表意图和实体均匹配的问答数据,乘号代表实体匹配但意图不匹配的问答数据,图6B本发明实施例提供的对抗解耦框架中特征可视化示意图,图6B中显示了匹配的问答数据和意图不匹配的问答数据的结果,这从两个方面反映了潜在空间中特征的分布,两种类型的问答数据的特征在意图潜在空间中明显分开,对于所有这些问答数据,答案在实体方面都匹配问题,因此它们的实体特征对于模型是无法区分的,同时,模型可以根据意图轻松区分它们,这表明本发明实施例提出的解耦框架确实将两种特征分开。
参见图7A,图7A是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图,将结合图7A示出的步骤201-204进行说明。
在步骤201中,服务器获取问答数据的语义特征。
这里的问答数据可以是医疗领域的问答数据,也可以是其他领域的问答数据,这里的语义特征表达的是关系特征,即问答数据中的问题与答案之间的语义关系的特征。
参见图7B,基于图7A,图7B是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图,将结合图7B示出的步骤205-206进行说明。
在执行步骤201之前,还可以执行步骤205或者206。在步骤205中,当用于答复问题的文本的长度超过文本长度阈值时,提取文本的摘要以作为问题的答案,并结合问题组成问答数据。在步骤206中,当用于答复问题的文本长度不超过文本长度阈值时,将文本作为问题的答案,并结合问题组成问答数据。
在一些实施例中,步骤205中提取文本的摘要,可以通过以下技术方案实现,对文本进行编码得到对应的嵌入向量,并基于注意力机制从嵌入向量中提取对应文本的语义向量;对语义向量进行解码处理,得到对应文本的摘要。
在一些实施例中,在实际场景中,无法控制用于答复问题的文本的长度,当用于答复问题的文本长度超过文本长度阈值时,通过生成摘要的方式能够减少模型后期计算量,提升匹配速度,基于文本生成摘要的方式主要是通过对文本字符进行语义编码以及语义解码来进行的。
在一些实施例中,步骤201中获取问答数据的语义特征,可以通过以下技术方案实现,通过语义特征提取网络的各特征提取层,提取表征问答数据中问题与答案之间的语义关系的子语义特征;结合对应各特征提取层中的权重,对各特征提取层所提取的子语义特征进行加权处理,得到表征问答数据中问题与答案之间的语义关系的语义特征;其中,语义关系包括问题与答案在实体维度的匹配关系、以及问题与答案在意图维度的匹配关系。
在步骤202中,服务器对问答数据的语义特征进行解耦处理,得到问答数据的实体特征以及问答数据的意图特征。
在一些实施例中,对于一个问答数据(Q,A),首先利用问答匹配模型中的语义特征提取网络提取问答数据的语义特征f,其中f包含所有信息,因而使用两个特征生成器Ge和Gi分别将语义特征f转换为实体特征fe和意图特征fi,fe包含实体匹配信息,而fi包含意图匹配信息,特征生成器通过全连接层实现。
在一些实施例中,步骤202中的对问答数据的语义特征进行解耦处理,得到问答数据的实体特征以及问答数据的意图特征,可以通过以下技术方案实现,通过问答匹配模型中的实体全连接层,将问答数据的语义特征,从语义特征空间映射到实体特征空间,以得到用于表征实体维度匹配信息的实体特征;通过问答匹配模型中的意图全连接层,将问答数据的语义特征,从语义特征空间映射到意图特征空间,以得到用于表征意图维度匹配信息的意图特征;其中,实体全连接层和意图全连接层是基于对抗训练得到的。
在一些实施例中,将内部注意力机制应用于基于转换器的双向编码器表示(BERT,Bidirectional Encoder Representations from Transformers)模型,并将此模型用作语义特征提取网络,参见图8,图8是本发明实施例提供的语义特征提取网络模型的架构图,原始BERT模型仅在最后一层上使用[CLS]令牌(表示序列开始的特定符号)作为输出,然而,实体匹配信息和意图匹配信息可以分布在BERT模型的不同层上,因此,将内部注意机制应用于BERT,相应地,使BERT模型适应地学习每一层相对应的权重,然后,计算所有层输出的特征的加权总和,从而最终基于特征的加权总和分别得到实体匹配特征和意图匹配特征,计算步骤参见公式(10)-(13):
cj=W([omean,oj])+b (11)
其中,f是经过加权得到的输出语义特征,oj是每一层所得到的语义特征,omean是平均语义特征,aj是每一层的权重,W和b是经过训练学习到的全连接层的参数,cj是一个中间量。
在一些实施例中,为了验证对语义特征进行加权平均的必要性,在测试数据上获得了每一层的Ge和Gi的注意权重值,视觉结果如图9所示,图9呈现了不同层所输出的语义特征以及各层的权重,Ge的注意权重在第10层上最大,而在第11层上很小,同时,Gi的注意力权重在第12层上最大,在第11层上很小,这表明实体特征主要分布在第10层,而意图特征主要分布在第12层,本发明实施例提供的语义特征提取网络可以从不同的层分别提取实体和意图特征,这对于后续的解耦框架有很大帮助,此外,实体特征是在较低层上提取的,而意图特征是在较高层上提取的,这是因为判断两个句子是否具有相同的实体比判断意图匹配更简单。
在步骤203中,服务器基于实体特征确定问答数据对应实体维度匹配的实体匹配分数,并基于意图特征确定问答数据对应意图维度匹配的意图匹配分数。
在一些实施例中,步骤203中基于实体特征确定问答数据对应实体维度匹配的实体匹配分数,可以通过以下技术方案实现,通过问答匹配模型的实体匹配层,并结合对应问答数据的实体特征对问答数据进行分类,得到问答数据为基于实体维度匹配的问答数据的第一概率,以作为实体匹配分数;步骤203中基于意图特征确定问答数据对应意图维度匹配的意图匹配分数,可以通过以下技术方案实现,通过问答匹配模型的意图匹配层,并结合对应问答数据的意图特征对问答数据进行分类,得到问答数据为基于意图维度匹配的问答数据的第二概率,以作为意图匹配分数。
在一些实施例中,通过实体分类器De和意图分类器Di来获得相应的实体匹配标签ze和意图匹配标签zi,这里的实体分类器和意图分类器也可以通过全连接层实现,通过实体分类器输出实体匹配标签,以及对应的实体匹配分数,通过意图分类器输出意图匹配标签,以及对应的意图匹配分数。
在步骤204中,当实体匹配分数以及意图匹配分数中的至少一个满足对应的答非所问条件时,服务器确定问答数据属于答非所问的类型。
在一些实施例中,步骤204中当实体匹配分数以及意图匹配分数中的至少一个满足对应的答非所问条件时,确定问答数据属于答非所问的类型,可以通过以下技术方案实现,当满足以下条件至少之一时,确定问答数据属于答非所问的类型:实体匹配分数小于实体匹配分数阈值;意图匹配分数小于意图匹配分数阈值。
在一些实施例中,还可以从其他的属性来判断问答数据中的问题与答案是否匹配,例如从情感属性上来判断,于是可以设定其他的匹配条件,要求情感匹配分数小于情感匹配分数阈值。
参见图7C,基于图7A,图7C是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图,在执行步骤201之前,可以执行步骤207,在执行完步骤204之后,还可以执行步骤208。
在步骤207中,服务器从数据库中获取至少一个问答数据。
在步骤208中,当问答数据被判断为答非所问的问答数据时,将答非所问的问答数据从数据库中删除。
在一些实施例中,问答服务提供方主要依赖于第三方数据库来响应用户的问题查询操作,因此,保证第三方数据库中的问答数据相互匹配非常重要,因此,可以对数据库中问答数据进行过滤,对问答数据进行过滤的计算量十分大,这里的至少一个问答数据,可以限定其过滤范围,例如,获取用户预设时间内所检索的高频词,高频词即可根据被搜索次数确定,若某个词的被搜索次数超过高频词阈值,将该词确定为高频词,将包括高频词的问题所对应的问答数据进行匹配以及过滤,从而将答非所问的问答数据从数据库中删除。
下面将结合本发明实施例提供的终端的示例性应用和实施,说明本发明实施例提供的基于人工智能的问答数据处理方法。
参见图10,图10是本发明实施例提供的基于人工智能的问答数据处理方法的一个可选的流程示意图,将结合图10示出的步骤301-103进行说明。
在步骤301中,响应于在客户端中接收到用户的问题查询操作,从数据库中获取对应问答查询操作所提交的问题的至少两个候选答案。
在步骤302中,通过问答匹配模型,对每个候选答案与问题分别组成的问答数据对识别属于答非所问的类型的问答数据;
在步骤303中,在组成的问答数据中过滤掉属于答非所问的类型的问答数据,并在客户端的展示界面中呈现过滤后剩余的问答数据中的候选答案。
在一些实施例中,问答匹配模型还可以在客户端使用,客户端响应于接受到用户的问题查询操作,从数据库中会获得大量对应问题的候选答案,这些候选答案会存在与问题答非所问的情形,通过客户端本地的问答匹配模型对这些候选答案进行匹配,以筛选掉答非所问的答案,并保留答即所问的候选答案作为呈现给用户的答案。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。本发明实施例提供的基于人工智能的问答数据处理方法目前可以应用在具有搜索功能的应用中,参见图11,图11是本发明实施例提供的基于人工智能的问答数据处理方法在应用中的产品界面,图11左图呈现了应用中所提供的搜索功能的主要入口,图11中图呈现了点击该入口后所进入的主界面,图11右图呈现了用户输入关键词后进行搜索得到的结果。
对于用户而言,其在搜索界面输入医疗相关的文本时想要获取的是与文本有关的内容,具体为某种症状的原因以及解决办法等等,而产品侧也从数据库中拉取相关的医疗方面的问答数据,这里的问答数据实际上是由问题和答案组成的数据对,并将问答数据推送至用户所使用的终端,但是这些问答数据本身就可能会出现答非所问的情况,那么会对于用户的体验产生不良影响,参见图12,图12是本发明实施例提供的基于人工智能的问答数据处理方法在应用中的产品界面,图12左图呈现的是在搜索功能的界面中搜索“人体结构图”后所呈现的作为候选的问答数据,图12右图中呈现了图12左图中的作为候选的问答数据实际来自于来自某网站的数据,该问答数据中的答案是与肾脏位置的有关信息,和问题中的“人体结构图”并没有关系,因此该问答数据是属于答非所问的类型,通过本发明实施例提供的基于人工智能的问答数据处理方法,从数据库中先识别出属于答非所问的类型的问答数据,再对属于答非所问的类型的问答数据进行过滤,从而提高用户的使用体验。
本发明实施例提供的基于人工智能的问答数据处理方法在实现的时候采取了基于对抗的解耦框架,将答非所问的语义特征解耦到了实体不匹配和意图不匹配这两个维度上,因此在实际应用的时候可以根据问答数据在两个维度上的匹配分数进行综合考虑。参见图13,图13是本发明实施例提供的基于人工智能的问答数据处理方法的主体框架图,具体过程分为数据增强阶段,训练阶段(利用已有数据训练问答匹配模型中的参数)以及应用阶段(将训练好的问答匹配模型提供给在线服务),首先,从原始数据中获取标注为问题与答案匹配的问答数据,即称为答即所问的问答数据,利用标注好的问答数据,原始数据与医疗实体词字典进行数据增强处理,以扩充训练样本,将扩充后的作为训练样本的问答数据送入问答匹配模型中进行检测,以判断问答数据是否为答非所问的类型。参见图14,图14是本发明实施例提供的基于人工智能的问答数据处理方法的问答匹配模型的模型框架图,模型框架图的第一部分是获取问答数据的语义特征,通过特征提取网络对问答数据进行特征提取处理,得到语义特征,这里的特征提取网络可以是BERT模型,考虑到与答非所问相关的语义特征可能分布在不同的语义层次,因此这里没有按照相关技术中的方式直接将最后一层的输出当作特征向量,而是对每层特征进行加权求和后得到特征向量;第二部分,对问答数据的语义特征进行解耦,先采用两个特征转换器生成器1和生成器2将获取到的语义特征转换到两个不同的子空间,为了使得生成器1所输出的特征仅含有实体是否匹配的信息,而生成器2所输出的特征仅含有意图是否匹配的信息,使用对抗的方式对语义特征进行解耦,具体而言,设立四个分类器1、分类器2、分类器3和分类器4,其中分类器2负责判别生成器2生成的特征是否为实体答非所问的信息,而同时生成器2采用标签取反训练的方式,使得分类器2不能判别出生成器2所生成的特征是否为实体匹配,经过生成器2和分类器2这二者对抗后,使得生成器2中的特征向量不含实体匹配信息,同理,分类器4负责判别生成器1生成的特征是否为意图答非所问的信息,而同时生成器1采用标签取反训练的方式,使得分类器4不能判别出生成器1所生成的特征是否为意图匹配,经过生成器1和分类器4这二者对抗后,使得生成器1中的特征向量不含意图匹配信息,另外,分类器1和分类器3分别负责判断实体匹配和意图匹配,并且分别输出最后的意图匹配结果和实体匹配结果,综合得到的实体匹配结果和意图匹配结果,判别问答数据是否为答非所问的类型,并且过滤属于答非所问的类型的问答数据。
在进行数据增强时,由于人工标注效率的局限性,只能从原始数据中拉取极小部分数据进行标注,为了扩充训练样本,使得模型具有更好的泛化能力,利用了标注好的问答数据,原始数据和医疗实体词字典进行数据增强,参见图15,图15是本发明实施例提供的基于人工智能的问答数据处理方法的数据增强示意图,将标注数据中实体和意图均匹配的问答数据标记为(1),将标记为(1)的问答数据中的答案或者问题通过医疗实体词字典进行实体替换,由此得到实体不匹配,但是意图匹配的问答数据,将这些实体不匹配,但是意图匹配的问答数据标记为(2),对于原始数据而言,将原始数据对打乱后可将得到的问答数据视为实体意图均不匹配的问答数据,将这些实体意图均不匹配的问答数据标记为(3),在此基础上将标记为(3)的问答数据中的问题或者答案中的实体替换一致后可得到实体匹配,意图不匹配的问答数据,将这些实体匹配,意图不匹配的问答数据标记为(4),通过这种方式,得到了许多由机器标注的数据,利用这些机器标注的数据对问答匹配模型进行预训练,可以有效的提升问答匹配模型的泛化能力,在预训练的基础上,用标记为(1)的问答数据进行迁移学习,为了防止问答匹配模型的过拟合现象,在预训练阶段,只将全部训练样本训练了一次,在迁移学习中将全部训练样本训练了两次,并且在训练过程中设置了0.1的丢弃概率,例如,经过人工标注的问答数据的样本量是4万,得到的机器标注的问答数据的样本量是10万,先利用这10万的机器标注的问答数据对问答匹配模型进行预训练,然后在此基础上用经过人工标注的4万问答数据进行迁移学习训练。
在问答匹配模型训练完之后,即可按照图12中的问答匹配模型来处理从第三方获取的医疗问答数据,对于问答数据中超过文本长度阈值的答案,使用一个摘要生成器,即先对超过文本长度阈值的答案生成一个摘要,再判断这个摘要和问题是否匹配,简单概括流程如下:首先,对问答数据中的问题和答案,进行预处理,预处理的目的是为了将问题和答案统一成标准的格式,将预处理好的问题和答案组成的问答数据输入到问答识别模型中,获取实体匹配和意图匹配各自的概率,将各自概率转化为对应的实体匹配分数和意图匹配分数,利用实体匹配分数和意图匹配分数,结合预定规则来确定问答数据是否要被过滤。
本发明实施例提供的基于人工智能的问答数据处理方法中所使用的问答匹配模型运用了解耦框架,相较于相关技术,这种框架使得问答匹配模型可以将实体匹配信息和意图匹配信息解耦到两个不同的子空间内,赋予了问答匹配模型同时识别意图不匹配和实体不匹配的能力;在语义特征提取方面,不同于相关技术中的方法,即只利用特征提取网络的最后一层所输出的语义特征,这里将特征提取网络各个层次的特征向量进行加权求和后得到最终的特征向量,这样有助于问答匹配模型学习到不同层次的语义特征;在训练时使用了数据增强的方式,有效的扩充了训练样本,提高了模型的泛化能力。针对于问答匹配模型中的特征提取网络,可以使用BERT模型,或者是类似于BERT的模型;数据增强部分是本发明实施例提供的基于人工智能的问答数据处理方法中为了应对训练数据不足而提出的一种扩充样本量的方法,也可以不用数据增强或者是利用其他基于实体词字典的方式进行数据增强,均起到同样的效果。
下面继续说明本发明实施例提供的基于人工智能的问答数据处理装置255的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的基于人工智能的问答数据处理装置255中的软件模块可以包括:语义特征获取模块2551,用于获取问答数据的语义特征;特征解耦模块2552,用于对问答数据的语义特征进行解耦处理,得到问答数据的实体特征以及问答数据的意图特征;匹配模块2553,用于基于实体特征确定问答数据对应实体维度匹配的实体匹配分数,并基于意图特征确定问答数据对应意图维度匹配的意图匹配分数;数据类型确定模块2554,用于当实体匹配分数以及意图匹配分数中的至少一个满足对应的答非所问条件时,确定问答数据属于答非所问的类型。
在上述方案中,装置还包括:问答数据获取模块2555,用于:当用于答复问题的文本的长度超过文本长度阈值时,提取文本的摘要以作为问题的答案,并结合问题组成问答数据;当用于答复问题的文本长度不超过文本长度阈值时,将文本作为问题的答案,并结合问题组成问答数据。
在上述方案中,问答数据获取模块2555,还用于:对文本进行编码得到对应的嵌入向量,并基于注意力机制从嵌入向量中提取对应文本的语义向量;对语义向量进行解码处理,得到对应文本的摘要。
在上述方案中,语义特征获取模块2551,还用于:通过语义特征提取网络的各特征提取层,分别提取表征问答数据中问题与答案之间的语义关系的子语义特征;结合对应各特征提取层中的权重,对各特征提取层所提取的子语义特征进行加权处理,得到表征问答数据中问题与答案之间的语义关系的语义特征;其中,语义关系包括问题与答案在实体维度的匹配关系、以及问题与答案在意图维度的匹配关系。
在上述方案中,特征解耦模块2552,还用于:通过问答匹配模型中的实体全连接层,将问答数据的语义特征,从语义特征空间映射到实体特征空间,以得到用于表征实体维度匹配信息的实体特征;通过问答匹配模型中的意图全连接层,将问答数据的语义特征,从语义特征空间映射到意图特征空间,以得到用于表征意图维度匹配信息的意图特征;其中,实体全连接层和意图全连接层是基于对抗训练得到的。
在上述方案中,匹配模块2553,还用于:通过问答匹配模型的实体匹配层,并结合对应问答数据的实体特征对问答数据进行分类,得到问答数据为基于实体维度匹配的问答数据的第一概率,以作为实体匹配分数;通过问答匹配模型的意图匹配层,并结合对应问答数据的意图特征对问答数据进行分类,得到问答数据为基于意图维度匹配的问答数据的第二概率,以作为意图匹配分数。
在上述方案中,数据类型确定模块2554,还用于:当满足以下条件至少之一时,确定问答数据属于答非所问的类型:实体匹配分数小于实体匹配分数阈值;意图匹配分数小于意图匹配分数。
在上述方案中,装置还包括:训练模块2556,用于:对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合;其中,经过人工标注的标准问答数据样本由相互匹配的问题样本和答案样本组成;构建用于识别出答非所问的类型的问答匹配模型;基于训练样本集合,对问答匹配模型进行训练。
在上述方案中,训练模块2556,还用于:随机替换标准问答数据样本中的答案样本的实体词,以使标准问答数据样本中的答案样本的实体词与问题样本的实体词不匹配,并将经过替换的标准问答数据样本确定为实体不匹配且意图匹配的第一问答数据样本;随机打乱标准问答数据样本中的问题样本和答案样本,以生成实体不匹配且意图不匹配的第二问答数据样本;随机替换第二问答数据样本中的答案样本的实体词,以使第二问答数据样本中的答案样本的实体词与问题样本的实体词匹配,并将经过替换的第二问答数据样本确定为实体匹配且意图不匹配的第三问答数据样本;将标准问答数据样本、第一问答数据样本、第二问答数据样本以及第三问答数据样本中的至少之一,组合成训练样本集合。
在上述方案中,训练模块2556,还用于:初始化问答匹配模型,并初始化包括输入样本以及对应输入样本的问答数据匹配结果的损失函数;在问答匹配模型每次迭代训练过程中执行以下处理:通过问答匹配模型,对训练样本集合包括的问答数据样本进行匹配,得到对应问答数据样本的问答数据匹配结果;将对应问答数据样本的真实匹配结果和问答数据匹配结果代入损失函数,以确定损失函数取得最小值时对应的问答匹配模型参数;根据所确定的问答匹配模型参数更新问答匹配模型。
在上述方案中,问答匹配模型包括:语义特征提取网络、实体全连接层、意图全连接层、实体匹配层、意图匹配层、实体对抗层以及意图对抗层,训练模块2556,还用于:通过语义特征提取网络,对训练样本集合包括的问答数据样本进行语义特征提取;通过实体全连接层,将语义特征转换为实体特征;通过意图全连接层,将语义特征转换为意图特征;通过实体匹配层,对问答数据样本进行基于实体特征的实体匹配,得到对应问答数据样本的实体匹配结果;通过意图匹配层,对问答数据样本进行基于实体特征的意图匹配,得到对应问答数据样本的意图匹配结果;通过实体对抗层,对问答数据样本进行基于意图特征的实体匹配,得到对应问答数据样本的实体匹配结果;通过意图对抗层,对问答数据样本进行基于实体特征的意图匹配,得到对应问答数据样本的意图匹配结果。
在上述方案中,训练模块2556,还用于:将通过实体匹配层得到的对应问答数据样本的实体匹配结果、以及对应问答数据样本的真实实体匹配结果,代入对应实体匹配层的第一损失函数;将通过意图匹配层得到的对应问答数据样本的意图匹配结果、以及对应问答数据样本的真实意图匹配结果,代入对应意图匹配层的第二损失函数;将通过实体对抗层得到的对应问答数据样本的实体匹配结果、以及对应问答数据样本的真实实体匹配结果所对应的取反结果,代入对应实体对抗层中对抗学习的第三损失函数;将通过意图对抗层得到的对应问答数据样本的意图匹配结果、以及对应问答数据样本的真实意图匹配结果所对应的取反结果,代入对应意图对抗层中对抗学习的第四损失函数;将通过实体对抗层得到的对应问答数据样本的实体匹配结果、以及对应问答数据样本的真实实体匹配结果,代入对应实体对抗层中分类学习的第五损失函数;将通过意图对抗层得到的对应问答数据样本的意图匹配结果、以及对应问答数据样本的真实意图匹配结果,代入对应意图对抗层中分类学习的第六损失函数;确定第五损失函数取得最小值时对应的实体对抗层的参数,并确定第六损失函数取得最小值时对应的意图对抗层的参数;确定第一损失函数、第二损失函数、第三损失函数以及第四损失函数的和取得最小值时对应的问答匹配模型的参数。
在上述方案中,装置还包括:过滤模块2557,用于:从数据库中获取至少一个问答数据;当问答数据被判断为答非所问的问答数据时,将答非所问的问答数据从数据库中删除。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的基于人工智能的问答数据处理方法,例如,如图4A-4B、7A-7C或者图10示出的基于人工智能的问答数据处理方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上,通过本发明实施例,将问答数据的语义特征解耦到意图和实体这两个维度,来对问答数据进行意图和实体这两个方面的匹配,最终准确识别出属于答非所问的类型的问答数据。
以上,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (14)

1.一种基于人工智能的问答数据处理方法,其特征在于,所述方法包括:
获取问答数据的语义特征;
对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;
基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数;
当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型;
其中,所述基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数,包括:通过问答匹配模型中的实体匹配层,并结合对应所述问答数据的实体特征对所述问答数据进行分类,得到所述问答数据为基于实体维度匹配的问答数据的第一概率,以作为所述实体匹配分数;通过问答匹配模型中的意图匹配层,并结合对应所述问答数据的意图特征对所述问答数据进行分类,得到所述问答数据为基于意图维度匹配的问答数据的第二概率,以作为所述意图匹配分数。
2.根据权利要求1所述的方法,其特征在于,获取问答数据的语义特征之前,所述方法还包括:
当用于答复问题的文本的长度超过文本长度阈值时,提取所述文本的摘要以作为所述问题的答案,并结合所述问题组成问答数据;
当用于答复问题的文本长度不超过文本长度阈值时,将所述文本作为所述问题的答案,并结合所述问题组成问答数据。
3.根据权利要求1所述的方法,其特征在于,所述获取问答数据的语义特征,包括:
通过语义特征提取网络的各特征提取层,分别提取表征所述问答数据中问题与答案之间的语义关系的子语义特征;
结合对应各特征提取层中的权重,对所述各特征提取层所提取的子语义特征进行加权处理,得到表征所述问答数据中问题与答案之间的语义关系的语义特征;
其中,所述语义关系包括所述问题与所述答案在实体维度的匹配关系、以及所述问题与所述答案在意图维度的匹配关系。
4.根据权利要求1所述的方法,其特征在于,所述对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征,包括:
通过问答匹配模型中的实体全连接层,将所述问答数据的语义特征,从语义特征空间映射到实体特征空间,以得到用于表征实体维度匹配信息的实体特征;
通过问答匹配模型中的意图全连接层,将所述问答数据的语义特征,从语义特征空间映射到意图特征空间,以得到用于表征意图维度匹配信息的意图特征;
其中,所述实体全连接层和所述意图全连接层是基于对抗训练得到的。
5.根据权利要求1所述的方法,其特征在于,所述当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型,包括:
当满足以下条件至少之一时,确定所述问答数据属于答非所问的类型:
所述实体匹配分数小于实体匹配分数阈值;
所述意图匹配分数小于意图匹配分数阈值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合;
其中,所述经过人工标注的标准问答数据样本由相互匹配的问题样本和答案样本组成;
构建用于识别出答非所问的类型的问答匹配模型;
基于所述训练样本集合,对所述问答匹配模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合,包括:
随机替换所述标准问答数据样本中的答案样本的实体词,以使所述标准问答数据样本中的答案样本的实体词与问题样本的实体词不匹配,并将经过替换的标准问答数据样本确定为实体不匹配且意图匹配的第一问答数据样本;
随机打乱所述标准问答数据样本中的问题样本和答案样本,以生成实体不匹配且意图不匹配的第二问答数据样本;
随机替换所述第二问答数据样本中的答案样本的实体词,以使所述第二问答数据样本中的答案样本的实体词与问题样本的实体词匹配,并将经过替换的第二问答数据样本确定为实体匹配且意图不匹配的第三问答数据样本;
将所述标准问答数据样本、所述第一问答数据样本、所述第二问答数据样本以及所述第三问答数据样本中的至少之一,组合成所述训练样本集合。
8.根据权利要求7所述的方法,其特征在于,
所述基于所述训练样本集合,对所述问答匹配模型进行训练,包括:
初始化所述问答匹配模型,并初始化包括输入样本以及对应所述输入样本的问答数据匹配结果的损失函数;
在所述问答匹配模型每次迭代训练过程中执行以下处理:
通过所述问答匹配模型,对所述训练样本集合包括的问答数据样本进行匹配,得到对应所述问答数据样本的问答数据匹配结果;
将对应所述问答数据样本的真实匹配结果和所述问答数据匹配结果代入所述损失函数,以确定所述损失函数取得最小值时对应的问答匹配模型参数;
根据所确定的问答匹配模型参数更新所述问答匹配模型。
9.根据权利要求8所述的方法,其特征在于,
所述问答匹配模型包括:语义特征提取网络、实体全连接层、意图全连接层、实体匹配层、意图匹配层、实体对抗层以及意图对抗层;
所述通过所述问答匹配模型,对所述训练样本集合包括的问答数据样本进行匹配,得到对应所述问答数据样本的问答数据匹配结果,包括:
通过所述语义特征提取网络,对所述训练样本集合包括的问答数据样本进行语义特征提取;
通过所述实体全连接层,将所述语义特征转换为所述实体特征;
通过所述意图全连接层,将所述语义特征转换为所述意图特征;
通过所述实体匹配层,对所述问答数据样本进行基于所述实体特征的实体匹配,得到对应所述问答数据样本的实体匹配结果;
通过所述意图匹配层,对所述问答数据样本进行基于所述实体特征的意图匹配,得到对应所述问答数据样本的意图匹配结果;
通过所述实体对抗层,对所述问答数据样本进行基于所述意图特征的实体匹配,得到对应所述问答数据样本的实体匹配结果;
通过所述意图对抗层,对所述问答数据样本进行基于所述实体特征的意图匹配,得到对应所述问答数据样本的意图匹配结果。
10.根据权利要求9所述的方法,其特征在于,所述将对应所述问答数据样本的真实匹配结果和所述问答数据匹配结果代入所述损失函数,以确定所述损失函数取得最小值时对应的问答匹配模型参数,包括:
将通过所述实体匹配层得到的对应所述问答数据样本的实体匹配结果、以及对应所述问答数据样本的真实实体匹配结果,代入对应所述实体匹配层的第一损失函数;
将通过所述意图匹配层得到的对应所述问答数据样本的意图匹配结果、以及对应所述问答数据样本的真实意图匹配结果,代入对应所述意图匹配层的第二损失函数;
将通过所述实体对抗层得到的对应所述问答数据样本的实体匹配结果、以及对应所述问答数据样本的真实实体匹配结果所对应的取反结果,代入对应所述实体对抗层中对抗学习的第三损失函数;
将通过所述意图对抗层得到的对应所述问答数据样本的意图匹配结果、以及对应所述问答数据样本的真实意图匹配结果所对应的取反结果,代入对应所述意图对抗层中对抗学习的第四损失函数;
将通过所述实体对抗层得到的对应所述问答数据样本的实体匹配结果、以及对应所述问答数据样本的真实实体匹配结果,代入对应所述实体对抗层中分类学习的第五损失函数;
将通过所述意图对抗层得到的对应所述问答数据样本的意图匹配结果、以及对应所述问答数据样本的真实意图匹配结果,代入对应所述意图对抗层中分类学习的第六损失函数;
确定所述第五损失函数取得最小值时对应的实体对抗层的参数,并确定所述第六损失函数取得最小值时对应的意图对抗层的参数;
确定所述第一损失函数、所述第二损失函数、所述第三损失函数以及所述第四损失函数的和取得最小值时对应的问答匹配模型的参数。
11.一种基于人工智能的问答数据处理方法,其特征在于,所述方法包括:
响应于在客户端中接收到用户的问题查询操作,从数据库中获取对应所述问答查询操作所提交的问题的至少两个候选答案;
通过问答匹配模型,对每个所述候选答案与所述问题分别组成的问答数据识别属于答非所问的类型的问答数据;
在所述组成的问答数据中过滤掉属于答非所问的类型的问答数据,并
在所述客户端的展示界面中呈现过滤后剩余的问答数据中的候选答案;
通过问答匹配模型,对每个所述候选答案与所述问题分别组成的问答数据识别属于答非所问的类型的问答数据包括:获取所述问答数据的语义特征,通过所述问答匹配模型对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;通过所述问答匹配模型中的实体匹配层,并结合对应所述问答数据的实体特征对所述问答数据进行分类,得到所述问答数据为基于实体维度匹配的问答数据的第一概率,以作为所述实体匹配分数;通过所述问答匹配模型中的意图匹配层,并结合对应所述问答数据的意图特征对所述问答数据进行分类,得到所述问答数据为基于意图维度匹配的问答数据的第二概率,以作为所述意图匹配分数;当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型。
12.一种基于人工智能的问答数据处理装置,其特征在于,所述装置包括:
语义特征获取模块,用于获取问答数据的语义特征;
特征解耦模块,用于对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;
匹配模块,用于通过问答匹配模型中的实体匹配层,并结合对应所述问答数据的实体特征对所述问答数据进行分类,得到所述问答数据为基于实体维度匹配的问答数据的第一概率,以作为所述实体匹配分数;通过问答匹配模型中的意图匹配层,并结合对应所述问答数据的意图特征对所述问答数据进行分类,得到所述问答数据为基于意图维度匹配的问答数据的第二概率,以作为所述意图匹配分数;
数据类型确定模块,用于当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的基于人工智能的问答数据处理方法。
14.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至11任一项所述的基于人工智能的问答数据处理方法。
CN202010019179.0A 2020-01-08 2020-01-08 基于人工智能的问答数据处理方法、装置及电子设备 Active CN111209384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010019179.0A CN111209384B (zh) 2020-01-08 2020-01-08 基于人工智能的问答数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010019179.0A CN111209384B (zh) 2020-01-08 2020-01-08 基于人工智能的问答数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111209384A CN111209384A (zh) 2020-05-29
CN111209384B true CN111209384B (zh) 2023-08-15

Family

ID=70786626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010019179.0A Active CN111209384B (zh) 2020-01-08 2020-01-08 基于人工智能的问答数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111209384B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401077B (zh) * 2020-06-02 2020-09-18 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111985238A (zh) * 2020-06-30 2020-11-24 联想(北京)有限公司 一种答案生成方法及设备
CN112948603B (zh) * 2021-03-08 2023-05-05 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN112989843B (zh) * 2021-03-17 2023-07-25 中国平安人寿保险股份有限公司 意图识别方法、装置、计算设备及存储介质
CN112905781B (zh) * 2021-03-31 2022-05-03 闽江学院 人工智能对话方法
CN112905780B (zh) * 2021-03-31 2022-04-29 闽江学院 人工智能对话装置
CN113268593A (zh) * 2021-05-18 2021-08-17 Oppo广东移动通信有限公司 意图分类和模型的训练方法、装置、终端及存储介质
CN113590779B (zh) * 2021-06-30 2023-04-25 四川大学 一种空管领域知识图谱的智能问答系统构建方法
CN113657102B (zh) * 2021-08-17 2023-05-30 北京百度网讯科技有限公司 信息抽取方法、装置、设备及存储介质
CN113569581B (zh) * 2021-08-26 2023-10-17 中国联合网络通信集团有限公司 意图识别方法、装置、设备及存储介质
CN113934836B (zh) * 2021-12-21 2022-03-01 北京云迹科技有限公司 一种问题回复方法、装置和电子设备
CN114490969B (zh) * 2021-12-29 2023-03-07 北京百度网讯科技有限公司 基于表格的问答方法、装置以及电子设备
CN115617975B (zh) * 2022-12-20 2023-04-18 国家电网有限公司客户服务中心 针对少样本多轮对话的意图识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960292A (zh) * 2018-06-11 2018-12-07 苏州大学 基于模式匹配和实体匹配的数据融合方法、装置、系统
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN110019836A (zh) * 2017-08-23 2019-07-16 中兴通讯股份有限公司 一种智能问答方法及装置
WO2019211817A1 (en) * 2018-05-03 2019-11-07 Thomson Reuters Global Resources Unlimited Company Systems and methods for generating a contextually and conversationally correct response to a query
CN110427467A (zh) * 2019-06-26 2019-11-08 深圳追一科技有限公司 问答处理方法、装置、计算机设备和存储介质
CN110532397A (zh) * 2019-07-19 2019-12-03 平安科技(深圳)有限公司 基于人工智能的问答方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019836A (zh) * 2017-08-23 2019-07-16 中兴通讯股份有限公司 一种智能问答方法及装置
WO2019211817A1 (en) * 2018-05-03 2019-11-07 Thomson Reuters Global Resources Unlimited Company Systems and methods for generating a contextually and conversationally correct response to a query
CN108960292A (zh) * 2018-06-11 2018-12-07 苏州大学 基于模式匹配和实体匹配的数据融合方法、装置、系统
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN110427467A (zh) * 2019-06-26 2019-11-08 深圳追一科技有限公司 问答处理方法、装置、计算机设备和存储介质
CN110532397A (zh) * 2019-07-19 2019-12-03 平安科技(深圳)有限公司 基于人工智能的问答方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An CNN-LSTM Attention Approach to Understanding User Query Intent from Online Health Communities;Ruichu Cai;《 2017 IEEE International Conference on Data Mining Workshops (ICDMW)》;430-437 *

Also Published As

Publication number Publication date
CN111209384A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111209384B (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN107748757B (zh) 一种基于知识图谱的问答方法
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
WO2017092380A1 (zh) 用于人机对话的方法、神经网络系统和用户设备
JP2021166046A (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
CN109597876B (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN108363743A (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
CN109739995B (zh) 一种信息处理方法及装置
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN112860865A (zh) 一种智能问答的实现方法、装置、设备及存储介质
Cao et al. Deep multi-view learning to rank
CN114818703A (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN111597316A (zh) 融合语义与问题关键信息的多阶段注意力答案选取方法
CN112836007B (zh) 一种基于语境化注意力网络的关系元学习方法
Wang et al. Aspect-based sentiment analysis with graph convolutional networks over dependency awareness
CN113283488A (zh) 一种基于学习行为的认知诊断方法及系统
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
CN112035627A (zh) 自动问答方法、装置、设备及存储介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN112785039B (zh) 一种试题作答得分率的预测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant