CN111858854B - 一种基于历史对话信息的问答匹配方法及相关装置 - Google Patents
一种基于历史对话信息的问答匹配方法及相关装置 Download PDFInfo
- Publication number
- CN111858854B CN111858854B CN202010697469.0A CN202010697469A CN111858854B CN 111858854 B CN111858854 B CN 111858854B CN 202010697469 A CN202010697469 A CN 202010697469A CN 111858854 B CN111858854 B CN 111858854B
- Authority
- CN
- China
- Prior art keywords
- question
- replied
- questions
- text
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims description 45
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Abstract
本发明公开了一种基于历史对话信息的问答匹配方法及相关装置,该方法中将当前会话中的待回复提问依据预设数量历史问答转换成标准待回复提问,基于标准待回复提问进行文本匹配,其中,标准待回复提问中包括待回复提问中缺失的关键信息,该关键信息可以明确表明待回复提问的意图,因此,在基于标准待回复提问进行文本匹配时,由于意图明确,可以准确匹配目标回答,避免了现有技术中由于问句不能明确表明用户意图,导致客服机器人出现答复错误或者不答复等意外情况的出现。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于历史对话信息的问答匹配方法及相关装置。
背景技术
在目前的机器客服系统中,主要是通过客服机器人来答复客户的问题,机器客服可以同时处理多通电话,24小时无间断地工作,其速度效率远高于人工客服。
但是,由于人们的语言交流习惯,当关键信息刚刚出现过时,用户的下一句问句往往会省略该关键信息。例如,用户刚刚问了“北京今天天气怎么样”,客服机器人会依据问句中的关键信息去知识库中匹配答案进行回答,若用户继续想问明天天气,他往往会问“那明天呢”,而不是问“北京明天天气怎么样”。在此种情况下,如果直接采用当前问句“那明天呢”去寻找答案,不能明确表明用户意图,导致客服机器人出现答复错误或者不答复等意外情况。
发明内容
有鉴于此,本发明提供了一种基于历史对话信息的问答匹配方法及相关装置,用以解决在机器客服系统中,当前问句不含关键信息,不能明确表明用户意图,导致客服机器人出现答复错误或者不答复等意外情况的问题,具体方案如下:
一种基于历史对话信息的问答匹配方法,包括:
在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;
基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;
将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;
在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答。
上述的方法,可选的,基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息,包括:
将所述预设数量历史问答与所述待回复提问进行拼接,得到第一拼接文本;
基于所述第一拼接文本确定所述待回复提问中缺失的关键信息。
上述的方法,可选的,将所述预设数量历史问答与所述待回复提问进行拼接,得到第一拼接文本,包括:
获取所述待回复提问中的纯文本信息,对所述纯文本信息进行预处理,得到目标纯文本,其中,所述预处理包括:分词、去停用词和调整语序中的至少一个;
依据时间顺序将所述预设数量的历史问答和所述目标纯文本进行拼接,得到第一拼接文本。
上述的方法,可选的,基于所述第一拼接文本确定所述待回复提问中缺失的关键信息,包括:
依据预设的深度学习模型将所述第一拼接文本转换成高维特征向量;
基于所述高维特征向量传递给预设的神经网络模型得到所述待回复提问中的缺失的关键信息以及所述关键信息所处位置。
上述的方法,可选的,在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答,包括:
在所述预设的问答知识库中选取与所述标准待回复提问匹配的目标问答知识库,其中,所述目标问答知识库中包含至少一个知识文本;
将所述标准待回复提问与所述目标问答知识库中每个知识文本进行拼接,得到各个第二拼接文本;
计算所述各个第二拼接文本中标准待回复提问与对应的知识文本的匹配度;
将匹配度最高的知识文本作为所述标准待回复提问的目标答复。
一种基于历史对话信息的问答匹配装置,包括:
获取模块,用于在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;
确定模块,用于基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;
添加模块,用于将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;
匹配模块,用于在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答。
上述的装置,可选的,所述确定模块包括:
第一拼接单元,用于将所述预设数量历史问答与所述待回复提问进行拼接,得到第一拼接文本;
确定单元,用于基于所述第一拼接文本确定所述待回复提问中缺失的关键信息。
上述的装置,可选的,所述匹配模块包括:
选取单元,用于在所述预设的问答知识库中选取与所述标准待回复提问匹配的目标问答知识库,其中,所述目标问答知识库中包含至少一个知识文本;
第二拼接单元,用于将所述标准待回复提问与所述目标问答知识库中每个知识文本进行拼接,得到各个第二拼接文本;
计算单元,用于计算所述各个第二拼接文本中标准待回复提问与对应的知识文本的匹配度;
确定单元,用于将匹配度最高的知识文本作为所述标准待回复提问的目标答复。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的基于历史对话信息的问答匹配方法。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行上述的基于历史对话信息的问答匹配方法。
与现有技术相比,本发明包括以下优点:
本发明公开了一种基于历史对话信息的问答匹配方法及相关装置,该方法包括:在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答。上述方法,基于历史问答将待回复提问改写成标准待回复提问,对标准待回复提问进行文本匹配,确定标准待回复提问匹配的目标回答,所述标准待回复提问中包括待回复提问中缺失的关键信息,可以明确表明意图,避免了现有技术中问句不能明确表明用户意图,导致客服机器人出现答复错误或者不答复等意外情况的出现。
进一步的,出现答复错误或者不答复的情况,用户可能会频繁的重复输入提问,导致处理器或者控制器处理的数据量多,占用了资源,本发明中将待回复提问转换为标准待回复提问,由于可以明确表明意图,减少了客服机器人出现答复错误或者不答复等意外情况的出现的次数,可以有效的减少频繁重复输入的问题,减少了资源的占用。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的了一种基于历史对话信息的问答匹配方法流程图;
图2为本申请实施例公开的了一种基于历史对话信息的问答匹配方法又一流程图;
图3为本申请实施例公开的了一种基于历史对话信息的问答匹配方法执行流程示意图;
图4为本申请实施例公开的了一种基于历史对话信息的问答匹配装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种基于历史对话信息的问答匹配方法及装置,应用于机器客服的问答过程中,现有的基于机器客服的问答过程中,由于人们的语言交流习惯,当关键信息刚刚出现过时,用户的下一句问句往往会省略该关键信息,为了解决上述问题,本发明提供了一种基于历史对话信息的问答匹配方法及装置,引入了上下文理解的技术,利用历史对话信息来完善用户当前待回复提问,通过文本匹配的方法对客户的意图进行识别,使客服机器人更好地理解用户的问题,从而给出正确的回答,提高客服系统运行效率,所述匹配方法的执行流程如图1所示,包括步骤:
S101、在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;
本发明实施例中,所述当前会话为基于机器客服进行的会话,其中,所述机器客服可以为客服机器人,电话机器人,使用在电话机器人时,需要将用户的语音输入提前转化为文字,在检测到当前会话中输入待回复提问的情况下,获取与所述待回复提问相邻的预设数量的历史问答,其中,所述历史问答包括:用户的提问和机器客服的回答,其中,所述预设数量可以基于经验或者具体情况进行设定,本发明实施例中,对所述预设数量的具体取值不进行限定,优选的,以所述预设数量为3为例进行说明。
S102、基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;
本发明实施例中,基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中是否缺失关键信息,确定的方式可以直接通过判断所述待回复提问中是否缺失关键信息或者基于所述预设数量的历史问答和所述待回复提问共同确定,具体选用哪种确定方式与模型的选取有关,本发明实施例中不进行限定。
在所述待会提问中不缺失关键信息的情况下,所述关键信息和所述位置为空,所述待回复提问为标准待回复提问,在所述待会提问中缺失关键信息的情况下,首先将所述待回复提问转换为纯文本,对所述纯文本基于预处理算法进行预处理,得到目标纯文本,其中,所述预处理算法为分词、去停用词和调整语序中的至少一个或者其它预处理算法;预处理算法的选取取决于具体情况,本发明实施例中不进行具体限定。依据时间顺序将所述预设数量的历史问答和所述目标纯文本进行拼接。假设当前机器客服已与客户对话了n句,所述待回复提问是第n句,则选取第n-3,n-2,n-1句作为历史问答,将3句历史问答直接拼接,得到历史问答拼接文本,再将所述历史问答拼接文本与所述目标纯文本进行拼接,得到第一拼接文本,所述目标纯文本与所述历史问答拼接文本用一个分隔标志符分开。
获取所述第一拼接文本后,用一个深度学习模型将所述第一拼接文本转化成高维特征向量。用深度学习模型将文本转化为高维特征向量的方法包括:将文本中的每个词语转化成词典中该词语对应的id,id向量经过encode模型获得特征向量。例如:现有一句话“今天天气很好”,词典为{‘今’:1,’天’:2,‘气’:3,‘很’:4,‘好’:5},那“今天天气很好”首先会转化成id向量:(1,2,2,3,4,5),encode模型是预训练好的一个深度学习模型,通过大量数据,该模型已经学习到每个字的语义信息并将语义信息编码成M维的向量,面对一个id向量,模型把该id向量中的每个id转化成一个M维的实数向量,最终得到一个6*M维的向量。进一步的,深度学习模型会转化所述6*M维的向量,计算出一个指定维度的包含两部分信息的高维特征向量。所述两部分信息的一部分是所述目标纯文本自身的语义特征,另一部分是所述历史问答拼接文本和所述目标纯文本的交互特征。交互特征包含了所述历史问答拼接文本和所述目标纯文本的关联信息。
进一步的,基于所述高维特征向量传递给预设的神经网络模型得到所述待回复提问中的缺失的关键信息以及所述关键信息所处位置,其中,所述预设的神经网络模型为通过一定量标注数据的训练,让所述预设神经网络模型学会识别所缺失的关键信息以及所述关键信息所处位置,所述预设神经网络模型会对所述高维特征向量做非线性映射,获得所述高维特征向量在问句改写空间的状态向量。所述状态向量便是在所述待回复提问中每个位置缺失了关键信息的概率,历史问答拼接文本状态向量是所述预设数量历史问答中每个词语位置是所述待回复提问所需信息片段的起始/结束概率。将具有最大起始概率至具有最大结束概率的文本片段作为关键信息,并获取所述关键信息的位置。
S103、将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问
本发明实施例中,将所述关键信息依据所述位置填补到所述待回复提问中,得到标准待回复提问,即完成了所述待回复提问的改写。
S103、在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答。
本发明实施例中,预先建立预设的问答知识库,所述预设问答知识库的内容就是业务上希望系统能够回答的问题及答案。比如,所述预设问答知识库中有问题”北京天气怎么样”,其答案为”晴到多云”。这个问题和答案对就构成了知识库中的一条知识。于是,当用户的问题击中了知识库中的某条知识时,我们就会将相应的答案返回给他。因此,进行文本匹配是需要预先构建适合当前场景的预设问答知识库,所述预设问答知识库规模随业务的规模而变化。优选的,所述预设的问答知识库可以基于对话所属领域继续进行细分,例如,所述领域包括:交易类问答、查询类问答、常识类问答等,基于所述预设只是库,对所述标准待回复提问进行文本匹配,在所述预设问答知识库库中查找与所述标准待回复提问对应的目标回答。
本发明公开了一种基于历史对话信息的问答匹配方法,该方法包括:在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答。上述方法,基于历史问答将待回复提问改写成标准待回复提问,对标准待回复提问进行文本匹配,确定标准待回复提问匹配的目标回答,所述标准待回复提问中包括待回复提问中缺失的关键信息,可以明确表明意图,避免了现有技术中问句不能明确表明用户意图,导致客服机器人出现答复错误或者不答复等意外情况的出现。
进一步的,出现答复错误或者不答复的情况,用户可能会频繁的重复输入提问,导致处理器或者控制器处理的数据量多,占用了资源,本发明中将待回复提问转换为标准待回复提问,由于可以明确表明意图,减少了客服机器人出现答复错误或者不答复等意外情况的出现的次数,可以有效的减少频繁重复输入的问题,减少了资源的占用。
本发明实施例中,在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答的方法流程如图2所示,包括步骤:
S201、在所述预设的问答知识库中选取与所述标准待回复提问匹配的目标问答知识库,其中,所述目标问答知识库中包含至少一个知识文本;
本发明实施例中,对所述标准待回复提问进行关键词拾取,其中,所述关键词可以代表所述标准待回复提问所属领域,其中,关键词提取可以基于对应的模型进行拾取、基于对应的关键词库进行拾取或者其它的拾取方法,本发明实施例中,对具体的拾取方法不进行限定,基于所述关键词,遍历所述预设的问答知识库知识,在其中查找与所述关键词匹配的目标问答知识库,其中,所述目标问答知识库中包含至少一个知识文本。
S202、将所述标准待回复提问与所述目标问答知识库中每个知识文本进行拼接,得到各个第二拼接文本;
本发明实施例中,将所述标准待回复提问与所述目标问答知识库中每个知识文本进行拼接,假设所述标准待回复提问是q,所述目标问答知识库S={s1,s2,…,sn}是n条知识的集合,则将所述标准待回复提问q与所述目标问答知识库中的知识一一拼接成[CLS]+q+[SEP]+si+[SEP]的形式(1≤i≤n,[CLS]和[SEP]是特殊字符),得到各个第二拼接文本。
S203、计算所述各个第二拼接文本中标准待回复提问与对应的知识文本的匹配度;
本发明实施例中,抽取所述各个第二拼接文本的特征向量,该特征向量包含两部分,一个是文本的语义特征,另一个是问句与知识的交互特征,交互特征指的是面对一个问句,知识文本中的每个词的重要性是不一样的。例如停用词由于并不包含特别信息,往往会和问句有着较低的交互性。
根据所述各个第二拼接文本的特征向量,获得标准待回复问句文本和知识文本的匹配度。该部分内容包括对特征向量做非线性映射,将高维特征向量映射到低维的匹配度空间,获得标准待回复问句文本和知识文本在匹配度空间中的状态向量;拼接文本在匹配度空间的状态向量经过sigmoid函数,即得到标准待回复问句文本和知识文本的匹配度。
S204、将匹配度最高的知识文本作为所述标准待回复提问的目标答复。
本发明实施例中,按照匹配度从大到小对所述各个第二拼接文本进行排序,获取与标准待回复提问有着最高匹配度的知识,来作为机器客服回复客户提问的目标答复。
本发明实施例中,所述匹配方法基于上下文理解和文本匹配的方法,可以应用于各种客服机器人的场景。比如IM客服机器人,电话客服机器人等。它的作用是替代人工客服回答一些简单的,重复的问题,舒缓客户的情绪,节省客服的时间。我们以实施在即时通讯IM(Instant Messaging)客服机器人上为例进行说明,执行流程如图3所示,首先,当客户接线进入,它们会在系统中输入他们的问题或陈述Input,后台的算法模块会接收到此输入,输入的形式为纯文本。算法对文本进行预处理,包括分词,去除停用词,改变问题叙述等操作。接着,算法会检查该用户的对话历史中,之前的几次输入的内容,并对历史输入和当前输入应用上下文改写算法,通过历史上用户的输入来完善或补全当前时刻用户的输入内容。比如说,用户问天气怎么样,而前几句对话中,用户正提到北京,那么他可能正在问的是北京的天气。上下文改写的算法会将经过预处理的用户的标准输入,改写成包含有上下文信息的输入。
同时,在系统开始服务之前,业务方需要首先构建该业务的知识库。知识库的内容就是业务上希望系统能够回答的问题。比如知识库中有问题”北京天气怎么样”,其答案为”晴到多云”。这个问题和答案对就构成了知识库中的一条知识。于是,当用户的问题击中了知识库中的某条知识时,我们就会将相应的答案返回给他。于是,就完成了客服机器人的工作。所以,业务会提前构建适合当前场景的知识库。知识库规模随业务的规模而变化。
有了知识库后,而且已经将客户的输入通过上下文的改写形成包含上下文信息的文本信息。基于该文本,与知识库中知识进行文本匹配,基于知识库中的知识进行文本匹配,相较于分类匹配,在算法和精度上有提高,利于提高匹配精度,一般我们会先通过一种粗略的检索方法,抽取一定量和文本相似的知识,然后将文本和知识库中的知识进行匹配,识别用户意图,最后将匹配度最高的知识挑选作为用户击中的知识,并将其对应答案输出,给予用户答复。同时,我们会将用户当前的文本输入存储,作为未来所用到的历史信息。
在上述的流程中,用户输入是通过工程的方式,进行文本的收集包括直接的网页,app端文本输入,与语音输入后转写为文字。之后经过预处理的过程,两者皆是数据处理的辅助模块。通过系统的调度,在之后会进行客户的答复和安抚,这是善后的工作措施。
进一步的通过加入了额外的预处理模块,帮助对输入数据进行规范化,提高处理的效率。加入知识库,帮助客服梳理问答知识,同时提高更高质量的问答数据信息。添加了用户的答复模块,给用户提供一个更舒适更合理的答案。
所述匹配方法能够提升客服机器人识别用户意图的能力,通过文本匹配的方法让系统更加准确捕捉客服的诉求,在知识库中找到相应答案进行回复。同时,我们包含了上下文理解的算法,能够让算法还能够结合用户历史的信息进行判断,提高用户的体验。
基于上述的一种基于历史对话信息的问答匹配方法,本发明实施例中,还提供了一种基于历史对话信息的问答匹配装置,所述匹配装置的结构框图如图4所示,包括:
获取模块301、确定模块302、添加模块303和匹配模块304。
其中,
所述获取模块301,用于在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;
所述确定模块302,用于基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;
所述添加模块303,用于将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;
所述匹配模块304,用于在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答。
本发明公开了一种基于历史对话信息的问答匹配装置,包括:在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答。上述装置,基于历史问答将待回复提问改写成标准待回复提问,对标准待回复提问进行文本匹配,确定标准待回复提问匹配的目标回答,所述标准待回复提问中包括待回复提问中缺失的关键信息,可以明确表明意图,避免了现有技术中问句不能明确表明用户意图,导致客服机器人出现答复错误或者不答复等意外情况的出现。
本发明实施例中,所述确定模块302包括:
第一拼接单元304和确定单元305。
其中,
所述第一拼接单元304,用于将所述预设数量历史问答与所述待回复提问进行拼接,得到第一拼接文本;
所述确定单元305,用于基于所述第一拼接文本确定所述待回复提问中缺失的关键信息。
本发明实施例中,所述匹配模块304包括:
选取单元306、第二拼接单元307、计算单元308和确定单元309。
其中,
所述选取单元306,用于在所述预设的问答知识库中选取与所述标准待回复提问匹配的目标问答知识库,其中,所述目标问答知识库中包含至少一个知识文本;
所述第二拼接单元307,用于将所述标准待回复提问与所述目标问答知识库中每个知识文本进行拼接,得到各个第二拼接文本;
所述计算单元308,用于计算所述各个第二拼接文本中标准待回复提问与对应的知识文本的匹配度;
所述确定单元309,用于将匹配度最高的知识文本作为所述标准待回复提问的目标答复。
本发明实施例中还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的基于历史对话信息的问答匹配方法。
本发明实施例中还提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器调用程序并用于执行上述的基于历史对话信息的问答匹配方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种基于历史对话信息的问答匹配方法及相关装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于历史对话信息的问答匹配方法,其特征在于,包括:
在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;
基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;
将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;
在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答;
其中,在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答,包括:
在所述预设的问答知识库中选取与所述标准待回复提问匹配的目标问答知识库,其中,所述目标问答知识库中包含至少一个知识文本;
将所述标准待回复提问与所述目标问答知识库中每个知识文本进行拼接,得到各个第二拼接文本;
计算所述各个第二拼接文本中标准待回复提问与对应的知识文本的匹配度;其中,抽取所述各个第二拼接文本的特征向量,所述特征向量包含文本的语义特征、问句与知识的交互特征,所述问句与知识的交互特征是面对一个问句,知识文本中的每个词的重要性不同;根据所述各个第二拼接文本的特征向量,获得标准待回复提问与对应的知识文本的匹配度;
将匹配度最高的知识文本作为所述标准待回复提问的目标答复;
其中,所述根据所述各个第二拼接文本的特征向量,获得标准待回复提问与对应的知识文本的匹配度,包括:
对所述特征向量进行非线性映射,以将高维特征向量映射到低维的匹配度空间,获得标准待回复提问和对应的知识文本在匹配度空间中的状态向量;拼接知识文本在匹配度空间的状态向量经过sigmoid函数,得到标准待回复提问与对应的知识文本的匹配度。
2.根据权利要求1所述的方法,其特征在于,基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息,包括:
将所述预设数量历史问答与所述待回复提问进行拼接,得到第一拼接文本;
基于所述第一拼接文本确定所述待回复提问中缺失的关键信息。
3.根据权利要求2所述的方法,其特征在于,将所述预设数量历史问答与所述待回复提问进行拼接,得到第一拼接文本,包括:
获取所述待回复提问中的纯文本信息,对所述纯文本信息进行预处理,得到目标纯文本,其中,所述预处理包括:分词、去停用词和调整语序中的至少一个;
依据时间顺序将所述预设数量的历史问答和所述目标纯文本进行拼接,得到第一拼接文本。
4.根据权利要求2所述的方法,其特征在于,基于所述第一拼接文本确定所述待回复提问中缺失的关键信息,包括:
依据预设的深度学习模型将所述第一拼接文本转换成高维特征向量;
基于所述高维特征向量传递给预设的神经网络模型得到所述待回复提问中的缺失的关键信息以及所述关键信息所处位置。
5.一种基于历史对话信息的问答匹配装置,其特征在于,包括:
获取模块,用于在检测到当前会话中包括待回复提问的情况下,获取所述当前会话中预设数量的历史问答;
确定模块,用于基于所述预设数量的历史问答和所述待回复提问,确定所述待回复提问中缺失的关键信息和所述关键信息的位置;
添加模块,用于将所述关键信息依据所述位置添加到所述待回复提问中,生成标准待回复提问;
匹配模块,用于在预设的问答知识库中对所述标准待回复提问进行文本匹配,确定所述标准待回复提问匹配的目标回答;
其中,所述匹配模块包括:
选取单元,用于在所述预设的问答知识库中选取与所述标准待回复提问匹配的目标问答知识库,其中,所述目标问答知识库中包含至少一个知识文本;
第二拼接单元,用于将所述标准待回复提问与所述目标问答知识库中每个知识文本进行拼接,得到各个第二拼接文本;
计算单元,用于计算所述各个第二拼接文本中标准待回复提问与对应的知识文本的匹配度;其中,抽取所述各个第二拼接文本的特征向量,所述特征向量包含文本的语义特征、问句与知识的交互特征,所述问句与知识的交互特征是面对一个问句,知识文本中的每个词的重要性不同;根据所述各个第二拼接文本的特征向量,获得标准待回复提问与对应的知识文本的匹配度;其中,所述根据所述各个第二拼接文本的特征向量,获得标准待回复提问与对应的知识文本的匹配度,包括:对所述特征向量进行非线性映射,以将高维特征向量映射到低维的匹配度空间,获得标准待回复提问和对应的知识文本在匹配度空间中的状态向量;拼接知识文本在匹配度空间的状态向量经过sigmoid函数,得到标准待回复提问与对应的知识文本的匹配度;
确定单元,用于将匹配度最高的知识文本作为所述标准待回复提问的目标答复。
6.根据权利要求5所述的装置,其特征在于,所述确定模块包括:
第一拼接单元,用于将所述预设数量历史问答与所述待回复提问进行拼接,得到第一拼接文本;
确定单元,用于基于所述第一拼接文本确定所述待回复提问中缺失的关键信息。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-4中任一项所述的基于历史对话信息的问答匹配方法。
8.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行如权利要求1-4中任一项所述的基于历史对话信息的问答匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697469.0A CN111858854B (zh) | 2020-07-20 | 2020-07-20 | 一种基于历史对话信息的问答匹配方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697469.0A CN111858854B (zh) | 2020-07-20 | 2020-07-20 | 一种基于历史对话信息的问答匹配方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858854A CN111858854A (zh) | 2020-10-30 |
CN111858854B true CN111858854B (zh) | 2024-03-19 |
Family
ID=73002066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010697469.0A Active CN111858854B (zh) | 2020-07-20 | 2020-07-20 | 一种基于历史对话信息的问答匹配方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858854B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463949B (zh) * | 2020-12-01 | 2022-09-16 | 贝壳技术有限公司 | 数据召回方法与系统、交互方法及交互系统 |
CN112989008A (zh) * | 2021-04-21 | 2021-06-18 | 上海汽车集团股份有限公司 | 一种多轮对话改写方法、装置和电子设备 |
CN113420137A (zh) * | 2021-06-29 | 2021-09-21 | 山东新一代信息产业技术研究院有限公司 | 基于端到端框架的智能问答系统实现方法、设备及介质 |
CN116881429B (zh) * | 2023-09-07 | 2023-12-01 | 四川蜀天信息技术有限公司 | 一种基于多租户的对话模型交互方法、装置及存储介质 |
CN117251552B (zh) * | 2023-11-13 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 基于大型语言模型的对话处理方法、装置及电子设备 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868179A (zh) * | 2016-04-08 | 2016-08-17 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106663129A (zh) * | 2016-06-29 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种基于状态机上下文敏感多轮对话管理系统及方法 |
CN106776578A (zh) * | 2017-01-03 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于提升对话系统对话性能的方法及装置 |
CN106776649A (zh) * | 2015-11-24 | 2017-05-31 | 镇江诺尼基智能技术有限公司 | 一种基于可视化流程图的智能问答多轮交互方法和系统 |
CN109344242A (zh) * | 2018-09-28 | 2019-02-15 | 广东工业大学 | 一种对话问答方法、装置、设备及存储介质 |
CN109766423A (zh) * | 2018-12-29 | 2019-05-17 | 上海智臻智能网络科技股份有限公司 | 基于神经网络的问答方法及装置、存储介质、终端 |
CN110008322A (zh) * | 2019-03-25 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 多轮对话场景下的话术推荐方法和装置 |
CN110209778A (zh) * | 2018-04-11 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种对话生成的方法以及相关装置 |
CN110223692A (zh) * | 2019-06-12 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 用于语音对话平台跨技能的多轮对话方法及系统 |
CN110427625A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语句补全方法、装置、介质及对话处理系统 |
CN110427461A (zh) * | 2019-08-06 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
CN110825860A (zh) * | 2019-10-24 | 2020-02-21 | 厦门快商通科技股份有限公司 | 知识库问答抽取方法、系统、移动终端及存储介质 |
CN111046132A (zh) * | 2019-10-25 | 2020-04-21 | 众安信息技术服务有限公司 | 一种检索多轮对话的客服问答处理方法及其系统 |
CN111108501A (zh) * | 2019-12-25 | 2020-05-05 | 深圳市优必选科技股份有限公司 | 一种基于上下文的多轮对话方法、装置、设备及存储介质 |
CN111143519A (zh) * | 2018-11-02 | 2020-05-12 | 顺丰科技有限公司 | 一种问答交互方法、装置、设备和存储介质 |
CN111325034A (zh) * | 2020-02-12 | 2020-06-23 | 平安科技(深圳)有限公司 | 多轮对话中语义补齐的方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
US11182412B2 (en) * | 2017-09-27 | 2021-11-23 | Oracle International Corporation | Search indexing using discourse trees |
US11537645B2 (en) * | 2018-01-30 | 2022-12-27 | Oracle International Corporation | Building dialogue structure by using communicative discourse trees |
-
2020
- 2020-07-20 CN CN202010697469.0A patent/CN111858854B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776649A (zh) * | 2015-11-24 | 2017-05-31 | 镇江诺尼基智能技术有限公司 | 一种基于可视化流程图的智能问答多轮交互方法和系统 |
CN105868179A (zh) * | 2016-04-08 | 2016-08-17 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106663129A (zh) * | 2016-06-29 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种基于状态机上下文敏感多轮对话管理系统及方法 |
CN106776578A (zh) * | 2017-01-03 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于提升对话系统对话性能的方法及装置 |
CN110209778A (zh) * | 2018-04-11 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种对话生成的方法以及相关装置 |
CN109344242A (zh) * | 2018-09-28 | 2019-02-15 | 广东工业大学 | 一种对话问答方法、装置、设备及存储介质 |
CN111143519A (zh) * | 2018-11-02 | 2020-05-12 | 顺丰科技有限公司 | 一种问答交互方法、装置、设备和存储介质 |
CN109766423A (zh) * | 2018-12-29 | 2019-05-17 | 上海智臻智能网络科技股份有限公司 | 基于神经网络的问答方法及装置、存储介质、终端 |
CN110008322A (zh) * | 2019-03-25 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 多轮对话场景下的话术推荐方法和装置 |
CN110223692A (zh) * | 2019-06-12 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 用于语音对话平台跨技能的多轮对话方法及系统 |
CN110427625A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语句补全方法、装置、介质及对话处理系统 |
CN110427461A (zh) * | 2019-08-06 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
CN110825860A (zh) * | 2019-10-24 | 2020-02-21 | 厦门快商通科技股份有限公司 | 知识库问答抽取方法、系统、移动终端及存储介质 |
CN111046132A (zh) * | 2019-10-25 | 2020-04-21 | 众安信息技术服务有限公司 | 一种检索多轮对话的客服问答处理方法及其系统 |
CN111108501A (zh) * | 2019-12-25 | 2020-05-05 | 深圳市优必选科技股份有限公司 | 一种基于上下文的多轮对话方法、装置、设备及存储介质 |
CN111325034A (zh) * | 2020-02-12 | 2020-06-23 | 平安科技(深圳)有限公司 | 多轮对话中语义补齐的方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
面向短文本理解的省略恢复研究;郑杰;孔芳;周国栋;;中文信息学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111858854A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858854B (zh) | 一种基于历史对话信息的问答匹配方法及相关装置 | |
CN111062220B (zh) | 一种基于记忆遗忘装置的端到端意图识别系统和方法 | |
CN111522916B (zh) | 一种语音服务质量检测方法、模型训练方法及装置 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN111191450A (zh) | 语料清洗方法、语料录入设备及计算机可读存储介质 | |
CN110069612B (zh) | 一种回复生成方法及装置 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN111339305A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN112818086A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN115470318A (zh) | 客服问题处理方法及装置 | |
CN115146124A (zh) | 问答系统应答方法及其装置、设备、介质、产品 | |
CN111402864A (zh) | 语音处理方法及电子设备 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN112801721A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN112288584A (zh) | 保险报案处理方法、装置、计算机可读介质及电子设备 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN111091011B (zh) | 领域预测方法、领域预测装置及电子设备 | |
CN114254088A (zh) | 自动应答模型的构建方法和自动应答方法 | |
CN112036188A (zh) | 一种质检例句推荐的方法及装置 | |
CN112215005A (zh) | 实体识别方法及装置 | |
CN111666755A (zh) | 一种复述句识别的方法及装置 | |
CN116205669A (zh) | 一种销售跟进判别方法、装置、设备及介质 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |