CN115497482B - 一种语音对话方法及相关装置 - Google Patents
一种语音对话方法及相关装置 Download PDFInfo
- Publication number
- CN115497482B CN115497482B CN202210754139.XA CN202210754139A CN115497482B CN 115497482 B CN115497482 B CN 115497482B CN 202210754139 A CN202210754139 A CN 202210754139A CN 115497482 B CN115497482 B CN 115497482B
- Authority
- CN
- China
- Prior art keywords
- user
- topic
- dialogue
- entity
- detection result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 claims abstract description 58
- 230000008451 emotion Effects 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音对话方法及相关装置,用于提高人机对话中的可持续性和主动性。本发明实施例方法包括:接收用户的输入信息,并根据所述输入信息得到对应的文本信息;识别所述文本信息中的话题实体;基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话。
Description
技术领域
本发明涉及智能语音对话领域,尤其涉及一种语音对话方法及相关装置。
背景技术
人机对话技术的研究最早可以追溯到上世纪六十年代,自阿兰·图灵提出通过图灵测试验机器是否具有人类智能的设想以来,研究人员就开始致力于对话系统的研究。随着大数据时代的到来,对话系统得到了飞速的发展。工业界将对话系统视为下一代人机交互的主要形式,微软小冰,小米小爱,苹果Siri等智能语音助手得到广泛的使用。根据建设目的,对话系统又可以分为面向特定领域的任务型对话系统以及面向开放领域闲聊型对话系统。其中面向开放领域的闲聊型对话系统没有特定的目的,更像是一个陪伴用户的朋友,因此,对于大龄独居人士,空巢老人等生活中缺少陪伴的用户来说闲聊性对话系统为他们带来了情感上的慰籍。
现有技术主要是聚焦于生成回复的准确性,随着模型的不断更新,现有对话系统的回复准确度不断变高。开放领域的对话系统目的是模拟人类与用户进行对话,是两者信息交互的过程,若只关注生成回复的准确率,系统难以给用户带来情感上的慰藉,不过是一个给出回复的机器。
对话是两者信息交互的过程,对话要能持续进行必须在对话的过程中不断有新的主题提出,但是现有的对话系统大多只是一种“被动式”的对话系统,对话只是通过对用户的输入生成相应的回复来实现,对话的主题变化完全由用户来推进,这无疑对用户的交际能力提出一定的要求,对于交际能力较弱的用户来说,难以在对话的过程中不断提出新话题,导致对话内容重复,难以提起用户的对话兴趣。因此,提升对话系统的主动性以及趣味性是当前的急需解决的问题。
发明内容
本发明实施例提供了一种语音对话方法及相关装置,用于提高人机对话中的可持续性和主动性。
本发明第一方面提供一种语音对话方法,应用于对话系统,包括:接收用户的输入信息,并根据所述输入信息得到对应的文本信息;识别所述文本信息中的话题实体,话题实体即为对话的主题;基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话。
可选的,所述识别所述文本信息中的话题实体包括:将所述文本信息转换为词向量;将所述词向量输入至BIGRU神经网络中,以输出目标序列;根据条件随机场CRF进行概率建模得到条件概率模型,将所述目标序列作为所述条件概率模型的输入,以输出所述话题实体。
可选的,所述对所述N轮对话进行僵局检测,得到僵局检测结果包括:通过TextCNN神经网络对所述N轮对话对应的文本内容进行文本分类,得到分类结果以作为所述僵局检测结果,所述分类结果用于指示是否陷入僵局。
可选的,所述通过TextCNN神经网络对所述N轮对话对应的文本内容进行文本分类包括:过滤器将大小为3×3×1的节点矩阵变化为单位节点矩阵,wix,y来表示输出节点矩阵的第i个节点,过滤器输入节点(x,y)的权重,bi表示第i个输出节点对应的偏置项参数,单位矩阵中第i个节点的取值记作a(i),通过以下公式确定特征图:其中,x与y为词向量构成矩阵的下标,所述cx,y为过滤器中节点(x,y)的取值,f为激活函数,所有a(i)构成的单位向量就是卷积层所得的特征图,将其作为池化层的输入;将所述特征图作为三个池化层的输入以分别得到对应的特征;将所述对应的特征在融合层进行拼接得到目标向量;将所述目标向量输入至全连接层以进行文本分类,得到所述分类结果。
可选的,所述根据所述用户的用户实体向所述用户推送新话题进行对话包括:根据所述N轮对话确定最新话题实体;利用知识图谱计算话题实体间相似度,确定与所述最新话题实体的相似度超过第一阈值的话题集,作为预推荐话题序列;根据话题热度值和所述用户实体确定所述预推荐话题序列中,各预推荐话题的推荐值;将推荐值最高的预推荐话题作为所述新话题向所述用户推送。
可选的,所述确定与所述最新话题实体的相似度超过第一阈值的话题集,作为预推荐话题序列包括:通过以下公式确定所述预推荐话题序列:
其中,hrptr和trphr用于表示所述知识图谱的关系边权重,SIM(h,t)用于表示所述相似度;Δr表示所有以r为关系的三元组,tr表示所有以r为关系的三元组的尾实体,hr表示所有以r为关系的三元组的头实体;将所述相似度值按从大到小的顺序进行排列,确定所述相似度超过所述第一阈值的话题集作为所述预推荐话题序列。
可选的,根据话题热度值和所述用户实体确定所述预推荐话题序列中,各预推荐话题的推荐值包括:通过以下公式确定所述各预推荐话题的推荐值:
其中,所述At用于表示所述推荐值,所述Lt用于表示对应预推荐话题的话题热度值,热度值通过人工建立热度词库给出,所述Pt用于表示所述用户对所述对应预推荐话题的喜好值,所述喜好值包含于所述用户实体中。
可选的,所述方法还包括:
若所述僵局检测结果为未陷入僵局,则基于BM25算法得到对话的候选回复序列;确定所述候选回复序列中各回复的回复准确值、情感相似度值和话题的可开展值;根据以下公式确定所述各回复的综合评分:
其中,所述Au用于表示所述综合评分,所述Ru、Su、Bu分别用于表示所述回复准确值,所述情感相似度值和所述话题的可开展值;将所述综合评分最高的目标回复向所述用户输出。
本申请第二方面提供一种语音对话系统,包括:收发单元,用于接收用户的输入信息,并根据所述输入信息得到对应的文本信息;识别单元,用于识别所述文本信息中的话题实体;检测单元,用于基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;所述检测单元还用于在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;所述收发单元还用于若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话。
本申请第二方面提供一种语音对话装置,可以包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行如本申请第一方面所述的方法。
本申请第四方面提供一种计算机可读存储介质,包括指令,当其在处理器上运行时,使得处理器执行如本申请第一方面所述的方法。
本发明实施例又一方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本申请第一方面所述的方法。
本发明实施例又一方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本申请第一方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:接收用户的输入信息,并根据所述输入信息得到对应的文本信息;识别所述文本信息中的话题实体;基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话。在生成回复的同时,综合考虑了回复的合理性、回复的情感,以及对话的可展开性。与现有的“被动式”对话系统相比,本系统将推荐思想应用于对话的过程中,使得对话系统更具主动性,对话可持续性强,并在对话的过程中检测对话是否进入了僵局,进入僵局后向用户推送新的话题以拓展话题。随着用户的不断使用,对话系统会结合知识图谱的动态更新,借助在知识图谱中对用户感兴趣的话题以及不感兴趣的话题的标注,动态获取用户的个性化偏好,并以此调整后续对话内容,从而确保对话系统更具个性化。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种可能的语音对话方法的一个实施例示意图;
图2为本申请实施例提供的一种语音对话系统的一个示意图。
具体实施方式
本发明实施例提供了语音对话方法及相关装置,用于提高人机对话中的可持续性和主动性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,都应当属于本发明保护的范围。
现有技术存在的两大缺陷主要体现在如下三个方面:(1)对话主动性差:现有的对话系统,仅考虑如何针对用户的输入生成合理的回复,没有在对话的过程中主动引入话题,对话进度完全依靠用户推进。(2)不会随着用户的不断使用而更具个性化:现有的对话系统没有充分利用与用户的对话记录,作为给用户带来心灵上慰籍的闲聊式对话系统,应当在与用户的对话过程中,了解用户兴趣,使得系统更懂用户。(3)对话可展开性不强:对话过程不是问答过程,重点不在于准确的回复用户的问题,而是与用户信息交流过程,因此在生成回复时,要考虑用户是否能够根据回复展开话题。
有鉴于此,本申请实施例提供了一种语音对话方法,请参阅图1,为本申请实施例提供的一种可能的语音对话方法的一个实施例示意图,包括:
101、接收用户的输入信息,并根据输入信息得到对应的文本信息;
接收用户的输入信息,其中,用户可以通过文字输入或者语音输入等方式进行输入,语音对话系统将接收到的输入信息进行转换,得到对应的文本信息。其中将输入信息转换为文本信息是当前非常成熟的技术,具体此处不再赘述。
102、识别文本信息中的话题实体;
在得到所述文本信息后,对所述文本信息中的话题实体进行识别,其中所述话题实体即为对话的主题,由于话题实体也可能是一种抽象事物如时间、天气等,因此在本申请中将其视为一个序列标注任务。识别文本信息中的话题实体可以包括:将所述文本信息转换为词向量;将所述词向量输入至BIGRU神经网络中,以输出目标序列;根据条件随机场CRF进行概率建模得到条件概率模型,将所述目标序列作为所述条件概率模型的输入,以输出所述话题实体,即流程包括:
用户输入→基于word2vec的词嵌入→Bigru→CRF→输出,
具体步骤如下:首先利用word2vec将用户的输入信息转换为词向量,然后将词向量输入到BIGRU中,最后利用CRF调整序列标注并输出结果。
BiGRU:区别与其它神经网络,循环神经网络RNN是一种能有效解决序列标注问题的神经网络模型,但RNN在训练过程中存在梯度爆炸或梯度消失问题等问题。GRU是RNN的一种变体,在一定程度上解决了RNN的问题,并且相较于LSTM还有着结构简单,易训练等优点。GRU的定义如下所示:
其中和/>分别表示一组更新门,重置门和候选隐藏状态,/>表示当前神经网络的输入,/>表示上一隐藏节点输出的激活值。W和bc是单元的模型参数,⊙表示Hadamard乘积。
为了获取从前后两个方向进行信息建模,通常使用两个GRU从两个方向获取上下文信息。设置两个隐藏状态将该状态作为输出。
随后通过条件随机场对目标序列进行概率建模。具体,如使得X={x1,x2,...,xn}为观测序列,Y={y1,y2,...,yn}为与之对应的序列标注,则条件随机场的目标就是构建条件概率模型P(X|Y),最后输出话题。
103、基于话题实体对用户进行情感检测以得到情感检测结果,并基于情感检测结果在知识图谱中更新用户的用户实体;
利用情感识别模型识别出用户对话题实体的情感,本申请实施例中,将情感分类为喜欢、讨厌、一般。随后根据结果,在知识图谱中将用户实体与话题实体建立关系,关系为喜欢、讨厌、一般。
104、在用户与对话系统进行N轮对话后,对N轮对话进行僵局检测,得到僵局检测结果;
根据调查,在人与人的对话中用户之间对话会有发生僵局的可能性,即对话陷入了僵局,难以继续对话。在对话开始后不久,双方都可能打破僵局。如果一方一直在寻找要谈的东西,而另一方则以一种漫不经心的方式回应,那么谈话就会变得没有吸引力,而且很可能很快就会结束。因此,在人机对话中,系统也应主动,必要时引入新的内容。为了避免无意义的推送,需要检测什么时候需要进行话题推送,因此需要检测对话是否陷入了僵局。
现有技术中采用了关键词检测的方式来判断对话是否陷入了僵局,该方法有着精度低不够灵活等问题。因此在本申请中还可以将僵局检测任务视为文本分类任务,基于神经网络对对话文本进行分类,判断对话是否陷入了僵局。由于对话文本长度较短,而TextCNN在处理短文本分类任务时,分类效果好,且速度快,因此在本申请中,采用该TextCNN模型完成文本分类。
所述通过TextCNN神经网络对所述N轮对话对应的文本内容进行文本分类包括:
过滤器将大小为3×3×1的节点矩阵变化为单位节点矩阵,wix,y来表示输出节点矩阵的第i个节点,过滤器输入节点(x,y)的权重,bi表示第i个输出节点对应的偏置项参数,单位矩阵中第i个节点的取值记作a(i),通过以下公式确定特征图:
其中,x与y为词向量构成矩阵的下标,所述cx,y为过滤器中节点(x,y)的取值,f为激活函数,所有a(i)构成的单位向量就是卷积层所得的特征图,将其作为池化层的输入。所有a(i)组成的单位向量就是卷积层提取到的特征图,记作A,作为池化层的输入。池化层的汇合操作可以让模型更加关注某些特征而不是特征的具体位置,同时能够得到降维的效果,减少计算量和参数的个数,还能在一定程度上防止过拟合的发生。融合层将3个池化层所得的特征进行拼接,融合成一个对文本向量来说更具有代表性的目标向量,所述目标向量输入至全连接层以进行文本分类,得到所述分类结果,即全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类,从而判断对话是否陷入了僵局。
105、若僵局检测结果指示对话陷入僵局,则根据用户的用户实体向用户推送新话题进行对话。
若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话,包括:根据所述N轮对话确定最新话题实体;确定与所述最新话题实体的相似度超过第一阈值的话题集,作为预推荐话题序列;根据话题热度值和所述用户实体确定所述预推荐话题序列中,各预推荐话题的推荐值;将推荐值最高的预推荐话题作为所述新话题向所述用户推送。具体地,
若僵局检测结果表明对话陷入了僵局,则表明需要对话系统打破僵局,此时需要向用户推送话题。回溯上一轮或者上几轮对话,找到最新的话题实体To,基于该对话实体找寻相似话题进行推送。
1)相似度计算
首先基于TransM算法进行相似度计算。
其中Δr表示所有以r为关系的三元组,tr表示所有以r为关系的三元组的尾实体,hr表示所有以r为关系的三元组的头实体,hrptr和trphr用于表示知识图谱的关系边权重,通过以下公式求得关键词的相似度:
根据SIM(h,t)的值排序,相似度超过第一阈值的话题集作为预推荐话题序列。
2)推送话题生成
在推送话题是不能只考虑与之前话题相似的一些话题,还需要考虑用户的喜好,喜好值Pt的计算如下:
在知识图谱中可以话题实体已与用户实体建立了关系,喜欢,讨厌或者一般。因此喜好值对于如下表所示:
类型 | 喜好值 |
喜欢 | 1 |
一般 | 0.5 |
讨厌 | 0 |
为了避免用户被信息茧所束缚,在推送话题时还将考虑话题一般热度值。需要构建一个热度话题库,收集近期热点话题。热度值Lt计算如下表所示:
热度 | 热度值 |
一级热度 | 1 |
二级热度 | 0.5 |
未入热度库 | 0 |
推荐值综合考虑了推荐实体与对话中出现的最新话题To的相似度,用户的喜好值以及话题的热度值。
推荐值At计算公式如下所示:
其中,所述At用于表示所述推荐值,所述Lt用于表示对应预推荐话题的话题热度值,所述Pt用于表示所述用户对所述对应预推荐话题的喜好值,所述喜好值包含于所述用户实体中。根据At的值排序,选出值最高的话题Tomax推送给用户。
3)基于模板生成推荐话语
推荐的话题仅起到引出话题的作用,只是一种建议性的话语,对上下文的语义相似度没有严格的要求,只需将相应的话题推送给用户即可,因此本文采用基于模板的自然语言生成,人为构建相应的模板,将相应的主题推送给用户。若在对话过程中最新话题为To,推送的话题为Tomax,部分模板展示如下:
热度 |
最近大家都在讨论Tomax |
最近的Tomax热度很高 |
除了To,我也喜欢Tomax |
需要说明的是,若僵局检测结果表明对话未陷入僵局,则直接不启用话题推送,直接从检索库中检索出回复。
1)基于BM25算法的预检索
由于检索库中回复众多,为了减少时间开销,首先基于Bm25算法得到候选回复序列ui=(u1,u2,...,un)。
2)回复准确值计算
现有的研究中有大量的算法可用于计算对话系统的回复准确度,即为与用户输入的合理性。因此我们基于如SMN,DMN等模型评估候选回复序列准确值得分Ru。
3)情感相似度计算
在对话的过程中,为了为用户带来情感上的陪伴以及便于聊天的进行,候选回复需要与用户具有相似的情感,需要通过情感分析模型计算出候选回复的情感相似度得分Su。
4)候选回复的对话可开展值
聊天顺利能进行下去有两种方式,首先是话题双方都非常感兴趣,可以顺利接下去;另外一种是某个话题一方可能不感兴趣,但可以不断延伸和创造出很多新的话题来,从而让聊天可以持续下去。对话的过程不是问答过程,为了保证对话的可持续性,即能够使得用户在对话过程中找到更多的话题。回复的可持续性也是一项重要的评估标准,便于对话的展开。
我们认为对话的展开性主要体现在语句中的话题数量,以及话题在图谱中与其它话题相连的通道数,因此话题的可展开值的计算方式如下所示:
NBu=Nut1+Nut2+...+Nutn
其中Nuti为候选回复中话题实体uti在知识图谱中与其它话题实体相连的边数量。
5)综合评估生成回复
综合三种得分,加权计算得分Au,计算公式如下所示:
所述Au用于表示所述综合评分,所述Ru、Su、Bu分别用于表示所述回复准确值,所述情感相似度值和所述话题的可开展值。输出分数最高的目标回复umax,将所述综合评分最高的目标回复向所述用户输出。
本申请实施例中,与现有技术相比,(1)基于个人偏好动态获取的个性化人机交互。随着用户的使用,系统会根据对话内容不断在知识图谱中标记出用户感兴趣的话题以及不感兴趣的话题,使得对话系统更具个性化,使系统变得愈加了解用户。(2)基于主题的话题自动拓展。在生成回复时,除了考虑回复的准确性之外,还考虑了回复的可拓展性,实现回复从一个话题向其相关话题的平滑过渡,确保双方的对话的持续性。(3)基于知识图谱推荐新的话题。在对话的过程中,会时刻检测对话是否陷入了僵局,若陷入了僵局则能够通过推荐算法推送新的话题,避免对话系统只会以“一问一答”的形式生成回复使得对话难以进行。
本发明实施例提供的一种语音对话系统可以包括:
收发单元,用于接收用户的输入信息,并根据所述输入信息得到对应的文本信息;
识别单元,用于识别所述文本信息中的话题实体;
检测单元,用于基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;
所述检测单元还用于在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;
所述收发单元还用于若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话。
接下来介绍本申请实施例提供的另一种语音对话系统,请参阅图2所示,图2为本申请实施例提供的语音对话系统的硬件结构示意图,语音对话系统300包括:
接收器301、发射器302、处理器303和存储器304(其中语音对话系统300中的处理器303的数量可以一个或多个,图2中以一个处理器为例)。在本申请的一些实施例中,接收器301、发射器302、处理器303和存储器304可通过总线或其它方式连接,其中,图2中以通过总线连接为例。
存储器304可以包括只读存储器和随机存取存储器,并向处理器303提供指令和数据。存储器304的一部分还可以包括NVRAM。存储器304存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器303控制终端设备的操作,处理器303还可以称为CPU。具体的应用中,终端设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的所述基于多摄像头的视频拍摄方法可以应用于处理器303中,或者由处理器303实现。处理器303可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述图1所示的方法的各步骤可以通过处理器303中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器303可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器304,处理器303读取存储器304中的信息,结合其硬件完成上述方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (2)
1.一种语音对话方法,应用于对话系统,其特征在于,包括:
接收用户的输入信息,并根据所述输入信息得到对应的文本信息;
识别所述文本信息中的话题实体;
基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;
在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;
若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话;
所述识别所述文本信息中的话题实体包括:
将所述文本信息转换为词向量;
将所述词向量输入至BIGRU神经网络中,以输出目标序列;
根据条件随机场CRF进行概率建模得到条件概率模型,将所述目标序列作为所述条件概率模型的输入,以输出所述话题实体;
所述对所述N轮对话进行僵局检测,得到僵局检测结果包括:
通过TextCNN神经网络对所述N轮对话对应的文本内容进行文本分类,得到分类结果以作为所述僵局检测结果,所述分类结果用于指示是否陷入僵局;
所述通过TextCNN神经网络对所述N轮对话对应的文本内容进行文本分类包括:
过滤器将大小为3×3×1的节点矩阵变化为单位节点矩阵,wix,y来表示输出节点矩阵的第i个节点,过滤器输入节点(x,y)的权重,bi表示第i个输出节点对应的偏置项参数,单位矩阵中第i个节点的取值记作a(i),通过以下公式确定特征图:
其中,x与y为词向量构成矩阵的下标,所述cx,y为过滤器中节点(x,y)的取值,f为激活函数,所有a(i)构成的单位向量就是卷积层所得的特征图,将其作为池化层的输入;
将所述特征图作为三个池化层的输入以分别得到对应的特征;
将所述对应的特征在融合层进行拼接得到目标向量;
将所述目标向量输入至全连接层以进行文本分类,得到所述分类结果;
所述根据所述用户的用户实体向所述用户推送新话题进行对话包括:
根据所述N轮对话确定最新话题实体;
确定与所述最新话题实体的相似度超过第一阈值的话题集,作为预推荐话题序列;
根据话题热度值和所述用户实体确定所述预推荐话题序列中,各预推荐话题的推荐值;
将推荐值最高的预推荐话题作为所述新话题向所述用户推送;
所述方法还包括:
若所述僵局检测结果为未陷入僵局,则基于BM25算法得到对话的候选回复序列;
确定所述候选回复序列中各回复的回复准确值、情感相似度值和话题的可开展值;
根据以下公式确定所述各回复的综合评分:
其中,所述Au用于表示所述综合评分,所述Ru、Su、Bu分别用于表示所述回复准确值,所述情感相似度值和所述话题的可开展值;
将所述综合评分最高的目标回复向所述用户输出。
2.一种计算机可读存储介质,包括指令,当其在处理器上运行时,使得处理器执行如权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210754139.XA CN115497482B (zh) | 2022-06-27 | 2022-06-27 | 一种语音对话方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210754139.XA CN115497482B (zh) | 2022-06-27 | 2022-06-27 | 一种语音对话方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115497482A CN115497482A (zh) | 2022-12-20 |
CN115497482B true CN115497482B (zh) | 2024-05-03 |
Family
ID=84466550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210754139.XA Active CN115497482B (zh) | 2022-06-27 | 2022-06-27 | 一种语音对话方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497482B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003256419A (ja) * | 2001-12-28 | 2003-09-12 | Fujitsu Ltd | 対話方法、対話装置、対話プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 |
CN106776926A (zh) * | 2016-12-01 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 改善机器人对话时的应答能力的方法及系统 |
CN107943998A (zh) * | 2017-12-05 | 2018-04-20 | 竹间智能科技(上海)有限公司 | 一种基于知识图谱的人机对话控制系统及方法 |
CN109902834A (zh) * | 2019-01-28 | 2019-06-18 | 北京怡凯智能技术有限公司 | 一种话题驱动的老人陪伴主动对话机器人 |
CN111460120A (zh) * | 2020-03-31 | 2020-07-28 | 河北省讯飞人工智能研究院 | 一种对话管理方法、装置、设备及存储介质 |
CN111666391A (zh) * | 2020-04-28 | 2020-09-15 | 中国平安人寿保险股份有限公司 | 一种对话生成方法、装置、计算机设备及存储介质 |
CN112052321A (zh) * | 2020-09-02 | 2020-12-08 | 平安科技(深圳)有限公司 | 人机对话方法、装置、计算机设备及存储介质 |
-
2022
- 2022-06-27 CN CN202210754139.XA patent/CN115497482B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003256419A (ja) * | 2001-12-28 | 2003-09-12 | Fujitsu Ltd | 対話方法、対話装置、対話プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 |
CN106776926A (zh) * | 2016-12-01 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 改善机器人对话时的应答能力的方法及系统 |
CN107943998A (zh) * | 2017-12-05 | 2018-04-20 | 竹间智能科技(上海)有限公司 | 一种基于知识图谱的人机对话控制系统及方法 |
CN109902834A (zh) * | 2019-01-28 | 2019-06-18 | 北京怡凯智能技术有限公司 | 一种话题驱动的老人陪伴主动对话机器人 |
CN111460120A (zh) * | 2020-03-31 | 2020-07-28 | 河北省讯飞人工智能研究院 | 一种对话管理方法、装置、设备及存储介质 |
CN111666391A (zh) * | 2020-04-28 | 2020-09-15 | 中国平安人寿保险股份有限公司 | 一种对话生成方法、装置、计算机设备及存储介质 |
CN112052321A (zh) * | 2020-09-02 | 2020-12-08 | 平安科技(深圳)有限公司 | 人机对话方法、装置、计算机设备及存储介质 |
WO2022048170A1 (zh) * | 2020-09-02 | 2022-03-10 | 平安科技(深圳)有限公司 | 人机对话方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Applied to Mobile Multimedia Intelligent Speech System Interactive Topic Guiding Model;Hongcheng Huang etc.;IEEE Access;第7卷;正文182348-182356页 * |
基于知识图谱的人机交互话题推荐方法研究;王旭鹏;中国优秀硕士学位论文全文数据库 信息科技辑(第02期);正文1-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115497482A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487986B2 (en) | Providing a response in a session | |
WO2022041979A1 (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN107066464B (zh) | 语义自然语言向量空间 | |
CN108304439B (zh) | 一种语义模型优化方法、装置及智能设备、存储介质 | |
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
WO2019134091A1 (en) | Providing emotional care in a session | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
Houjeij et al. | A novel approach for emotion classification based on fusion of text and speech | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN115577316A (zh) | 一种基于多模态数据融合的用户人格预测方法与应用 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
Khan et al. | Comparative analysis on Facebook post interaction using DNN, ELM and LSTM | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
JP2019139783A (ja) | コミュニケーションを提供する人工知能 | |
Das | A multimodal approach to sarcasm detection on social media | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN115497482B (zh) | 一种语音对话方法及相关装置 | |
Martina et al. | A Virtual Assistant for the Movie Domain Exploiting Natural Language Preference Elicitation Strategies | |
CN112182159B (zh) | 一种基于语义表示的个性化检索式对话方法和系统 | |
CN114048395A (zh) | 基于时间感知与关键信息抽取的用户转发预测方法和系统 | |
Vasili et al. | Sentiment analysis on social media for Albanian language | |
CN111177493A (zh) | 数据处理方法、装置、服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |