CN114238602A - 基于语料匹配的对话分析方法、装置、设备及存储介质 - Google Patents
基于语料匹配的对话分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114238602A CN114238602A CN202111512683.5A CN202111512683A CN114238602A CN 114238602 A CN114238602 A CN 114238602A CN 202111512683 A CN202111512683 A CN 202111512683A CN 114238602 A CN114238602 A CN 114238602A
- Authority
- CN
- China
- Prior art keywords
- sentence
- answer
- question
- matching
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 33
- 238000012790 confirmation Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000013016 damping Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000329 smooth muscle myocyte Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,提供了一种基于语料匹配的对话分析方法、装置、设备及存储介质。所述方法包括:将用户输入的问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出问答语句的目标匹配语句,当匹配出问答语句的目标匹配语句时,将目标匹配语句反馈至用户,接收用户基于目标匹配语句选择的确认语句,当判断确认语句属于问答语料库的语句时,基于确认语句向用户推送对应的答案,当判断确认语句属于闲聊语料库的语句时,根据目标匹配语句向用户推送对应的答案,判断预设时长内用户是否输入闲聊语句,若是,根据闲聊语句向用户推送闲聊语句对应的答案。本发明可以提高智能聊天机器人反馈结果的准确度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语料匹配的对话分析方法、装置、设备及存储介质。
背景技术
目前,智能聊天机器人可以根据用户的文字或者语音输入,然后基于系统的内部构件返回该问题的反馈答案。但现有的智能聊天机器人对话较为单一,即智能机器人未能很好地区分用户是想与其闲聊还是想咨询业务上的问题,导致反馈结果的准确度较低。而当机器人识别出用户是与其进行闲聊时,由于多轮对话时用户输入闲聊语句的语义可能较为复杂,智能机器人无法理解用户的真正意图,导致反馈结果的准确度较低。
发明内容
鉴于以上内容,本发明提供一种基于语料匹配的对话分析方法、装置、设备及存储介质,其目的在于解决现有技术中机器人反馈结果的准确度较低技术问题。
为实现上述目的,本发明提供一种基于语料匹配的对话分析方法,该方法包括:
获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
优选的,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与所述问答语料库及所述闲聊语料库存在多个匹配语句时,计算所述问答语句与各个匹配语句的相似度值;
根据所述问答语料库或所述闲聊语料库对应的预设权重及所述相似度值计算得到每个匹配语句的匹配度值,选取所述匹配度值最高的第一预设数量的匹配语句作为所述目标匹配语句。
优选的,所述计算所述问答语句与各个匹配语句的相似度值,包括:
基于预设的词向量模型将所述问答语句及各个匹配语句转换成对应的词向量集,利用第一预设计算规则计算所述问答语句与各个匹配语句的相似度值,所述第一预设计算规则包括:
其中,A表示所述问答语句的词向量集,B表示匹配语句的词向量集,J(A,B)表示问答语句与匹配语句的相似度值。
优选的,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
利用第二预设计算规则计算出所述闲聊语句中所有词语的得分,选取得分最高的第二预设数量的词组作为所述闲聊语句的关键词集,将所述关键词集与所述闲聊语料库对应的闲聊答案库的语句的关键词进行匹配,得到所述闲聊语句的对应的答案,其中,所述第二预设计算规则包括:
其中,Vi、Vj和Vk表示从所述闲聊语句中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
优选的,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
将所述闲聊语句输入预先训练的语义识别模型得到所述闲聊语句的语义结果;
将所述语义结果与所述闲聊语料库对应的闲聊答案库的语句进行匹配,得到所述闲聊语句的对应的答案。
为实现上述目的,本发明还提供一种基于语料匹配的对话分析装置,该基于语料匹配的对话分析装置包括:
匹配模块:用于获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
第一判断模块:用于当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
第二判断模块:用于当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
推送模块:用于当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
优选的,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与所述问答语料库及所述闲聊语料库存在多个匹配语句时,计算所述问答语句与各个匹配语句的相似度值;
根据所述问答语料库或所述闲聊语料库对应的预设权重及所述相似度值计算得到每个匹配语句的匹配度值,选取所述匹配度值最高的第一预设数量的匹配语句作为所述目标匹配语句。
优选的,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
将所述闲聊语句输入预先训练的语义识别模型得到所述闲聊语句的语义结果;
将所述语义结果与所述闲聊语料库对应的闲聊答案库的语句进行匹配,得到所述闲聊语句的对应的答案。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于语料匹配的对话分析程序,所述基于语料匹配的对话分析程序被处理器执行时,实现如上所述基于语料匹配的对话分析方法的任意步骤。
本发明提出的基于语料匹配的对话分析方法、装置、设备及存储介质,通过将目标匹配语句反馈至用户,接收用户基于目标匹配语句选择的确认语句,判断确认语句所属的语料库,可以得知用户是想向机器人咨询问题还是想与机器人闲聊。当判断确认语句属于闲聊语料库的语句时,根据目标匹配语句向用户推送对应的答案,当用户在预设时间段内再次输入闲聊语句时,根据语义识别模型识别出闲聊语句的意图再反馈答案,提高反馈结果的准确度。
附图说明
图1为本发明基于语料匹配的对话分析方法较佳实施例的流程图示意图;
图2为本发明基于语料匹配的对话分析装置较佳实施例的模块示意图;
图3为本发明电子设备较佳实施例的示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于语料匹配的对话分析方法。参照图1所示,为本发明基于语料匹配的对话分析方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。基于语料匹配的对话分析方法包括:
步骤S10:获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句。
在本实施例中,本方案的应用场景可以是用户在与智能机器人对话交互时,智能机器人根据用户输入的问答语句,通过分析实现不同类型对话之间的灵活跳转。需要说明的是,本方案的对话分析的实际应用场景并不仅限于此。智能机器人作为智能客服的一个主要组成部分,在政务服务网站、电商平台、生活服务平台等有着广泛的应用。
当用户向智能机器人的交互界面输入问答语句时,智能机器人将用户输入的问答语句分别与预设的问答语料库、闲聊语料库的各语句进行匹配,判断是否匹配出问答语句的目标匹配语句,其中,问答语句可以是提问语句、闲聊语句等。匹配的方式可以是计算问答语句与语料库中各语句的相似度值,当相似度值大于第一阈值(例如,90%)时,则认为问答语句与该语料匹配成功。
可以理解的是,用户也也看通过语音输入的方式输入问答语句,当用户通过语音输入时,智能机器人利用预先配置的语音转换文本的工具,将用户输入的语音转换成文本语句。
在一个实施例中,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与预设的问答语料库及闲聊语料库均不存在匹配语句时,向所述用户反馈预设提示信息。
当用户输入的问答语句与预设的问答语料库与闲聊语料库均不存在匹配语句时,可以向用户反馈默认的话术,例如“请重新输入”,以提示用户重新输入问答语句。
在一个实施例中,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与所述问答语料库及所述闲聊语料库存在多个匹配语句时,计算所述问答语句与各个匹配语句的相似度值;
根据所述问答语料库或所述闲聊语料库对应的预设权重及所述相似度值计算得到每个匹配语句的匹配度值,选取所述匹配度值最高的第一预设数量的匹配语句作为所述目标匹配语句。
当用户输入的问答语句与问答语料库及闲聊语料库均存在多个匹配语句时,说明用户输入的问答语句与两个语料库的语句匹配程度都比较高,此时可以根据预先设置的语料库的权重,及问答语句与各个匹配语句的相似度值来确定与问答语句匹配的语料,例如,将语料库的预设权重乘以问答语句与匹配语句的相似度值作为匹配语句的匹配度值。之后选取匹配度值最高的第一预设数量(例如,4个)的匹配语句作为目标匹配语句。
进一步地,所述计算所述问答语句与各个匹配语句的相似度值,包括:
基于预设的词向量模型将所述问答语句及各个匹配语句转换成对应的词向量集,利用第一预设计算规则计算所述问答语句与各个匹配语句的相似度值,所述第一预设计算规则包括:
其中,A表示所述问答语句的词向量集,B表示匹配语句的词向量集,J(A,B)表示问答语句与匹配语句的相似度值。
预设的词向量模型可以是word2vec模型,将问答语句及各个匹配语句表示成向量后,可以计算出问答语句与各个匹配语句的相似度值。
步骤S20:当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案。
在本实施例中,由于目标匹配语句可能为多个语句,当匹配出问答语句的目标匹配语句时,通过交互界将目标匹配语句反馈至用户,以供用户对多个语句进行最终的确认。当用户点击交互界面中目标匹配语句中的某个语句时,判断确认语句是属于问答语料库的语句还是闲聊语料库的语句,当判断确认语句属于问答语料库的语句时,可以将用户选择的确认语句与所述问答语料库对应的答案语料库进行匹配,得到该确认语句的匹配结果作为答案推送至用户,确认语句与问答语料库对应的答案语料库进行匹配时,也可以采取上述相似度匹配的方案。
步骤S30:当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句。
在本实施例中,当确认语句属于闲聊语料库的语句时,可以利用目标匹配语句与闲聊语料库对应的闲聊答案库进行匹配得到对应的答案,并将答案推送给用户,确认语句与闲聊语料库对应的闲聊答案库进行匹配时,也可以采取上述相似度匹配的方案。之后,判断判断预设时长(例如,30秒)内用户是否输入闲聊语句,即判断用户是否继续与智能机器人闲聊。
步骤S40:当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
在本实施例中,当预设时长内用户输入闲聊语句时,即判断用户继续与智能机器人闲聊时,根据闲聊语句向用户推送闲聊语句对应的答案,进一步地,当预设时长内用户未输入闲聊语句时,结束当前聊天。
在一个实施例中,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
利用第二预设计算规则计算出所述闲聊语句中所有词语的得分,选取得分最高的第二预设数量的词组作为所述闲聊语句的关键词集,将所述关键词集与所述闲聊语料库对应的闲聊答案库的语句的关键词进行匹配,得到所述闲聊语句的对应的答案,其中,所述第二预设计算规则包括:
其中,Vi、Vj和Vk表示从所述闲聊语句中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
由于用户输入的闲聊语句的句子长度可能比较长,智能机器人难以识别出该语句的真实意图,因此,可以通过该算法计算出闲聊文本中每个词组的得分,根据得分对各个词组进行由大到小进行排序,选取第二预设数量(例如,5个)词组作为闲聊语句的关键词集,将关键词集与闲聊语料库对应的闲聊答案库的语句对应的关键词进行匹配,得到所述闲聊语句的对应的答案。
在一个实施例中,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
将所述闲聊语句输入预先训练的语义识别模型得到所述闲聊语句的语义结果;
将所述语义结果与所述闲聊语料库对应的闲聊答案库的语句进行匹配,得到所述闲聊语句的对应的答案。
由于闲聊语句大多格式不一,且两句文字较为相似的闲聊语句,两者的真实意图可能不同,因此,当判断用户继续与智能机器人闲聊时,可以通过语义识别模型识别出闲聊语句的语义,根据闲聊语句的语义匹配出闲聊语句对应的答案。其中,语义识别模型可以是根据Bert模型训练得到的,具体训练过程包括:
获取第三预设数量(例如,10万条)的样本闲聊语句,为各样本闲聊语句标注语义标签,将各样本闲聊语句作为自变量、各样本闲聊语句标注语义标签作为因变量生成样本集;
将所述样本集中每个样本输入Bert模型,得到所述样本集中每个样本的预测结果;
读取所述样本集中每个样本的语义标签,通过最小化所述预测结果与所述语义标签之间的损失值确定语义识别模型的参数,得到训练好的语义识别模型。
参照图2所示,为本发明基于语料匹配的对话分析装置100的功能模块示意图。
本发明所述基于语料匹配的对话分析装置100可以安装于电子设备中。根据实现的功能,所述基于语料匹配的对话分析装置100可以包括匹配模块110、第一判断模块120、第二判断模块130及推送模块140。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
匹配模块110:用于获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句。
在本实施例中,本方案的应用场景可以是用户在与智能机器人对话交互时,智能机器人根据用户输入的问答语句,通过分析实现不同类型对话之间的灵活跳转。需要说明的是,本方案的对话分析的实际应用场景并不仅限于此。智能机器人作为智能客服的一个主要组成部分,在政务服务网站、电商平台、生活服务平台等有着广泛的应用。
当用户向智能机器人的交互界面输入问答语句时,智能机器人将用户输入的问答语句分别与预设的问答语料库、闲聊语料库的各语句进行匹配,判断是否匹配出问答语句的目标匹配语句,其中,问答语句可以是提问语句、闲聊语句等。匹配的方式可以是计算问答语句与语料库中各语句的相似度值,当相似度值大于第一阈值(例如,90%)时,则认为问答语句与该语料匹配成功。
可以理解的是,用户也也看通过语音输入的方式输入问答语句,当用户通过语音输入时,智能机器人利用预先配置的语音转换文本的工具,将用户输入的语音转换成文本语句。
在一个实施例中,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与预设的问答语料库及闲聊语料库均不存在匹配语句时,向所述用户反馈预设提示信息。
当用户输入的问答语句与预设的问答语料库与闲聊语料库均不存在匹配语句时,可以向用户反馈默认的话术,例如“请重新输入”,以提示用户重新输入问答语句。
在一个实施例中,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与所述问答语料库及所述闲聊语料库存在多个匹配语句时,计算所述问答语句与各个匹配语句的相似度值;
根据所述问答语料库或所述闲聊语料库对应的预设权重及所述相似度值计算得到每个匹配语句的匹配度值,选取所述匹配度值最高的第一预设数量的匹配语句作为所述目标匹配语句。
当用户输入的问答语句与问答语料库及闲聊语料库均存在多个匹配语句时,说明用户输入的问答语句与两个语料库的语句匹配程度都比较高,此时可以根据预先设置的语料库的权重,及问答语句与各个匹配语句的相似度值来确定与问答语句匹配的语料,例如,将语料库的预设权重乘以问答语句与匹配语句的相似度值作为匹配语句的匹配度值。之后选取匹配度值最高的第一预设数量(例如,4个)的匹配语句作为目标匹配语句。
进一步地,所述计算所述问答语句与各个匹配语句的相似度值,包括:
基于预设的词向量模型将所述问答语句及各个匹配语句转换成对应的词向量集,利用第一预设计算规则计算所述问答语句与各个匹配语句的相似度值,所述第一预设计算规则包括:
其中,A表示所述问答语句的词向量集,B表示匹配语句的词向量集,J(A,B)表示问答语句与匹配语句的相似度值。
预设的词向量模型可以是word2vec模型,将问答语句及各个匹配语句表示成向量后,可以计算出问答语句与各个匹配语句的相似度值。
第一判断模块120:用于当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案。
在本实施例中,由于目标匹配语句可能为多个语句,当匹配出问答语句的目标匹配语句时,通过交互界将目标匹配语句反馈至用户,以供用户对多个语句进行最终的确认。当用户点击交互界面中目标匹配语句中的某个语句时,判断确认语句是属于问答语料库的语句还是闲聊语料库的语句,当判断确认语句属于问答语料库的语句时,可以将用户选择的确认语句与所述问答语料库对应的答案语料库进行匹配,得到该确认语句的匹配结果作为答案推送至用户,确认语句与问答语料库对应的答案语料库进行匹配时,也可以采取上述相似度匹配的方案。
第二判断模块130:用于当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句。
在本实施例中,当确认语句属于闲聊语料库的语句时,可以利用目标匹配语句与闲聊语料库对应的闲聊答案库进行匹配得到对应的答案,并将答案推送给用户,确认语句与闲聊语料库对应的闲聊答案库进行匹配时,也可以采取上述相似度匹配的方案。之后,判断判断预设时长(例如,30秒)内用户是否输入闲聊语句,即判断用户是否继续与智能机器人闲聊。
推送模块140:用于当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
在本实施例中,当预设时长内用户输入闲聊语句时,即判断用户继续与智能机器人闲聊时,根据闲聊语句向用户推送闲聊语句对应的答案,进一步地,当预设时长内用户未输入闲聊语句时,结束当前聊天。
在一个实施例中,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
利用第二预设计算规则计算出所述闲聊语句中所有词语的得分,选取得分最高的第二预设数量的词组作为所述闲聊语句的关键词集,将所述关键词集与所述闲聊语料库对应的闲聊答案库的语句的关键词进行匹配,得到所述闲聊语句的对应的答案,其中,所述第二预设计算规则包括:
其中,Vi、Vj和Vk表示从所述闲聊语句中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
由于用户输入的闲聊语句的句子长度可能比较长,智能机器人难以识别出该语句的真实意图,因此,可以通过该算法计算出闲聊文本中每个词组的得分,根据得分对各个词组进行由大到小进行排序,选取第二预设数量(例如,5个)词组作为闲聊语句的关键词集,将关键词集与闲聊语料库对应的闲聊答案库的语句对应的关键词进行匹配,得到所述闲聊语句的对应的答案。
在一个实施例中,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
将所述闲聊语句输入预先训练的语义识别模型得到所述闲聊语句的语义结果;
将所述语义结果与所述闲聊语料库对应的闲聊答案库的语句进行匹配,得到所述闲聊语句的对应的答案。
由于闲聊语句大多格式不一,且两句文字较为相似的闲聊语句,两者的真实意图可能不同,因此,当判断用户继续与智能机器人闲聊时,可以通过语义识别模型识别出闲聊语句的语义,根据闲聊语句的语义匹配出闲聊语句对应的答案。其中,语义识别模型可以是根据Bert模型训练得到的,具体训练过程包括:
获取第三预设数量(例如,10万条)的样本闲聊语句,为各样本闲聊语句标注语义标签,将各样本闲聊语句作为自变量、各样本闲聊语句标注语义标签作为因变量生成样本集;
将所述样本集中每个样本输入Bert模型,得到所述样本集中每个样本的预测结果;
读取所述样本集中每个样本的语义标签,通过最小化所述预测结果与所述语义标签之间的损失值确定语义识别模型的参数,得到训练好的语义识别模型。
参照图3所示,为本发明电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如基于语料匹配的对话分析程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行基于语料匹配的对话分析程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图3仅示出了具有组件11-14以及基于语料匹配的对话分析程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的基于语料匹配的对话分析程序10时可以实现如下步骤:
获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照上述图2关于基于语料匹配的对话分析装置100实施例的功能模块图以及图1关于基于语料匹配的对话分析方法实施例的流程图的说明。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性的,也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有基于语料匹配的对话分析程序10,所述基于语料匹配的对话分析程序10被处理器执行时实现如下操作:
获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
本发明之计算机可读存储介质的具体实施方式与上述基于语料匹配的对话分析方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于语料匹配的对话分析方法,应用于电子设备,其特征在于,所述方法包括:
获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
2.如权利要求1所述的基于语料匹配的对话分析方法,其特征在于,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与所述问答语料库及所述闲聊语料库存在多个匹配语句时,计算所述问答语句与各个匹配语句的相似度值;
根据所述问答语料库或所述闲聊语料库对应的预设权重及所述相似度值计算得到每个匹配语句的匹配度值,选取所述匹配度值最高的第一预设数量的匹配语句作为所述目标匹配语句。
4.如权利要求1所述的基于语料匹配的对话分析方法,其特征在于,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
利用第二预设计算规则计算出所述闲聊语句中所有词语的得分,选取得分最高的第二预设数量的词组作为所述闲聊语句的关键词集,将所述关键词集与所述闲聊语料库对应的闲聊答案库的语句的关键词进行匹配,得到所述闲聊语句的对应的答案,其中,所述第二预设计算规则包括:
其中,Vi、Vj和Vk表示从所述闲聊语句中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
5.如权利要求1所述的基于语料匹配的对话分析方法,其特征在于,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
将所述闲聊语句输入预先训练的语义识别模型得到所述闲聊语句的语义结果;
将所述语义结果与所述闲聊语料库对应的闲聊答案库的语句进行匹配,得到所述闲聊语句的对应的答案。
6.一种基于语料匹配的对话分析装置,其特征在于,所述装置包括:
匹配模块:用于获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
第一判断模块:用于当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
第二判断模块:用于当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
推送模块:用于当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
获取用户输入的问答语句,分别将所述问答语句与预设的问答语料库及闲聊语料库的各语句进行匹配,判断是否匹配出所述问答语句的目标匹配语句;
当匹配出所述问答语句的目标匹配语句时,将所述目标匹配语句反馈至所述用户,接收用户基于所述目标匹配语句选择的确认语句,判断确认语句所属的语料库,当判断所述确认语句属于所述问答语料库的语句时,基于所述确认语句向所述用户推送对应的答案;
当判断所述确认语句属于所述闲聊语料库的语句时,根据所述目标匹配语句向所述用户推送对应的答案,判断预设时长内用户是否输入闲聊语句;
当预设时长内用户输入闲聊语句时,根据所述闲聊语句向所述用户推送闲聊语句对应的答案。
8.如权利要求7所述的电子设备,其特征在于,所述判断是否匹配出所述问答语句的目标匹配语句,包括:
当所述问答语句与所述问答语料库及所述闲聊语料库存在多个匹配语句时,计算所述问答语句与各个匹配语句的相似度值;
根据所述问答语料库或所述闲聊语料库对应的预设权重及所述相似度值计算得到每个匹配语句的匹配度值,选取所述匹配度值最高的第一预设数量的匹配语句作为所述目标匹配语句。
9.如权利要求7所述的电子设备,其特征在于,所述根据所述闲聊语句向所述用户推送闲聊语句对应的答案,包括:
将所述闲聊语句输入预先训练的语义识别模型得到所述闲聊语句的语义结果;
将所述语义结果与所述闲聊语料库对应的闲聊答案库的语句进行匹配,得到所述闲聊语句的对应的答案。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于语料匹配的对话分析程序,所述基于语料匹配的对话分析程序被处理器执行时,实现如权利要求1至5中任一项所述基于语料匹配的对话分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111512683.5A CN114238602A (zh) | 2021-12-11 | 2021-12-11 | 基于语料匹配的对话分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111512683.5A CN114238602A (zh) | 2021-12-11 | 2021-12-11 | 基于语料匹配的对话分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114238602A true CN114238602A (zh) | 2022-03-25 |
Family
ID=80754902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111512683.5A Withdrawn CN114238602A (zh) | 2021-12-11 | 2021-12-11 | 基于语料匹配的对话分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238602A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881675A (zh) * | 2022-07-11 | 2022-08-09 | 广东电网有限责任公司 | 一种基于电网业务的智能客服方法及系统 |
CN116860950A (zh) * | 2023-09-04 | 2023-10-10 | 北京市电通电话技术开发有限公司 | 一种术语对话机器人语料更新方法及系统 |
-
2021
- 2021-12-11 CN CN202111512683.5A patent/CN114238602A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881675A (zh) * | 2022-07-11 | 2022-08-09 | 广东电网有限责任公司 | 一种基于电网业务的智能客服方法及系统 |
CN116860950A (zh) * | 2023-09-04 | 2023-10-10 | 北京市电通电话技术开发有限公司 | 一种术语对话机器人语料更新方法及系统 |
CN116860950B (zh) * | 2023-09-04 | 2023-11-14 | 北京市电通电话技术开发有限公司 | 一种术语对话机器人语料更新方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502608B (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN108491433B (zh) | 聊天应答方法、电子装置及存储介质 | |
CN110164435B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN110413773B (zh) | 智能文本分类方法、装置及计算机可读存储介质 | |
CN113707300B (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN111368043A (zh) | 基于人工智能的事件问答方法、装置、设备及存储介质 | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
CN113127621B (zh) | 对话模块的推送方法、装置、设备及存储介质 | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN114238602A (zh) | 基于语料匹配的对话分析方法、装置、设备及存储介质 | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
CN110750637B (zh) | 文本摘要提取方法、装置、计算机设备及存储介质 | |
CN111339166A (zh) | 基于词库的匹配推荐方法、电子装置及存储介质 | |
CN111221942B (zh) | 智能化文本对话生成方法、装置及计算机可读存储介质 | |
CN112784573A (zh) | 文本情感内容分析方法、装置、设备及存储介质 | |
CN117648982A (zh) | 基于问答模型生成答案方法、装置、电子设备及存储介质 | |
CN117874210A (zh) | 自主交互问答方法、系统、设备及介质 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
CN116595149A (zh) | 一种人机对话生成方法、装置、设备及存储介质 | |
CN110837559A (zh) | 语句样本集的生成方法、电子装置及存储介质 | |
CN110705258A (zh) | 文本实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220325 |