CN113220862A - 标准问识别方法、装置及计算机设备及存储介质 - Google Patents

标准问识别方法、装置及计算机设备及存储介质 Download PDF

Info

Publication number
CN113220862A
CN113220862A CN202110650332.4A CN202110650332A CN113220862A CN 113220862 A CN113220862 A CN 113220862A CN 202110650332 A CN202110650332 A CN 202110650332A CN 113220862 A CN113220862 A CN 113220862A
Authority
CN
China
Prior art keywords
standard
question
customer
questions
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110650332.4A
Other languages
English (en)
Inventor
孙泽烨
陈思姣
李炫�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110650332.4A priority Critical patent/CN113220862A/zh
Publication of CN113220862A publication Critical patent/CN113220862A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种标准问识别方法、装置、计算机设备及存储介质,方法包括:获取与客户通话过程中客户提问的客户问题;通过预设的匹配模型从预设的标准问库中筛选出与客户问题相对应的至少两个标准问题,并获取至少两个标准问题中相似度得分最高的目标标准问题,其中,至少两个标准问题包括至少一个与客户问题的字面相关的标准问题以及至少一个与客户问题的语义相关的标准问题;获取预设的应答话术库中与目标标准问题相对应的问题应答话术,并输出至客服终端。本申请实施例通过在标准问库中召回至少两个标准问题并进行排序,从而筛选出相似度得分最高的目标标准问题并输出对应的问题应答话术给客服人员,能有效提高客户问题的识别准确率。

Description

标准问识别方法、装置及计算机设备及存储介质
技术领域
本申请实施例涉及语音识别技术领域,尤其是一种标准问识别方法、装置、计算机设备及存储介质。
背景技术
随着信息和科技的发展,越来越多的新产品和新事物进行市场,人们对于产品的各项性能也越加关注,这就加大了销售人员的工作压力,销售体系的效率已经成为销售市场中的一大重点所在。
目前的销售产业,通常使用易答销售助手帮助销售人员与客户进行沟通联系,易答销售助手会对客户通话内容进行分析识别,并从标准问库中匹配与客户问对应的某条标准问,易答销售助手就会将对应的推荐答复话术展示给坐席销售人员,从而提高销售效率。
但是,现有的标准问识别模型是基于分类模型匹配标准问,分类模型的性能会随着类别数量的增加而下降,尤其对于训练数据较少的类别,识别准确率较低;而当新增类别时,需要重新训练模型,泛化能力较差。
发明内容
本申请实施例提供一种能够提高标准问识别准确率的标准问识别方法、装置、计算机设备及存储介质。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,提供一种标准问识别方法,包括:
获取与客户通话过程中客户提问的客户问题;
通过预设的匹配模型从预设的标准问库中筛选出与客户问题相对应的至少两个标准问题,并获取至少两个标准问题中相似度得分最高的目标标准问题,其中,至少两个标准问题包括至少一个与客户问题的字面相关的标准问题以及至少一个与客户问题的语义相关的标准问题;
获取预设的应答话术库中与目标标准问题相对应的问题应答话术,并输出至客服终端。
可选地,匹配模型包括召回模块和排序模块,通过预设的匹配模型从预设的标准问库中筛选出与客户问题相对应的至少两个标准问题,并获取至少两个标准问题中相似度得分最高的目标标准问题的步骤,包括:
通过召回模块从标准问库中筛选出与客户问题相对应的至少两个标准问题;
通过排序模块根据各标准问题的相似度得分将至少两个标准问题进行排序,得到对应的排序结果;
根据排序结果,确定至少两个标准问题中相似度得分最高的标准问题为目标标准问题。
可选地,召回模块包括es召回模块和语义召回模块,通过召回模块从标准问库中筛选出与客户问题相对应的至少两个标准问题的步骤,包括:
通过es召回模块从标准问库中查找与客户问题的字面相关的至少一个标准问题;
通过语义召回模块从标准问库中查找与客户问题的语义相关的至少一个标准问题。
可选地,通过排序模块根据各标准问题的相似度得分将至少两个标准问题进行排序序的步骤,包括:
提取通过es召回模块和语义召回模块查找到的各标准问题的相似度度量信息;
对相似度度量信息进行归一化处理得到各标准问题的相似度得分;
根据相似度得分对各标准问题由高到低进行排序。
第二方面,本申请还提供一种标准问识别装置,装置包括:
客户问题获取单元,用于获取与客户通话过程中客户提问的客户问题;
标准问题查找单元,用于通过预设的匹配模型从预设的标准问库中筛选出与客户问题相对应的至少两个标准问题,并获取至少两个标准问题中相似度得分最高的目标标准问题,其中,至少两个标准问题包括至少一个与客户问题的字面相关的标准问题以及至少一个与客户问题的语义相关的标准问题;
话术输出单元,用于获取预设的应答话术库中与目标标准问题相对应的问题应答话术,并输出至客服终端。
第三方面,本申请还提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如上述标准问识别方法的步骤。
第四方面,本申请还提供一种非易失性存储介质,其存储有依据上述的标准问识别方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
本申请实施例的有益效果是:在与客户通话过程中获取客户提问的客户问题,然后通过预设的匹配模型从标准问库中召回对应的至少两个标准问题,包括分别与客户问题字面相关和语义相关的至少一个标准问题,并将召回的至少两个标准问题进行排序,从而筛选出相似度得分最高的目标标准问题,然后从预设的应答话术库中查找与该目标标准问题对应的问题应答话术输出给客服终端,辅助客服人员对用户提问的问题进行答复和引导,问题应答话术与客户问题的相似度最高,能有效提高客户问题的识别准确率。
附图说明
图1为本申请实施例提供的一种标准问识别方法的流程示意图;
图2为本申请实施例提供的一种标准问识别方法查找目标标准问题的流程示意图;
图3为本申请实施例提供的一种标准问识别方法召回标准问题的流程示意图;
图4为本申请实施例提供的一种标准问识别方法归一化相似度得分的流程示意图;
图5为本申请实施例提供的一种标准问识别装置的结构示意图;
图6为本申请实施例提供的计算机设备的基本结构框图;
图7为本申请实施例提供的匹配模块的结构示意图;
图8为本申请实施例提供的HNSW算法的分层优化示意图;
图9为本申请实施例提供的FastMatch模型的结构示意图;
图10为本申请实施例提供的CoreMatchingModel模型的结构示意图;
图11为本申请实施例提供的FastText模型的结构示意图。
具体实施方式
如背景技术所描述,现有的标准问识别模型是基于分类模型匹配标准问,分类模型的性能会随着类别数量的增加而下降,尤其对于训练数据较少的类别,识别准确率较低;而当新增类别时,需要重新训练模型,泛化能力较差。
针对上述问题,本申请实施例提供了一种标准问识别方法,在与客户通话过程中获取客户提问的客户问题,然后通过预设的匹配模型从标准问库中召回对应的至少两个标准问题,包括分别与客户问题字面相关和语义相关的至少一个标准问题,并将召回的至少两个标准问题进行排序,从而筛选出相似度得分最高的目标标准问题,然后从预设的应答话术库中查找与该目标标准问题对应的问题应答话术输出给客服终端,辅助客服人员对用户提问的问题进行答复和引导,问题应答话术与客户问题的相似度最高,能有效提高客户问题的识别准确率。
上述标准问识别方法可以应用于计算机设备。该计算机设备可以为用于识别图像的设备,也可以为该设备中的芯片,还可以为该设备中的片上系统。
可选的,该设备可以是物理机,例如:台式电脑,又称台式机或桌面机(desktopcomputer)、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备。
可选的,上述计算机设备也可以通过部署在物理机上的虚拟机(virtualmachine,VM),实现上述计算机设备所要实现的功能。
下面结合附图对本申请实施例提供的标准问识别方法进行详细介绍。如图1所示,标准问识别方法包括:S1100-S1300。
S1100、获取与客户通话过程中客户提问的客户问题。
在本申请实施例中,客户问题可以为任务型问答系统中的客户问题,例如,电商平台中,该任务型问答系统可以为售后问答系统,接收客户发送的关于商品的性能及查询资讯等信息,并提供相应的答案。
在实施时,任务型问答系统包括至少一个客服终端,客服人员可以通过客服终端与客户进行通话,客服终端设置有处理器,本申请提供的标准问识别方法的各步骤由处理器执行实现,处理器可以是设置于客服终端的实际处理器,也可以是虚拟的云端处理器,在此不做具体限定。
系统在客服人员与客户进行通话过程中实时监听通话过程,记录通话内容并从通话内容中确定客户端通话内容和客服端通话内容,在通话过程中,客户可能会对产品的相关信息、产品生产商的相关信息以及售后信息等进行咨询,系统提取通话内容中客户提问的问题,从通话内容中识别客户问题可以通过易答销售助手完成,在此不再赘述。
S1200、通过预设的匹配模型从预设的标准问库中筛选出与客户问题相对应的至少两个标准问题,并获取至少两个标准问题中相似度得分最高的目标标准问题,其中,至少两个标准问题包括至少一个与客户问题的字面相关的标准问题以及至少一个与客户问题的语义相关的标准问题。
当识别到客户提问的问题时,系统通过匹配模型对客户问题进行识别,在实施时,可以通过语音转换工具(例如讯飞语音转换工具)将对应客户问题的语音数据转换为文本数据,然后通过匹配模型从标准问库中快速筛选出和客户问题相似的N个标准问并排序,N大于等于2,匹配模型是预先训练至收敛的用于识别客户问题并召回标准问的模型,客户问题和标准问题相似包括字面相似和语义相似,其中,匹配模型用于将客户问题和标准问库中的各标准问进行比对,从标准问库中筛选出至少一个和客户问题文本相似度达到预设阈值的标准问题,以及至少一个和客户问题语义相似度达到预设阈值的标准问题,预设阈值是系统预先设置的,例如85%,则抽取标准问库中和客户问题文本相似度和语义相似度均超过85%的标准问题,若标准问库中的所有标准问题与客户问题的文本相似度均小于85%,则提取文本相似度最高的一个标准问题和语义相似度最高的一个标准问题。标准问库中包括多个标准问,具体地,标准问库由易答销售助手提供,在此不再赘述。
在一些实施例中,匹配模型包括余弦相似度算法,从而可以通过采用余弦相似度算法从标准问库中筛选出至少一个与客户问题的字面相关的标准问题,余弦相似度是通过一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小,若将1和0分别设为相同和不同,那么相似度的值就是在0至1之间,其中,余弦值越接近1,表明两个向量越相似。
余弦相似度计算两个文本相似度的步骤如下:
1、将完整的句子根据分词算法分成独立的词集合;
以客户问题为“这个套餐超预算了,那个套餐合适”为例,该客户问题对应句子a,例如标准问库中包括第一标准问题,其中,第一标准问题为“这个套餐太贵了,那个套餐更合适”,该第一标准问题对应句子b,系统将两个句子进行分词后,句子a的中文分词包括:这个、套餐、超、预算、了、那个、合适,而句子b的中文分词包括:这个、套餐、太、贵了、那个、更、合适。
2、求出两个词集合的并集;
例如上述的句子a和句子b构成的词集为:这个、套餐、超、预算、太、贵了、了、那个、更、合适。
3、计算各词集合的词频并把词频向量化;
词频是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。例如上述的句子a和句子b,句子a的词频为:这个1、套餐2、超1、预算1、太0、贵了0、了1、那个1、更0、合适1。句子b的词频为:这个1、套餐2、超0、预算0、太1、贵了1、了0、那个1、更1、合适1。将词频向量化后,得到句子a为:(1、2、1、1、0、0、1、1、0、1);句子b为:(1、2、0、0、1、1、0、1、1、1)。
4、代入向量模型公式求出文本相似度。
向量模型公式用于计算余弦相似度的值,向量模型公式为:
Figure BDA0003110970770000071
其中,x1、x2...xn为句子a的词频向量,y1、y2...yn为句子b的词频向量,计算得到句子a和句子b之间的文本相似度为0.7,则得到标准问库中的第一标准问题和客户问题的字面相似度为0.7。同样的计算出标准问库中的各标准问题和客户问题之间的字面相似度,然后将相似度超过预设阈值的标准问题提取出来,若标准问库中的所有标准问题和客户问题之间的字面相似度均小于该预设阈值,则提取字面相似度最高的一个标准问题。
在一些实施例中,匹配模型还可以通过simhash算法从标准问库中筛选出至少一个与客户问题的语义相关的标准问题,simhash算法的工作原理是通过比较多个文档的simhash值的海明距离以获取多个文档之间的相似度,simhash算法的工作过程如下:
1、分词,将给定的语句进行分词,得到有效的特征向量,然后为每一个特征向量设置权重,在实施时,特征向量为语句中的词,其权重可以是该词出现的次数。例如客户问题是:“这个保险费用多少,保险标的是多少”,分词后为:“这个、保险、费用、多少、标的、是”。以标准问库中包括第二标准问题为例,第二标准问题为“保险费用是多少,保险标的能保多少”,分词后为:“保险、费用、是、多少、标的、能保”。然后为每个特征向量赋予权值,例如客户问题赋予权值后为:这个(1)、保险(2)、费用(1)、多少(2)、标的(1)、是(1)。第二标准问题赋予权值后为:保险(2)、费用(1)、是(1)、多少(2)、标的(1)、能保(1)。
2、hash,通过hash函数计算各个特征向量的hash值,hash值为二进制格式,例如保险的hash值Hash(保险):100101,标的的hash值Hash(标的):101011。
3、加权,在hash值的基础上,给所有特征向量进行加权,加权W=Hash*weight,其中,遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘,例如“保险”的hash值加权得到:2 -2 -2 2 -2 2,“标的”的hash值加权得到:1 -1 1 -1 1 1。
4、合并,将上述各个特征向量的加权结果累加得到一个序列串,例如客户问题的序列串为:7 -7 1 -1 1 -7,而第二标准问题的序列串为:9 -9 1 1 1 -9。
5、降维,对于序列串,如果大于0则置1,否则置0,从而得到该语句的simhash值,例如上述序列串“7 -7 1 -1 1 -7”降维得到simhash值为:“101010”,序列串“9 -9 1 1 1 -9”降维得到simhash值为:“101110”。
6、计算海明距离,将两个语句的simhash值进行异或,异或后得到1的个数即为海明距离,例如客户问题的simhash值为:101010,而第二标准问题的simhash值为:101110,异或后得到:000100,则计算得到客户问题和第二标准问题之间的海明距离为1,系统可以将海明距离小于预设距离阈值的标准问题确定与客户问题语义相关,例如预设距离阈值为3,则从标准问库中提取与客户问题海明距离小于或小于等于3的标准问题作为与客户问题语义相关的标准问题,若标准问库中的所有标准问题与客户问题的海明距离都大于3时,提取标准问库中与客户问题海明距离最小的一个标准问题。需要说明的是,上述客户问题和标准问题的序列串和simhash值为举例说明,实际实施过程中,其数值还可以是其他数值。
系统从标准问库中获取至少两个标准问题之后,获取各个标准问题的相似度得分,在实施时,相似度得分是匹配模型从标准问库中提取各标准问题时计算生成的与客户问题的相似度度量得分,例如上述的句子a和句子b之间的文本相似度为0.7,然后从各标准问题中筛选出相似度得分最高的标准问题作为目标标准问题。
S1300、获取预设的应答话术库中与目标标准问题相对应的问题应答话术,并输出至客服终端。
应答话术库中包括多个应答话术,且各应答话术与标准问库中的各标准问题一一对应,在实施时,应答话术库可以由易答销售助手提供,在此不再赘述。在一些实施例中,系统设置有问答数据列表,应答话术库中各应答话术与各标准问题的映射关系保存在该问答数据列表中,系统通过问答数据列表即可获取目标标准问题的和应答话术的映射关系,然后根据该映射关系从应答话术库中提取与目标标准问题相对应的问题应答话术,然后将该问题应答话术输出至对应的客服坐席的客服终端并通过客服终端展示给客服人员,在实施时,问题应答话术包括对客户问题的答复话术以及问题引导等,从而辅助客服人员进行客户咨询答复,能有效提高客户应答效率和销售效率。
本申请实施例提供一种标准问识别方法,在与客户通话过程中获取客户提问的客户问题,然后通过预设的匹配模型从标准问库中召回对应的至少两个标准问题,包括分别与客户问题字面相关和语义相关的至少一个标准问题,并将召回的至少两个标准问题进行排序,从而筛选出相似度得分最高的目标标准问题,然后从预设的应答话术库中查找与将该目标标准问题对应的问题应答话术输出给客服终端,辅助客服人员对用户提问的问题进行答复和引导,问题应答话术与客户问题的相似度最高,能有效提高客户问题的识别准确率。
在一些可选实施例中,如图7所示,匹配模型包括召回模块和排序模块,请参阅图2,图2是本申请一个实施例查找目标标准问题的流程示意图。
如图2所示,通过预设的匹配模型从预设的标准问库中筛选出与客户问题相对应的至少两个标准问题,并获取至少两个标准问题中相似度得分最高的目标标准问题的步骤包括S1210-S1230。
S1210、通过召回模块从标准问库中筛选出与客户问题相对应的至少两个标准问题;
召回模块用于从标准问库中快速筛选出至少两个和客户问题相关性最高的标准问题,在实施时,召回模块包括ETL模块、召回池(包含各种召回策略)、召回池二级缓存和规则过滤器服务,其中,ETL模块可以采用AWS弹性云计算服务,针对海量数据进行处理,提高计算能力。召回模块可以采用多路召回策略,多路召回策略是指采用不同的策略、特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模块使用的策略。
在实施时,召回模块的多路召回策略可以采用并发多线程的方式同时进行,例如,客户问题是:“这件衣服还有小码吗”,可以按照“衣服”和“小码”分别进行召回,例如将标准问库中包含“衣服”和/或“小码”的标准问题全部筛选出来。而对于与客户问题语义相关的标准问题,可以在选择召回策略添加相关业务的特点,例如“衣服”的近义词包括“上衣”、“裤子”“衣裳”,则可以将标准问库中包含“衣服”、“上衣”、“裤子”“衣裳”和/或“小码”的标准问题全部筛选出来。
S1220、通过排序模块根据各标准问题的相似度得分将至少两个标准问题进行排序,得到对应的排序结果;
S1230、根据排序结果,确认至少两个标准问题中相似度得分最高的标准问题为目标标准问题。
在实施时,召回的各标准问题均带有与客户问题对应的相似度得分,排序模块根据该相似度得分对召回的各标准问题进行排序,例如根据相似度得分由高到底进行排序,或者根据相似度得分由低到高进行排序,然后将相似度得分最高的标准问题作为目标标准问题。在一些实施例中,排序模块可以采用Fast Match排序模型或者FastText模型,其中,Fast Match排序模型可以用于QPS(Queries-per-second,每秒查询率)不高的情况下,而FastText模型用于QPS要求很高的情况下,如图9所示,图9示出了Fast Match模型的结构示意图,Fast Match的模型结构在编码阶段使用bert模型对query和doc进行编码,FastMatch中使用Core Matching Model,Core Matching Model的结构如图10所示,通过crossattention+self attention使得query和doc之间以及query内部进行充分的交互,最大限度地保留了bert模型的语义交互特征,提高文本匹配的准确率,且提高计算速度,有效降低时延。
如图11所示,FastText是基于CBOW的文本分类模型,是现有标准问识别分类模型所采用的模型,具有训练和推理速度极快的优点,适用于QPS要求很高的场景。
由于FastText结果带有各个类别的概率值,因此也有对召回的至少两个标准问题的排序功能。按照设定的阈值,筛选出FastText概率值大于阈值的标准问题,并按概率由大到小排序。
对召回的多个标准问题进行排序后,根据排序结果确定相似度得分最高的标准问题,例如按照相似度得分由高到低进行排序,然后将排序第一的标准问题作为目标标准问题。
在一些实施例中,为使召回模块高召回并降低时延,召回模块可以采用es召回模块和语义召回模块并行的方式从标准问库中快速筛选出至少两个与客户问题相关的标准问题,请参与图3,图3是本申请一个实施例召回标准问题的流程示意图。
通过召回模块从标准问库中筛选出与客户问题相对应的至少两个标准问题的步骤包括S1211-S1212。
S1211、通过es召回模块从标准问库中查找与客户问题的字面相关的至少一个标准问题;
es召回模块用于捕捉字面的相似度,例如设置字面匹配阈值,系统遍历标准问库中的各标准问题,并将各标准问题与客户问题进行比对,当标准问题与客户问题的匹配度达到字面匹配阈值时,则提取该标准问题。以字面匹配阈值为95%为例,标准问库中包括n个标准问题,分别为包括标准问题1、标准问题2、标准问题3...标准问题n,系统将客户问题转换为文字信息,然后将文字信息与各标准问题进行文字匹配计算相似度,例如通过上述的余弦相似度算法计算标准问题和客户问题之间的相似度,例如标准问题1与文字信息的相似度为80%,小于字面匹配阈值,则跳过标准问1,将标准问题2与文字信息进行比对,例如当标准问题2与文字信息的相似度为98%,则提取标准问题2,然后继续将标准问题3与文字信息进行比对,例如标准问题3与文字信息的相似度为99%,则提取将标准问3,继续匹配直至标准问题n。若遍历了标准问库中的所有标准问题后,各标准问题与文字信息的相似度均低于字面匹配阈值时,提取相似度最高的标准问题。
S1212、通过语义召回模块从标准问库中查找与客户问题的语义相关的至少一个标准问题。
语义召回模块是基于语义向量的召回模块,语义召回模块用于捕捉语义相关性,在实施时,系统对客户问题进行语义识别,并计算标准问库中各标准问题与客户问题的语义相似度,还是以上述的标准问库中包括n个标准问题为例,分别为包括标准问题1、标准问题2、标准问题3...标准问题n,系统遍历标准问库并提取与客户问题的语义相似度超过语义匹配阈值的标准问题,以语义匹配阈值为90%为例,若标准问题1和客户问题的语义相似度为95%,则提取标准问题1,若标准问题2与客户问题的语义相似度为56%,则跳过标准问题2,若标准问题3与客户问题的语义相似度为70%,则跳过标准问3,继续匹配直至标准问题n。若遍历了标准问库中的所有标准问题后,各标准问题与客户问题的语义相似度均低于语义匹配阈值时,提取语义相似度最高的标准问题。
在一些实施例中,为了进一步提升召回率,可以以开源roberta中文预训练向量为基础,分别使用开源语料和易答对话日志、以文本匹配为目标进行finetune(微调),使用孪生网络将字向量聚合为句向量。在实施时,可以使用基于图的HNSW算法以降低查询的时延,HNSW算法是NSW算法的分层优化,如图8所示,先从稀疏的图上查找,逐渐深入到底层的图。
在实施时,语义召回模块可分为模型训练和模型推理两个步骤。
模型训练:输入包括样本、正例和负例,其中样本、正例、负例均为文本,需要将文本的每个字转换为对应的字向量,本申请中初始字向量使用roberta的中文预训练向量;输出为2维向量,其中,第1维向量表示样本和正例的相似度,第2维向量表示样本和负例的相似度。
训练步骤:通过梯度下降法更新模型参数(包括字向量)。
在模型训练完成后即可进行模型推理,可以得到每一个字的字向量,将全部标准问/相似问的对应句向量提前计算好并存储,句向量由每个字的字向量相加平均之后得到。在推理阶段,计算样本的句向量,然后计算该样本与所有标准问/相似问句向量的cosine相似度。最终,选择相似度最高的前k个作为召回结果,即得到k个标准问题,由于基于字向量和句向量的表示能捕捉字面不相似但语义相似的情况,扩充es召回的结果。例如“我不需要”、“我不需要这个保险”和“我现在不考虑买保险”的语义都是相似的,若只基于es召回模块进行字面相关召回,可能无法召回第二个结果,本申请通过语义召回模块则可以召回多个语义相似的标准问题,提高召回率。
在一些可选实施例中,请参阅图4,图4是本申请一个实施例归一化相似度得分的流程示意图。
如图4所示,通过排序模块根据各标准问题的相似度得分将至少两个标准问题进行排序序的步骤包括S1221-S1223。
S1221、提取通过es召回模块和语义召回模块查找到的各标准问题的相似度度量信息;
S1222、对相似度度量信息进行归一化处理得到各标准问题的相似度得分;
S1223、根据相似度得分对各标准问题由高到低进行排序。
在实施时,es召回模块召回的标准问题和语义召回模块召回的标准问题均带有相似度度量得分,但由于es召回模块使用BM25,而语义召回模块使用cosine相似度,两者的度量函数有所差异,因此需要对得分进行归一化。
在实施时,es召回得分:
设输入文本长度为k,原始得分为s,归一化后得分为sn;
如果k<=2,则sn=s/9;k=3,则sn=s/11;k=4,则sn=s/12;k<=6,则sn=s/16;k<=8,则sn=s/19;k=9,则sn=s/21;否则sn=s/25。最终,如果sn>1,则sn=1。
语义召回得分:cosine函数的域值为[-1,1];
则归一化函数为f(x)=(x+1)/2,x为通过语义召回模召回的标准问题对应的cosine函数的值。
各召回的标准问题的相似度度量得分统一后,即可对es召回模块召回的标准问题和语义召回模块召回的标准问题进行排序,并将相似度最高的标准问题作为目标标准问题,然后从应答话术库中查找与该目标标准问题对应的问题应答话术,并将该问题应答话术输出至对应的客服坐席的终端展示给客服人员,辅助客服人员进行客户沟通和服务。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在一些可选实施例中,如图5所示,本申请还提供一种标准问识别装置,装置包括客户问题获取单元2100、标准问题查找单元2200和话术输出单元2300。
客户问题获取单元2100用于获取与客户通话过程中客户提问的客户问题;
标准问题查找单元2200用于通过预设的匹配模型从预设的标准问库中筛选出与客户问题相对应的至少两个标准问题,并获取至少两个标准问题中相似度得分最高的目标标准问题,其中,至少两个标准问题包括至少一个与客户问题的字面相关的标准问题以及至少一个与客户问题的语义相关的标准问题;
话术输出单元2300用于获取预设的应答话术库中与目标标准问题相对应的问题应答话术,并输出至客服终端。
本申请实施例通过客户问题获取单元2100获取与客户通话过程中客户提问的客户问题,然后标准问题查找单元2200通过预设的匹配模型从标准问库中召回对应的至少两个标准问题,包括至少一个分别与客户问题字面相关和语义相关的标准问题,并将召回的至少两个标准问题进行排序,从而筛选出相似度得分最高的目标标准问题,然后话术输出单元2300将应答话术库中与目标标准问题对应的问题应答话术输出给客服人员,问题应答话术与客户问题的相似度最高,能有效提高客户问题的识别准确率。
在一些实施例中,匹配模型包括召回模块和排序模块,标准问题查找单元包括:
问题召回单元,用于通过召回模块从标准问库中筛选出与客户问题相对应的至少两个标准问题;
问题排序单元,用于通过排序模块根据各标准问题的相似度得分将至少两个标准问题进行排序,得到对应的排序结果;
问题获取单元,用于根据排序结果,确认至少两个标准问题中相似度得分最高的标准问题为目标标准问题。
在一些实施例中,召回模块包括es召回模块和语义召回模块,问题召回单元包括:
es召回子单元,用于通过es召回模块从标准问库中查找与客户问题的字面相关的至少一个标准问题;
语义召回子模块,用于通过语义召回模块从标准问库中查找与客户问题的语义相关的至少一个标准问题。
在一些实施例中,问题排序单元包括:
信息提取子单元,用于提取通过es召回模块和语义召回模块查找到的各标准问题的相似度度量信息;
信息归一化子单元,用于对相似度度量信息进行归一化处理得到各标准问题的相似度得分;
根据相似度得分对各标准问题由高到低进行排序。
本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在一些实施例中,为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
如图6所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种标准问识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种标准问识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图5中客户问题获取单元2100、标准问题查找单元2200和话术输出单元2300的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有标准问识别装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过在获取与客户通话过程中客户提问的客户问题,然后通过预设的匹配模型从标准问库中召回对应的至少两个标准问题,包括至少一个分别与客户问题字面相关和语义相关的标准问题,并将召回的至少两个标准问题进行排序,从而筛选出相似度得分最高的目标标准问题,然后将该目标标准问题对应的问题应答话术输出给客服人员,问题应答话术与客户问题的相似度最高,能有效提高客户问题的识别准确率。
本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例标准问识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种标准问识别方法,其特征在于,包括:
获取与客户通话过程中客户提问的客户问题;
通过预设的匹配模型从预设的标准问库中筛选出与所述客户问题相对应的至少两个标准问题,并获取所述至少两个标准问题中相似度得分最高的目标标准问题,其中,所述至少两个标准问题包括至少一个与所述客户问题的字面相关的标准问题以及至少一个与所述客户问题的语义相关的标准问题;
获取预设的应答话术库中与所述目标标准问题相对应的问题应答话术,并输出至客服终端。
2.根据权利要求1所述的标准问识别方法,其特征在于,所述匹配模型包括召回模块和排序模块,所述通过预设的匹配模型从预设的标准问库中筛选出与所述客户问题相对应的至少两个标准问题,并获取所述至少两个标准问题中相似度得分最高的目标标准问题的步骤包括:
通过所述召回模块从所述标准问库中筛选出与所述客户问题相对应的所述至少两个标准问题;
通过所述排序模块根据各标准问题的相似度得分将所述至少两个标准问题进行排序,得到对应的排序结果;
根据所述排序结果,确认所述至少两个标准问题中相似度得分最高的标准问题为所述目标标准问题。
3.根据权利要求2所述的标准问识别方法,其特征在于,所述召回模块包括es召回模块和语义召回模块,所述通过所述召回模块从所述标准问库中筛选出与所述客户问题相对应的所述至少两个标准问题的步骤,包括:
通过所述es召回模块从所述标准问库中查找与所述客户问题的字面相关的至少一个标准问题;
通过所述语义召回模块从所述标准问库中查找与所述客户问题的语义相关的至少一个标准问题。
4.根据权利要求3所述的标准问识别方法,其特征在于,所述通过所述排序模块根据各标准问题的相似度得分将所述至少两个标准问题进行排序序的步骤,包括:
提取通过所述es召回模块和所述语义召回模块查找到的各标准问题的相似度度量信息;
对所述相似度度量信息进行归一化处理得到各标准问题的相似度得分;
根据相似度得分对各标准问题由高到低进行排序。
5.一种标准问识别装置,其特征在于,所述装置包括:
客户问题获取单元,用于获取与客户通话过程中客户提问的客户问题;
标准问题查找单元,用于通过预设的匹配模型从预设的标准问库中筛选出与所述客户问题相对应的至少两个标准问题,并获取所述至少两个标准问题中相似度得分最高的目标标准问题,其中,所述至少两个标准问题包括至少一个与所述客户问题的字面相关的标准问题以及至少一个与所述客户问题的语义相关的标准问题;
话术输出单元,用于获取预设的应答话术库中与所述目标标准问题相对应的问题应答话术,并输出至客服终端。
6.根据权利要求5所述的标准问识别装置,其特征在于,所述匹配模型包括召回模块和排序模块,所述标准问题查找单元包括:
问题召回单元,用于通过所述召回模块从所述标准问库中筛选出与所述客户问题相对应的所述至少两个标准问题;
问题排序单元,用于通过所述排序模块根据各标准问题的相似度得分将所述至少两个标准问题进行排序,得到对应的排序结果;
问题获取单元,用于根据所述排序结果,确认所述至少两个标准问题中相似度得分最高的标准问题为所述目标标准问题。
7.根据权利要求6所述的标准问识别装置,其特征在于,所述召回模块包括es召回模块和语义召回模块,所述问题召回单元包括:
es召回子单元,用于通过所述es召回模块从所述标准问库中查找与所述客户问题的字面相关的至少一个标准问题;
语义召回子模块,用于通过所述语义召回模块从所述标准问库中查找与所述客户问题的语义相关的至少一个标准问题。
8.根据权利要求7所述的标准问识别装置,其特征在于,所述问题排序单元包括:
信息提取子单元,用于提取通过所述es召回模块和所述语义召回模块查找到的各标准问题的相似度度量信息;
信息归一化子单元,用于对所述相似度度量信息进行归一化处理得到各标准问题的相似度得分;
根据相似度得分对各标准问题由高到低进行排序。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项权利要求所述标准问识别方法的步骤。
10.一种非易失性存储介质,其特征在于,其存储有依据权利要求1至4中任意一项所述的标准问识别方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
CN202110650332.4A 2021-06-10 2021-06-10 标准问识别方法、装置及计算机设备及存储介质 Pending CN113220862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110650332.4A CN113220862A (zh) 2021-06-10 2021-06-10 标准问识别方法、装置及计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110650332.4A CN113220862A (zh) 2021-06-10 2021-06-10 标准问识别方法、装置及计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113220862A true CN113220862A (zh) 2021-08-06

Family

ID=77080213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110650332.4A Pending CN113220862A (zh) 2021-06-10 2021-06-10 标准问识别方法、装置及计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113220862A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153995A (zh) * 2022-02-09 2022-03-08 杭州太美星程医药科技有限公司 医学术语的处理方法、装置、计算机设备和存储介质
CN115470338A (zh) * 2022-10-27 2022-12-13 之江实验室 一种基于多路召回的多场景智能问答方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190243900A1 (en) * 2017-03-03 2019-08-08 Tencent Technology (Shenzhen) Company Limited Automatic questioning and answering processing method and automatic questioning and answering system
CN110263141A (zh) * 2019-06-25 2019-09-20 杭州微洱网络科技有限公司 一种基于bert的客服问答系统
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
CN112214593A (zh) * 2020-11-05 2021-01-12 腾讯科技(深圳)有限公司 问答处理方法、装置、电子设备及存储介质
CN112307048A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112765306A (zh) * 2020-12-30 2021-05-07 金蝶软件(中国)有限公司 智能问答方法、装置、计算机设备和存储介质
CN112906377A (zh) * 2021-03-25 2021-06-04 平安科技(深圳)有限公司 基于实体限制的问答方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190243900A1 (en) * 2017-03-03 2019-08-08 Tencent Technology (Shenzhen) Company Limited Automatic questioning and answering processing method and automatic questioning and answering system
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
CN110263141A (zh) * 2019-06-25 2019-09-20 杭州微洱网络科技有限公司 一种基于bert的客服问答系统
CN112307048A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN112214593A (zh) * 2020-11-05 2021-01-12 腾讯科技(深圳)有限公司 问答处理方法、装置、电子设备及存储介质
CN112765306A (zh) * 2020-12-30 2021-05-07 金蝶软件(中国)有限公司 智能问答方法、装置、计算机设备和存储介质
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112906377A (zh) * 2021-03-25 2021-06-04 平安科技(深圳)有限公司 基于实体限制的问答方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153995A (zh) * 2022-02-09 2022-03-08 杭州太美星程医药科技有限公司 医学术语的处理方法、装置、计算机设备和存储介质
CN115470338A (zh) * 2022-10-27 2022-12-13 之江实验室 一种基于多路召回的多场景智能问答方法和系统

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN109918487A (zh) 基于网络百科全书的智能问答方法和系统
US20220254507A1 (en) Knowledge graph-based question answering method, computer device, and medium
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
US20230130006A1 (en) Method of processing video, method of quering video, and method of training model
US20220261545A1 (en) Systems and methods for producing a semantic representation of a document
CN114780690B (zh) 基于多模态矩阵向量表示的专利文本检索方法及装置
US20230004819A1 (en) Method and apparatus for training semantic retrieval network, electronic device and storage medium
CN112800205B (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN113220862A (zh) 标准问识别方法、装置及计算机设备及存储介质
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN114329225A (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
CN117278675A (zh) 一种基于意图分类的外呼方法、装置、设备及介质
US20210165791A1 (en) Method and apparatus for building a paraphrasing model for question-answering
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN112749554B (zh) 确定文本匹配度的方法、装置、设备及存储介质
CN114818727A (zh) 关键句抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination