CN109657232A - 一种意图识别方法 - Google Patents
一种意图识别方法 Download PDFInfo
- Publication number
- CN109657232A CN109657232A CN201811368515.1A CN201811368515A CN109657232A CN 109657232 A CN109657232 A CN 109657232A CN 201811368515 A CN201811368515 A CN 201811368515A CN 109657232 A CN109657232 A CN 109657232A
- Authority
- CN
- China
- Prior art keywords
- text
- similarity
- word
- semantic
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims description 94
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种意图识别方法,其中,该方法包括:获取用户的回答文本;将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果;将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果;根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图。本申请实施例通过多种相似度模型,将获取的用户的回答文本与标准文本进行相似度的比较,并最终识别用户的回答文本的意图,提高了意图识别的准确度和效率。
Description
技术领域
本申请涉及数据处理分析技术领域,具体而言,涉及一种意图识别方法。
背景技术
在金融业领域,针对逾期客户的债务催收,一般通过业务人员人工上门催收或人工电话催收。这些方式需要投入较大的人力和资金,效率较低。同时在人工进行催收的过程中,难以把握每个催收人员的话术标准和服务态度。
发明内容
有鉴于此,本申请实施例的目的在于提供一种意图识别方法,能够通过使用多种相似度模型融合,较为精确的识别用户意图,提高金融催收的效率和服务质量。
第一方面,本申请实施例提供了一种意图识别方法,其中,获取用户的回答文本;
将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果;
将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果;
根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,文本匹配结果包括第一文本相似度和第二文本相似度;
所述将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果,包括:
通过第一文本相似度模型,将所述回答文本中所包含的词汇与所述预设的标准文本中所包含的词汇进行匹配,以生成所述文本匹配结果中的第一文本相似度;
通过第二文本相似度模型,将所述回答文本所对应的第一词频向量与所述预设的标准文本所对应的第二词频向量进行匹配,以生成所述文本匹配结果中的第二文本相似度。
结合第一方面第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,语义匹配结果包括第一语义相似度和第二语义相似度;所述将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果,包括:
将所述回答文本输入到所述语义识别模型中,以生成第一词语义向量;使用余弦相似度算法,计算所述第一词语义向量对应的所述第一语义相似度;
计算第一词语义向量与所述预设的标准文本所对应的第二词语义向量的词移距离,以确定所述第二语义相似度。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图,包括:
基于所述第一文本相似度、第二文本相似度、第一语义相似度、第二语义相似度以及对应的各个权值,生成意图相似度,以确定所述回答文本的行为意图。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述通过第一文本相似度模型,将所述回答文本中所包含的词汇与所述预设的标准文本中所包含的词汇进行匹配,以生成所述文本匹配结果中的第一文本相似度,包括:
获取所述回答文本的第一词汇集合和所述预设的标准文本的第二词汇集合;
分别确定所述第一词汇集合和所述第二词汇集合的并集和交集;
将所述并集和交集的比值作为所述第一文本相似度。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述通过第二文本相似度模型,将所述回答文本所对应的第一词频向量与所述预设的标准文本所对应的第二词频向量进行匹配,以生成所述文本匹配结果中的第二文本相似度,包括:
获取所述回答文本中的目标词汇在对应的所述回答文本中出现的频率;
根据所述目标词汇在对应的所述回答文本中出现的频率,生成所述回答文本的第一词频向量;
计算所述第一词频向量与所述预设的标准文本对应的第二词频向量的相似度,以生成所述第二文本相似度。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述使用余弦相似度算法,计算所述第一词语义向量对应的所述第一语义相似度,包括:
基于每个所述目标词汇对应的第一词语义向量,生成所述第一词语义向量的逆文本频率指数;
根据每个所述第一词语义向量和所述第一词语义向量的逆文本频率指数,生成所述回答文本对应的第一句语义向量;
计算所述回答文本对应的的第一句语义向量与预设的标准文本对应的第二句语义向量的相似度,以生成所述第一语义相似度值。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述计算第一词语义向量与所述预设的标准文本所对应的第二词语义向量的词移距离,以确定所述第二语义相似度,包括:
计算每一个所述第一词语义向量与所述预设回答文本中的所述第二词语义向量之间的参考距离;
对所述参考距离进行求和,以确定所述第二语义相似度。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种意图识别方法,首先获取用户的回答文本,其次将获取的回答文本与预设的标准文本进行匹配,以生成文本匹配结果,同时,将获取的回答文本输入到语义识别模型,以生成语义匹配结果,最后,根据所述文本匹配结果和语义匹配结果,确定回答文本的行为意图。本申请通过多个相似度模型计算用户的回答文本和预设的标准文本的相似度,并利用最终得到的文本匹配结果和语义匹配结果确定用户的回答文本的意图,提高了对用户意图识别的准确性,并提高了识别效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种意图识别方法的流程图;
图2示出了本申请实施例所提供的另一种意图识别方法的流程图;
图3示出了本申请实施例所提供的一种意图识别装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
意图识别是通过分类的方法,将自然语句的实际含义分配到相应的意图种类中。意图识别在搜索、推荐等各个领域都有较为广泛的应用。尤其是在金融领域中,对于逾期客户的债务催收,传统的方法是通过人工上门催收或人工电话催收,需要大量的劳动力和资金。同时,在人工催收的过程中,难以把握每个催收人员的话术标准和服务态度。
基于上述问题,利用机器人进行催收成为一种高可行性的替代方案,在降低成本的同时,也可以保证催收话术的一致性和高标准的服务质量。但是在机器人智能催收的多轮对话中,机器人不仅仅要讲标准的既定话术,同时也要根据用户的回答,识别出用户的说话意图,并根据用户的意图,智能的调整对话流程策略,以完成整体的催收流程。因此,对用户的回答文本的意图识别是整个多轮对话催收流程中最重要的一环。
基于此,本申请提供的一种意图识别方法,可以较为精确的识别用户意图。如图1所示,首先对本申请实施例所公开的一种意图识别方法进行详细介绍。
S101,获取用户的回答文本。
这里,获取的用户的回答文本一般是指在金融催收多轮对话领域中,根据金融产品的特点而涉及的可能的话术。利用机器人以可能的标准问题为起始,以问题引导的方式对用户进行问题的询问,并将用户针对询问的问题的回答文本进行存储。
用户的回答文本可以是通过将用户的回答语音转化为回答文本,经将用户的回答文本进行存储。将前期通过人工催收获取的语料进行人工标注,对于催收流程中每个问题的回答,都有相应种类的意图分类,将标注好的带有标签的回答文本,进行预处理。
预处理首先是对回答文本进行分词,然后由于回答文本的语料的长度是短文本,不进行去除停用词处理,以免影响数据内容的完整性和准确性。同时,对回答文本进行去除标点符号处理,在切词时,标点符号会单独切出并进行过滤。
S102,将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果。
这里,预设的标准文本一般是指针对金融催收领域的涉及的询问的问题,从以往人工催收的用户的回答的语料中,选择具有代表性的,制作成语料库。同时,对这些预设的标准文本进行分类,对每一个预设的标准文本进行人工标识,将与预设的标准文本对应的用户意图标识在每一个预设的标注文本上。用户意图可以是积极协商、承诺还款、拒绝还款、还款完毕、询问金额和询问姓名等金融催收领域中可能涉及的意图种类。
其中,将获取的回答文本与预设的标准文本进行匹配,生成的文本匹配结果包括第一文本相似度和第二文本相似度。第一文本相似度和第二文本相似度所指的文本相似度主要是指回答文本和标准文本在文本上的相似度,比如目标词语是否相同,是否存在字词上的不同。
其中,通过第一文本相似度模型,将回答文本中所包含的词汇与预设的标准文本中所包含的词汇进行匹配,以生成文本匹配结果中的第一文本相似度。通过第二文本相似度模型,将回答文本所对应的第一词频向量与预设的标准文本对应的第二词频向量进行匹配,以生成文本匹配结果中的第二文本相似度。
具体的,第一文本相似度主要是通过第一文本相似度模型来实现。第一文本相似度模型主要是指为了计算第一文本相似度而采用的一系列算法。这里,所使用的第一文本相似度模型主要是杰卡德相似系数(Jaccard Similarity)算法。首先获取回答文本中的所有词汇的第一词汇集合,同时,获取预设的标准文本的第二词汇集合。其次,分别计算第一词汇集合和第二词汇集合的并集和交集,并对得到的并集和交集进行比值计算,以计算杰卡德相似系数,即第一文本相似度。如公式1所示,N(u)为回答文本中的第一词汇集合,N(v)为预设的标准文本中的第二词汇集合,ωuv为第一文本相似度,ωuv的值越大,回答文本和预设的标准文本的重合度越高,相似度也越高。
在确定第二文本相似度前,首先要获取回答文本对应的第一词频向量。其中,第二文本相似度模型主要是指根据词袋模型(Bag of words)来计算相似度的一些列算法。具体的,首先获取回答文本中的目标词汇对应的在回答文本中出现的频率。目标词汇主要是指将回答文本进行分词后得到的各个词汇。对分词后的回答文本进行词频及逆文本频率指数(TF-IDF,term frequency–inverse document frequency)计算。其中,TF-IDF是用以评估目标词汇对于一个文件集或一个语料库中的其中一份文件的重要程度。目标词汇的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。目标词汇在一篇文章中出现的次数越多,同时在所有文档中出现次数越少,越能够代表该文本。这里,使用TF-IDF算法对目标词汇进行计算,以判断目标词汇与用户的意图的相关性。其中,如果出现生僻词是一个文件集或一个语料库中没有的,对生僻词的IDF值进行处理。如公式2所示,为对IDF值进行平滑的方法。其中,N为语料库中的文档总数,N(x)为包含目标词汇的文档数。某一文档中的高频词语,以及该词语在整个文档集合中的低文件频率,可以产生高权重的TF-IDF值,因此,TF-IDF倾向于过滤掉常见词,保留重要词语。
在获取了输入的回答文本中目标词汇的频率后,即TF(x)值,将获得的频率转化为该回答文本的第一词频向量,如公式3所示,计算TF-IDF的加权值,从而获得回答文本的TF-IDF的句向量表达。对预设的标准文本也进行同样的处理,得到预设的标准文本的局向量表达。
TF-IDF(x)=TF(x)×IDF(x) 公式3
最后,通过计算两个局向量的余弦相似度,来确定两个文本之间的相似度。如公式4所示,其中,Ai和Bi分别是回答文本对应的句向量和标准文本对应的句向量,cosθ为余弦相似度。通过计算两个句向量的余弦相似度来计算回答文本和标准文本之间的相似度,cosθ的值越小,对应的相似
度越高。
S103,将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果。
这里,将获取的回答文本输入到语义识别模型中,并得到第一词语义向量。其中,语义识别模型可以是深度学习模型Word2Vec模型。通过将与金融催收相关的语料库中的回答文本输入到Word2Vec模型,以获得每一个目标词汇的第一词语义向量。通过Word2Vec模型训练出的第一语义词向量,不仅仅具有目标词汇本身的含义,同时也包含目标词汇与上下文联系的语义。
其中,第一语义相似度和第二语义相似度所包含的语义相似度主要是指回答文本和预设的标准文本在文本语义上的相似性,如两个句子的字面意思是否相近。
具体的,通过语义匹配模型(Semantic Similarity)计算第一语义相似度。首先,计算回答文本中每个目标词汇的IDF值,计算IDF值的具体过程与上述公式2相同。然后对利用word2vec模型得到的第一词语义向量,将词向量进行IDF加权后,生成回答文本对应的第一句语义向量。同时,对预设的标准文本也进行同样的处理,并生成标准文本对应的第二句语义向量。最后,计算第一句语义向量和第二句语义向量的余弦相似度,余弦相似度值越小,对应的相似度越高。
另外,计算第一词语义向量和标准文本对应的第二词语义向量之间的词移距离,并以词移距离的数值来判断回答文本与预设的标准文本的相似度。词移距离算法(WMD,Word Mover’s Distance)主要是利用基于词语义向量获得的在句子的局部共现中学习语义上有意义的词的表示来计算两篇文档的相似度的。WMD算法将两个文本文档的不同描述为一篇文档中嵌入的词移动到达另一个文档中嵌入的词所需的最小距离量。WMD算法可以利用word2vec模型的特性,将文本文档表示为一个嵌入词的加权点云。两个文档A和B之间的距离定义为A中所有的词移动精确匹配到文档B中点云的最小累积距离。WMD算法实际上可以看成文档A转化为文档B所需要付出的总代价,词与词之间的移动代价由语义距离决定。
具体的,将回答文本中去除停用词后,计算其他目标词汇得到的第一词语义向量与第二词语义向量的参考距离,并对参考距离进行求和,以确定第二语义相似度。比如,比较回答文本Obama speaks to media in Illinois和预设的标准文本The Presidentgreets the press in Chicago之间的相似度。其中,去除停用词后,每片文档仅剩下四个词,假设Obama这个词在回答文本中的权重为0.5(权重的计算可以通过计算TF或者TF-IDF来确定),那么“Obama”和“President”的相似度较高,可以位从“Obama”移动到“President”分配较高的权重,如0.4。标准文本中的其它词由于和“Obama”的距离较远,所以会分配更小的权重。要注意的是,由回答文本中的某个词i移动到标准文本中的各个词的权重之和应该与回答文本中的这个词i的权重相等,即“Obama”要把自己的权重0.5分给标准文本中的各个词。同样,标准文本中的某个词j所接受到由回答文本中的各个词所流入的权重之和应该等于词j在标准文本中的权重。
当分别确定完标准文本中的每一个第一词语义向量和标准文本中的每一个第二词语义向量的参考距离后,将确定的参考距离相加的和即为第二语义相似度。
S104,根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图。
这里,文本匹配结果包括第一文本相似度和第二文本相似度,语义匹配结果包括第一语义相似度和第二语义相似度。如图2所示,在获得以上相似度值后,通过使用逻辑回归模型可以将四个相似度结果进行有效的融合,并对文本进行分类,通过逻辑回归模型为四个相似度值动态分配权重,并对权重的置信度进行设置。基于第一文本相似度、第二文本相似度、第一语义相似度、第二语义相似度以及对应的各个权值,生成意图相似度,以确定所述回答文本的行为意图。可以更加精准的对回答文本进行分类,从而识别更加精确的用户的回答意图,以和语料库中的标准文本进行匹配,并选择相对应的回答语音。
采用上述意图识别方法,可以通过多种相似度模型,将获取的用户的回答文本与标准文本进行相似度的比较,并最终识别用户的回答文本的意图。当获取到用户的回答文本以后,根据回答文本的文字和语料库中带有意图标签的预设的标准文本的文字内容进行相似度的匹配,并根据回答文本和预设的标准文本的相似度值的高低来对客户意图进行分类,提高了意图识别的准确度和效率,并根据用户的意图,智能的调整对话流程策略,以完成整体的催收流程,在降低成本的同时,也可以保证催收话术的一致性和高标准的服务质量。
基于同一发明构思,本申请实施例中还提供了与意图识别方法对应的意图识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述意图是被方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。参见图3所示,本申请实施例所提供的一种意图识别装置,其中,包括:
获取模块301,获取用户的回答文本;
第一生成模块302,将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果;
第二生成模块303,将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果;
确定模块304,根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图。
本实施例中,获取模块301、第一生成模块302、第二生成模块303和确定模块304的具体功能和交互方式,可参见图1对应的实施例的记载,在此不再赘述。
如图4所示,为本申请实施例提供的电子设备的装置示意图,该装置包括处理器41、存储器42和总线43,所述存储器42存储执行指令,当所述装置运行时,所述处理器41与所述存储器42之间通过总线43通信,所述处理器41执行所述执行指令使得所述装置执行如下方法:
获取用户的回答文本;
将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果;
将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果;
根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图。
可选地,所述处理器41执行的所述方法中,文本匹配结果包括第一文本相似度和第二文本相似度;
所述将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果,包括:
通过第一文本相似度模型,将所述回答文本中所包含的词汇与所述预设的标准文本中所包含的词汇进行匹配,以生成所述文本匹配结果中的第一文本相似度;
通过第二文本相似度模型,将所述回答文本所对应的第一词频向量与所述预设的标准文本所对应的第二词频向量进行匹配,以生成所述文本匹配结果中的第二文本相似度。
可选地,所述处理器41执行的所述方法中,语义匹配结果包括第一语义相似度和第二语义相似度;
所述将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果,包括:
将所述回答文本输入到所述语义识别模型中,以生成第一词语义向量;
使用余弦相似度算法,计算所述第一词语义向量对应的所述第一语义相似度;
计算第一词语义向量与所述预设的标准文本所对应的第二词语义向量的词移距离,以确定所述第二语义相似度。
可选地,所述处理器41执行的所述方法中,所述根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图,包括:
基于所述第一文本相似度、第二文本相似度、第一语义相似度、第二语义相似度以及对应的各个权值,生成意图相似度,以确定所述回答文本的行为意图。
可选地,所述处理器41执行的所述方法中,所述通过第一文本相似度模型,将所述回答文本中所包含的词汇与所述预设的标准文本中所包含的词汇进行匹配,以生成所述文本匹配结果中的第一文本相似度,包括:
获取所述回答文本的第一词汇集合和所述预设的标准文本的第二词汇集合;
分别确定所述第一词汇集合和所述第二词汇集合的并集和交集;
将所述并集和交集的比值作为所述第一文本相似度。
可选地,所述处理器41执行的所述方法中,所述通过第二文本相似度模型,将所述回答文本所对应的第一词频向量与所述预设的标准文本所对应的第二词频向量进行匹配,以生成所述文本匹配结果中的第二文本相似度,包括:
获取所述回答文本中的目标词汇在对应的所述回答文本中出现的频率;
根据所述目标词汇在对应的所述回答文本中出现的频率,生成所述回答文本的第一词频向量;
计算所述第一词频向量与所述预设的标准文本对应的第二词频向量的相似度,以生成所述第二文本相似度。
可选地,所述处理器41执行的所述方法中,所述使用余弦相似度算法,计算所述第一词语义向量对应的所述第一语义相似度,包括:
基于每个所述目标词汇对应的第一词语义向量,生成所述第一词语义向量的逆文本频率指数;
根据每个所述第一词语义向量和所述第一词语义向量的逆文本频率指数,生成所述回答文本对应的第一句语义向量;
计算所述回答文本对应的的第一句语义向量与预设的标准文本对应的第二句语义向量的相似度,以生成所述第一语义相似度值。
可选地,所述处理器41执行的所述方法中,所述计算第一词语义向量与所述预设的标准文本所对应的第二词语义向量的词移距离,以确定所述第二语义相似度,包括:
计算每一个所述第一词语义向量与所述预设回答文本中的所述第二词语义向量之间的参考距离;
对所述参考距离进行求和,以确定所述第二语义相似度。
对应于图1中的意图识别方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述意图识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述意图识别方法,从而解决识别用户意图的问题,进而达到提高识别用户意图的准确性,并提升金融催收效率。
本申请实施例所提供的一种意图识别方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种意图识别方法,其特征在于,包括:
获取用户的回答文本;
将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果;
将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果;
根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图。
2.根据权利要求1所述的方法,其特征在于,文本匹配结果包括第一文本相似度和第二文本相似度;
所述将获取的所述回答文本与预设的标准文本进行匹配,以生成文本匹配结果,包括:
通过第一文本相似度模型,将所述回答文本中所包含的词汇与所述预设的标准文本中所包含的词汇进行匹配,以生成所述文本匹配结果中的第一文本相似度;
通过第二文本相似度模型,将所述回答文本所对应的第一词频向量与所述预设的标准文本所对应的第二词频向量进行匹配,以生成所述文本匹配结果中的第二文本相似度。
3.根据权利要求2所述的方法,其特征在于,语义匹配结果包括第一语义相似度和第二语义相似度;
所述将获取的所述回答文本输入到语义识别模型,以生成语义匹配结果,包括:
将所述回答文本输入到所述语义识别模型中,以生成第一词语义向量;
使用余弦相似度算法,计算所述第一词语义向量对应的所述第一语义相似度;
计算第一词语义向量与所述预设的标准文本所对应的第二词语义向量的词移距离,以确定所述第二语义相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文本匹配结果和所述语义匹配结果,确定所述回答文本的行为意图,包括:
基于所述第一文本相似度、第二文本相似度、第一语义相似度、第二语义相似度以及对应的各个权值,生成意图相似度,以确定所述回答文本的行为意图。
5.根据权利要求2所述的方法,其特征在于,所述通过第一文本相似度模型,将所述回答文本中所包含的词汇与所述预设的标准文本中所包含的词汇进行匹配,以生成所述文本匹配结果中的第一文本相似度,包括:
获取所述回答文本的第一词汇集合和所述预设的标准文本的第二词汇集合;
分别确定所述第一词汇集合和所述第二词汇集合的并集和交集;
将所述并集和交集的比值作为所述第一文本相似度。
6.根据权利要求2所述的方法,其特征在于,所述通过第二文本相似度模型,将所述回答文本所对应的第一词频向量与所述预设的标准文本所对应的第二词频向量进行匹配,以生成所述文本匹配结果中的第二文本相似度,包括:
获取所述回答文本中的目标词汇在对应的所述回答文本中出现的频率;
根据所述目标词汇在对应的所述回答文本中出现的频率,生成所述回答文本的第一词频向量;
计算所述第一词频向量与所述预设的标准文本对应的第二词频向量的相似度,以生成所述第二文本相似度。
7.根据权利要求3所述的方法,其特征在于,所述使用余弦相似度算法,计算所述第一词语义向量对应的所述第一语义相似度,包括:
基于每个所述目标词汇对应的第一词语义向量,生成所述第一词语义向量的逆文本频率指数;
根据每个所述第一词语义向量和所述第一词语义向量的逆文本频率指数,生成所述回答文本对应的第一句语义向量;
计算所述回答文本对应的的第一句语义向量与预设的标准文本对应的第二句语义向量的相似度,以生成所述第一语义相似度值。
8.根据权利要求3所述的方法,其特征在于,所述计算第一词语义向量与所述预设的标准文本所对应的第二词语义向量的词移距离,以确定所述第二语义相似度,包括:
计算每一个所述第一词语义向量与所述预设回答文本中的所述第二词语义向量之间的参考距离;
对所述参考距离进行求和,以确定所述第二语义相似度。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的一种意图识别的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任意一项所述的一种意图识别的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811368515.1A CN109657232A (zh) | 2018-11-16 | 2018-11-16 | 一种意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811368515.1A CN109657232A (zh) | 2018-11-16 | 2018-11-16 | 一种意图识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109657232A true CN109657232A (zh) | 2019-04-19 |
Family
ID=66110979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811368515.1A Pending CN109657232A (zh) | 2018-11-16 | 2018-11-16 | 一种意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657232A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136699A (zh) * | 2019-07-10 | 2019-08-16 | 南京硅基智能科技有限公司 | 一种基于文本相似度的意图识别方法 |
CN110827822A (zh) * | 2019-12-06 | 2020-02-21 | 广州易来特自动驾驶科技有限公司 | 一种智能语音交互方法、装置、出行终端、设备及介质 |
CN110827807A (zh) * | 2019-11-29 | 2020-02-21 | 恒信东方文化股份有限公司 | 一种语音识别的方法及其系统 |
CN111144905A (zh) * | 2019-12-24 | 2020-05-12 | 泰康保险集团股份有限公司 | 问卷配置方法、系统、计算机设备及计算机可读存储介质 |
CN111368024A (zh) * | 2020-02-14 | 2020-07-03 | 深圳壹账通智能科技有限公司 | 文本语义相似度的分析方法、装置及计算机设备 |
CN111832305A (zh) * | 2020-07-03 | 2020-10-27 | 广州小鹏车联网科技有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN111858865A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111881672A (zh) * | 2020-06-18 | 2020-11-03 | 升智信息科技(南京)有限公司 | 一种意图识别的方法 |
CN112270192A (zh) * | 2020-11-23 | 2021-01-26 | 科大国创云网科技有限公司 | 一种基于词性和停用词过滤的语义识别方法及系统 |
CN112328758A (zh) * | 2020-10-27 | 2021-02-05 | 创泽智能机器人集团股份有限公司 | 一种会话意图识别方法、装置、设备及存储介质 |
CN112328748A (zh) * | 2020-11-11 | 2021-02-05 | 上海昌投网络科技有限公司 | 一种用于保险配置意图识别的方法 |
CN112632234A (zh) * | 2019-10-09 | 2021-04-09 | 科沃斯商用机器人有限公司 | 人机交互方法、装置、智能机器人和存储介质 |
CN112699663A (zh) * | 2021-01-07 | 2021-04-23 | 中通天鸿(北京)通信科技股份有限公司 | 一种基于多种算法结合的语义理解系统 |
CN112836027A (zh) * | 2019-11-25 | 2021-05-25 | 京东方科技集团股份有限公司 | 用于确定文本相似度的方法、问答方法及问答系统 |
CN112949317A (zh) * | 2021-02-26 | 2021-06-11 | 平安普惠企业管理有限公司 | 文本语义识别方法、装置、计算机设备及存储介质 |
CN113190668A (zh) * | 2021-05-19 | 2021-07-30 | 平安国际智慧城市科技股份有限公司 | 基于多轮对话的人机交互方法、装置、设备及存储介质 |
CN113204957A (zh) * | 2021-03-24 | 2021-08-03 | 中国南方电网有限责任公司超高压输电公司广州局 | 缺陷信息处理方法、装置、设备及存储介质 |
CN113470829A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、设备及存储介质 |
CN114154509A (zh) * | 2021-11-26 | 2022-03-08 | 深圳集智数字科技有限公司 | 一种意图确定方法及装置 |
CN114357994A (zh) * | 2022-01-06 | 2022-04-15 | 京东科技信息技术有限公司 | 意图识别处理和置信度判断模型的生成方法及装置 |
CN114490999A (zh) * | 2022-01-26 | 2022-05-13 | 深圳壹账通科技服务有限公司 | 文本匹配方法、装置、终端及存储介质 |
CN114706945A (zh) * | 2022-03-24 | 2022-07-05 | 马上消费金融股份有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN118278817A (zh) * | 2024-04-17 | 2024-07-02 | 广东生态工程职业学院 | 一种基于词移距离的研学旅游效果评价方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
CN107391614A (zh) * | 2017-07-04 | 2017-11-24 | 重庆智慧思特大数据有限公司 | 一种基于wmd的中文问答匹配方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
CN107992470A (zh) * | 2017-11-08 | 2018-05-04 | 中国科学院计算机网络信息中心 | 一种基于相似度的文本查重方法及系统 |
CN108170739A (zh) * | 2017-12-18 | 2018-06-15 | 深圳前海微众银行股份有限公司 | 问题匹配方法、终端和计算机可读存储介质 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
-
2018
- 2018-11-16 CN CN201811368515.1A patent/CN109657232A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
CN107391614A (zh) * | 2017-07-04 | 2017-11-24 | 重庆智慧思特大数据有限公司 | 一种基于wmd的中文问答匹配方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
CN107992470A (zh) * | 2017-11-08 | 2018-05-04 | 中国科学院计算机网络信息中心 | 一种基于相似度的文本查重方法及系统 |
CN108170739A (zh) * | 2017-12-18 | 2018-06-15 | 深圳前海微众银行股份有限公司 | 问题匹配方法、终端和计算机可读存储介质 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858865A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语义识别方法、装置、电子设备及计算机可读存储介质 |
CN110136699A (zh) * | 2019-07-10 | 2019-08-16 | 南京硅基智能科技有限公司 | 一种基于文本相似度的意图识别方法 |
CN112632234A (zh) * | 2019-10-09 | 2021-04-09 | 科沃斯商用机器人有限公司 | 人机交互方法、装置、智能机器人和存储介质 |
CN112836027A (zh) * | 2019-11-25 | 2021-05-25 | 京东方科技集团股份有限公司 | 用于确定文本相似度的方法、问答方法及问答系统 |
CN110827807B (zh) * | 2019-11-29 | 2022-03-25 | 恒信东方文化股份有限公司 | 一种语音识别的方法及其系统 |
CN110827807A (zh) * | 2019-11-29 | 2020-02-21 | 恒信东方文化股份有限公司 | 一种语音识别的方法及其系统 |
CN110827822A (zh) * | 2019-12-06 | 2020-02-21 | 广州易来特自动驾驶科技有限公司 | 一种智能语音交互方法、装置、出行终端、设备及介质 |
CN111144905A (zh) * | 2019-12-24 | 2020-05-12 | 泰康保险集团股份有限公司 | 问卷配置方法、系统、计算机设备及计算机可读存储介质 |
CN111144905B (zh) * | 2019-12-24 | 2023-11-03 | 泰康保险集团股份有限公司 | 问卷配置方法、系统、计算机设备及计算机可读存储介质 |
CN111368024A (zh) * | 2020-02-14 | 2020-07-03 | 深圳壹账通智能科技有限公司 | 文本语义相似度的分析方法、装置及计算机设备 |
CN111881672A (zh) * | 2020-06-18 | 2020-11-03 | 升智信息科技(南京)有限公司 | 一种意图识别的方法 |
CN111832305A (zh) * | 2020-07-03 | 2020-10-27 | 广州小鹏车联网科技有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN111832305B (zh) * | 2020-07-03 | 2023-08-25 | 北京小鹏汽车有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN112328758A (zh) * | 2020-10-27 | 2021-02-05 | 创泽智能机器人集团股份有限公司 | 一种会话意图识别方法、装置、设备及存储介质 |
CN112328748A (zh) * | 2020-11-11 | 2021-02-05 | 上海昌投网络科技有限公司 | 一种用于保险配置意图识别的方法 |
CN112270192A (zh) * | 2020-11-23 | 2021-01-26 | 科大国创云网科技有限公司 | 一种基于词性和停用词过滤的语义识别方法及系统 |
CN112270192B (zh) * | 2020-11-23 | 2023-12-19 | 科大国创云网科技有限公司 | 一种基于词性和停用词过滤的语义识别方法及系统 |
CN112699663A (zh) * | 2021-01-07 | 2021-04-23 | 中通天鸿(北京)通信科技股份有限公司 | 一种基于多种算法结合的语义理解系统 |
CN112949317A (zh) * | 2021-02-26 | 2021-06-11 | 平安普惠企业管理有限公司 | 文本语义识别方法、装置、计算机设备及存储介质 |
CN113204957A (zh) * | 2021-03-24 | 2021-08-03 | 中国南方电网有限责任公司超高压输电公司广州局 | 缺陷信息处理方法、装置、设备及存储介质 |
CN113190668A (zh) * | 2021-05-19 | 2021-07-30 | 平安国际智慧城市科技股份有限公司 | 基于多轮对话的人机交互方法、装置、设备及存储介质 |
CN113470829A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、设备及存储介质 |
CN114154509A (zh) * | 2021-11-26 | 2022-03-08 | 深圳集智数字科技有限公司 | 一种意图确定方法及装置 |
CN114357994A (zh) * | 2022-01-06 | 2022-04-15 | 京东科技信息技术有限公司 | 意图识别处理和置信度判断模型的生成方法及装置 |
CN114490999A (zh) * | 2022-01-26 | 2022-05-13 | 深圳壹账通科技服务有限公司 | 文本匹配方法、装置、终端及存储介质 |
CN114706945A (zh) * | 2022-03-24 | 2022-07-05 | 马上消费金融股份有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN118278817A (zh) * | 2024-04-17 | 2024-07-02 | 广东生态工程职业学院 | 一种基于词移距离的研学旅游效果评价方法及系统 |
CN118278817B (zh) * | 2024-04-17 | 2024-09-06 | 广东生态工程职业学院 | 一种基于词移距离的研学旅游效果评价方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657232A (zh) | 一种意图识别方法 | |
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
CN107977415B (zh) | 自动问答方法及装置 | |
CN102866989B (zh) | 基于词语依存关系的观点抽取方法 | |
CN107329949B (zh) | 一种语义匹配方法和系统 | |
CN109522556A (zh) | 一种意图识别方法及装置 | |
CN109885664A (zh) | 一种智能对话方法、机器人对话系统、服务器及存储介质 | |
CN109190110A (zh) | 一种命名实体识别模型的训练方法、系统及电子设备 | |
CN108763477A (zh) | 一种短文本分类方法及系统 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
WO2015084404A1 (en) | Matching of an input document to documents in a document collection | |
Torki | A document descriptor using covariance of word vectors | |
Alexandridis et al. | A knowledge-based deep learning architecture for aspect-based sentiment analysis | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN114328841A (zh) | 问答模型训练方法及装置、问答方法及装置 | |
Raghu et al. | A statistical approach for non-sentential utterance resolution for interactive QA system | |
CN114942994A (zh) | 文本分类方法、文本分类装置、电子设备及存储介质 | |
CN113672705A (zh) | 简历筛选方法、装置、设备、介质及程序产品 | |
Zhang et al. | Business chatbots with deep learning technologies: State-of-the-art, taxonomies, and future research directions | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN115878790B (zh) | 一种智能问答方法、装置、存储介质及电子设备 | |
KR20150051969A (ko) | 기술 가치를 평가하는 방법 | |
CN109472277A (zh) | 借贷方分类的方法、装置以及存储介质 | |
CN110162614B (zh) | 问题信息提取方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190419 |