CN111444722A

CN111444722A - 基于投票决策的意图分类方法、装置、设备及存储介质

Info

Publication number: CN111444722A
Application number: CN202010149506.4A
Authority: CN
Inventors: 马跃
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-24

Abstract

本发明涉及人工智能领域，公开了一种基于投票决策的意图分类方法、装置、设备及存储介质，能够提高意图分类的便捷性。本发明方法包括：对待处理文本进行关键词提取，获得目标关键词，所述待处理文本用于指示输入的咨询信息；将所述目标关键词作为索引检索预置的历史文本，得到与所述目标关键词对应的候选历史文本，所述历史文本用于指示在接收所述待处理文本之前数据库中存储的咨询信息；通过基于深度学习的模板语义相似度算法和句法相似度算法计算所述候选历史文本的得分；根据所述得分对所述候选历史文本进行排序和投票决策，得到目标历史文本，获取所述目标历史文本中预标记的意图类别，将所述意图类别作为所述待处理文本的目标意图类别。

Description

基于投票决策的意图分类方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及基于投票决策的意图分类方法、装置、设备及存储介质。

背景技术

意图分类是人机对话领域的一个重要组成部分，在人机交互系统，对于用户的输入内容均需意图分类系统进行判别分类，并将用户的输入内容分类到准确的意图，才能进行后续的任务。意图分类系统决定了整个人机对话系统的上限，因此，提高意图分类系统的普适性和鲁棒性，能够大幅度提高人机对话系统的服务质量以及提高用户的满意度。

目前业内的系统主要基于有监督的机器学习模型来进行意图分类，但是在实际应用过程中存在以下不足：采用监督的机器学习模型时，对于每个意图类别都需要有大量的标注语料；在新增加意图类别时，需要进行额外的模型训练才可进行意图识别处理，因而，导致进行意图分类的便捷性低。

发明内容

本发明提供了一种基于投票决策的意图分类方法、装置、设备及存储介质，旨在提高意图分类的便捷性。

本发明实施例的第一方面提供一种基于投票决策的意图分类方法，包括：

对待处理文本进行关键词提取，获得目标关键词，所述待处理文本用于指示输入的咨询信息；

将所述目标关键词作为索引检索预置的历史文本，得到与所述目标关键词对应的候选历史文本，所述历史文本用于指示在接收所述待处理文本之前数据库中存储的咨询信息；

通过基于深度学习的模板语义相似度算法和句法相似度算法计算所述候选历史文本的得分；

根据所述得分对所述候选历史文本进行排序和投票决策，得到目标历史文本，获取所述目标历史文本中预标记的意图类别，将所述意图类别作为所述待处理文本的目标意图类别。

可选的，在本发明实施例第一方面的第一种实现方式中，所述根据所述得分对所述候选历史文本进行排序和投票决策，得到目标历史文本，获取所述目标历史文本中预标记的意图类别，将所述意图类别作为所述待处理文本的目标意图类别，包括：

将得分作为候选历史文本对应的意图类别的权重值；

根据所述权重值按照从大到小的顺序对所述候选历史文本进行排序，得到排序历史文本；

获取在预设排位范围内的排序历史文本，得到候选排序历史文本；

对所述候选排序历史文本进行加权计算，并将加权计算所得的值最大的候选排序历史文本作为目标历史文本；

获取所述目标历史文本中的标签信息，识别所述标签信息中预标记的意图类别，并将所述意图类别作为所述待处理文本的目标意图类别。

可选的，在本发明实施例第一方面的第二种实现方式中，所述对待处理文本进行关键词提取，获得目标关键词之前，所述基于投票决策的意图分类方法还包括：

获取初始历史文本，并对所述初始历史文本进行关键词提取，得到初始关键词；

通过倒排索引算法创建所述初始关键词和所述初始历史文本之间的对应关系，得到历史文本。

可选的，在本发明实施例第一方面的第三种实现方式中，所述将所述目标关键词作为索引检索预置的历史文本，得到与所述目标关键词对应的候选历史文本，包括：

将所述目标关键词作为索引，根据所述索引和所述对应关系对所述历史文本进行检索，得到第一集合；

根据所述目标关键词对所述待处理文本和所述历史文本进行语义匹配，得到第二集合；

将所述第一集合与所述第二集合进行并集处理，得到候选历史文本。

可选的，在本发明实施例第一方面的第四种实现方式中，所述将所述目标关键词作为索引，根据所述索引和所述对应关系对所述历史文本进行检索，得到第一集合，包括：

根据所述初始关键词、所述对应关系和所述历史文本创建索引树形结构；

将所述目标关键词作为索引，根据所述索引遍历所述索引树形结构，获得第一集合。

可选的，在本发明实施例第一方面的第五种实现方式中，所述通过基于深度学习的模板语义相似度算法和句法相似度算法计算所述候选历史文本的得分，包括：

通过双语评估替换分数BLEU算法计算所述待处理文本与所述候选历史文本之间的句法相似度，获得字表相似分数；

通过预置孪生神经网络计算所述待处理文本与所述候选历史文本之间的语义相似分数；

根据预设权重比例计算所述字表相似分数和所述语义相似分数的加权平均值，获得所述候选历史文本的得分。

可选的，在本发明实施例第一方面的第六种实现方式中，所述通过预置孪生神经网络计算所述待处理文本与所述候选历史文本之间的语义相似分数，包括：

通过预置长短期记忆神经网络模型分别对所述待处理文本与所述候选历史文本进行语义编码，对应得到第一编码信息和第二编码信息；

计算所述第一编码信息和所述第二编码信息之间的余弦距离值，将所述余弦距离值作为所述待处理文本与所述候选历史文本之间的语义相似分数。

本发明实施例的第二方面提供一种用于基于投票决策的意图分类装置，具有实现对应于上述第一方面提供的基于投票决策的意图分类方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述单元可以是软件和/或硬件。

所述基于投票决策的意图分类装置包括：

提取模块，用于对待处理文本进行关键词提取，获得目标关键词，所述待处理文本用于指示输入的咨询信息；

检索模块，用于将所述目标关键词作为索引检索预置的历史文本，得到与所述目标关键词对应的候选历史文本，所述历史文本用于指示在接收所述待处理文本之前数据库中存储的咨询信息；

计算模块，用于通过基于深度学习的模板语义相似度算法和句法相似度算法计算所述候选历史文本的得分；

决策模块，用于根据所述得分对所述候选历史文本进行排序和投票决策，得到目标历史文本，获取所述目标历史文本中预标记的意图类别，将所述意图类别作为所述待处理文本的目标意图类别。

可选的，在本发明实施例第二方面的第一种实现方式中，所述决策模块具体用于：

将得分作为候选历史文本对应的意图类别的权重值；

可选的，在本发明实施例第二方面的第六种实现方式中，所述基于投票决策的意图分类装置还包括：

获取模块，用于获取初始历史文本，并对所述初始历史文本进行关键词提取，得到初始关键词；

创建模块，用于通过倒排索引算法创建所述初始关键词和所述初始历史文本之间的对应关系，得到历史文本。

可选的，在本发明实施例第二方面的第二种实现方式中，所述检索模块包括：

检索单元，用于将所述目标关键词作为索引，根据所述索引和所述对应关系对所述历史文本进行检索，得到第一集合；

语义匹配单元，用于根据所述目标关键词对所述待处理文本和所述历史文本进行语义匹配，得到第二集合；

并集处理单元，用于将所述第一集合与所述第二集合进行并集处理，得到候选历史文本。

可选的，在本发明实施例第二方面的第三种实现方式中，所述检索单元具体用于：

可选的，在本发明实施例第二方面的第四种实现方式中，所述计算模块包括：

第一计算单元，用于通过双语评估替换分数BLEU算法计算所述待处理文本与所述候选历史文本之间的句法相似度，获得字表相似分数；

第二计算单元，用于通过预置孪生神经网络计算所述待处理文本与所述候选历史文本之间的语义相似分数；

第三计算单元，用于根据预设权重比例计算所述字表相似分数和所述语义相似分数的加权平均值，获得所述候选历史文本的得分。

可选的，在本发明实施例第二方面的第五种实现方式中，所述第二计算单元具体用于：

本发明实施例的第三方面提供了一种基于投票决策的意图分类设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述基于投票决策的意图分类方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述任一实施方式所述的基于投票决策的意图分类方法。

相较于现有技术，本发明实施例提供的技术方案中，通过对待处理文本进行关键词提取，获得目标关键词，待处理文本用于指示输入的咨询信息；将目标关键词作为索引检索预置的历史文本，得到与目标关键词对应的候选历史文本，历史文本用于指示在接收待处理文本之前数据库中存储的咨询信息；通过基于深度学习的模板语义相似度算法和句法相似度算法计算候选历史文本的得分；根据得分对候选历史文本进行排序和投票决策，得到目标历史文本，获取所述目标历史文本中预标记的意图类别，将意图类别作为待处理文本的目标意图类别。本发明实施例，通过采用倒排索引算法和关键词对历史文本进行召回，并根据句法相似度算法和基于深度学习的模板语义相似度算法计算召回的历史文本的得分，并对其进行排序和投票处理，得到待处理文本的目标意图类别，能够以少量标注样本实现意图类别分类过程，且新增意图类别时无需进行模型训练即可实现对于新增意图类别的分类，提高意图分类的便捷性，而且，一方面，计算相似度过程提供了无监督的计算，在提高意图分类的便捷性的基础上，能够通过深度学习模板匹配计算的模型具有意图类别之间的泛化能力以提高匹配的精确度，以及其可支持无监督方法，可适用于项目初期冷启动场景，另一方面，还可将意图分类问题转化为语义表示计算或其他问题，具有较强的泛化能力。

附图说明

图1为本发明实施例中基于投票决策的意图分类方法的一个实施例示意图；

图2为本发明实施例中基于投票决策的意图分类方法的另一个实施例示意图；

图3为本发明实施例中基于投票决策的意图分类装置的一个实施例示意图；

图4为本发明实施例中基于投票决策的意图分类装置的另一个实施例示意图；

图5为本发明实施例中基于投票决策的意图分类设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于投票决策的意图分类方法、装置、设备及存储介质，用于提高意图分类的便捷性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本发明中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

请参阅图1，本发明实施例提供的一种基于投票决策的意图分类方法的流程图，以下对本发明提供一种基于投票决策的意图分类方法进行举例说明，该方法由计算机设备执行，计算机设备可为服务器或者终端，本发明不对执行主体的类型作限制，具体包括：

101、对待处理文本进行关键词提取，获得目标关键词，待处理文本用于指示输入的咨询信息。

服务器通过自然语言处理技术对待处理文本进行分词处理，并根据预设分词过滤规则对分词进行过滤，获得最终的待处理文本对应的目标关键词。其中，服务器接收输入的音视频数据、图像数据或文本数据后，对该音视频数据、图像数据或文本数据进行数据预处理，得到待处理文本；数据预处理包括数据清理处理、数据集成处理、数据变换处理和数据规约处理。通过中文分词工具根据依存句法分析算法或语义依存分析算法和预设分词规则进行分词操作，得到最小长度的分词。预设分词过滤规则可包括通过停用词表对分词进行过滤和通过对应的业务领域实体词典对分词进行实体词匹配。获取待处理文本的目标关键词，以便于后续对历史文本的有效检索。

进一步地，上述步骤101可以包括：通过预置分词工具对待处理文本进行分词处理，获得初始分词，待处理文本用于指示输入的咨询信息；通过预置停用词表分别对初始分词进行过滤处理，获得候选分词；通过分别计算候选分词的重要程度值，获得候选关键词，重要程度值为候选分词在对应的业务领域语料中的词频-逆文本频率指数IDF值；对候选关键词进行业务领域词典的实体词匹配处理，获得目标关键词。

例如：待处理文本为“请问一下，我曾经得过心脏病，还可以进行投保吗？”，使用分词工具(中文分词工具可为结巴分词、ansj分词、哈工大ltp分词或自研制的分词工具)进行对待处理文本进行分词处理，得到初始分词“请问/一下/，/我/曾经/得过/心脏病/，/还/可以/进行/投保/吗/？”，利用预置停用词表(停用词表一般为公开的中文停用词表，包括语气词、无意词、标点等没有实际意义的词语)进行过滤，得到候选分词“曾经/得过/心脏病/进行/投保”，匹配对应的业务领域语料-寿险领域语料和业务领域词典-寿险领域词典，计算候选分词在寿险领域语料中的IDF值(即重要程度值)，根据重要程度值对候选分词进行过滤处理，可以判定“心脏病/投保”属于重要词语，获得候选关键词，利用寿险领域词典对候选关键词进行实体词匹配，“心脏病”属于实体词，最终取“心脏病/投保”和“心脏病”的并集“心脏病/投保”作为最终的目标关键词。

102、将目标关键词作为索引检索预置的历史文本，得到与目标关键词对应的候选历史文本，历史文本用于指示在接收待处理文本之前数据库中存储的咨询信息。

服务器通过将目标关键词作为索引，根据索引以及历史文本中的关键词和历史文本之间的映射关系对历史文件进行匹配召回，从而获得候选历史文本。通过根据目标关键词对历史文本进行召回，能够实现不需要每个意图类别对应大量的标注语料，且在新增意图类别时，对于新增的意图类别，不需要进行额外训练，只需通过召回方式将新增意图类别的索引写入索引库中，无需模型训练即可上线，提高了操作的便捷性和效率。

进一步地，上述步骤102可以包括：将目标关键词作为索引，根据索引和对应关系对历史文本进行检索，得到第一集合；根据目标关键词对待处理文本和历史文本进行语义匹配，得到第二集合；将第一集合与第二集合进行并集处理，得到候选历史文本。

服务器通过预置的搜索引擎Elastic Search根据目标关键词的字形组成和对应关系对历史文本进行匹配，实现目标关键词的浅层字面匹配召回。并通过目标关键词的词向量信息和通过该词向量信息在索引中检索与目标关键词相近的初始关键词，获取与初始关键词对应的历史文本，进行补充召回，实现语义匹配，提高召回率和准确率。其中，服务器通过Word2vec模型分别获取第一关键词的第一词向量和第二关键词的第二词向量；服务器计算第一词向量和第二词向量的相似度，获得相似值；服务器将相似值大于或等于第一预设阈值的历史文本作为第二集合。例如：目标关键词为“百万任我行/赔偿/例子”，通过搜索引擎Elastic Search根据“百万任我行”进行直接的索引检索，获得第一集合，获取“赔偿”和“例子”的词向量，以及初始关键词的词向量，通过计算词向量相似度获得第二集合。

进一步地，上述的目标关键词作为索引，根据所述索引和所述对应关系对所述历史文本进行检索，得到第一集合，具体包括：根据初始关键词、对应关系和历史文本创建索引树形结构；将目标关键词作为索引，根据索引遍历索引树形结构，获得第一集合。

服务器通过预置的搜索引擎工具根据初始关键词、对应关系和历史文本创建索引树形结构，以便于快速而有效地进行检索。其中，该索引树形结构可为二叉树或B+树。索引可为唯一索引，以防止添加将在索引表中创建重复键值的新数据；索引也可为索引列，以便于同时有效地对索引树形结构中多个数据或多列数据进行检索；索引也可为聚集索引，以对索引树形结构进行快速访问以及多途径检索。

103、通过基于深度学习的模板语义相似度算法和句法相似度算法计算候选历史文本的得分。

服务器通过基于深度学习的模板语义相似度和句法相似度计算算法对候选历史文本进行综合打分，得到候选历史文本的得分。其中，句法相似度算法主要是利用待处理文本和候选历史文本之间的句子表面词语相似度信息，来衡量两者间的字表相似度，进而得到候选历史文本的得分。基于深度学习的模板语义相似度算法利用孪生神经网络，计算得到待处理文本和候选历史文本之间的语义表示相似度，并基于此来判断待处理文本和候选历史文本之间的是否相同或相似，进而得到候选历史文本的得分。通过采用基于深度学习的模板语义相似度算法和句法相似度算法计算得分，提高匹配的精确度，且可将意图分类问题转换为相似度匹配问题，增强意图类别之间的泛化能力。

进一步地，上述步骤103可以包括：通过双语评估替换分数BLEU算法计算待处理文本与候选历史文本之间的句法相似度，获得字表相似分数；通过预置孪生神经网络计算待处理文本与候选历史文本之间的语义相似分数；根据预设权重比例计算字表相似分数和语义相似分数的加权平均值，获得候选历史文本的得分。

其中，服务器通过双语评估替换分数BLEU算法计算待处理文本与候选历史文本之间的句法相似度，获得字表相似分数，例如：待处理文本“自核未通过怎么办”和候选历史文本“如果自核不通过怎么办”,在只考虑one-gram、bi-gram、tri-gram的情况下“自核未通过怎么办”和“自核操作步骤”的BLEU值高于“自核未通过怎么办”和“自核操作步骤”的BLEU值，通过双语评估替换分数BLEU算法计算待处理文本与候选历史文本之间的句法相似度为0.642，进而获得字表相似分数6.42分，无需模型以及无需提前训练。通过预置孪生神经网络计算待处理文本与候选历史文本之间的语义相似度，可将语义相似度的值作为待处理文本与候选历史文本之间的语义相似分数，也可将语义相似度的值与预置的语义相似分数表进行核对对比，将语义相似度的值在该语义相似分数表中的语义相似度范围值对应的分数作为语义相似分数值，该语义相似分数值为由专家规则或者经过实验验证所设定的指标范围值。

进一步地，上述的通过预置孪生神经网络计算待处理文本与候选历史文本之间的语义相似分数可以包括：服务器通过预置长短期记忆神经网络模型分别对待处理文本与候选历史文本进行语义编码，对应得到第一编码信息和第二编码信息；服务器计算第一编码信息和第二编码信息之间的余弦距离值，将余弦距离值作为待处理文本与候选历史文本之间的语义相似分数。

预置孪生神经网络的底层网络可通过LSTM或CNN的预置长短期记忆神经网络模型来对输入的句子(待处理文本或候选历史文本)进行建模，两个输入(待处理文本和候选历史文本)经过同一个句子编码器分别得到两个句子表示，最上层利用余弦距离来计算待处理文本和候选历史文本之间的语义相似度，从而获得语义相似分数。例如：在使用寿险问答数据训练过的基于LSTM编码器的孪生神经网络中，“自核未通过怎么办”和“如果自核不通过怎么办”在孪生神经网络中的余弦距离值为0.934，语义相似分数为0.934分，“自核未通过怎么办”和“自核手续怎么办”在孪生神经网络中的语义相似度为0.634，余弦距离值为0.634分，“自核未通过怎么办”和“自核操作步骤”在模型中的余弦距离值为0.1183，语义相似分数为0.1183分。

104、根据得分对候选历史文本进行排序和投票决策，得到目标历史文本，获取目标历史文本中预标记的意图类别，将意图类别作为待处理文本的目标意图类别。

服务器通过基于重要性等价对待的预设规则或得分排序的预设规则对候选文本进行投票决策。其中，得分排序的预设规则中，通过判断所述得分是否大于或等于第二预设阈值；若所述得分大于或等于第二预设阈值，则将对应的候选历史文本作为待投票历史文本，并将该候选历史文本的得分作为该候选历史文本对应意图类别的权重值；对待投票历史文本进行累计加权投票处理，获得投票历史文本；将得票数量最多的投票历史文本作为目标历史文本，并将目标历史文本对应的意图类别作为待处理文本的目标意图类别。例如：在得分计算中，可将字表相似分数和语义相似分数的阈值设置为0.5，任何小于0.5的候选历史文本不参与后续排序流程，对于“自核未通过怎么办-如果自核不通过怎么办/A类，0.934”，“自核未通过怎么办-自核不通过咋整/A类，0.869”，“自核未通过怎么办-自核手续怎么办/B类，0.634”，“自核未通过怎么办/自核操作步骤/C类，0.1183”这一结果，则可过滤掉“自核操作步骤”。剩下的待投票历史文本，投票得到A类两票，B类一票，从而将“自核未通过怎么办”的意图类别作为待处理文本的目标意图类别。

进一步地，上述步骤104可以包括：将得分作为候选历史文本对应的意图类别的权重值；根据权重值按照从大到小的顺序对候选历史文本进行排序，得到排序历史文本；获取在预设排位范围内的排序历史文本，得到候选排序历史文本；对候选排序历史文本进行加权计算，并将加权计算所得的值最大的候选排序历史文本作为目标历史文本；获取目标历史文本中的标签信息，识别标签信息中预标记的意图类别，并将意图类别作为待处理文本的目标意图类别。

服务器将得分作为候选历史文本意图类别的权重值，将权重值按照从大到小的顺序对候选历史文本进行排序，得到排序历史文本，对在预设排序的排序历史文本进行加权计算，获取加权计算值最大的排序候选历史文本(即目标历史文本)中的标签信息，识别标签信息中预标记的意图类别，将意图类别作为待处理文本的目标意图类别，其中，服务器预先通过意图识别模型对历史文本进行意图识别得到意图类别，并将历史文本对应的意图类别标记在标签信息中。例如：对排序前两名的排序历史文本进行加权求值，分别为：A排序历史文本的加权计算值为1*0.934+1*0.869＝1.803，B排序历史文本的加权计算值为1*0.634＝0.634，由于1.803大于0.634，因而A排序历史文本的意图类别为待处理文本的目标意图类别。

本发明实施例，通过采用倒排索引算法和关键词对历史文本进行召回，并根据句法相似度算法和基于深度学习的模板语义相似度算法计算召回的历史文本的得分，并对其进行排序和投票处理，得到待处理文本的目标意图类别，能够以少量标注样本实现意图类别分类过程，且新增意图类别时无需进行模型训练即可实现对于新增意图类别的分类，提高意图分类的便捷性，而且，一方面，计算相似度过程提供了无监督的计算，在提高意图分类的便捷性的基础上，不仅能够通过深度学习模板匹配计算的模型具有意图类别之间的泛化能力以提高匹配的精确度，还可适用于项目初期冷启动场景，另一方面，可将意图分类问题转化为语义表示计算或其他问题，具有较强的泛化能力。

请参阅图2，本发明实施例中基于投票决策的意图分类方法的另一个实施例包括：

201、获取初始历史文本，并对初始历史文本进行关键词提取，得到初始关键词。

服务器获取数据库中存储的初始历史文本，该初始历史文本为用户输入的或者从各平台爬取的咨询信息，例如：用户输入的“审核的流程是如何的？”。服务器获取初始历史文本后，可通过采用对待处理文本进行关键词提取获得目标关键词的方法对初始历史文本进行关键词提取，得到初始关键词，可参见上述101的方法，此处不再赘述。

202、通过倒排索引算法创建初始关键词和初始历史文本之间的对应关系，得到历史文本。

服务器通过倒排索引算法中的单词词典和倒排文件组合创建初始关键词和初始关键词对应的初始历史文本之间的对应关系，其中，单词词典内每条索引项记载初始关键词和初始关键词本身的一些信息以及指向“倒排列表”的指针，倒排文件存储倒排索引的物理文件。例如：初始关键词为“百万任我行、理赔和案例”，初始关键词对应的初始历史文本为“我想看看百万任我行的理赔案例”，则通过倒排索引算法创建初始关键词和初始关键词对应的初始历史文本的索引：“百万任我行”-“我想看看百万任我行的理赔案例”、“理赔”-“我想看看百万任我行的理赔案例”、“案例”-“我想看看百万任我行的理赔案例”，得到历史文本。

203、对待处理文本进行关键词提取，获得目标关键词，待处理文本用于指示输入的咨询信息。

204、将目标关键词作为索引检索预置的历史文本，得到与目标关键词对应的候选历史文本，历史文本用于指示在接收待处理文本之前数据库中存储的咨询信息。

205、通过基于深度学习的模板语义相似度算法和句法相似度算法计算候选历史文本的得分。

206、根据得分对候选历史文本进行排序和投票决策，得到目标历史文本，获取目标历史文本中预标记的意图类别，将意图类别作为待处理文本的目标意图类别。

本发明实施例中，203至206的方法可参见101至104，此处不再赘述。

本发明实施例，通过倒排索引算法创建初始关键词和初始历史文本之间的对应关系，得到历史文本，在提高意图分类的便捷性的基础上，不仅能够有利于快速而有效地根据待处理文本的关键词对历史文本进行召回，以及具备较强泛化能力和提高匹配的精确度，还能够在新增意图类别时直接采用新增意图类别对应的关键词进行召回的方式进行新增意图类别的分类，无需进行模型训练即可实现对于新增意图类别的分类。

上面对本发明实施例中基于投票决策的意图分类方法进行了描述，下面对本发明实施例中基于投票决策的意图分类装置进行描述，请参阅图3，本发明实施例中基于投票决策的意图分类装置的一个实施例包括：

提取模块301，用于对待处理文本进行关键词提取，获得目标关键词，待处理文本用于指示输入的咨询信息；

检索模块302，用于将目标关键词作为索引检索预置的历史文本，得到与目标关键词对应的候选历史文本，历史文本用于指示在接收待处理文本之前数据库中存储的咨询信息；

计算模块303，用于通过基于深度学习的模板语义相似度算法和句法相似度算法计算候选历史文本的得分；

决策模块304，用于根据得分对候选历史文本进行排序和投票决策，得到目标历史文本，获取目标历史文本中预标记的意图类别，将意图类别作为待处理文本的目标意图类别。

上述基于投票决策的意图分类装置中各个模块的功能实现与上述基于投票决策的意图分类方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

请参阅图4，本发明实施例中基于投票决策的意图分类装置的另一个实施例包括：

获取模块401，用于获取初始历史文本，并对初始历史文本进行关键词提取，得到初始关键词；

创建模块402，用于通过倒排索引算法创建初始关键词和初始历史文本之间的对应关系，得到历史文本；

提取模块403，用于对待处理文本进行关键词提取，获得目标关键词，待处理文本用于指示输入的咨询信息；

检索模块404，用于将目标关键词作为索引检索预置的历史文本，得到与目标关键词对应的候选历史文本，历史文本用于指示在接收待处理文本之前数据库中存储的咨询信息；

计算模块405，用于通过基于深度学习的模板语义相似度算法和句法相似度算法计算候选历史文本的得分；

决策模块406，用于根据得分对候选历史文本进行排序和投票决策，得到目标历史文本，获取目标历史文本中预标记的意图类别，将意图类别作为待处理文本的目标意图类别。

可选的，检索模块404包括：检索单元，用于将目标关键词作为索引，根据索引和对应关系对历史文本进行检索，得到第一集合；语义匹配单元，用于根据目标关键词对待处理文本和历史文本进行语义匹配，得到第二集合；并集处理单元，用于将第一集合与第二集合进行并集处理，得到候选历史文本。

可选的，检索单元具体用于：根据初始关键词、对应关系和历史文本创建索引树形结构；将目标关键词作为索引，根据索引遍历索引树形结构，获得第一集合。

可选的，计算模块405包括：第一计算单元，用于通过双语评估替换分数BLEU算法计算待处理文本与候选历史文本之间的句法相似度，获得字表相似分数；第二计算单元，用于通过预置孪生神经网络计算待处理文本与候选历史文本之间的语义相似分数；第三计算单元，用于根据预设权重比例计算字表相似分数和语义相似分数的加权平均值，获得候选历史文本的得分。

可选的，第二计算单元具体用于：通过预置长短期记忆神经网络模型分别对待处理文本与候选历史文本进行语义编码，对应得到第一编码信息和第二编码信息；计算第一编码信息和第二编码信息之间的余弦距离值，将余弦距离值作为待处理文本与候选历史文本之间的语义相似分数。

可选的，决策模块406具体用于：将得分作为候选历史文本对应的意图类别的权重值；根据权重值按照从大到小的顺序对候选历史文本进行排序，得到排序历史文本；获取在预设排位范围内的排序历史文本，得到候选排序历史文本；对候选排序历史文本进行加权计算，并将加权计算所得的值最大的候选排序历史文本作为目标历史文本；获取目标历史文本中的标签信息，识别标签信息中预标记的意图类别，并将意图类别作为待处理文本的目标意图类别。

上述基于投票决策的意图分类装置中各个模块和各个单元的功能实现与上述基于投票决策的意图分类方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图3至图4从模块化功能实体的角度对本发明实施例中的基于投票决策的意图分类装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于投票决策的意图分类设备进行详细描述。

图5是本发明实施例提供的一种基于投票决策的意图分类设备的结构示意图，该基于投票决策的意图分类设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储装置)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在基于投票决策的意图分类设备500上执行存储介质508中的一系列指令操作。

基于投票决策的意图分类设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的基于投票决策的意图分类设备结构并不构成对基于投票决策的意图分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器501可以执行上述实施例中获取模块301、创建模块302、提取模块303、检索模块304、计算模块305、决策模块306、获取模块401、创建模块402、提取模块403、检索模块404、计算模块405和决策模块406的功能。

下面结合图5对基于投票决策的意图分类设备的各个构成部件进行具体的介绍：

处理器501是基于投票决策的意图分类设备的控制中心，可以按照基于投票决策的意图分类方法进行处理。处理器501利用各种接口和线路连接整个基于投票决策的意图分类设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行基于投票决策的意图分类设备的各种功能和处理数据，从而实现提高意图分类的便捷性的功能。存储介质508和存储器509都是存储数据的载体，本发明实施例中，存储介质508可以是指储存容量较小，但速度快的内存储器，而存储器509可以是储存容量大，但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块，处理器501通过运行存储在存储器509的软件程序以及模块，从而执行基于投票决策的意图分类设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(对待处理文本进行关键词提取，获得目标关键词等)等；存储数据区可存储根据签到管理设备的使用所创建的数据(将目标关键词作为索引检索预置的历史文本，得到与目标关键词对应的候选历史文本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的基于投票决策的意图分类方法程序和接收到的数据流存储在存储器中，当需要使用时，处理器501从存储器509中调用。

在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于投票决策的意图分类方法，其特征在于，包括：

2.根据权利要求1所述的基于投票决策的意图分类方法，其特征在于，所述根据所述得分对所述候选历史文本进行排序和投票决策，得到目标历史文本，获取所述目标历史文本中预标记的意图类别，将所述意图类别作为所述待处理文本的目标意图类别，包括：

将得分作为候选历史文本对应的意图类别的权重值；

3.根据权利要求1所述的基于投票决策的意图分类方法，其特征在于，所述对待处理文本进行关键词提取，获得目标关键词之前，所述基于投票决策的意图分类方法还包括：

4.根据权利要求3所述的基于投票决策的意图分类方法，其特征在于，所述将所述目标关键词作为索引检索预置的历史文本，得到与所述目标关键词对应的候选历史文本，包括：

5.根据权利要求4所述的基于投票决策的意图分类方法，其特征在于，所述将所述目标关键词作为索引，根据所述索引和所述对应关系对所述历史文本进行检索，得到第一集合，包括：

6.根据权利要求1所述的基于投票决策的意图分类方法，其特征在于，所述通过基于深度学习的模板语义相似度算法和句法相似度算法计算所述候选历史文本的得分，包括：

7.根据权利要求6所述的基于投票决策的意图分类方法，其特征在于，所述通过预置孪生神经网络计算所述待处理文本与所述候选历史文本之间的语义相似分数，包括：

8.一种基于投票决策的意图分类装置，其特征在于，所述装置包括：

9.一种基于投票决策的意图分类设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于投票决策的意图分类方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的基于投票决策的意图分类方法。