CN108763510A

CN108763510A - 意图识别方法、装置、设备及存储介质

Info

Publication number: CN108763510A
Application number: CN201810541814.4A
Authority: CN
Inventors: 郝杰
Original assignee: Beijing 58 Information Technology Co Ltd
Current assignee: Beijing 58 Information Technology Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-06
Anticipated expiration: 2038-05-30
Also published as: CN108763510B

Abstract

本发明公开了一种意图识别方法、装置、设备及存储介质。所述方法包括：从意图数据中确定多粒度特征序列；将所述多粒度特征序列输入到一个或多个词袋语义分析分类器；通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数。本发明提高了多粒度特征序列所包含的信息，进而相对于单一粒度特征序列有效提高了意图识别的效果。

Description

意图识别方法、装置、设备及存储介质

技术领域

本发明涉及网络技术领域，特别是涉及一种意图识别方法、装置、设备及存储介质。

背景技术

自然语言的对话、问答、智能客服、聊天机器人等应用中，用户意图的准确识别和分类是决定应用成功运行的第一步；然后才能针对用户意图，或直接构造答案，或通过多轮对话填充词槽、补足问题后提供答案，最后为用户提供自动化的服务；当然多轮对话的每一轮中，也需要识别用户回答或反问意图。

目前意图识别效果较好的文本分类工具中输入特征比较单一，从而包含的信息有限，因此意图识别、文本分类效果有待于进一步提高。

发明内容

为了克服上述缺陷，本发明要解决的技术问题是提供一种意图识别方法、装置、设备及存储介质，用以至少提高意图识别的效果。

为解决上述技术问题，本发明实施例中的一种意图识别方法，包括：

从意图数据中确定多粒度特征序列；

将所述多粒度特征序列输入到一个或多个词袋语义分析分类器；

通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数。

可选地，所述将所述多粒度特征序列输入到一个词袋语义分析分类器，包括：

将所述多粒度特征序列进行特征融合，得到融合特征序列；

将所述融合特征序列输入到所述一个词袋语义分析分类器。

可选地，通过如下至少一个融合方式，将所述多粒度特征序列进行特征融合：

按时间顺序编排、级联拼接、相加、袋化和向量化。

可选地，所述将所述多粒度特征序列输入到多个词袋语义分析分类器，包括：

为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器；

将各个粒度特征序列分别输入到对应的词袋语义分析分类器。

可选地，所述通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数，包括：

通过多个词袋语义分析分类器，得到多个候选分类标签及相应分数；

将所述多个候选分类标签及相应分数进行分数融合，输出所述候选分类标签及相应融合后的分数。

可选地，通过如下至少一个融合方式，将所述多个候选分类标签及相应分数进行分数融合，包括：

相加、加权、归一化后求最大值、boost、集成ensemble和投票voting。

可选地，所述多粒度特征序列包括以下两种或两种以上特征序列：

笔画序列、字序列、词序列、词性序列、短语序列、命名体标注序列、固定分句或从句序列、句法树标注序列、依存关系序列、同义词序列、近义词序列、关键词序列、核心词序列、停用词序列、最佳匹配序列、编辑距离序列、分词序列、词性序列、命名体序列、短语搭配序列、句法树序列、从句序列以及分句序列。

可选地，所述词袋语义分析分类器包括：

词袋工具BOW、基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。

可选地，所述多个词袋语义分析分类器通过串联和/或并联连接。

可选地，所述从意图数据中确定多粒度特征序列，包括：

获取意图数据；

通过自然语言处理NLP模型解析所述意图数据，生成所述多粒度特征序列；或者，通过预设规则模板匹配所述意图数据，生成所述多粒度特征序列。

为解决上述技术问题，本发明实施例中的一种意图识别装置，包括：

确定模块，用于从意图数据中确定多粒度特征序列；

输入模块，用于将所述多粒度特征序列输入到一个或多个词袋语义分析分类器；

输出模块，用于通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数。

可选地，所述输入模块包括：

第一融合单元，用于将所述多粒度特征序列进行特征融合，得到融合特征序列；

输入单元，用于将所述融合特征序列输入到所述一个词袋语义分析分类器。

可选地，所述第一融合单元，具体用于通过如下至少一个融合方式，将所述多粒度特征序列进行特征融合：

按时间顺序编排、级联拼接、相加、袋化和向量化。

可选地，所述输入模块包括：

选择单元，用于为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器；

输入单元，用于将各个粒度特征序列分别输入到对应的词袋语义分析分类器。

可选地，所述输出模块包括：

输出单元，用于通过多个词袋语义分析分类器，得到多个候选分类标签及相应分数；

第二融合单元，用于将所述多个候选分类标签及相应分数进行分数融合，输出所述候选分类标签及相应融合后的分数。

可选地，所述第二融合单元，具体用于通过如下至少一个融合方式，将所述多个候选分类标签及相应分数进行分数融合，包括：

可选地，所述词袋语义分析分类器包括：

基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。

可选地，所述确定模块，具体用于获取意图数据；通过自然语言处理NLP模型解析所述意图数据，生成所述多粒度特征序列；或者，通过预设规则模板匹配所述意图数据，生成所述多粒度特征序列。

为解决上述技术问题，本发明实施例中的一种意图识别设备，包括存储器和处理器；所述存储器存储有意图识别计算机程序，所述处理器执行所述计算机程序，以实现如上任意一项所述方法的步骤。

为解决上述技术问题，本发明实施例中的一种计算机可读存储介质，存储有意图识别计算机程序，所述计算机程序被至少一个处理器执行时，以实现如上任意一项所述方法的步骤。

本发明有益效果如下：

本发明各个实施例通过从意图数据中确定多粒度特征序列，并将所述多粒度特征序列输入到一个或多个词袋语义分析分类器，从而可以通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数，有效提高了多粒度特征序列所包含的信息，进而相对于单一粒度特征序列有效提高了意图识别的效果。

附图说明

图1是本发明实施例中一种意图识别方法的主流程图；

图2是本发明实施例中一种可选意图识别方法的流程图；

图3是本发明实施例中又一种可选意图识别方法的流程图；

图4是本发明实施例中另一种可选意图识别方法的流程图；

图5是本发明实施例中一种意图识别装置的结构示意图；

图6是本发明实施例中一种意图识别设备的结构示意图。

具体实施方式

为了解决现有技术的问题，本发明提供了一种意图识别方法、装置、设备及存储介质，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

使用用于区分元件的诸如“第一”、“第二”等前缀仅为了有利于本发明的说明，其本身没有特定的意义。

实施例一

本发明实施例提供一种意图识别方法，如图1所示，所述方法包括：

S101，从意图数据中确定多粒度特征序列；

S102，将所述多粒度特征序列输入到一个或多个词袋语义分析分类器(BOWSA，Bag-Of-Words Semantic Analysis)；

S103，通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数。

本发明实施例中意图数据指代待要识别的数据，可以是用户输入的数据。

本发明实施例中每个粒度特征序列拥有自己的颗粒度，或大或小，例如可以小到笔画、字，也可以大到短语、N元语法(N-gram)、分句等级别，还可以是句子或文档中长距离依赖关系，比如依存句法或更大跨度(如从句、分句、甚至句子之间、段落之间)的上下文依赖关系等。

本发明实施例中候选分类标签可以是最佳分类标签、多个候选分类标签及其相应分数；BOWSA分类器也可以称之为BOWSA模型；其中分类标签也可以称之为意图数据的分类标签，表示识别出的与意图数据对应的语义。

本发明实施例通过从意图数据中确定多粒度特征序列，并将所述多粒度特征序列输入到一个或多个词袋语义分析分类器，从而可以通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数，有效提高了多粒度特征序列所包含的信息，进而相对于单一粒度特征序列有效提高了意图识别的效果。

在本发明实施例中，可选地，所述多粒度特征序列包括以下两种或两种以上特征序列：

也就是说，本发明可选实施例有效解决了现有技术中输入特征单一，包含的信息有限，从而有效提高文本分类的效果。例如，目前意图识别效果较好的工具是Fasttext文本分类工具，但是Fasttext只利用到了句子的词序列信息，无法利用同义词、近义词、关键词、核心词、停用词、最佳匹配序列(Best Match25，BM25)、编辑距离、分词、词性、命名体、短语搭配、依存关系、句法树、从句、分句等更丰富的语言学知识。因此，Fasttext的输入特征也比较单一，包含的信息有限，而本发明可选实施例可以有效解决该问题。

在本发明实施例中，可选地，所述词袋语义分析分类器包括：

也就是说，词袋工具BOW(Bag-Of-Words，词袋)用于文本分类或意图识别，属于BOWSA的一个最简单的实例；

Fasttext也是BOWSA的一个低门槛、性价比很高的实例；

SVM(Support Vector Machine，支持向量机)、HMM(Hidden Markov Model，隐马尔可夫模型)、CRF(Conditional Random Field，条件随机场)、libShortText(一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包)等机器学习模型也是BOWSA的实例；

RNN(Recurrent Neural Networks，循环神经网络)、LSTM(Long Short-TermMemory，长短期记忆网络)、CNN(Convolutional Neural Network，卷积神经网络)、DNN(Deep Neural Network，深度神经网络)、GAN(Generative Adversarial Networks，生成式对抗网络)、RL(Reinforcement Learning，强化学习)等深度学习模型也都是BOWSA的实例。

进一步说，BOWSA表示一个基本的文本分类器或模型、模板，它的输入是句子及其包含、衍生出来的各种NLP(Natural language processing，自然语言处理)信息和特征，输出是一个最佳分类标签、或多个分类标签及其分数，分类器中算法可以基于词袋BOW，也可以基于更精确的、连续的词向量，可以是已有的NLP方法、机器学习或深度学习模型，还可以是规则模板，还可以是来自未来的其他类型的算法或分类模型。

在本发明实施例中，可选地，所述从意图数据中确定多粒度特征序列，包括：

获取意图数据；

其中，可以接收用户输入的数据，从而获取意图数据。

也就是说，本发明可选实施例中，多粒度的特征序列的生成，可以来自各种NLP模型对用户输入的解析；也可以来自专家系统或人工编写的规则模板对用户的意图数据进行匹配产生的各种NLP特征序列。

在本发明实施例中，可选地，所述多个词袋语义分析分类器通过串联和/或并联连接。也就是说，本发明实施例中多个BOWSA分类器的串并联，可以任意组合。串联时，在前面的BOWSA分类器输出候选及分数，在后面的BOWSA分类器通常利用前者尚未用到的多粒度特征序列，或者对前者输出的候选进行重新排序，即rescoring是一种multi-pass(多路径)、多遍排序的架构。在串联结构中，候选标签数目逐级呈漏斗状减少，优中选优。多个BOWSA分类器的并联就是各个BOWSA分类器分别接收一种粒度的特征序列，并分别给出相应的候选分类标签及分数。在一个对话或问答系统中，可以既有BOWSA串联、又有BOWSA并联，可以根据需求而定。

在本发明实施例中，可选地，当词袋语义分析分类器为一个时，所述将所述多粒度特征序列输入到一个词袋语义分析分类器，包括：

将所述多粒度特征序列进行特征融合，得到融合特征序列；

将所述融合特征序列输入到所述一个词袋语义分析分类器。

在本发明实施例中，可选地，当词袋语义分析分类器为多个时，所述将所述多粒度特征序列输入到多个词袋语义分析分类器，包括：

当词袋语义分析分类器为多个时，所述通过所述多个词袋语义分析分类器，输出候选分类标签及相应分数，可选地，包括：

实施例二

本发明实施例提供一种意图识别方法，如图2所示，所述方法包括：

S201，从意图数据中确定多粒度特征序列；

S202，将所述多粒度特征序列进行特征融合，得到融合特征序列；

S203，将所述融合特征序列输入到所述一个词袋语义分析分类器；

S204，通过该词袋语义分析分类器，输出候选分类标签及相应分数。

本发明实施例中融化特征序列为融合后的特征序列。

本发明实施例中通过将多粒度特征序列进行特征融合，得到融合特征序列，实现了多粒度特征序列再特征层的融合，从而将融合特征序列输入到词袋语义分析分类器，进而实现意图识别，进而更加有效提高了意图识别的效果。

也就是说，本发明实施例中BOWSA分类器的输入除了词序列之外，还可以是更多种、更丰富的NLP知识构成的多个序列，每个序列拥有自己的颗粒度，或大或小，可以小到笔画、字，也可以大到短语、N元语法(N-gram)、分句等级别，还可以是句子或文档中的长距离依赖关系，比如依存句法或更大跨度(如从句、分句、甚至句子之间、段落之间)的上下文依赖关系等。

例如，一个BOWSA分类器可以同时利用以下多种多粒度特征序列，但在此需要说明的是并不限于这些特征序列：

笔画；

字序列(Character)：我发布的信息无法展现，该怎么办呢？

词序列(Word)：我|发布|的|信息|无法|展现，该|怎么|办|呢？

词性(POS)序列：代词|动词|的|名词|否定词|动词，情态词|疑问词|动词|语气词？

短语(Phrase)序列：0，0，P(发布+信息)，0，0，P(信息+展现)，0，……；

命名体(NE)标注序列：0，0，0，NE(置顶)，0，0，NE(安居客)，0，……；

固定分句或从句序列(Clause)：0，0，……，CL(该怎么办呢)；

句法树标注序列(Tree)：我/PN再/AD刷新/VV一/CD组/M新/JJ房源/NN。

依存关系序列(Dependency)：精选SBV(主谓关系，subject-verb)、VOB(动宾关系，verb-object)；

其他语言学知识(Others)：包括并不限于以上NLP/NLU信息。

Fasttext依赖于分词前端、分词误差，从而会影响词向量的学习及分类效果。同时Fasttext也可以只利用字序列特征，因此颗粒度较小，字级别的长程Ngram可靠性不高(特别是训练数据稀疏时)，而本发明实施例中通过将所述多粒度特征序列进行特征融合，得到融合特征序列从而可以有效解决Fasttext的这些缺陷。

在本发明实施例中，可选地，通过如下至少一个融合方式，将所述多粒度特征序列进行特征融合：

按时间顺序编排、级联拼接、相加、袋化和向量化。

实施例三

本发明实施例提供一种意图识别方法，具体地为将多粒度特征序列融合的一个实例，属于实施例二的一个实例，如图3所示，所述方法包括：

S301，从意图数据中确定字、词、短语、依存关系4种粒度特征序列；

S302，将4种特征序列按时间顺序编排，得到融合特征序列；

S303，BOWSA分类器选择为CRF，将融合特征序列输入到CRF；

S304，输出候选分类标签及相应分数。

例如，为了描述简洁本发明实施例中意图识别方法也可以称之为BOWSA方法。利用12月前的M端线上用户输入的数据做了(集外)测试，测试集正样本数P＝867，总样本数2451，正样本占比35.37％，与Fasttext的效果对比如表1所示，多粒度序列特征融合的BOWSA方法有效提高了意图识别的效果，各项指标都胜过了只利用字序列的Fasttext，从而验证了本发明主张的多粒度特征序列融合的有效性：

表1

实施例四

本发明实施例提供一种意图识别方法，如图4所示，所述方法包括：

S401，从意图数据中确定多粒度特征序列；为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器；

S402，将各个粒度特征序列分别输入到对应的词袋语义分析分类器；

S403，通过多个词袋语义分析分类器，得到多个候选分类标签及相应分数；

S404，分数层面上的融合，具体地，将所述多个候选分类标签及相应分数进行分数融合；

S405，输出所述候选分类标签及相应融合后的分数。

其中，BOWSA-1、BOWSA-2、……、BOWSA-n等可以是不同的分类器模型；也可以来自专家系统或预先编写的规则模板。

本发明实施例将各粒度特征序列送给相应最适合的多个BOWSA分类器，并各自输出候选分类标签和分数，然后再分数层上进行融合，从而可以将不容易在特征层面融合的多粒度特征序列在分数层融合，形成最终的分类结果，进而有效提高意图识别效果。

本发明实施例中分数层面的融合属于多个BOWSA的并联。

在本发明实施例中，可选地，通过如下至少一个融合方式，将所述多个候选分类标签及相应分数进行分数融合，包括：

在此需要说明的是，上述各个实施例可以任意组合实施。本发明实施例中的BOWSA分类器可以作为对话、问答类NLP应用中的算法单元。本发明实施例提出了出了多粒度特征序列，以及特征层面和分数层面的融合，以及BOWSA分类器的串联与并联等算法框架。本发明实施例提出了BOWSA分类器融合多粒度序列特征的多种结构实例，并且实验验证了效果超过单一的Fasttext的文本分类效果；本发明实施例中方法可以用于问答、对话、闲聊机器人之外的其他领域，包括但不限于：基于规则的机器翻译，自动文摘，搜索查询分析，计算机辅助写作，以及规则生成、文章生成，推理，自动证明等AI(Artificial Intelligence，人工智能)前沿领域。

实施例五

本发明实施例提供一种意图识别装置，如图5所示，所述装置包括：

确定模块10，用于从意图数据中确定多粒度特征序列；

输入模块12，用于将所述多粒度特征序列输入到一个或多个词袋语义分析分类器；

输出模块14，用于通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数。

本发明实施例通过从意图数据中确定多粒度特征序列，并将所述多粒度特征序列输入到一个或多个词袋语义分析分类器，从而可以通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数，进而相对于单一粒度特征序列有效提高了意图识别的效果。

在本发明实施例中，可选地，所述输入模块12包括：

在本发明实施例中，可选地，所述第一融合单元，具体用于通过如下至少一个融合方式，将所述多粒度特征序列进行特征融合：

按时间顺序编排、级联拼接、相加、袋化和向量化。

在本发明实施例中，可选地，所述输入模块12包括：

在本发明实施例中，可选地，所述输出模块14包括：

在本发明实施例中，可选地，所述第二融合单元，具体用于通过如下至少一个融合方式，将所述多个候选分类标签及相应分数进行分数融合，包括：

在本发明实施例中，可选地，所述多个词袋语义分析分类器通过串联和/或并联连接。

在本发明实施例中，可选地，所述确定模块，具体用于获取意图数据；通过自然语言处理NLP模型解析所述意图数据，生成所述多粒度特征序列；或者，通过预设规则模板匹配所述意图数据，生成所述多粒度特征序列。

实施例六

本发明实施例提供一种意图识别设备，如图6所示，所述设备包括存储器20和处理器22；所述存储器20存储有意图识别计算机程序，所述处理器22执行所述计算机程序，以实现如实施例一至实施例四中任意一项所述方法的步骤。

实施例七

本发明实施例提供一种计算机可读存储介质，所述存储介质存储有意图识别计算机程序，所述计算机程序被至少一个处理器执行时，以实现如实施例一至实施例四中任意一项所述方法的步骤。

本发明实施例中计算机可读存储介质可以是RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。可以将一种存储介质藕接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。

在此需要说明的是，在具体实现时，实施例五至实施例七可以参阅实施例一至实施例四，具有相应的技术效果。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种意图识别方法，其特征在于，所述方法包括：

从意图数据中确定多粒度特征序列；

2.如权利要求1所述的方法，其特征在于，所述将所述多粒度特征序列输入到一个词袋语义分析分类器，包括：

将所述多粒度特征序列进行特征融合，得到融合特征序列；

将所述融合特征序列输入到所述一个词袋语义分析分类器。

3.如权利要求2所述的方法，其特征在于，通过如下至少一个融合方式，将所述多粒度特征序列进行特征融合：

按时间顺序编排、级联拼接、相加、袋化和向量化。

4.如权利要求1所述的方法，其特征在于，所述将所述多粒度特征序列输入到多个词袋语义分析分类器，包括：

5.如权利要求4所述的方法，其特征在于，所述通过所述一个或多个词袋语义分析分类器，输出候选分类标签及相应分数，包括：

6.如权利要求5所述的方法，其特征在于，通过如下至少一个融合方式，将所述多个候选分类标签及相应分数进行分数融合，包括：

7.如权利要求1所述的方法，其特征在于，所述多粒度特征序列包括以下两种或两种以上特征序列：

8.如权利要求1所述的方法，其特征在于，所述词袋语义分析分类器包括：

9.如权利要求1所述的方法，其特征在于，所述多个词袋语义分析分类器通过串联和/或并联连接。

10.如权利要求1-9中任意一项所述的方法，其特征在于，所述从意图数据中确定多粒度特征序列，包括：

获取意图数据；

11.一种意图识别装置，其特征在于，所述装置包括：

确定模块，用于从意图数据中确定多粒度特征序列；

12.如权利要求11所述的装置，其特征在于，所述输入模块包括：

13.如权利要求12所述的装置，其特征在于，所述第一融合单元，具体用于通过如下至少一个融合方式，将所述多粒度特征序列进行特征融合：

按时间顺序编排、级联拼接、相加、袋化和向量化。

14.如权利要求11所述的装置，其特征在于，所述输入模块包括：

15.如权利要求14所述的装置，其特征在于，所述输出模块包括：

16.如权利要求15所述的装置，其特征在于，所述第二融合单元，具体用于通过如下至少一个融合方式，将所述多个候选分类标签及相应分数进行分数融合，包括：

17.如权利要求11所述的装置，其特征在于，所述多粒度特征序列包括以下两种或两种以上特征序列：

18.如权利要求11所述的装置，其特征在于，所述词袋语义分析分类器包括：

19.如权利要求11所述的装置，其特征在于，所述多个词袋语义分析分类器通过串联和/或并联连接。

20.如权利要求11-19中任意一项所述的装置，其特征在于，所述确定模块，具体用于获取意图数据；通过自然语言处理NLP模型解析所述意图数据，生成所述多粒度特征序列；或者，通过预设规则模板匹配所述意图数据，生成所述多粒度特征序列。

21.一种意图识别设备，其特征在于，所述设备包括存储器和处理器；所述存储器存储有意图识别计算机程序，所述处理器执行所述计算机程序，以实现如权利要求1-10中任意一项所述方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述存储介质存储有意图识别计算机程序，所述计算机程序被至少一个处理器执行时，以实现如权利要求1-10中任意一项所述方法的步骤。