CN108763510B - 意图识别方法、装置、设备及存储介质 - Google Patents

意图识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108763510B
CN108763510B CN201810541814.4A CN201810541814A CN108763510B CN 108763510 B CN108763510 B CN 108763510B CN 201810541814 A CN201810541814 A CN 201810541814A CN 108763510 B CN108763510 B CN 108763510B
Authority
CN
China
Prior art keywords
sequences
bag
granularity
semantic analysis
words semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810541814.4A
Other languages
English (en)
Other versions
CN108763510A (zh
Inventor
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN201810541814.4A priority Critical patent/CN108763510B/zh
Publication of CN108763510A publication Critical patent/CN108763510A/zh
Application granted granted Critical
Publication of CN108763510B publication Critical patent/CN108763510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种意图识别方法、装置、设备及存储介质。所述方法包括:从意图数据中确定多粒度特征序列;将所述多粒度特征序列输入到一个或多个词袋语义分析分类器;通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数。本发明提高了多粒度特征序列所包含的信息,进而相对于单一粒度特征序列有效提高了意图识别的效果。

Description

意图识别方法、装置、设备及存储介质
技术领域
本发明涉及网络技术领域,特别是涉及一种意图识别方法、装置、设备及存储介质。
背景技术
自然语言的对话、问答、智能客服、聊天机器人等应用中,用户意图的准确识别和分类是决定应用成功运行的第一步;然后才能针对用户意图,或直接构造答案,或通过多轮对话填充词槽、补足问题后提供答案,最后为用户提供自动化的服务;当然多轮对话的每一轮中,也需要识别用户回答或反问意图。
目前意图识别效果较好的文本分类工具中输入特征比较单一,从而包含的信息有限,因此意图识别、文本分类效果有待于进一步提高。
发明内容
为了克服上述缺陷,本发明要解决的技术问题是提供一种意图识别方法、装置、设备及存储介质,用以至少提高意图识别的效果。
为解决上述技术问题,本发明实施例中的一种意图识别方法,包括:
从意图数据中确定多粒度特征序列;
将所述多粒度特征序列输入到一个或多个词袋语义分析分类器;
通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数。
可选地,所述将所述多粒度特征序列输入到一个词袋语义分析分类器,包括:
将所述多粒度特征序列进行特征融合,得到融合特征序列;
将所述融合特征序列输入到所述一个词袋语义分析分类器。
可选地,通过如下至少一个融合方式,将所述多粒度特征序列进行特征融合:
按时间顺序编排、级联拼接、相加、袋化和向量化。
可选地,所述将所述多粒度特征序列输入到多个词袋语义分析分类器,包括:
为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器;
将各个粒度特征序列分别输入到对应的词袋语义分析分类器。
可选地,所述通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数,包括:
通过多个词袋语义分析分类器,得到多个候选分类标签及相应分数;
将所述多个候选分类标签及相应分数进行分数融合,输出所述候选分类标签及相应融合后的分数。
可选地,通过如下至少一个融合方式,将所述多个候选分类标签及相应分数进行分数融合,包括:
相加、加权、归一化后求最大值、boost、集成ensemble和投票voting。
可选地,所述多粒度特征序列包括以下两种或两种以上特征序列:
笔画序列、字序列、词序列、词性序列、短语序列、命名体标注序列、固定分句或从句序列、句法树标注序列、依存关系序列、同义词序列、近义词序列、关键词序列、核心词序列、停用词序列、最佳匹配序列、编辑距离序列、分词序列、词性序列、命名体序列、短语搭配序列、句法树序列、从句序列以及分句序列。
可选地,所述词袋语义分析分类器包括:
词袋工具BOW、基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。
可选地,所述多个词袋语义分析分类器通过串联和/或并联连接。
可选地,所述从意图数据中确定多粒度特征序列,包括:
获取意图数据;
通过自然语言处理NLP模型解析所述意图数据,生成所述多粒度特征序列;或者,通过预设规则模板匹配所述意图数据,生成所述多粒度特征序列。
为解决上述技术问题,本发明实施例中的一种意图识别装置,包括:
确定模块,用于从意图数据中确定多粒度特征序列;
输入模块,用于将所述多粒度特征序列输入到一个或多个词袋语义分析分类器;
输出模块,用于通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数。
可选地,所述输入模块包括:
第一融合单元,用于将所述多粒度特征序列进行特征融合,得到融合特征序列;
输入单元,用于将所述融合特征序列输入到所述一个词袋语义分析分类器。
可选地,所述第一融合单元,具体用于通过如下至少一个融合方式,将所述多粒度特征序列进行特征融合:
按时间顺序编排、级联拼接、相加、袋化和向量化。
可选地,所述输入模块包括:
选择单元,用于为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器;
输入单元,用于将各个粒度特征序列分别输入到对应的词袋语义分析分类器。
可选地,所述输出模块包括:
输出单元,用于通过多个词袋语义分析分类器,得到多个候选分类标签及相应分数;
第二融合单元,用于将所述多个候选分类标签及相应分数进行分数融合,输出所述候选分类标签及相应融合后的分数。
可选地,所述第二融合单元,具体用于通过如下至少一个融合方式,将所述多个候选分类标签及相应分数进行分数融合,包括:
相加、加权、归一化后求最大值、boost、集成ensemble和投票voting。
可选地,所述多粒度特征序列包括以下两种或两种以上特征序列:
笔画序列、字序列、词序列、词性序列、短语序列、命名体标注序列、固定分句或从句序列、句法树标注序列、依存关系序列、同义词序列、近义词序列、关键词序列、核心词序列、停用词序列、最佳匹配序列、编辑距离序列、分词序列、词性序列、命名体序列、短语搭配序列、句法树序列、从句序列以及分句序列。
可选地,所述词袋语义分析分类器包括:
基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。
可选地,所述多个词袋语义分析分类器通过串联和/或并联连接。
可选地,所述确定模块,具体用于获取意图数据;通过自然语言处理NLP模型解析所述意图数据,生成所述多粒度特征序列;或者,通过预设规则模板匹配所述意图数据,生成所述多粒度特征序列。
为解决上述技术问题,本发明实施例中的一种意图识别设备,包括存储器和处理器;所述存储器存储有意图识别计算机程序,所述处理器执行所述计算机程序,以实现如上任意一项所述方法的步骤。
为解决上述技术问题,本发明实施例中的一种计算机可读存储介质,存储有意图识别计算机程序,所述计算机程序被至少一个处理器执行时,以实现如上任意一项所述方法的步骤。
本发明有益效果如下:
本发明各个实施例通过从意图数据中确定多粒度特征序列,并将所述多粒度特征序列输入到一个或多个词袋语义分析分类器,从而可以通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数,有效提高了多粒度特征序列所包含的信息,进而相对于单一粒度特征序列有效提高了意图识别的效果。
附图说明
图1是本发明实施例中一种意图识别方法的主流程图;
图2是本发明实施例中一种可选意图识别方法的流程图;
图3是本发明实施例中又一种可选意图识别方法的流程图;
图4是本发明实施例中另一种可选意图识别方法的流程图;
图5是本发明实施例中一种意图识别装置的结构示意图;
图6是本发明实施例中一种意图识别设备的结构示意图。
具体实施方式
为了解决现有技术的问题,本发明提供了一种意图识别方法、装置、设备及存储介质,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
使用用于区分元件的诸如“第一”、“第二”等前缀仅为了有利于本发明的说明,其本身没有特定的意义。
实施例一
本发明实施例提供一种意图识别方法,如图1所示,所述方法包括:
S101,从意图数据中确定多粒度特征序列;
S102,将所述多粒度特征序列输入到一个或多个词袋语义分析分类器(BOWSA,Bag-Of-Words Semantic Analysis);
S103,通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数。
本发明实施例中意图数据指代待要识别的数据,可以是用户输入的数据。
本发明实施例中每个粒度特征序列拥有自己的颗粒度,或大或小,例如可以小到笔画、字,也可以大到短语、N元语法(N-gram)、分句等级别,还可以是句子或文档中长距离依赖关系,比如依存句法或更大跨度(如从句、分句、甚至句子之间、段落之间)的上下文依赖关系等。
本发明实施例中候选分类标签可以是最佳分类标签、多个候选分类标签及其相应分数;BOWSA分类器也可以称之为BOWSA模型;其中分类标签也可以称之为意图数据的分类标签,表示识别出的与意图数据对应的语义。
本发明实施例通过从意图数据中确定多粒度特征序列,并将所述多粒度特征序列输入到一个或多个词袋语义分析分类器,从而可以通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数,有效提高了多粒度特征序列所包含的信息,进而相对于单一粒度特征序列有效提高了意图识别的效果。
在本发明实施例中,可选地,所述多粒度特征序列包括以下两种或两种以上特征序列:
笔画序列、字序列、词序列、词性序列、短语序列、命名体标注序列、固定分句或从句序列、句法树标注序列、依存关系序列、同义词序列、近义词序列、关键词序列、核心词序列、停用词序列、最佳匹配序列、编辑距离序列、分词序列、词性序列、命名体序列、短语搭配序列、句法树序列、从句序列以及分句序列。
也就是说,本发明可选实施例有效解决了现有技术中输入特征单一,包含的信息有限,从而有效提高文本分类的效果。例如,目前意图识别效果较好的工具是Fasttext文本分类工具,但是Fasttext只利用到了句子的词序列信息,无法利用同义词、近义词、关键词、核心词、停用词、最佳匹配序列(Best Match25,BM25)、编辑距离、分词、词性、命名体、短语搭配、依存关系、句法树、从句、分句等更丰富的语言学知识。因此,Fasttext的输入特征也比较单一,包含的信息有限,而本发明可选实施例可以有效解决该问题。
在本发明实施例中,可选地,所述词袋语义分析分类器包括:
词袋工具BOW、基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。
也就是说,词袋工具BOW(Bag-Of-Words,词袋)用于文本分类或意图识别,属于BOWSA的一个最简单的实例;
Fasttext也是BOWSA的一个低门槛、性价比很高的实例;
SVM(Support Vector Machine,支持向量机)、HMM(Hidden Markov Model,隐马尔可夫模型)、CRF(Conditional Random Field,条件随机场)、libShortText(一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包)等机器学习模型也是BOWSA的实例;
RNN(Recurrent Neural Networks,循环神经网络)、LSTM(Long Short-TermMemory,长短期记忆网络)、CNN(Convolutional Neural Network,卷积神经网络)、DNN(Deep Neural Network,深度神经网络)、GAN(Generative Adversarial Networks,生成式对抗网络)、RL(Reinforcement Learning,强化学习)等深度学习模型也都是BOWSA的实例。
进一步说,BOWSA表示一个基本的文本分类器或模型、模板,它的输入是句子及其包含、衍生出来的各种NLP(Natural language processing,自然语言处理)信息和特征,输出是一个最佳分类标签、或多个分类标签及其分数,分类器中算法可以基于词袋BOW,也可以基于更精确的、连续的词向量,可以是已有的NLP方法、机器学习或深度学习模型,还可以是规则模板,还可以是来自未来的其他类型的算法或分类模型。
在本发明实施例中,可选地,所述从意图数据中确定多粒度特征序列,包括:
获取意图数据;
通过自然语言处理NLP模型解析所述意图数据,生成所述多粒度特征序列;或者,通过预设规则模板匹配所述意图数据,生成所述多粒度特征序列。
其中,可以接收用户输入的数据,从而获取意图数据。
也就是说,本发明可选实施例中,多粒度的特征序列的生成,可以来自各种NLP模型对用户输入的解析;也可以来自专家系统或人工编写的规则模板对用户的意图数据进行匹配产生的各种NLP特征序列。
在本发明实施例中,可选地,所述多个词袋语义分析分类器通过串联和/或并联连接。也就是说,本发明实施例中多个BOWSA分类器的串并联,可以任意组合。串联时,在前面的BOWSA分类器输出候选及分数,在后面的BOWSA分类器通常利用前者尚未用到的多粒度特征序列,或者对前者输出的候选进行重新排序,即rescoring是一种multi-pass(多路径)、多遍排序的架构。在串联结构中,候选标签数目逐级呈漏斗状减少,优中选优。多个BOWSA分类器的并联就是各个BOWSA分类器分别接收一种粒度的特征序列,并分别给出相应的候选分类标签及分数。在一个对话或问答系统中,可以既有BOWSA串联、又有BOWSA并联,可以根据需求而定。
在本发明实施例中,可选地,当词袋语义分析分类器为一个时,所述将所述多粒度特征序列输入到一个词袋语义分析分类器,包括:
将所述多粒度特征序列进行特征融合,得到融合特征序列;
将所述融合特征序列输入到所述一个词袋语义分析分类器。
在本发明实施例中,可选地,当词袋语义分析分类器为多个时,所述将所述多粒度特征序列输入到多个词袋语义分析分类器,包括:
为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器;
将各个粒度特征序列分别输入到对应的词袋语义分析分类器。
当词袋语义分析分类器为多个时,所述通过所述多个词袋语义分析分类器,输出候选分类标签及相应分数,可选地,包括:
通过多个词袋语义分析分类器,得到多个候选分类标签及相应分数;
将所述多个候选分类标签及相应分数进行分数融合,输出所述候选分类标签及相应融合后的分数。
实施例二
本发明实施例提供一种意图识别方法,如图2所示,所述方法包括:
S201,从意图数据中确定多粒度特征序列;
S202,将所述多粒度特征序列进行特征融合,得到融合特征序列;
S203,将所述融合特征序列输入到所述一个词袋语义分析分类器;
S204,通过该词袋语义分析分类器,输出候选分类标签及相应分数。
本发明实施例中融化特征序列为融合后的特征序列。
本发明实施例中通过将多粒度特征序列进行特征融合,得到融合特征序列,实现了多粒度特征序列再特征层的融合,从而将融合特征序列输入到词袋语义分析分类器,进而实现意图识别,进而更加有效提高了意图识别的效果。
也就是说,本发明实施例中BOWSA分类器的输入除了词序列之外,还可以是更多种、更丰富的NLP知识构成的多个序列,每个序列拥有自己的颗粒度,或大或小,可以小到笔画、字,也可以大到短语、N元语法(N-gram)、分句等级别,还可以是句子或文档中的长距离依赖关系,比如依存句法或更大跨度(如从句、分句、甚至句子之间、段落之间)的上下文依赖关系等。
例如,一个BOWSA分类器可以同时利用以下多种多粒度特征序列,但在此需要说明的是并不限于这些特征序列:
笔画;
字序列(Character):我发布的信息无法展现,该怎么办呢?
词序列(Word):我|发布|的|信息|无法|展现,该|怎么|办|呢?
词性(POS)序列:代词|动词|的|名词|否定词|动词,情态词|疑问词|动词|语气词?
短语(Phrase)序列:0,0,P(发布+信息),0,0,P(信息+展现),0,……;
命名体(NE)标注序列:0,0,0,NE(置顶),0,0,NE(安居客),0,……;
固定分句或从句序列(Clause):0,0,……,CL(该怎么办呢);
句法树标注序列(Tree):我/PN再/AD刷新/VV一/CD组/M新/JJ房源/NN。
依存关系序列(Dependency):精选SBV(主谓关系,subject-verb)、VOB(动宾关系,verb-object);
其他语言学知识(Others):包括并不限于以上NLP/NLU信息。
Fasttext依赖于分词前端、分词误差,从而会影响词向量的学习及分类效果。同时Fasttext也可以只利用字序列特征,因此颗粒度较小,字级别的长程Ngram可靠性不高(特别是训练数据稀疏时),而本发明实施例中通过将所述多粒度特征序列进行特征融合,得到融合特征序列从而可以有效解决Fasttext的这些缺陷。
在本发明实施例中,可选地,通过如下至少一个融合方式,将所述多粒度特征序列进行特征融合:
按时间顺序编排、级联拼接、相加、袋化和向量化。
实施例三
本发明实施例提供一种意图识别方法,具体地为将多粒度特征序列融合的一个实例,属于实施例二的一个实例,如图3所示,所述方法包括:
S301,从意图数据中确定字、词、短语、依存关系4种粒度特征序列;
S302,将4种特征序列按时间顺序编排,得到融合特征序列;
S303,BOWSA分类器选择为CRF,将融合特征序列输入到CRF;
S304,输出候选分类标签及相应分数。
例如,为了描述简洁本发明实施例中意图识别方法也可以称之为BOWSA方法。利用12月前的M端线上用户输入的数据做了(集外)测试,测试集正样本数P=867,总样本数2451,正样本占比35.37%,与Fasttext的效果对比如表1所示,多粒度序列特征融合的BOWSA方法有效提高了意图识别的效果,各项指标都胜过了只利用字序列的Fasttext,从而验证了本发明主张的多粒度特征序列融合的有效性:
表1
Figure BDA0001679023290000111
Figure BDA0001679023290000121
实施例四
本发明实施例提供一种意图识别方法,如图4所示,所述方法包括:
S401,从意图数据中确定多粒度特征序列;为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器;
S402,将各个粒度特征序列分别输入到对应的词袋语义分析分类器;
S403,通过多个词袋语义分析分类器,得到多个候选分类标签及相应分数;
S404,分数层面上的融合,具体地,将所述多个候选分类标签及相应分数进行分数融合;
S405,输出所述候选分类标签及相应融合后的分数。
其中,BOWSA-1、BOWSA-2、……、BOWSA-n等可以是不同的分类器模型;也可以来自专家系统或预先编写的规则模板。
本发明实施例将各粒度特征序列送给相应最适合的多个BOWSA分类器,并各自输出候选分类标签和分数,然后再分数层上进行融合,从而可以将不容易在特征层面融合的多粒度特征序列在分数层融合,形成最终的分类结果,进而有效提高意图识别效果。
本发明实施例中分数层面的融合属于多个BOWSA的并联。
在本发明实施例中,可选地,通过如下至少一个融合方式,将所述多个候选分类标签及相应分数进行分数融合,包括:
相加、加权、归一化后求最大值、boost、集成ensemble和投票voting。
在此需要说明的是,上述各个实施例可以任意组合实施。本发明实施例中的BOWSA分类器可以作为对话、问答类NLP应用中的算法单元。本发明实施例提出了出了多粒度特征序列,以及特征层面和分数层面的融合,以及BOWSA分类器的串联与并联等算法框架。本发明实施例提出了BOWSA分类器融合多粒度序列特征的多种结构实例,并且实验验证了效果超过单一的Fasttext的文本分类效果;本发明实施例中方法可以用于问答、对话、闲聊机器人之外的其他领域,包括但不限于:基于规则的机器翻译,自动文摘,搜索查询分析,计算机辅助写作,以及规则生成、文章生成,推理,自动证明等AI(Artificial Intelligence,人工智能)前沿领域。
实施例五
本发明实施例提供一种意图识别装置,如图5所示,所述装置包括:
确定模块10,用于从意图数据中确定多粒度特征序列;
输入模块12,用于将所述多粒度特征序列输入到一个或多个词袋语义分析分类器;
输出模块14,用于通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数。
本发明实施例通过从意图数据中确定多粒度特征序列,并将所述多粒度特征序列输入到一个或多个词袋语义分析分类器,从而可以通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数,进而相对于单一粒度特征序列有效提高了意图识别的效果。
在本发明实施例中,可选地,所述输入模块12包括:
第一融合单元,用于将所述多粒度特征序列进行特征融合,得到融合特征序列;
输入单元,用于将所述融合特征序列输入到所述一个词袋语义分析分类器。
在本发明实施例中,可选地,所述第一融合单元,具体用于通过如下至少一个融合方式,将所述多粒度特征序列进行特征融合:
按时间顺序编排、级联拼接、相加、袋化和向量化。
在本发明实施例中,可选地,所述输入模块12包括:
选择单元,用于为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器;
输入单元,用于将各个粒度特征序列分别输入到对应的词袋语义分析分类器。
在本发明实施例中,可选地,所述输出模块14包括:
输出单元,用于通过多个词袋语义分析分类器,得到多个候选分类标签及相应分数;
第二融合单元,用于将所述多个候选分类标签及相应分数进行分数融合,输出所述候选分类标签及相应融合后的分数。
在本发明实施例中,可选地,所述第二融合单元,具体用于通过如下至少一个融合方式,将所述多个候选分类标签及相应分数进行分数融合,包括:
相加、加权、归一化后求最大值、boost、集成ensemble和投票voting。
在本发明实施例中,可选地,所述多粒度特征序列包括以下两种或两种以上特征序列:
笔画序列、字序列、词序列、词性序列、短语序列、命名体标注序列、固定分句或从句序列、句法树标注序列、依存关系序列、同义词序列、近义词序列、关键词序列、核心词序列、停用词序列、最佳匹配序列、编辑距离序列、分词序列、词性序列、命名体序列、短语搭配序列、句法树序列、从句序列以及分句序列。
在本发明实施例中,可选地,所述词袋语义分析分类器包括:
词袋工具BOW、基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。
在本发明实施例中,可选地,所述多个词袋语义分析分类器通过串联和/或并联连接。
在本发明实施例中,可选地,所述确定模块,具体用于获取意图数据;通过自然语言处理NLP模型解析所述意图数据,生成所述多粒度特征序列;或者,通过预设规则模板匹配所述意图数据,生成所述多粒度特征序列。
实施例六
本发明实施例提供一种意图识别设备,如图6所示,所述设备包括存储器20和处理器22;所述存储器20存储有意图识别计算机程序,所述处理器22执行所述计算机程序,以实现如实施例一至实施例四中任意一项所述方法的步骤。
实施例七
本发明实施例提供一种计算机可读存储介质,所述存储介质存储有意图识别计算机程序,所述计算机程序被至少一个处理器执行时,以实现如实施例一至实施例四中任意一项所述方法的步骤。
本发明实施例中计算机可读存储介质可以是RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。可以将一种存储介质藕接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。
在此需要说明的是,在具体实现时,实施例五至实施例七可以参阅实施例一至实施例四,具有相应的技术效果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种意图识别方法,其特征在于,所述方法包括:
从意图数据中确定多粒度特征序列;
将所述多粒度特征序列输入到一个或多个词袋语义分析分类器;
通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数;
多个所述词袋语义分析分类器通过串联和/或并联连接;
其中,多个所述词袋语义分类器串联时,在前面的所述词袋语义分类器输出候选及分数,在后面的所述语义分类器利用前面的所述词袋语义分类器尚未用到的多粒度特征序列,或者对前面的所述词袋语义分类器输出的候选分类标签进行重新排序;
多个所述词袋语义分类器并联时,各个所述词袋语义分类器分别接收一种粒度的特征序列,并分别给出相应的候选分类标签及分数。
2.如权利要求1所述的方法,其特征在于,所述将所述多粒度特征序列输入到一个词袋语义分析分类器,包括:
将所述多粒度特征序列进行特征融合,得到融合特征序列;
将所述融合特征序列输入到所述一个词袋语义分析分类器。
3.如权利要求2所述的方法,其特征在于,通过如下至少一个融合方式,将所述多粒度特征序列进行特征融合:
按时间顺序编排、级联拼接、相加、袋化和向量化。
4.如权利要求1所述的方法,其特征在于,所述将所述多粒度特征序列输入到多个词袋语义分析分类器,包括:
为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器;
将各个粒度特征序列分别输入到对应的词袋语义分析分类器。
5.如权利要求4所述的方法,其特征在于,所述通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数,包括:
通过多个词袋语义分析分类器,得到多个候选分类标签及相应分数;
将所述多个候选分类标签及相应分数进行分数融合,输出所述候选分类标签及相应融合后的分数。
6.如权利要求5所述的方法,其特征在于,通过如下至少一个融合方式,将所述多个候选分类标签及相应分数进行分数融合,包括:
相加、加权、归一化后求最大值、boost、集成ensemble和投票voting。
7.如权利要求1所述的方法,其特征在于,所述多粒度特征序列包括以下两种或两种以上特征序列:
笔画序列、字序列、词序列、词性序列、短语序列、命名体标注序列、固定分句或从句序列、句法树标注序列、依存关系序列、同义词序列、近义词序列、关键词序列、核心词序列、停用词序列、最佳匹配序列、编辑距离序列、分词序列、词性序列、命名体序列、短语搭配序列、句法树序列、从句序列以及分句序列。
8.如权利要求1所述的方法,其特征在于,所述词袋语义分析分类器包括:
词袋工具BOW、基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。
9.如权利要求1-8中任意一项所述的方法,其特征在于,所述从意图数据中确定多粒度特征序列,包括:
获取意图数据;
通过自然语言处理NLP模型解析所述意图数据,生成所述多粒度特征序列;或者,通过预设规则模板匹配所述意图数据,生成所述多粒度特征序列。
10.一种意图识别装置,其特征在于,所述装置包括:
确定模块,用于从意图数据中确定多粒度特征序列;
输入模块,用于将所述多粒度特征序列输入到一个或多个词袋语义分析分类器;
输出模块,用于通过所述一个或多个词袋语义分析分类器,输出候选分类标签及相应分数;
多个所述词袋语义分析分类器通过串联和/或并联连接;
其中,多个所述词袋语义分类器串联时,在前面的所述词袋语义分类器输出候选及分数,在后面的所述语义分类器利用前面的所述词袋语义分类器尚未用到的多粒度特征序列,或者对前面的所述词袋语义分类器输出的候选分类标签进行重新排序;
多个所述词袋语义分类器并联时,各个所述词袋语义分类器分别接收一种粒度的特征序列,并分别给出相应的候选分类标签及分数。
11.如权利要求10所述的装置,其特征在于,所述输入模块包括:
第一融合单元,用于将所述多粒度特征序列进行特征融合,得到融合特征序列;
输入单元,用于将所述融合特征序列输入到所述一个词袋语义分析分类器。
12.如权利要求11所述的装置,其特征在于,所述第一融合单元,具体用于通过如下至少一个融合方式,将所述多粒度特征序列进行特征融合:
按时间顺序编排、级联拼接、相加、袋化和向量化。
13.如权利要求10所述的装置,其特征在于,所述输入模块包括:
选择单元,用于为所述多粒度特征序列中每个粒度特征序列确定对应的词袋语义分析分类器;
输入单元,用于将各个粒度特征序列分别输入到对应的词袋语义分析分类器。
14.如权利要求13所述的装置,其特征在于,所述输出模块包括:
输出单元,用于通过多个词袋语义分析分类器,得到多个候选分类标签及相应分数;
第二融合单元,用于将所述多个候选分类标签及相应分数进行分数融合,输出所述候选分类标签及相应融合后的分数。
15.如权利要求14所述的装置,其特征在于,所述第二融合单元,具体用于通过如下至少一个融合方式,将所述多个候选分类标签及相应分数进行分数融合,包括:
相加、加权、归一化后求最大值、boost、集成ensemble和投票voting。
16.如权利要求10所述的装置,其特征在于,所述多粒度特征序列包括以下两种或两种以上特征序列:
笔画序列、字序列、词序列、词性序列、短语序列、命名体标注序列、固定分句或从句序列、句法树标注序列、依存关系序列、同义词序列、近义词序列、关键词序列、核心词序列、停用词序列、最佳匹配序列、编辑距离序列、分词序列、词性序列、命名体序列、短语搭配序列、句法树序列、从句序列以及分句序列。
17.如权利要求10所述的装置,其特征在于,所述词袋语义分析分类器包括:
词袋工具BOW、基于词向量的快速文本分类工具Fasttext、支持向量机SVM、隐马尔可夫模型HMM、条件随机场CRF、短文本分类工具libShortText、循环神经网络RNN、长短期记忆网络LSTM、卷积神经网络CNN、深度神经网络DNN、生成式对抗网络GAN、强化学习RL、自然语言处理NLP模型和预设的规则模板。
18.如权利要求10-17中任意一项所述的装置,其特征在于,所述确定模块,具体用于获取意图数据;通过自然语言处理NLP模型解析所述意图数据,生成所述多粒度特征序列;或者,通过预设规则模板匹配所述意图数据,生成所述多粒度特征序列。
19.一种意图识别设备,其特征在于,所述设备包括存储器和处理器;所述存储器存储有意图识别计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1-9中任意一项所述方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述存储介质存储有意图识别计算机程序,所述计算机程序被至少一个处理器执行时,以实现如权利要求1-9中任意一项所述方法的步骤。
CN201810541814.4A 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质 Active CN108763510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810541814.4A CN108763510B (zh) 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810541814.4A CN108763510B (zh) 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108763510A CN108763510A (zh) 2018-11-06
CN108763510B true CN108763510B (zh) 2021-10-15

Family

ID=64004648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810541814.4A Active CN108763510B (zh) 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108763510B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558489A (zh) * 2018-12-03 2019-04-02 南京中孚信息技术有限公司 文本分类方法及装置
CN111382245A (zh) * 2018-12-29 2020-07-07 贝壳技术有限公司 一种基于自然语言处理技术的看房行程安排方法及装置
CN109885666A (zh) * 2019-01-18 2019-06-14 科大国创软件股份有限公司 一种基于html5的智能语音客服机器人的方法及系统
CN110046232A (zh) * 2019-01-23 2019-07-23 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN109885652A (zh) * 2019-01-25 2019-06-14 北京奇艺世纪科技有限公司 一种操作执行方法、装置及计算机可读存储介质
CN109902299B (zh) * 2019-02-18 2022-11-11 北京明略软件系统有限公司 一种文本处理方法及装置
CN110096570B (zh) * 2019-04-09 2021-03-30 苏宁易购集团股份有限公司 一种应用于智能客服机器人的意图识别方法及装置
CN110147445A (zh) * 2019-04-09 2019-08-20 平安科技(深圳)有限公司 基于文本分类的意图识别方法、装置、设备及存储介质
CN110188195B (zh) * 2019-04-29 2021-12-17 南京星云数字技术有限公司 一种基于深度学习的文本意图识别方法、装置及设备
CN111861610A (zh) * 2019-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110309280B (zh) * 2019-05-27 2021-11-09 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110705302B (zh) * 2019-10-11 2023-12-12 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN111027667B (zh) * 2019-12-06 2023-10-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN111191029B (zh) * 2019-12-19 2022-11-25 南京理工大学 基于监督学习和文本分类的ac构建方法
CN111159546B (zh) * 2019-12-24 2023-10-24 深圳市雅阅科技有限公司 事件推送方法、装置、计算机可读存储介质和计算机设备
CN111274827B (zh) * 2020-01-20 2021-05-28 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
CN112101044B (zh) * 2020-11-02 2021-11-12 北京淇瑀信息科技有限公司 一种意图识别方法、装置及电子设备
CN113407698B (zh) * 2021-06-30 2022-08-23 北京百度网讯科技有限公司 意图识别模型的训练与意图识别的方法、装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3756840B2 (ja) * 2002-04-24 2006-03-15 徳一 椎原 人脈検索システム
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN104102910B (zh) * 2014-08-07 2017-06-09 吉林农业大学 基于时空局部模式的体育视频战术行为识别方法
CN104166643A (zh) * 2014-08-19 2014-11-26 南京金娃娃软件科技有限公司 一种智能问答系统中的对话行为分析方法
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN106557463A (zh) * 2016-10-31 2017-04-05 东软集团股份有限公司 情感分析方法及装置
CN107193865B (zh) * 2017-04-06 2020-03-10 上海奔影网络科技有限公司 人机交互中自然语言意图理解方法及装置

Also Published As

Publication number Publication date
CN108763510A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763510B (zh) 意图识别方法、装置、设备及存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Tan et al. Lstm-based deep learning models for non-factoid answer selection
CN110263325B (zh) 中文分词系统
Fonseca et al. A two-step convolutional neural network approach for semantic role labeling
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
Hori et al. Dialog state tracking with attention-based sequence-to-sequence learning
CN112711948A (zh) 一种中文句子的命名实体识别方法及装置
Scharenborg et al. Building an ASR system for a low-research language through the adaptation of a high-resource language ASR system: preliminary results
CN111026886A (zh) 一种针对专业场景的多轮对话处理方法
CN110428823A (zh) 口语理解装置和使用该装置的口语理解方法
Gayen et al. An HMM based named entity recognition system for indian languages: the JU system at ICON 2013
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN112256845A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN114168749A (zh) 一种基于知识图谱和疑问词驱动的问题生成系统
CN115048944A (zh) 一种基于主题增强的开放域对话回复方法及系统
CN113449084A (zh) 基于图卷积的关系抽取方法
CN110751234A (zh) Ocr识别纠错方法、装置及设备
CN113590778A (zh) 智能客服意图理解方法、装置、设备及存储介质
Schaback et al. Multi-level feature extraction for spelling correction
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN110210033B (zh) 基于主述位理论的汉语基本篇章单元识别方法
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant