CN109635105A - 一种中文文本多意图识别方法及系统 - Google Patents

一种中文文本多意图识别方法及系统 Download PDF

Info

Publication number
CN109635105A
CN109635105A CN201811267991.4A CN201811267991A CN109635105A CN 109635105 A CN109635105 A CN 109635105A CN 201811267991 A CN201811267991 A CN 201811267991A CN 109635105 A CN109635105 A CN 109635105A
Authority
CN
China
Prior art keywords
text
classification
vector
intention
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811267991.4A
Other languages
English (en)
Inventor
黄友福
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201811267991.4A priority Critical patent/CN109635105A/zh
Publication of CN109635105A publication Critical patent/CN109635105A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种中文文本多意图识别方法及系统,其先根据预设的意图类别,对每个意图类别计算对应的标准向量;然后计算待识别文本的向量;将所述待识别文本的向量输入单意图识别模型中,输出所述待识别文本的主意图类别;计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离;最后根据所述马氏距离,从所述预设的意图类别中选取所述待识别文本的子意图类别;从而能够在准确识别文本的主意图类别的前提下,进一步输出文本最有可能包含的子意图类别,实现文本的多意图识别。

Description

一种中文文本多意图识别方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是一种中文文本多意图识别方法及其应用该方法的系统。
背景技术
在自然语言处理过程中,需要根据文本意图将对其进行打标或者归类。然而实际情况是,一方面,文本常常存在歧义,或者文本本身确实存在多种意图,导致无法准确选择唯一的类别;另一方面,在制定智能对话系统等领域确实存在着对文本多意图识别的需求,需要根据文本所包含不同的意图来定制综合回复。因此,文本的多意图识别问题成了自然语言处理中急需解决的问题。
现有技术中解决文本多意图识别的问题,一般有人工标注方法和机器标注方法。
人工标注方法即由标注人员逐条读取语料然后理解其中的多个含义并进行标注。人工标注的优点是稳健,准确率相对较高,但是存在效率低下,耗费人力和时间资源的问题。如果是由多人分工进行标注,还可能出现由于标注人员理解能力差别导致的系统性错误。
现有技术的机器标注方法,也存在以下几个问题:
1.机器学习模型只能给出正确率较高的最优解,难以输出次优解(其他意图),因此只适合进行单意图识别;
2.利用深度学习模型进行多意图的标注可以解决输出多意图的问题,但是需要大量的均衡的多意图数据进行训练,并且难以保证正确率。
发明内容
本发明为解决上述问题,提供了一种中文文本多意图识别方法及系统,能够在准确识别文本的主意图类别的前提下,进一步输出文本最有可能包含的子意图类别,从而实现文本的多意图识别。
为实现上述目的,本发明采用的技术方案为:
一种中文文本多意图识别方法,其包括以下步骤:
a.根据预设的意图类别,对每个意图类别计算对应的标准向量;
b.计算待识别文本的向量;
c.将所述待识别文本的向量输入单意图识别模型中,输出所述待识别文本的主意图类别;
d.计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离;
e.根据所述马氏距离,从所述预设的意图类别中选取所述待识别文本的子意图类别。
优选的,所述的步骤a中,所述标准向量的计算,是通过分别计算每个意图类别下的所有文本在其所属的意图类别中出现的概率,得到概率最高文本,并计算所述概率最高文本的向量,作为该概率最高文本所属的意图类别的标准向量;或者,通过分别计算每个意图类别下的所有文本的向量平均值,作为每个意图类别对应的标准向量;或者,根据经验法进行设置每个意图类别的标准向量。
进一步的,计算所述待识别文本的向量,或者,计算所述概率最高文本的向量,是通过对文本进行分词和去除停用词的处理,并将处理结果输入word2vec模型中,通过所述word2vec模型输出所述文本的句向量,作为所述待识别文本或所述概率最高文本的向量。
优选的,所述的步骤c中,所述的单意图识别模型,是通过将训练数据输入xgboost模型中进行意图识别的训练,得到所述单意图识别模型。
优选的,所述的步骤d中,计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离,是通过计算所述待识别文本的向量与除了所述主意图类别之外的其他意图类别的标准向量之间的马氏距离,得到包含n个距离值的集合;其中,n为所述其他意图类别的数量。
优选的,所述的步骤e中,从所述预设的意图类别中选取所述待识别文本的子意图类别,是通过在所述集合中选取距离绝对值最小的k个数值所对应的意图类别,作为所述待识别文本的子意图类别;其中,k<n。
对应的,本发明还提供了一种中文文本多意图识别系统,其包括:
向量计算模块,用于根据预设的意图类别,对每个意图类别计算对应的标准向量;并且,计算待识别文本的向量;
主意图识别模块,用于将所述待识别文本的向量输入单意图识别模型中,输出所述待识别文本的主意图类别;
子意图识别模块,其通过计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离;并根据所述马氏距离,从所述预设的意图类别中选取所述待识别文本的子意图类别。
本发明的有益效果是:
(1)本发明通过单意图识别模型和马氏距离算法分别获取待识别文本的主意图类别和子意图类别,能够在准确识别文本的主意图类别的前提下,进一步输出文本最有可能包含的子意图类别,从而实现文本的多意图识别;
(2)本发明通过分别计算每个意图类别下的所有文本在其所属的意图类别中出现的概率,并将概率最高文本的向量作为该概率最高文本所属的意图类别的标准向量,在实际应用中具有更高的准确率;
(3)本发明采用xgboost模型中进行意图识别的训练,从而能够获得高质量的单意图识别模型,进一步提高意图识别的准确性;
(4)本发明选取距离绝对值最小的k个数值所对应的意图类别,作为所述待识别文本的子意图类别,能够获取最有可能包含的子意图类别,准确性更高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种中文文本多意图识别方法的流程简图;
图2为本发明一种中文文本多意图识别系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种中文文本多意图识别方法,其包括以下步骤:
a.根据预设的意图类别,对每个意图类别计算对应的标准向量;
b.计算待识别文本的向量;
c.将所述待识别文本的向量输入单意图识别模型中,输出所述待识别文本的主意图类别;
d.计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离;
e.根据所述马氏距离,从所述预设的意图类别中选取所述待识别文本的子意图类别。
所述的步骤a中,所述标准向量的计算,是通过分别计算每个意图类别下的所有文本在其所属的意图类别中出现的概率,得到概率最高文本,并计算所述概率最高文本的向量,作为该概率最高文本所属的意图类别的标准向量;或者,通过分别计算每个意图类别下的所有文本的向量平均值,作为每个意图类别对应的标准向量;或者,根据经验法进行设置每个意图类别的标准向量。
所述的步骤b中,计算所述待识别文本的向量,或者,所述的步骤a中,计算所述概率最高文本的向量,是通过对文本进行分词和去除停用词的处理,并将处理结果输入word2vec模型中,通过所述word2vec模型输出所述文本的句向量,作为所述待识别文本或所述概率最高文本的向量。其中,所述分词的处理,是采用结巴分词实现了对中文句子按词语粒度进行拆分,其支持三种分词模式:一是精确模式,试图将句子最精确地切开,适合文本分析;二是全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;三是搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。同时还能支持繁体分词和自定义词典。所述word2vec也叫wordembeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
所述的步骤c中,所述的单意图识别模型,是通过将训练数据输入xgboost模型中进行意图识别的训练,得到所述单意图识别模型。xgboost(eXtreme Gradient Boosting)是由陈天奇在gbdt(Gradient Boosting)的基础上改进的集成学习方法,能够自动利用CPU的多线程进行并行计算,同时在算法上加以改进提高了精度。所述xgboost模型是一个加性回归模型,通过boosting迭代构造一组弱学习器进行表决,从而输出最优结果。不需要做特征的归一化,并且,能够自动进行特征选择、模型可解释性较好、可以适应多种损失函数如SquareLoss,LogLoss等。
所述的步骤d中,计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离,是通过计算所述待识别文本的向量与除了所述主意图类别之外的其他意图类别的标准向量之间的马氏距离,得到包含n个距离值的集合;其中,n为所述其他意图类别的数量。所述马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的,通过计算两个未知量的协方差距离,从而实现对未知样本之间相似度的对比。本发明的马氏距离相较于欧氏距离的优点是量纲无关,即两点之间的马氏距离与原始数据的测量单位无关,并且能够排除变量之间的相关性的干扰。因此,本发明采用马氏距离可以很好的避免文本转化为向量后不同维度之间的相关性带来的干扰。
马氏距离的算法如下:
设有向量空间{X1,X2,……,Xn},则Xi到Xj的马氏距离计算公式为:
所述的步骤e中,从所述预设的意图类别中选取所述待识别文本的子意图类别,是通过在所述集合中选取距离绝对值最小的k个数值所对应的意图类别,作为所述待识别文本的子意图类别;其中,k<n。
如图2所示,本发明还提供了一种中文文本多意图识别系统,其包括:
向量计算模块,用于根据预设的意图类别,对每个意图类别计算对应的标准向量;并且,计算待识别文本的向量;
主意图识别模块,用于将所述待识别文本的向量输入单意图识别模型中,输出所述待识别文本的主意图类别;
子意图识别模块,其通过计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离;并根据所述马氏距离,从所述预设的意图类别中选取所述待识别文本的子意图类别。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (7)

1.一种中文文本多意图识别方法,其特征在于,包括以下步骤:
a.根据预设的意图类别,对每个意图类别计算对应的标准向量;
b.计算待识别文本的向量;
c.将所述待识别文本的向量输入单意图识别模型中,输出所述待识别文本的主意图类别;
d.计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离;
e.根据所述马氏距离,从所述预设的意图类别中选取所述待识别文本的子意图类别。
2.根据权利要求1所述的一种中文文本多意图识别方法,其特征在于:所述的步骤a中,所述标准向量的计算,是通过分别计算每个意图类别下的所有文本在其所属的意图类别中出现的概率,得到概率最高文本,并计算所述概率最高文本的向量,作为该概率最高文本所属的意图类别的标准向量;或者,通过分别计算每个意图类别下的所有文本的向量平均值,作为每个意图类别对应的标准向量;或者,根据经验法进行设置每个意图类别的标准向量。
3.根据权利要求1或2所述的一种中文文本多意图识别方法,其特征在于:计算所述待识别文本的向量,或者,计算所述概率最高文本的向量,是通过对文本进行分词和去除停用词的处理,并将处理结果输入word2vec模型中,通过所述word2vec模型输出所述文本的句向量,作为所述待识别文本或所述概率最高文本的向量。
4.根据权利要求1所述的一种中文文本多意图识别方法,其特征在于:所述的步骤c中,所述的单意图识别模型,是通过将训练数据输入xgboost模型中进行意图识别的训练,得到所述单意图识别模型。
5.根据权利要求1所述的一种中文文本多意图识别方法,其特征在于:所述的步骤d中,计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离,是通过计算所述待识别文本的向量与除了所述主意图类别之外的其他意图类别的标准向量之间的马氏距离,得到包含n个距离值的集合;其中,n为所述其他意图类别的数量。
6.根据权利要求5所述的一种中文文本多意图识别方法,其特征在于:所述的步骤e中,从所述预设的意图类别中选取所述待识别文本的子意图类别,是通过在所述集合中选取距离绝对值最小的k个数值所对应的意图类别,作为所述待识别文本的子意图类别;其中,k<n。
7.一种中文文本多意图识别系统,其特征在于,包括:
向量计算模块,用于根据预设的意图类别,对每个意图类别计算对应的标准向量;并且,计算待识别文本的向量;
主意图识别模块,用于将所述待识别文本的向量输入单意图识别模型中,输出所述待识别文本的主意图类别;
子意图识别模块,其通过计算所述待识别文本的向量与所述的每个意图类别对应的标准向量之间的马氏距离;并根据所述马氏距离,从所述预设的意图类别中选取所述待识别文本的子意图类别。
CN201811267991.4A 2018-10-29 2018-10-29 一种中文文本多意图识别方法及系统 Pending CN109635105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811267991.4A CN109635105A (zh) 2018-10-29 2018-10-29 一种中文文本多意图识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811267991.4A CN109635105A (zh) 2018-10-29 2018-10-29 一种中文文本多意图识别方法及系统

Publications (1)

Publication Number Publication Date
CN109635105A true CN109635105A (zh) 2019-04-16

Family

ID=66066759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811267991.4A Pending CN109635105A (zh) 2018-10-29 2018-10-29 一种中文文本多意图识别方法及系统

Country Status (1)

Country Link
CN (1) CN109635105A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414005A (zh) * 2019-07-31 2019-11-05 深圳前海达闼云端智能科技有限公司 意图识别方法、电子设备及存储介质
CN111159332A (zh) * 2019-12-03 2020-05-15 厦门快商通科技股份有限公司 一种基于bert的文本多意图识别方法
CN111368085A (zh) * 2020-03-05 2020-07-03 北京明略软件系统有限公司 一种对话意图的识别方法、装置、电子设备及存储介质
CN111382231A (zh) * 2020-03-05 2020-07-07 苏州思必驰信息科技有限公司 意图识别系统及方法
CN111400438A (zh) * 2020-02-21 2020-07-10 镁佳(北京)科技有限公司 用户多意图的识别方法及装置,存储介质及车辆
CN112101044A (zh) * 2020-11-02 2020-12-18 北京淇瑀信息科技有限公司 一种意图识别方法、装置及电子设备
CN112100339A (zh) * 2020-11-04 2020-12-18 北京淇瑀信息科技有限公司 用于智能语音机器人的用户意图识别方法、装置和电子设备
CN112541079A (zh) * 2020-12-10 2021-03-23 杭州远传新业科技有限公司 多意图识别方法、装置、设备及介质
CN113761183A (zh) * 2020-07-30 2021-12-07 北京汇钧科技有限公司 意图识别方法和意图识别装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235812A (zh) * 2013-04-24 2013-08-07 中国科学院计算技术研究所 查询多意图识别方法和系统
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
US20180130463A1 (en) * 2016-11-10 2018-05-10 Samsung Electronics Co., Ltd. Voice recognition apparatus and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235812A (zh) * 2013-04-24 2013-08-07 中国科学院计算技术研究所 查询多意图识别方法和系统
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
US20180130463A1 (en) * 2016-11-10 2018-05-10 Samsung Electronics Co., Ltd. Voice recognition apparatus and method
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨春妮等: "结合句法特征和卷积神经网络的多意图识别模型", 《计算机应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414005A (zh) * 2019-07-31 2019-11-05 深圳前海达闼云端智能科技有限公司 意图识别方法、电子设备及存储介质
CN110414005B (zh) * 2019-07-31 2023-10-10 达闼机器人股份有限公司 意图识别方法、电子设备及存储介质
CN111159332A (zh) * 2019-12-03 2020-05-15 厦门快商通科技股份有限公司 一种基于bert的文本多意图识别方法
CN111400438A (zh) * 2020-02-21 2020-07-10 镁佳(北京)科技有限公司 用户多意图的识别方法及装置,存储介质及车辆
CN111368085A (zh) * 2020-03-05 2020-07-03 北京明略软件系统有限公司 一种对话意图的识别方法、装置、电子设备及存储介质
CN111382231A (zh) * 2020-03-05 2020-07-07 苏州思必驰信息科技有限公司 意图识别系统及方法
CN113761183A (zh) * 2020-07-30 2021-12-07 北京汇钧科技有限公司 意图识别方法和意图识别装置
CN112101044A (zh) * 2020-11-02 2020-12-18 北京淇瑀信息科技有限公司 一种意图识别方法、装置及电子设备
CN112101044B (zh) * 2020-11-02 2021-11-12 北京淇瑀信息科技有限公司 一种意图识别方法、装置及电子设备
CN112100339A (zh) * 2020-11-04 2020-12-18 北京淇瑀信息科技有限公司 用于智能语音机器人的用户意图识别方法、装置和电子设备
CN112541079A (zh) * 2020-12-10 2021-03-23 杭州远传新业科技有限公司 多意图识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109635105A (zh) 一种中文文本多意图识别方法及系统
Neculoiu et al. Learning text similarity with siamese recurrent networks
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
Chen et al. Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing
CN105808525B (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN105244029B (zh) 语音识别后处理方法及系统
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Zhou et al. Chinese named entity recognition via joint identification and categorization
CN108897989A (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
WO2019228466A1 (zh) 命名实体识别的方法、装置、设备及存储介质
CN111931506A (zh) 一种基于图信息增强的实体关系抽取方法
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN108959474A (zh) 实体关系提取方法
CN109522415A (zh) 一种语料标注方法及装置
CN107844475A (zh) 一种基于lstm的分词方法
CN108681532A (zh) 一种面向中文微博的情感分析方法
CN107894976A (zh) 一种基于Bi‑LSTM的混合语料分词方法
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN116720520B (zh) 一种面向文本数据的别名实体快速识别方法及系统
Sarikaya et al. Shrinkage based features for slot tagging with conditional random fields.
Kang et al. A short texts matching method using shallow features and deep features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190416