CN113723101A

CN113723101A - 一种应用于意图识别的词义消歧方法及装置

Info

Publication number: CN113723101A
Application number: CN202111055755.8A
Authority: CN
Inventors: 孙喜民; 李娜; 周晶; 田晓芸; 李慧超; 孙博
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-11-30

Abstract

本发明公开了一种应用于意图识别的词义消歧方法及装置，包括：获取原始文本信息；对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。本发明能够对文本进行分词、消歧、多义词处理，使得处理后的文本质量和精准度更高，进而提升了后续应用该文本进行训练的模型的识别精度。

Description

一种应用于意图识别的词义消歧方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种应用于意图识别的词义消歧方法及装置。

背景技术

文本意图识别，即基本文本内容归类到不同的意图类别中。通常是基于训练文本训练得到意图识别的神经网络模型，由该神经网络模式自动对待识别的文本进行识别，以获得意图分类。

但是，通常训练样本的文本质量会影响最终进行意图识别的神经网络模型的精度。而文本往往会出现不规范、多口语、多错误词语的问题，同时文本方式多样化，甚至非标准的自然语言、相同或者类似语句可对应多种不同意图等问题。从而使得训练样本精度降低。

发明内容

针对于上述问题，本发明提供一种应用于意图识别的词义消歧方法及装置，实现了提升文本精度和质量的目的。

为了实现上述目的，本发明提供了如下技术方案：

一种应用于意图识别的词义消歧方法，包括：

获取原始文本信息；

对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；

基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；

若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。

可选地，所述方法还包括：

基于所述目标文本生成训练样本；

依据所述训练样本进行神经网络模型训练，获得目标意图识别模型，所述目标意图识别模型用于基于文本进行意图识别。

可选地，所述对原始文本信息进行划分处理，得到第一文本，包括：

基于第一符号对所述原始文本信息进行分句处理，获得分句处理结果；

统计所述分句处理结果中的各个关键词的概率，并基于概率结果进行分词处理，得到第一文本。

可选地，所述目标词义消歧模型包括：

基于文本的互消息模式创建的模型，所述文本的互消息模式表征基于文本的上下文特征，确定随机变量的相关性；

或，

基于贝叶斯分类器创建的模型，所述贝叶斯分类器用于计算特定上下文语境下，概率最大词的分离器；

或，

基于最大熵创建的模型，所述基于最大熵创建的模型用于对多义词根据其特定的上下文条件确定该词的义项。

可选地，所述若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本，包括：

获取第二文本中的词语权重；

基于所述词语权重对多义词的词义进行处理；

利用二进制编码和上下文词预测模式对进行词义处理后的文本进行词向量表示，获得目标文本，所述上下文预测模式用于预测与目标中心词相对应的上下文词的模式。

一种应用于意图识别的词义消歧装置，包括：

获取单元，用于获取原始文本信息；

划分单元，用于对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；

消歧单元，用于基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；

处理单元，用于若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。

可选地，所述装置还包括：

样本生成单元，用于基于所述目标文本生成训练样本；

训练单元，用于依据所述训练样本进行神经网络模型训练，获得目标意图识别模型，所述目标意图识别模型用于基于文本进行意图识别。

可选地，所述划分单元包括：

分句子单元，用于基于第一符号对所述原始文本信息进行分句处理，获得分句处理结果；

分词子单元，用于统计所述分句处理结果中的各个关键词的概率，并基于概率结果进行分词处理，得到第一文本。

可选地，所述目标词义消歧模型包括：

或，

可选地，所述处理单元具体用于：

获取第二文本中的词语权重；

基于所述词语权重对多义词的词义进行处理；

相较于现有技术，本发明提供了一种应用于意图识别的词义消歧方法及装置，包括：获取原始文本信息；对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。本发明能够对文本进行分词、消歧、多义词处理，使得处理后的文本质量和精准度更高，进而提升了后续应用该文本进行训练的模型的识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种应用于意图识别的词义消歧方法的流程示意图；

图2为本发明实施例提供的一种应用于意图识别的词义消歧装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种应用于意图识别的词义消歧方法，主要可以用于电商用户行为意图识别的词义消歧。例如，搜索平台对用户输入的产品信息进行文本信息提取，并对提取到的文本信息进行分词处理。对分好的词语进行词性标注，并通过机器学习的方法进行词义消歧，利用OneHot编码与Skip Gram模型结合的混合模型表示词向量。TF IDF调整词语权重，确定多义词在当前语境下对应的词义，最终输出基于机器学习方法预处理后的文本。本发明可以有效地解决电商行业行为中由于文本预处理不足导致的系统个性化情景有限的问题，提升意图识别结果的可靠性。

为了便于对本发明实施例进行说明，现将本发明实施例提供的相关术语进行解释。

意图识别：意图识别就是从一个句子中抽取它所表达的意图，本质上是一个文本多分类问题，将句子或者我们常说的query分到相应的意图种类。

自然语言处理：自然语言处理(Natural Language Processing，NLP)是一门集语言学，数学及计算机科学于一体的科学。它的核心目标就是把人的自然语言转换为计算机可以阅读的指令，简单来说就是让机器读懂人的语言。

词义消歧：词义消歧(Word Sense Disambiguation，WSD)是确定在特定上下文中歧义词的具体意义。这个问题的解决方案影响其他NLP相关的问题，如机器翻译和文档检索。

词性标注：一定程度上，属于词义消除的范畴，就是在给定句子中判断每个词的语法范畴，确定其词性并进行标注。

文本预处理：用来解决特征空间高维性、语义相关性和特征分布稀疏的一种手段。

文本分类：文本分类是一种监督机器学习方法，用于将句子或文本文档归类为一个或多个已定义好的类别。它是一个被广泛应用的自然语言处理方法，在垃圾邮件过滤、情感分析、新闻稿件分类以及与许多其它业务相关的问题中发挥着重要作用。

One Hot编码：是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

TF-IDF：TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

Word2Vec：是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理(NLP)中。

Skip Gram：Skip-gram用于预测与给定中心词相对应的上下文词。它和连续词袋模型(CBOW)算法相反。在Skip-gram中，中心词是输入词(input word)，上下文词是输出词(output word)。

参见图1，为本发明实施例提供的一种应用于意图识别的词义消歧方法的流程示意图，该方法可以包括：

S101、获取原始文本信息。

原始文本信息是未进行处理的信息，如通过数据挖掘采集到的文本信息，也可以是通过采集终端直接采集获得的文本信息。

S102、对所述原始文本信息进行划分处理，得到第一文本。

其中，划分处理包括分句和分词处理，也就是第一文本是基于分句和分词处理后获得的文本。

S103、基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本。

S104、若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。

在本发明实施例中目标词义消歧模型主要包括有监督的词义消歧模型、基于互消息的消歧方式生成的消歧模型，还有基于贝叶斯分类器的消歧模型。具体的，将在本申请后续实施例中进行说明。在完成了词义消歧之后，为了保证词的更准确性，还利用利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量。并且利用TF-IDF调整词语权重，确定多义词在当前语境下对应的词义。

进一步地，在完成了上述处理之后，获得了目标文本，可以基于所述目标文本生成训练样本；依据所述训练样本进行神经网络模型训练，获得目标意图识别模型，所述目标意图识别模型用于基于文本进行意图识别。

在一种实施方式中，所述对原始文本信息进行划分处理，得到第一文本，包括：

其中，第一符号是指能够进行断句的符号，如句号，感叹号等，具体的，可以利用句号作为识别符对文本进行分句。分句处理后，基于概率统计模型对文本进行分词。

在一种可能的实施方式中，所述目标词义消歧模型包括：

或，

需要说明的是，在本发明实施例中上述消歧模型仅是示例说明，还可以对其进行改进或者使用新的模型来作为消歧模型，本发明实施例对此不进行限定。

具体的，在本发明实施例中为了避免手工标注的困难，通过人工制造数据的方法来获得大规模训练数据和测试数据。主要是将两个自然词汇合并，创建一个伪词来替代所有出现在语料中的原词汇。带有伪词的文本作为歧义原文本，最初的文本作为消歧后的文本。其中：

有监督的词义消歧方法通过建立分类器，用划分多义词上下文类别的方法来区分多义词的词义，主要包括：

(1)基于互信息的消歧方法

基于互信息的消歧方法基本思路是，对每个需要消歧的多义词寻找一个上下文特征，这个特征能够可靠地指示该多义词在特定上下文语境中使用的是哪种语义。互信息是两个随机变量X和Y之间的相关性，X与Y关联越大，越相关，则互信息越大。用在机器翻译中的Flip-Flop算法，这种算法适用于这样的条件，A语言中有一个词，它本身有两种意思，到B语言之后，有两种以上的翻译。我们需要得到的，是B语言中的哪些翻译对应义项1，哪些对应义项2。

(2)基于贝叶斯分类器的消歧方法

基于贝叶斯分类器的消歧方法最初是用来判定垃圾邮件和正常邮件，这里则是用来判定不同义项(义项数可以大于2)，只需要计算给定上下文语境下，概率最大的词义就好了。

(3)基于最大熵的词义消歧方法

利用最大熵模型进行词义消歧的基本思想也是把词义消歧看做一个分类问题，即对于某个多义词根据其特定的上下文条件(用特征表示)确定该词的义项。

(4)基于词典语义定义的消歧方法

词典中的词条本身的定义就可以作为判断其词义的一个很好的条件，就比如英文中的core，在词典中有两个定义，一个是“松树的球果”，另一个是指“用于盛放其它东西的锥形物”，比如“盛放冰激凌的锥形薄饼”。如果在文本中，出现了“树”、或者出现了“冰”，那么这个core的词义就可以确定了。可以计算词典中不同义项的定义和词语在文本中上下文的相似度，就可以选择最相关的词义了。

(5)基于义类词典的消歧方法

和前面基于词典语义的消歧方法相似，只是采用的不是词典里义项的定义文本，而是采用的整个义项所属的义类，比如ANMINAL、MACHINERY等，不同的上下文语义类有不同的共现词，依靠这个来对多义词的义项进行消歧。

无监督的词义消歧方法，利用完全无监督的消歧方法进行词义标注是不可能的，因为词义标注毕竟需要提供一些关于语义特征的描述信息，但是，词义辨识可以利用完全无监督的机器学习方法实现。其关键思想在于上下文聚类，计算多义词所出现的语境向量的相似性就可以实现上下文聚类，从而实现词义区分。其中，主要包括：

用于电商用户行为意图识别的基于贝叶斯分类器的WSD：设计算机给定电商用户行为上下文语境，该算法的目的是取哪一个义项能够使得发生的条件概率P(当前词语所存在的上下文W1|某一个义项s)*P(某一个义项s)达到最大，也即是P(某一个义项s)能够根据上下文语境求得概率最大的义项。

在本发明实施例中还包括：用于电商用户行为意图识别的Flip-Flop算法WSD。

(1)假定一个电商用户文本中某词存在若干词义t₁,t₂,…,t_m，那么即可确定这个词的多个涵义；

(2)对一个多义词，其示意特征的可能取值为：v₁,v₂,…,v_n。

算法的具体表达式为：

在相关的算法假定之下由以上分类公式，算法的实施步骤为：

(1)随机的将t₁,t₂,…,t_m分为两类，可记作R＝{r₁,r₂}；

(2)根据(1)寻找v₁,v₂,…,v_n的一个分类Q＝{q₁,q₂}，使得Q与R的互信息值最大。然后再由Q的值调整R的分类，并反复执行这一过程，直到I(R,Q)的值不再提高或者变化很微小为止，认为分类完毕。

在本发明实施例的一种实施方式中，所述若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本，包括：

获取第二文本中的词语权重；

基于所述词语权重对多义词的词义进行处理；

具体的，可以利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量。利用TF-IDF调整词语权重，确定多义词在当前语境下对应的词义。

本发明实施例提供了一种应用于意图识别的词义消歧方法，包括：获取原始文本信息；对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。本发明能够对文本进行分词、消歧、多义词处理，使得处理后的文本质量和精准度更高，进而提升了后续应用该文本进行训练的模型的识别精度。

参见图2，为本发明实施例提供的一种应用于意图识别的词义消歧装置，包括：

获取单元10，用于获取原始文本信息；

划分单元20，用于对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；

消歧单元30，用于基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；

处理单元40，用于若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。

可选地，所述装置还包括：

样本生成单元，用于基于所述目标文本生成训练样本；

可选地，所述划分单元包括：

可选地，所述目标词义消歧模型包括：

或，

可选地，所述处理单元具体用于：

获取第二文本中的词语权重；

基于所述词语权重对多义词的词义进行处理；

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一项的应用于意图识别的词义消歧方法的步骤。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现的应用于意图识别的词义消歧方法的步骤。

需要说明的是，上述处理器或CPU可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable GateArray，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

需要说明的是，上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种应用于意图识别的词义消歧方法，其特征在于，包括：

获取原始文本信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标文本生成训练样本；

3.根据权利要求1所述的方法，其特征在于，所述对原始文本信息进行划分处理，得到第一文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述目标词义消歧模型包括：

或，

5.根据权利要求1所述的方法，其特征在于，所述若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本，包括：

获取第二文本中的词语权重；

基于所述词语权重对多义词的词义进行处理；

6.一种应用于意图识别的词义消歧装置，其特征在于，包括：

获取单元，用于获取原始文本信息；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

样本生成单元，用于基于所述目标文本生成训练样本；

8.根据权利要求6所述的装置，其特征在于，所述划分单元包括：

9.根据权利要求6所述的装置，其特征在于，所述目标词义消歧模型包括：

或，

10.根据权利要求6所述的装置，其特征在于，所述处理单元具体用于：

获取第二文本中的词语权重；

基于所述词语权重对多义词的词义进行处理；