CN111507098B

CN111507098B - 多义词识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111507098B
Application number: CN202010307555.6A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2023-03-21
Anticipated expiration: 2040-04-17
Also published as: CN111507098A

Abstract

本申请实施例涉及人工智能技术领域，公开了一种基于自然语言处理的多义词识别方法、装置、电子设备及计算机可读存储介质，包括：确定待识别词的全局主题分布，待识别词是通过对文本进行分词处理得到的，全局主题分布表征文本的主题分布；接着，确定待识别词与至少一个第一关联词之间的至少一个第一互信息，并基于至少一个第一互信息确定待识别词的局部主题分布，第一关联词与待识别词具有关联关系，局部主题分布表征待识别词在文本中的局部上下文的主题分布；接着，确定全局主题分布与局部主题分布的第一相似度，并根据第一相似度对待识别词进行多义词识别处理。通过融合全局主题分布与局部主题分布，进行多义词识别，具有较高实践价值和意义。

Description

多义词识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请实施例涉及人工智能技术领域，具体而言，本申请涉及一种基于自然语言处理的多义词识别方法、装置、电子设备及计算机可读存储介质。

背景技术

一词多义是自然语言处理中常见的现象和许多场景需要解决的难题，无论是中文或是英文，许多词语往往在不同的上下文中会呈现不同的语义。例如，苹果这个词，在与食品餐饮类相关的文字描述中其为一种水果，而在与科技电子类相关的文字描述中其为手机、电脑等。由于目前主流的词向量模型(比如word2vec模型)构造的词向量，将一个词语表征为唯一的向量化编码，导致多义词均编码为同一词向量，因此，需要进行多义词识别。

多义词识别任务就是让计算机能够自动的识别出给定的段落或句子中存在的多义词，并赋予该词更精确的词表示。多义词识别具有很重要的意义，它不仅能够提高词表示和段表示的质量，也能更准确地挖掘出句子所表达的情感，提高自然语言处理任务的准确率。

本申请的发明人在具体实现过程中发现：目前识别多义词的方法，例如聚类多义词识别、通过平行语料从文本翻译的转化角度识别一词多义、基于投票集成的方法识别多义词等方法等，在识别多义词的过程，不仅耗费大量时间、占用大量资源，而且识别效果不稳定、准确率较低。

发明内容

本申请实施例的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

一方面，提供了一种多义词识别方法，包括：

确定待识别词的全局主题分布，待识别词是通过对文本进行分词处理得到的，全局主题分布表征文本的主题分布；

确定待识别词与至少一个第一关联词之间的至少一个第一互信息，并基于至少一个第一互信息确定待识别词的局部主题分布，第一关联词与待识别词具有关联关系，局部主题分布表征待识别词在文本中的局部上下文的主题分布；

确定全局主题分布与局部主题分布的第一相似度，并根据第一相似度对待识别词进行多义词识别处理。

一方面，提供了一种多义词识别装置，包括：

第一确定模块，用于确定待识别词的全局主题分布，待识别词是通过对文本进行分词处理得到的，全局主题分布表征文本的主题分布；

第二确定模块，用于确定待识别词与至少一个第一关联词之间的至少一个第一互信息，并基于至少一个第一互信息确定待识别词的局部主题分布，第一关联词与待识别词具有关联关系，局部主题分布表征待识别词在文本中的局部上下文的主题分布；

处理模块，用于确定全局主题分布与局部主题分布的第一相似度，并根据第一相似度对待识别词进行多义词识别处理。

在一种可能的实现方式中，第一确定模块用于：

基于预定主题模型确定待识别词所在的文本的主题分布；

确定文本的主题分布为待识别词的全局主题分布。

在一种可能的实现方式中，预定主题模型包括基于期望最大化算法训练得到的文档主题生成模型。

在一种可能的实现方式中，第二确定模块在确定至少一个第一关联词分别与待识别词之间的至少一个第一互信息时，用于执行以下任一项：

基于预定互信息计算公式，确定至少一个样本词分别与待识别词之间的至少一个第一互信息，并根据至少一个第一互信息，从至少一个样本词中确定至少一个第一关联词；

根据基于预定词向量训练工具训练得到的词向量集，确定至少一个样本词的第一词向量与待识别词的第二词向量，计算至少一个第一词向量与第二词向量之间的至少一个第二相似度，并根据至少一个第二相似度，从至少一个样本词中确定至少一个第一关联词，以及基于预定互信息计算公式，计算待识别词与至少一个第一关联词之间的至少一个第一互信息。

在一种可能的实现方式中，第一关联词为与待识别词同步使用的样本词，或者第一关联词为与待识别词同步使用、且同步使用的频率大于预定频率阈值的样本词。

在一种可能的实现方式中，第二确定模块在根据至少一个第一互信息，从至少一个样本词中确定至少一个第一关联词时，用于从至少一个第一互信息中确定最大的N个第一互信息，并将最大的N个第一互信息分别对应的N个样本词确定至少一个至少一个第一关联词，N为正整数。

第二确定模块在根据至少一个第二相似度，从至少一个样本词中确定至少一个第一关联词时，用于从至少一个第二相似度中确定最大的L个第二相似度，并将最大的L个第二相似度分别对应的L个样本词确定为至少一个第一关联词，L为正整数。

在一种可能的实现方式中，第二确定模块在基于至少一个第一互信息确定待识别词的局部主题分布时，用于执行以下任一项：

确定至少一个个第一互信息中的最大值，并确定最大值对应的第一关联词的全局主题分布为待识别词的局部主题分布；

根据最大的M个第一互信息分别对应的M个第一关联词的全局主题分布，确定待识别词的局部主题分布，M为正整数；

根据至少一个第一互信息分别对应的至少一个第一关联词的全局主题分布，确定待识别词的局部主题分布。

在一种可能的实现方式中，处理模块在根据第一相似度对待识别词进行多义词识别处理时，用于：

当第一相似度大于或等于预定相似度阈值，确定待识别词为非多义词，并对待识别词进行相应的非多义词处理；

当第一相似度小于预定相似度阈值，确定待识别词为多义词，并对待识别词进行相应的多义词处理。

一方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现上述的多义词识别方法。

一方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的多义词识别方法。

本申请实施例提供的多义词识别方法，通过与待识别词在使用时具有关联关系的至少一个关联词分别与待识别词之间的至少一个互信息，确定待识别词的局部主题分布，可以更好地挖掘出待识别词的语境相关上下文，从而提炼出与待识别词语境相关的语义表示，利于构建待识别词的局部上下文的主题分布；通过确定全局主题分布与局部主题分布的相似度，可以准确判断局部主题分布与全局主题分布是否存在偏差或是否一致，从而能够高效、准确地进行多义词识别，便于后续合理地对多义词进行消歧处理等，此外，通过融合全局主题分布与局部主题分布，利用相似度进行多义词识别和判断，具有较高的实践价值和参考意义。

本申请实施例附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的多义词识别方法的流程示意图；

图2为本申请实施例的多义词识别的应用示意图；

图3为本申请实施例的多义词识别装置的基本结构示意图；

图4为本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

具体地，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

其中，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体地，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体地，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方法涉及人工智能的机器学习及自然语言处理等技术，具体通过如下实施例进行说明：

本申请一个实施例提供了一种多义词识别方法，该方法由计算机设备执行，该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示，该方法包括：

步骤S110，确定待识别词的全局主题分布，待识别词是通过对文本进行分词处理得到的，全局主题分布表征文本的主题分布；步骤S120，确定待识别词与至少一个第一关联词之间的至少一个第一互信息，并基于至少一个第一互信息确定待识别词的局部主题分布，第一关联词与待识别词具有关联关系，局部主题分布表征待识别词在文本中的局部上下文的主题分布；步骤S130，确定全局主题分布与局部主题分布的第一相似度，并根据第一相似度对待识别词进行多义词识别处理。

通常，文本是由多个词语构成的，对文本进行分词处理便可以得到多个词语，待识别词可以是该多个词语中的任一个。每个词语在文本的文本语境中的主题分布可以划分为两个层面：

第一个层面，是与词语所在文本的全局相关的主题分布(记作全局主题分布)，即词语的全局主题分布是根据词语所在文本的整个文本内容确定出的主题分布，其中，根据文本的整个文本内容确定出的主题分布即为该文本的主题分布。

假如词语W1所在的文本为T1，且T1的整个文本内容包括文本主题名称Name_1及5个文本段落的文本内容(分别为P1、P2、…、及P5)，则：词语W1的全局主题分布是根据T1的文本主题名称Name_1及5个文本段落的文本内容(分别为P1、P2、…、及P5)确定出的主题分布，即词语W1的全局主题分布是T1的主题分布，其中，T1的主题分布是根据T1的整个文本内容(即文本主题名称Name_1及5个文本段落的文本内容)确定出的。

在一个示例中，在根据T1的整个文本内容确定T1的主题分布的过程中，可以根据T1的整个文本内容确定T1属于至少一个预定类型的主题(比如科技主题、财经主题、游戏主题、体育主题及餐饮主题等)的至少一个概率，再根据至少一个个概率确定T1的主题分布。假如T1属于科技主题的概率为Q1、T1属于财经主题的概率为Q2、T1属于游戏主题的概率为Q3、T1属于体育主题的概率为Q4、T1属于餐饮主题的概率为Q5，则可以根据Q1、Q2、Q3、Q4及Q5确定T1的主题分布，比如将概率最大值(例如Q2)对应的主题作为T1的主题，从而得到T1的主题分布为概率最大值对应的主题，又比如将较大的2个概率值(例如Q2与Q5)对应的主题均作为T1的主题，从而得到T1的主题分布为较大的2个概率值对应的主题。

第二个层面，是与词语所在文本的局部上下文相关的主题分布(记作局部主题分布)，即词语的局部主题分布是根据词语所在文本中的局部上下文的文本内容确定出的主题分布，即词语的局部主题分布表征词语的局部上下文的主题分布。

假如文本T1的整个文本内容包括文本主题名称Name_1及5个文本段落的文本内容(分别为P1、P2、…、及P5)，词语W1位于T1的第2个文本段落的文本内容(即P2)中，且认为词语W1的局部上下文为P2，则：词语W1的局部主题分布是根据P2确定出的主题分布，其中，P2中除词语W1外的至少一个词语(例如词语W2、词语W3、词语W4及词语W5)均可以看作是与词语W1具有关联关系的词语(记作至少一个第一关联词)。换言之，根据P2确定词语W1的局部主题分布的过程，相当于根据与词语W1具有关联关系的至少一个第一关联词，确定词语W1的局部主题分布。

在一个示例中，在根据任一第一关联词(例如词语W4)确定词语W1的局部主题分布的过程中，可以直接确定该任一第一关联词属于至少一个预定类型的主题(比如科技主题、财经主题、游戏主题、体育主题及餐饮主题等)的至少一个概率，再根据至少一个概率确定任一第一关联词的主题分布，并将该任一第一关联词的主题分布作为词语W1的局部主题分布。假如第一关联词属于科技主题的概率为K1、第一关联词属于财经主题的概率为K2、第一关联词属于游戏主题的概率为K3、第一关联词属于体育主题的概率为K4、第一关联词属于餐饮主题的概率为K5，则可以根据K1、K2、K3、K4及K5确定第一关联词的主题分布，比如将概率最大值(例如K1)对应的主题作为第一关联词的主题，从而得到第一关联词的主题分布为概率最大值K1对应的主题，进而得到词语W1的局部主题分布为概率最大值K1对应的主题，又比如将较大的2个概率值(例如K1与K4)对应的主题均作为第一关联词的主题，从而得到第一关联词的主题分布为较大的2个概率值对应的主题，进而得到词语W1的局部主题分布为K1与K4对应的主题。

在另一示例中，在根据至少一个第一关联词确定词语W1的局部主题分布的过程中，可以先确定词语W1与至少一个第一关联词之间的至少一个互信息，再基于至少一个信息确定词语W1的局部主题分布。假如至少一个第一关联词中分别为：词语W2、词语W3、词语W4及词语W5，则可以先确定词语W1与词语W2的互信息(记作H1)、词语W1与词语W3的互信息(记作H2)、词语W1与词语W4的互信息(记作H3)、词语W1与词语W5的互信息(记作H4)，此时可以基于H1、H2、H3及H4，确定词语W1的局部主题分布。

需要说明的是，当一个关联词(例如词语W3)与词语W1相关性越大时，即该一个关联词与词语W1关联关系越紧密，则该一个关联词与词语W1间的互信息越大。换言之，基于越大的互信息对应的关联词确定出的词语W1的局部主题分布越准确。

其中，互信息(Mutual Information)是衡量随机变量之间相互依赖程度的度量，可以衡量两个事物的相关性。假如存在一个随机变量X，和另外一个随机变量Y，那么它们的互信息是：I(X,Y)＝H(X)-H(X|Y)，H(X)为X的信息熵，H(X|Y)为已知X的情况下，Y带来的信息熵(条件熵)。

在一种场景下，在识别某个词语是否为多义词时，可以根据该某个词语的全局主题分布和局部主题分布的相似度，来判断该某个词语的全局主题分布和局部主题分布是否一致，从而判断该某个词语是否为多义词。其中，为了便于描述，可以将该某个词语记为待识别词，即待识别词为对一篇文本进行分词处理得到的多个词语中的任意一个。

在一种可能的实现方式中，在确定待识别词的全局主题分布的过程中，可以采用如下处理过程：首先，基于预定主题模型确定待识别词所在的文本的主题分布；接着，确定文本的主题分布为待识别词的全局主题分布。

具体地，待识别词的全局主题分布通常是与待识别词全局相关的内容的主题分布，由于与待识别词全局相关的内容通常是待识别词所在的整个文本，因此，可以将待识别词所在文本的主题分布作为待识别词的全局主题分布。

在实际应用中，可以采用LDA文档主题模型抽取出文本的主题分布信息，其中，LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，用来从文档集中找出一组潜在的包含特定概率的主题，包含词、主题和文档三层结构，即形成词语-主题-文档三层结构。

具体地，主题的特征由词语的分布进行表征，反映了文本的主题分布。LDA文档主题模型的核心公式如下式(1)所示：

其中，p表示概率，w_i为文本d_k中的词语，t_j为文本所隐含的主题。

具体地，LDA生成文本的思想为：通过文本以一定概率选择某个主题，再以一定的概率从该主题中选择某个词语，不循环这两个步骤直至生成整篇文本，即一篇文本的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。

具体地，上述的LDA文档主题模型可以是基于期望最大化算法训练得到的，即基于期望最大化算法训练得到的文档主题生成模型，来确定待识别词所在文本的主题分布，并将待识别词所在文本的主题分布作为待识别词的全局主题分布。其中，基于期望最大化算法训练得到的LDA文档主题模型，只需要经过较小的迭代就可以收敛，从而快速得到文本-主题的分布矩阵，该文本-主题的分布矩阵即为文本的主题分布。文本的主题分布表示词语所在文本属于每个主题的概率，语义相近的词语具有相似的主题分布。

在一种可能的实现方式中，确定待识别词与至少一个第一关联词之间的至少一个第一互信息的方式，可以是基于预定互信息计算公式，确定至少一个样本词分别与待识别词之间的至少一个第一互信息，并根据至少一个第一互信息，从至少一个样本词中确定至少一个第一关联词；也可以根据基于预定词向量训练工具训练得到的词向量集，确定至少一个样本词的第一词向量与待识别词的第二词向量，计算至少一个第一词向量与第二词向量之间的至少一个第二相似度，并根据至少一个第二相似度，从至少一个样本词中确定至少一个第一关联词，以及基于预定互信息计算公式，计算至少一个第一关联词分别与待识别词之间的至少一个第一互信息。

具体地，由于待识别词的局部主题分布与待识别词的局部场景或局部语境密切相关，因此，可以利用互信息的计算来确定与待识别词局部相关的局部主题分布。通常，与待识别词相关性越大的关联词与待识别词间的互信息越大，基于越大的互信息确定出的待识别词的局部主题分布的准确度越高，所以可以先从与待识别词在使用时具有关联关系的至少一个个样本词中，选取出与待识别词经常同步使用或同步更新的样本词作为上述的第一关联词，也可以从先从与待识别词在使用时具有关联关系的若干样本词中，选取出与待识别词经常同步使用或同步更新的样本词、且同步使用的频率大于预定频率阈值的样本词作为上述的第一关联词，即第一关联词为与待识别词同步使用的样本词，或者第一关联词为与待识别词同步使用、且同步使用的频率大于预定频率阈值的样本词。

其中，至少一个样本词为预先通过一定技术手段对大量文本进行分析处理，收集到的与待识别词具有关联关系的至少一个词语，可以根据需要将该至少一个词语存放于一个样本词库中，作为待识别词的样本词。假如待识别词为W0，如果在文本T2中，词语W1、词语W2均与待识别词W0具有关联关系，比如用词语W1经常与待识别词W0搭配使用，又比如待识别词W0经常与词语W2搭配使用，则将词语W1、词语W2存放于待识别词W0的样本词库中，作为待识别词W0的样本词；如果在文本T3中，词语W3与待识别词W0具有关联关系，比如用词语W3经常与待识别词W0搭配使用，则将词语W3存放于待识别词W0的样本词库中，作为待识别词W0的样本词；依此类推，可以得到待识别词W0的大量的样本词。

在一个示例中，至少一个样本词与待识别词之间的关联关系或关联程度相同或不同，比如某个样本词与待识别词特别相关(即关联程度很高)，又比如某个样本词与待识别词一般相关(即关联程度一般)，再比如某个样本词与待识别词特别不太相关(即关联程度很低)。假如至少一个样本词分别为词W1、词W2、词W3、词W4、词W5与词W6，且词W1与词W2均与待识别词出现在同一语句中，词W3与待识别词出现在同一语句中、词W4在待识别词所在语句的上一语句中、词W5在待识别词所在语句的下一语句中，词W6所在语句与待识别词所在语句相距较远，则：词W1、词W2、词W3、词W4及词W5均为与待识别词具有关联关系的词，且词W1、词W2与词W3与待识别词的关联程度很高，词W4及词W5与待识别词的关联程度一般，词W6与待识别词的关联程度很低。

具体地，由于至少一个样本词与待识别词的关联程度不同，因此，需要从至少一个样本词中选取出与待识别词关联程度较高的样本词作为上述的第一关联词。

一方面，由于与待识别词相关性越大的样本词与待识别词间的互信息越大，因此，在从至少一个样本词中选取第一关联词的过程中，可以基于预定互信息计算公式，确定至少一个样本词分别与待识别词之间的至少一个互信息(即第一互信息)，并根据至少一个第一互信息，从至少一个样本词中确定至少一个第一关联词。

基于上述示例，首先，基于预定互信息计算公式，计算至少一个样本词(比如词W1、词W2、词W3、词W4、词W5与词W6)分别与待识别词之间的至少一个互信息(即第一互信息)，分别记作M1、M2、M3、M4、M5及M6；接着，根据至少一个第一互信息(即M1、M2、M3、M4、M5及M6)，从至少一个样本词(即词W1、词W2、词W3、词W4、词W5与词W6)中确定至少一个第一关联词，比如确定第一关联词为词W1、词W2及词W3，又比如确定第一关联词为词W1、词W2、词W3、词W4及词W5，从而得到至少一个第一关联词与待识别之间的至少一个第一互信息，当确定为至少一个第一关联词的至少一个样本词为词语W1、词W2及词W3时，至少一个第一关联词与待识别词之间的至少一个第一互信息分别为M1、M2及M3，当确定为至少一个第一关联词的至少一个样本词为词语W1、词W2、词W3、词W4及词W5时，至少一个第一关联词与待识别词之间的至少一个第一互信息分别为M1、M2、M3、M4及M5。

预定互信息计算公式可以为如下式(2)所示的公式：

其中，I(x,y)表示x与y的互信息，x为待识别词，y为样本词，p(x,y)表示x与y同时出现的概率，p(x)表示x单独出现的概率，p(y)表示y单独出现的概率，p(y|x)表示y在x出现的条件下出现的概率。

在根据至少一个第一互信息，从至少一个样本词中确定至少一个第一关联词的过程中，可以从至少一个第一互信息中确定最大的N个第一互信息，并将该最大的N个第一互信息分别对应的N个样本词确定为至少一个第一关联词，N为正整数，比如1、2、3、4等，N的数值要小于样本词的数量。在一个示例中，假如至少一个样本词分别为词W1、词W2、词W3、词W4、词W5与词W6，该至少一个样本词与待识别词之间的至少一个第一互信息分别为M1、M2、M3、M4、M5及M6，若M1大于M2、M2大于M3、M3大于M4、M4大于M5及M5大于M6，且N的取值为2，则最大的N个第一互信息为M1与M2，此时可以将M1对应的词W1确定为第一关联词，同时将M2对应的词W2确定为第一关联词；若M3大于M2、M2大于M1、M1大于M4、M4大于M5及M5大于M6，且N的取值为4，则最大的N个第一互信息为M1、M2、M3与M4，此时可以将M1对应的词W1确定为第一关联词、将M2对应的词W2确定为第一关联词、将M3对应的样本词W3确定为第一关联词以及将M4对应的词W4确定为第一关联词，从而通过互信息，挖掘出与待识别词经常同步更新的词或经常一起出现的词(即第一关联词)。

此外，为了使得待识别词的局部主题分布更精准、更具有参考意义，在根据互信息确定第一关联词的过程中，可以引入词频的考虑，即更关注高频样本词，该高频样本词可以是与待识别词经常一起出现的频率大于预定频率阈值的样本词。其中，引入词频后的预定互信息计算公式可以为如下式(3)所示的公式：

其中，I(x,y)表示x与y的互信息，x为待识别词，y为样本词，p(x,y)表示x与y同时出现的概率，p(x)表示x单独出现的概率，p(y)表示y单独出现的概率，p(y|x)表示y在x出现的条件下出现的概率，在一个示例中，α的取值可以为α∈(0.5,1]。

另一方面，由于与待识别词相关性越大的样本词与待识别词间的词向量相似度通常越大，因此，在从至少一个样本词中选取第一关联词的过程中，可以确定至少一个样本词的词向量(即第一词向量)分别与待识别词的词向量(即第二词向量)之间的至少一个相似度，并根据至少一个相似度，从至少一个样本词中确定至少一个第一关联词。

假如至少一个样本词分别为词W1、词W2、词W3、词W4、词W5与词W6，若根据基于预定词向量训练工具训练得到的词向量集，确定至少一个样本词(词W1、词W2、词W3、词W4、词W5与词W6)的第一词向量分别为E1、E2、E3、E4、E5及E6，且确定待识别词的第二词为D，则：首先，计算至少一个第一词向量(即E1、E2、E3、E4、E5及E6)与第二词向量(即D)之间的至少一个相似度(即第二相似度)，分别记作S1、S2、S3、S4、S5及S6；接着，根据至少一个第二相似度(即S1、S2、S3、S4、S5及S6)，从至少一个样本词中确定至少一个第一关联词，比如确定至少一个第一关联词分别为词W1、词W2及词W3，又比如确定至少一个第一关联词分别为词W2、词W3、词W4及词W5等；接着，基于预定互信息计算公式，计算至少一个第一关联词(比如词W1、词W2及词W3)分别与待识别词之间的至少一个第一互信息。

其中，上述的预定词向量训练工具可以是Word2vec，即根据基于Word2vec训练得到的词向量集，确定至少一个样本词的第一词向量与待识别词的第二词向量。

在根据至少一个第二相似度，从至少一个样本词中确定至少一个第一关联词的过程中，可以从至少一个第二相似度中确定最大的L个第二相似度，并将该最大的L个第二相似度分别对应的L个样本词确定为至少一个第一关联词，L为正整数，比如1、2、3、4等，L的数值要小于样本词的数量。在一个示例中，假如至少一个样本词分别为词W1、词W2、词W3、词W4、词W5与词W6，该至少一个样本词的第一词向量与待识别词的第二词向量之间的至少一个第二相似度分别为S1、S2、S3、S4、S5及S6，若S1大于S2、S2大于S3、S3大于S4、S4大于S5及S5大于S6，且L的取值为2，则最大的L个第二相似度为S1与S2，此时可以将S1对应的词W1确定为第一关联词，同时将S2对应的词W2确定为第一关联词；若S3大于S2、S2大于S1、S1大于S4、S4大于S5及S5大于S6，且N的取值为4，则最大的L个第二相似度为S1、S2、S3与S4，此时可以将S1对应的词W1确定为第一关联词、将S2对应的词W2确定为第一关联词、将S3对应的词W3确定为第一关联词以及将S4对应的词W4确定为第一关联词。

在确定出至少一个第一关联词(比如词W1、词W2、词W3及词W4)后，可以基于上述式(2)所示的预定互信息计算公式，计算至少一个第一关联词(比如词W1、词W2及词W3)分别与待识别词之间的至少一个第一互信息，比如分别为M1、M2、M3及M4，从而便于后续基于至少一个第一互信息确定待识别词的局部主题分布。

在一种可能的实现方式中，在基于至少一个第一互信息确定待识别词的局部主题分布的过程中，可以确定至少一个第一互信息中的最大值，并确定最大值对应的第一关联词的全局主题分布为待识别词的局部主题分布；也可以根据最大的M个第一互信息分别对应的M个第一关联词的全局主题分布，确定待识别词的局部主题分布，M为正整数；还可以根据至少一个第一互信息分别对应的至少一个第一关联词的全局主题分布，确定待识别词的局部主题分布。

假如至少一个第一关联词分别为词W1、词W2、词W3及词W4，且词W1、词W2、词W3及词W4分别为待识别词的至少一个第一互信息分别为M1、M2、M3及M4，则：

在一种情况下，可以首先确定M1、M2、M3及M4中的最大值，比如最大值为M1，接着，确定该最大值M1对应的第一关联词(即词W1)，接着，基于预定主题模型确定词W1所在文本的主题分布(即词W1的全局主题分布)，并将词W1所在文本的主题分布确定为待识别词的局部主题分布。

在又一种情况下，可以首先确定M1、M2、M3及M4中的M个最大值，若M1大于M2、M2大于M3、M3大于M4，且M的取值为2，则：最大的M个第一互信息分别为M1与M2，接着，确定该M1与M2分别对应的第一关联词(即词W1与词W2)，接着，基于预定主题模型确定词W1所在文本的主题分布(即词W1的全局主题分布)以及基于预定主题模型确定词W2所在文本的主题分布(即词W2的全局主题分布)；接着，根据词W1所在文本的主题分布(即词W1的全局主题分布)与词W2所在文本的主题分布(即词W2的全局主题分布)，确定待识别词的局部主题分布，比如将词W1所在文本的主题分布与词W2所在文本的主题分布联合作为待识别词的局部主题分布。

在另一种情况下，根据M1、M2、M3及M4分别对应的第一关联词(即词W1、词W2、词W3及词W4)的全局主题分布，确定待识别词的局部主题分布。比如基于预定主题模型确定词W1所在文本的主题分布(即词W1的全局主题分布)、确定词W2所在文本的主题分布(即词W2的全局主题分布)、确定词W3所在文本的主题分布(即词W3的全局主题分布)以及确定词W4所在文本的主题分布(即词W4的全局主题分布)；接着，根据词W1的全局主题分布、词W2的全局主题分布、词W3的全局主题分布以及词W4的全局主题分布，确定待识别词的局部主题分布，比如将词W1的全局主题分布、词W2的全局主题分布、词W3的全局主题分布以及词W4的全局主题分布联合作为待识别词的局部主题分布。

具体地，基于以上描述获取到待识别词语的全局主题分布以及局部主题分布后，可以通过计算待识别词语的全局主题分布与局部主题分布的相似度(即第一相似度)，对待识别词在局部场景语义是否发生变化进行判别，其中，全局主题分布描述了待识别词的全局场景语义，局部主题分布描述了待识别词的局部场景语义。换言之，确定全局主题分布与局部主题分布的第一相似度，并根据第一相似度对待识别词进行多义词识别处理。

具体地，在根据第一相似度对待识别词进行多义词识别处理的过程中，当第一相似度大于或等于预定相似度阈值时，可以确定局部主题分布与全局主题分布相一致，属于同一类别，此时可以确定待识别词为非多义词，并对待识别词进行相应的非多义词处理；当第一相似度小于预定相似度阈值时，可以确定局部主题分布与全局主题分布不一致，不属于同一类别，此时可以确定待识别词为多义词，并对待识别词进行相应的多义词处理。

在一个示例中，如图2所示，假如在文本中出现如下两个句子，“苹果最新款功能有所增加，但是由于耗电问题被质疑价格有水分”、“甘肃今年产出了上万吨苹果，而且水分多，非常甜”，其中“水分”为歧义词即多义词。在第一个句子中构造的局部主题分布，其关联词比如为“手机、科技、电子产品、智能硬件、电脑”等，此时刻画的局部主题分布为科技类相关主题；第二个句子中构造的局部主题分布，其关联词比如为“水果、餐饮、农业、食品”等，此时刻画的局部主题分布为非科技类相关主题；假如根据文本整体构造的主题分布(即全局主题分布)为科技类，则通过计算局部主题分布与全局主题分布的相似度(即第一相似度)，可以看出：全局主题分布与第一个句子中构造的局部主题分布(即科技类相关主题分布)更接近，此时可以确定待识别词“水分”不是多义词，否则确定其为多义词；反之，假如根据文本整体构造的主题分布(即全局主题分布)为食品类餐饮类，则通过计算局部主题分布与全局主题分布的相似度(即第一相似度)，可以看出：全局主题分布与第二个句子中构造的局部主题分布(即非科技类相关主题分布)更接近，此时可以确定待识别词“水分”不是多义词，否则确定其为多义词。

需要说明的是，上述计算的相似度可以为余弦相似度，比如计算第一词向量与第二词向量之间的余弦相似度，得到对应的第二相似度，又比如计算全局主题分布与局部主题分布之间的余弦相似度，得到对应的第一相似度。

具体地，本申请实施的多义词识别方法，同样适用于通过判断局部主题分布与全局主题分布是否一致，来进行词语语义识别的其他技术场景，即通过判断局部主题分布与全局主题分布是否一致，进行词语语义识别的方法都在本申请实施例的保护范围之内。比如，本申请实施的多义词识别方法可以广泛应用于多义词识别、语义消歧、词向量学习等领域，适用于自然语言理解、问答系统等场景。例如，某宝的智能客服应用场景中，引入语义消歧算法模型，能够提高问答系统的准确度，如根据用户问题上下文区分多义词的具体含义和场景；又例如，在情感分析等技术应用场景中，通过多义词识别和引入能够提高文本向量表征的精确性，从而提高分类效果，再例如，在论坛的词条构建领域，通过场景识别语义，可以更好地构建结合场景相关的词条，防止出现语境错误的现象。

图3为本申请又一实施例提供的一种多义词识别装置的结构示意图，如图3所示，该装置300可以包括：第一确定模块301、第二确定模块302及处理模块303，其中：

第一确定模块301，用于确定待识别词的全局主题分布，待识别词是通过对文本进行分词处理得到的，全局主题分布表征文本的主题分布；

第二确定模块302，用于确定待识别词与至少一个第一关联词之间的至少一个第一互信息，并基于至少一个第一互信息确定待识别词的局部主题分布，第一关联词与待识别词具有关联关系，局部主题分布表征待识别词在文本中的局部上下文的主题分布；

处理模块303，用于确定全局主题分布与局部主题分布的第一相似度，并根据第一相似度对待识别词进行多义词识别处理。

在一种可能的实现方式中，第一确定模块用于：

基于预定主题模型确定待识别词所在的文本的主题分布；

确定文本的主题分布为待识别词的全局主题分布。

在一种可能的实现方式中，第二确定模块在根据至少一个第一互信息，从至少一个样本词中确定至少一个第一关联词时，用于从至少一个第一互信息中确定最大的N个第一互信息，并将最大的N个第一互信息分别对应的N个样本词确定为至少一个第一关联词，N为正整数；

确定至少一个第一互信息中的最大值，并确定最大值对应的第一关联词的全局主题分布为待识别词的局部主题分布；

本申请实施例提供的装置，通过与待识别词在使用时具有关联关系的至少一个关联词分别与待识别词之间的至少一个互信息，确定待识别词的局部主题分布，可以更好地挖掘出待识别词的语境相关上下文，从而提炼出与待识别词语境相关的语义表示，利于构建待识别词的局部上下文的主题分布；通过确定全局主题分布与局部主题分布的相似度，可以准确判断局部主题分布与全局主题分布是否存在偏差或是否一致，从而能够高效、准确地进行多义词识别，便于后续合理地对多义词进行消歧处理等，此外，通过融合全局主题分布与局部主题分布，利用相似度进行多义词识别和判断，具有较高的实践价值和参考意义。

需要说明的是，本实施例为与上述的方法项实施例相对应的装置项实施例，本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在上述方法项实施例中。

本申请另一实施例提供了一种电子设备，如图4所示，图4所示的电子设备400包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。进一步地，电子设备400还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备400的结构并不构成对本申请实施例的限定。

其中，处理器401应用于本申请实施例中，用于实现图3所示的第一确定模块、第二确定模块及处理模块的功能。收发器404包括接收机和发射机。

处理器401可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现图3所示实施例提供的多义词识别装置的动作。

本申请实施例提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，可实现：确定待识别词的全局主题分布，待识别词是通过对文本进行分词处理得到的，全局主题分布表征文本的主题分布；接着，确定待识别词与至少一个第一关联词之间的至少一个第一互信息，并基于至少一个第一互信息确定待识别词的局部主题分布，第一关联词与待识别词具有关联关系，局部主题分布表征待识别词在文本中的局部上下文的主题分布；接着，确定全局主题分布与局部主题分布的第一相似度，并根据第一相似度对待识别词进行多义词识别处理。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例所示的方法。其中：通过与待识别词在使用时具有关联关系的至少一个关联词分别与待识别词之间的至少一个互信息，确定待识别词的局部主题分布，可以更好地挖掘出待识别词的语境相关上下文，从而提炼出与待识别词语境相关的语义表示，利于构建待识别词的局部上下文的主题分布；通过确定全局主题分布与局部主题分布的相似度，可以准确判断局部主题分布与全局主题分布是否存在偏差或是否一致，从而能够高效、准确地进行多义词识别，便于后续合理地对多义词进行消歧处理等，此外，通过融合全局主题分布与局部主题分布，利用相似度进行多义词识别和判断，具有较高的实践价值和参考意义。

本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种多义词识别方法，其特征在于，包括：

确定待识别词的全局主题分布，所述待识别词是通过对文本进行分词处理得到的，所述全局主题分布表征所述文本的主题分布；

确定所述待识别词与至少一个第一关联词之间的至少一个第一互信息，包括：基于预定互信息计算公式或基于预定词向量训练工具训练得到的词向量集，从与待识别词使用时具有关联关系的至少一个样本词中得到至少一个第一关联词，并确定至少一个第一关联词分别与待识别词之间的至少一个第一互信息；并基于所述至少一个第一互信息确定所述待识别词的局部主题分布，所述第一关联词与所述待识别词具有关联关系，所述局部主题分布表征所述待识别词在所述文本中的局部上下文的主题分布；

确定所述全局主题分布与所述局部主题分布的第一相似度，并根据所述第一相似度对所述待识别词进行多义词识别处理。

2.根据权利要求1所述的方法，其特征在于，确定待识别词的全局主题分布，包括：

基于预定主题模型确定所述待识别词所在的文本的主题分布；

确定所述文本的主题分布为所述待识别词的全局主题分布。

3.根据权利要求2所述的方法，其特征在于，所述预定主题模型包括基于期望最大化算法训练得到的文档主题生成模型。

4.根据权利要求1所述的方法，其特征在于，所述确定所述待识别词与至少一个第一关联词之间的至少一个第一互信息，包括以下任一项：

基于预定互信息计算公式，确定至少一个样本词分别与所述待识别词之间的至少一个第一互信息，并根据所述至少一个第一互信息，从所述至少一个样本词中确定所述至少一个第一关联词；

根据基于预定词向量训练工具训练得到的词向量集，确定至少一个样本词的第一词向量与所述待识别词的第二词向量，计算至少一个第一词向量与所述第二词向量之间的至少一个第二相似度，并根据所述至少一个第二相似度，从所述至少一个样本词中确定所述至少一个第一关联词，以及基于所述预定互信息计算公式，计算所述待识别词与所述至少一个第一关联词之间的至少一个第一互信息。

5.根据权利要求1或4所述的方法，其特征在于，所述第一关联词为与所述待识别词同步使用的样本词，或者所述第一关联词为与所述待识别词同步使用、且同步使用的频率大于预定频率阈值的样本词。

6.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个第一互信息，从所述至少一个样本词中确定所述至少一个第一关联词，包括：

从所述至少一个第一互信息中确定最大的N个第一互信息，并将所述最大的N个第一互信息分别对应的N个样本词确定为所述至少一个第一关联词，所述N为正整数；

所述根据所述至少一个第二相似度，从所述至少一个样本词中确定所述至少一个第一关联词，包括：

从所述至少一个第二相似度中确定最大的L个第二相似度，并将所述最大的L个第二相似度分别对应的L个样本词确定为所述至少一个第一关联词，所述L为正整数。

7.根据权利要求4或6所述的方法，其特征在于，所述基于所述至少一个第一互信息确定所述待识别词的局部主题分布，包括以下任一项：

确定所述至少一个第一互信息中的最大值，并确定所述最大值对应的第一关联词的全局主题分布为所述待识别词的局部主题分布；

根据最大的M个第一互信息分别对应的M个第一关联词的全局主题分布，确定所述待识别词的局部主题分布，所述M为正整数；

根据所述至少一个第一互信息分别对应的至少一个第一关联词的全局主题分布，确定所述待识别词的局部主题分布。

8.根据权利要求1所述的方法，其特征在于，根据所述第一相似度对所述待识别词进行多义词识别处理，包括：

当所述第一相似度大于或等于预定相似度阈值，确定所述待识别词为非多义词，并对所述待识别词进行相应的非多义词处理；

当所述第一相似度小于预定相似度阈值，确定所述待识别词为多义词，并对所述待识别词进行相应的多义词处理。

9.一种多义词识别装置，其特征在于，包括：

第一确定模块，用于确定待识别词的全局主题分布，所述待识别词是通过对文本进行分词处理得到的，所述全局主题分布表征所述文本的主题分布；

第二确定模块，用于确定所述待识别词与至少一个第一关联词之间的至少一个第一互信息，包括：基于预定互信息计算公式或基于预定词向量训练工具训练得到的词向量集，从与待识别词使用时具有关联关系的至少一个样本词中得到至少一个第一关联词，并确定至少一个第一关联词分别与待识别词之间的至少一个第一互信息；并基于所述至少一个第一互信息确定所述待识别词的局部主题分布，所述第一关联词与所述待识别词具有关联关系，所述局部主题分布表征所述待识别词在所述文本中的局部上下文的主题分布；

处理模块，用于确定所述全局主题分布与所述局部主题分布的第一相似度，并根据所述第一相似度对所述待识别词进行多义词识别处理。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-8任一项所述的方法。