CN107577739A

CN107577739A - 一种半监督的领域词挖掘与分类的方法和设备

Info

Publication number: CN107577739A
Application number: CN201710748366.0A
Authority: CN
Inventors: 高登科; 姚佳
Original assignee: Shenzhen City Artificial Intelligence Technology Co Secluded Orchid In A Deserted Valley
Current assignee: Guangdong Hui He science and Technology Development Co., Ltd.
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-01-12
Anticipated expiration: 2037-08-28
Also published as: CN107577739B

Abstract

本发明实例提出了一种半监督的领域词挖掘与分类的方法和设备，其中该方法包括：对领域相关语料进行预处理以及构建种子词表和词语相似度矩阵，挖掘候选领域词以及确定候选领域词的相似度分布，对筛选出的领域词进行类别的标记；以此通过半监督的方式，无需大量标注数据，只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。

Description

一种半监督的领域词挖掘与分类的方法和设备

技术领域

本发明涉及领域词挖掘与分类领域，特别涉及一种半监督的领域词挖掘与分类的方法和设备。

背景技术

领域词是最能代表领域特性并区别其它领域的特征，且领域词可依据在领域内的不同作用划分为不同类别标签，领域词及其类别构成了领域的基础词表数据；因此，领域词的挖掘和分类是中文信息处理的一项重要的基础性工作，在许多中文信息处理项目(例如：自动问答、自动文摘、自动分类、搜索引擎等)中都会涉及到领域词挖掘及分类问题。

而目前领域词的挖掘及分类算法都是要求有监督的学习才能获取到一个比较好的效果。但是有监督就需要大量的已标注语料，而有标注语料其实难以获取，因此实际使用的效果不佳。

发明内容

针对现有技术中的缺陷，本发明提出了一种半监督的领域词挖掘与分类的方法和设备，通过半监督的方式，无需大量标注数据，只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种半监督的领域词挖掘与分类的方法，包括：

对待处理领域的文本数据进行分词和句法分析，并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵；

以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表；

针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵；

基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布；

针对各候选领域词，基于所述候选领域词的类别概率分布，当对应类别的最大概率与第二大概率的差值大于预设阈值时，确认所述候选领域词为领域词，且所述最大概率对应的类别为所述领域词的类别。

在一个具体的实施例中，所述“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括：

获取对所述文本数据进行分词的结果；

基于所述分词的结果训练word2vec模型，以获取所述文本数据内所有词的词向量矩阵。

在一个具体的实施例中，所述“以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表”包括：

获取所述文本数据中，以人工的方式所构建的种子词；其中，所述种子词中包括词与所述词对应的类别；

确定所述种子词在所述文本数据中词性与句法的构成模式；

基于所述构成模式在所述文本数据中确定新的种子词，并集合所有种子词生成初步种子词表；

对所述初步种子词表进行过滤；其中，所述过滤包括低频过滤与词性过滤；进行词性过滤时保留有名词、动词、形容词、副词；

对过滤后的初步种子词表通过word2vec模型的词向量进行Kmeans聚类，以过滤掉非聚簇的离散词，并获取最终的种子词表。

在一个具体的实施例中，所述“针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵”包括：

通过word2vec模型获取的词向量确定所述文本数据中任意两词的第一相似度；

通过预设知识库的词语相似度确定方法对所述文本数据内任意两词的第二相似度进行确定；

确定所述文本数据内所有词的统计特征；其中，所述统计特征包括：词频、TF/IDF、互信息、熵权重统计学特征；

基于所述文本数据与已构建的种子词表构建词语总体相似度的训练测试集

耦合所述第一相似度、所述第二相似度、所述统计特征，并通过所述训练测试集构建用于确定所述文本数据内任意两词总体相似度的LR计算模型；

基于所述LR计算模型确定所述文本数据内任意两词的总体相似度，并基于所述总体相似度生成词语相似度矩阵。

在一个具体的实施例中，所述“基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布”包括：

将所述文本数据中的非种子词设置为候选领域词；

基于所述词语相似度矩阵获取所述候选领域词语所有种子词的相似度；

将相似度超过预设值的种子词按照类别进行合并，得到不同类别的种子词集合；

针对各所述候选领域词，分析不同类别的所述种子词集合下的相似度特征；其中，所述相似度特征包括：最大相似度、最小相似度、相似度序列均值、相似度序列方差、前3大相似度、最小的3个相似度；

基于所述文本数据与已构建的种子词表，构建词语与类别的相似度训练与测试集；

选取所述相似度特征与所述相似度训练与测试集构建词语与类别的相似度LR计算模型；

通过所述相似度LR计算模型确定各所述候选领域词与不同类别的相似度；

对与不同类别的相似度进行归一化处理，以确定所述候选领域词的类别概率分布。

本发明实施例还提出了一种半监督的领域词挖掘与分类的设备，包括：

获取模块，用于对待处理领域的文本数据进行分词和句法分析，并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵；

构建模块，用于以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表；

生成模块，用于针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵；

挖掘模块，用于基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布；

类别确定模块，用于针对各候选领域词，基于所述候选领域词的类别概率分布，当对应类别的最大概率与第二大概率的差值大于预设阈值时，确认所述候选领域词为领域词，且所述最大概率对应的类别为所述领域词的类别。

在一个具体的实施例中，所述获取模块“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括：

获取对所述文本数据进行分词的结果；

在一个具体的实施例中，所述构建模块，用于：

确定所述种子词在所述文本数据中词性与句法的构成模式；

在一个具体的实施例中，所述生成模块，用于：

在一个具体的实施例中，所述类别确定模块，用于：

将所述文本数据中的非种子词设置为候选领域词；

以此，本发明实施例提出了一种半监督的领域词挖掘与分类的方法和设备，其中该方法包括：对待处理领域的文本数据进行分词和句法分析，并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵；以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表；针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵；基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布；针对各候选领域词，基于所述候选领域词的类别概率分布，当对应类别的最大概率与第二大概率的差值大于预设阈值时，确认所述候选领域词为领域词，且所述最大概率对应的类别为所述领域词的类别；以此通过半监督的方式，无需大量标注数据，只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种半监督的领域词挖掘与分类的方法的流程示意图；

图2为本发明实施例提出的一种半监督的领域词挖掘与分类的设备的结构示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在下文中，可在本公开的各种实施例中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在，并且不限制一个或更多个功能、操作或元件的增加。此外，如在本公开的各种实施例中所使用，术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

在本公开的各种实施例中，表述“或”或“A或/和B中的至少一个”包括同时列出的文字的任何组合或所有组合。例如，表述“A或B”或“A或/和B中的至少一个”可包括A、可包括B或可包括A和B二者。

在本公开的各种实施例中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施例中的各种组成元件，不过可不限制相应组成元件。例如，以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如，第一用户装置和第二用户装置指示不同用户装置，尽管二者都是用户装置。例如，在不脱离本公开的各种实施例的范围的情况下，第一元件可被称为第二元件，同样地，第二元件也可被称为第一元件。

应注意到：如果描述将一个组成元件“连接”到另一组成元件，则可将第一组成元件直接连接到第二组成元件，并且可在第一组成元件和第二组成元件之间“连接”第三组成元件。相反地，当将一个组成元件“直接连接”到另一组成元件时，可理解为在第一组成元件和第二组成元件之间不存在第三组成元件。

在本公开的各种实施例中使用的术语“用户”可指示使用电子装置的人或使用电子装置的装置(例如，人工智能电子装置)。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种半监督的领域词挖掘与分类的方法，如图1所示，包括以下步骤：

步骤101、对待处理领域的文本数据进行分词和句法分析，并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵；

具体的，例如医学领域，可以从医疗网站通过网络爬虫等方式来获取文本数据，其他领域的文本数据与此类似，具体的只要能获取到对应的文本数据即可，并不限于具体的方式。

在获取到文本数据之后，会进行分词以及进行句法的分析；

至于上述步骤中的所述“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括：

获取对所述文本数据进行分词的结果；

基于所述分词的结果训练word2vec模型(用于词向量计算的工具)，以获取所述文本数据内所有词的词向量矩阵。

步骤102、以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表；

具体的，在一个实施例中，所述“以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表”包括：

确定所述种子词在所述文本数据中词性与句法的构成模式；

对过滤后的初步种子词表通过word2vec模型的词向量进行Kmeans(Kmeans算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。Kmeans算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。)聚类，以过滤掉非聚簇的离散词，并获取最终的种子词表。

步骤103、针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵；

在一个具体的实施例中，步骤103中的所述“针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵”包括：

确定所述文本数据内所有词的统计特征；其中，所述统计特征包括：词频、TF/IDF(term frequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse DocumentFrequency))、互信息、熵权重统计学特征；

基于所述LR(Logistic Regression，逻辑回归)计算模型确定所述文本数据内任意两词的总体相似度，并基于所述总体相似度生成词语相似度矩阵。

步骤104、基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布；

在一个具体的实施例中，步骤104中的所述“基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布”包括：

将所述文本数据中的非种子词设置为候选领域词；

步骤105、针对各候选领域词，基于所述候选领域词的类别概率分布，当对应类别的最大概率与第二大概率的差值大于预设阈值时，确认所述候选领域词为领域词，且所述最大概率对应的类别为所述领域词的类别。

以此，例如当候选领域词对应类别的最大概率为80％、第二大概率为40％、若是预设阈值为20％，则该候选领域词为领域词，且最大概率对应的类别，例如注射药物类别为该领域词的类别。

实施例2

本发明实施例2公开了一种半监督的领域词挖掘与分类的设备，如图2所示，包括：

获取模块201，用于对待处理领域的文本数据进行分词和句法分析，并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵；

构建模块202，用于以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表；

生成模块203，用于针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵；

挖掘模块204，用于基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布；

类别确定模块205，用于针对各候选领域词，基于所述候选领域词的类别概率分布，当对应类别的最大概率与第二大概率的差值大于预设阈值时，确认所述候选领域词为领域词，且所述最大概率对应的类别为所述领域词的类别。

在一个具体的实施例中，所述获取模块201“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括：

获取对所述文本数据进行分词的结果；

在一个具体的实施例中，所述构建模块202，用于：

确定所述种子词在所述文本数据中词性与句法的构成模式；

在一个具体的实施例中，所述生成模块203，用于：

在一个具体的实施例中，所述类别确定模块204，用于：

将所述文本数据中的非种子词设置为候选领域词；

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种半监督的领域词挖掘与分类的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括：

获取对所述文本数据进行分词的结果；

3.如权利要求1所述的方法，其特征在于，所述“以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表”包括：

确定所述种子词在所述文本数据中词性与句法的构成模式；

4.如权利要求1所述的方法，其特征在于，所述“针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵”包括：

5.如权利要求1所述的方法，其特征在于，所述“基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布”包括：

将所述文本数据中的非种子词设置为候选领域词；

6.一种半监督的领域词挖掘与分类的设备，其特征在于，包括：

类别确定模块，用于针对各候选领域词，基于所述候选领域词的类别概率分布,当对应类别的最大概率与第二大概率的差值大于预设阈值时，确认所述候选领域词为领域词，且所述最大概率对应的类别为所述领域词的类别。

7.如权利要求6所述的设备，其特征在于，所述获取模块“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括：

获取对所述文本数据进行分词的结果；

8.如权利要求6所述的设备，其特征在于，所述构建模块，用于：

确定所述种子词在所述文本数据中词性与句法的构成模式；

9.如权利要求6所述的设备，其特征在于，所述生成模块，用于：

10.如权利要求6所述的设备，其特征在于，所述类别确定模块，用于：

将所述文本数据中的非种子词设置为候选领域词；