CN110020439B

CN110020439B - 一种基于隐藏关联网络的多领域文本隐式特征抽取方法

Info

Publication number: CN110020439B
Application number: CN201910304794.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Zhongsenyunlian Chengdu Technology Co ltd
Current assignee: Zhongsenyunlian Chengdu Technology Co ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2020-07-07
Anticipated expiration: 2039-04-16
Also published as: CN110020439A; CN111859898A; CN111859898B

Abstract

本发明属于计算机自然语言处理领域，公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法。该方法包括下列步骤：通过语料预处理得到主体、特征、观点词集，统计得到主体、特征、观点词在语料中的同现频率矩阵；根据同现频率矩阵对三个词集双向增强聚类；计算关联强度，构建主体‑特征‑观点隐藏关联网络；利用隐藏关联网络抽取隐式特征。针对之前隐式特征抽取方法在多领域文本中效果不佳的问题，本方法通过考虑特征与领域知识之间的关联，构造主体‑特征‑观点隐藏关联网络，可以在多领域文本中更好地抽取隐式特征。

Description

一种基于隐藏关联网络的多领域文本隐式特征抽取方法

技术领域

本发明涉及计算机自然语言处理领域，具体涉及一种基于隐藏关联网络的多领域文本隐式特征抽取方法。

背景技术

随着电子商务、社交网络的兴起，带有用户主观情绪色彩的信息或者短文本，例如微博、商品评论的数量正在高速增长，这些用户产生的信息是宝贵的资源，其中的主观性情感和意见等信息能够帮助人们做出决策，因此挖掘这种带有用户主观情绪文本中所表达的观点吸引了人们大量的研究。其中，越来越多的研究者开始关注更细致的意见挖掘，这些研究挖掘人们对事物某一方面的观点，它们在这些研究中被称为特征层面的观点。

该领域内的研究大多数都是着眼于发现文本中的显式的特征，然而许多情况下特征词是由观点词隐含表达的，比如：“电脑便宜”隐含的是主体——“电脑”的特征——“价格”具有观点——“便宜”，这种不显式出现在文本中的特征被称为隐式特征。针对隐式特征的研究大多只考虑文本中特征词与观点词之间的关联，通过语料中特征词与观点词的同现频率矩阵挖掘它们之间的隐藏关联，利用这种隐藏关联能够在得到观点词的情况下预测可能的隐式特征。

但如今很多文本都是混合领域文本，包含多种领域的内容，比如：政治、生物、经济等等。前人提出的隐式特征识别方法只考虑文本中特征词与观点词之间的关联，没有考虑在多领域文本中的应用，对如今日益增多的混合领域文本不能得到很好的效果。

发明内容

本发明的目的在于克服上述隐式特征识别方法在多领域文本效果不佳的问题，提供一种基于隐藏关联网络进行多领域文本隐式特征抽取的方法。本发明加入主体词作为文本所属领域的先验知识约束，参与隐藏关联网络的构建，考虑了主体-特征-观点三方间的隐藏关联，使得本发明在多领域文本的隐式特征抽取中也能得到很好的应用。

本发明是一种基于隐藏关联网络的多领域文本隐式特征抽取方法，包括以下步骤：

步骤1：使用语料进行词向量训练得到语料中每个词的词向量，对语料进行预处理得到主体、特征、观点词集，统计得到词集之间各个词在语料中的同现频率矩阵；

步骤2：根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类，然后重新聚类得到每个词集内部的聚类结果；

步骤3：利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度，构造主体与特征、特征与观点词集之间的二部图，形成主体-特征-观点关联网络；

步骤4：对于需要进行隐式特征抽取的句子，首先得到其中的主体、观点词，然后判断在各自词集中所属类，根据主体-特征-观点关联网络确定可能的隐式特征类，最终从该隐式特征类中得到最可能的隐式特征词。

所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量，通过对语料进行分句分词、词性标注、依存分析预处理得到每个句子的主体词、特征词、观点词，最终得到语料的主体、特征、观点词集合，同时统计得到主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。

所述步骤2中首先根据步骤1中训练得到的词向量在三个词集内部进行初步聚类，然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联，得到相互关联矩阵，利用词与词之间的关联相似度和内容相似度进行两个词集之间的相互增强聚类，最终收敛得到主体-特征词集、特征-观点词集的聚类结果。利用主体-特征词集相互增强聚类得到的主体词集聚类结果，对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类，保证最后得到的特征词集聚类结果同时包含主体和观点信息。

聚类时，词之间的相似度度量定义如下：

其中，S_content(W_i，W_j)表示词W_i和词W_j之间的词向量相似度，这里称S_content(W_i，W_j)为词W_i和词W_j之间的内容相似度；S_rel(W_i，W_j)表示词W_i和词W_j之间的相互关联矩阵中对应的关联向量相似度，这里称S_rel(W_i，W_j)为词W_i和词W_j之间的关联相似度；

表示内部相似度所占权重，

两个词集F和O之间进行双向增强聚类的过程为：

a.只考虑内部相似度，即词向量间的余弦相似度，将集合F中的词聚类成k个类；

b.根据集合F的聚类结果更新集合O的相互关联矩阵M₁，对于集合O中的任何一个词O_i，词O_i对应的与集合F聚类结果之间的关联向量由

表示，关联向量

中的每个分量对应F聚类后的k个类之一，其中

是词O_i与F聚类后的第x个类之间的权重，是词O_i与第x个类中的所有词的同现频率之和，x∈[1,k]；最终由集合O中n个词的关联向量构成新的n×k相互关联矩阵M₁；

c.根据b中更新的集合O和集合F之间的相互关联矩阵M₁，将集合O中的数据对象聚类成l个类；

d.根据集合O的聚类结果更新集合F的相互关联矩阵M₂，对于集合F中的任何一个词F_i，词F_i对应的与集合O聚类结果之间的关联向量由

表示，关联向量

中的每个分量对应O聚类后的l个类之一，其中

是词F_i与O聚类后的第y个类之间的权重，是词F_i与第y个类中的所有词的同现频率之和，y∈[1,l]；最终由集合F中m个词的关联向量构成新的m×l相互关联矩阵M₂；

e.根据d中更新的集合F和集合O之间的相互关联矩阵M₂，将集合F中的数据对象重新聚类为k个类；

f.迭代上述步骤b-e，直到两个词集的聚类结果收敛。

利用主体-特征词集相互增强聚类得到的主体词集聚类结果S_r，对特征-观点词集相互增强聚类得到的特征词集聚类结果F_r进行重新聚类的过程为：假设主体词集聚类结果S_r包含p个双向增强聚类得到的类，特征词集聚类结果F_r包含q个双向增强聚类得到的类；对于需要重新聚类的特征词集聚类结果F_r，F_r中的任意一个特征词Y_i对应的与主体词集聚类结果S_r之间的关联向量由

表示；关联向量R″_i中的每个分量对应主体词集聚类结果S_r的p个类之一，其中

是特征词Y_i与主体词集聚类结果S_r的第z个类之间的权重，z∈[1,p]；在F_r的每个类中，特征词两两配对计算关联向量相似度进行比较，对关联向量相似度小于阈值t的特征词划分到新的类中，最终得到重新聚类后的特征词集F_fr。

所述步骤3中根据步骤2中得到的主体词集聚类结果S_r、特征词集聚类结果F_r、特征词集聚类结果F_fr，利用同现频率矩阵计算主体-特征、特征-观点词集各个聚类类之间的关联强度，最终构建出主体-特征-观点关联网络。关联强度由两个类之间的PMI表示，定义为：

这里的P(c₁)和P(c₂)是类c₁和类c₂中的词语在语料库中出现的频率，P′(c₁,c₂)是类c₁中所有词语和类c₂中所有词语，在语料库中的句子层面上的同现频率之和。利用互信息PMI作为类之间的关联强度，关联主体-特征词集、特征-观点词集，构造出主体-特征-观点关联网络。

所述步骤4中利用主体-特征-观点关联网络对句子中可能的隐式特征进行抽取，基本流程是：对于需要进行隐式特征抽取的句子，利用分词、词性标注、依存分析等技术得到句子中的主体词和观点词，考虑与该主体词和观点词属于的的主体类和观点类，根据主体-特征-观点关联网络得到与这两个主体类和观点类加权关联度最高的特征类，最终预测这个特征类中最可能的特征词作为隐式特征。因为考虑了与主体词之间的关联，所以这种隐式特征识别对多领域文本也有较好的效果。

附图说明

图1为本发明的流程示意图；

图2为主体-特征-观点关联网络图；

图3为主体-特征-观点关联网络的构建流程；

图4为利用主体-特征-观点关联网络进行隐式特征识别的示例。

具体实施方式

下面结合附图和实施例对本发明内容作进一步详细说明，但不是对本发明的限定。

参照图1，一种基于隐藏关联网络的多领域文本隐式特征抽取方法，包括以下步骤：

ST1：使用语料进行词向量训练得到语料中每个词的词向量，对语料进行预处理得到主体、特征、观点词集，统计得到词集之间各个词在语料中的同现频率矩阵。具体流程如下：

a.对语料进行分句、分词处理得到训练数据，使用训练数据进行词向量训练得到语料中每个词对应的词向量。

b.对语料进行分句、分词、词性标注、依存分析。如果句子中的名词与标注的句子所属主体进行词向量相似度比较，若二者词向量相似度大于阈值T，则该名词作为主体词加入主体词集，否则作为特征词候选，句子中的形容词作为观点词候选。根据依存分析得到的句子依存树，挑选在依存树上被特定关系连接的候选特征词和候选观点词加入特征词集、观点词集，比如观点词和特征词之间常常被关系为“amod”和“nsubj”的边连接，选择这些关系连接的候选特征词和候选观点词进入特征词集、观点词集，最终得到语料的主体、特征、观点词集合。

c.在确定了主体词s的句子中按照上述方法确定特征词f和观点词o，统计出主体词s和特征词f、特征词f和观点词o在语料中的同现频率，遍历语料中所有句子最终得到主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵M_sf和M_fo。

ST2：根据ST1中统计得到的同现频率矩阵M_sf和M_fo在主体-特征、特征-观点词集之间进行双向增强聚类，然后重新聚类得到每个词集内部的聚类结果。

首先根据ST1中训练得到的词向量在三个词集内部进行初步聚类，然后在主体-特征词集、特征-观点词集之间使用同现频率矩阵M_sf和M_fo考虑一个词集的每个词与另一个词集内聚类类之间的关联，得到相互关联矩阵。利用词与词之间的关联相似度和内容相似度进行两个词集之间的相互增强聚类，最终收敛得到主体-特征词集、特征-观点词集的双向增强聚类结果。

聚类时，词之间的相似度度量定义如下：

表示内部相似度所占权重，

两个词集F和O之间进行相互增强聚类的具体流程为：

表示，关联向量

中的每个分量对应F聚类后的k个类之一，其中

是词O_i与F聚类后的第x个类之间的权重，是词O_i与第x个类中的所有词的同现频率之和，x∈[1，k]；最终由集合O中n个词的关联向量构成新的n×k相互关联矩阵M₁；

表示，关联向量

中的每个分量对应O聚类后的l个类之一，其中

f.迭代上述步骤b-e，直到两个词集的聚类结果收敛。

最后利用主体-特征词集相互增强聚类得到的主体词集聚类结果S_r，对特征-观点词集相互增强聚类得到的特征词集聚类结果F_r进行重新聚类，保证最后得到的特征词集聚类结果F_fr同时包含主体和观点信息。重新聚类过程如下：

假设主体词集聚类结果S_r包含p个双向增强聚类得到的类，特征词集聚类结果F_r包含q个双向增强聚类得到的类；对于需要重新聚类的特征词集聚类结果F_r，F_r中的任意一个特征词Y_i对应的与主体词集聚类结果S_r之间的关联向量由

ST3：根据步骤ST2中得到的主体词集聚类结果S_r、特征词集聚类结果F_r、特征词集聚类结果F_fr，利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度，构造主体与特征、特征与观点词集之间的二部图，形成主体-特征-观点关联网络。

主体-特征-观点关联网络参考图2，其中词语被分为三个部分：主体词集、特征词集、观点词集。三个词集通过ST2中的聚类得到最终聚类结果，每个词集被聚类为若干个类，图中每个虚线圈定的部分表示一个类，主体-特征词集、特征-观点词集的各个类之间含有关联，类之间的关联在图中使用虚线表示，代表两个类中的词在语料中的句子里共同出现过。

图2中类之间的关联由类之间的虚线表示，本方法利用类之间的点互信息PMI作为类之间的关联强度，PMI的计算公式为：

这里的P(c₁)和P(c₂)是类c₁和类c₂中的词语在语料库中出现的频率，P′(c₁,c₂)是类c₁中所有词语和类c₂中所有词语，在语料库中的句子层面上的同现频率之和。

参照图3，主体-特征-观点关联网络的具体构造流程如下：

a.仅根据内容相似度，即词向量间的余弦相似度，特征词集F内容聚类成k个类，得到初步聚类后的特征词集F₁；

b.根据ST2中的相互增强的聚类方法，在特征词集F₁与主体词集S之间进行双向增强聚类得到聚类后的主体词集S₁，在特征词集F₁与观点词集O之间进行双向增强聚类得到聚类后的观点词集O₁和特征词集F₂；

c.由于F2中某些类中含有多领域的特征，因此需要根据与主体词集S1之间的关联权重矩阵对F2进行重新聚类，重新聚类方法如ST2所述，最终得到重新聚类后的特征词集F3；

d.根据从语料中统计得到的主体-特征、特征-观点共现频率矩阵Msf和Mfo，构造主体词集S1与特征词集F3、特征词集F3与观点词集O1之间类与类的关联强度，关联强度由上述的PMI表示。利用点互信息PMI作为类之间的关联强度，关联主体-特征词集、特征-观点词集，得到三个词集的聚类结果以及关联信息：类的个数、每个类的类中心向量、每个词所属类的标号、类之间的关联强度等，这些信息构成了主体-特征-观点关联网络。

ST4：对于需要进行隐式特征抽取的句子，首先得到其中的主体、观点词，然后判断在各自词集中所属类，根据主体-特征-观点关联网络确定可能的隐式特征类，最终从该隐式特征类中得到最可能的隐式特征词。具体的流程参照图4：

a.对要识别隐式特征的一个句子进行分词、词性标注和依存分析，将名词作为主体词候选，形容词作为观点词，查询哪些名词和形容词在依存树上被特定关系连接；当一个名词与一个形容词被特定关系连接：如果该名词存在于特征词集则把该名词作为显式特征抽取出来，否则把该名词当做主体词，把与它连接的形容词作为观点词；

b.判断识别出的主体词和观点词所属的主体类s和观点类o，根据关联网络里存储的主体-特征词集、特征-观点词集各个类之间的关联强度，选择与主体类s和观点类o的平均关联强度最强的特征类s；

c.从特征类s中抽取最可能的词作为隐式特征词，这里我们抽取类中在语料里出现次数最多的词作为隐式特征词w。

一个具体的示例参考图4，以句子“张子枫还很小，但是她的演技已经得到了认可”为例进行隐式特征抽取：

a.对句子“张子枫还很小，但是她的演技已经得到了认可”进行分词、词性标注和依存分析，人名“张子枫”与形容词“小”在依存树上存在指定关系“nsubj”的连接，判断“张子枫”不存在与特征词集中，将“张子枫”作为主体词，形容词“小”作为观点词；

b.根据a中识别出的主体词“张子枫”和观点词“小”，将它们的词向量分别和主体词集的各个类中心向量、观点词集的各个类中心向量计算相似度，选择与其相似度最高的主体类——“人”和观点类——“大小”作为它们所属的类别，根据构建的主体-特征-观点关联网络，选择与主体类——“人”和观点类——“大小”关联强度最高的特征类，这里通过选择与主体类——“人”和观点类——“大小”都存在的关联的特征类，然后计算与两个类的平均关联强度最高的特征类“年龄”(这里指该特征类的代称为年龄类，并非年龄这个词)作为最可能的特征类；

c.从b中得到的最可能的特征类“年龄”中选择最可能的特征词作为预测的隐式特征，这里选择该特征类中在语料里出现频率最高的特征词“年龄”作为隐式特征词。

Claims

1.一种基于隐藏关联网络的多领域文本隐式特征抽取方法，其特征在于包括以下步骤：

步骤4：对于需要进行隐式特征抽取的句子，得到其中的主体、观点词，然后判断在各自词集中所属类，根据主体-特征-观点关联网络确定可能的隐式特征类，最终从该隐式特征类中得到最可能的隐式特征词。

2.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法，其特征在于：所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量，对语料进行预处理得到主体、特征、观点词集，统计得到词集之间各个词在语料中的同现频率矩阵，具体为：对语料进行分句、分词处理得到训练数据，使用训练数据进行词向量训练得到语料中每个词的词向量；对语料进行分句、分词、词性标注、依存分析预处理，从句子中选择可能的名词作为主体词加入主体词集，否则作为特征词候选，句子中的形容词作为观点词候选，根据依存分析得到的依存树，挑选被特定关系连接的候选特征词和候选观点词加入特征词集、观点词集；统计出主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。

3.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法，其特征在于：所述步骤2中根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类，然后重新聚类得到每个词集内部的聚类结果，具体为：首先根据所述步骤1训练得到的词向量在三个词集内部进行初步聚类，然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联，得到相互关联矩阵，利用词与词之间的关联相似度和内容相似度进行相互增强的迭代聚类，最终收敛得到主体-特征、特征-观点词集的聚类结果；利用主体-特征词集相互增强聚类得到的主体词集聚类结果，对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类，保证最后得到的特征词集聚类结果同时包含主体和观点信息；

聚类时，词之间的相似度度量定义如下：

其中，S_content(W_i,W_j)表示词W_i和词W_j之间的词向量相似度，这里称S_content(W_i,W_j)为词W_i和词W_j之间的内容相似度；S_rel(W_i,W_j)表示词W_i和词W_j之间的相互关联矩阵中对应的关联向量相似度，这里称S_rel(W_i,W_j)为词W_i和词W_j之间的关联相似度；

表示内部相似度所占权重，

对于两个词集F和O之间的相互增强聚类流程如下：

a.只考虑内容相似度，即词向量间的余弦相似度，将集合F中的词聚类成k个类；

表示，关联向量

中的每个分量对应集合F聚类后的k个类之一，其中

词O_i与集合F聚类后的第x个类之间的权重，是词O_i与第x个类中的所有词的同现频率之和，x∈[1,k]；最终由集合O中n个词的关联向量构成新的n×k维的相互关联矩阵M₁；

表示，关联向量

中的每个分量对应集合O聚类后的l个类之一，其中

词F_i与集合O聚类后的第y个类之间的权重，是词F_i与第y个类中的所有词的同现频率之和，y∈[1,l]；最终由集合F中m个词的关联向量构成新的m×l维的相互关联矩阵M₂；

f.迭代步骤b-e，直到两个词集的聚类结果收敛；

利用主体-特征词集相互增强聚类得到的主体词集聚类结果S_r，对特征-观点词集相互增强聚类得到的特征词集聚类结果F_r进行重新聚类的过程如下：

是特征词Y_i与主体词集聚类结果S_r的第z个类之间的权重，z∈[1,p]；在特征词集聚类结果F_r的每个类中，特征词两两配对计算关联向量相似度进行比较，对关联向量相似度小于阈值t的特征词划分到新的类中，最终得到重新聚类后的特征词集F_fr。

4.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法，其特征在于：所述步骤3中利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度，构造主体与特征、特征与观点词集之间的二部图，形成主体-特征-观点关联网络，具体为：

a.仅根据内容相似度，即词向量之间的余弦相似度，将特征词集F聚类成k个类，得到初步聚类后的特征词集F₁；

b.根据所述步骤2中的双向增强的聚类方法，使用集合F₁与主体词集S之间进行双向增强聚类得到聚类后的主体词集S₁，使用集合F₁与观点词集O之间进行双向增强聚类得到聚类后的观点词集O₁和特征词集F₂；

c.由于集合F₁与观点词集O之间进行双向增强聚类得到聚类后的特征词集F₂中某些类中含有多领域的特征，因此需要根据特征词集F₂与主体词集S₁之间的相互关联矩阵M对特征词集F₂进行重新聚类，相互关联矩阵M是由特征词集F₂中的每一个特征词与主体词集S₁的关联向量构成，每个关联向量的分量代表对应特征词与主体词集S₁每个类的权重；根据相互关联矩阵M对特征词集F₂进行重新聚类的方法如步骤2所述，最终得到重新聚类后的特征词集F₃；

d.根据从语料中统计得到的主体-特征、特征-观点共现频率矩阵，构造主体词集S₁与特征词集F₃、特征词集F₃与观点词集O₁之间类与类的关联强度，关联强度由PMI表示，计算公式为：

这里的P(c₁)和P(c₂)是类c₁和类c₂中的词语在语料库中出现的频率，P′(c₁,c₂)是类c₁中所有词语和类c₂中所有词语，在语料库中的句子层面上的同现频率之和，利用互信息PMI作为类之间的关联强度，关联主体-特征词集、特征-观点词集，构造出主体-特征-观点关联网络。

5.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法，其特征在于：所述步骤4中对于需要进行隐式特征抽取的句子，得到其中的主体、观点词，然后判断在各自词集中所属类，根据主体-特征-观点关联网络确定可能的隐式特征类，最终从该隐式特征类中得到最可能的隐式特征词，具体为：对要识别隐式特征的句子进行分词、词性标注和依存分析，从句子中识别可能的主体词和观点词；判断识别出的主体词和观点词所属的主体类s和观点类o，根据关联网络里主体-特征词集、特征-观点词集里各个类之间的关联强度，选择与主体类s和观点类o的平均关联强度最强的特征类f；从特征类f中抽取在语料里出现次数最多的词作为隐式特征词w。