CN110705304B

CN110705304B - 一种属性词提取方法

Info

Publication number: CN110705304B
Application number: CN201910734031.2A
Authority: CN
Inventors: 唐婧尧; 薛云; 赵洪雅
Original assignee: South China Normal University; Shenzhen Polytechnic
Current assignee: Shenzhen Vocational And Technical University; South China Normal University
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2020-11-06
Anticipated expiration: 2039-08-09
Also published as: CN110705304A

Abstract

本发明涉及一种属性词提取方法，本案的属性词提取方法通过对狄利克雷树、“文档‑领域‑属性‑词”四层生成式结构及先验知识库结合泛化波利亚模型的运用，一方面以狄利克雷树先验知识的运用，充分考虑词语之间的语义关系，解决了多词一义的问题；另一方面以闭环迭代更新的先验知识库不断改进采样过程，能够实现对语料库中不同领域和属性下词义关系的充分利用，减少对语料库数据量的要求；同时具备了跨领域提取更准确属性词的能力，能应用于更细粒度的属性；在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库，从而精准地、提取跨领域文本中的所有属性词，可在细粒度情感分析任务中提升情感分析的准确率。

Description

一种属性词提取方法

技术领域

本发明涉及自然语言处理技术与情感分析领域，特别是涉及一种属性词提取方法。

背景技术

随着电子商务行业的发展，网络购物越来越受到人们的认可，由此也产生了大量的网络评论文本数据。面对这些网络评论，消费者希望在他们购买某产品前能知道已使用过该产品的人群对于该产品的评价，优化购买决策。另外，从生产者的角度来看，每个人都是潜在的客户。因此，生产者可以通过分析电商评论的情感倾向，了解大部分消费者的喜好，这对于开发新的产品以及管理和改进现有的产品都有很大的帮助。因此，如何对电商评论进行情感分类已经成为自然语言处理领域的一个重要研究课题。

从分析的粒度层次来看，情感分类可分为粗粒度和细粒度层次分类。粗粒度层次分类有篇章级和句子级情感分类，细粒度层次情感分类则是属性级情感分类。随着组织和个人对情感分类的要求越来越高，情感分类的粒度层次正逐步向细粒度分类层面发展。

在属性级情感分类的任务中，提取评论文本的属性词是关键问题之一。属性词，也称“非谓形容词”、“区别词”，是从传统语法中名词、动词、形容词中脱离出来的一类新兴词类。属性词与所饰词语存在着较密切的语义结构关系，表示人、事物的属性或特征，具有区别或分类的作用，少数属性词在修饰动词时表示动作的方式或性质。

在现有技术中，主要应用主题模型来进行语料库挖掘并进行属性词提取；主题模型作为一种经典的非监督学习模型，无需人工标注的语料库，能自动挖掘出语料库中的隐含主题，在属性词提取任务中得到了较好的应用。但是，现有技术需要基于大量语料数据的训练，且没有考虑文本中词语之间的语义信息，难以直接应用于细粒度情感分析中的属性词提取，准确率低，导致情感分类效果一般。

发明内容

本发明的目的在于针对情感分类的局限，提供一种属性词提取方法，由以下技术方案实现：

根据同义词词典构建词语之间的must-link限制关系，将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树，所述狄利克雷树用于作为词分布的先验分布；

建立“文档-领域-属性-词”四层生成式结构，其中，“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布，“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布，“领域-属性-词分布”的先验分布服从所述狄利克雷树分布；

引入先验知识库和泛化波利亚模型改进所述“领域-属性分布”；

整合前述内容，构建第一主题模型，所述第一主题模型为一个四层贝叶斯概率模型；

利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘，生成属性词库；

接收待处理文本；

根据所述属性词库对所述待处理文本进行属性词匹配，提取所述待处理文本中的属性词；

其中，所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立，根据所述第一主题模型每一轮挖掘的输出结果迭代更新；所述第二主题模型为潜在狄利克雷分布主题模型；

所述先验知识库的建立，包括以下步骤：

利用所述第二主题模型按领域分别对语料库进行建模，得到各领域下各属性的词分布；

根据各领域下各属性的词分布，跨领域将相似的属性聚类成属性簇；

获取各属性簇中词语之间的相似度，挖掘相似度大于阈值的词对；

合并各属性簇中挖掘到的词对作为先验知识库；

所述先验知识库的迭代更新，包括以下步骤：

所有领域的语料一起输入所述第一主题模型；

获取所述第一主题模型当前一轮挖掘的输出结果，得到各领域下各属性的词分布；

合并各属性簇中挖掘到的词对以更新所述先验知识库。

相较于现有技术，本案的属性词提取方法通过对狄利克雷树、“文档-领域-属性-词”四层生成式结构及先验知识库结合泛化波利亚模型的运用，一方面利用同义词词典构建约束刻画词语语义相关性的must-link限制关系，以狄利克雷树先验知识的运用，充分考虑词语之间的语义关系，解决了多词一义的问题；另一方面以闭环迭代更新的先验知识库不断改进采样过程，能够实现对语料库中不同领域和属性下词义关系的充分利用，减少对语料库数据量的要求；同时具备了跨领域提取更准确属性词的能力，能应用于更细粒度的属性；在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库，从而精准地、提取跨领域文本中的所有属性词，可在细粒度情感分析任务中提升情感分析的准确率。

进一步的，利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘，可包括以下步骤：

对语料库中每篇文档的每个词w，随机赋予一个领域编号z和一个属性编号c；

重新扫描语料库，对每个词w进行吉布斯采样，更新领域编号z和属性编号c，直至吉布斯采样收敛；

获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵，以每个领域下共现频率最高的前n个属性和词语输出，即各领域下各属性的词分布。

进一步的，对于所述第一主题模型，可通过文档的生成过程对所述第一主题模型进行描述，其文档的生成过程包括以下步骤：

对每一篇文档d，获取一个文档-领域分布

其中，

是狄利克雷分布的分布参数，是一个T维向量；

对文档d下的领域z，获取一个领域-属性分布

其中，

是狄利克雷分布的分布参数，是一个C维向量；

对文档d下的领域z下的属性c，获取一个领域-属性-词语分布

其中，

是狄利克雷分布树分布的参数；

由文档-领域分布

得到文档d中的词语w_i的领域标签z_m,n，

由领域-属性分布

得到词语w_i的属性标签c_m,n，

由领域-属性-词语分布

中得到词语w_m,n并赋给词语w_i，

其中，语料库M为D篇文档的集合，D＝{d₁,d₂,...,d_D}；文档d中存在N_d个词语，

每个词w_i均是词典中的一项，所述词典由V个不同的词构成，i＝1,2,...,V；T是领域的个数，C是属性的个数；Dirichlet()为狄利克雷分布，DirichletTree()为狄利克雷树分布，Multi()为多项分布。

进一步的，所述第一主题模型对词语w_i采样领域标签t和属性标签c的联合概率分布如下：

其中，

表示文档m中主题标签为t的词语个数，不包括位置i处的词语；

表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数，不包括位置i处的词语；I(↑i)表示狄利克雷树的内部节点的子集，且是叶节点w_i的祖先节点；C(s↓i)是s的直接子节点中又是w_i的祖先节点的唯一节点；k为知识库中属性簇c对应的知识；

A_c,w',v'为在每个属性簇c中，语料库中所有词形成的词对v'与w'的关系矩阵：

在一种实施例中，获取各属性簇中词语之间的相似度，可包括以下步骤：

利用以下模型生成语料库中词语的词向量：

其中w_i是中心词i的词向量，

是上下文词j的词向量，b_i和

是偏置，X_ij是词语i和j的共现频数；

根据词语的词向量获取词语之间的余弦相似度，得到词相似度矩阵S：

其中，w_i是词语i的词向量，w_j是词语j的词向量。

一种属性词提取系统，包括：

文本接收模块，用于接收待处理文本；

文本属性词匹配模块，用于对所述待处理文本进行属性词匹配，获得所述待处理文本中的属性词；

属性词库，用于所述文本属性词匹配模块进行属性词匹配；所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成；所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型，对于所述第一主题模型，“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布，“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布，“领域-属性-词分布”的先验分布服从狄利克雷树分布；

所述第一主题模型的吉布斯采样过程由先验知识库结合泛化波利亚模型在每一轮挖掘中调整；所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后生成，根据所述第一主题模型每一轮挖掘的输出结果迭代更新；所述第二主题模型为潜在狄利克雷分布主题模型。

本发明还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。

本发明还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例属性词提取方法的流程图；

图2为本发明实施例所述第一主题模型对语料库进行建模的流程图；

图3为本发明实施例所述属性词库生成流程图；

图4为本发明实施例所述第一主题模型的伪代码示意图；

图5为本发明实施例所述第一主题模型的概率图；

图6为本发明实施例所述先验知识库的建立流程图；

图7为本发明实施例所述先验知识库的迭代更新流程图；

图8为本发明实施例的属性词提取系统。

具体实施方式

对于本发明实施例中所涉及的“领域”与“属性”，可结合以下例子加以理解，比如在一则文字中：“我买了一台新的手机，手机的性能很强大，外观很漂亮，但是价格很贵。”，则其领域涉及：电子产品；涉及的属性有：性能、外观、价格；但是很多词语都可以描述同一个属性，比如价格、价钱、售价都可以描述“价格”这个属性，因此对于“价格”这个属性的属性词可以包括：价格、价钱、售价等。

以下将结合具体的运用场景例子对本发明的实施例进行说明，在对来自不同领域的待处理文本，例如来自电商平台的评论，进行跨领域文本的细粒度情感分析时：

领域1(电子产品领域)：

1a：这个电池的使用寿命很长，但是价格很贵。

1b：这台笔记本的使用年限很短，但是价钱比较便宜。

领域2(酒店领域)：

2a：这个酒店的服务很好，但是消费很高。

2b：这个酒店的房间干净、花费低，但是服务员的态度不好。

通过先提取待处理文本中的属性词，再进一步对待处理文本进行细粒度情感分析；在运用现有技术时，往往无法处理不同领域的内容，提取准确率低，进而影响了情感分类的效果；而运用本发明实施例的属性词提取方法，可对上述跨领域的文本进行处理，提取其中的属性词，请参阅图1，步骤包括：

S01，根据同义词词典构建词语之间的must-link限制关系，将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树，所述狄利克雷树用于作为词分布的先验分布；

S02，建立“文档-领域-属性-词”四层生成式结构，其中，“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布，“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布，“领域-属性-词分布”的先验分布服从所述狄利克雷树分布；

S03，引入先验知识库和泛化波利亚模型改进所述“领域-属性分布”；

S04，整合前述内容，构建第一主题模型，所述第一主题模型为一个四层贝叶斯概率模型；

S05，利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘，生成属性词库；

S06，接收待处理文本；

S07，根据所述属性词库对所述待处理文本进行属性词匹配，提取所述待处理文本中的属性词；

其中，所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立，根据所述第一主题模型每一轮挖掘的输出结果迭代更新；所述第二主题模型为潜在狄利克雷分布主题模型。

由上述方法可在上述应用场景中提取到不同领域下不同属性下的属性词：

领域1-属性1：使用寿命、使用年限；领域1-属性2：价格、价钱。

领域2-属性3：服务、态度；领域2-属性2：消费、花费。

根据以上的属性词提取结果，即可运用现有的细粒度情感分析手段对处理文本进行细粒度情感分析得到以下结果：

领域1(电子产品领域)：

这个电池的使用寿命很长(积极情感)，但是价格很贵(消极情感)。

这台笔记本的使用年限很短(消极情感)，但是价钱比较便宜(积极情感)。

领域2(酒店领域)：

这个酒店的服务很好(积极情感)，但是消费很高(消极情感)。

这个酒店的房间干净、花费低(积极情感)，但是服务员的态度不好(消极情感)。

另外，由于本案在对语料库进行挖掘时，词语可以分配不同的领域和属性，意味着，一个词语在不同的领域和属性下可以具有不同的意义，例如“苹果”这个词语，在“电子产品领域”和“水果领域”具有不同的意义；使得本案在解决一词多义的问题时相比现有技术能有更细化的效果。

具体的，根据所述第一主题模型的特点，所述第一主题模型可称为知识引导的领域属性联合主题模型(Knowledge-guided Domain and Aspect Unification model,KDAUmodel)。

关于must-link限制关系：在主题模型中，如果两个词语u和v分配到任何属性下的概率相似，则称词语u和v具有must-link限制关系。为将同义词能够尽量分配到同一个属性下，如“漂亮”与“美丽”等，即让这类词语具有较强的must-link限制关系。在本实施中利用同义词词典构建词语之间的must-link限制关系，作为一种可选的实施例，所述同义词词典选用《同义词词林》，也可依据其它同义词词库进行。

所述狄利克雷树是一颗高度为3的树，其中每个叶子节点表示一个词语，将具有must-link限制关系的词用一个内部节点s连接成一颗子树，这个内部节点s到这些叶子节点的权重为ησ，其中η、σ为参数。而根节点r到这个节点s的边权重为|L(s)|σ，其中|L(s)|表示s节点的叶子节点个数。而不在任何一个must-link关系图里的词语直接与根节点r相连，且边权重为σ。这里用参数

表示狄利克雷树的结构，以及它的参数η、σ。在狄利克雷树中，每个内部节点s(包括根节点)都服从狄利克雷分布，且狄利克雷分布的参数由节点s的所有分支的权重构成。从狄利克雷树中抽样得到一个词语分布

可以分成两步：首先针对每个内部节点s，从它服从的狄利克雷分布中抽样得到每个分支的概率；然后对于每个叶子节点w，计算从根节点到叶子节点w的路径上的所有分支的概率乘积，得到词语w的概率值

于是，若

则其概率密度为：

其中，L代表所有叶子节点，I表示所有的内部节点，C(s)表示节点s的所有直接子节点。L(s)表示节点s下的所有叶子节点。γ_k表示节点k的入边的权重。

表示节点s下所有叶子节点的概率之和。函数Δ(s)≡γ_s-∑_k∈C(s)γ_k表示内部节点s的入度与出度的差。其他符号的意义与狄利克雷分布是一样的。

类似于狄利克雷分布，狄利克雷树分布与多项分布共轭。而词语

于是通过积分可以得到词语

关于参数

的概率密度函数为：

泛化波利亚模型(Generalized Pólya Urn Model，GPU)是2008年由Mahmoud提出的模型。在本案中，该模型可以有效地利用语义相关词。具体来说，将领域z和属性c分配给词v'不仅会增加将z和c与v'相关联的概率，也会增加z和c与词w'相关联的概率，其中w'和v'表示挖掘得到的词对；概率增加量由模型中的关系矩阵A_c,w',v'决定。

所述第二主题模型为潜在狄利克雷分布(Latent Dirichlet Allocation，LDA)主题模型，狄利克雷分布主题模型为一种采用“文档-主题-词”三层生成式结构的贝叶斯概率模型，即包含词、主题和文档三层结构；对于潜在狄利克雷分布主题模型，可以理解为，一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到；其中，“文档-主题分布”服从多项式分布，“主题-词分布”服从多项式分布。

进一步的，利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘，即对语料库进行建模，请参阅图2，包含以下步骤：

S051，对语料库中每篇文档的每个词w，随机赋予一个领域编号z和一个属性编号c；

S052，重新扫描语料库，对每个词w进行吉布斯采样，更新领域编号z和属性编号c，直至吉布斯采样收敛；

S053，获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵，以每个领域下共现频率最高的前n个属性和词语输出，即各领域下各属性的词分布。

请参阅图3所述属性词库生成流程图及图4所述第一主题模型伪代码示意图，在所述先验知识库根据所述第一主题模型每一轮挖掘的输出结果迭代更新后，所述第一主题模型重复上述步骤直至所述先验知识库到达预设的迭代更新次数，以第一主题模型对语料库进行挖掘的最后一轮输出结果作为所述属性词库。

作为一种可选的实施例，所述语料库可包括来自中文电商平台各领域的评论内容。

对每一篇文档d，获取一个文档-领域分布

其中，

是狄利克雷分布的分布参数，是一个T维向量；

对文档d下的领域z，获取一个领域-属性分布

其中，

是狄利克雷分布的分布参数，是一个C维向量；

对文档d下的领域z下的属性c，获取一个领域-属性-词语分布

其中，

是狄利克雷分布树分布的参数；

由文档-领域分布

得到文档d中的词语w_i的领域标签z_m,n，

由领域-属性分布

得到词语w_i的属性标签c_m,n，

由领域-属性-词语分布

中得到词语w_m,n并赋给词语w_i，

在本领域中详细描述一个主题模型时，一般通过文档的生成过程对其进行描述，特此说明。

进一步的，请参阅图5所述第一主题模型的概率图，所述第一主题模型对词语w_i采样领域标签t和属性标签c的联合概率分布如下：

其中，

所述先验知识库体现在上述关系矩阵A_c,w',v'中，故吉布斯采样概率会随着所述先验知识库的更新而改变。

作为一种可选的实施例，所述KDAU模型可在LDA主题模型的基础上引入狄利克雷树分布改进词分布，将原有的“文档-主题-词”三层生成式结构调整“文档-领域-属性-词”四层生成式结构，并利用先验知识库和泛化波利亚模型改进LDA主题模型的吉布斯采样公式改进而来；具体的，

在LDA主题模型的基础上引入狄利克雷树分布改进词分布：基于狄利克雷树分布，给定主题

的条件下生成词语

的概率为：

此时完整的生成模型为

因此改进后的吉布斯采样公式，即采样词语w_i的主题标签t的概率为：

其中，I(↑i)表示狄利克雷树的内部节点的子集，且是叶节点w_i的祖先节点；C(s↓i)是s的直接子节点中又是w_i的祖先节点的唯一节点。

表示文档m中主题标签为t的词语个数，不包括位置i处的词语。

表示主题标签为t且在狄利克雷树中节点k下的词语个数，不包括位置i处的词语。

将原有的“文档-主题-词”三层生成式结构调整“文档-领域-属性-词”四层生成式结构：对应于“文档-领域-属性-词”四层生成式结构的吉布斯采样公式，即采样词w_i的领域标签t和属性标签c的联合概率分布为：

其中，

表示在领域标签t中属性标签是c的词个数，不包括位置i处的词。

表示领域标签t中属性标签c中词w_i的个数，不包括位置i处的词。

利用先验知识库和泛化波利亚模型改进LDA主题模型的吉布斯采样公式，改进后的吉布斯采样概率公式如下：

其中，

整合上述对LDA主题模型的改进内容，即可在LDA主题模型的基础上获得本案实施例的所述KDAU模型。

进一步的，所述先验知识库的建立，请参阅图6，可包括以下步骤：

B01，利用所述第二主题模型按领域分别对语料库进行建模，得到各领域下各属性的词分布；

B02，根据各领域下各属性的词分布，跨领域将相似的属性聚类成属性簇；

B03，获取各属性簇中词语之间的相似度，挖掘相似度大于阈值的词对；

B04，合并各属性簇中挖掘到的词对作为先验知识库。

进一步的，所述先验知识库的迭代更新，请参阅图7，包括以下步骤：

I01，获取所述第一主题模型当前一轮挖掘的输出结果，得到各领域下各属性的词分布；

I02，根据各领域下各属性的词分布，跨领域将相似的属性聚类成属性簇；

I03，获取各属性簇中词语之间的相似度，挖掘相似度大于阈值的词对；

I04，合并各属性簇中挖掘到的词对以更新所述先验知识库。

利用以下模型生成语料库中词语的词向量：

其中w_i是中心词i的词向量，

是上下文词j的词向量，b_i和

是偏置，X_ij是词语i和j的共现频数；

其中，w_i是词语i的词向量，w_j是词语j的词向量。

一种属性词提取系统，包括：

文本接收模块1，用于接收待处理文本；

文本属性词匹配模块2，用于对所述待处理文本进行属性词匹配，获得所述待处理文本中的属性词；

属性词库3，用于所述文本属性词匹配模块进行属性词匹配；所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成；所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型，对于所述第一主题模型，“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布，“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布，“领域-属性-词分布”的先验分布服从狄利克雷树分布；

本实施例还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。

本实施例还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。