CN110705304B - 一种属性词提取方法 - Google Patents

一种属性词提取方法 Download PDF

Info

Publication number
CN110705304B
CN110705304B CN201910734031.2A CN201910734031A CN110705304B CN 110705304 B CN110705304 B CN 110705304B CN 201910734031 A CN201910734031 A CN 201910734031A CN 110705304 B CN110705304 B CN 110705304B
Authority
CN
China
Prior art keywords
attribute
word
distribution
words
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910734031.2A
Other languages
English (en)
Other versions
CN110705304A (zh
Inventor
唐婧尧
薛云
赵洪雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Shenzhen Polytechnic
Original Assignee
South China Normal University
Shenzhen Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University, Shenzhen Polytechnic filed Critical South China Normal University
Priority to CN201910734031.2A priority Critical patent/CN110705304B/zh
Publication of CN110705304A publication Critical patent/CN110705304A/zh
Application granted granted Critical
Publication of CN110705304B publication Critical patent/CN110705304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种属性词提取方法,本案的属性词提取方法通过对狄利克雷树、“文档‑领域‑属性‑词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。

Description

一种属性词提取方法
技术领域
本发明涉及自然语言处理技术与情感分析领域,特别是涉及一种属性词提取方法。
背景技术
随着电子商务行业的发展,网络购物越来越受到人们的认可,由此也产生了大量的网络评论文本数据。面对这些网络评论,消费者希望在他们购买某产品前能知道已使用过该产品的人群对于该产品的评价,优化购买决策。另外,从生产者的角度来看,每个人都是潜在的客户。因此,生产者可以通过分析电商评论的情感倾向,了解大部分消费者的喜好,这对于开发新的产品以及管理和改进现有的产品都有很大的帮助。因此,如何对电商评论进行情感分类已经成为自然语言处理领域的一个重要研究课题。
从分析的粒度层次来看,情感分类可分为粗粒度和细粒度层次分类。粗粒度层次分类有篇章级和句子级情感分类,细粒度层次情感分类则是属性级情感分类。随着组织和个人对情感分类的要求越来越高,情感分类的粒度层次正逐步向细粒度分类层面发展。
在属性级情感分类的任务中,提取评论文本的属性词是关键问题之一。属性词,也称“非谓形容词”、“区别词”,是从传统语法中名词、动词、形容词中脱离出来的一类新兴词类。属性词与所饰词语存在着较密切的语义结构关系,表示人、事物的属性或特征,具有区别或分类的作用,少数属性词在修饰动词时表示动作的方式或性质。
在现有技术中,主要应用主题模型来进行语料库挖掘并进行属性词提取;主题模型作为一种经典的非监督学习模型,无需人工标注的语料库,能自动挖掘出语料库中的隐含主题,在属性词提取任务中得到了较好的应用。但是,现有技术需要基于大量语料数据的训练,且没有考虑文本中词语之间的语义信息,难以直接应用于细粒度情感分析中的属性词提取,准确率低,导致情感分类效果一般。
发明内容
本发明的目的在于针对情感分类的局限,提供一种属性词提取方法,由以下技术方案实现:
根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;
建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;
引入先验知识库和泛化波利亚模型改进所述“领域-属性分布”;
整合前述内容,构建第一主题模型,所述第一主题模型为一个四层贝叶斯概率模型;
利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;
接收待处理文本;
根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;
其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型;
所述先验知识库的建立,包括以下步骤:
利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对作为先验知识库;
所述先验知识库的迭代更新,包括以下步骤:
所有领域的语料一起输入所述第一主题模型;
获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对以更新所述先验知识库。
相较于现有技术,本案的属性词提取方法通过对狄利克雷树、“文档-领域-属性-词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面利用同义词词典构建约束刻画词语语义相关性的must-link限制关系,以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。
进一步的,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,可包括以下步骤:
对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;
重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;
获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。
进一步的,对于所述第一主题模型,可通过文档的生成过程对所述第一主题模型进行描述,其文档的生成过程包括以下步骤:
对每一篇文档d,获取一个文档-领域分布
Figure GDA0002619088480000031
Figure GDA0002619088480000032
其中,
Figure GDA0002619088480000033
是狄利克雷分布的分布参数,是一个T维向量;
对文档d下的领域z,获取一个领域-属性分布
Figure GDA0002619088480000034
Figure GDA0002619088480000035
其中,
Figure GDA0002619088480000036
是狄利克雷分布的分布参数,是一个C维向量;
对文档d下的领域z下的属性c,获取一个领域-属性-词语分布
Figure GDA0002619088480000037
Figure GDA0002619088480000038
其中,
Figure GDA0002619088480000039
是狄利克雷分布树分布的参数;
由文档-领域分布
Figure GDA00026190884800000310
得到文档d中的词语wi的领域标签zm,n
Figure GDA00026190884800000311
由领域-属性分布
Figure GDA00026190884800000312
得到词语wi的属性标签cm,n
Figure GDA00026190884800000313
由领域-属性-词语分布
Figure GDA00026190884800000314
中得到词语wm,n并赋给词语wi
Figure GDA00026190884800000315
其中,语料库M为D篇文档的集合,D={d1,d2,...,dD};文档d中存在Nd个词语,
Figure GDA00026190884800000316
每个词wi均是词典中的一项,所述词典由V个不同的词构成,i=1,2,...,V;T是领域的个数,C是属性的个数;Dirichlet()为狄利克雷分布,DirichletTree()为狄利克雷树分布,Multi()为多项分布。
进一步的,所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
Figure GDA0002619088480000041
其中,
Figure GDA0002619088480000042
表示文档m中主题标签为t的词语个数,不包括位置i处的词语;
Figure GDA0002619088480000043
表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
Figure GDA0002619088480000044
在一种实施例中,获取各属性簇中词语之间的相似度,可包括以下步骤:
利用以下模型生成语料库中词语的词向量:
Figure GDA0002619088480000045
其中wi是中心词i的词向量,
Figure GDA0002619088480000046
是上下文词j的词向量,bi
Figure GDA0002619088480000047
是偏置,Xij是词语i和j的共现频数;
根据词语的词向量获取词语之间的余弦相似度,得到词相似度矩阵S:
Figure GDA0002619088480000048
其中,wi是词语i的词向量,wj是词语j的词向量。
一种属性词提取系统,包括:
文本接收模块,用于接收待处理文本;
文本属性词匹配模块,用于对所述待处理文本进行属性词匹配,获得所述待处理文本中的属性词;
属性词库,用于所述文本属性词匹配模块进行属性词匹配;所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成;所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型,对于所述第一主题模型,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从狄利克雷树分布;
所述第一主题模型的吉布斯采样过程由先验知识库结合泛化波利亚模型在每一轮挖掘中调整;所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后生成,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。
本发明还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
本发明还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例属性词提取方法的流程图;
图2为本发明实施例所述第一主题模型对语料库进行建模的流程图;
图3为本发明实施例所述属性词库生成流程图;
图4为本发明实施例所述第一主题模型的伪代码示意图;
图5为本发明实施例所述第一主题模型的概率图;
图6为本发明实施例所述先验知识库的建立流程图;
图7为本发明实施例所述先验知识库的迭代更新流程图;
图8为本发明实施例的属性词提取系统。
具体实施方式
对于本发明实施例中所涉及的“领域”与“属性”,可结合以下例子加以理解,比如在一则文字中:“我买了一台新的手机,手机的性能很强大,外观很漂亮,但是价格很贵。”,则其领域涉及:电子产品;涉及的属性有:性能、外观、价格;但是很多词语都可以描述同一个属性,比如价格、价钱、售价都可以描述“价格”这个属性,因此对于“价格”这个属性的属性词可以包括:价格、价钱、售价等。
以下将结合具体的运用场景例子对本发明的实施例进行说明,在对来自不同领域的待处理文本,例如来自电商平台的评论,进行跨领域文本的细粒度情感分析时:
领域1(电子产品领域):
1a:这个电池的使用寿命很长,但是价格很贵。
1b:这台笔记本的使用年限很短,但是价钱比较便宜。
领域2(酒店领域):
2a:这个酒店的服务很好,但是消费很高。
2b:这个酒店的房间干净、花费低,但是服务员的态度不好。
通过先提取待处理文本中的属性词,再进一步对待处理文本进行细粒度情感分析;在运用现有技术时,往往无法处理不同领域的内容,提取准确率低,进而影响了情感分类的效果;而运用本发明实施例的属性词提取方法,可对上述跨领域的文本进行处理,提取其中的属性词,请参阅图1,步骤包括:
S01,根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;
S02,建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;
S03,引入先验知识库和泛化波利亚模型改进所述“领域-属性分布”;
S04,整合前述内容,构建第一主题模型,所述第一主题模型为一个四层贝叶斯概率模型;
S05,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;
S06,接收待处理文本;
S07,根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;
其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。
由上述方法可在上述应用场景中提取到不同领域下不同属性下的属性词:
领域1-属性1:使用寿命、使用年限;领域1-属性2:价格、价钱。
领域2-属性3:服务、态度;领域2-属性2:消费、花费。
根据以上的属性词提取结果,即可运用现有的细粒度情感分析手段对处理文本进行细粒度情感分析得到以下结果:
领域1(电子产品领域):
这个电池的使用寿命很长(积极情感),但是价格很贵(消极情感)。
这台笔记本的使用年限很短(消极情感),但是价钱比较便宜(积极情感)。
领域2(酒店领域):
这个酒店的服务很好(积极情感),但是消费很高(消极情感)。
这个酒店的房间干净、花费低(积极情感),但是服务员的态度不好(消极情感)。
相较于现有技术,本案的属性词提取方法通过对狄利克雷树、“文档-领域-属性-词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面利用同义词词典构建约束刻画词语语义相关性的must-link限制关系,以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。
另外,由于本案在对语料库进行挖掘时,词语可以分配不同的领域和属性,意味着,一个词语在不同的领域和属性下可以具有不同的意义,例如“苹果”这个词语,在“电子产品领域”和“水果领域”具有不同的意义;使得本案在解决一词多义的问题时相比现有技术能有更细化的效果。
具体的,根据所述第一主题模型的特点,所述第一主题模型可称为知识引导的领域属性联合主题模型(Knowledge-guided Domain and Aspect Unification model,KDAUmodel)。
关于must-link限制关系:在主题模型中,如果两个词语u和v分配到任何属性下的概率相似,则称词语u和v具有must-link限制关系。为将同义词能够尽量分配到同一个属性下,如“漂亮”与“美丽”等,即让这类词语具有较强的must-link限制关系。在本实施中利用同义词词典构建词语之间的must-link限制关系,作为一种可选的实施例,所述同义词词典选用《同义词词林》,也可依据其它同义词词库进行。
所述狄利克雷树是一颗高度为3的树,其中每个叶子节点表示一个词语,将具有must-link限制关系的词用一个内部节点s连接成一颗子树,这个内部节点s到这些叶子节点的权重为ησ,其中η、σ为参数。而根节点r到这个节点s的边权重为|L(s)|σ,其中|L(s)|表示s节点的叶子节点个数。而不在任何一个must-link关系图里的词语直接与根节点r相连,且边权重为σ。这里用参数
Figure GDA0002619088480000081
表示狄利克雷树的结构,以及它的参数η、σ。在狄利克雷树中,每个内部节点s(包括根节点)都服从狄利克雷分布,且狄利克雷分布的参数由节点s的所有分支的权重构成。从狄利克雷树中抽样得到一个词语分布
Figure GDA0002619088480000082
可以分成两步:首先针对每个内部节点s,从它服从的狄利克雷分布中抽样得到每个分支的概率;然后对于每个叶子节点w,计算从根节点到叶子节点w的路径上的所有分支的概率乘积,得到词语w的概率值
Figure GDA0002619088480000083
于是,若
Figure GDA0002619088480000084
则其概率密度为:
Figure GDA0002619088480000085
其中,L代表所有叶子节点,I表示所有的内部节点,C(s)表示节点s的所有直接子节点。L(s)表示节点s下的所有叶子节点。γk表示节点k的入边的权重。
Figure GDA0002619088480000086
表示节点s下所有叶子节点的概率之和。函数Δ(s)≡γs-∑k∈C(s)γk表示内部节点s的入度与出度的差。其他符号的意义与狄利克雷分布是一样的。
类似于狄利克雷分布,狄利克雷树分布与多项分布共轭。而词语
Figure GDA0002619088480000087
于是通过积分可以得到词语
Figure GDA0002619088480000088
关于参数
Figure GDA0002619088480000089
的概率密度函数为:
Figure GDA00026190884800000810
泛化波利亚模型(Generalized Pólya Urn Model,GPU)是2008年由Mahmoud提出的模型。在本案中,该模型可以有效地利用语义相关词。具体来说,将领域z和属性c分配给词v'不仅会增加将z和c与v'相关联的概率,也会增加z和c与词w'相关联的概率,其中w'和v'表示挖掘得到的词对;概率增加量由模型中的关系矩阵Ac,w',v'决定。
所述第二主题模型为潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型,狄利克雷分布主题模型为一种采用“文档-主题-词”三层生成式结构的贝叶斯概率模型,即包含词、主题和文档三层结构;对于潜在狄利克雷分布主题模型,可以理解为,一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到;其中,“文档-主题分布”服从多项式分布,“主题-词分布”服从多项式分布。
进一步的,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,即对语料库进行建模,请参阅图2,包含以下步骤:
S051,对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;
S052,重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;
S053,获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。
请参阅图3所述属性词库生成流程图及图4所述第一主题模型伪代码示意图,在所述先验知识库根据所述第一主题模型每一轮挖掘的输出结果迭代更新后,所述第一主题模型重复上述步骤直至所述先验知识库到达预设的迭代更新次数,以第一主题模型对语料库进行挖掘的最后一轮输出结果作为所述属性词库。
作为一种可选的实施例,所述语料库可包括来自中文电商平台各领域的评论内容。
进一步的,对于所述第一主题模型,可通过文档的生成过程对所述第一主题模型进行描述,其文档的生成过程包括以下步骤:
对每一篇文档d,获取一个文档-领域分布
Figure GDA0002619088480000091
Figure GDA0002619088480000092
其中,
Figure GDA0002619088480000093
是狄利克雷分布的分布参数,是一个T维向量;
对文档d下的领域z,获取一个领域-属性分布
Figure GDA0002619088480000094
Figure GDA0002619088480000095
其中,
Figure GDA0002619088480000096
是狄利克雷分布的分布参数,是一个C维向量;
对文档d下的领域z下的属性c,获取一个领域-属性-词语分布
Figure GDA0002619088480000097
Figure GDA0002619088480000098
其中,
Figure GDA0002619088480000099
是狄利克雷分布树分布的参数;
由文档-领域分布
Figure GDA00026190884800000910
得到文档d中的词语wi的领域标签zm,n
Figure GDA00026190884800000911
由领域-属性分布
Figure GDA00026190884800000912
得到词语wi的属性标签cm,n
Figure GDA00026190884800000913
由领域-属性-词语分布
Figure GDA0002619088480000101
中得到词语wm,n并赋给词语wi
Figure GDA0002619088480000102
其中,语料库M为D篇文档的集合,D={d1,d2,...,dD};文档d中存在Nd个词语,
Figure GDA0002619088480000103
每个词wi均是词典中的一项,所述词典由V个不同的词构成,i=1,2,...,V;T是领域的个数,C是属性的个数;Dirichlet()为狄利克雷分布,DirichletTree()为狄利克雷树分布,Multi()为多项分布。
在本领域中详细描述一个主题模型时,一般通过文档的生成过程对其进行描述,特此说明。
进一步的,请参阅图5所述第一主题模型的概率图,所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
Figure GDA0002619088480000104
其中,
Figure GDA0002619088480000105
表示文档m中主题标签为t的词语个数,不包括位置i处的词语;
Figure GDA0002619088480000106
表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
Figure GDA0002619088480000107
所述先验知识库体现在上述关系矩阵Ac,w',v'中,故吉布斯采样概率会随着所述先验知识库的更新而改变。
作为一种可选的实施例,所述KDAU模型可在LDA主题模型的基础上引入狄利克雷树分布改进词分布,将原有的“文档-主题-词”三层生成式结构调整“文档-领域-属性-词”四层生成式结构,并利用先验知识库和泛化波利亚模型改进LDA主题模型的吉布斯采样公式改进而来;具体的,
在LDA主题模型的基础上引入狄利克雷树分布改进词分布:基于狄利克雷树分布,给定主题
Figure GDA0002619088480000111
的条件下生成词语
Figure GDA0002619088480000112
的概率为:
Figure GDA0002619088480000113
此时完整的生成模型为
Figure GDA0002619088480000114
因此改进后的吉布斯采样公式,即采样词语wi的主题标签t的概率为:
Figure GDA0002619088480000115
其中,I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点。
Figure GDA0002619088480000116
表示文档m中主题标签为t的词语个数,不包括位置i处的词语。
Figure GDA0002619088480000117
表示主题标签为t且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语。
将原有的“文档-主题-词”三层生成式结构调整“文档-领域-属性-词”四层生成式结构:对应于“文档-领域-属性-词”四层生成式结构的吉布斯采样公式,即采样词wi的领域标签t和属性标签c的联合概率分布为:
Figure GDA0002619088480000118
其中,
Figure GDA0002619088480000119
表示在领域标签t中属性标签是c的词个数,不包括位置i处的词。
Figure GDA00026190884800001110
表示领域标签t中属性标签c中词wi的个数,不包括位置i处的词。
利用先验知识库和泛化波利亚模型改进LDA主题模型的吉布斯采样公式,改进后的吉布斯采样概率公式如下:
Figure GDA0002619088480000121
其中,
Figure GDA0002619088480000122
整合上述对LDA主题模型的改进内容,即可在LDA主题模型的基础上获得本案实施例的所述KDAU模型。
进一步的,所述先验知识库的建立,请参阅图6,可包括以下步骤:
B01,利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
B02,根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
B03,获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
B04,合并各属性簇中挖掘到的词对作为先验知识库。
进一步的,所述先验知识库的迭代更新,请参阅图7,包括以下步骤:
I01,获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
I02,根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
I03,获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
I04,合并各属性簇中挖掘到的词对以更新所述先验知识库。
在一种实施例中,获取各属性簇中词语之间的相似度,可包括以下步骤:
利用以下模型生成语料库中词语的词向量:
Figure GDA0002619088480000123
其中wi是中心词i的词向量,
Figure GDA0002619088480000124
是上下文词j的词向量,bi
Figure GDA0002619088480000125
是偏置,Xij是词语i和j的共现频数;
根据词语的词向量获取词语之间的余弦相似度,得到词相似度矩阵S:
Figure GDA0002619088480000126
其中,wi是词语i的词向量,wj是词语j的词向量。
一种属性词提取系统,包括:
文本接收模块1,用于接收待处理文本;
文本属性词匹配模块2,用于对所述待处理文本进行属性词匹配,获得所述待处理文本中的属性词;
属性词库3,用于所述文本属性词匹配模块进行属性词匹配;所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成;所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型,对于所述第一主题模型,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从狄利克雷树分布;
所述第一主题模型的吉布斯采样过程由先验知识库结合泛化波利亚模型在每一轮挖掘中调整;所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后生成,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。
本实施例还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
本实施例还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种属性词提取方法,其特征在于,包括以下步骤:
根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;
建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;
运用先验知识库和泛化波利亚模型改进所述“领域-属性分布”;
整合前述步骤,构建第一主题模型,所述第一主题模型为四层贝叶斯概率模型;
利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;
接收待处理文本;
根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;
其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型;
所述先验知识库的建立,包括以下步骤:
利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对作为先验知识库;
所述先验知识库的迭代更新,包括以下步骤:
所有领域的语料一起输入所述第一主题模型;
获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对以更新所述先验知识库;
所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
Figure FDA0002669036430000021
其中,
Figure FDA0002669036430000022
表示文档m中主题标签为t的词语个数,不包括位置i处的词语;
Figure FDA0002669036430000023
表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
Figure FDA0002669036430000024
2.根据权利要求1所述的属性词提取方法,其特征在于,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,包括以下步骤:
对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;
重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;
获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。
3.根据权利要求1所述的属性词提取方法,其特征在于,对于所述第一主题模型,文档的生成过程包括以下步骤:
对每一篇文档d,获取一个文档-领域分布
Figure FDA0002669036430000025
其中,
Figure FDA0002669036430000026
是狄利克雷分布的分布参数,是一个T维向量;
对文档d下的领域z,获取一个领域-属性分布
Figure FDA0002669036430000027
其中,
Figure FDA0002669036430000028
是狄利克雷分布的分布参数,是一个C维向量;
对文档d下的领域z下的属性c,获取一个领域-属性-词语分布
Figure FDA0002669036430000029
Figure FDA0002669036430000031
其中,
Figure FDA0002669036430000032
是狄利克雷分布树分布的参数;
由文档-领域分布
Figure FDA0002669036430000033
得到文档d中的词语wi的领域标签zm,n
Figure FDA0002669036430000034
由领域-属性分布
Figure FDA0002669036430000035
得到词语wi的属性标签cm,n
Figure FDA0002669036430000036
由领域-属性-词语分布
Figure FDA0002669036430000037
中得到词语wm,n并赋给词语wi
Figure FDA0002669036430000038
其中,语料库M为D篇文档的集合,D={d1,d2,...,dD};文档d中存在Nd个词语,
Figure FDA0002669036430000039
每个词wi均是词典中的一项,所述词典由V个不同的词构成,i=1,2,...,V;T是领域的个数,C是属性的个数;Dirichlet()为狄利克雷分布,DirichletTree()为狄利克雷树分布,Multi()为多项分布。
4.根据权利要求1所述的属性词提取方法,其特征在于,获取各属性簇中词语之间的相似度,包括以下步骤:
利用以下模型生成语料库中词语的词向量:
Figure FDA00026690364300000310
其中wi是中心词i的词向量,
Figure FDA00026690364300000311
是上下文词j的词向量,bi
Figure FDA00026690364300000312
是偏置,Xij是词语i和j的共现频数;
根据词语的词向量获取词语之间的余弦相似度,得到词相似度矩阵S:
Figure FDA00026690364300000313
其中,wi是词语i的词向量,wj是词语j的词向量。
5.一种属性词提取系统,其特征在于,包括:
文本接收模块,用于接收待处理文本;
文本属性词匹配模块,用于对所述待处理文本进行属性词匹配,获得所述待处理文本中的属性词;
属性词库,用于所述文本属性词匹配模块进行属性词匹配;所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成;所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型,对于所述第一主题模型,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从狄利克雷树分布;
其中,所述“领域-属性分布”是通过先验知识库和泛化波利亚模型改进的;
所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型;
所述先验知识库的建立,包括以下步骤:
利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对作为先验知识库;
所述先验知识库的迭代更新,包括以下步骤:
所有领域的语料一起输入所述第一主题模型;
获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对以更新所述先验知识库;
所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
Figure FDA0002669036430000041
其中,
Figure FDA0002669036430000042
表示文档m中主题标签为t的词语个数,不包括位置i处的词语;
Figure FDA0002669036430000043
表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
Figure FDA0002669036430000051
6.一种计算机可读储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的属性词提取方法的步骤。
7.一种计算机,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的属性词提取方法的步骤。
CN201910734031.2A 2019-08-09 2019-08-09 一种属性词提取方法 Active CN110705304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910734031.2A CN110705304B (zh) 2019-08-09 2019-08-09 一种属性词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910734031.2A CN110705304B (zh) 2019-08-09 2019-08-09 一种属性词提取方法

Publications (2)

Publication Number Publication Date
CN110705304A CN110705304A (zh) 2020-01-17
CN110705304B true CN110705304B (zh) 2020-11-06

Family

ID=69193279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910734031.2A Active CN110705304B (zh) 2019-08-09 2019-08-09 一种属性词提取方法

Country Status (1)

Country Link
CN (1) CN110705304B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881690B (zh) * 2020-06-15 2024-03-29 华南师范大学 一种词向量动态调整的处理方法、系统、装置及介质
CN112417845A (zh) * 2020-11-18 2021-02-26 武汉大学 一种文本评价方法、装置、电子设备及存储介质
CN112507245B (zh) * 2020-12-03 2023-07-18 中国人民大学 基于图神经网络的社交网络好友推荐方法
CN112836507B (zh) * 2021-01-13 2022-12-09 哈尔滨工程大学 一种领域文本主题抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055713A (zh) * 2016-07-01 2016-10-26 华南理工大学 基于用户兴趣和社交主题提取的社交网络用户推荐方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
CN107357785A (zh) * 2017-07-05 2017-11-17 浙江工商大学 主题特征词抽取方法及系统、情感极性判断方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765733B (zh) * 2014-01-02 2018-06-15 华为技术有限公司 一种社交网络事件分析的方法和装置
CN105955948B (zh) * 2016-04-22 2018-07-24 武汉大学 一种基于单词语义相似度的短文本主题建模方法
US10204084B2 (en) * 2016-06-10 2019-02-12 Microsoft Technology Licensing, Llc Activity modeling in email or other forms of communication
CN106776562B (zh) * 2016-12-20 2020-07-28 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
US10216724B2 (en) * 2017-04-07 2019-02-26 Conduent Business Services, Llc Performing semantic analyses of user-generated textual and voice content
US20190114319A1 (en) * 2017-10-17 2019-04-18 Oracle International Corporation Streaming latent dirichlet allocation
CN108804595B (zh) * 2018-05-28 2021-07-27 中山大学 一种基于word2vec的短文本表示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055713A (zh) * 2016-07-01 2016-10-26 华南理工大学 基于用户兴趣和社交主题提取的社交网络用户推荐方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
CN107357785A (zh) * 2017-07-05 2017-11-17 浙江工商大学 主题特征词抽取方法及系统、情感极性判断方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于主题模型的科技报告文档聚类方法研究";曲靖野;《图书情报工作》;20180220(第04期);全文 *

Also Published As

Publication number Publication date
CN110705304A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
CN110705304B (zh) 一种属性词提取方法
Medhat et al. Sentiment analysis algorithms and applications: A survey
Bollegala et al. Unsupervised cross-domain word representation learning
Zhou et al. Text similarity measurement of semantic cognition based on word vector distance decentralization with clustering analysis
Rathee et al. Sentiment analysis using machine learning techniques on Python
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
Song et al. Recommendation vs sentiment analysis: A text-driven latent factor model for rating prediction with cold-start awareness
Patel et al. Dynamic lexicon generation for natural scene images
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN114997288A (zh) 一种设计资源关联方法
CN112528653A (zh) 短文本实体识别方法和系统
Jang et al. A novel density-based clustering method using word embedding features for dialogue intention recognition
Trupthi et al. Possibilistic fuzzy C-means topic modelling for twitter sentiment analysis
Andrews et al. Robust entity clustering via phylogenetic inference
Wei et al. Feature-level sentiment analysis based on rules and fine-grained domain ontology
Sangeetha et al. Exploration of sentiment analysis techniques on a multilingual dataset dealing with Tamil-English reviews
Nugraha et al. Chatbot-Based Movie Recommender System Using POS Tagging
Suresh Kumar et al. Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification
US20190095525A1 (en) Extraction of expression for natural language processing
CN117609612A (zh) 资源推荐方法、装置、存储介质及电子设备
Siddique et al. Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets
Oriola et al. Improved semi-supervised learning technique for automatic detection of South African abusive language on Twitter
JP2007241881A (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Aktas et al. Text classification via network topology: A case study on the holy quran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Tang Jingyao

Inventor after: Xue Yun

Inventor after: Zhao Hongya

Inventor before: Tang Jingyao

Inventor before: Zhao Hongya

Inventor before: Xue Yun

GR01 Patent grant
GR01 Patent grant