CN110705304B - 一种属性词提取方法 - Google Patents
一种属性词提取方法 Download PDFInfo
- Publication number
- CN110705304B CN110705304B CN201910734031.2A CN201910734031A CN110705304B CN 110705304 B CN110705304 B CN 110705304B CN 201910734031 A CN201910734031 A CN 201910734031A CN 110705304 B CN110705304 B CN 110705304B
- Authority
- CN
- China
- Prior art keywords
- attribute
- word
- distribution
- words
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000005070 sampling Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 25
- 239000000463 material Substances 0.000 claims abstract description 19
- 238000005065 mining Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008451 emotion Effects 0.000 abstract description 26
- 238000012549 training Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种属性词提取方法,本案的属性词提取方法通过对狄利克雷树、“文档‑领域‑属性‑词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。
Description
技术领域
本发明涉及自然语言处理技术与情感分析领域,特别是涉及一种属性词提取方法。
背景技术
随着电子商务行业的发展,网络购物越来越受到人们的认可,由此也产生了大量的网络评论文本数据。面对这些网络评论,消费者希望在他们购买某产品前能知道已使用过该产品的人群对于该产品的评价,优化购买决策。另外,从生产者的角度来看,每个人都是潜在的客户。因此,生产者可以通过分析电商评论的情感倾向,了解大部分消费者的喜好,这对于开发新的产品以及管理和改进现有的产品都有很大的帮助。因此,如何对电商评论进行情感分类已经成为自然语言处理领域的一个重要研究课题。
从分析的粒度层次来看,情感分类可分为粗粒度和细粒度层次分类。粗粒度层次分类有篇章级和句子级情感分类,细粒度层次情感分类则是属性级情感分类。随着组织和个人对情感分类的要求越来越高,情感分类的粒度层次正逐步向细粒度分类层面发展。
在属性级情感分类的任务中,提取评论文本的属性词是关键问题之一。属性词,也称“非谓形容词”、“区别词”,是从传统语法中名词、动词、形容词中脱离出来的一类新兴词类。属性词与所饰词语存在着较密切的语义结构关系,表示人、事物的属性或特征,具有区别或分类的作用,少数属性词在修饰动词时表示动作的方式或性质。
在现有技术中,主要应用主题模型来进行语料库挖掘并进行属性词提取;主题模型作为一种经典的非监督学习模型,无需人工标注的语料库,能自动挖掘出语料库中的隐含主题,在属性词提取任务中得到了较好的应用。但是,现有技术需要基于大量语料数据的训练,且没有考虑文本中词语之间的语义信息,难以直接应用于细粒度情感分析中的属性词提取,准确率低,导致情感分类效果一般。
发明内容
本发明的目的在于针对情感分类的局限,提供一种属性词提取方法,由以下技术方案实现:
根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;
建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;
引入先验知识库和泛化波利亚模型改进所述“领域-属性分布”;
整合前述内容,构建第一主题模型,所述第一主题模型为一个四层贝叶斯概率模型;
利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;
接收待处理文本;
根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;
其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型;
所述先验知识库的建立,包括以下步骤:
利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对作为先验知识库;
所述先验知识库的迭代更新,包括以下步骤:
所有领域的语料一起输入所述第一主题模型;
获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对以更新所述先验知识库。
相较于现有技术,本案的属性词提取方法通过对狄利克雷树、“文档-领域-属性-词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面利用同义词词典构建约束刻画词语语义相关性的must-link限制关系,以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。
进一步的,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,可包括以下步骤:
对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;
重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;
获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。
进一步的,对于所述第一主题模型,可通过文档的生成过程对所述第一主题模型进行描述,其文档的生成过程包括以下步骤:
其中,语料库M为D篇文档的集合,D={d1,d2,...,dD};文档d中存在Nd个词语,每个词wi均是词典中的一项,所述词典由V个不同的词构成,i=1,2,...,V;T是领域的个数,C是属性的个数;Dirichlet()为狄利克雷分布,DirichletTree()为狄利克雷树分布,Multi()为多项分布。
进一步的,所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
其中,表示文档m中主题标签为t的词语个数,不包括位置i处的词语;表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
在一种实施例中,获取各属性簇中词语之间的相似度,可包括以下步骤:
利用以下模型生成语料库中词语的词向量:
根据词语的词向量获取词语之间的余弦相似度,得到词相似度矩阵S:
其中,wi是词语i的词向量,wj是词语j的词向量。
一种属性词提取系统,包括:
文本接收模块,用于接收待处理文本;
文本属性词匹配模块,用于对所述待处理文本进行属性词匹配,获得所述待处理文本中的属性词;
属性词库,用于所述文本属性词匹配模块进行属性词匹配;所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成;所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型,对于所述第一主题模型,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从狄利克雷树分布;
所述第一主题模型的吉布斯采样过程由先验知识库结合泛化波利亚模型在每一轮挖掘中调整;所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后生成,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。
本发明还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
本发明还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例属性词提取方法的流程图;
图2为本发明实施例所述第一主题模型对语料库进行建模的流程图;
图3为本发明实施例所述属性词库生成流程图;
图4为本发明实施例所述第一主题模型的伪代码示意图;
图5为本发明实施例所述第一主题模型的概率图;
图6为本发明实施例所述先验知识库的建立流程图;
图7为本发明实施例所述先验知识库的迭代更新流程图;
图8为本发明实施例的属性词提取系统。
具体实施方式
对于本发明实施例中所涉及的“领域”与“属性”,可结合以下例子加以理解,比如在一则文字中:“我买了一台新的手机,手机的性能很强大,外观很漂亮,但是价格很贵。”,则其领域涉及:电子产品;涉及的属性有:性能、外观、价格;但是很多词语都可以描述同一个属性,比如价格、价钱、售价都可以描述“价格”这个属性,因此对于“价格”这个属性的属性词可以包括:价格、价钱、售价等。
以下将结合具体的运用场景例子对本发明的实施例进行说明,在对来自不同领域的待处理文本,例如来自电商平台的评论,进行跨领域文本的细粒度情感分析时:
领域1(电子产品领域):
1a:这个电池的使用寿命很长,但是价格很贵。
1b:这台笔记本的使用年限很短,但是价钱比较便宜。
领域2(酒店领域):
2a:这个酒店的服务很好,但是消费很高。
2b:这个酒店的房间干净、花费低,但是服务员的态度不好。
通过先提取待处理文本中的属性词,再进一步对待处理文本进行细粒度情感分析;在运用现有技术时,往往无法处理不同领域的内容,提取准确率低,进而影响了情感分类的效果;而运用本发明实施例的属性词提取方法,可对上述跨领域的文本进行处理,提取其中的属性词,请参阅图1,步骤包括:
S01,根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;
S02,建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;
S03,引入先验知识库和泛化波利亚模型改进所述“领域-属性分布”;
S04,整合前述内容,构建第一主题模型,所述第一主题模型为一个四层贝叶斯概率模型;
S05,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;
S06,接收待处理文本;
S07,根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;
其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。
由上述方法可在上述应用场景中提取到不同领域下不同属性下的属性词:
领域1-属性1:使用寿命、使用年限;领域1-属性2:价格、价钱。
领域2-属性3:服务、态度;领域2-属性2:消费、花费。
根据以上的属性词提取结果,即可运用现有的细粒度情感分析手段对处理文本进行细粒度情感分析得到以下结果:
领域1(电子产品领域):
这个电池的使用寿命很长(积极情感),但是价格很贵(消极情感)。
这台笔记本的使用年限很短(消极情感),但是价钱比较便宜(积极情感)。
领域2(酒店领域):
这个酒店的服务很好(积极情感),但是消费很高(消极情感)。
这个酒店的房间干净、花费低(积极情感),但是服务员的态度不好(消极情感)。
相较于现有技术,本案的属性词提取方法通过对狄利克雷树、“文档-领域-属性-词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面利用同义词词典构建约束刻画词语语义相关性的must-link限制关系,以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。
另外,由于本案在对语料库进行挖掘时,词语可以分配不同的领域和属性,意味着,一个词语在不同的领域和属性下可以具有不同的意义,例如“苹果”这个词语,在“电子产品领域”和“水果领域”具有不同的意义;使得本案在解决一词多义的问题时相比现有技术能有更细化的效果。
具体的,根据所述第一主题模型的特点,所述第一主题模型可称为知识引导的领域属性联合主题模型(Knowledge-guided Domain and Aspect Unification model,KDAUmodel)。
关于must-link限制关系:在主题模型中,如果两个词语u和v分配到任何属性下的概率相似,则称词语u和v具有must-link限制关系。为将同义词能够尽量分配到同一个属性下,如“漂亮”与“美丽”等,即让这类词语具有较强的must-link限制关系。在本实施中利用同义词词典构建词语之间的must-link限制关系,作为一种可选的实施例,所述同义词词典选用《同义词词林》,也可依据其它同义词词库进行。
所述狄利克雷树是一颗高度为3的树,其中每个叶子节点表示一个词语,将具有must-link限制关系的词用一个内部节点s连接成一颗子树,这个内部节点s到这些叶子节点的权重为ησ,其中η、σ为参数。而根节点r到这个节点s的边权重为|L(s)|σ,其中|L(s)|表示s节点的叶子节点个数。而不在任何一个must-link关系图里的词语直接与根节点r相连,且边权重为σ。这里用参数表示狄利克雷树的结构,以及它的参数η、σ。在狄利克雷树中,每个内部节点s(包括根节点)都服从狄利克雷分布,且狄利克雷分布的参数由节点s的所有分支的权重构成。从狄利克雷树中抽样得到一个词语分布可以分成两步:首先针对每个内部节点s,从它服从的狄利克雷分布中抽样得到每个分支的概率;然后对于每个叶子节点w,计算从根节点到叶子节点w的路径上的所有分支的概率乘积,得到词语w的概率值于是,若则其概率密度为:
其中,L代表所有叶子节点,I表示所有的内部节点,C(s)表示节点s的所有直接子节点。L(s)表示节点s下的所有叶子节点。γk表示节点k的入边的权重。表示节点s下所有叶子节点的概率之和。函数Δ(s)≡γs-∑k∈C(s)γk表示内部节点s的入度与出度的差。其他符号的意义与狄利克雷分布是一样的。
泛化波利亚模型(Generalized Pólya Urn Model,GPU)是2008年由Mahmoud提出的模型。在本案中,该模型可以有效地利用语义相关词。具体来说,将领域z和属性c分配给词v'不仅会增加将z和c与v'相关联的概率,也会增加z和c与词w'相关联的概率,其中w'和v'表示挖掘得到的词对;概率增加量由模型中的关系矩阵Ac,w',v'决定。
所述第二主题模型为潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型,狄利克雷分布主题模型为一种采用“文档-主题-词”三层生成式结构的贝叶斯概率模型,即包含词、主题和文档三层结构;对于潜在狄利克雷分布主题模型,可以理解为,一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到;其中,“文档-主题分布”服从多项式分布,“主题-词分布”服从多项式分布。
进一步的,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,即对语料库进行建模,请参阅图2,包含以下步骤:
S051,对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;
S052,重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;
S053,获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。
请参阅图3所述属性词库生成流程图及图4所述第一主题模型伪代码示意图,在所述先验知识库根据所述第一主题模型每一轮挖掘的输出结果迭代更新后,所述第一主题模型重复上述步骤直至所述先验知识库到达预设的迭代更新次数,以第一主题模型对语料库进行挖掘的最后一轮输出结果作为所述属性词库。
作为一种可选的实施例,所述语料库可包括来自中文电商平台各领域的评论内容。
进一步的,对于所述第一主题模型,可通过文档的生成过程对所述第一主题模型进行描述,其文档的生成过程包括以下步骤:
其中,语料库M为D篇文档的集合,D={d1,d2,...,dD};文档d中存在Nd个词语,每个词wi均是词典中的一项,所述词典由V个不同的词构成,i=1,2,...,V;T是领域的个数,C是属性的个数;Dirichlet()为狄利克雷分布,DirichletTree()为狄利克雷树分布,Multi()为多项分布。
在本领域中详细描述一个主题模型时,一般通过文档的生成过程对其进行描述,特此说明。
进一步的,请参阅图5所述第一主题模型的概率图,所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
其中,表示文档m中主题标签为t的词语个数,不包括位置i处的词语;表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
所述先验知识库体现在上述关系矩阵Ac,w',v'中,故吉布斯采样概率会随着所述先验知识库的更新而改变。
作为一种可选的实施例,所述KDAU模型可在LDA主题模型的基础上引入狄利克雷树分布改进词分布,将原有的“文档-主题-词”三层生成式结构调整“文档-领域-属性-词”四层生成式结构,并利用先验知识库和泛化波利亚模型改进LDA主题模型的吉布斯采样公式改进而来;具体的,
其中,I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点。表示文档m中主题标签为t的词语个数,不包括位置i处的词语。表示主题标签为t且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语。
将原有的“文档-主题-词”三层生成式结构调整“文档-领域-属性-词”四层生成式结构:对应于“文档-领域-属性-词”四层生成式结构的吉布斯采样公式,即采样词wi的领域标签t和属性标签c的联合概率分布为:
利用先验知识库和泛化波利亚模型改进LDA主题模型的吉布斯采样公式,改进后的吉布斯采样概率公式如下:
整合上述对LDA主题模型的改进内容,即可在LDA主题模型的基础上获得本案实施例的所述KDAU模型。
进一步的,所述先验知识库的建立,请参阅图6,可包括以下步骤:
B01,利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
B02,根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
B03,获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
B04,合并各属性簇中挖掘到的词对作为先验知识库。
进一步的,所述先验知识库的迭代更新,请参阅图7,包括以下步骤:
I01,获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
I02,根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
I03,获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
I04,合并各属性簇中挖掘到的词对以更新所述先验知识库。
在一种实施例中,获取各属性簇中词语之间的相似度,可包括以下步骤:
利用以下模型生成语料库中词语的词向量:
根据词语的词向量获取词语之间的余弦相似度,得到词相似度矩阵S:
其中,wi是词语i的词向量,wj是词语j的词向量。
一种属性词提取系统,包括:
文本接收模块1,用于接收待处理文本;
文本属性词匹配模块2,用于对所述待处理文本进行属性词匹配,获得所述待处理文本中的属性词;
属性词库3,用于所述文本属性词匹配模块进行属性词匹配;所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成;所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型,对于所述第一主题模型,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从狄利克雷树分布;
所述第一主题模型的吉布斯采样过程由先验知识库结合泛化波利亚模型在每一轮挖掘中调整;所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后生成,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。
本实施例还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
本实施例还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述属性词提取方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (7)
1.一种属性词提取方法,其特征在于,包括以下步骤:
根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;
建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;
运用先验知识库和泛化波利亚模型改进所述“领域-属性分布”;
整合前述步骤,构建第一主题模型,所述第一主题模型为四层贝叶斯概率模型;
利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;
接收待处理文本;
根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;
其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型;
所述先验知识库的建立,包括以下步骤:
利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对作为先验知识库;
所述先验知识库的迭代更新,包括以下步骤:
所有领域的语料一起输入所述第一主题模型;
获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对以更新所述先验知识库;
所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
其中,表示文档m中主题标签为t的词语个数,不包括位置i处的词语;表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
2.根据权利要求1所述的属性词提取方法,其特征在于,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,包括以下步骤:
对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;
重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;
获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。
3.根据权利要求1所述的属性词提取方法,其特征在于,对于所述第一主题模型,文档的生成过程包括以下步骤:
5.一种属性词提取系统,其特征在于,包括:
文本接收模块,用于接收待处理文本;
文本属性词匹配模块,用于对所述待处理文本进行属性词匹配,获得所述待处理文本中的属性词;
属性词库,用于所述文本属性词匹配模块进行属性词匹配;所述属性词库由第一主题模型通过吉布斯采样过程对语料库进行挖掘后生成;所述第一主题模型为一种采用“文档-领域-属性-词”四层生成式结构的贝叶斯概率模型,对于所述第一主题模型,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从狄利克雷树分布;
其中,所述“领域-属性分布”是通过先验知识库和泛化波利亚模型改进的;
所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型;
所述先验知识库的建立,包括以下步骤:
利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对作为先验知识库;
所述先验知识库的迭代更新,包括以下步骤:
所有领域的语料一起输入所述第一主题模型;
获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;
根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;
获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;
合并各属性簇中挖掘到的词对以更新所述先验知识库;
所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:
其中,表示文档m中主题标签为t的词语个数,不包括位置i处的词语;表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;
Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:
6.一种计算机可读储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的属性词提取方法的步骤。
7.一种计算机,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的属性词提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910734031.2A CN110705304B (zh) | 2019-08-09 | 2019-08-09 | 一种属性词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910734031.2A CN110705304B (zh) | 2019-08-09 | 2019-08-09 | 一种属性词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705304A CN110705304A (zh) | 2020-01-17 |
CN110705304B true CN110705304B (zh) | 2020-11-06 |
Family
ID=69193279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910734031.2A Active CN110705304B (zh) | 2019-08-09 | 2019-08-09 | 一种属性词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705304B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881690B (zh) * | 2020-06-15 | 2024-03-29 | 华南师范大学 | 一种词向量动态调整的处理方法、系统、装置及介质 |
CN112417845A (zh) * | 2020-11-18 | 2021-02-26 | 武汉大学 | 一种文本评价方法、装置、电子设备及存储介质 |
CN112507245B (zh) * | 2020-12-03 | 2023-07-18 | 中国人民大学 | 基于图神经网络的社交网络好友推荐方法 |
CN112836507B (zh) * | 2021-01-13 | 2022-12-09 | 哈尔滨工程大学 | 一种领域文本主题抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055713A (zh) * | 2016-07-01 | 2016-10-26 | 华南理工大学 | 基于用户兴趣和社交主题提取的社交网络用户推荐方法 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
CN106909537A (zh) * | 2017-02-07 | 2017-06-30 | 中山大学 | 一种基于主题模型和向量空间的一词多义分析方法 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765733B (zh) * | 2014-01-02 | 2018-06-15 | 华为技术有限公司 | 一种社交网络事件分析的方法和装置 |
CN105955948B (zh) * | 2016-04-22 | 2018-07-24 | 武汉大学 | 一种基于单词语义相似度的短文本主题建模方法 |
US10204084B2 (en) * | 2016-06-10 | 2019-02-12 | Microsoft Technology Licensing, Llc | Activity modeling in email or other forms of communication |
CN106776562B (zh) * | 2016-12-20 | 2020-07-28 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
US10216724B2 (en) * | 2017-04-07 | 2019-02-26 | Conduent Business Services, Llc | Performing semantic analyses of user-generated textual and voice content |
US20190114319A1 (en) * | 2017-10-17 | 2019-04-18 | Oracle International Corporation | Streaming latent dirichlet allocation |
CN108804595B (zh) * | 2018-05-28 | 2021-07-27 | 中山大学 | 一种基于word2vec的短文本表示方法 |
-
2019
- 2019-08-09 CN CN201910734031.2A patent/CN110705304B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055713A (zh) * | 2016-07-01 | 2016-10-26 | 华南理工大学 | 基于用户兴趣和社交主题提取的社交网络用户推荐方法 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
CN106909537A (zh) * | 2017-02-07 | 2017-06-30 | 中山大学 | 一种基于主题模型和向量空间的一词多义分析方法 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
Non-Patent Citations (1)
Title |
---|
"基于主题模型的科技报告文档聚类方法研究";曲靖野;《图书情报工作》;20180220(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110705304A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543574B (zh) | 一种知识图谱的构建方法、装置、设备及介质 | |
CN110705304B (zh) | 一种属性词提取方法 | |
Medhat et al. | Sentiment analysis algorithms and applications: A survey | |
Bollegala et al. | Unsupervised cross-domain word representation learning | |
Zhou et al. | Text similarity measurement of semantic cognition based on word vector distance decentralization with clustering analysis | |
Rathee et al. | Sentiment analysis using machine learning techniques on Python | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
Song et al. | Recommendation vs sentiment analysis: A text-driven latent factor model for rating prediction with cold-start awareness | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112528653A (zh) | 短文本实体识别方法和系统 | |
Jang et al. | A novel density-based clustering method using word embedding features for dialogue intention recognition | |
Trupthi et al. | Possibilistic fuzzy C-means topic modelling for twitter sentiment analysis | |
Andrews et al. | Robust entity clustering via phylogenetic inference | |
Wei et al. | Feature-level sentiment analysis based on rules and fine-grained domain ontology | |
Sangeetha et al. | Exploration of sentiment analysis techniques on a multilingual dataset dealing with Tamil-English reviews | |
Nugraha et al. | Chatbot-Based Movie Recommender System Using POS Tagging | |
Suresh Kumar et al. | Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
CN117609612A (zh) | 资源推荐方法、装置、存储介质及电子设备 | |
Siddique et al. | Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets | |
Oriola et al. | Improved semi-supervised learning technique for automatic detection of South African abusive language on Twitter | |
JP2007241881A (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Aktas et al. | Text classification via network topology: A case study on the holy quran |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Tang Jingyao Inventor after: Xue Yun Inventor after: Zhao Hongya Inventor before: Tang Jingyao Inventor before: Zhao Hongya Inventor before: Xue Yun |
|
GR01 | Patent grant | ||
GR01 | Patent grant |