CN107480142A - 一种基于依存关系抽取评价对象的方法 - Google Patents
一种基于依存关系抽取评价对象的方法 Download PDFInfo
- Publication number
- CN107480142A CN107480142A CN201710783711.4A CN201710783711A CN107480142A CN 107480142 A CN107480142 A CN 107480142A CN 201710783711 A CN201710783711 A CN 201710783711A CN 107480142 A CN107480142 A CN 107480142A
- Authority
- CN
- China
- Prior art keywords
- word
- evaluation object
- words
- dependency relationship
- viewpoint evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于依存关系抽取评价对象的方法。包括:S1、定义观点评价对象词与情感词之间的依存关系;S2、基于步骤S1定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;S3、基于依存关系模板抽取观点评价对象的Bootstrapping算法。本发明方法相对于最新的方法性能上有较大提高。
Description
技术领域
本发明涉及一种基于依存关系抽取评价对象的方法。
背景技术
1、观点评价对象抽取的国内外研究现状
目前观点评价对象抽取算法可以归结为监督的机器学习(supervised machinelearning)、无 监督的机器学习(unsupervised machine learning)、半监督的机器学习(semi-supervised learning)。
监督的机器学习方法将观点评价对象抽取问题看成是标注问题。这方面的代表方法有张磊 [7]引入词形、词性、依存关系结构、距离、路径等特征模板,利用最大熵模型进行训练,提取 观点评价对象-情感词对。袁璐[8]对句子进行浅层句法分析并制定相应规则,再结合隐马尔科夫 模型进行训练。戴敏[9]引入词形、依存关系、语义角色标注等特征基于条件随机场模型进行观 点评价对象抽取。以上方法均采用监督学习的方法进行观点评价对象识别,这些方法需要标注 大量的训练数据,费时费力,而且不同领域的训练数据无法共享,这大大影响了监督机器学习 方法的适用性。
无监督机器学习方法抽取观点评价对象主要采用模板和规则两种方法[10-13]。Hu[10]基 于Apiori算法获得频繁项作为候选观点评价对象,对于低频词采用抽取情感词最近的名词作为 观点评价对象,该方法算法简单,但情感词最近的名词未必是观点评价对象。张凌[11]提出将待 分析文本与词性模板库匹配从而提取情感要素的方法,但该方法只考虑词性信息,同时观点评 价对象词的搜索范围局限在情感词所在的分句中。Bloom[12]人工构建了31条句法规则来描述 情感词与观点评价对象词之间的关系。顾正甲[13]使用SBV极性传递法从待分析文本中抽取原 子观点评价对象,再采用ATT链算法及互信息算法实现观点评价对象的边界识别,但该方法仅 考虑定中关系ATT和“的”字结构DE这两种依存关系形式。总的来说,无监督的机器学习方 法不需标注语料,能降低成本,但是由于模板、规则构造不完备,因此泛化能力较差,获取的 观点评价对象准确率较低。
针对中文语料库规模较小的不足之处,许多学者采用半监督学习算法抽取观点评价对象。 半监督机器学习算法能够避免数据和资源的浪费,同时解决监督学习算法的模型泛化能力不强 和无监督学习算法的模型不精确等问题,已经被应用于解决实际问题,尤其是自然语言处理问 题。半监督机器学习的一种主流方法是自举(Bootstrapping)方法[6]。该方法通过人工干预得到种 子,然后增量式地迭代,在每一轮迭代中,都将产生新的种子,用这些新的种子重新训练模型, 如此循环往复,直到最终收敛结束。Wei[14]将候选观点评价对象的同义词、近义词标注为候选 观点评价对象,再重新训练模型,但该方法带入许多低频词汇影响识别性能。Shu[15]采用图模 型识别观点评价对象与情感词,把观点评价对象与情感词看作是一个评价搭配关系对,每增加 m个候选观点评价对象就产生n个候选情感词,这样不断迭代产生观点评价对象与情感词,该 方法不足之处是只考虑候选观点评价对象与情感种子词的共现率,召回率较低。宋晓雷[16]从 小种子集和词形模板、词性模板集出发通过双向Bootstrapping方法识别观点评价对象,但这种 方法只考虑词形、词性信息,没有利用情感词与观点评价对象词之间的语法信息。Qiu[2]提出 利用小规模种子情感词以及观点评价对象和情感词之间的依存关系,通过观点评价对象和情感 词之间的双向传播策略,增量式地识别新情感词和观点评价对象,但该方法只能抽取与情感词 之间存在指定依存关系的观点评价对象。Zhang[3]扩展了Qiu[2]的工作,设计启发式模板抽取观 点评价对象。Liu[4]利用Qiu[2]定义的依存关系构造部分监督的词语对齐模型。Wang[5]利用词 语对齐模型与Qiu[2]模型相结合的方法进行观点挖掘。
2、现有技术的相关概念
依存关系的概念来自依存语法理论[1],该理论认为,组成句子的词与词之间存在着一定的 联系。
Qiu[2]对词之间的这种依存关系定义如下:
直接依存关系定义:直接依存关系意味着一个词依赖另一个词,在依存路径上没有依赖其 他词,或者它们都直接依赖第三个词。直接依存关系例子如图1(a)和(b)所示。
间接依存关系定义:间接依存关系指一个词通过其他词依赖另一个词,或者它们都通过其 他词依赖第三个词。间接依存关系例子如图1(c)和(d)所示。
Zhang[3]扩展了Qiu[2]的工作,设计启发式模板抽取观点评价对象。Liu[4]利用Qiu[2]定义 的依存关系构造部分监督的词语对齐模型。Wang[5]利用词语对齐模型与Qiu[2]模型相结合的方 法进行观点挖掘。但Qiu[2]、Zhang[3]、Liu[4]、Wang[5]都只利用观点评价对象与情感词之间 的直接依存关系模板进行观点评价对象抽取。因此本文对间接依存关系在评价对象抽取中的应 用进行研究。
Qiu[2]、Zhang[3]、Liu[4]、Wang[5]都只利用观点评价对象与情感词之间的直接依存关系 模板进行观点评价对象抽取,因为采用Qiu[2]的方法引入间接依存关系模板会降低性能。
发明内容
本发明的目的在于提供一种基于依存关系抽取评价对象的方法,该方法有利于提高评价对 象抽取性能。
为实现上述目的,本发明的技术方案是:一种基于依存关系抽取评价对象的方法,包括如 下步骤,
S1、定义观点评价对象词与情感词之间的依存关系;
S2、基于步骤S1定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与 情感词之间的直接依存关系模板和间接依存关系模板;
S3、基于依存关系模板抽取观点评价对象的Bootstrapping算法。
在本发明一实施例中,所述步骤S1具体实现如下:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之 间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存 关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通 过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻 关系、祖父关系、孙子关系、远亲关系。
在本发明一实施例中,所述步骤S2具体实现如下:
根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的 直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词 与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间 的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词 是情感词的儿子节点;opinion指情感词;
根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的 间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1, middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中 间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1 或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示。
在本发明一实施例中,所述步骤S3具体实现如下:
S31、候选观点评价对象词预处理:
(1)词性过滤:仅将名词或名词短语作为候选评价对象词;
(2)停用词过滤:过滤停用词;
(3)位置过滤:过滤不存在情感词的分句中的观点评价对象词;
S32、候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个 从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为 W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式(1)计算第j个候选观点评价对象词分数
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
S33、候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵 P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式(2)算第s个候选依存关系模板分数
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
S34、基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或 数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象 词,则前一个词或后一个词扩展为观点评价对象词。
在本发明一实施例中,所述步骤S33、S34之间还包括一步骤,即:由步骤S32、S33得到 的观点评价对象种子词、依存关系种子模板重新对步骤S31处理的候选观点评价对象词进行训 练,直至没有新的观点评价对象种子词产生,再执行步骤S34。
相较于现有技术,本发明在准确率、召回率和F_Score值相对于Qiu[2]方法有较大提升。
附图说明
图1为Qiu[2]方法定义的词A与词B的依存关系。
图2为本发明定义的观点评价对象词与情感词的依存关系。
图3为本发明一实施例的观点评价对象词与情感词的依存关系。
图4为本发明另一实施例观点评价对象词与情感词的依存关系。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明的一种基于依存关系抽取评价对象的方法,包括如下步骤,
S1、定义观点评价对象词与情感词之间的依存关系;
S2、基于步骤S1定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与 情感词之间的直接依存关系模板和间接依存关系模板;
S3、基于依存关系模板抽取观点评价对象的Bootstrapping算法。
所述步骤S1具体实现如下:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之 间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存 关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通 过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻 关系、祖父关系、孙子关系、远亲关系。
所述步骤S2具体实现如下:
根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的 直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词 与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间 的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词 是情感词的儿子节点;opinion指情感词;
根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的 间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1, middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中 间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1 或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示。
所述步骤S3具体实现如下:
S31、候选观点评价对象词预处理:
(1)词性过滤:仅将名词或名词短语作为候选评价对象词;
(2)停用词过滤:过滤停用词;
(3)位置过滤:过滤不存在情感词的分句中的观点评价对象词;
S32、候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个 从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为 W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式(1)计算第j个候选观点评价对象词分数
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
S33、候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵 P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式(2)算第s个候选依存关系模板分数
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
S34、基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或 数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象 词,则前一个词或后一个词扩展为观点评价对象词。
所述步骤S33、S34之间还包括一步骤,即:由步骤S32、S33得到的观点评价对象种子词、 依存关系种子模板重新对步骤S31处理的候选观点评价对象词进行训练,直至没有新的观点评 价对象种子词产生,再执行步骤S34。
本申请中利用BOOTSTRAPPING算法不断抽取观点评价对象种子词、依存关系种子模板, 也就是说,利用新产生的观点评价对象种子词与情感词之间的依存关系产生存在匹配关系的候 选依存关系模板,再利用新产生的依存关系模板与情感词匹配出候选观点评价对象种子词,这 样不断重复,直至没有新的观点评价对象种子词产生,再执行基于依存关系的观点评价对象边 界识别规则对观点评价对象种子词进行边界识别。
以下为本发明的具体实现过程。
Qiu[2]、Zhang[3]、Liu[4]、Wang[5]都只利用观点评价对象与情感词之间的直接依存关系 模板进行观点评价对象抽取,因为采用Qiu[2]的方法引入间接依存关系模板会降低性能。
本发明在实践中发现在中文正式文本语料中间接依存关系的引入有利于系统性能的提升。 因此,本发明对观点评价对象词与情感词之间的依存关系重新定义如下。
定义1:观点评价对象词与情感词之间的直接依存关系指观点评价对象词与情感词之间存 在依存关系,且在依存路径上没有依赖其他词。观点评价对象词与情感词的直接依存关系例子 如图2(a)和(b)所示。其中T代表观点评价对象词,O代表情感词,M代表中间词。图2(a)表示 “父亲关系”,即观点评价对象词是情感词的父亲节点;图2(b)表示“儿子关系”,即观点评价对 象词是情感词的儿子节点;
定义2:观点评价对象词与情感词之间的间接依存关系指观点评价对象词与情感词通过其 他词产生依存关系。观点评价对象词与情感词的间接依存关系例子如图2(c)、(d)、(e)、(f)和 (g)所示。图2(c)表示“兄弟关系”,即观点评价对象词与情感词有同一个父亲词;图2(d)表示“夫 妻关系”,即观点评价对象词与情感词有同一个儿子词;图2(e)表示“祖父关系”,即观点评价对 象词是情感词的父亲的父亲节点;图2(f)表示“孙子关系”,即观点评价对象词是情感词的儿子 的儿子节点;图2(g)表示“远亲关系”,即观点评价对象词与情感词通过其他多个词产生依存关系。
Qiu[2]定义的直接依存关系分别对应本发明的(a)(b)(c)(d)四种关系,Qiu[2]定义的间接 依存关系分别对应本发明的(e)(f)(g)三种关系。本发明定义的直接依存关系是本发明的(a)(b) 两种关系,间接依存关系是(c)(d)(e)(f)(g)五种关系。本发明对观点评价对象词与情感词之间 直接间接关系的重新定义有利于构建观点评价对象词与情感词之间的直接依存关系模板和间接 依存关系模板。
本发明将直接依存关系模板表示为(dp,target,relate,opinion)。其中:dp表示观点评价 对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感 词之间的依存关系形式,本发明用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点 评价对象词是情感词的儿子节点;opinion指情感词。间接依存关系模板表示为(dp1,target, relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion), 其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价 对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表 示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关 系形式,用-1或+1表示。
以句子“这款产品最大的特点是性价比非常高。”为例,观点评价对象词“性价比”与情感 词“高”的依存关系如图3所示,“性价比”是“高”的儿子节点,两个词之间的依存关系是主 谓关系,该模板表示为:(SBV,性价比,+1,高)。
例如句子“公司被誉为中国牛仔布第一品牌。”,“牛仔布”与“第一”之间存在一个依存 关系。按照Qiu[2]的定义这两个词之间是直接依存关系,用本发明的定义两个词是间接依存关 系,模板表示为(ATT,牛仔布,+1,品牌)+(ATT,品牌,-1,第一)。
本发明的基于依存关系抽取评价对象的方法,具体实现如下:
1候选观点评价对象预处理
为了提高算法的精确率,对候选观点评价对象词进行如下过滤处理。
(1)词性过滤。我们将名词或名词短语作为候选观点评价对象。虽然其他词性的词语也可 能是候选观点评价对象,但这些词性的引入会带来较大噪声。
(2)停用词过滤。这里的停用词包括通用停用词和领域停用词,如“上”,“下”,“时”等。
(3)位置过滤。考虑到观点评价对象词与情感词之间有修饰关系,因此候选观点评价对象 词所在的分句应该有情感词。
2候选观点评价对象词分数计算
定义:设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},我们取X×Y的一个子集 R构造一个从X到Y的匹配关系。即若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj。若 即称xi与yj没有匹配关系,记作
若候选观点评价对象词与情感词的依存关系符合种子依存关系模板,则称该依存关系模板 与候选观点评价对象词存在匹配关系。
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为 W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示模板个数;v表示候选观点评价对象词候选个数。
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1。
公式(1)用于计算第j个候选观点评价对象词分数。
3候选依存关系模板分数计算
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵 P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式(2)算第s个候选依存关系模板分数
4基于依存关系的观点评价对象边界识别规则
通过Bootstrapping方法得到的是观点评价对象的核心词,但观点评价对象通常是复合词, 因此还需要对得到的候选观点评价对象词进行边界识别,以进一步提高系统识别性能。
ATT规则:如果当前词是观点评价对象,前一个词或后一个词与该词具有定中关系ATT或 数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词。
合并规则:如果当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对 象词,则前一个词或后一个词扩展为观点评价对象词。
5基于依存关系模板抽取观点评价对象的Bootstrapping算法
抽取观点评价对象的Bootstrapping算法如下:
输入:情感词{O},依存关系R,初始依存关系模板集{P},初始观点评价对象词集{F}
输出:观点评价对象词{F}
Function:
BEGIN
1.
2.if<Fi,Pj>∈R
3.{对该候选观点评价对象词Fi进行过滤处理;
4.用公式(1)计算候选观点评价对象词分数;}
5.End if
6.if(score(Fi)>θ)
7.Set{F}={F}+{Fi}
8.End if
9.if<Pi,Fj>∈R
10.{用公式(2)计算候选依存关系模板Pi分数;}
11.End if
12.if(score(Pi)>γ)
13.Set{P}={P}+{Pi}
14.end if
15.Repeat2till size({Fi})=0且size({Pi})=0。
16.利用制定的规则,对观点评价对象进行边界识别。
END。
结论:
本发明将语料分成正式和非正式两个实验数据,其中正式语料包含216个句子,非正式语 料129个句子。非正式文本具有简短、表达的意思一般不够完整等特点,为了提高交流速度非 正式文本中有大量缩写、省略、指代,还掺杂着网络语言和表情符号甚至拼写错误,例如“深 发展还有转账汇款等手续费优惠政策,比柜台还实惠,真太好了,也不知我们这边开通了吗?”是一 个非正式文本;正式文本遣词造句时构思严密、语法结构完整、不出现省略词及缩写形式,通 常用于新闻、学术文献等。如句子“公司被誉为中国牛仔布第一品牌。”是一个正式文本。
本发明方法在正式语料中准确率、召回率和F_Score值相对于Qiu[2]方法有一定提升。这 是因为本发明方法引入更多间接依存关系模板,增加了更多词和更多模板作为候选观点评价对 象和候选模板,避免一些错误的候选模板被挑选进种子模板集从而避免在Bootstrapping过程产 生更多错误的观点评价对象。例如句子“公司被誉为中国牛仔布第一品牌。”,观点评价对象词 “品牌”与情感词“第一”之间存在直接依存关系(ATT,品牌,-1,第一),同时候选观点评价 对象词“牛仔布”与情感词“第一”之间也存在依存关系,如图4所示。Qiu[2]方法由于产生 的候选模板数目较少,候选模板(ATT,target,+1,middle)+(ATT,middle,-1,opinion)分数 超过指定阈值被认为是模板,从而导致抽取“牛仔布”为观点评价对象词,因此Qiu[2]方法在 正式语料中性能较低。
参考文献:
[1]冯志伟.特思尼耶尔的从属关系语法[J].国外语言学.1983,(1):63-65.
[2]G.Qiu,B.Liu,J.J.Bu,etal.Opinion Word expansion and targetextraction through double propagation[C].Proceedings of the 2nd Workshop onComputational Approaches to Subjectivity and Opinion Analysis,PA,USA,20ll:125-131.
[3]L.Zhang,B.Liu,S.H.Lim,etal.2010.Extracting and Ranking ProductFeatures in Opinion Documents.In Proceedings of COLING2010.
[4]K.Liu,L.H.Xu,J.Zhao.Co-Extracting Opinion Targets and OpinionWords from Online Reviews Based on the Word Alignment Model.IEEE TRANSACTIONSON KNOWLEDGE AND DATA ENGINEERING,VOL.27,NO.3,MARCH2015
[5]H.Wang,C.Zhang,H.Yin,W.Wang,J.Zhang,F.Xu.A Unified Framework forFine-Grained Opinion Mining from Online Reviews.49th Hawaii InternationalConference on System Sciences, 1530-1605/162016IEEE.
[6]S.Abney.Bootstrapping[C].Proceedings of the Annual Meeting of theAssociation for Computational Linguistics,2002:360-367.
[7]张磊,李珊,彭舰,等.基于依存关系和最大熵的特征-情感对分类[J].电子科技大学学 报.2014,43(3):420-425.
[8]袁璐,蒙祖强,许珂.依存分析和HMM相结合的信息抽取方法[J].计算机工程与应 用,2012,48(9):138-140.
[9]戴敏,王荣洋,李寿山,等.基于句法特征的观点评价对象抽取方法研究[J].中文信息学报, 2014,28(4):92-97.
[10]M.Hu,B.Liu.Mining and summarizing customer reviews//Proc ofSIGKD.New York,ACM,2004:168—177.
[11]张凌,冯欣.基于词性模板与依存分析的中文微博情感要素抽取[J].计算机科 学,2015,42(6A):474-478.
[12]K.Bloom,N.Garg,S.Argamon.Extracting appraisal expressions[C].Procof Conference on Human Language Technologies/North American Association ofComputational Linguistics. 2007:308-315.
[13]顾正甲,姚天昉.评价对象及其倾向性的抽取和判别[J].中文信息学报,2012,26(4):91-97.
[14]J.Wei,H.H.Hung,K.S.Rohini.Opinion Miner:A Novel Machine LearningSystem for Web Opinion Mining and Extraction[C].In The 15th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining,2009:1195-1204.
[15]S.Zhang,Y.J.Xia,Y.Meng,H.Yu.A Bootstrapping Method for Finer-Grained Opinion Mining Using Graph Model[C].PACLIC 2009:589-595.
[16]宋晓雷,王素格,李红霞.面向特定领域的产品观点评价对象自动识别研究[J].中文信息 学报.2010,24(1):89-93.。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出 本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种基于依存关系抽取评价对象的方法,其特征在于:包括如下步骤,
S1、定义观点评价对象词与情感词之间的依存关系;
S2、基于步骤S1定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
S3、基于依存关系模板抽取观点评价对象的Bootstrapping算法。
2.根据权利要求1所述的一种基于依存关系抽取评价对象的方法,其特征在于:所述步骤S1具体实现如下:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系。
3.根据权利要求2所述的一种基于依存关系抽取评价对象的方法,其特征在于:所述步骤S2具体实现如下:
根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示。
4.根据权利要求3所述的一种基于依存关系抽取评价对象的方法,其特征在于:所述步骤S3具体实现如下:
S31、候选观点评价对象词预处理:
(1)词性过滤:仅将名词或名词短语作为候选评价对象词;
(2)停用词过滤:过滤停用词;
(3)位置过滤:过滤不存在情感词的分句中的观点评价对象词;
S32、候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式(1)计算第j个候选观点评价对象词分数
<mrow>
<msub>
<mi>sw</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>u</mi>
</munderover>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>*</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>u</mi>
</munderover>
<mfrac>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>v</mi>
</munderover>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
</mfrac>
</mrow>
<mi>u</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
S33、候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式(2)算第s个候选依存关系模板分数
<mrow>
<msub>
<mi>sp</mi>
<mi>s</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>p</mi>
<mrow>
<mi>t</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>*</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mfrac>
<msub>
<mi>p</mi>
<mrow>
<mi>t</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>p</mi>
<mrow>
<mi>t</mi>
<mi>s</mi>
</mrow>
</msub>
</mrow>
</mfrac>
</mrow>
<mi>m</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
S34、基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词。
5.根据权利要求4所述的一种基于依存关系抽取评价对象的方法,其特征在于:所述步骤S33、S34之间还包括一步骤,即:由步骤S32、S33得到的观点评价对象种子词、依存关系种子模板重新对步骤S31处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生,再执行步骤S34。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710783711.4A CN107480142B (zh) | 2017-09-01 | 2017-09-01 | 一种基于依存关系抽取评价对象的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710783711.4A CN107480142B (zh) | 2017-09-01 | 2017-09-01 | 一种基于依存关系抽取评价对象的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480142A true CN107480142A (zh) | 2017-12-15 |
CN107480142B CN107480142B (zh) | 2021-04-27 |
Family
ID=60603570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710783711.4A Active CN107480142B (zh) | 2017-09-01 | 2017-09-01 | 一种基于依存关系抽取评价对象的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480142B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926307A (zh) * | 2021-03-19 | 2021-06-08 | 闽江学院 | 基于依存关系的评价对象情感分析方法及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN102866989B (zh) * | 2012-08-30 | 2016-09-07 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN106257455A (zh) * | 2016-07-08 | 2016-12-28 | 闽江学院 | 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法 |
-
2017
- 2017-09-01 CN CN201710783711.4A patent/CN107480142B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN102866989B (zh) * | 2012-08-30 | 2016-09-07 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN106257455A (zh) * | 2016-07-08 | 2016-12-28 | 闽江学院 | 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926307A (zh) * | 2021-03-19 | 2021-06-08 | 闽江学院 | 基于依存关系的评价对象情感分析方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107480142B (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241538B (zh) | 基于关键词和动词依存的中文实体关系抽取方法 | |
Zhang et al. | Neural networks for open domain targeted sentiment | |
Al-Amin et al. | Sentiment analysis of Bengali comments with Word2Vec and sentiment information of words | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109697288B (zh) | 一种基于深度学习的实例对齐方法 | |
Tariq et al. | Exploiting topical perceptions over multi-lingual text for hashtag suggestion on twitter | |
Ahmed et al. | Named entity recognition by using maximum entropy | |
De Clercq et al. | Lt3: applying hybrid terminology extraction to aspect-based sentiment analysis | |
CN110750646A (zh) | 一种旅店评论文本的属性描述提取方法 | |
KR101079869B1 (ko) | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 | |
CN115017335A (zh) | 知识图谱构建方法和系统 | |
Mitroi et al. | Sentiment analysis using topic-document embeddings | |
Sarhan et al. | Arabic relation extraction: A survey | |
Arif et al. | Sentiment analysis of roman urdu/hindi using supervised methods | |
CN107480142B (zh) | 一种基于依存关系抽取评价对象的方法 | |
Ahmad et al. | Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language | |
Kowsher et al. | Lemmatization algorithm development for bangla natural language processing | |
Zheng et al. | Multi-dimensional sentiment analysis for large-scale E-commerce reviews | |
CN111259661A (zh) | 一种基于商品评论的新情感词提取方法 | |
Hridoy et al. | Aspect based sentiment analysis for bangla newspaper headlines | |
Mulki et al. | Empirical evaluation of leveraging named entities for Arabic sentiment analysis | |
Shi et al. | Joint embedding in named entity linking on sentence level | |
Wen et al. | Aspect term extraction of E-commerce comments based on model ensemble | |
El-Kishky et al. | Entropy-based subword mining with an application to word embeddings | |
Luo et al. | Macau: Large-scale skill sense disambiguation in the online recruitment domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |