CN105224640B - 一种提取观点的方法和设备 - Google Patents

一种提取观点的方法和设备 Download PDF

Info

Publication number
CN105224640B
CN105224640B CN201510622213.2A CN201510622213A CN105224640B CN 105224640 B CN105224640 B CN 105224640B CN 201510622213 A CN201510622213 A CN 201510622213A CN 105224640 B CN105224640 B CN 105224640B
Authority
CN
China
Prior art keywords
attribute
viewpoint
comment
word
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510622213.2A
Other languages
English (en)
Other versions
CN105224640A (zh
Inventor
毛成军
潘照明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Shuzhifan Technology Co ltd
Original Assignee
Hangzhou Langhe Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Langhe Technology Co Ltd filed Critical Hangzhou Langhe Technology Co Ltd
Priority to CN201510622213.2A priority Critical patent/CN105224640B/zh
Publication of CN105224640A publication Critical patent/CN105224640A/zh
Application granted granted Critical
Publication of CN105224640B publication Critical patent/CN105224640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了一种提取观点的方法。该方法包括:从虚拟社区获取用户针对评价对象的评语;对所述评语进行分词,获得所述评语中每个词的词性;根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系;根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点。通过评语中各个词之间的依存关系提取评价观点,本发明的方法显著地提高了所提取的评价观点的正确率,使得所提取的评价观点实用性强。此外,本发明的实施方式提供了一种提取观点的设备。

Description

一种提取观点的方法和设备
技术领域
本发明的实施方式涉及计算机领域,更具体地,本发明的实施方式涉及一种提取观点的方法和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网技术的普及,论坛等虚拟社区不断发展。在虚拟社区中,每天都会产生大量对某个评价对象的评论内容,该评价对象可以是汽车,手机,或者食品等实物产品,也可以是社交软件,购物平台,或者游戏道具等虚拟产品。商家可以统计消费者在虚拟社区中对产品的评论内容,分析消费者对产品的需求,不断对产品进行改进,提升产品质量。
虚拟社区中对某个评价对象的评论内容,一般包括四部分:主题(topic),观点持有者(holder),观点(claim)以及情感极性判断。一般情况下,从评论内容中所提取的观点是分析消费者对产品需求的主要依据。所提取的一个评价对象的观点中,不仅包括对该评价对象的观点,还包括对该评价对象的属性的观点。
目前,现有技术中采用固定的句式结构实现对观点的提取,以两个标点符号间的一串文字作为一个整体进行分析,当所述两个符号间的一串文字满足表1所示的句式结构时,将所述两个符号间的一串文字作为观点进行提取。
表1中的n表示名词,a表示形容词,v表示动词,d表示副词,u表示助词,c表示连词,“+”表示词的组合,表1中括号里面的内容可以替换括号外面没被“+”隔开的内容。举例说明:表1中n(n+n或n+n+n等)+a,观点的句式结构为名词(n)与形容词(a)的组合,其中,可以用两个名词(n+n)或三个名词(n+n+n)组成的名词短语代替名词(n)。
表1 观点的句式结构
观点的句式结构 评价对象(评价对象的属性) 观点描述
n(n+n或n+n+n等)+a n(n+n或n+n+n等) a
n+c+n+a c旁的2个n a
n+u+n+a u旁的2个n a
n(n+n或n+n+n等)+d+ an(n+n或n+n+n等) d+a
n+c+n+d+a c旁的2个n d+a
n+u+n+d+a u旁的2个n d+a
(d+a)a+u+n(n+c+n..) n(+c旁的n) d+a
v(v+d)+a 左方的slot词n (d+a)a
(d+a)a+u+v 左方的slot词n (d+a)a
发明内容
但是,现有技术中采用表1所示的固定的句式结构提取观点的方法,一方面,固定的句式结构中没有否定的句式结构,无法识别否定的观点;另一方面,固定的句式结构中评价观点不一定是对评价对象进行评价的观点,导致提取的观点错误;再一方面,该方法以两个标点符号之间的一串文字为一个整体进行分析,无法识别评价对象和评价观点在不同的短句中的观点。由于现有技术所采用的提取观点的方法存在上述问题,因此,采用现有技术提取的观点的准确率低,完整程度低,导致提取的观点实用性差。
因此,在现有技术中,提取的观点的准确率低,完整程度低,导致的观点实用性差,这是非常令人烦恼的过程。
为此,非常需要一种改进的提取观点的方法和设备,以使得提取观点时可以识别否定的观点,避免提取错误观点,能够识别评价对象和评价观点在不同的短句中的观点,提高所提取观点的正确率,完整程度以及实用性。
在本上下文中,本发明的实施方式期望提供一种提取观点的方法和设备。
本发明实施例的第一方面,提供了一种提取观点的方法,包括:从虚拟社区获取用户针对评价对象的评语;对所述评语进行分词,获得所述评语中每个词的词性;根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系;根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点。
本发明实施例的第二方面,提供了一种提取观点的设备,包括:第一获取模块,用于从虚拟社区获取用户针对评价对象的评语;分词模块,用于对所述评语进行分词,获得所述评语中每个词的词性;分析模块,用于根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系;提取模块,用于根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点。
根据本发明提供的提取观点的方法和设备,可以在提取观点时,对所述评语进行分词,获得所述评语中每个词的词性,根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系,根据所述评语中各个词之间的依存关系提取观点,可以识别否定的观点,避免提取错误观点,能够识别评价对象和评价观点在不同的短句中的观点,从而显著地降低了提取观点的错误率,提高了所提取的观点的实用性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为本发明的实施方式的一个示例性应用场景的框架示意图;
图2为本发明的实施方式一个示例性应用场景提取的评价观点的结果示意图;
图3示意性地示出了本发明中提取观点的方法一实施例的流程图;
图4示意性地示出了根据本发明中依存关系的实例示意图;
图5示意性地示出了本发明中提取观点的设备一实施例的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种提取观点的方法和设备。
在本文中,需要理解的是,所涉及的符号“+”不表示数学中常规意义的求和,而是表示该“+”前后的内容按照顺序组合。例如:属性A+介词C+属性B+观点D,表示由属性A,介词C,属性B以及观点D依次组合所得的句式。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,现有技术中采用固定的句式结构实现对观点的提取时,一方面,固定的句式结构中没有否定的句式结构,无法识别否定的观点。例如:“完全不觉得这部手机漂亮”,根据现有技术中的句式结构“n+a”,提取出的观点为“手机漂亮”,但是实际的观点是“手机不漂亮”。
另一方面,固定的句式结构中评价观点不一定是对评价对象进行评价的观点,导致提取的观点错误。例如:“手机麻烦你帮我修理一下”,提取出的观点为“手机麻烦”,实际上“麻烦”不是修饰手机的。
再一方面,该方法以两个标点符号之间的一串文字为一个整体进行分析,无法识别评价对象和评价观点在不同的短句中的观点。例如:“我新买了一台电脑,可好用了”,由于分析的最小单位是两个标点符号之间的短语,则无法识别观点“电脑好用”。
因此,采用现有技术中固定的句式结构提取观点存在上述问题,提取的观点的准确率低,完整程度低,导致提取的观点实用性差。
基于上述发现,本发明的基本思想在于:对用户针对评价对象的评语进行分词,获得所述评语中每个词的词性;根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系;根据所述评语中各个词之间的依存关系提取观点。一方面,本发明中根据所述评语中各个词之间的依存关系,可以分析得到否定的观点,并且分析出观点所属的评价对象;另一方面,本发明中分析的最小单元是评语,即一般情况下是针对评价对象进行评论的完整的语句,而不是由任意两个标点符号隔开的短句,可以识别评价对象和评价观点在不同的短句中的观点。因此,本发明提供的提取观点的方法能够识别评价对象和评价观点在不同的短句中的观点,提高所提取观点的正确率,完整程度以及实用性。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,图1为本发明的实施方式的一个示例性应用场景的框架示意图。虚拟社区的存储设备,用于存储有所有评语的原始数据。虚拟社区的评语搜索设备,以评价对象为关键词,从虚拟社区的存储设备存储的评语中检索针对评价对象的评语,并将针对评价对象的评语输出至虚拟社区的提取观点设备。虚拟社区的观点设备,按照本发明所提供的提取观点的方法提取对所述评价对象或预设的所述评价对象的属性的评价观点。
图2为本发明的实施方式一个示例性应用场景提取的评价观点的结果示意图。从针对天气的320条评语中,提取出5条关于“天气变化快”的评价观点,还提取出5条关于“天气变化大”的评价观点。
“天气变化快”的评价观点对应的原始的评语为:
啊,福建这边天气变化太快。
这天气变化的好快==好冷啊!
那好吧,在外地自己多注意身体最近天气变化很快。
身子虚,最近天气变化太快也太频繁了吧。
天气变化太快_(:З」∠)_
“天气变化大”的评价观点对应的原始的评语为:
天气变化太大。
好像是这两天天气变化大,一会很热一会很冷。
到处天气变化都大。
这几天天气变化太大。
恩恩去吧~最近天气变化比较大。
需要注意的是,本发明所提供的提取观点的方法可以应用在客户端,也可以应用在服务器。此处的客户端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线或无线连接(例如,Wi-Fi、LAN、WAN、因特网等)与APP服务器交互的任何交互设备,包括但不限于:现有的、正在研发的或将来研发的、台式计算机、膝上型计算机、移动终端(包括智能手机、非智能手机、各种平板电脑)等。此处的服务器仅是现有的、正在研发的或将来研发的、能够向用户提供任意一种网络应用服务的设备的一个示例。本发明的实施方式在此方面不受任何限制。
示例性方法
下面结合图1~图2的应用场景,参考图3~图4来描述根据本发明示例性实施方式的用于提取观点的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
参见图3,示出了本发明中提取观点的方法一实施例的流程图。例如具体可以包括如下步骤:
301:从虚拟社区获取用户针对评价对象的评语。
互联网技术不断发展,论坛等虚拟社区的规模也越来越大,用户数量不断增多。虚拟社区中,每天都会产生大量的评语,这些评语针对各种各样的评价对象。评价对象可以是实际产品,如汽车,手机以及楼盘等,也可以是虚拟产品,如游戏道具,应用软件以及电影电视节目等。
为了获得用户在虚拟社区中针对某一个评价对象的评价观点,需要从用户在虚拟社区中大量的评语中提取针对该评价对象的评价观点。商家可以根据用户在虚拟社区中对评价对象的评价观点,更好的改进产品,提高产品质量。
从虚拟社区获取用户针对评价对象的评语,具体实现时,以所述评价对象为关键词,从虚拟社区的大量评语中获取针对该评价对象的评语。本发明中,一般情况下,获取的评价对象的评语是汉语表述中完整的语句,即为句号,问号以及叹号等作为完整语句分隔符之间的内容。举例说明:“我新买了一台电脑,可好用了”。在现有技术中,“我新买了一台电脑”以及“可好用了”是两个独立分析的短语。而在本发明中,“我新买了一台电脑,可好用了”是一个完整的评语,需要作为一个整体进行分析。
在具体实现时,所述方法还包括:对所述针对评价对象的评语进行语句处理,所述语句处理包括:去掉所述评语中无意义的符号,用逗号代替所述评语中的空格,保留重复出现的标点中的一个,以及从超过预设阈值的所述评语中输出含有所述评价对象的短句中的任意一种或多种。
由于用户在虚拟社区中发表的评语很随意,用语不规范,需要进行语句处理。在从虚拟社区获取评价对象的评语后,对所述评价对象的评语进行语句处理,包括以下处理中的任意一种或多种:
(1)去掉所述评语中无意义的符号,例如:去掉“~~”以及“:)”等无意义的符号;
(2)用逗号代替所述评语中的空格,若前一个短句和后一个短句之间中间没有标点符号,只用空格隔开,则将该空格用逗号代替;
(3)保留重复出现的标点中的一个,若连续出现多个标点符号,则只保留多个标点符号中的一个即可;
(4)从超过预设阈值的所述评语中输出含有所述评价对象的短句,若所述评语的长度超过预设阈值,则根据标点符号切分语句,输出含有所述评价对象并满足预设阈值长度的短句。
除了上述四种语句处理方法以外,还可以对所述评价对象的评语执行其他类型的语句处理,例如:删除重复的语句等,这里不再一一赘述。
302:对所述评语进行分词,获得所述评语中每个词的词性。
对所述评语中的每个词进行分词(word segmentation),可以采用现有技术中任意一种进行分词的方法。具体实现时,可以采用中科院研发的开源ICTCLAS50系统进行分词,所述ICTCLAS50系统主要使用了词表法和N-最短路径法结合的算法。可以参照中文信息学报的文献“基于N-最短路径方法的中文词语粗分模型”;作者:张华平,刘群。当然,还可以采用其他的分词方法,这里不再赘述。
对所述评语中的每个词进行分词后,需要对所述评语中每个词进行词性标注(part-of-speech tagging),也可以采用现有技术中任意一种词性标注的方法。具体实现时,可以采用中科院研发的开源ICTCLAS50系统,所述ICTCLAS50系统主要使用了隐马尔可夫模型(hidden Morkov model,HMM)。当然,还可以采用其他的词性标注方法,这里不再赘述。
303:根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系。
根据所述评价对象的评语中每个词的词性,对所述评价对象的评语进行依存分析。在依存句法(dependence grammar)理论中,句法关联建立起词与词之间的从属关系,这种从属关系是由支配词和从属词联结而成,处于支配地位的词为支配词(governor),处于被支配地位的词为从属词(dependency)。“依存”就是指词与词之间支配与被支配的关系,这种关系不是对等的,而是有方向的。
举例说明,如图4所示,支配词在有向弧的发出端,从属词在箭头端,通常说从属词依存于支配词。如果“北京”是评价对象,那么通过依存关系,可以得到评价观点“北京是首都”。把评价观点分解成“评价对象+观点词”的话,观点词依存于评价对象,评价对象可以是评价对象的一个属性,也可以是评价对象本身。通过查找评语中依存于评价对象或者评价对象的属性的观点词,就可以提取出完整的评价观点。
对所述评价对象的评语进行依存分析(dependency analysis),获得所述评语中各个词之间的依存关系,可以采用现有技术中任意一种进行依存分析的方法。具体实现时,可以采用斯坦福的开源parser,主要使用了词汇化概率模型(lexicalized probabilisticmodel)与基于概率的上下文无关文法(probabilistic context-free grammar,PCFG)结合的算法。当然,还可以采用其他的进行依存分析的方法,这里不再赘述。
304:根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点。
本发明中所提供的提取观点的方法,按照需求确定一个评价对象,根据所述评价对象获取预设的所述评价对象的属性的方法包括:
根据所述评语中各个词之间的依存关系,获得与所述评价对象为联合关系(United Relation,UR)的词;
将所述评价对象以及所述与所述评价对象为UR的词组成的短语作为所述评价对象的属性。
当一个词语与所述评价对象满足表2所示二元关系(dependency relation)时,该词语与所述评价对象满足UR关系,该词语与所述评价对象组成UR关系的短语,即为所述评价对象的属性。
表2 UR关系的短语结构
现有技术中,评价对象的属性是技术人员根据统计结果预先配置的,所获得的评价对象的属性不全面;并且,随着科技的发展,无法及时添加新出现的评价对象的属性,扩展性差;对于不同的技术领域,评价对象的属性也不完全相同,导致评价对象的可移植性差。而本发明中,根据针对所述评价对象的语句中各个词之间的依存关系,预先获得所述评价对象的属性。所获得的评价对象的属性全面,并且还可以获得新出现的评价对象的属性,针对不同的技术领域获得符合该技术领域的评价对象的属性,提高了评价对象的属性的可扩展性和可移植性。
可选的,从所述虚拟社区的评语中提取用户对评价对象或预设的所述评价对象的属性的评价观点,包括:
判断所述评语是否满足预设的句式;
当所述评语满足预设的句式时,根据所述评语中各个词之间的依存关系,判断所述评语中存在二元关系的词是否满足该预设的句式的二元规则;
当所述评语中存在二元关系的两个词满足该预设的句式的二元规则时,从所述虚拟社区的评语中提取对所述评价对象或预设的所述评价对象的属性的评价观点;
其中,所述预设的句式以及该预设的句式的二元规则包括以下任意一种:
第一种:所述预设的句式为:属性A+介词C+属性B+观点D;
所述预设的句式的二元规则包括:介词C为否定词或比较词,属性A和属性B的词性相同,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语;
第二种:所述预设的句式为:属性A+介词C+属性B+观点D+辅助结构E;
所述预设的句式的二元规则为:介词C为否定词或比较词,属性A和属性B的词性相同,辅助结构E的词性为名词或动名词,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语,辅助结构E依存于观点D,辅助结构E是观点D的直接宾语,属性部分或副词状语;
第三种:所述预设的句式为:属性A+观点D;
所述预设的句式的二元规则为:属性A和观点D是修饰关系;
所述修饰关系为:属性A的词性为名词、动名词或方位词,观点D的词性为形容词,观点D依存于属性A,观点D是属性A的复合名词、辅助结构、形容词修饰结构或直接宾语;
或者,
所述修饰关系为:属性A的词性为形容词,观点D的词性为名词、动名词或方位词,属性A依存于观点D,属性A是观点D的复合名词、辅助结构、形容词修饰结构或直接宾语;
第四种,所述预设的句式为:属性A+动作F+属性B+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性A依存于动作F,属性A是动作F的名词主语或形容词修饰结构,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第五种,所述预设的句式为:动作F+属性B+观点D;
所述预设的句式的二元规则为:动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第六种,所述预设的句式为:属性A+G+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,G是动词“是”,观点D的词性为名词,动名词或形容词,属性A依存于G,属性A是G的名词主语或副词状语。
根据所述评语中各个词之间的依存关系,判断所述评语中存在二元关系的词是否满足表3中所示的二元规则,如果是,从所述虚拟社区的评语中提取对所述评价对象或预设的所述评价对象的属性的评价观点。
表3 评价观点的语句的二元规则描述
当虚拟社区中用户的评语中包含所述评价对象,或者预设的评价对象的属性,所述评语满足表3所示的句式,并且所述评语中各个词的依存关系满足表3所示的二元规则时,从虚拟社区中提取用户的所述评语作为评价观点。
在具体实现时,可选的,所述方法还包括:
查询从所述虚拟社区的评语中提取的评价观点中是否存在第一词+第二词,所述第二词依存于所述第一词,并且所述第二词是所述第一词的否定词;
当所述评价观点中是否存在第一词+第二词时,交换所述第二词和所述第一词的位置。
举例说明,若提取的评价观点是“天气不好”,则将“不好”放在“天气”前面。采用上述方式识别评价观点中的否定的评价观点,从而将肯定的评价观点和否定的评价观点分开,更好的分析用户对评价对象的评价观点。
由上述内容可知,本发明所提供的提取观点的方法中,将虚拟社区中用户的评语作为最小的分析单元,所述评语为一个完整的语句,可以识别评价对象和评价观点在不同的短句中的评价观点;根据所述评语的各个词之间的依存关系提取评价观点,防止提取错误的评价观点;而且,按照表3所示的评价观点的句式以及二元规则提取的评价观点,也可以识别否定的评价观点。从虚拟社区的评语中提取的针对评价对象的评价观点正确率高,并且实用性强。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的、用于提取观点的设备进行具体描述。
参见图5,示出了本发明中提取观点的设备一实施例的结构示意图,所述设备包括:
第一获取模块501,用于从虚拟社区获取用户针对评价对象的评语。
分词模块502,用于对所述评语进行分词,获得所述评语中每个词的词性。
分析模块503,用于根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系。
提取模块504,用于根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点。
可选的,所述设备还包括:
第二获取模块,用于根据所述评语中各个词之间的依存关系,获得与所述评价对象为联合关系UR的词;
组合模块,用于将所述评价对象以及所述与所述评价对象为UR的词组成的短语作为所述评价对象的属性。
可选的,所述提取模块504包括:
第一判断单元,用于判断所述评语是否满足预设的句式;
第二判断单元,用于当所述评语满足预设的句式时,根据所述评语中各个词之间的依存关系,判断所述评语中存在二元关系的词是否满足该预设的句式的二元规则;
观点提取单元,用于当所述评语中存在二元关系的两个词满足该预设的句式的二元规则时,从所述虚拟社区的评语中提取对所述评价对象或预设的所述评价对象的属性的评价观点;
其中,所述预设的句式以及该预设的句式的二元规则包括以下任意一种:
第一种:所述预设的句式为:属性A+介词C+属性B+观点D;
所述预设的句式的二元规则包括:介词C为否定词或比较词,属性A和属性B的词性相同,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语;
第二种:所述预设的句式为:属性A+介词C+属性B+观点D+辅助结构E;
所述预设的句式的二元规则为:介词C为否定词或比较词,属性A和属性B的词性相同,辅助结构E的词性为名词或动名词,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语,辅助结构E依存于观点D,辅助结构E是观点D的直接宾语,属性部分或副词状语;
第三种:所述预设的句式为:属性A+观点D;
所述预设的句式的二元规则为:属性A和观点D是修饰关系;
所述修饰关系为:属性A的词性为名词、动名词或方位词,观点D的词性为形容词,观点D依存于属性A,观点D是属性A的复合名词、辅助结构、形容词修饰结构或直接宾语;
或者,
所述修饰关系为:属性A的词性为形容词,观点D的词性为名词、动名词或方位词,属性A依存于观点D,属性A是观点D的复合名词、辅助结构、形容词修饰结构或直接宾语;
第四种,所述预设的句式为:属性A+动作F+属性B+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性A依存于动作F,属性A是动作F的名词主语或形容词修饰结构,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第五种,所述预设的句式为:动作F+属性B+观点D;
所述预设的句式的二元规则为:动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第六种,所述预设的句式为:属性A+G+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,G是动词“是”,观点D的词性为名词,动名词或形容词,属性A依存于G,属性A是G的名词主语或副词状语。
可选的,所述设备还包括:
处理模块,用于对所述针对评价对象的评语进行语句处理,所述语句处理包括:去掉所述评语中无意义的符号,用逗号代替所述评语中的空格,保留重复出现的标点中的一个,以及从超过预设阈值的所述评语中输出含有所述评价对象的短句中的任意一种或多种。
可选的,所述设备还包括:
查询模块,用于查询从所述虚拟社区的评语中提取的评价观点中是否存在第一词+第二词,所述第二词依存于所述第一词,并且所述第二词是所述第一词的否定词;
交换模块,用于当所述评价观点中是否存在第一词+第二词时,交换所述第二词和所述第一词的位置。
图5所示的提取观点的设备是与图3所示的提取观点的方法所对应的方法,具体实现方式与图3所示的提取观点的方法类似,参考图3所示的方法中的描述,这里不再赘述。
应当注意,尽管在上文详细描述中提及了提取观点的设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (6)

1.一种提取观点的方法,其特征在于,所述方法包括:
从虚拟社区获取用户针对评价对象的评语;
对所述评语进行分词,获得所述评语中每个词的词性;
根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系;
根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点;所述评价对象的属性是指由所述评价对象以及与所述评价对象满足二元关系的词语组成的联合关系的短语;
查询从所述虚拟社区的评语中提取的评价观点中是否存在第一词+第二词,所述第二词依存于所述第一词,并且所述第二词是所述第一词的否定词;
当所述评价观点中存在第一词+第二词时,交换所述第二词和所述第一词的位置;
所述根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点包括:
判断所述评语是否满足预设的句式;
当所述评语满足预设的句式时,根据所述评语中各个词之间的依存关系,判断所述评语中存在二元关系的词是否满足该预设的句式的二元规则;
当所述评语中存在二元关系的两个词满足该预设的句式的二元规则时,从所述虚拟社区的评语中提取对所述评价对象或预设的所述评价对象的属性的评价观点;
其中,所述预设的句式以及该预设的句式的二元规则包括以下任意一种:
第一种:所述预设的句式为:属性A+介词C+属性B+观点D;
所述预设的句式的二元规则包括:介词C为否定词或比较词,属性A和属性B的词性相同,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语;
第二种:所述预设的句式为:属性A+介词C+属性B+观点D+辅助结构E;
所述预设的句式的二元规则为:介词C为否定词或比较词,属性A和属性B的词性相同,辅助结构E的词性为名词或动名词,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语,辅助结构E依存于观点D,辅助结构E是观点D的直接宾语,属性部分或副词状语;
第三种:所述预设的句式为:属性A+观点D;
所述预设的句式的二元规则为:属性A和观点D是修饰关系;
所述修饰关系为:属性A的词性为名词、动名词或方位词,观点D的词性为形容词,观点D依存于属性A,观点D是属性A的复合名词、辅助结构、形容词修饰结构或直接宾语;
或者,
所述修饰关系为:属性A的词性为形容词,观点D的词性为名词、动名词或方位词,属性A依存于观点D,属性A是观点D的复合名词、辅助结构、形容词修饰结构或直接宾语;
第四种,所述预设的句式为:属性A+动作F+属性B+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性A依存于动作F,属性A是动作F的名词主语或形容词修饰结构,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第五种,所述预设的句式为:动作F+属性B+观点D;
所述预设的句式的二元规则为:动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第六种,所述预设的句式为:属性A+G+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,G是动词“是”,观点D的词性为名词,动名词或形容词,属性A依存于G,属性A是G的名词主语或副词状语。
2.根据权利要求1所述的方法,其特征在于,获取预设的所述评价对象的属性的方法包括:
根据所述评语中各个词之间的依存关系,获得与所述评价对象为联合关系UR的词;
将所述评价对象以及所述与所述评价对象为UR的词组成的短语作为所述评价对象的属性。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述方法还包括:
对所述针对评价对象的评语进行语句处理,所述语句处理包括:去掉所述评语中无意义的符号,用逗号代替所述评语中的空格,保留重复出现的标点中的一个,以及从超过预设阈值的所述评语中输出含有所述评价对象的短句中的任意一种或多种。
4.一种提取观点的设备,其特征在于,所述设备包括:
第一获取模块,用于从虚拟社区获取用户针对评价对象的评语;
分词模块,用于对所述评语进行分词,获得所述评语中每个词的词性;
分析模块,用于根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之间的依存关系;
提取模块,用于根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户对所述评价对象或预设的所述评价对象的属性的评价观点;所述评价对象的属性是指由所述评价对象以及与所述评价对象满足二元关系的词语组成的联合关系的短语;
查询模块,用于查询从所述虚拟社区的评语中提取的评价观点中是否存在第一词+第二词,所述第二词依存于所述第一词,并且所述第二词是所述第一词的否定词;
交换模块,用于当所述评价观点中存在第一词+第二词时,交换所述第二词和所述第一词的位置;
所述提取模块包括:
第一判断单元,用于判断所述评语是否满足预设的句式;
第二判断单元,用于当所述评语满足预设的句式时,根据所述评语中各个词之间的依存关系,判断所述评语中存在二元关系的词是否满足该预设的句式的二元规则;
观点提取单元,用于当所述评语中存在二元关系的两个词满足该预设的句式的二元规则时,从所述虚拟社区的评语中提取对所述评价对象或预设的所述评价对象的属性的评价观点;
其中,所述预设的句式以及该预设的句式的二元规则包括以下任意一种:
第一种:所述预设的句式为:属性A+介词C+属性B+观点D;
所述预设的句式的二元规则包括:介词C为否定词或比较词,属性A和属性B的词性相同,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语;
第二种:所述预设的句式为:属性A+介词C+属性B+观点D+辅助结构E;
所述预设的句式的二元规则为:介词C为否定词或比较词,属性A和属性B的词性相同,辅助结构E的词性为名词或动名词,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语,辅助结构E依存于观点D,辅助结构E是观点D的直接宾语,属性部分或副词状语;
第三种:所述预设的句式为:属性A+观点D;
所述预设的句式的二元规则为:属性A和观点D是修饰关系;
所述修饰关系为:属性A的词性为名词、动名词或方位词,观点D的词性为形容词,观点D依存于属性A,观点D是属性A的复合名词、辅助结构、形容词修饰结构或直接宾语;
或者,
所述修饰关系为:属性A的词性为形容词,观点D的词性为名词、动名词或方位词,属性A依存于观点D,属性A是观点D的复合名词、辅助结构、形容词修饰结构或直接宾语;
第四种,所述预设的句式为:属性A+动作F+属性B+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性A依存于动作F,属性A是动作F的名词主语或形容词修饰结构,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第五种,所述预设的句式为:动作F+属性B+观点D;
所述预设的句式的二元规则为:动作F的词性为动词,属性B的词性为名词或动名词,观点D的词性为形容词,属性B依存于动作F,属性B是动作F的直接宾语,观点D与所述预设句式中的任意一个词没有所述修饰关系;
第六种,所述预设的句式为:属性A+G+观点D;
所述预设的句式的二元规则为:属性A的词性为名词或动名词,G是动词“是”,观点D的词性为名词,动名词或形容词,属性A依存于G,属性A是G的名词主语或副词状语。
5.根据权利要求4所述的设备,其特征在于,所述设备还包括:
第二获取模块,用于根据所述评语中各个词之间的依存关系,获得与所述评价对象为联合关系UR的词;
组合模块,用于将所述评价对象以及所述与所述评价对象为UR的词组成的短语作为所述评价对象的属性。
6.根据权利要求4-5任意一项所述的设备,其特征在于,所述设备还包括:
处理模块,用于对所述针对评价对象的评语进行语句处理,所述语句处理包括:去掉所述评语中无意义的符号,用逗号代替所述评语中的空格,保留重复出现的标点中的一个,以及从超过预设阈值的所述评语中输出含有所述评价对象的短句中的任意一种或多种。
CN201510622213.2A 2015-09-25 2015-09-25 一种提取观点的方法和设备 Active CN105224640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510622213.2A CN105224640B (zh) 2015-09-25 2015-09-25 一种提取观点的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510622213.2A CN105224640B (zh) 2015-09-25 2015-09-25 一种提取观点的方法和设备

Publications (2)

Publication Number Publication Date
CN105224640A CN105224640A (zh) 2016-01-06
CN105224640B true CN105224640B (zh) 2019-12-31

Family

ID=54993608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510622213.2A Active CN105224640B (zh) 2015-09-25 2015-09-25 一种提取观点的方法和设备

Country Status (1)

Country Link
CN (1) CN105224640B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102993B (zh) * 2016-02-19 2021-01-29 创新先进技术有限公司 一种用户诉求分析方法和装置
CN105843796A (zh) * 2016-03-28 2016-08-10 北京邮电大学 一种微博情感倾向分析方法及装置
CN107239455B (zh) * 2016-03-28 2021-06-11 阿里巴巴集团控股有限公司 核心词识别方法及装置
CN106354754A (zh) * 2016-08-16 2017-01-25 清华大学 基于离散独立成分分析的自展式隐式特征挖掘方法和系统
CN106802887A (zh) * 2016-12-30 2017-06-06 北京三快在线科技有限公司 分词处理方法及装置、电子设备
CN108334490B (zh) * 2017-04-07 2021-05-07 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107220300B (zh) * 2017-05-05 2018-07-20 平安科技(深圳)有限公司 信息挖掘方法、电子装置及可读存储介质
CN110019704B (zh) * 2017-10-17 2023-01-17 阿里巴巴集团控股有限公司 语句分析及人机交互方法和装置、计算设备、存储介质
CN108446266B (zh) * 2018-02-01 2022-03-22 创新先进技术有限公司 一种语句拆分的方法、装置及设备
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置
CN110334266A (zh) * 2018-03-13 2019-10-15 优酷网络技术(北京)有限公司 观点提取方法及装置
CN108984521A (zh) * 2018-06-20 2018-12-11 国家计算机网络与信息安全管理中心 一种新闻事件中人物观点抽取方法
CN110738046B (zh) * 2018-07-03 2023-06-06 百度在线网络技术(北京)有限公司 观点抽取方法及装置
CN109271494B (zh) * 2018-08-10 2021-04-27 西安交通大学 一种自动提取中文问答语句焦点的系统
CN109255017A (zh) * 2018-08-23 2019-01-22 北京所问数据科技有限公司 一种基于语法树的实时文本观点抽取方法
CN109753651B (zh) * 2018-12-14 2022-05-17 昆明理工大学 一种针对体现用户意图的app软件用户评论挖掘方法
CN110210036A (zh) * 2019-06-05 2019-09-06 上海云绅智能科技有限公司 一种意图识别方法及装置
CN110457676B (zh) * 2019-06-26 2022-06-21 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN111814025A (zh) * 2020-05-19 2020-10-23 北京捷通华声科技股份有限公司 一种观点提取方法及装置
CN113971401A (zh) * 2020-07-23 2022-01-25 新疆金风科技股份有限公司 风电故障信息抽取方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101005337B1 (ko) * 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
CN102737013B (zh) * 2011-04-02 2015-11-25 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102866989B (zh) * 2012-08-30 2016-09-07 北京航空航天大学 基于词语依存关系的观点抽取方法
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法

Also Published As

Publication number Publication date
CN105224640A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN105224640B (zh) 一种提取观点的方法和设备
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
CN105095204B (zh) 同义词的获取方法及装置
WO2017084267A1 (zh) 一种关键词提取方法和装置
CN104679850B (zh) 地址结构化方法及装置
CN106951530B (zh) 一种事件类型抽取方法和装置
WO2014209810A2 (en) Methods and apparatuses for mining synonymous phrases, and for searching related content
RU2618374C1 (ru) Выявление словосочетаний в текстах на естественном языке
CN108304377B (zh) 一种长尾词的提取方法及相关装置
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
US20190171713A1 (en) Semantic parsing method and apparatus
US20150331953A1 (en) Method and device for providing search engine label
CN106202200B (zh) 一种基于固定主题的文本情感倾向性分类方法
CN113076735B (zh) 目标信息的获取方法、装置和服务器
Singh et al. Sentiment analysis using lexicon based approach
Shakeel et al. A framework of Urdu topic modeling using latent dirichlet allocation (LDA)
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN106156262A (zh) 一种搜索信息处理方法及系统
Zhu Deep learning for Chinese language sentiment extraction and analysis
Marujo et al. Key phrase extraction of lightly filtered broadcast news
Sheng et al. EDMSpell: Incorporating the error discriminator mechanism into chinese spelling correction for the overcorrection problem
Kaji et al. Paraphrasing predicates from written language to spoken language using the web
Fenogenova et al. A general method applicable to the search for anglicisms in russian social network texts
Zhao et al. A hybrid method for sentiment classification in Chinese Movie Reviews based on sentiment labels
CN111738022B (zh) 一种国防军工领域机器翻译优化方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Mao Chengjun

Inventor after: Pan Zhaoming

Inventor before: Mao Chengjun

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou NetEase Shuzhifan Technology Co.,Ltd.

Address before: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU LANGHE TECHNOLOGY Ltd.