CN102163187B - 文档标记方法和装置 - Google Patents

文档标记方法和装置 Download PDF

Info

Publication number
CN102163187B
CN102163187B CN201010112221.XA CN201010112221A CN102163187B CN 102163187 B CN102163187 B CN 102163187B CN 201010112221 A CN201010112221 A CN 201010112221A CN 102163187 B CN102163187 B CN 102163187B
Authority
CN
China
Prior art keywords
entity
mark
relevant
document
focus entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010112221.XA
Other languages
English (en)
Other versions
CN102163187A (zh
Inventor
祝慧佳
郭宏蕾
郭志立
张小洵
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201010112221.XA priority Critical patent/CN102163187B/zh
Priority to US13/030,309 priority patent/US9251132B2/en
Publication of CN102163187A publication Critical patent/CN102163187A/zh
Application granted granted Critical
Publication of CN102163187B publication Critical patent/CN102163187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文档标记方法和装置。根据所提供的实施例,获取与基础文档相关的焦点实体,并获取对焦点实体的评论的情感极性,然后基于所述焦点实体及相应的情感极性生成对所述基础文档的标记。所提供的实施例能够用对相关焦点实体的评价来对基础文档进行标记,进而能够方便人们了解对有关实体的评价。

Description

文档标记方法和装置
技术领域
本申请总体上涉及信息处理,具体来说涉及文档处理,更具体地,涉及一种文档标记方法和装置。
背景技术
在互联网时代,海量的网络信息大大有助于人们了解各方面的信息,包括对各种受关注的实体,或者称之为焦点实体(在申请中,“实体”包括作为物的对象,也包括作为事件的对象)的评价。对实体的评价例如有积极评价、消极评价等。对于评价是积极还是消极等的属性,称之为“情感极性”。获取对实体的情感极性的技术称之为情感分析技术。目前,已有很多进行情感分析的技术。例如:
专利文献1:US 20090193328,题为Aspect-Based SentimentSummarization,提出了一种细粒度的情感分析方法,是对实体各个方面进行情感摘要的一种方法。该方法针对文章中提到的各个实体特征方面进行情感分类,再将同一特征方面下的评论进行情感摘要。
专利文献2:US 20080154883,题为System and Method for EvaluatingSentiment,其提出的方法通过计算主题相关的评论的情感分数,对网上用户评价和观点进行情感评估。
专利文献3:US 20050125216,题为Extracting and Grouping Opinionsfrom Text Documents,其提出的方法是按照主题相关性对同一类主题的评论进行情感分析。
专利文献4:WO 2008083504,题为Method and System forInformation Discovery and Text Analysis,提出了在搜索关键字时,自动返回相关的情感摘要结果和图表的方法。
专利文献5:US 20090048823,题为System and Methods for OpinionMining,其提出的方法是对用户评论中各种形式的特征的情感倾向进行分析。其采用上下文的依存信息来关联特征和情感词,并分析这些特征关联的情感词的语义极向性。
专利文献6:US 20080133488,题为Method and System for AnalyzingUser-Generated Content,其提出的系统主要用来分析用户生成的内容,其中包括抓取、抽取、分析、聚类、合成、摘要和展示等多个组件。此系统提供抓取用户感兴趣主题的相关内容的功能;同时,也提供对这些用户生成内容的情感分析功能;此外,还提供了对相关方面内容的情感摘要功能。
上述专利文献1到专利文献6均通过这里的引用而整体合并到本说明书中。
然而,现有技术只能针对特定的内容(关键词、实体等)进行情感分析,所获得的对情感极性的认识是零碎的,不利于人们对事物的全面认识。尤其是,各个实体被割裂开来,对各个实体的评价是相互孤立的,无法体现各个实体之间的相互联系;实体与抽取该实体的来源(例如文档)也是孤立的。而事实上,实体与实体之间的联系以及实体与其来源之间的联系也是非常重要的信息。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本申请的目的是提供一种能够帮助人们了解对相关实体的评价的技术。更进一步,是要提供一种将对相关实体的评价标记在有关文档上的技术。
根据本申请所提供的一种实施例,提供了一种文档标记方法,包括:获取与基础文档相关的焦点实体;获取对焦点实体的评论的情感极性;以及基于所述焦点实体及相应的情感极性生成对所述基础文档的标记。
根据本申请所提供的另一种实施例,提供了一种文档标记装置,包括:焦点实体获取装置,被配置为获取与基础文档相关的焦点实体;情感极性获取装置,被配置为获取对焦点实体的评论的情感极性;以及标记生成装置,被配置为基于所述焦点实体及相应的情感极性生成对所述基础文档的标记。
此外,本申请的实施例还提供了能够在计算机上执行以实现上述方法或者装置的计算机程序产品,以及存储有或者传输所述计算机程序的计算机可读介质。
按照上述实施例,能够用对相关焦点实体的评价来对基础文档进行标记,进而能够方便人们了解对有关焦点实体的评价。尤其是,由于将来源于基础文档的焦点实体以及对焦点实体的评价标记在基础文档上,能够方便人们对该基础文档所反映的内容(例如事件)的全面认识和评价,因为这种标记方式充分反映了焦点实体与基础文档之间的联系,以及各焦点实体相互之间的联系。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1为能够用于实现本发明的各实施例的网络系统的例子的示意图;
图2为能够用于实现本发明的各实施例的计算设备的例子的示意图;
图3为根据本发明的方法的一种实施方式的流程图;
图4为根据本发明的方法的一种实施方式标记的文档的一个实例;
图5为根据本发明的方法的一种实施方式标记的文档的另一个实例;
图6为根据本发明的方法的另一种实施方式的流程图;
图7为根据本发明的方法的另一种实施方式标记的文档的另一个实例;
图8为根据本发明的方法的再一种实施方式的流程图;
图9为根据本发明的方法的再一种实施方式的流程图;
图10为根据本发明的方法的再一种实施方式标记的文档的另一个实例;
图11为根据本发明的装置的一种实施方式的方框示意图;
图12为根据本发明的装置的另一种实施方式的方框示意图;
图13为根据本发明的装置的另一种实施方式的方框示意图;
图14为根据本发明的装置的另一种实施方式的方框示意图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
首先看图1,图示了能够用于实现本发明的各实施例的网络系统的例子的示意图。如图1所示,第一终端102、第二终端108通过网络106通信连接到服务器104。用户可以通过第一终端102和/或第二终端108通过网络106向服务器104提供内容,或者从服务器104检索、浏览、下载内容,并对内容加以分析和处理。服务器104可以存储用户通过终端提供的内容以及/或者服务提供商提供的内容,托管各类网站,比如数据库服务、新闻网站、BBS论坛、博客等等。例如,服务器104可以是一台新闻网站服务器,用户,例如第二终端108的用户可以通过网络浏览该新闻网站的新闻并添加评论,或者可以在另外的网站例如BBS论坛、博客上对有关新闻加以评论,而另外的用户,例如第一终端102的用户则能够通过网络查看所述新闻、评论等等。在实施了本发明有关实施例的终端例如第一终端102上,用户则能够利用本发明的实施例对基础文档例如新闻文章进行标注,以方便其他读者了解对感兴趣的事物的评价。
第一终端102、服务器104、第二终端108可以是相同或者不同的信息处理设备,可以是专用计算设备或者通用计算设备,其中安装了相应的操作系统和应用软件(和/或固件),使它们可以分别作为用户终端或者服务器而运行。
另外,虽然图1中为了简明起见仅图示了一个服务器和两个用户终端,但是显然的是,网络上存在多个用户终端和服务器,并且网络可以包括各种类型的网络,包括互联网、内联网、局域网等等。
图2为能够用于实现本发明的各实施例的计算设备200(例如作为图1所示的第一终端102)的例子的示意图。
在图2中,中央处理单元(CPU)201根据只读存储器(ROM)202中存储的程序或从存储部分208加载到随机存取存储器(RAM)203的程序执行各种处理。在RAM 203中,也根据需要存储当CPU 201执行各种处理等等时所需的数据。
CPU 201、ROM 202和RAM 203经由总线204彼此连接。输入/输出接口205也连接到总线204。
下述部件连接到输入/输出接口205:输入部分206,包括键盘、鼠标等等;输出部分207,包括显示器,比如阴极射线管(CRT)显示器、液晶显示器(LCD)等等,和扬声器等等;存储部分208,包括硬盘等等;和通信部分209,包括网络接口卡比如LAN卡、调制解调器等等。通信部分209经由网络比如因特网执行通信处理。
根据需要,驱动器210也连接到输入/输出接口205。可拆卸介质211比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器210上,使得从中读出的计算机程序根据需要被安装到存储部分208中。
可以从网络比如因特网或存储介质比如可拆卸介质211向计算设备中安装程序。
本领域的技术人员应当理解,这种存储介质不局限于图2所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质211。可拆卸介质211的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 202、存储部分208中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
第一实施方式
图3所示为根据本发明的方法的一种实施方式的流程图。根据该实施方式,首先基于基础文档304获取与基础文档304相关的焦点实体310(步骤306)。然后针对所获得的焦点实体310获取对焦点实体310的评论的情感极性314(步骤312)。在此基础上,基于所述焦点实体310及相应的情感极性314生成对所述基础文档的标记(步骤316),从而方便人们了解对焦点实体310的评价情况。
这里,基础文档304可以是任何格式的离线的或者在线的文档,可以是一篇文档,也可以是多于一篇的文档。在基础文档多于一篇时,既可以独立地针对每一篇基础文档各自的内容实施本发明的各实施方式,也可以将各基础文档的内容作为一个整体来实施本发明的各实施方式。焦点实体310的含义是指被关注的实体,随不同用户的需求和偏好,焦点实体其实可以是任何与基础文档304直接或者间接相关的实体,包括基础文档304所包含的实体,或者从基础文档304的内容归纳出的实体,或者用户阅读基础文档304后想到的实体,或者是与基础文档304相关的其他文档所包含的或者由之归纳出的实体,等等。
另一方面,焦点实体310可以不仅仅是人(例如公众人物、事件所涉及的人物等),或者物(例如各种商品等),或者物的属性(比如产品的某个功能),也可以是事件(例如社会突发事件、公众关注的话题等),或者是某种观点,等等。总之,焦点实体310可以是任何被关注的有形的或者无形的对象。
可以通过各种方式来获取焦点实体310。例如,可以由用户基于基础文档304的显示而手工从基础文档304中选取,或者由用户手工基于基础文档归纳或者联想,然后输入执行本实施方式的方法的计算设备等。或者,可以从外部的方法或者设备来输入焦点实体310,也就是说由外部过程或者设备准备好焦点实体310之后提供给本实施方式所执行的过程。
或者,也可以在本实施方式的执行过程中来实时获取焦点实体310,此时获取焦点实体的步骤306可以用任何现有的或者将来的用于从文档中抽取对象的技术来实现。例如,在Li Zhang,Yue Pan,Tong Zhang的文章Focused Named Entity Recognition using Machine Learning,SIGIR’04,July 25-29,2004,Sheffield,South Yorkshire,UK.中就公开了一种提取焦点实体的技术。该文献的全文通过此处的引用全文合并到本申请中。
在接下来的获取情感极性的步骤312中,情感极性314是指与某一焦点实体相关的评论所体现出来的支持或不支持、赞成或者不赞成、赞扬或者批评等情感。情感是人的主观意识的活动,但是人已经通过文字表达出来的情感可以成为语义分析、数据挖掘等的对象,即能够通过信息处理技术来对文字(例如新闻报导、博客文章、BBS论坛帖子)所表达出来的情感的极性加以识别、分类和利用。一般而言,可以将情感极性314分为正极性(积极评价)和负极性(消极评价)。当然,还可以包括中性评价。在必要时,甚至可以包括更多的评价等级,例如非常好、好、中、差、非常差,等等。评价等级的多少并不影响技术的实质。
与焦点实体310的获取类似,也可以通过各种方式来获取情感极性314。例如,可以由用户基于基础文档304或者相关文档(例如评论)的显示而人工总结,然后输入执行本实施方式的方法的计算设备等。或者,可以从外部的方法或者设备来输入情感极性314,也就是说由外部过程或者设备提取好情感极性314之后提供给本实施方式所执行的过程。
或者,也可以在本实施方式的执行过程中来实时获取情感极性314,此时获取情感极性的步骤312可以用任何现有的或者将来的情感分析技术来实现。例如,在背景技术部分提到的专利文献1到专利文献6所公开的情感分析技术均可用于在本实施方式中针对所获取的焦点实体来获取对焦点实体的评论的情感极性。
所获取的情感极性可以具有各种表现形式。例如,对于一个焦点实体310,可以给出针对它的积极评价和消极评价的个数,和/或积极评价、消极评价所占的比例。或者,用积极评价、消极评价所占的比例投票,从而针对该焦点实体310得出是积极评价还是消极评价的最终投票结论。例如,如果在所有评论当中积极评价的条数超过某个阈值例如50%(当然也可以是其它比例),即认为对该焦点实体310的评论的情感极性为正极性(或者积极评价)。
在随后的标记基础文档的步骤316中,可以用任何现有的或者将来的文档编辑技术基于所述焦点实体310和相应的情感极性314来生成对所述基础文档304的标记,即,将所述焦点实体310以及情感极性314标记在所述基础文档304中。标记可以用文本实现,或者用图案、图表等实现,或者用多媒体方式实现。
图4图示了根据一种实施方式标记的文档的一个实例。如图所示,文章“浙江台州降下多年未见大雪”402为基础文档(图中所示不一定是该文章的全文,而可能只是节选)。抽取的焦点实体例如有“元旦大雪”408,用深色条块410和浅色条块412来表示对各焦点实体的积极评价和消极评价及其大致数量。从经过标记后的该文档402,就可以让感兴趣的人从“浙江台州降下多年未见大雪”这一事件,来方便地了解例如对“元旦大雪”的评价。
图4所示为标记的一种特定形式,当然也可以使用不同于图4所示的标记形式。例如,可以直接列出各实体的名字而不用标注“实体1”、“实体2”等,可以用饼图、柱状图、统计图表等取代所述深色、浅色条块作为统计数据,也可以直接用数字形式来表示统计数据,如图5中附图标记506所示,表明有积极评价20条。又如,图中所示的标记集中在基础文档末尾,作为文档的扩展部分,但是也可以像文档编辑通常所用的“气球”那样,将焦点实体在基础文档中出现的位置圈出来,并将情感极性标注在从该位置引出的标注框中(未图示)。当然,也可以不标记统计数据,而仅仅标记对焦点实体的最终投票结论(未图示)。
另外,由于对同一焦点实体的评论可能出现在文章中的不同位置,因此将此类评论集中起来无疑会更加方便阅读者。因此,可以将与焦点实体相关的评论内容包括在所述标记当中。例如,如图5所示,分别列出了针对“元旦大雪”的积极的评价内容502和消极的评价内容504。
显然,有时候评论内容比较长。因此,如图6所示,可以利用任何现有的或者将来的技术获取评论内容的摘要614(步骤612),从而替代所述评论内容本身,将评论内容的摘要614包括在所述标记当中。抽取文章的全部或者部分内容的摘要的技术有很多,例如在Lun-Wei Ku,Yu-TingLiang以及Hsin-Hsi Chen的文章Opinion Extraction,Summarization andTracking in News and Blog Corpora(American Association for ArtificialIntelligence,2006),以及在Bing Liu、Minqing Hu和Junsheng Cheng的文章Opinion Observer:Analyzing and Comparing Opinions on the Web(WWW 2005,May 10-14,2005,Chiba,Japan.)中,均涉及了抽取摘要的技术。这两篇文献均通过这里的引用整体合并到本申请中。
发明人注意到,文档中出现的某些焦点实体是同义的,或者有非常紧密的关联。在这种情况下,就可以将同义或者紧密关联的焦点实体合并起来,此时,合并之前的焦点实体称之为次级焦点实体。例如,如图7所示,次级焦点实体“元旦大雪”和“寒潮”具有紧密关联,因此合并为焦点实体“实体1:元旦大雪、寒潮”702;次级焦点实体“机场”和“航班”具有紧密关联,因此合并为焦点实体“实体3:机场、航班”704。
次级焦点实体的合并可以用多种方式实现。例如,可以在获取焦点实体的步骤306的基础上,对相关联的实体进行人工合并。或者可以与获取焦点实体的步骤306类似,由本发明的实施方式的外部的过程或者设备进行合并,然后提供给本发明的实施方式所执行的过程。或者也可以在本发明的实施方式的过程内部进行合并,对此可以用任何现有或者将来的技术实现。
在现有技术中,分析不同实体之间的关联性的技术已广泛存在。一般来说,相关联的实体是指在语法或语义上相近的、属于类似范畴的实体。有关的技术例如有:
1)实体别名的识别,如北京大学的别名为北大。可采用短距离内共线的统计方法来识别别名。或者使用基于规则的方法来识别别名,例如,可将括号内的名称视为别名。短距离内共线的统计方法的原理在于,句子或篇章内相关联的词语多同时出现在上下文中,因此可用上下文或共线等信息来对同一语义的词语进行聚类。短距离内共线的统计方法也可以与基于规则的方法相结合来使用。
2)近义词或同义词的扩展,上位概念和下位概念的扩展。例如,上位概念“自然灾害”对应于下位概念“飓风”、“海啸”等。这种扩展多采用词表资源来进行,也就是说在词表中列举了同义词、近义词,相对应的上位概念、下位概念等等,从文档中提取的焦点实体如果具有对应关系则合并。或者也可以基于已经提取的焦点实体直接使用词表来搜索相对应的其它实体,如果存在则列入合并的焦点实体中。
3)进行自动聚类分析以识别语义关联的实体。例如,Honglei Guo,Huijia Zhu,Zhili Guo,XiaoXun Zhang和Zhong Su的论文Product FeatureCategorization with Multilevel Latent Semantic Association(CIKM’09,November 2-6,2009,Hong Kong,China)就公开了采用话题模型来对具有语义相似性的实体进行聚类。
第二实施方式
发明人注意到,基础文档所包含的信息往往是不全面的。例如,不足以让读者了解公众对某一事物的全面评价,或者某一事物对公众带来的全方位影响等等。尤其是,用通常的实体抽取技术只能抽取基础文档直接涉及的焦点实体,而不能获得该基础文档没有提到并且也不能从中归纳出来的其它事实上相关的实体,当然因此也无法获得对遗漏的实体的评价(情感极性),从而无法对基础文档所涉及的事物或者事件有全面的了解和评价。例如,假设图4所示的例子的文档内容为全部基础文档的内容,那么,从该基础文档则只能得知公众对“元旦大雪”和“台州”的极为有限的、正面的评价,而无法得知与天气息息相关的交通状况等,从而,仅从对该基础文档的标记就无法全面感知元旦大雪对社会造成的全面影响。因此,在本实施方式中,提出扩展用以提取焦点实体和分析情感极性的文档的范围。
具体地,如图8所示,可以基于基础文档304获取相关文档804(步骤802),然后从所述基础文档304以及相关文档804获取焦点实体310(步骤306)。
图8中所示的其它步骤与结合第一实施方式所描述的步骤相同或者类似,因此采用相同的附图标记,并且在此省略其详细描述。至于从基础文档304和相关文档804获取焦点实体306的步骤,其与第一实施方式中的获取焦点实体306的步骤实质上也是一样的,只不过处理对象增加了相关文档804,因此在此也省略其详细描述。
另外,图8中以虚线表示的步骤表示相应步骤并非必须的,基于对第一实施方式的说明,所述步骤可以有也可以没有。
可以通过各种方式来获取相关文档804。例如,可以由用户基于基础文档304的内容来在网络上或者数据库中查找相关文章,然后输入执行本实施方式的方法的计算设备等。或者,可以从外部的方法或者设备来输入相关文档804,也就是说由外部过程或者设备准备好相关文档804之后提供给本实施方式所执行的过程。例如,可以从外部提供一个文档集合和一个基础文档,然后由本实施方式的过程抽取焦点实体、分析情感极性并标记到所述基础文档304中。
或者,也可以在本实施方式的执行过程中来实时获取相关文档804,此时获取相关文档的步骤802可以用任何现有的或者将来的文档搜索技术来实现。
在本实施方式中,发明人提出利用文档之间的链接关系来获取相关文档804。例如,在新闻网站上,往往有与该新闻主题相关联的其它文章的链接;在博客或者BBS论坛上,有评论或者跟帖的链接等。可以将与基础文档804相链接的文档作为相关文档。进一步,还可以将与相关文档有链接关系的其它文档也作为相关文档。即,基础文档的相关文档不仅可以包括直接相关的文档,也可以包括间接相关的文档。链接的层数可以根据实际应用的需求而定,或者可以预定一定的层数,例如但不限于3层。
但是,有时候依靠链接关系获取相关文档并不准确,或者不全面。因此,发明人又提出利用焦点实体304来获取相关文档804。例如,如图9所示,在第一实施方式的基础上,增加了从基础文档304的焦点实体来获取相关文档804的步骤902,以及从相关文档804获取焦点实体的步骤906。例如,可以利用从基础文档304获取的焦点实体作为搜索关键词,在网络上或者数据库中搜索包含该关键词的文档作为相关文档804。当然,为了提高效率,可以限制作为搜索关键词的基础文档焦点实体的数量,并可以只将搜索结果中相关度较高的或者预定数量的命中文档作为相关文档,具体标准可以根据具体应用合适地确定和调整。类似于用链接关系来获取相关文档,也可以再次用获取的相关文档中的焦点实体继续搜索更多的相关文档,循环的层数也可以根据实际应用的需求而定。
同样,图9中所示的其它步骤与结合第一实施方式所描述的步骤相同或者类似,因此采用相同的附图标记,并且在此省略其详细描述。同样,图9中以虚线表示的步骤表示相应步骤并非必须的,基于对第一实施方式的说明,所述步骤可以有也可以没有。
在利用了相关文档的情况下,如果在对基础文档的标记中包含了评论内容或者评论内容的摘要(如第一实施方式所述),则在所述标记中标出所述焦点实体和/或评论的来源是很有用的,例如可以在每一条焦点实体和/或评论内容的前面或者后面标注来源(例如某某报纸,某某论坛,或者网络地址)。如果同一来源有多条焦点实体和/或评论内容,则可以按照来源对焦点实体和/或评论内容分类并标注来源,或者以来源和情感极性共同对评论内容分类。
除了用文字标注来源之外,如图10所示,还可以用链接1002的形式来标注来源,这样读者点击相应的链接即可跳至作为来源的相关文档。链接点可以如图10所示在相应的焦点实体和/或评论内容上,也可以在上述用文字标注的来源(例如某某报纸,某某论坛,或者网络地址)上。
或者,所述来源可以是自动弹出的形式,例如如图10所示,当鼠标移至相应焦点实体和/或评论内容时,就弹出相应的来源1004,例如某某报纸,某某论坛,或者网络地址等,可以是纯文本的形式,也可以是可跳转的链接的形式。
第三实施方式
相应于第一实施方式,本申请还提供了一种文档标记装置1100,下面对其结合附图予以说明。该文档标记装置1100与第一实施方式的方法基本上是一致的,因此下面的说明比较简要,各部件的详细实现方式和操作方式,可参见对第一实施方式的说明。
如图11所示,本实施方式的文档标记装置1100包括:焦点实体获取装置1102,被配置为获取与基础文档相关的焦点实体;情感极性获取装置1106,被配置为获取对焦点实体的评论的情感极性;以及标记生成装置1108,被配置为基于所述焦点实体及相应的情感极性生成对所述基础文档的标记。所述标记可以包括焦点实体的标识,以及相应的情感极性。
其中,所述情感极性获取装置1106可以被进一步配置为获取对焦点实体的情感极性的统计数据,这样,所述标记就可以包括对相关焦点实体的情感极性的统计数据。
替代地,或者附加地,所述标记还可以包括与每一种情感极性相关的评论内容。
另外,如图12所示,本实施方式的文档标记装置1100还可以包括摘要获取装置1210,其被配置为获取与每一种情感极性相关的评论内容的摘要。这样,所述标记就可以只包括所述评论内容的摘要,而不是所述评论内容的全文。
另外,所述焦点实体获取装置1102还可以被进一步配置为将多个次级焦点实体合并为一个焦点实体。这样,可以将同义和/或紧密关联的多个次级焦点实体合并为一个焦点实体,使得对文档的情感极性标记更为简洁、准确。
需要注意的是,如第一实施方式所述,焦点实体的获取、情感极性的获取以及摘要的抽取均可以人工进行,或者从外部输入,或者由任何现有或者将来的技术实现。因此,焦点实体获取装置1102、情感极性获取装置1106、摘要获取装置1210均可以利用任何现有或者将来的技术实现,它们甚至可以只是用来输入焦点实体、情感极性或者摘要的装置。
第四实施方式
相应于第二实施方式,本申请还提供了一种文档标记装置1100,下面对其结合附图予以说明。该文档标记装置1100与第二实施方式的方法基本上是一致的,因此下面的说明比较简要,各部件的详细实现方式和操作方式,可参见对第二实施方式的说明。此外,该实施方式是对第三实施方式的改进,因此已在第三实施方式中说明的部件也不再重复说明。类似于第二实施方式,图13、14中以虚线表示的摘要获取装置1210并非必须的,基于对第一、三实施方式的说明,所述摘要获取装置1210可以有也可以没有。
具体来说,如图13所示,在第三实施方式的文档标记装置1100的基础上,增加了相关文档获取装置1310,其被配置为获取与基础文档相关的相关文档。相应地,所述焦点实体获取装置1102被配置为获取所述基础文档以及所述相关文档中的焦点实体。这样就可以扩展文档的范围,使得能够获取更为全面的焦点实体和/或对焦点实体的评价。
相应地,所述标记还可以包括所述焦点实体的来源和/或所述评论内容的来源。所述来源可以为文字或者链接的形式。文字或者链接可以是弹出的形式。这样,就可以很方便的获知或者转到焦点实体和/或评论内容的来源文档。
所述相关文档获取装置1310可以被配置为利用文档的链接关系获取所述相关文档。链接的层数(深度)可以根据实际应用的需求而定。
另外,如图14所示,所述相关文档获取装置1310还可以被配置为基于所述焦点实体获取装置1102获取的基础文档中的焦点实体,来获取与所述基础文档中的焦点实体相关的其他文档作为所述相关文档。这样,焦点实体获取装置1102进一步从相关文档获取装置1310所获取的相关文档获取焦点实体。从而,文档标记装置1100能够扩展文档的范围,使得能够获取更为全面的焦点实体和/或对焦点实体的评价。类似地,相关文档获取装置1310能够再次依据焦点实体获取装置从相关文档获取的焦点实体来进一步获取更多的相关文档交由焦点实体获取装置1102进一步获取更多的焦点实体。循环次数可以根据实际应用合理确定。
需要注意的是,如第二实施方式所述,焦点实体的获取、情感极性的获取、摘要的抽取以及相关文档的获取均可以人工进行,或者从外部输入,或者由任何现有或者将来的技术实现。因此,焦点实体获取装置1102、情感极性获取装置1106、摘要获取装置1210、相关文档获取装置1310均可以利用任何现有或者将来的技术实现,它们甚至可以只是用来输入焦点实体、情感极性、摘要或者相关文档的装置。
上面对本发明的一些实施方式进行了详细的描述。如本领域的普通技术人员所能理解的,本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算设备(包括处理器、存储介质等)或者计算设备的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在了解本发明的内容的情况下运用他们的基本编程技能就能实现的,因此不需在此具体说明。
此外,显而易见的是,在上面的说明中涉及到可能的外部操作的时候,无疑要使用与任何计算设备相连的任何显示设备和任何输入设备、相应的接口和控制程序。总而言之,计算机、计算机系统或者计算机网络中的相关硬件、软件和实现本发明的前述方法中的各种操作的硬件、固件、软件或者它们的组合,即构成本发明的设备及其各组成部件。
因此,基于上述理解,本发明的目的还可以通过在任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备可以是公知的通用设备。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者设备的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是本领域技术人员已知的,或者将来所开发出来的任何类型的存储介质,包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在本发明的设备和方法中,显然,各部件或各步骤是可以分解、组合和/或分解后重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
另外,虽然上面是一个实施方式一个实施方式地进行描述,但应当理解各个实施方式并不是孤立的。本领域技术人员在阅读了本申请文件之后,显然能够理解,各实施方式所包含的各种技术特征在各种实施方式之间是可以任意组合的,只要它们之间没有冲突即可。当然,在同一实施方式中提及的所有技术特征相互之间也是可以任意组合的,只要它们相互之间没有冲突即可。
最后,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然已经结合附图详细说明了本发明的实施方式及其优点,但是应当理解,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而不背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定,在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。

Claims (15)

1.一种文档标记方法,包括:
获取与基础文档相关的焦点实体;
获取对焦点实体的评论的情感极性;以及
基于所述焦点实体及相应的情感极性生成对所述基础文档的标记,其中所述焦点实体是由与基础文档相关的文档所包含的实体或者由与基础文档相关的文档归纳出的实体中的之一,所述获取与基础文档相关的焦点实体的步骤包括:
获取与基础文档相关的相关文档;以及
获取所述基础文档以及所述相关文档中的焦点实体,
其中,所述焦点实体是多个次级焦点实体的合并,
其中所述标记包括焦点实体的标识。
2.如权利要求1所述的文档标记方法,其中,所述标记还包括焦点实体的情感极性的统计数据。
3.如权利要求2所述的文档标记方法,其中,所述标记还包括与每一种情感极性相关的评论内容。
4.如权利要求2所述的文档标记方法,还包括:
获取与每一种情感极性相关的评论内容的摘要;
其中,所述标记还包括所述评论内容的所述摘要。
5.如权利要求1所述的方法,其中,所述标记还包括所述焦点实体的来源和/或所述评论内容的来源。
6.如权利要求5所述的方法,其中,所述来源为链接的形式。
7.如权利要求1所述的方法,其中,所述获取与基础文档相关的相关文档的步骤包括:利用文档的链接关系获取所述相关文档。
8.一种文档标记装置,包括:
焦点实体获取装置,被配置为获取与基础文档相关的焦点实体;
情感极性获取装置,被配置为获取对焦点实体的评论的情感极性;以及
标记生成装置,被配置为基于所述焦点实体及相应的情感极性生成对所述基础文档的标记,
其中所述焦点实体是由与基础文档相关的文档所包含的实体或者由与基础文档相关的文档归纳出的实体中的之一,所述文档标记装置还包括相关文档获取装置,被配置为获取与基础文档相关的相关文档;
其中,所述焦点实体获取装置被配置为获取所述基础文档以及所述相关文档中的焦点实体,
其中,所述焦点实体获取装置被配置为将多个次级焦点实体合并为一个焦点实体,
其中所述标记包括焦点实体的标识。
9.如权利要求8所述的文档标记装置,其中,所述情感极性获取装置被进一步配置为获取对焦点实体的情感极性的统计数据,其中,所述标记还包括焦点实体的情感极性的统计数据。
10.如权利要求9所述的文档标记装置,其中,所述标记还包括与每一种情感极性相关的评论内容。
11.如权利要求9所述的文档标记装置,还包括:
摘要获取装置,被配置为获取与每一种情感极性相关的评论内容的摘要;
其中,所述标记还包括所述评论内容的所述摘要。
12.如权利要求8所述的装置,其中,所述标记还包括所述焦点实体的来源和/或所述评论内容的来源。
13.如权利要求12所述的装置,其中,所述来源为链接的形式。
14.如权利要求8所述的装置,其中,所述相关文档获取装置被配置为利用文档的链接关系获取所述相关文档。
15.如权利要求8所述的装置,其中,所述相关文档获取装置被配置为:基于所述焦点实体获取装置获取的基础文档中的焦点实体,来获取与所述基础文档中的焦点实体相关的其他文档作为所述相关文档。
CN201010112221.XA 2010-02-21 2010-02-21 文档标记方法和装置 Active CN102163187B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010112221.XA CN102163187B (zh) 2010-02-21 2010-02-21 文档标记方法和装置
US13/030,309 US9251132B2 (en) 2010-02-21 2011-02-18 Method and apparatus for tagging a document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010112221.XA CN102163187B (zh) 2010-02-21 2010-02-21 文档标记方法和装置

Publications (2)

Publication Number Publication Date
CN102163187A CN102163187A (zh) 2011-08-24
CN102163187B true CN102163187B (zh) 2014-11-26

Family

ID=44464420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010112221.XA Active CN102163187B (zh) 2010-02-21 2010-02-21 文档标记方法和装置

Country Status (2)

Country Link
US (1) US9251132B2 (zh)
CN (1) CN102163187B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120310711A1 (en) * 2011-05-31 2012-12-06 Oracle International Corporation System using feedback comments linked to performance document content
CN102866989B (zh) * 2012-08-30 2016-09-07 北京航空航天大学 基于词语依存关系的观点抽取方法
US9002852B2 (en) * 2012-11-15 2015-04-07 Adobe Systems Incorporated Mining semi-structured social media
CN104424252B (zh) * 2013-08-28 2017-12-15 北大方正集团有限公司 基于xml的文字信息处理方法和文字内容服务器
US20160162582A1 (en) * 2014-12-09 2016-06-09 Moodwire, Inc. Method and system for conducting an opinion search engine and a display thereof
CN104731773A (zh) * 2015-04-17 2015-06-24 深圳证券信息有限公司 文本情感分析方法及系统
WO2016191913A1 (en) * 2015-05-29 2016-12-08 Microsoft Technology Licensing, Llc Systems and methods for providing a comment-centered news reader
CN104899309B (zh) * 2015-06-12 2019-04-30 百度在线网络技术(北京)有限公司 展示事件评论观点的方法和装置
CN105279148B (zh) * 2015-10-19 2018-05-11 昆明理工大学 一种app软件用户评论一致性判断方法
WO2017147785A1 (en) 2016-03-01 2017-09-08 Microsoft Technology Licensing, Llc Automated commentary for online content
US10796391B2 (en) * 2016-04-22 2020-10-06 FiscalNote, Inc. Systems and methods for correlating comments and sentiment to policy document sub-sections
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN107220352B (zh) 2017-05-31 2020-12-08 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置
US10783329B2 (en) * 2017-12-07 2020-09-22 Shanghai Xiaoi Robot Technology Co., Ltd. Method, device and computer readable storage medium for presenting emotion
CN108416375B (zh) * 2018-02-13 2020-07-07 中国联合网络通信集团有限公司 工单分类方法及装置
CN111898336B (zh) * 2020-09-30 2021-03-12 拼说说(深圳)网络科技有限公司 弹幕显示方法、装置、计算机设备及存储介质
CN114594891B (zh) * 2022-03-09 2023-12-22 北京百度网讯科技有限公司 文档数据处理方法、装置、电子设备及介质
US12050879B2 (en) * 2022-05-24 2024-07-30 Verizon Patent And Licensing Inc. Systems and methods for reducing input to and increasing processing speeds of natural language processing models

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092081A (en) * 1997-03-05 2000-07-18 International Business Machines Corporation System and method for taggable digital portfolio creation and report generation
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7620888B2 (en) * 2003-12-04 2009-11-17 Microsoft Corporation Quality enhancement systems and methods for technical documentation
US7865354B2 (en) 2003-12-05 2011-01-04 International Business Machines Corporation Extracting and grouping opinions from text documents
WO2006039566A2 (en) * 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
US7558769B2 (en) 2005-09-30 2009-07-07 Google Inc. Identifying clusters of similar reviews and displaying representative reviews from multiple clusters
US8572088B2 (en) * 2005-10-21 2013-10-29 Microsoft Corporation Automated rich presentation of a semantic topic
US20080086680A1 (en) * 2006-05-27 2008-04-10 Beckman Christopher V Techniques of document annotation according to subsequent citation
US8862591B2 (en) * 2006-08-22 2014-10-14 Twitter, Inc. System and method for evaluating sentiment
US20080104506A1 (en) * 2006-10-30 2008-05-01 Atefeh Farzindar Method for producing a document summary
US7930302B2 (en) 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
WO2008083504A1 (en) 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
US7958127B2 (en) 2007-02-15 2011-06-07 Uqast, Llc Tag-mediated review system for electronic content
JP2010532897A (ja) * 2007-07-10 2010-10-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 知的なテキスト注釈の方法、システム及びコンピュータ・プログラム
US20090048823A1 (en) 2007-08-16 2009-02-19 The Board Of Trustees Of The University Of Illinois System and methods for opinion mining
US8280885B2 (en) 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US8799773B2 (en) 2008-01-25 2014-08-05 Google Inc. Aspect-based sentiment summarization
US20090265307A1 (en) 2008-04-18 2009-10-22 Reisman Kenneth System and method for automatically producing fluent textual summaries from multiple opinions
US8630972B2 (en) * 2008-06-21 2014-01-14 Microsoft Corporation Providing context for web articles
US20110213655A1 (en) * 2009-01-24 2011-09-01 Kontera Technologies, Inc. Hybrid contextual advertising and related content analysis and display techniques

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于情感词识别的BBS情感分类研究;陈锦禾等;《计算机技术与发展》;20090731;第19卷(第7期);第120-123页 *
陈锦禾等.基于情感词识别的BBS情感分类研究.《计算机技术与发展》.2009,第19卷(第7期),第120-123页. *

Also Published As

Publication number Publication date
CN102163187A (zh) 2011-08-24
US20110209043A1 (en) 2011-08-25
US9251132B2 (en) 2016-02-02

Similar Documents

Publication Publication Date Title
CN102163187B (zh) 文档标记方法和装置
Linden et al. The privacy policy landscape after the GDPR
Posadas-Durán et al. Detection of fake news in a new corpus for the Spanish language
Deng et al. Adapting sentiment lexicons to domain-specific social media texts
CN108885623B (zh) 基于知识图谱的语意分析系统及方法
Chen et al. A Two‐Step Resume Information Extraction Algorithm
Srinath et al. Privacy at scale: Introducing the PrivaSeer corpus of web privacy policies
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
CN102054016B (zh) 用于撷取及管理社群智能信息的系统及方法
US9594730B2 (en) Annotating HTML segments with functional labels
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN101833579B (zh) 一种自动检测学术不端文献的方法及系统
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
Keymanesh et al. Toward Domain-Guided Controllable Summarization of Privacy Policies.
CN103577534A (zh) 搜索方法和搜索引擎
Mehrbod et al. Tender calls search using a procurement product named entity recogniser
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
Atreja et al. Citicafe: An interactive interface for citizen engagement
Saralegi et al. Cross-lingual projections vs. corpora extracted subjectivity lexicons for less-resourced languages
Cao et al. Extraction of informative blocks from web pages
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
Dumrewal et al. Citicafe: conversation-based intelligent platform for citizen engagement
Zolaktaf et al. Modeling community question-answering archives

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant