CN102073653B - 信息抽取方法和装置 - Google Patents

信息抽取方法和装置 Download PDF

Info

Publication number
CN102073653B
CN102073653B CN 200910226105 CN200910226105A CN102073653B CN 102073653 B CN102073653 B CN 102073653B CN 200910226105 CN200910226105 CN 200910226105 CN 200910226105 A CN200910226105 A CN 200910226105A CN 102073653 B CN102073653 B CN 102073653B
Authority
CN
China
Prior art keywords
evaluation information
seed
information
evaluation
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910226105
Other languages
English (en)
Other versions
CN102073653A (zh
Inventor
张姝
夏迎炬
贾文杰
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN 200910226105 priority Critical patent/CN102073653B/zh
Publication of CN102073653A publication Critical patent/CN102073653A/zh
Application granted granted Critical
Publication of CN102073653B publication Critical patent/CN102073653B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种信息抽取方法和装置。其中该信息抽取方法包括:a)获取第一评价信息的初始种子;b)确定与第一评价信息的种子关联的第二评价信息;c)根据与第一评价信息的种子关联出现的第二评价信息的权重来确定新的第二评价信息的种子;d)确定与第二评价信息的种子关联的第一评价信息;e)根据与第二评价信息的种子关联出现的第一评价信息的权重来确定新的第一评价信息的种子;f)判断是否满足迭代结束条件,如果否,则又执行步骤b)至e),否则输出所获得的第一评价信息和第二评价信息。此外,本发明还公开了一种相应的信息抽取装置。

Description

信息抽取方法和装置
技术领域
本发明总体上涉及网络信息处理领域,尤其涉及从评论信息中同时提取相互关联的第一评价信息和第二评价信息的信息处理技术。特别地,本发明涉及一种信息抽取方法和装置。
背景技术
随着互联网的快速发展,互联网上的信息量每天都在以惊人的速度增长。越来越多的人喜欢在网上发表他们对人、事、物的意见,网络上出现了大量含有个人观点和评论的信息。如何分析和监测网络上的评论信息,如何减轻人们阅读大量相关评论信息的工作量,已经成为信息处理领域中的一个研究热点。
在对评论信息进行分析时,如何从评论信息中提取出所关注的评价对象和评价内容是一个基本问题。例如,在购买电子商品“手机”之前,人们往往习惯于先查看一下网络上已有的关于该商品的相关属性的评论。此时,评价对象例如手机的体积、屏幕大小、分辨率等以及相关的评价内容例如“大”、“小”、“好”、“清晰”等等都是所关注的信息。
目前,相关的代表性研究主要包括:
●Hu M和Liu B.所著的“Mining Opinion Features in CustomerReviews”(参见Proceedings of the American Association forArtificial Intelligence,第755~760页,2004年);
●Hu M和Liu B.所著的“Mining and Summarizing CustomerReviews”(参见Proceedings of the ACM Conference on KnowledgeDiscovery and Data Mining,第168~177页,2004年);以及
●Popescu A和Etzioni O.所著的“Extracting Product Features andOpinions from Reviews”(参见Proceedings of the Conference onEmpirical Methods in Natural Language Proceedings,第339-346页,2005年)。
在上述这些研究中,Liu等人采用了基于关联规则挖掘(AssociateRule Mining)和词频统计的被评论特征提取方法,而Popescu等人采用了基于点互信息的属性词提取。其中,对词语的出现频率信息的利用有利于从评论信息中提取出高频的商品特征,但是往往忽略了低频的商品特征。
此外,还有以下代表性研究:
●Du,W.F.和S.B.Tan.所著的“An Iterative ReinforcementApproach for Fine-Grained Opinion Mining”(参见Proceedings ofthe Annual Conference of the North American Chapter of theAssociation for Computational Linguistics,第486-492页,2009年);
●Su,Q.和X.Y.Xu等人所著的“Hidden Sentiment Association inChinese Web Opinion Mining”(参见Proceedings of theSeventeenth International Conference on World Wide Web,第959-968页;2008年)。
在这些研究中,对于评价词语的确认,最近邻匹配是有效的。同时Du和Su等人研究了获取商品属性和评价词语之间的关联程度。
然而在现有技术中,只是将评价对象的抽取和评价内容的抽取分为两个任务进行研究。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明旨在至少解决现有技术中存在的上述问题之一,实现自动提取评价对象和评价内容,从而至少部分地弥补人工费时费力的缺点。
为此,本发明的一个目的是提供一种用于从包括评论语句的评论信息中提取相互关联的第一评价信息和第二评价信息的方法和装置,其能够在统一的过程中抽取第一评价信息和第二评价信息。
本发明的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质及计算机程序产品。
为了实现上述目的,根据本发明的一个方面,提供了一种信息抽取方法,包括:
a)获取第一评价信息的初始种子;
b)确定与第一评价信息的种子关联的第二评价信息;
c)根据与第一评价信息的种子关联出现的第二评价信息的权重来确定新的第二评价信息的种子;
d)确定与第二评价信息的种子关联的第一评价信息;
e)根据与第二评价信息的种子关联出现的第一评价信息的权重来确定新的第一评价信息的种子;
f)判断是否满足迭代结束条件,如果否,则又执行步骤b)至e),否则输出所获得的第一评价信息和第二评价信息。
根据本发明的另一个方面,还提供了一种信息抽取装置,包括:第一评价信息初始种子获取装置,用于获取第一评价信息的初始种子;迭代抽取装置,基于所述第一评价信息的初始种子通过迭代的方式交替抽取第二评价信息种子和第一评价信息种子。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
本发明的一个优点在于,在根据本发明实施例的用于从评论信息中提取第一评价信息和第二评价信息的方法和装置中,可以自动地并且高效地从给定评论信息集合中提取出第一评价信息和第二评价信息,消除了人工提取信息费时费力的缺点,可以提高信息提取效率和缩短信息提取周期。
本发明的又一个优点在于,在根据本发明实施例的用于从评论信息中提取第一评价信息和第二评价信息的方法和装置中,没有采用基于词典的信息提取技术,而是在获得第一评价信息的初始种子之后通过迭代的方法抽取第二评价信息并随后进一步抽取第一评价信息,从而克服了基于词典提取信息时词典覆盖率差及灵活性差等缺点。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明一个实施例的、用于同时抽取第一评价信息和第二评价信息的方法流程图;
图2示出了第一评价信息和第二评价信息之间的关系示意图;
图3示出了根据本发明的一个实施例的用于从评论信息中同时抽取第一评价信息和第二评价信息的信息抽取装置的示意性方框图;
图4示出了根据本发明的一个实施例的关联评价信息种子获取装置的结构示意图;以及
图5是示出了在其中可以实现根据本发明实施例的方法和/或装置的通用个人计算机的示例性结构的方框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
发明人注意到,在评论中,通常存在不同种类的评价信息,而这些不同种类的评价信息之间可能会有较强的关联。举例而言,第一评价信息可以是评价对象,而第二评价信息可以是评价内容,它们相互关联、相互影响。例如在日常对商品属性的评论语句中,人们习惯于在被评价对象周围近距离内给出意见(例如同一个句子中,甚至同一个短单句中)。因此,可以利用第一评价信息和第二评价信息之间的这种内在关联来同时抽取第一评价信息和第二评价信息,并且在抽取过程的同时可能获得第一评价信息和第二评价信息之间的关系,从而有利于随后的进一步分析。
图1是示出了根据本发明一个实施例的、用于同时抽取第一评价信息和第二评价信息的方法流程图。
需要说明的是,在执行根据图1所示的方法之前,已经从外部获取了第一评价信息和第二评价信息的候选单元。所述候选单元可以利用任何方法,包括现有技术中的方法来获得。
例如,可以首先接收从网络上收集到的各种商品评论信息。在此,可以采用现有的各种信息收集方法,例如,采用面向互联网的网络爬虫的方式,或者采用指定数据来源的方式,来定期地自动从网络上收集评论信息。随后可以对所收集到的评论信息进行包括分句、分词、词性标注等在内的各种预处理,以获得包括在所收集到的评论信息中的众多评论语句的词、词性向量。在此可以采用已有的自然语言处理方法来对评论信息进行预处理。
在预处理之后,可以获取第一评价信息和第二评价信息的候选单元。例如可以利用基本名词短语识别技术从经预处理的评论信息中提取出候选评价对象,然后统计候选评价对象在评论信息中出现的次数,并选择那些出现频率满足预定条件(例如,大于预定阈值)的候选评价对象作为第一评价信息候选单元。
在确定第一评价信息候选单元时,为了避免冗余,可以进行剪枝过滤(pruning filtering)。例如,如果A、B均为候选评价信息,且A多数作为B的一部分出现,而A单独出现的次数小于预先设定的阈值,则判定A不是第一评价信息候选单元。
相应地,也可以获取第二评价信息的候选单元。作为一个例子,如果第二评价信息是评价内容,由于考虑到评价内容通常为形容词,所以可以抽取形容词词性的词语来作为评价内容候选单元。当然本发明并未排除可能采用其他词语来作为评价内容候选单元。
上述的评论信息收集、预处理等内容是本领域技术人员所熟知的,因而在此不再赘述。
在获取了第一评价信息和第二评价信息的候选单元的基础上,本发明提出了一种一体化抽取第一评价信息和第二评价信息的方法。
在步骤S110中,首先获取第一评价信息的初始种子。根据本发明的一种实施方式,第一评价信息的初始种子的获取可以自动地进行。在本发明中,对句子进行分词之后,所包含的词性数目少于某个阈值的句子可以定义为短句子,例如,该阈值可以限定为5。因为短句子的评论信息句型比较简单,所以能够有效地获取所要抽取的第一评价信息的初始种子。在该步骤中,如果第一评价信息为评价对象,则例如可以将短句子中包含的至少一个名词/名词短语作为第一评价信息的初始种子,或者如果第一评价信息为评价内容,则例如可以将短句子中包含的至少一个形容词作为第一评价信息的初始种子。当然根据本发明的初始种子并不局限于从短句子中选取,然而优选的是,不从包含多个名词或名词短语或形容词的句子抽取初始种子,因为这样可能会引入较大的干扰。此外优选的是,先选取一个名词/名词短语或者选取一个形容词作为初始种子。
步骤S110中的第一评价信息的初始种子的获取并不局限于上述的自动获取方式,也可能从外部获取初始种子,例如可以由用户手动输入初始种子。
随后,在步骤S120中,确定与第一评价信息的种子关联的第二评价信息。以第一评价信息为评价对象而第二评价信息为评价内容为例,研究表明,人们习惯于在被评价对象附近(例如在同一个句子中)给出对被评价对象的意见,因此,认为与评价对象近距离出现的评价内容(例如形容词)与该评价对象有关系。例如,可以假设与评价对象相距距离在某个阈值之下的评价内容与该评价对象有关,这里的距离可以是指评价对象与评价内容之间的词的个数。该阈值例如可以为4。
当然,本领域技术人员也可以使用任何其他可能的方法来确定与第一评价信息的种子关联的第二评价信息。例如,可以认为与第一评价信息的种子在同一个句子中的第二评价信息就可能与该第一评价信息的种子关联,或者也可以使用依存句法分析方法等。依存句法分析方法通过对句子进行句法分析来将句子由线性序列转化为结构化的依存分析树,从而分析各部分信息之间的关联。这些方法属于现有技术,因而在此不再进一步讨论。
同样以第一评价信息为评价对象而第二评价信息为评价内容为例,图2示出了第一评价信息和第二评价信息之间的关系示意图。从图中可以看到,第一评价信息和第二评价信息之间有三种关系:
一对多,例如“尺寸”-“大”、“尺寸”-“小”、“尺寸”-“好”,或者“尺寸”-“好”、“镜头”-“好”;
一对一,例如“照片”-“清晰的”;以及
一对空,例如“时间”、“人们”。
在图2中,关联的第一评价信息和第二评价信息之间有双向连线,其中可以对每个双向连线(即第一评价信息和第二评价信息的词语对)设置权重。例如,词语对的权重可以基于这对词语出现的频率来定义。
在步骤S130中,根据与第一评价信息的种子相关联的第二评价信息的权重来确定新的第二评价信息的种子。一种方法是,对于第一评价信息的所有种子vi,统计第二评价信息的候选单元u与该种子构成的词语对(u,vi)在评论信息中出现的频度(这里,“构成词语对”的含义就是指二者在评论信息中是相关联的),将该频度与候选单元u在评论信息中出现的频度N(u)的比率作为该第二评价信息候选单元u的权重,该权重是评价标准。比率越高,该候选单元u的权重越大,则说明该候选单元u与第一评价信息的种子的关联越紧密,因此该候选单元u越应该被选择为新的第二评价信息的种子。
作为一个例子,该比率可以通过下式计算:
W ( u ) = Σ v i ∈ V R ( u , v i ) / N ( u )
其中u是候选单元,N(u)是候选单元u在评论信息中出现的频度。vi是作为种子的第一评价信息词语,R(u,vi)是vi与u构成的词语对(u,vi)在评论信息中出现的频度,W(u)是u的权重,V是第一评价信息的种子集合。
要说明的是,也可以通过其他方式来确定第二评价信息的候选单元的权重。本领域技术人员熟知的是,例如可以使用Dice系数、Phi平方系数或者对数似然比(LLR)等方法来确定第二评价信息的候选单元的权重。在这些方法中,通过获得第二评价信息的候选单元和第一评价信息的种子在语料中共现、独立出现以及均不出现的统计信息,衡量候选单元与第一评价信息词语之间的相关程度。对于这些已知的方法在此不再赘述。
此外还需要说明的是,上述权重计算优选仅仅针对新获得的候选单元u来进行,从而可以减小计算量。
在获得候选单元u的权重之后,根据权重选择合适的第二评价信息加入第二评价信息种子集合中。例如,可以将权重最大的前m个作为第二评价信息加入到第二评价信息种子集合中,其中m为自然数,并且可以根据需要来定义其具体值;或者可以将权重超过预定阈值的第二评价信息加入到第二评价信息种子集合中;等等。
在步骤S140中,类似于步骤S120中那样,基于第二评价信息种子来确定与这些第二评价信息种子关联的第一评价信息。
在步骤S150中,类似于步骤S130中那样,根据与第二评价信息的种子相关联的第一评价信息的权重来确定新的第一评价信息的种子。
接下来,在完成一次循环之后,在步骤S160中判断是否已经满足迭代结束条件。如果不满足迭代结束条件,则基于新的第一评价信息种子执行步骤S120,从而开始新的一轮循环。如果满足迭代结束条件,则停止迭代,将所获得的第一评价信息和第二评价信息词语输出。优选的是,设置迭代次数k作为迭代结束条件。当完成k次迭代之后,该迭代结束。或者,可以在所获得的新的种子的权重小于预定阈值时结束迭代。当然,本领域技术人员也可以根据需要使用其他方法来判断是否应结束迭代。
根据一个优选的实施例,在迭代结束之后,除了输出所获得的第一评价信息词语和第二评价信息词语之外,还可以输出在上述方法中利用过的第一评价信息和第二评价信息之间的关系,例如输出第一评价信息词语和某个第二评价信息词语关联出现的频度(或者如上所述的频度比率),从而有利于随后的对评论信息的进一步分析处理。
需要说明的是,在上述实施例中,第一评价信息与第二评价信息是相互关联的信息,例如第一评价信息为评价对象时则第二评价信息可以是评价内容,或者第一评价信息为评价内容时则第二评价信息可以是评价对象,这并未影响根据本发明的方法的实质。第一评价信息和第二评价信息分别是句子中的评价对象和评价内容时,可以在句子级上挖掘评论信息中的评价对象和评价内容,从而对评论信息进行所谓的细粒度的分析。
从上述参照图1对根据本发明的方法的阐述中可以看出,在该方法中可以完全自动地、即无需人工干预地从给定评论信息集合中提取出第一评价信息和第二评价信息,消除了人工提取信息费时费力的缺点,可以提高信息提取效率和缩短信息提取周期。此外,在该方法中没有采用基于词典的信息提取技术,而是在获得第一评价信息的初始种子之后通过迭代的方法抽取第二评价信息并随后进一步抽取第一评价信息,从而克服了基于词典提取信息时词典覆盖率差及灵活性差等缺点。
图3示出了根据本发明的一个实施例的用于从评论信息中同时抽取第一评价信息和第二评价信息的信息抽取装置300的示意性方框图。
如图3所示,信息抽取装置300包括:第一评价信息初始种子获取装置310,用于获取第一评价信息的初始种子。根据本发明的一种实施方式,第一评价信息初始种子获取装置310可以自动地获取第一评价信息的初始种子。在本发明中,对句子进行分词之后,所包含的词性少于某个阈值的句子可以定义为短句子,例如,该阈值可以限定为5。因为短句子的评论信息句型比较简单,所以能够有效地获取所要抽取的第一评价信息的初始种子。在该步骤中,如果第一评价信息为评价对象,则例如可以将短句子中包含的至少一个名词/名词短语作为第一评价信息的初始种子,或者如果第一评价信息为评价内容,则例如可以将短句子中包含的至少一个形容词作为第一评价信息的初始种子。当然根据本发明的初始种子并不局限于从短句子中选取,然而优选的是,不从包含多个名词或名词短语或形容词的句子抽取初始种子,因为这样可能会引入较大的干扰。
第一评价信息初始种子获取装置310获取初始种子的方式并不局限于上述的自动获取方式,也可能从外部获取初始种子,例如可以由用户手动输入初始种子。
此外,信息抽取装置300还包括迭代抽取装置320,用于根据第一评价信息和第二评价信息之间的关联,基于第一评价信息的初始种子,通过迭代的方式交替抽取第二评价信息种子和第一评价信息种子。
特别地,迭代抽取装置320包括:关联评价信息确定装置3200,用于确定与基础评价信息种子关联的关联评价信息。例如当基础评价信息为第一评价信息时,则该关联评价信息确定装置可以确定与该第一评价信息种子关联的第二评价信息,或者当基础评价信息为第二评价信息时,则该关联评价信息确定装置可以确定与该第二评价信息种子关联的第一评价信息。以第一评价信息为评价对象而第二评价信息为评价内容为例,研究表明,人们习惯于在被评价对象附近(例如在同一个句子中)给出对被评价对象的意见,因此,认为与评价对象近距离出现的评价内容(例如形容词)与该评价对象有关系。例如,可以假设与评价对象相距距离在某个阈值之下的评价内容与该评价对象有关,这里的距离可以是指评价对象与评价内容之间的词的个数。该阈值例如可以为4。
当然,本领域技术人员也可以使用任何其他可能的方法来确定与第一评价信息的种子关联的第二评价信息。例如,可以认为与第一评价信息的种子在同一个句子中的第二评价信息就可能与该第一评价信息的种子关联,或者也可以使用依存句法分析方法等。依存句法分析方法通过对句子进行句法分析来将句子由线性序列转化为结构化的依存分析树,从而分析各部分信息之间的关联。这些方法属于现有技术,因而在此不再进一步讨论。
图2示出了第一评价信息和第二评价信息之间的关系示意图,具体内容可参见上文在针对方法的实施例中进行的描述,在此不再赘述。
迭代抽取装置320还包括:关联评价信息种子获取装置3202,用于根据与基础评价信息种子关联出现的关联评价信息的权重来确定关联评价信息种子。其中,如前所述,该关联评价信息候选单元可以是事先已经获得的。优选的是,如图4所示,关联评价信息种子获取装置3202包括:统计装置32021,其被配置为统计基础评价信息与关联评价信息在评论信息中关联出现的频度,例如被配置为对于第一评价信息的所有种子vi统计第二评价信息的候选单元u与该种子构成的词语对(u,vi)在评论信息中出现的频度;以及计算装置32022,其被配置为计算统计装置32021所获得的频度与关联评价信息候选单元u在评论信息中出现的频度N(u)的比率,并将该比率作为该关联评价信息候选单元u的权重,该权重是评价标准。比率越高,该关联评价信息候选单元u的权重越大,则说明该关联评价信息候选单元u与基础评价信息的种子的关联越紧密,因此该关联评价信息候选单元u越应该被选择为新的关联评价信息的种子。
作为一个例子,该比率可以通过下式计算:
W ( u ) = Σ v i ∈ V R ( u , v i ) / N ( u )
其中u是关联评价信息候选单元,N(u)是关联评价信息候选单元u在评论信息中出现的频度。vi是作为初始种子的基础评价信息词语,R(u,vi)是vi与u构成的词语对(u,vi)在评论信息中出现的频度,W(u)是u的权重,V是基础评价信息的初始种子集合。
要说明的是,也可以通过其他方式来确定关联评价信息的候选单元的权重。本领域技术人员熟知的是,例如可以使用Dice系数、Phi平方系数或者对数似然比(LLR)等方法来确定关联评价信息的候选单元的权重。在这些方法中,通过获得关联评价信息的候选单元和基础评价信息的种子在语料中共现、独立出现以及均不出现的统计信息,衡量关联评价信息候选单元与基础评价信息词语之间的相关程度。对于这些已知的方法在此不再赘述。
在获得关联评价信息候选单元u的权重之后,根据权重选择合适的关联评价信息加入相应的关联评价信息种子集合中。例如,可以将权重最大的前m个作为关联评价信息加入到相应的关联评价信息种子集合中,其中m为自然数,并且可以根据需要来定义其具体值;或者可以将权重超过预定阈值的关联评价信息加入到相应的关联评价信息种子集合中;等等。
迭代抽取装置320还包括:迭代结束判断装置3204,用于判断迭代是否应该结束。如果结束则输出所获得的评价信息种子,如果不结束则将所述关联评价信息种子作为新的基础评价信息种子。优选的是,设置迭代次数k作为迭代结束条件。当完成k词迭代之后,该迭代结束。或者,当所获得的新的种子的权重小于预定阈值时,迭代结束。当然,本领域技术人员也可以根据需要使用其他方法来判断是否应结束迭代。
在工作中,迭代抽取装置320首先将第一评价信息的初始种子作为基础评价信息种子,获得作为所述关联评价信息种子的新的第二评价信息种子并加入到第二评价信息种子集合中,然后在继续迭代的情况下,将第二评价信息种子作为新的基础评价信息种子,获得作为所述关联评价信息种子的新的第一评价信息种子并加入到第一评价信息种子集合中,以此类推,交替获取第二评价信息种子和第一评价信息种子,直到迭代结束。
根据一个优选的实施例,在迭代结束之后,除了输出所获得的第一评价信息词语和第二评价信息词语之外,还可以输出在上述方法中利用过的第一评价信息和第二评价信息之间的关系,例如第一评价信息词语和某个第二评价信息词语关联出现的频度(或者如上所述的频度比率),从而有利于随后的对评论信息的进一步分析处理。
需要说明的是,在上述实施例中,第一评价信息与第二评价信息是相互关联的信息,例如第一评价信息为评价对象时则第二评价信息可以是评价内容,或者第一评价信息为评价内容时则第二评价信息可以是评价对象,这并未影响根据本发明的装置的实质。
另外,应理解,本文所述的各种示例和实施例均是示例性的,本发明不限于此。在本说明书中,“第一”、“第二”等表述仅仅是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案:
附记1.一种信息抽取方法,包括:
a)获取第一评价信息的初始种子;
b)确定与第一评价信息的种子关联的第二评价信息;
c)根据与第一评价信息的种子关联出现的第二评价信息的权重来确定新的第二评价信息的种子;
d)确定与第二评价信息的种子关联的第一评价信息;
e)根据与第二评价信息的种子关联出现的第一评价信息的权重来确定新的第一评价信息的种子;
f)判断是否满足迭代结束条件,如果否,则又执行步骤b)至e),否则输出所获得的第一评价信息和第二评价信息。
附记2.根据附记1所述的方法,其中在步骤a)中将句子中包含的至少一个名词/名词短语作为第一评价信息的初始种子,或者将句子中包含的至少一个形容词作为第一评价信息的初始种子。
附记3.根据附记1所述的方法,其中在步骤a)中从外部获取初始种子。
附记4.根据附记1所述的方法,其中步骤c)中的第二评价信息的权重是第二评价信息与关联的第一评价信息的种子构成的词语对在评论信息中出现的频度与该第二评价信息在评论信息中出现的频度的比率,而步骤e)中的第一评价信息的权重是第一评价信息与关联的第二评价信息的种子构成的词语对在评论信息中出现的频度与该第一评价信息在评论信息中出现的频度的比率。
附记5.根据附记4所述的方法,其中在步骤c)中在确定第二评价信息的权重之后,将权重最大的预定个数的第二评价信息或者权重大于预定阈值的第二评价信息加入到第二评价信息种子集合中,而在步骤e)中在确定第一评价信息的权重之后,将权重最大的预定个数的第一评价信息或者权重大于预定阈值的第一评价信息加入到第一评价信息种子集合中。
附记6.根据附记1所述的方法,其中在步骤b)和步骤d)中,如果第一评价信息与第二评价信息的距离在预定阈值之下,则认为第一评价信息与第二评价信息是相关联的。
附记7.根据附记1所述的方法,其中在步骤f)中,所述迭代结束条件为完成预定次数的迭代,或者所获得的新的第一评价信息或者第二评价信息的权重小于预定的阈值。
附记8.根据附记1所述的方法,其中在迭代结束之后还输出第一评价信息和第二评价信息之间的关系。
附记9.根据附记1所述的方法,其中第一评价信息是评价对象,而第二评价信息是评价内容,或者第一评价信息是评价内容,而第二评价信息是评价对象。
附记10.一种信息抽取装置(300),包括:
第一评价信息初始种子获取装置(310),用于获取第一评价信息的初始种子;
迭代抽取装置(320),基于所述第一评价信息的初始种子通过迭代的方式交替抽取第二评价信息种子和第一评价信息种子。
附记11.如附记10所述的信息抽取装置(300),
其中迭代抽取装置(320)包括:
关联评价信息确定装置(3200),用于确定与基础评价信息种子关联的关联评价信息;
关联评价信息种子获取装置(3202),用于根据与基础评价信息种子关联出现的关联评价信息的权重来确定关联评价信息种子;以及
迭代结束判断装置(3204),用于判断迭代是否应该结束,如果结束则输出所获得的评价信息种子,如果不结束则将所述关联评价信息种子作为新的基础评价信息种子;
其中,所述迭代抽取装置(320)首先将所述第一评价信息的初始种子作为所述基础评价信息种子,获得作为所述关联评价信息种子的新的第二评价信息种子,然后在继续迭代的情况下,将第二评价信息种子作为新的基础评价信息种子,获得作为所述关联评价信息种子的新的第一评价信息种子,以此类推,交替获取第二评价信息种子和第一评价信息种子,直到迭代结束。
附记12.根据附记10所述的信息抽取装置(300),其中第一评价信息初始种子获取装置(310)配置为将句子中包含的至少一个名词/名词短语作为第一评价信息的初始种子,或者将句子中包含的至少一个形容词作为第一评价信息的初始种子。
附记13.根据附记10所述的信息抽取装置(300),其中第一评价信息初始种子获取装置(310)配置为从外部获取初始种子。
附记14.根据附记11所述的信息抽取装置(300),其中
所述关联评价信息种子获取装置(3202)还包括:统计装置(32021),用于统计基础评价信息与关联评价信息在评论信息中关联出现的频度;以及计算装置(32022),用于计算统计装置(32021)所获得的频度与该关联评价信息在评论信息中出现的频度的比率,并将该比率作为关联评价信息的权重。
附记15.根据附记11所述的信息抽取装置(300),其中关联评价信息种子获取装置(3202)被配置为,在确定关联评价信息的权重之后,将权重最大的预定数量的关联评价信息或者权重大于预定阈值的关联评价信息加入到关联评价信息种子集合中。
附记16.根据附记11所述的信息抽取装置(300),其中关联评价信息确定装置(3200)被配置为,将与基础评价信息相距距离在预定阈值之下的评价信息认为是与基础评价信息相关联的关联评价信息。
附记17.根据附记11所述的信息抽取装置(300),其中迭代结束判断装置(3204)被配置为,当完成预定次数的迭代之后,判断迭代结束,或者当所获得的新的评价信息的权重小于预定阈值时,判断迭代结束。
附记18.根据附记10所述的信息抽取装置(300),其中所述迭代抽取装置(320)被配置为在迭代结束之后还输出第一评价信息和第二评价信息之间的关系。
附记19.一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如附记1所述的方法。
附记20.一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如附记1所述的方法。

Claims (9)

1.一种信息抽取方法,包括:
a)获取第一评价信息的初始种子;
b)确定与第一评价信息的种子关联的第二评价信息;
c)根据与第一评价信息的种子关联出现的第二评价信息的权重来确定新的第二评价信息的种子;
d)确定与第二评价信息的种子关联的第一评价信息;
e)根据与第二评价信息的种子关联出现的第一评价信息的权重来确定新的第一评价信息的种子;
f)判断是否满足迭代结束条件,如果否,则又执行步骤b)至e),否则输出所获得的第一评价信息和第二评价信息。
2.一种信息抽取装置(300),包括:
第一评价信息初始种子获取装置(310),用于获取第一评价信息的初始种子;
迭代抽取装置(320),基于所述第一评价信息的初始种子通过迭代的方式交替抽取第二评价信息种子和第一评价信息种子;
其中,迭代抽取装置(320)包括:
关联评价信息确定装置(3200),用于确定与基础评价信息种子关联的关联评价信息;
关联评价信息种子获取装置(3202),用于根据与基础评价信息种子关联出现的关联评价信息的权重来确定关联评价信息种子;以及
迭代结束判断装置(3204),用于判断迭代是否应该结束,如果结束则输出所获得的评价信息种子,如果不结束则将所述关联评价信息种子作为新的基础评价信息种子;
其中,所述迭代抽取装置(320)首先将所述第一评价信息的初始种子作为所述基础评价信息种子,获得作为所述关联评价信息种子的新的第二评价信息种子,然后在继续迭代的情况下,将第二评价信息种子作为新的基础评价信息种子,获得作为所述关联评价信息种子的新的第一评价信息种子,以此类推,交替获取第二评价信息种子和第一评价信息种子,直到迭代结束。
3.根据权利要求2所述的信息抽取装置(300),其中第一评价信息初始种子获取装置(310)配置为将句子中包含的至少一个名词/名词短语作为第一评价信息的初始种子,或者将句子中包含的至少一个形容词作为第一评价信息的初始种子。
4.根据权利要求2所述的信息抽取装置(300),其中第一评价信息初始种子获取装置(310)配置为从外部获取初始种子。
5.根据权利要求2所述的信息抽取装置(300),其中
所述关联评价信息种子获取装置(3202)还包括:统计装置(32021),用于统计基础评价信息与关联评价信息在评论信息中关联出现的频度;以及计算装置(32022),用于计算统计装置(32021)所获得的频度与该关联评价信息在评论信息中出现的频度的比率,并将该比率作为关联评价信息的权重。
6.根据权利要求2所述的信息抽取装置(300),其中关联评价信息种子获取装置(3202)被配置为,在确定关联评价信息的权重之后,将权重最大的预定数量的关联评价信息或者权重大于预定阈值的关联评价信息加入到关联评价信息种子集合中。
7.根据权利要求2所述的信息抽取装置(300),其中关联评价信息确定装置(3200)被配置为,将与基础评价信息相距距离在预定阈值之下的评价信息认为是与基础评价信息相关联的关联评价信息。
8.根据权利要求2所述的信息抽取装置(300),其中迭代结束判断装置(3204)被配置为,当完成预定次数的迭代之后,判断迭代结束,或者当所获得的新的评价信息的权重小于预定阈值时,判断迭代结束。
9.根据权利要求2所述的信息抽取装置(300),其中所述迭代抽取装置(320)被配置为在迭代结束之后还输出第一评价信息和第二评价信息之间的关系。
CN 200910226105 2009-11-20 2009-11-20 信息抽取方法和装置 Expired - Fee Related CN102073653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910226105 CN102073653B (zh) 2009-11-20 2009-11-20 信息抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910226105 CN102073653B (zh) 2009-11-20 2009-11-20 信息抽取方法和装置

Publications (2)

Publication Number Publication Date
CN102073653A CN102073653A (zh) 2011-05-25
CN102073653B true CN102073653B (zh) 2013-06-19

Family

ID=44032197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910226105 Expired - Fee Related CN102073653B (zh) 2009-11-20 2009-11-20 信息抽取方法和装置

Country Status (1)

Country Link
CN (1) CN102073653B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544186B (zh) * 2012-07-16 2017-03-01 富士通株式会社 挖掘图片中的主题关键词的方法和设备
CN103258045B (zh) * 2013-05-24 2016-12-28 百度在线网络技术(北京)有限公司 推荐内容确定系统和方法
CN107861946A (zh) * 2017-11-03 2018-03-30 北京奇艺世纪科技有限公司 一种细粒度的评价信息挖掘方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法
CN101546331A (zh) * 2009-05-07 2009-09-30 刘健 获取有助检索的特征、评价相关事物的价值的系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法
CN101546331A (zh) * 2009-05-07 2009-09-30 刘健 获取有助检索的特征、评价相关事物的价值的系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究.《中文信息学报》.2006,第20卷(第1期),
面向商务信息抽取的产品命名实体识别研究;刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬;《中文信息学报》;20060131;第20卷(第1期);7-13 *

Also Published As

Publication number Publication date
CN102073653A (zh) 2011-05-25

Similar Documents

Publication Publication Date Title
Grau et al. Combining OWL ontologies using E-connections
CN106202518B (zh) 基于chi和分类别关联规则算法的短文本分类方法
Peruma et al. How do i refactor this? An empirical study on refactoring trends and topics in Stack Overflow
CN111222681A (zh) 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质
CN104978314B (zh) 媒体内容推荐方法及装置
Zhou et al. New model of semantic similarity measuring in wordnet
Casagrande et al. NLP-KAOS for systems goal elicitation: Smart metering system case study
CN108304382B (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
Velardi et al. A new content-based model for social network analysis
Suryanto et al. Learning Classification taxonomies from a classification knowledge based system.
CN102073653B (zh) 信息抽取方法和装置
Sharma et al. A RESEARCH REVIEW ON COMPARATIVE ANALYSIS OF DATA MINING TOOLS, TECHNIQUES AND PARAMETERS.
Yang et al. Predicting co-changes between functionality specifications and source code in behavior driven development
Spina et al. Active learning for entity filtering in microblog streams
Yang et al. A novel evolutionary method to search interesting association rules by keywords
Pan et al. Class structure refactoring of object-oriented softwares using community detection in dependency networks
CN106202036A (zh) 一种基于依存约束和知识的动词词义消歧方法和装置
CN109213793A (zh) 一种流式数据处理方法和系统
CN102375848B (zh) 评价对象聚类方法和装置
Kopp Guidelines and a software tool for quality assessment of BPMN business process models
Abdalgader et al. Context expansion approach for graph-based word sense disambiguation
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
AT&T
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies
Mazurek et al. Wikary: A Dataset of N-ary Wikipedia Tables Matched to Qualified Wikidata Statements.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130619

Termination date: 20181120

CF01 Termination of patent right due to non-payment of annual fee