CN101968788A - 提取商品属性信息的方法和设备 - Google Patents
提取商品属性信息的方法和设备 Download PDFInfo
- Publication number
- CN101968788A CN101968788A CN2009101644147A CN200910164414A CN101968788A CN 101968788 A CN101968788 A CN 101968788A CN 2009101644147 A CN2009101644147 A CN 2009101644147A CN 200910164414 A CN200910164414 A CN 200910164414A CN 101968788 A CN101968788 A CN 101968788A
- Authority
- CN
- China
- Prior art keywords
- information
- attribute value
- candidate
- template
- information attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
公开了一种用于从包括评论语句的评论信息中提取商品属性信息的方法和设备。所述方法包括:a)对评论信息执行预处理;b)从预处理后的评论信息中提取出候选商品属性信息,并将出现次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;和d)根据预定过滤方法,对所述高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。利用根据本发明实施例的方法和设备,可无指导地自动提取商品属性信息,而且在保证提取高频商品属性信息的同时,兼顾了商品属性信息提取过程中可能漏掉的非高频商品属性信息。
Description
技术领域
本发明总体上涉及网络信息处理领域,并且尤其涉及一种无指导的、从互联网上的众多用户评论信息中自动提取商品属性(product feature)信息的方法和设备。
背景技术
随着互联网的快速发展,互联网上的信息量每天都在以惊人的速度增长。越来越多的人喜欢在网上发表他们对人、事、物的意见,网络上出现了大量的含有个人观点和评论的信息。如何分析和监测网络上的评论信息,如何减轻人们阅读大量相关评论信息的工作量,已经成为自然语言处理领域中的一个研究热点。
在对评论信息进行分析时,如何从评论信息中提取出所关注的评论内容是一个基本问题。例如,在购买电子商品“手机”之前,人们往往习惯于先查看一下网络上已有的关于该商品的评论。此时,商品的属性、例如体积、屏幕大小、分辨率等都是所关注的评论内容。
对于如何从商品评论信息中提取出商品的属性信息,首先想到的是基于词典的匹配方法。它的前提是已经具有了一部涉及特定领域的属性词典。但是,基于词典的匹配方法存在以下一个或多个问题:
·词典的覆盖率问题:词典中收录的词汇相对有限,很难覆盖评论信息中的所有属性词汇,例如,很难覆盖新出现的网络用语、缩写等;
·与词典的简单匹配欠缺灵活性,例如,对于词典里收录的属性词“屏幕分辨率”,评论信息中出现的诸如“屏幕的分辨率”、“高分辨率的屏幕”等用语都很难被匹配上,从而使得难以提取出正确的商品属性信息;以及
·词典的获取问题:词典的构建是一件费时费力的工程。
然而,由于词典匹配方法的局限性,目前,对于商品属性的提取,越来越多地采用了从网上发表的商品评论信息中自动提取商品属性信息的技术。
目前,与其相关的代表性研究主要包括:
·Minqing Hu和Bing Liu所著的“Mining Opinion Features in Customer Reviews”(参见Proceedings of Nineteeth NationalConference on Artificial Intelligence(AAAI-2004),第755~760页,2004年7月,美国圣约瑟);
·Minqing Hu和Bing Liu所著的“Mining and Summarizing Customer Reviews”(参见Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,第168~177页,2004年8月22~25日,美国华盛顿州西雅图);以及
·A.M.Popescu和o.Etzioni所著的“Extracting Product Features and Opinions from Reviews”(参见Proceedings of the Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing(HLT-EMNLP-05),第339-346页,2005年,加拿大温哥华)。
在上述这些研究中,Bing Liu等人采用了基于关联规则挖掘(Associate Rule Mining)和词频统计的被评论特征提取方法,而Popescu等人采用了基于点互信息的属性词提取。其中,对词语的出现频率信息的利用有利于从评论信息中提取出高频的商品特征,但是往往忽略了低频的商品特征。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明旨在至少解决现有技术中存在的上述问题之一,实现商品属性信息的自动提取,从而至少部分地弥补人工费时费力的缺点、或者基于词典提取的词典覆盖率及灵活性差等缺点。
为此,本发明的一个目的是提供一种用于从包括评论语句的评论信息中提取商品属性信息的方法和设备,其能够无指导地自动提取商品属性信息,并且能够通过基于模板的商品信息提取过程提取出在高频商品属性信息提取过程中被漏掉的非高频商品属性信息,作为对高频商品属性信息的补充。
本发明的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质及计算机程序产品。
为了实现上述目的,根据本发明的一个方面,提供了一种用于从包括评论语句的评论信息中提取商品属性信息的方法,其包括如下步骤:a)对评论信息执行包括分句、分词、词性标注在内的预处理;b)从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及d)根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
根据本发明的另一个方面,还提供了一种用于从包括评论语句的评论信息中提取商品属性信息的设备,其包括:预处理单元,用于对评论信息执行包括分句、分词、词性标注在内的预处理;高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及过滤单元,用于根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
本发明的一个优点在于,在根据本发明实施例的用于从评论信息中提取商品属性信息的方法和系统中,首先从经过包括分句、分词、词性标注等在内的预处理的评论信息中提取出高频商品属性信息,然后基于高频商品属性信息获取相应的模板,并利用模板从预处理后的评论信息中进一步提取商品属性信息。这样,通过利用根据本发明实施例的方法和系统,可以无指导地并且高效地从给定评论信息集合中自动提取出商品属性信息,消除了人工提取信息费时费力的缺点,可以提高信息提取效率和缩短信息提取周期。
本发明的又一个优点在于,在根据本发明实施例的用于从评论信息中提取商品属性信息的方法和系统中,没有采用基于词典的信息提取技术,而是在从经过预处理的评论信息中利用统计信息提取出高频商品属性信息后,利用模板从评论信息中进一步提取商品属性信息。这样,在保证提取高频商品属性信息的基础上,通过引入基于所提取的高频商品属性信息而获取的模板再次从评论信息中提取商品属性信息,从而对评论信息中的非高频商品属性信息具有一定的召回能力,克服了基于词典提取信息时的词典覆盖率差及灵活性差等缺点。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示出了根据本发明实施例的商品属性信息提取方法的示意性流程图;
图2是示出了根据本发明的实施例、从所收集的评论信息中提取高频商品属性信息的处理(即,图1中所示的步骤S130)的示意性流程图;
图3是示出了根据本发明的实施例、从网上收集评论信息并从评论信息中提取商品属性信息的方法的示意性流程图;
图4是示出了根据本发明的实施例、基于所提取出的高频商品属性信息从评论信息中获取模板的过程的示意性流程图;
图5是示出了根据本发明的实施例、利用所获取的模板从评论信息中提取商品属性信息的过程的示意性流程图;
图6是示出了根据本发明实施例的、用于从网上评论信息中提取出商品属性信息的设备的示意性结构的方框图;以及
图7是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人计算机的示例性结构的方框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
图1是示出了根据本发明实施例的、用于从网上评论信息中提取出商品属性信息的方法100的示意性流程图。
如图1所示,在步骤S110中,接收从网络上收集到的各种商品评论信息。在此,可以采用现有的各种信息收集方法,例如,采用面向互联网的网络爬虫的方式,或者采用指定数据来源的方式,来定期地自动从网络上收集评论信息。
在步骤S120中,对所收集到的评论信息进行包括分句、分词、词性标注等在内的各种预处理,以获得包括在所收集到的评论信息中的众多评论语句的词、词性向量。在此可以采用已有的自然语言处理方法来对评论信息进行预处理。例如,对于评论语句“系统扩展性能差。”,在经过预处理之后可得到类似于如下所示的结果:系统/n扩展/vn性能/n差/a。/w。其中,“/n”表示名词词性,“/vn”表示动名词词性,“/a”表示形容词词性,“。/w”表示标点符号。
然后,在步骤S130中,从经预处理后的评论信息(即,步骤S120中得到的多个词、词性向量)中提取高频商品属性信息。
在此,可以利用基本名词短语识别技术从经预处理的评论信息中提取出候选商品属性信息,然后统计候选商品属性信息在评论信息中出现的次数,并从候选商品属性信息选择那些出现频率满足预定条件(例如,大于预定阈值)的商品属性信息作为高频商品属性信息。
然而,为了使涉及领域的适应性更强,在根据本发明的一个实施例中,发明人构建了一元词、二元词和三元词作为候选商品属性信息(在本文中也被简称为候选单元),统计这些候选商品属性信息在评论信息中出现的次数,并根据预先定义的规则将具有某些不能作为属性信息的词或词性的候选商品属性信息删除,然后将出现次数满足一定条件(例如大于预定阈值)的候选商品属性信息确定为所提取出的高频商品属性信息。在下文中将结合图2所示的流程图对根据该实施例提取高频商品属性信息的具体过程进行描述。
接下来,在步骤S140中,通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息。补充商品属性信息是在先前的高频商品属性信息提取过程中漏掉的非高频商品属性信息,是对所提取出的高频商品属性信息的补充。
在此,可根据已获取的高频商品属性信息,从评论信息中获取其相应的上下文信息,并将所获取的上下文信息作为候选模板,对得到的候选模板进行统计分析,设定阈值进行过滤以获得有效的模板(例如,认为覆盖一定数量的高频商品属性的模板是有效的模板),根据由此得到的模板,再次从评论信息中提取候选商品属性信息,对新得到的候选商品属性信息进行过滤判断(例如,根据预定规则对不能作为商品属性词的词、词性的候选属性进行过滤,进行剪枝过滤,和/或进行阈值过滤等),将过滤后的候选商品属性信息输出作为补充商品属性信息。该步骤的具体处理过程将在下文中结合图3~5所示的流程图进行具体说明。
然后,如图1所示,在步骤S150中,对步骤S130中得到的高频商品属性信息和步骤S140中得到的补充商品属性信息进行过滤。在此,可以根据限定长度阈值进行过滤,根据词头词尾限定条件进行过滤等。
随后,在步骤S160中,例如以列表的形式,输出经步骤S150过滤后的商品属性信息。
接下来,将结合图2所示的流程图对步骤S130中的具体处理进行说明。图2示出了根据本发明的一个实施例从所收集的评论信息中提取高频商品属性信息的处理(即,图1中所示的步骤S130)的示意性流程图。
如图2所示,对于通过对所收集的评论信息进行预处理而得到的评论语句中的词、词性向量,在步骤S210中,在从中去除标点符号后,构建一元、二元、三元词作为商品属性信息的候选单元(即,一元、二元、三元候选商品属性信息)。
例如,对于“系统/n扩展/vn性能/n差/a。/w”这样的预处理结果,在去除标点符号“。”之后,可以分别构建出如下所示的一元、二元、三元词作为商品属性信息的候选单元:
一元词:[系统/n],[扩展/vn],[性能/n],[差/a];
二元词:[系统/n扩展/vn],[扩展/vn性能/n],[性能/n差/a];
三元词:[系统/n扩展/vn性能/n],[扩展/vn性能/n差/a]。
然后,在步骤S220中,统计所构建的候选单元在所收集到的评论信息中出现的次数。
假设统计得到如下所示的、各个候选单元在评论信息中的出现次数:
[系统/n]100,[扩展/vn]60,......,[系统/n扩展/vn]50,[系统/n扩展/vn性能/n]40,......。
接下来,在步骤S230中,构建候选列表,以列表的形式存储候选单元的有关信息。其中,按照如下所示的形式,以候选单元的开头词作为关键词,其后分别对应有其相应的候选单元中的其他词,以及出现的次数。形式如下:
Keywords:T1
Values:<,times1>
Values:<T2,times2>
Values:<T3,times3>
Values:<T2 T3,times4>
......
其中,<,times1>表示以T1作为候选单元,以及其在评论信息中出现的次数为times1,<T2,times2>表示以T1T2作为候选单元,以及其在评论信息中出现的次数为times2,<T3,times3>表示以T1T3作为候选单元,以及其在评论信息中出现的次数为times3,<T2T3,times4>表示以T1T2T3作为候选单元,以及其在评论信息中出现的次数为times4。
例如,对于上文中给出的例子,可以构建出具有如下所示的形式的候选列表:
Keywords:[系统/n]
Values:<,100>
Values<扩展/vn,50>
Values<扩展/vn性能/n,40>
......
接下来,如图2所示,处理流程进行到步骤S240,对候选单元执行基于规则的过滤。在根据本发明实施例的商品属性信息提取技术中,出于涉及领域的适应性考虑,发明人没有引入相应的短语识别,所以,对于候选单元,采用了给定一定的构词规则进行过滤的措施。过滤规则包含以下词形、词性两个方面,并且分别设定有开头词词性对应表、结尾词词性对应表和词形对应表,以便执行过滤。
关于词性过滤的规则,例如,对于候选单元开头词和候选单元结尾词的词性,可以仅被限定为以下词性:
形容词</a>,副词</ad>,名词</n>,动词</v>,形名词</an>,名词性语素</Ng>,动词性语素</Vg>,动名词</vn>,名词代码</ns>等。
词形过滤的规则可以包括:例如,候选单元不应为标点等词汇,开头词和结尾词不应为“的”,词尾不应当为时间、数字和字母等。
在此,没有直接利用停用词表进行过滤,因为考虑到“的”可作为属性词的组成部分,如[铃声/n的/u音量/n]。
然后,在步骤S250中,对在步骤S240中进行基于规则的过滤之后而得到的候选单元执行剪枝过滤(pruning filtering)。具体来说,如果A、B均为候选商品属性信息,且A多数作为与B的一部分出现,而A单独出现的次数小于预先设定的阈值,则判定A不是候选商品属性。
例如,假设具有于如下所示的候选列表:
Keywords:T1
Values:<,times1>
Values:<T2,times2>
Keywords:T2
Values:<,times3>
其中,T2出现的次数times3,但实际上T1T2同时出现的次数为times2。所以,T2单独出现的次数为times3-times2。虽然times3的值可能很高,但可能是由于T1T2同时出现的次数多引起的,而T2单独出现的次数不一定很高。剪枝过滤就是要将这种间接贡献考虑进来,避免引入非高频率的部分商品属性。
例如,仍然以上文给出的下述候选列表为例:
Keywords:[系统/n]
Values:<,50>
Values<扩展/vn,10>
Values<扩展/vn性能/n,40>
在如上所述进行“剪枝”之后,[系统/n]实际上单独出现的次数为50次,而[系统/n扩展/vn]实际上单独出现的次数为10次。
然后,在步骤S260中,对经过上述过滤处理之后的候选单元进行阈值过滤,根据预先设定的阈值参数来对候选单元进行选择。在此,可以商品属性信息的出现次数作为参数,并设定阈值条件,将出现次数满足阈值条件、例如高于设定阈值的候选单元(即候选商品属性信息)确定为高频商品属性信息。
随后,在步骤S270中,输出经阈值过滤后得到的高频商品属性信息,即为从评论信息中提取出的高频商品属性信息。
接下来,将参考图3~图5所示的流程图对根据本发明的实施例从网上收集评论信息并从评论信息中提取商品属性信息的具体过程进行描述。图3是示出了根据本发明的实施例从网上收集评论信息并从评论信息中提取商品属性信息的方法的示意性流程图。
如图3所示,在步骤S310中,通过采用各种已知的信息收集方法来从网络上收集评论信息。根据需要,可以定期地自动收集评论信息。
接下来,在步骤S320中,对所收集到的评论信息进行包括分句、分词、词性标注等在内的各种预处理,以获得评论语句的词、词性向量,然后在步骤S330中,从经预处理后的评论信息中提取高频商品属性信息。图3中所示的步骤S320和S330中的处理过程与图1中所示的S120和S130中的处理过程类似,因此在此就不再详述了。
接下来,在步骤S340中,根据步骤S330中所提取出的高频商品属性信息进行基于模板的商品属性信息提取,以获得补充商品属性信息,作为对高频商品属性信息的补充。
具体来说,如图所示,在步骤S342中,基于所提取出的高频商品属性信息,从评论信息中获取高频商品属性信息的上下文信息,据此获取模板。
下面参照图4所示的流程图对步骤S342的具体处理进行说明。图4是示出了根据本发明的实施例基于所提取出的高频商品属性信息从评论信息中获取模板的过程的示意性流程图。
如图4所示,在步骤S410中,基于如上所述从经预处理后的评论信息中所提取出的每一个高频商品属性信息,从评论信息中提取每一个高频商品属性信息的上下文信息,构成候选模板。在此,某一高频商品属性信息的上下文信息是指该高频商品属性信息所属语句中的前一个词及后一个词。假设从语句“......T-2T-1 T0 T1 T2......”中提取出的高频商品属性信息为T0,则由此得到的、该高频商品属性信息T0的候选模板的形式为T-1......T1。
例如,对于评论语句“另外音量不好”,经过分词和词性标注之后得到的结果为“另外/c音量/n不好/a”,假设在如上所述方式提取高频商品属性信息后确定“[音量/n]”为高频商品属性信息,则由此得到的、该高频商品属性信息[音量/n]的候选模板为“<[另外/c]......[不好/a]>”。
然后,在步骤S420中,执行候选模板频度统计,即,用候选模板在所有评论语句中进行匹配,并统计出候选模板在所有评论语句中被匹配上的频度。例如,对于候选模板“<[另外/c]......[不好/a]>”,可以匹配上诸如“另外图像的质量不好”、“另外质量不好”之类的评论语句。在此,候选模板的频度统计可以从两个方面考虑。一是统计候选模板在评论信息中出现的次数,也就是说,对于某一个候选模板多次覆盖某一个高频商品属性信息可以重复计数。二是只考虑候选模板所匹配上的不同的高频商品属性信息的次数,也就是说,某一个候选模板匹配上某一个高频商品属性信息后,再出现该候选模板匹配上该高频商品属性信息这种情况,将不再重复计数。这样,考虑了候选模板在评论语句中的匹配能力,即,候选模板可以覆盖多少高频商品属性信息。
然后,在步骤S430中,基于对候选模板的频度统计结果,根据预先设定的条件(例如,预定阈值参数),选择出所有候选模板中满足预先设定的条件的那些模板,作为从评论信息中获取的模板输出。这里,可以分别设定两个阈值,分别对应于上面的两种频度统计,并分别采用阈值对候选模板进行过滤筛选。
返回参见图3。在步骤S344中,利用步骤S342中获得的模板再次从预处理后的评论信息中提取商品属性信息,作为补充商品属性信息(它是对先前所提取的高频商品属性信息的补充)。
下面将参照图5所示的流程图对步骤S344的具体处理进行说明。图5是示出了根据本发明的实施例利用所获取的模板从评论信息中提取商品属性信息的过程的示意性流程图。
如图所示,在步骤S510中,利用步骤S342中获得的模板,从评论信息中构建候选单元。在此构建的候选单元与上文中结合图2描述的高频商品属性信息提取中的候选单元有所不同。这里是把匹配上模板的中间片断作为候选单元,而不再考虑其是由几元词组成的。例如,假设模板为“<[另外/c]......[不好/a]>”,则对于评论语句“另外图像的质量不好”,将与该模板匹配上的中间片断“图像的质量”构建为候选单元。因此,为了区分起见,可以将基于模板的商品属性信息提取过程中的候选单元称为第一候选单元,而相应地可以将高频商品属性信息提取过程中的候选单元称为第二候选单元。当然,反之亦然。
在步骤S520中,统计(第一)候选单元所能匹配上的不同模板的个数。在此,并不是统计候选单元在评论信息中出现的次数,而是考虑候选单元所能匹配上的模板的种类个数,即不重复地统计与候选单元匹配的模板的个数。
接下来,在步骤S530中,构建候选列表。这个步骤的处理与图2中所示的构建候选列表步骤S230的处理相同,因此就不再详述了。
然后,在步骤S540中,可以参照所构建的候选列表,根据预定的过滤方法,对(第一)候选单元进行过滤,从而得到补充商品属性信息。在此,可以如以上结合图2所描述的步骤S240、S250和S260中那样,对步骤S510中构建的候选单元进行基于规则的过滤、剪枝过滤和阈值过滤。但是,需要说明的是,在此时的阈值过滤中,考虑的是通过统计得到的、(第一)候选单元所匹配上的不同的模板的个数,而且由于希望利用模板从评论信息中提取出在先前执行的高频商品属性信息提取过程中所漏掉的非高频商品属性信息,作为对高频商品属性信息的补充,因此,阈值设置得要高频商品属性信息提取过程中所设定的相应阈值低。
再次返回参见图3。在步骤S346中,确定在基于模板的商品属性信息提取过程中是否要继续进行循环。在此,对于循环结束条件,可以考虑给定循环次数、是否有新的模板生成或者是否有新的商品属性信息等为条件。
如果在步骤S346中确定要循环地执行基于模板的商品属性信息提取过程,则处理返回到步骤S342,基于步骤S344中得到的补充商品属性信息(而不是先前所提取的高频商品属性信息)从评论信息中重新获取模板,并重复上述步骤S342至S346的处理,直到满足循环结束条件。假设以给定循环次数为例,则在进行了n次循环后,自动结束基于模板的商品属性信息提取过程。
然后,在步骤S350中,根据预先设定的过滤方法,对步骤S330中得到的高频商品属性和步骤S340中得到的补充商品属性信息进行过滤。例如,假设仅考虑商品属性信息的词汇长度限制,则对于过长的商品属性信息候选,判定其成为商品属性信息的概率会降低,例如可仅设定长度(字数)超过某一阈值(例如8个字长)的商品属性信息被过滤掉。
随后,在步骤S360中,例如可以列表的形式,输出经步骤S350过滤后的商品属性信息。
图6是示出了根据本发明实施例的、用于从网上评论信息中提取出商品属性信息的设备600的示意性方框图。
如图6所示,设备600包括:预处理单元610,用于对评论信息进行包括分句、分词、词性标注等在内的各种预处理,以获得包括在评论信息中的众多评论语句的词、词性向量;高频商品属性信息提取单元620,用于从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;补充商品属性信息提取单元630,用于通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及过滤单元640,用于根据预先设定的过滤方法,对高频商品属性信息提取单元620所提取出的高频商品属性信息和补充商品属性信息提取单元630所提取出的补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
其中,高频商品属性信息提取单元620可以利用现有的高频属性信息提取方法来从评论信息中提取高频商品属性信息,也可以如以上结合图2所描述的那样执行高频商品属性信息提取。
补充商品属性信息提取单元630进一步包括:模板获取器632,用于基于高频商品属性信息提取单元620所提取出的高频商品属性信息,从评论信息中获取高频商品属性信息的上下文信息,并据此获取模板;以及商品属性信息提取器634,用于利用模板获取器632所获得的模板再次从预处理后的评论信息中提取出商品属性信息,作为补充商品属性信息。
所述模板获取器可以通过下述方式获取模板:基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取每一个高频商品属性信息的上下文信息,从而构成候选模板;用候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选模板在所有评论语句中被匹配上的频度;以及基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的模板,输出作为从评论信息中获取的模板。
所述商品属性信息提取器可以通过以下方式利用所获取的模板从经预处理后的评论信息中提取商品属性信息:利用所获取的模板从经预处理后的评论信息中构建第一候选单元,该第一候选单元是评论语句中与模板匹配上的中间片断;统计与第一候选单元匹配的不同模板的个数;构建第一候选列表,在该第一候选列表中存储每一个第一候选单元的开头词作为关键词,并在之后存储该第一候选单元中在该开头词后的其他词及其在评论语句中的出现次数;以及参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单元进行过滤,将过滤后的第一候选单元输出作为所述商品属性信息。
在高频商品属性信息提取单元620执行结合图2所描述的高频商品属性信息提取过程的情况下,所述高频商品属性信息提取单元可以进一步包括:候选单元构建装置,用于基于对评论信息进行预处理而得到的评论语句中的词和词性向量,构建一元词、二元词、三元词作为商品属性信息的第二候选单元;统计装置,用于统计所构建的第二候选单元在评论信息中出现的次数;候选列表构建装置,用于构建第二候选列表,在该第二候选列表中存储每一个第二候选单元的开头词作为关键词,并在之后存储该第二候选单元中在该开头词后的其他词及其在评论语句中的出现次数;基于规则的过滤装置,用于根据预先设定的第二过滤规则,对第二候选单元执行基于规则的过滤;剪枝过滤装置,用于参照所构建的第二候选列表对第二候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及阈值过滤装置,用于对经过剪枝过滤处理之后的第二候选单元进行阈值过滤,将出现次数满足第二预定阈值条件的第二候选单元确定为高频商品属性信息。
虽然在图6中并没有示出高频商品属性信息提取单元620在执行如图2所示的处理过程情况下的示意性结构方框图,但是本领域技术人员可以很容易地根据上述描述绘制出相应的结构方框图。
通过阅读以上结合图1至图5所示的方法流程图给出的、对如何从评论信息中提取商品属性信息的过程的描述,可以很容易地得知如何实现上述各个单元的功能,因此,为了说明书的简洁起见,在此就不再对设备600的各个组成单元的具体处理过程进行描述了。
此外,尽管在图6中并未示出,但是所述设备600还可以包括:用于从外部设备接收从网上收集到的评论信息的评论信息接收单元;或者用于从网络上收集评论信息的评论信息收集单元。其中,评论信息可以是采用面向互联网的网络爬虫的方式或者采用指定数据来源的方式定期地自动从网络上收集的。
通过以上的描述不难看出,在根据本发明实施例的上述方法和设备中,在从经过包括分句、分词、词性标注等在内的预处理的评论信息中提取出高频商品属性信息,并且利用基于高频商品属性信息获取的模板从预处理后的评论信息中进一步提取商品属性信息。这样,可以无指导地并且高效地从给定评论信息集合中自动提取出商品属性信息,消除了人工提取信息费时费力的缺点。
另外,在根据本发明实施例的上述方法和设备中,在从经过预处理的评论信息中利用统计信息提取出高频商品属性信息后,利用基于高频商品属性信息获取的模板从评论信息中进一步提取商品属性信息。这样,在保证提取高频商品属性信息的基础上,引入了模板来再次从评论信息中提取商品属性信息,从而对评论信息中的非高频商品属性信息具有一定的召回能力,即,能够提取出在高频商品属性信息提取过程中被漏掉的非高频商品属性信息,作为对高频商品属性信息的补充。
而且,在根据本发明实施例的上述方法和设备中,可以根据需要采用循环的方式不断地获取模板,并重复地执行基于模板的商品属性信息提取,从而不断地从评论信息中提取出新的商品属性信息,由此充实了所提取出的商品属性信息的规模。
此外,在根据本发明实施例的上述方法和设备中,没有采用基于词典的信息提取技术,而是利用基本名词短语识别技术从预处理后的评论语句中构建一元词、二元词、三元词作为候选商品属性信息(即候选单元),统计候选单元在评论信息中出现的频率,根据预先设定的过滤方法对候选单元进行基于规则的过滤、剪枝过滤和阈值过滤,这样过滤后的商品属性信息即为从评论信息中提取出的高频商品属性信息。这样,克服了基于词典提取信息时的词典覆盖率差及灵活性差等缺点,而且可以高效地提取出所期望的高频商品属性信息。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,计算机通过连接到互联网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
此外,依据本发明的计算机程序代码也可以采用例如一个或更多个信号的形式。所述信号可以是可从互联网站点下载的数据信号,或是在载波信号上提供的数据信号,或是以任何其它形式的数据信号。
图7是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人计算机700的示例性结构的框图。如图7所示,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703中的程序执行各种处理。在RAM703中,也根据需要存储当CPU 701执行各种处理等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,其包括键盘、鼠标等等;输出部分707,其包括显示器,比如阴极射线管(CRT)和液晶显示器(LCD)等,以及扬声器等;存储部分708,其包括硬盘等;以及通信部分709,其包括网络接口卡比如LAN(局域网)卡、调制解调器等。通信部分709经由网络、例如互联网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在如上所述通过软件实现本发明的情况下,从网络、例如互联网或者存储介质、例如可拆卸介质711中向计算机700中安装所述软件的程序。
本领域的技术人员应当理解,上述存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子可以包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体存储器等。或者,存储介质也可以是ROM 702、存储部分708中包含的硬盘等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案:
附记1.一种用于从包括评论语句的评论信息中提取商品属性信息的方法,包括如下步骤:
a)对评论信息执行包括分句、分词、词性标注在内的预处理;
b)从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;
c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及
d)根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
附记2.根据附记1所述的方法,其中,所述进行基于模板的商品属性信息提取的步骤c)进一步包括:
c1)基于所提取出的高频商品属性信息,从经预处理后的评论信息中提取高频商品属性信息的上下文信息,由此获取模板;以及
c2)利用所获取的模板从经预处理后的评论信息中提取商品属性信息,并将其输出作为补充商品属性信息。
附记3.根据附记2所述的方法,其中,所述获取模板的步骤c1)进一步包括:
c11)基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取每一个高频商品属性信息的上下文信息,从而构成一个候选模板;
c12)用每一个候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选模板在所有评论语句中被匹配上的频度;以及
c13)基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的候选模板,并将其输出作为从评论信息中获取的模板。
附记4.根据附记3所述的方法,其中,所述进行基于模板的商品属性信息提取的步骤c)进一步包括:
c3)确定是否要循环执行基于模板的商品属性信息提取;以及
c4)在确定要循环执行基于模板的商品属性信息提取的情况下,基于所获取的补充商品属性信息从评论信息中重新获取模板,基于新获取的模板执行商品属性信息提取,并重复这个过程,直到满足循环结束条件为止。
附记5.根据附记2至4中任意一项所述的方法,其中,所述利用所获取的模板从经预处理后的评论信息中提取商品属性信息的步骤c2)进一步包括:
c21)利用所获取的模板从经预处理后的评论信息中构建第一候选单元,该第一候选单元是评论语句中与模板匹配上的中间片断;
c22)统计与每一个第一候选单元匹配的不同模板的个数;
c23)构建第一候选列表,在该第一候选列表中存储每一个第一候选单元的开头词作为关键词,并在之后存储该第一候选单元中在该开头词后的其他词,及开头词和其他词一起出现在评论语句中的出现次数;以及
c24)参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单元进行过滤,将过滤后的第一候选单元输出作为所述商品属性信息。
附记6.根据附记5所述的方法,其中,所述对第一候选单元进行过滤的步骤c24)进一步包括:
根据预先设定的第一过滤规则,对第一候选单元执行基于规则的过滤;
参照所构建的第一候选列表对第一候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及
对第一候选单元进行阈值过滤,将出现次数满足预定第一阈值条件的第一候选单元确定为所述商品属性信息。
附记7.根据附记1至6中任何一项所述的方法,其中,所述提取高频商品属性信息的步骤b)进一步包括:
b1)基于对评论信息进行预处理而得到的评论语句中的词和词性向量,构建一元词、二元词、三元词作为商品属性信息的第二候选单元;
b2)统计所构建的第二候选单元在评论信息中出现的次数;
b3)构建第二候选列表,在该第二候选列表中存储每一个第二候选单元的开头词作为关键词,并在之后存储该第二候选单元中在该开头词后的其他词及其在评论语句中的出现次数;
b4)根据预先设定的第二过滤规则,对第二候选单元执行基于规则的过滤;
b5)参考第二候选列表对第二候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及
b6)对第二候选单元执行阈值过滤,将出现次数满足第二预定阈值条件的第二候选单元确定为高频商品属性信息。
附记8.根据附记1至7中任何一项所述的方法,其中,所述对所提取出的高频商品属性信息和补充商品属性信息进行过滤的步骤d)进一步包括:
根据预先设定的词汇长度阈值条件,从所提取出的高频商品属性信息和补充商品属性信息中将词长不满足词汇长度阈值条件的商品属性信息滤掉,并输出过滤后的商品属性信息。
附记9.根据附记1至8中任何一项所述的方法,其中,所述评论信息是采用面向互联网的网络爬虫的方式或者采用指定数据来源的方式定期地自动从网络上收集的。
附记10.一种用于从包括评论语句的评论信息中提取商品属性信息的设备,包括:
预处理单元,用于对评论信息执行包括分句、分词、词性标注在内的预处理;
高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;
补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及
过滤单元,用于根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
附记11.根据附记10所述的设备,其中,所述补充商品属性信息提取单元进一步包括:
模板获取器,用于基于所提取出的高频商品属性信息,从经预处理后的评论信息中提取高频商品属性信息的上下文信息,由此获取模板;以及
商品属性信息提取器,用于利用所获取的模板从经预处理后的评论信息中提取商品属性信息,并将其输出作为补充商品属性信息。
附记12.根据附记11所述的设备,其中,所述模板获取器通过下述方式获取模板:
基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取每一个高频商品属性信息的上下文信息,从而构成一个候选模板;
用每一个候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选模板在所有评论语句中被匹配上的频度;以及
基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的候选模板,并将其输出作为从评论信息中获取的模板。
附记13.根据附记12所述的设备,其中,在所述补充商品属性信息提取单元确定要循环执行基于模板的商品属性信息提取的情况下,模板获取器基于所获取的补充商品属性信息从评论信息中重新获取模板,而且商品属性信息提取器基于新获取的模板执行商品属性信息提取,并重复这个过程,直到满足循环结束条件为止。
附记14.根据附记11至13中任意一项所述的设备,其中,所述商品属性信息提取器通过以下方式利用所获取的模板从经预处理后的评论信息中提取商品属性信息:
利用所获取的模板从经预处理后的评论信息中构建第一候选单元,该第一候选单元是评论语句中与模板匹配上的中间片断;
统计与每一个第一候选单元匹配的不同模板的个数;
构建第一候选列表,在该第一候选列表中存储每一个第一候选单元的开头词作为关键词,并在之后存储该第一候选单元中在该开头词后的其他词,及开头词和其他词一起出现在评论语句中的出现次数;以及
参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单元进行过滤,将过滤后的第一候选单元输出作为所述商品属性信息。
附记15.根据附记14所述的设备,其中,所述商品属性信息提取器对第一候选单元执行下述过滤处理:
根据预先设定的第一过滤规则,对第一候选单元执行基于规则的过滤;
参照所构建的第一候选列表对第一候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及
对第一候选单元进行阈值过滤,将出现次数满足预定第一阈值条件的第一候选单元确定为所述商品属性信息。
附记16.根据附记10至15中任何一项所述的设备,其中,所述高频商品属性信息提取单元进一步包括:
候选单元构建装置,用于基于对评论信息进行预处理而得到的评论语句中的词和词性向量,构建一元词、二元词、三元词作为商品属性信息的第二候选单元;
统计装置,用于统计所构建的第二候选单元在评论信息中出现的次数;
候选列表构建装置,用于构建第二候选列表,在该第二候选列表中存储每一个第二候选单元的开头词作为关键词,并在之后存储该第二候选单元中在该开头词后的其他词及其在评论语句中的出现次数;
基于规则的过滤装置,用于根据预先设定的第二过滤规则,对第二候选单元执行基于规则的过滤;
剪枝过滤装置,用于参照所构建的第二候选列表对第二候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及
阈值过滤装置,用于对第二候选单元进行阈值过滤,将出现次数满足第二预定阈值条件的第二候选单元确定为高频商品属性信息。
附记17.根据附记10至16中任何一项所述的设备,其中,所述过滤单元根据预先设定的词汇长度阈值条件,从所提取出的高频商品属性信息和补充商品属性信息中将词长不满足词汇长度阈值条件的商品属性信息滤掉,并输出过滤后的商品属性信息。
附记18.根据附记10至17中任何一项所述的设备,其中,所述设备进一步包括:
用于从外部设备接收从网上收集到的评论信息的评论信息接收单元;或者
用于从网络上收集评论信息的评论信息收集单元,
其中,所述评论信息是采用面向互联网的网络爬虫的方式或者采用指定数据来源的方式定期地自动从网络上收集的。
附记19.一种计算机程序代码,用于在计算设备上被执行时使计算设备执行根据附记1至9中任何一项所述的方法的处理。
附记20.一种其上存储有计算机程序代码的计算机可读存储介质,所述计算机程序代码在计算设备上被执行时,用于使计算设备执行根据附记1至9中任何一项所述的方法的处理。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此,所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。
Claims (10)
1.一种用于从包括评论语句的评论信息中提取商品属性信息的方法,包括如下步骤:
a)对评论信息执行包括分句、分词、词性标注在内的预处理;
b)从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;
c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及
d)根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
2.一种用于从包括评论语句的评论信息中提取商品属性信息的设备,包括:
预处理单元,用于对评论信息执行包括分句、分词、词性标注在内的预处理;
高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;
补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及
过滤单元,用于根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
3.根据权利要求2所述的设备,其中,所述补充商品属性信息提取单元进一步包括:
模板获取器,用于基于所提取出的高频商品属性信息,从经预处理后的评论信息中提取高频商品属性信息的上下文信息,由此获取模板;以及
商品属性信息提取器,用于利用所获取的模板从经预处理后的评论信息中提取商品属性信息,并将其输出作为补充商品属性信息。
4.根据权利要求3所述的设备,其中,所述模板获取器通过下述方式获取模板:
基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取每一个高频商品属性信息的上下文信息,从而构成一个候选模板;
用每一个候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选模板在所有评论语句中被匹配上的频度;以及
基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的候选模板,并将其输出作为从评论信息中获取的模板。
5.根据权利要求4所述的设备,其中,在所述补充商品属性信息提取单元确定要循环执行基于模板的商品属性信息提取的情况下,模板获取器基于所获取的补充商品属性信息从评论信息中重新获取模板,而且商品属性信息提取器基于新获取的模板执行商品属性信息提取,并重复这个过程,直到满足循环结束条件为止。
6.根据权利要求3至5中任意一项所述的设备,其中,所述商品属性信息提取器通过以下方式利用所获取的模板从经预处理后的评论信息中提取商品属性信息:
利用所获取的模板从经预处理后的评论信息中构建第一候选单元,该第一候选单元是评论语句中与模板匹配上的中间片断;
统计与每一个第一候选单元匹配的不同模板的个数;
构建第一候选列表,在该第一候选列表中存储每一个第一候选单元的开头词作为关键词,并在之后存储该第一候选单元中在该开头词后的其他词,及开头词和其他词一起出现在评论语句中的出现次数;以及
参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单元进行过滤,将过滤后的第一候选单元输出作为所述商品属性信息。
7.根据权利要求6所述的设备,其中,所述商品属性信息提取器对第一候选单元执行下述过滤处理:
根据预先设定的第一过滤规则,对第一候选单元执行基于规则的过滤;
参照所构建的第一候选列表对第一候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及
对第一候选单元进行阈值过滤,将出现次数满足预定第一阈值条件的第一候选单元确定为所述商品属性信息。
8.根据权利要求2至7中任何一项所述的设备,其中,所述高频商品属性信息提取单元进一步包括:
候选单元构建装置,用于基于对评论信息进行预处理而得到的评论语句中的词和词性向量,构建一元词、二元词、三元词作为商品属性信息的第二候选单元;
统计装置,用于统计所构建的第二候选单元在评论信息中出现的次数;
候选列表构建装置,用于构建第二候选列表,在该第二候选列表中存储每一个第二候选单元的开头词作为关键词,并在之后存储该第二候选单元中在该开头词后的其他词及其在评论语句中的出现次数;
基于规则的过滤装置,用于根据预先设定的第二过滤规则,对第二候选单元执行基于规则的过滤;
剪枝过滤装置,用于参照所构建的第二候选列表对第二候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及
阈值过滤装置,用于对第二候选单元进行阈值过滤,将出现次数满足第二预定阈值条件的第二候选单元确定为高频商品属性信息。
9.根据权利要求2至8中任何一项所述的设备,其中,所述过滤单元根据预先设定的词汇长度阈值条件,从所提取出的高频商品属性信息和补充商品属性信息中将词长不满足词汇长度阈值条件的商品属性信息滤掉,并输出过滤后的商品属性信息。
10.根据权利要求2至9中任何一项所述的设备,其中,所述设备进一步包括:
用于从外部设备接收从网上收集到的评论信息的评论信息接收单元;或者
用于从网络上收集评论信息的评论信息收集单元,
其中,所述评论信息是采用面向互联网的网络爬虫的方式或者采用指定数据来源的方式定期地自动从网络上收集的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910164414.7A CN101968788B (zh) | 2009-07-27 | 2009-07-27 | 提取商品属性信息的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910164414.7A CN101968788B (zh) | 2009-07-27 | 2009-07-27 | 提取商品属性信息的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101968788A true CN101968788A (zh) | 2011-02-09 |
CN101968788B CN101968788B (zh) | 2016-08-17 |
Family
ID=43547947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910164414.7A Expired - Fee Related CN101968788B (zh) | 2009-07-27 | 2009-07-27 | 提取商品属性信息的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101968788B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500181A (zh) * | 2013-09-11 | 2014-01-08 | 刘春梅 | 一种互联网信息分析方法和装置 |
CN103530376A (zh) * | 2013-10-15 | 2014-01-22 | 北京百度网讯科技有限公司 | 筛选条件提供方法、装置和搜索方法、装置 |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN103886053A (zh) * | 2014-03-13 | 2014-06-25 | 电子科技大学 | 一种基于短文本评论的知识库构建方法 |
WO2014207753A1 (en) * | 2013-06-27 | 2014-12-31 | Hewlett-Packard Development Company, L.P. | Assessing value of brand based on online content |
CN104298754A (zh) * | 2014-10-17 | 2015-01-21 | 梁忠伟 | 以图片序列为主干的信息挖掘传递方法、社交网络装置和系统 |
CN104715049A (zh) * | 2015-03-26 | 2015-06-17 | 无锡中科泛在信息技术研发中心有限公司 | 基于本体词库的商品评论属性词抽取方法 |
CN105005917A (zh) * | 2015-07-07 | 2015-10-28 | 上海晶赞科技发展有限公司 | 一种通用的关联不同电商网站单品的方法 |
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
CN105488105A (zh) * | 2015-11-19 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 信息提取模板的建立方法、知识数据的处理方法和装置 |
CN105868091A (zh) * | 2016-03-22 | 2016-08-17 | 联想(北京)有限公司 | 管理方法和管理装置 |
CN106021433A (zh) * | 2016-05-16 | 2016-10-12 | 北京百分点信息科技有限公司 | 一种商品评论数据的口碑分析方法和装置 |
CN109710841A (zh) * | 2018-12-17 | 2019-05-03 | 北京百度网讯科技有限公司 | 评论推荐方法和装置 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
CN113761882A (zh) * | 2020-06-08 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种词典构建方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862343B (zh) * | 2017-11-28 | 2021-07-13 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315631A (zh) * | 2008-06-25 | 2008-12-03 | 中国人民解放军国防科学技术大学 | 一种新闻视频故事单元关联方法 |
CN101448026A (zh) * | 2008-12-16 | 2009-06-03 | 中国科学技术大学 | 网格市场中基于信任过滤的计算节点选择方法 |
-
2009
- 2009-07-27 CN CN200910164414.7A patent/CN101968788B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315631A (zh) * | 2008-06-25 | 2008-12-03 | 中国人民解放军国防科学技术大学 | 一种新闻视频故事单元关联方法 |
CN101448026A (zh) * | 2008-12-16 | 2009-06-03 | 中国科学技术大学 | 网格市场中基于信任过滤的计算节点选择方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014207753A1 (en) * | 2013-06-27 | 2014-12-31 | Hewlett-Packard Development Company, L.P. | Assessing value of brand based on online content |
CN103500181A (zh) * | 2013-09-11 | 2014-01-08 | 刘春梅 | 一种互联网信息分析方法和装置 |
CN103500181B (zh) * | 2013-09-11 | 2017-05-24 | 刘春梅 | 一种互联网信息分析方法和装置 |
WO2015055094A1 (zh) * | 2013-10-15 | 2015-04-23 | 北京百度网讯科技有限公司 | 筛选条件提供方法、装置和搜索方法、装置 |
CN103530376A (zh) * | 2013-10-15 | 2014-01-22 | 北京百度网讯科技有限公司 | 筛选条件提供方法、装置和搜索方法、装置 |
CN103530376B (zh) * | 2013-10-15 | 2016-03-16 | 北京百度网讯科技有限公司 | 筛选条件提供方法、装置和搜索方法、装置 |
CN103678564B (zh) * | 2013-12-09 | 2017-02-15 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN103886053A (zh) * | 2014-03-13 | 2014-06-25 | 电子科技大学 | 一种基于短文本评论的知识库构建方法 |
CN105095288B (zh) * | 2014-05-14 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
CN104298754A (zh) * | 2014-10-17 | 2015-01-21 | 梁忠伟 | 以图片序列为主干的信息挖掘传递方法、社交网络装置和系统 |
CN104298754B (zh) * | 2014-10-17 | 2017-08-25 | 梁忠伟 | 以图片序列为主干的信息挖掘传递方法、社交网络装置和系统 |
CN104715049A (zh) * | 2015-03-26 | 2015-06-17 | 无锡中科泛在信息技术研发中心有限公司 | 基于本体词库的商品评论属性词抽取方法 |
CN104715049B (zh) * | 2015-03-26 | 2017-11-28 | 无锡中科泛在信息技术研发中心有限公司 | 基于本体词库的商品评论属性词抽取方法 |
CN105005917A (zh) * | 2015-07-07 | 2015-10-28 | 上海晶赞科技发展有限公司 | 一种通用的关联不同电商网站单品的方法 |
CN105488105A (zh) * | 2015-11-19 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 信息提取模板的建立方法、知识数据的处理方法和装置 |
CN105488105B (zh) * | 2015-11-19 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 信息提取模板的建立方法、知识数据的处理方法和装置 |
CN105868091A (zh) * | 2016-03-22 | 2016-08-17 | 联想(北京)有限公司 | 管理方法和管理装置 |
CN105868091B (zh) * | 2016-03-22 | 2019-05-31 | 联想(北京)有限公司 | 管理方法和管理装置 |
CN106021433B (zh) * | 2016-05-16 | 2019-05-10 | 北京百分点信息科技有限公司 | 一种商品评论数据的口碑分析方法和装置 |
CN106021433A (zh) * | 2016-05-16 | 2016-10-12 | 北京百分点信息科技有限公司 | 一种商品评论数据的口碑分析方法和装置 |
CN109710841A (zh) * | 2018-12-17 | 2019-05-03 | 北京百度网讯科技有限公司 | 评论推荐方法和装置 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
CN113761882A (zh) * | 2020-06-08 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种词典构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101968788B (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101968788A (zh) | 提取商品属性信息的方法和设备 | |
CN103123624B (zh) | 确定中心词的方法及装置、搜索方法及装置 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN101419614A (zh) | 视频资源聚类方法和装置 | |
CN106874314A (zh) | 信息推荐的方法和装置 | |
CN110413787A (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN111767796A (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
CN110738033B (zh) | 报告模板生成方法、装置及存储介质 | |
CN109117477B (zh) | 面向中文领域的非分类关系抽取方法、装置、设备及介质 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN112825089B (zh) | 文章推荐方法、装置、设备及存储介质 | |
CN105488206A (zh) | 一种基于众包的安卓应用演化推荐方法 | |
CN104462061A (zh) | 词语提取方法及提取装置 | |
Khemani et al. | A review on reddit news headlines with nltk tool | |
CN111291547B (zh) | 模板生成方法、装置、设备及介质 | |
CN116245102B (zh) | 一种基于多头注意力和图神经网络的多模态情感识别方法 | |
CN102103604B (zh) | 检索词核心权重确定方法和装置 | |
CN104991920A (zh) | 标签的生成方法及装置 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN113962210A (zh) | 基于nlp技术的报告智能编制方法 | |
CN114490929A (zh) | 一种招投标信息采集方法、装置、存储介质及终端设备 | |
CN102073653A (zh) | 信息抽取方法和装置 | |
CN110019726B (zh) | 图书书评的生成方法及装置、计算机设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160817 Termination date: 20180727 |
|
CF01 | Termination of patent right due to non-payment of annual fee |