CN103123633A - 评价参数的生成方法以及基于评价参数的信息搜索方法 - Google Patents

评价参数的生成方法以及基于评价参数的信息搜索方法 Download PDF

Info

Publication number
CN103123633A
CN103123633A CN2011103718706A CN201110371870A CN103123633A CN 103123633 A CN103123633 A CN 103123633A CN 2011103718706 A CN2011103718706 A CN 2011103718706A CN 201110371870 A CN201110371870 A CN 201110371870A CN 103123633 A CN103123633 A CN 103123633A
Authority
CN
China
Prior art keywords
evaluating
evaluation information
information
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103718706A
Other languages
English (en)
Inventor
杭鼎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2011103718706A priority Critical patent/CN103123633A/zh
Publication of CN103123633A publication Critical patent/CN103123633A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种评价参数的生成方法,一种评价参数的生成系统,一种基于评价参数的信息搜索方法,以及,一种基于评价参数的信息搜索系统,其中,所述评价参数的生成方法,包括:接收用户输入的评价信息;对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;若为主观性文本,则根据所述评价信息生成评价参数。本申请可以客观、真实地反映评价信息,提高卖家监管的有效性,提升买家的使用体验,并减轻访问服务器的负担,减少网络资源的占用。

Description

评价参数的生成方法以及基于评价参数的信息搜索方法
技术领域
本申请涉及文本分析的技术领域,特别是涉及一种评价参数的生成方法,一种评价参数的生成系统,一种基于评价参数的信息搜索方法,以及,一种基于评价参数的信息搜索系统。
背景技术
在交易平台,尤其是C2C、B2C模式的电子商务网站中,为有利地监管卖家的商业行为,通常会设置评价系统,由买家基于该评价系统针对每次的交易行为给卖家进行手动评价。例如,当买家与卖家完成一笔交易后,买家按照评价系统提供的“好评”、“中评”与“差评”的参数选项,选择其中一个评价参数,并给出相应的说明。或如,买家按照电子商务网站中设置的评价参数选项,比如,商品质量、卖家服务态度、物流速度等,选择其相应级别进行打分,根据分数对应到关联的评价参数,并给出相应说明。
这种现有的由买家进行手动评价的方式目前产生出诸多弊端,比如,某些买家在卖家的胁迫下给出好评的评价参数,但在说明栏内给出商品质量恶劣,服务态度差,物流慢的说明信息,这些与事实不符的评价参数,还将进一步影响到搜索结果的准确性,例如,一些不好的商品信息不会受到说明栏中说明信息的影响,也会基于其所获得的好评的评价参数,与真实的好评的商品信息一同排在搜索结果的前列,导致用户需要时间和精力去分辨,甚至需要重新搜索等,这不但加重了访问服务器的负担,而且浪费了网络资源。而且,随着电子商务的普及,买家仅仅按照预设的评价参数选项对交易进行评价显然无法满足用户的需求。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种评价参数的生成机制,用以客观、真实地反映评价信息,提高卖家监管的有效性,提升买家的使用体验,并减轻访问服务器的负担,减少网络资源的占用。
发明内容
本申请的目的是提供一种评价参数的生成方法和系统,用以客观、真实地反映评价信息,提高卖家监管的有效性,提升买家的使用体验。
本申请的又一目的是提供一种基于评价参数的信息搜索方法和系统,用以减轻访问服务器的负担,减少网络资源的占用。
为了解决上述问题,本申请公开了一种评价参数的生成方法,包括:
接收用户输入的评价信息;
对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
若为主观性文本,则根据所述评价信息生成评价参数。
优选的,所述的方法,还包括:
若所述评价信息为客观性文本,则过滤所述评价信息;
或者,针对所述评价信息添加客观性文本的标记信息。
优选的,所述对评价信息进行文本分析,判断所述评价信息是否为主观性文本的步骤包括:
采用第一分类器训练生成主客观文本分类库文件;
对所述评价信息进行分词;
对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
优选的,所述采用第一分类器训练生成主客观文本分类库文件的子步骤包括:
采集主观性文本语料和客观性文本语料;
针对所述主观性文本语料和客观性文本语料进行批量分词;
对分词后的每个词进行词性标注;
根据所述词性标注的结果统计词性搭配特征,并从所述词性搭配特征中选取预设数量的分类用的词性搭配特征;
采用所述分类用的词性搭配特征,对主观性文本语料和客观性文本语料分别计算特征向量,生成主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合;
采用第一分类器对所述主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合进行学习训练,获得主客观文本分类库文件。
优选的,所述对评价信息进行文本分析,判断所述评价信息是否为主观性文本的步骤,还包括:
根据所述评价信息的词性搭配特征判断当前评价信息是否具有预设的主观性文本特征,若是,则直接判定当前评价信息为主观性文本。
优选的,所述词性搭配特征为二元词性搭配特征,所述根据评价信息的词性搭配特征统计该评价信息的第一特征向量的子步骤包括:
将所述评价信息的词性搭配特征与分类用的二元词性搭配特征进行匹配,根据匹配结果组织当前评价信息的特征向量字符串或特征向量表。
优选的,所述根据评价信息生成评价参数的步骤包括:
采用第二分类器训练生成评价参数分类库文件;
获取所述评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的第二特征向量;
由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数。
优选的,所述评价参数包括好评、中评及差评,所述采用第二分类器训练生成评价参数分类库文件的子步骤包括:
采集好评词及差评词语料,统计出好评词表、好评词搭配表,以及,差评词表、差评词搭配表;
分别计算所述好评词表、好评词搭配表,以及,差评词表、差评词搭配表中各字、各词和/或各词搭配的特征向量,生成评价词语料的特征向量集合;
采用第二分类器对所述评价词语料的特征向量集合进行学习训练,获得评价参数分类库文件。
优选的,所述由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数的子步骤包括:
由第二分类器根据所述第二特征向量和评价参数分类库文件计算分值;
若所述分值大于第一阈值,则确定当前评价参数为好评;
若所述分值小于第二阈值,则确定当前评价参数为差评;
若所述分值在所述第一阈值与第二阈值之间,则确定当前评价参数为中评。
本申请实施例还公开了一种基于评价参数的信息搜索方法,包括:
接收搜索请求;
根据搜索请求和评价参数,返回搜索结果;
其中,所述评价参数通过以下子步骤生成:
获取评价信息;
对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
若为主观性文本,则根据所述评价信息生成评价参数。
优选的,所述对评价信息进行文本分析,判断所述评价信息是否为主观性文本的子步骤,进一步包括:
采用第一分类器训练生成主客观文本分类库文件;
对所述评价信息进行分词;
对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
优选的,所述采用第一分类器训练生成主客观文本分类库文件的子步骤包括:
采集主观性文本语料和客观性文本语料;
针对所述主观性文本语料和客观性文本语料进行批量分词;
对分词后的每个词进行词性标注;
根据所述词性标注的结果统计词性搭配特征,并从所述词性搭配特征中选取预设数量的分类用的词性搭配特征;
采用所述分类用的词性搭配特征,对主观性文本语料和客观性文本语料分别计算特征向量,生成主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合;
采用第一分类器对所述主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合进行学习训练,获得主客观文本分类库文件。
优选的,所述根据评价信息生成评价参数的子步骤包括:
采用第二分类器训练生成评价参数分类库文件;
获取所述评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的第二特征向量;
由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数。
优选的,所述评价参数包括好评、中评及差评,所述采用第二分类器训练生成评价参数分类库文件的子步骤包括:
采集好评词及差评词语料,统计出好评词表、好评词搭配表,以及,差评词表、差评词搭配表;
分别计算所述好评词表、好评词搭配表,以及,差评词表、差评词搭配表中各字、各词和/或各词搭配的特征向量,生成评价词语料的特征向量集合;
采用第二分类器对所述评价词语料的特征向量集合进行学习训练,获得评价参数分类库文件。
优选的,所述搜索请求中包括搜索条件,所述根据搜索请求和评价参数,返回搜索结果的步骤包括:
根据所述搜索条件在预置的数据库查找匹配的信息,所述各信息具有对应的评价参数;
根据所述评价参数对所查找到的信息进行筛选和/或排序处理;
将经过所述处理后的信息作为搜索结果进行返回。
本申请实施例还公开了一种评价参数的生成系统,包括:
接收模块,用于接收用户输入的评价信息;
文本分析模块,用于对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
评价参数生成模块,用于在所述评价信息为主观性文本时,根据所述评价信息生成评价参数。
本申请实施例还公开了一种基于评价参数的信息搜索系统,包括:
请求接收模块,用于接收搜索请求;
搜索结果返回模块,用于根据搜索请求和评价参数,返回搜索结果;
其中,所述评价参数通过以下子步骤生成:
获取评价信息;
对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
若为主观性文本,则根据所述评价信息生成评价参数。
优选的,所述搜索请求中包括搜索条件,所述搜索结果返回模块包括:
查找匹配子模块,用于根据所述搜索条件在预置的数据库查找匹配的信息,所述各信息具有对应的评价参数;
信息处理子模块,用于根据所述评价参数对所查找到的信息进行筛选和/或排序处理;
信息返回子模块,用于将经过所述处理后的信息作为搜索结果进行返回。
与现有技术相比,本申请包括以下优点:
现有技术是由用户提交评价信息,然后手动选择评价参数,评价信息与评价参数之间并无直接关联,而本申请实施例采用基于词性搭配特征对用户评价信息进行主观性文本与客观性文本地分析,并针对主观性文本基于词搭配特征进行评价参数确定的方案,无需用户手动选择评价参数,将直接根据用户提交的评价信息生成评价参数,从而更能客观、真实地反映评价信息,提高卖家监管的有效性,并提升买家的使用体验。
采用本申请实施例获得的这种客观、真实的评价参数在作用于商品信息时,能保证在交易平台中的用户获得更为准确的商品信息搜索结果,例如,一些好的评价参数,会使商品信息排在搜索结果的前列,一些不好的评价参数,会使该商品信息排在搜索结果的后面,使用户简单搜索即可获得想要的结果,无需多次提交搜索,也无需仔细辨认其真实评价信息,从而减轻了访问服务器的负担,减少了网络资源的占用,并提升了用户体验。
附图说明
图1是本申请一种评价参数的生成方法实施例的步骤流程图;
图2是本申请一种评价参数的生成系统实施例的结构框图;
图3是本申请一种基于评价参数的信息搜索方法实施例的步骤流程图;
图4是本申请一种基于评价参数的信息搜索系统实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的核心构思在于,基于词性搭配特征对用户评价信息进行主观性文本与客观性文本地分析,并针对主观性文本基于词搭配特征进行评价参数确定。
近年来,文本情感分析、情感计算的研究特别活跃。这类研究的主要特点是对基于断言、评论、推理一类的文本进行处理,此类文本内容包含有个人、群体、组织等的意见、情感和态度等。例如,在意见挖掘中,所处理的文本类型就是主观性文本。因此如何将主观性文本与客观性文本分离开来就是一个非常基础而有意义的工作。
简单来讲,主观性文本是指夹杂着个人情感、带有感情色彩的文本:如:我觉得他是一个好老师。
客观性文本是指描述本来就存在的、客观的、事实的不带有任何个人情感的句子。如:这个板凳高1米。
对于主客观性文本文件级的分类问题,国内外已经进行过大量的研究并取得了许多成果。而对于主客观性文本句子级的文本分类,特别是针对汉语的主客观性文本的分类研究则起步相对较晚。因此,加强对汉语句子级文本主客观性的分类研究,使之成果与文件级文本主客观性分类研究成果相适应,具有十分重要的意义。
一种做法是提出了预选的主观性文本特征,它们可能是情感形容词、第一或第二人称代词、不规范的标点符号、带有情感色彩的标点符号、感叹词、发表看法或意见的动词和不精确的数字和日期。他们使用Weka工具对预选特征及实验数据进行训练、测试和评价,最后运用分类算法进行分类。
现有的主客观性文本分类的缺点是需要基于预选的主观性文本特征,这些特征需要人工定义,若有新的特征词出来的话需要人工干预,并且中文语句的一词多义现象导致该方法不太灵活。
本申请主要是基于词性搭配进行主客观性文本分类,这些词性搭配是从海量主客观语料库中学习得到的。比如说“副词+形容词”在主观句中大量出现,而在客观语料中很少有,这一点从语料库中可以学习到。词性搭配是脱离新词的,所以本方案有自适应性。
参照图1,其示出了本申请一种评价参数的生成方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、接收用户输入的评价信息;
评价信息是消费者在购买或使用商品以后(用户)对所购商品的性能、使用价值、优点、缺点、服务问题等方面根据自己的真实感受所发表的意见。
在本申请实施例中,所述评价信息即指在电子商务平台进行交易的用户,针对交易输入的对所购商品的性能、使用价值、优点、缺点、服务问题等方面的描述信息。
步骤102、对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
本步骤涉及主客观文本分类的问题,在本申请实施例中,采用词性搭配特征来判断评价信息为主观性文本或为客观性文本。
具体而言,在本申请的一种优选实施例中,所述步骤102具体可以包括如下训练部分和预测部分两部分处理:
一、训练部分:
本部分的目的是采用第一分类器训练生成主客观文本分类库文件,具体而言,可以通过以下子步骤S21-S26完成:
子步骤S21、采集主观性文本语料和客观性文本语料;
简而言之,所述主观性文本语料即指主观性文本句的集合,所述客观性文本语料即指客观性文本句的集合。
语料的采集方式可以由人工收集,也可由机器收集。例如,收集某大型电子商务网站中,带有主观感情色彩的、买家的评论性语句信息,经过人工筛选,总共挑选2280句作为主观性文本句子级的语料。人工删选的过程可以为,假设有n个人共同标注了这些句子,若n个人标注对于每一句的结果相同,则确定该句子的标注结果,否则就舍弃这个句子。
对于客观性文本句子级语料的采集,可以选用知识型网站的内容,如对物品的介绍性语句,通常不带有个人感情色彩的。同样经过人工删选,挑选1690句作为客观性文本句子级语料。
当然,上述语料的采集方式及数量仅仅用作示例,本申请对此不作限制。
子步骤S22、针对所述主观性文本语料和客观性文本语料进行批量分词;
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。
下面介绍一些常用的分词方法:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
在具体实现中,可以采用一些分词工具,如采用Stanford的Chinese-Segmenter进行所述语料的批量分词处理,本申请对所述分词的方式不作限制。
子步骤S23、对分词后的每个词进行词性标注;
所谓词性标注(Part of Speech tagging)就是根据句子上下文中的信息给句中的每个词一个正确的词性标记,即确定每个词的词性是名词、动词、形容词或者是其他词性。
词性标注是自然语言处理领域的基础,可以提高信息检索的效果和效率,它在信息检索领域有着非常重要的作用。国内外该方面研究人员很重视它,成功设计出很多词性标注模型。归纳起来,比较典型的标注算法有:
1、基于规则的方法:
基于规则的标注系统与系统设计者的语言能力有关,规则集直接体现了设计者的语言能力。最初的词性标注系统就是采用了这种方法,如著名的TAGGIT系统。
2、基于统计的方法:
统计方法在词性标注中占据了领导地位,是目前最常使用的一种方法。对于给定的输入词串,基于统计的方法先确定其所有可能的词性串,然后对它们分别打分,并选出得分最高的词性串作为最佳的输出。常见的方法有基于N元模型的方法和基于隐马尔科夫模型的方法。其中,隐马尔科夫模型结合Viterbi算法的词性标注方法最为常见与成熟。近年来,决策树、最大熵模型和条件随机域等方法也被用在词性标注上,并取得了不错的效果。
3、规则与统计相结合的方法:
这种方法结合规则和统计两种方法的优势,弥补对方的缺点,能够有效地进行词性标注。国内北京大学计算语言学研究所提出了一种先规刚、后统计的规则和统计相结合的标注算法,其准确率达到了96.6%。
4、基于统计方法的词性标注工具SVMTool:
SVMTool是建立在支持向量机原理上的序列标注工具,它使用待标注语言的特征。本文加入了中文词语的特征,即构成汉字的部首特征和词重叠特征,应用它们提高未登录词的词性标注准确率。SVMTool是基于SVMc8原理的简单的、灵活的、高效的序列标注工具,每秒标注上千词,非常适合于自然语言处理中的序列标注问题。SVMTool在训练模型时根据丰富的特征集提取训练语料的信息,应用SVM原理来训练分类器。SVMTool在训练模型时不仅生成了已登录词的标注模型,还会根据给定的比率选出部分词作为未登录词,应用这些词生成未登录词的词性标注模型,用于标注未登录词,由此可以提高未登录词的标注准确率。SVMTool标注时对文件进行按句处理,根据每一个待标注词的分类(是否为已登录词),选择训练好的模型(针对已登录词和未登录词的)。然后根据选择的模式(贪心模式或句子模式)进行按词标注。贪心模式是按词进行标记的,每个词选取一个概率最大的标记,标记好的词可以为其他词提供上下文环境。句子模式对词进行标记,并进行概率和相加,然后针对整个句子选择一个概率最大的标注序列。SVMTool应用SVM原理主要是利用待标注语言的特征,特征提取的好坏直接影响词性标注的准确率,特征收集的越好越贴切则准确率会越高。
在具体实现中,可以采用一些词性标注工具,如Stanford的Postagger对上一步分完词的句子进行词性标注,本申请对所述词性标注的方式不作限制。
子步骤S24、根据所述词性标注的结果统计词性搭配特征,并从所述词性搭配特征中选取预设数量的分类用的词性搭配特征;
本申请发明人通过实验做过一个统计:主观性文本的句子和客观性文本的句子中含有的词性的种类和比例几乎相同。这个统计结果形成的原因在于,单独的词性并不是区分句子类型的标志,同样是副词,主观性文本的句子可以有,客观性文本的句子也可以有。所以,单独的词性不能用来作为分类的特征。因而,在本申请实施例中,对主观性文本和客观性文本分类所使用的特征是词性搭配的特征。
针对词性搭配的情况,本申请发明人还分别取了主观性文本和客观性文本的二元词性搭配和三元词性搭配,用支持向量机(SVM)分类器做了测试,其测试结果表示,二元词性搭配的综合准确率见表要高于三元词性搭配的综合准确率,因此,对于本申请实施例而言,优选的是,采用二元词性搭配作为分类器的分类特征,其中的“二元”特指两两相邻关系的统计。需要说明的是,二元词性搭配不仅基于字,也可以基于词,或者字和词之间。
对于统计出来的二元搭配特征,可以先进行优化。例如,去除两者比例都很高且不能起分类作用的共有特征。例如,NN-NN组合,名词和名词搭配,由于既在主观性文本的句子中大量存在,又在客观性文本的句子中大量存在,不是一个很好的分类特征。
或如,去除一些干扰项。例如,设某二元词性搭配特征在所有主观性文本句子特征中占的比例为f1,在所有客观性文本句子特征中占的比例为f2,定义阙值q,如果1/q<f1/f2<q,则过滤该特征。
当然,上述优化的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种方式对词性搭配特征进行优化均是可行的,本申请对此无需加以限制。
经过优化后,针对主观性文本句和客观性文本句可以分别选择若干个作为分类的词性搭配特征。例如,采用支持向量机分类器做实验,对于主观性文本句和客观性文本句的二元词性搭配特征从20-65做了实验,得出当在主观性文本句和客观性文本句的二元词性搭配特征中各取55个时,综合准确率相对较高。
子步骤S25、采用所述分类用的词性搭配特征,对主观性文本语料和客观性文本语料分别计算特征向量,生成主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合;
在实际中,对主观性文本语料和/或客观性文本语料中的每个句子,根据分类特征生成相应的特征向量表。例如,假设每一向量有110个元素,分别对应55个主观性文本的词性搭配特征和55个客观性文本的词性搭配特征。某个句子中出现了某个词性搭配特征就标1,没有就标0,最后一个句子语料的向量形成110个1和0组成的字符串,即特征向量表。
作为本申请实施例具体应用的示例,可以采用分类器向量生成工具根据所述分类用的词性搭配特征,生成基于SVM的特征向量集合,和/或,基于最大熵模型的特征向量集合。当然,上述生成特征向量的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种特征向量的生成方法均是可行的,本申请对此无需加以限制。
子步骤S26、采用第一分类器对所述主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合进行学习训练,获得主客观文本分类库文件。
分类器是一种机器学习程序,其设计目标是在通过学习后,可自动将数据分到已知类别。对于分类器,其实质为数学模型。针对模型的不同,目前有多种分支,包括:Bayes(贝叶斯)网络分类器,决策树算法,SVM(支持向量机)算法等。本领域技术人员根据实际情况任意选用一种分类器进行学习训练均可,本申请对此不作限制。
二、预测部分:
本部分的目的是采用第一分类器判断评价信息为主观性文本或为客观性文本,具体而言,可以通过以下子步骤S31-S34完成:
子步骤S31、对所述评价信息进行分词;
子步骤S32、对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
关于所述分词、词性标注,以及,获取词性搭配特征的方法可以参考前述相关部分,本申请在此不再赘述。
子步骤S33、根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
在本申请实施例中优选的是,所述词性搭配特征可以为二元词性搭配特征。
本步骤具体可以为,将所述评价信息的词性搭配特征与分类用的二元词性搭配特征进行匹配,根据匹配结果组织当前评价信息的特征向量字符串或特征向量表。
子步骤S34、由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
例如,假设当前评价信息为:我觉得这件衣服不错。首先对所述评价信息进行分词,分词的结果为:我觉得这件衣服不错;然后对每个词进行词性标注,获取所述评价信息的词性搭配特征;然后根据词性搭配特征提取特征向量,例如,参照预先选取的55个主观性文本的词性搭配特征和55个客观性文本的词性搭配特征,对当前评价信息进行分析,若评价信息中出现了某个词性搭配特征就标1,没有出现上述词性搭配特征就标0,最终形成110个1和0组成的字符串,即当前评价信息的第一特征向量。把该第一特征向量输入给第一分类器,由该第一分类器根据其内部的分类判断机制,根据所述评价信息的第一特征向量以及主客观文本分类库文件,获得当前评价信息为主观性文本或为客观性文本的分类结果。
作为本申请的另一种优选实施例,所述预测部分还可以通过以下子步骤S41-S45完成:
子步骤S41、对所述评价信息进行分词;
子步骤S42、对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
子步骤S43、根据所述评价信息的词性搭配特征判断当前评价信息是否具有预设的主观性文本特征,若是,则执行子步骤S44,否则,执行子步骤S45;
子步骤S44、直接判定当前评价信息为主观性文本;
子步骤S45、根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
子步骤S46、由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
本实施例增加了针对评价信息的词性搭配特征的预先判定的处理,即在由第一分类器进行判断前,先将当前评价信息的词性搭配特征,与一些预设的主观性文本特征进行对比,所述预设的主观性文本特征主要包括一些肯定是主观性文本的固定词性的搭配,如多个连续的感叹号等,若对比后发现可以匹配,则直接将当前评价信息判定为主观性文本,无需执行后续的分类器判断的步骤。
步骤103、若为主观性文本,则根据所述评价信息生成评价参数。
对于电子商务网站而言,分析某条评论是好评还是差评,首先得确定当前所分析的评价信息是主观性文本,如果对客观性文本进行分析无意义。
在本申请的一种优选实施例中,可以通过以下两部分的处理生成评价参数:
(一)学习部分:
本部分的目的是采用第二分类器训练采用第二分类器训练生成评价参数分类库文件,具体而言,可以通过以下子步骤S51-S54完成:
子步骤S51、采集好评词及差评词语料,统计出好评词表、好评词搭配表,以及,差评词表、差评词搭配表;
子步骤S52、分别计算所述好评词表、好评词搭配表,以及,差评词表、差评词搭配表中各字、各词和/或各词搭配的特征向量,生成评价词语料的特征向量集合;
子步骤S52、采用第二分类器对所述评价词语料的特征向量集合进行学习训练,获得评价参数分类库文件。
在本申请实施例中,判断一条评价信息的好、差评性,是从词的搭配来做的,而不是词性的搭配。通过从海量的好评、差评中统计出大量的好评词表以及好评词搭配表,如:不错;很+好;给力;真+牛逼等等,以及,差评词表以及差评词搭配表,如:坑爹;什么+玩意;不+给力等等。优选的是,可以采用二元词搭配作为特征的选取。然后根据各个二元词搭配特征生成特征向量,将这些特征向量输入到第二分类器去学习,生成后续分类用的评价参数分类库文件。
(二)预测部分:
本部分的目的是采用第二分类器判断评价信息所对应的评价参数,具体而言,可以通过以下子步骤S61-S62完成:
子步骤S61、获取所述评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的第二特征向量;
子步骤S62、由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数。
作为本申请实施例具体应用的一种示例,所述评价参数可以包括好评、中评及差评,所述子步骤S62可以进一步包括以下子步骤:
子步骤S62-1、由第二分类器根据所述第二特征向量和评价参数分类库文件计算分值;
子步骤S62-2、若所述分值大于第一阈值,则确定当前评价参数为好评;
子步骤S62-2、若所述分值小于第二阈值,则确定当前评价参数为差评;
子步骤S62-3、若所述分值在所述第一阈值与第二阈值之间,则确定当前评价参数为中评。
在实际中,当第二分类器进行分类后根据分类的结果进行打分,生成当前评价信息的一个分值,将该分值与预设的阈值比较,比如,设置第一阈值为0.7,第二阈值为0.3,若当前评价信息的分值为0.8,则生成“好评”的评价参数;若当前评价信息的分值为0.1,则生成“差评”的评价参数;若当前评价信息的分值为0.5,则生成“中评”的评价参数。
为使本领域技术人员更好地理解本申请,以下通过一个具体示例进行说明。
1)根据海量的语料数据,采用词性搭配特征训练出主客观文本分类库文件,以及,采用词搭配特征训练出评价参数分类库文件;
2)接收用户输入的评价信息,比如“衣服质量很棒”;
3)对所述评价信息进行分词;
4)对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
5)根据所述评价信息的词性搭配特征统计该评价信息的词性搭配特征向量表;
6)第一分类器根据所述评价信息的词性搭配特征向量表,以及,第1)步生成的主客观文本分类库文件,判断当前评价信息为主观性文本;
7)进一步分析该评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的词搭配特征向量;
8)第二分类器根据所述评价信息的词搭配特征向量和评价参数分类库文件,确定当前评价信息的评价参数为好评、中评或差评。
在具体实现中,本申请实施例还可以包括如下步骤:
若所述评价信息为客观性文本,则过滤所述评价信息;
或者,针对所述评价信息添加客观性文本的标记信息。
本申请对所述评价参数的确定方式,以及,对客观性文本的评价信息的处理方式并不加以限制。
需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参考图2,其示出了本申请的一种评价参数的生成系统实施例的结构框图,具体可以包括如下模块:
接收模块201,用于接收用户输入的评价信息;
文本分析模块202,用于对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
评价参数生成模块203,用于在所述评价信息为主观性文本时,根据所述评价信息生成评价参数。
在本申请的一种优选实施例中,所述文本分析模块202可以包括如下子模块:
第一分类器训练子模块,用于采用第一分类器训练生成主客观文本分类库文件;
评价信息分词子模块,用于对所述评价信息进行分词;
第一词性标注子模块,用于对分词后的每个词进行词性标注;
特征获取子模块,用于根据所述词性标注结果获取所述评价信息的词性搭配特征;
第一特征向量统计子模块,用于根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
主客观文本判定子模块,用于由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
在本申请的另一种优选实施例中,所述文本分析模块202还可以包括如下子模块:
预先判断模块,用于根据所述评价信息的词性搭配特征判断当前评价信息是否具有预设的主观性文本特征,若是,则直接判定当前评价信息为主观性文本。
在具体实现中,所述词性搭配特征可以为二元词性搭配特征,所述第一特征向量统计子模块包括:
匹配单元,用于将所述评价信息的词性搭配特征与分类用的二元词性搭配特征进行匹配;
向量组织单元,用于根据匹配结果组织当前评价信息的特征向量字符串或特征向量表。
更为优选的是,所述第一分类器训练子模块可以包括如下单元:
第一语料采集单元,用于采集主观性文本语料和客观性文本语料;
批量分词单元,用于针对所述主观性文本语料和客观性文本语料进行批量分词;
第二词性标注单元,用于对分词后的每个词进行词性标注;
特征选取单元,用于根据所述词性标注的结果统计词性搭配特征,并从所述词性搭配特征中选取预设数量的分类用的词性搭配特征;
向量生成单元,用于采用所述分类用的词性搭配特征,对主观性文本语料和客观性文本语料分别计算特征向量,生成主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合;
第一分类器学习单元,用于采用第一分类器对所述主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合进行学习训练,获得主客观文本分类库文件。
在本申请的一种优选实施例中,所述评价参数生成模块203可以包括以下子模块:
第二分类器训练子模块,用于采用第二分类器训练生成评价参数分类库文件;
第二特征向量统计子模块,用于获取所述评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的第二特征向量;
评价参数判定子模块,用于由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数。
作为本申请实施例具体应用的一种示例,所述评价参数可以包括好评、中评及差评,所述第二分类器训练子模块可以包括如下单元:
第二语料采集单元,用于采集好评词及差评词语料,统计出好评词表、好评词搭配表,以及,差评词表、差评词搭配表;
特征向量集合生成单元,用于分别计算所述好评词表、好评词搭配表,以及,差评词表、差评词搭配表中各字、各词和/或各词搭配的特征向量,生成评价词语料的特征向量集合;
第二分类器学习单元,用于采用第二分类器对所述评价词语料的特征向量集合进行学习训练,获得评价参数分类库文件。
在具体实现中,所述评价参数判定子模块可以包括以下单元:
分值计算单元,用于由第二分类器根据所述第二特征向量和评价参数分类库文件计算分值;
好评判定单元,用于在所述分值大于第一阈值时,确定当前评价参数为好评;
差评判定单元,用于在所述分值小于第二阈值时,确定当前评价参数为差评;
中评判定单元,用于在所述分值在所述第一阈值与第二阈值之间时,确定当前评价参数为中评。
应用本申请实施例,还可以包括以下模块:
评价信息过滤模块,用于在所述评价信息为客观性文本时,过滤所述评价信息;
或者,
客观性文本标记模块,用于在所述评价信息为客观性文本时,针对所述评价信息添加客观性文本的标记信息。
对于本系统实施例而言,由于其与图1所示的方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图3,其示出了本申请的一种基于评价参数的信息搜索方法实施例的步骤流程图,具体可以包括如下步骤:
步骤31、接收搜索请求;
步骤32、根据搜索请求和评价参数,返回搜索结果;其中,所述评价参数通过以下子步骤生成:
子步骤S321、获取评价信息;
子步骤S322、对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
子步骤S323、若为主观性文本,则根据所述评价信息生成评价参数。
在本申请的一种优选实施例中,所述子步骤322可以进一步包括如下子步骤:
子步骤322-1、采用第一分类器训练生成主客观文本分类库文件;
子步骤322-2、对所述评价信息进行分词;
子步骤322-3、对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
子步骤322-4、根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
在具体实现中,所述词性搭配特征可以为二元词性搭配特征,本子步骤可以为:
将所述评价信息的词性搭配特征与分类用的二元词性搭配特征进行匹配,根据匹配结果组织当前评价信息的特征向量字符串或特征向量表。
子步骤322-5、由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
更为优选的是,所述子步骤322-1可以进一步包括如下子步骤:
子步骤322-1-1、采集主观性文本语料和客观性文本语料;
子步骤322-1-2、针对所述主观性文本语料和客观性文本语料进行批量分词;
子步骤322-1-3、对分词后的每个词进行词性标注;
子步骤322-1-4、根据所述词性标注的结果统计词性搭配特征,并从所述词性搭配特征中选取预设数量的分类用的词性搭配特征;
子步骤322-1-5、采用所述分类用的词性搭配特征,对主观性文本语料和客观性文本语料分别计算特征向量,生成主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合;
子步骤322-1-6、采用第一分类器对所述主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合进行学习训练,获得主客观文本分类库文件。
作为本申请实施例具体应用的示例,所述子步骤323中可以通过以下子步骤根据评价信息生成评价参数:
子步骤323-1、采用第二分类器训练生成评价参数分类库文件;
子步骤323-2、获取所述评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的第二特征向量;
子步骤323-3、由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数。
在具体实现中,所述评价参数可以包括好评、中评及差评,所述子步骤323-1可以进一步包括如下子步骤:
子步骤323-1-1、采集好评词及差评词语料,统计出好评词表、好评词搭配表,以及,差评词表、差评词搭配表;
子步骤323-1-2、分别计算所述好评词表、好评词搭配表,以及,差评词表、差评词搭配表中各字、各词和/或各词搭配的特征向量,生成评价词语料的特征向量集合;
子步骤323-1-3、采用第二分类器对所述评价词语料的特征向量集合进行学习训练,获得评价参数分类库文件。
作为一种示例,所述子步骤323-3具体可以包括如下子步骤:
子步骤323-3-1、由第二分类器根据所述第二特征向量和评价参数分类库文件计算分值;
子步骤323-3-2、若所述分值大于第一阈值,则确定当前评价参数为好评;
子步骤323-3-3、若所述分值小于第二阈值,则确定当前评价参数为差评;
子步骤323-3-4、若所述分值在所述第一阈值与第二阈值之间,则确定当前评价参数为中评。
在本申请实施例的具体应用中,所述搜索请求中会包括搜索条件,比如搜索关键词,价格区间,地域信息等,可以由用户输入提交或由用户选取提交,本申请对此不作限制。在这种情况下,所述步骤32可以包括如下子步骤:
子步骤3201、根据所述搜索条件在预置的数据库查找匹配的信息,所述各信息具有对应的评价参数;
子步骤3202、根据所述评价参数对所查找到的信息进行筛选和/或排序处理;
子步骤3203、将经过所述处理后的信息作为搜索结果进行返回。
例如,用户在交易平台中输入关键词“马丁靴”,点击交易平台提供的“搜索”按钮以触发搜索请求,服务器根据该搜索请求在交易平台中的商品数据库中进行搜索,获得匹配的商品信息后,读取各商品信息对应的好评率,该好评率是通过统计好评的评价参数在所有评价参数中的占比获得的,而应用本申请实施例,所述评价参数均是基于对用户输入的评价信息进行文本分析后确定生成的。然后,按照好评率的高低进行排序,再将排序后的信息作为搜索结果返回给用户。在具体应用中,为进一步节约系统资源,还可以将好评率低于某一阈值的商品信息直接排除,不纳入搜索结果中。
需要说明的是,上述各个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可,本申请在此不赘述。
参照图4,其示出了本申请的一种基于评价参数的信息搜索系统实施例的结构框图,具体可以包括如下模块:
请求接收模块41,用于接收搜索请求;
搜索结果返回模块42,用于根据搜索请求和评价参数,返回搜索结果;
其中,所述评价参数通过以下子步骤生成:
获取评价信息;
对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
若为主观性文本,则根据所述评价信息生成评价参数。
在本申请的一种优选实施例中,所述搜索请求中包括搜索条件,所述搜索结果返回模块42可以包括如下:
查找匹配子模块421,用于根据所述搜索条件在预置的数据库查找匹配的信息,所述各信息具有对应的评价参数;
信息处理子模块422,用于根据所述评价参数对所查找到的信息进行筛选和/或排序处理;
信息返回子模块423,用于将经过所述处理后的信息作为搜索结果进行返回。
对于本系统实施例而言,由于其与图3所示的方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上对本申请所提供的一种评价参数的生成方法,一种评价参数的生成系统,一种基于评价参数的信息搜索方法,以及,一种基于评价参数的信息搜索系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种评价参数的生成方法,其特征在于,包括:
接收用户输入的评价信息;
对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
若为主观性文本,则根据所述评价信息生成评价参数。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述评价信息为客观性文本,则过滤所述评价信息;
或者,针对所述评价信息添加客观性文本的标记信息。
3.根据权利要求1或2所述的方法,其特征在于,所述对评价信息进行文本分析,判断所述评价信息是否为主观性文本的步骤包括:
采用第一分类器训练生成主客观文本分类库文件;
对所述评价信息进行分词;
对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
4.根据权利要求3所述的方法,其特征在于,所述采用第一分类器训练生成主客观文本分类库文件的子步骤包括:
采集主观性文本语料和客观性文本语料;
针对所述主观性文本语料和客观性文本语料进行批量分词;
对分词后的每个词进行词性标注;
根据所述词性标注的结果统计词性搭配特征,并从所述词性搭配特征中选取预设数量的分类用的词性搭配特征;
采用所述分类用的词性搭配特征,对主观性文本语料和客观性文本语料分别计算特征向量,生成主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合;
采用第一分类器对所述主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合进行学习训练,获得主客观文本分类库文件。
5.根据权利要求4所述的方法,其特征在于,所述对评价信息进行文本分析,判断所述评价信息是否为主观性文本的步骤,还包括:
根据所述评价信息的词性搭配特征判断当前评价信息是否具有预设的主观性文本特征,若是,则直接判定当前评价信息为主观性文本。
6.根据权利要求4或5所述的方法,其特征在于,所述词性搭配特征为二元词性搭配特征,所述根据评价信息的词性搭配特征统计该评价信息的第一特征向量的子步骤包括:
将所述评价信息的词性搭配特征与分类用的二元词性搭配特征进行匹配,根据匹配结果组织当前评价信息的特征向量字符串或特征向量表。
7.根据权利要求1或2或3或4或5所述的方法,其特征在于,所述根据评价信息生成评价参数的步骤包括:
采用第二分类器训练生成评价参数分类库文件;
获取所述评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的第二特征向量;
由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数。
8.根据权利要求7所述的方法,其特征在于,所述评价参数包括好评、中评及差评,所述采用第二分类器训练生成评价参数分类库文件的子步骤包括:
采集好评词及差评词语料,统计出好评词表、好评词搭配表,以及,差评词表、差评词搭配表;
分别计算所述好评词表、好评词搭配表,以及,差评词表、差评词搭配表中各字、各词和/或各词搭配的特征向量,生成评价词语料的特征向量集合;
采用第二分类器对所述评价词语料的特征向量集合进行学习训练,获得评价参数分类库文件。
9.根据权利要求8所述的方法,其特征在于,所述由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数的子步骤包括:
由第二分类器根据所述第二特征向量和评价参数分类库文件计算分值;
若所述分值大于第一阈值,则确定当前评价参数为好评;
若所述分值小于第二阈值,则确定当前评价参数为差评;
若所述分值在所述第一阈值与第二阈值之间,则确定当前评价参数为中评。
10.一种基于评价参数的信息搜索方法,其特征在于,包括:
接收搜索请求;
根据搜索请求和评价参数,返回搜索结果;
其中,所述评价参数通过以下子步骤生成:
获取评价信息;
对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
若为主观性文本,则根据所述评价信息生成评价参数。
11.根据权利要求10所述的方法,其特征在于,所述对评价信息进行文本分析,判断所述评价信息是否为主观性文本的子步骤,进一步包括:
采用第一分类器训练生成主客观文本分类库文件;
对所述评价信息进行分词;
对分词后的每个词进行词性标注,获取所述评价信息的词性搭配特征;
根据所述评价信息的词性搭配特征统计该评价信息的第一特征向量;
由第一分类器根据所述评价信息的第一特征向量以及主客观文本分类库文件,判断当前评价信息为主观性文本或为客观性文本。
12.根据权利要求11所述的方法,其特征在于,所述采用第一分类器训练生成主客观文本分类库文件的子步骤包括:
采集主观性文本语料和客观性文本语料;
针对所述主观性文本语料和客观性文本语料进行批量分词;
对分词后的每个词进行词性标注;
根据所述词性标注的结果统计词性搭配特征,并从所述词性搭配特征中选取预设数量的分类用的词性搭配特征;
采用所述分类用的词性搭配特征,对主观性文本语料和客观性文本语料分别计算特征向量,生成主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合;
采用第一分类器对所述主观性文本语料的特征向量集合,以及,客观性文本语料的特征向量集合进行学习训练,获得主客观文本分类库文件。
13.根据权利要求10或11或12所述的方法,其特征在于,所述根据评价信息生成评价参数的子步骤包括:
采用第二分类器训练生成评价参数分类库文件;
获取所述评价信息的词搭配特征,并根据所述词搭配特征计算该评价信息的第二特征向量;
由第二分类器根据所述第二特征向量和评价参数分类库文件,确定当前评价信息的评价参数。
14.根据权利要求13所述的方法,其特征在于,所述评价参数包括好评、中评及差评,所述采用第二分类器训练生成评价参数分类库文件的子步骤包括:
采集好评词及差评词语料,统计出好评词表、好评词搭配表,以及,差评词表、差评词搭配表;
分别计算所述好评词表、好评词搭配表,以及,差评词表、差评词搭配表中各字、各词和/或各词搭配的特征向量,生成评价词语料的特征向量集合;
采用第二分类器对所述评价词语料的特征向量集合进行学习训练,获得评价参数分类库文件。
15.根据权利要求11或12或14所述的方法,其特征在于,所述搜索请求中包括搜索条件,所述根据搜索请求和评价参数,返回搜索结果的步骤包括:
根据所述搜索条件在预置的数据库查找匹配的信息,所述各信息具有对应的评价参数;
根据所述评价参数对所查找到的信息进行筛选和/或排序处理;
将经过所述处理后的信息作为搜索结果进行返回。
16.一种评价参数的生成系统,其特征在于,包括:
接收模块,用于接收用户输入的评价信息;
文本分析模块,用于对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
评价参数生成模块,用于在所述评价信息为主观性文本时,根据所述评价信息生成评价参数。
17.一种基于评价参数的信息搜索系统,其特征在于,包括:
请求接收模块,用于接收搜索请求;
搜索结果返回模块,用于根据搜索请求和评价参数,返回搜索结果;
其中,所述评价参数通过以下子步骤生成:
获取评价信息;
对所述评价信息进行文本分析,判断所述评价信息为主观性文本或为客观性文本;
若为主观性文本,则根据所述评价信息生成评价参数。
18.根据权利要求17所述的系统,其特征在于,所述搜索请求中包括搜索条件,所述搜索结果返回模块包括:
查找匹配子模块,用于根据所述搜索条件在预置的数据库查找匹配的信息,所述各信息具有对应的评价参数;
信息处理子模块,用于根据所述评价参数对所查找到的信息进行筛选和/或排序处理;
信息返回子模块,用于将经过所述处理后的信息作为搜索结果进行返回。
CN2011103718706A 2011-11-21 2011-11-21 评价参数的生成方法以及基于评价参数的信息搜索方法 Pending CN103123633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103718706A CN103123633A (zh) 2011-11-21 2011-11-21 评价参数的生成方法以及基于评价参数的信息搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103718706A CN103123633A (zh) 2011-11-21 2011-11-21 评价参数的生成方法以及基于评价参数的信息搜索方法

Publications (1)

Publication Number Publication Date
CN103123633A true CN103123633A (zh) 2013-05-29

Family

ID=48454612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103718706A Pending CN103123633A (zh) 2011-11-21 2011-11-21 评价参数的生成方法以及基于评价参数的信息搜索方法

Country Status (1)

Country Link
CN (1) CN103123633A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400288A (zh) * 2013-08-10 2013-11-20 李勤 一种基于发票甄别虚假评价的信誉系统
CN103593431A (zh) * 2013-11-11 2014-02-19 北京锐安科技有限公司 网络舆情分析方法和装置
CN104375739A (zh) * 2013-08-12 2015-02-25 联想(北京)有限公司 信息处理的方法及电子设备
CN106055633A (zh) * 2016-05-30 2016-10-26 国家计算机网络与信息安全管理中心 一种中文微博主客观句分类方法
CN106202481A (zh) * 2016-07-18 2016-12-07 量子云未来(北京)信息科技有限公司 一种感知数据的评价方法和系统
CN106933864A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 一种搜索引擎系统及其搜索方法
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置
JP2017527881A (ja) * 2014-07-07 2017-09-21 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. エモティコンを識別および提案するためのシステムおよび方法
CN107577660A (zh) * 2017-07-21 2018-01-12 阿里巴巴集团控股有限公司 类目信息识别方法、装置及服务器
CN107748743A (zh) * 2017-09-20 2018-03-02 安徽商贸职业技术学院 一种电商在线评论文本情感分析方法
CN108109624A (zh) * 2016-11-23 2018-06-01 中国科学院声学研究所 一种基于统计规律的中文词汇表未登录词比率的估计方法
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108510285A (zh) * 2017-05-17 2018-09-07 苏州纯青智能科技有限公司 一种基于交易订单的评价方法
CN109003113A (zh) * 2018-05-30 2018-12-14 浙江口碑网络技术有限公司 评价数据处理和展示的方法及装置,电子设备及存储设备
CN109189922A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN109426978A (zh) * 2017-08-29 2019-03-05 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN109447767A (zh) * 2018-11-26 2019-03-08 重庆电子工程职业学院 一种应用于电子商务的商品评价方法及系统
CN110009431A (zh) * 2019-04-15 2019-07-12 江苏易汇聚软件科技有限公司 用户评价方法及系统、电子设备
CN110807082A (zh) * 2018-08-01 2020-02-18 北京京东尚科信息技术有限公司 质量抽检项目确定方法、系统、电子设备及可读存储介质
US10579717B2 (en) 2014-07-07 2020-03-03 Mz Ip Holdings, Llc Systems and methods for identifying and inserting emoticons

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609459A (zh) * 2009-07-21 2009-12-23 北京大学 一种情感特征词提取系统
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609459A (zh) * 2009-07-21 2009-12-23 北京大学 一种情感特征词提取系统
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TETSUYA NASUKAWA: "《Sentiment Analysis:Capturing Favorability Using Natural Language Processing》", 《PROCEEDINGS OF THE 2ND INTERNATIONAL CONFERENCE ON KNOWLEDGE CAPTURE》, 23 October 2003 (2003-10-23), pages 70 - 77 *
周立柱等: "《情感分析研究综述》", 《计算机应用》, vol. 28, no. 11, 1 November 2008 (2008-11-01), pages 2626 - 2628 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400288A (zh) * 2013-08-10 2013-11-20 李勤 一种基于发票甄别虚假评价的信誉系统
CN104375739A (zh) * 2013-08-12 2015-02-25 联想(北京)有限公司 信息处理的方法及电子设备
CN104375739B (zh) * 2013-08-12 2019-07-26 联想(北京)有限公司 信息处理的方法及电子设备
CN103593431A (zh) * 2013-11-11 2014-02-19 北京锐安科技有限公司 网络舆情分析方法和装置
JP2017527881A (ja) * 2014-07-07 2017-09-21 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. エモティコンを識別および提案するためのシステムおよび方法
US10579717B2 (en) 2014-07-07 2020-03-03 Mz Ip Holdings, Llc Systems and methods for identifying and inserting emoticons
CN106933864A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 一种搜索引擎系统及其搜索方法
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置
CN106055633A (zh) * 2016-05-30 2016-10-26 国家计算机网络与信息安全管理中心 一种中文微博主客观句分类方法
CN106202481A (zh) * 2016-07-18 2016-12-07 量子云未来(北京)信息科技有限公司 一种感知数据的评价方法和系统
CN108109624B (zh) * 2016-11-23 2021-06-08 中国科学院声学研究所 一种基于统计规律的中文词汇表未登录词比率的估计方法
CN108109624A (zh) * 2016-11-23 2018-06-01 中国科学院声学研究所 一种基于统计规律的中文词汇表未登录词比率的估计方法
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108510285A (zh) * 2017-05-17 2018-09-07 苏州纯青智能科技有限公司 一种基于交易订单的评价方法
CN107577660A (zh) * 2017-07-21 2018-01-12 阿里巴巴集团控股有限公司 类目信息识别方法、装置及服务器
CN107577660B (zh) * 2017-07-21 2020-07-03 阿里巴巴集团控股有限公司 类目信息识别方法、装置及服务器
CN109426978A (zh) * 2017-08-29 2019-03-05 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN107748743A (zh) * 2017-09-20 2018-03-02 安徽商贸职业技术学院 一种电商在线评论文本情感分析方法
CN109003113A (zh) * 2018-05-30 2018-12-14 浙江口碑网络技术有限公司 评价数据处理和展示的方法及装置,电子设备及存储设备
CN110807082A (zh) * 2018-08-01 2020-02-18 北京京东尚科信息技术有限公司 质量抽检项目确定方法、系统、电子设备及可读存储介质
CN109189922A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN109189922B (zh) * 2018-08-07 2021-06-29 创新先进技术有限公司 评论评估模型的训练方法和装置
CN109447767A (zh) * 2018-11-26 2019-03-08 重庆电子工程职业学院 一种应用于电子商务的商品评价方法及系统
CN110009431A (zh) * 2019-04-15 2019-07-12 江苏易汇聚软件科技有限公司 用户评价方法及系统、电子设备

Similar Documents

Publication Publication Date Title
CN103123633A (zh) 评价参数的生成方法以及基于评价参数的信息搜索方法
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
CN106709040B (zh) 一种应用搜索方法和服务器
Sharma et al. Comparative Analysis of Online Fashion Retailers Using Customer Sentiment Analysis on Twitter
CN108563620A (zh) 文本自动写作方法和系统
CN111368042A (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN103870523A (zh) 通过分析内容确定上下文并且基于该上下文提供相关内容
CN103646088A (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
Zhang et al. A multiclassification model of sentiment for E-commerce reviews
CN111353044B (zh) 一种基于评论的情感分析方法及系统
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN113570413A (zh) 广告关键词的生成方法、装置、存储介质及电子设备
CN111782793A (zh) 智能客服处理方法和系统及设备
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
Desai et al. Business intelligence visualization using deep learning based sentiment analysis on amazon review data
Wei et al. Online education recommendation model based on user behavior data analysis
CN112862569B (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181511

Country of ref document: HK

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130529