一种评论数据处理方法和装置、一种搜索方法和系统
技术领域
本申请涉及网络技术领域,特别是涉及一种评论数据处理方法和装置、一种搜索方法和系统。
背景技术
随着互联网的普及,网络以成为人们获取信息的一个非常重要的手段,但是随着信息的爆炸式增长,人们很难在较短时间内找到自己需要的信息。比如,对于一些商品的相关信息,这个商品质量的好坏,服务提供商提供的服务的好坏等等。用户一般是根据某个商品的评分或者评论,去了解自己需要的商品的相关信息。然而随着交易量的大幅提升,累积了巨量的商品的评论数据数量,就迫切需要对各评论数据进行分析(比如分析评论者对所述商品的情感倾向),以获得评论者对于所述商品的评价。比如,对于电子商务类网站中的某个卖家的一个商品,用户可以根据所述商品的评分或购买过所述商品的用户的评论数据去了解所述商品的信息。而对于评论数据数量巨大的商品,比如热销商品,其评论数据数能达到数万条,用户往往不可能逐一阅读分析,因此,需要对用户的评论数据进行情感分析,分析以获得能简单的让用户对商品进行了解的信息。
现有技术中对商品评论数据进行分析分析时,首先对文本进行单方面的情感取向进行分析,比如,对于一条评论数据,通常有三种情感取向,即,正面态度、中立态度和负面态度。现有技术对一条评论数据分析完后一般只是三者之一,即要么是正面态度,要么是中立态度,要么是负面态度,这种方式无法全面地反应出评论者对商品的评价。
由于现有技术是基于长文本和书面化语言的特点进行分析,因为长文本由于篇幅较长,包含的情感特征相对比较多,而相同场景下短文本描述特征、情感特征则比较稀疏,语义上存在不确定性。对于商品评论数据分析,描述特征是指文本所涵盖的对商品特征属性的描述,而情感特征为评论者的情感态度的表达;其次,长文本通常存在一定的上下文含义。从语义上说,与较短文本相比,长文本会显示更多的逻辑关系,基于所述逻辑关系特征的文本分析法不适用于短文本。再次长文本存在一定的文本结构;一般情况下,长文本的首句和结尾句(含有多个段落的文本亦然)含有更多涉及文本中心意义的描述特征和情感特征。基于所述特征的文本分析法不适用于短文本。
此外,由于短文本较长文本在措辞上显得更为随意和口语化,所述特点将使常规的文本分析算法的精度下降;虽然现有技术的分析方式对于长文本、书面语的文本(比如影视评论数据等)准确率较高,但对于文本较短,偏重口语化,涵盖内容广泛等特点的评论数据的分析效果比较差,不够精确。
另外现有技术中由于上述对于短文本的分析效果差,不够精确,导致在搜索引擎中基于短文本的分析结果对目标对象构建搜索引擎时效果不佳,返回给用户端的结果也不够精确,造成相关网络资源的浪费。
发明内容
本申请所要解决的技术问题之一是提供一种评论数据处理方法和装置,能更完整、更准确的对商品对应的偏重口语化、涵盖内容广泛等特点的评论数据进行分析,更精确的分析评论数据的各种特征词的情感倾向。
为了解决上述问题,本申请公开了一种评论数据处理方法,包括:
预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
根据商品信息,获取对应商品信息的各条评论数据;
根据特征词词库,确定每条评论数据中的特征词;
根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
优选的,所述预置特征词词库步骤包括:
从商品所属类目的各商品的评论数据中,获取评论数据样本集;
从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素;
将所获得的名词和名词性语素作为特征词,建立特征词库。
优选的,所述从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素包括:
对每条评论数据进行分词和词性标注,并提取每条评论数据中的名词和名词性语素;
将获得的各条评论数据中的名词或者名词性语素进行汇总,获得各名词和名词性语素的出现的次数;
将出现次数小于最小支持度的名词或名词性语素去除;所述最小支持度通过评论数据总数乘以支持度阈值获得;
去除不代表商品特征的名词和名词性语素。
优选的,所述预置特征词词库步骤包括:
从商品所属类目的各商品的评论数据中,获取评论数据样本集;
根据所述评论数据样本集,提取形容词和形容词性语素作为情感词种子,并相应标注情感取向值;
根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库。
优选的,所述根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库包括:
以所述情感词种子及相应情感取向值构建初始情感词词库;
将各情感词种子,在同义词词典中查询与情感词种子的同义词,将所述同义词作为情感词加入情感词词库,并标注相应情感词种子的情感取向值;
和/或,将各情感词种子,在反义词词典中查询与情感词种子的反义词,将所述反义词作为情感词加入情感词词库,并标注相应情感词种子的相反的情感取向值;
判断当前情感词词库的数量是否小于阈值;如果小于,则将当前词库中未使用过的情感词作为情感词种子,继续查找同义词词典和/或反义词词典,获取情感词;如果不小于,则退出循环迭代,将当前词库作为最终的情感词词库。
优选的,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值包括:
将所述条评论数据中的形容词和形容词性语素在情感词词库中进行匹配,当匹配上,则将所述形容词和形容词性语素作为所述条评论数据的情感词;
针对获得的每条评论数据的特征词,选取当前语句中与所述特征词距离最近的情感词作为所述特征词的有效的情感词。
优选的,还包括:
当针对每条评论数据的名词和名词性语素,遍历特征词词库,未能获得每条评论数据的特征词时,则针对每条评论数据的词,遍历情感词词库,判断是否存在情感词;
当存在时,则将距情感词距离最近的名词作为特征词,并将所述情感词作为对应所述特征词的有效情感词。
优选的,在所述根据情感词词库中情感词对应的情感取向值,以及每条评论数据的特征词及其对应的情感词,计算每条评论数据中特征词的特征值之后,还包括:
根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
和/或,根据所述各特征词的特征值,计算商品信息的综合特征值。
优选的,根据所述获得的特征词的情感取向值,计算所述特征词对应的目标特征词的第一特征值时包括:
根据预置的特征词与目标特征词的多对一或者一对一关系,在同一目标特征词下,汇总不同情感取向值对应的评论数据条数;
对各情感取向值以评论数据条数为权重进行加权平均计算,获得目标特征词的第一特征值。
优选的,根据所述获得的特征词的情感取向值,计算商品信息的综合特征值包括:
将各特征值的情感取向值乘以对应评论者的评论者资深系数得到各特征词的第二特征值;
根据所述各特征词的第二特征值计算所述商品信息的综合特征值。
优选的,所述对应评论者的评论者资深系数的获得步骤包括:
提取所述条评论数据的评论者在商品信息所属类目下的历史评论数据;
基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数。
优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
基于所述情感词词库,分析所述评论者各条评论数据的情感取向值;
统计情感取向值属于正面的评论数据的第一数量,与情感取向值属于负面的评论数据的第二数量;
当所述第一数量与第二数量之差小于阈值,则增加当前评论者资深系数值。
优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
计算评论者的各评论数据中名词和名词性语素出现的总数与所述评论者的评论数据条数的第一比值;
计算目标商品的各的评论数据中名词和名词性语素出现的总数与所述目标商品的评论数据条数的第二比值;所述目标商品对应所述商品信息;
当所述第一比值大于所述第二比值时,则增加当前评论者资深系数值。
优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
计算评论者的评论数据中属于特征词词库的名词或名词性语素的总数与所述评论者的评论数据条数的第三比值;
计算目标商品的各评论数据中属于特征词词库的名词或名词性语素的总数与所述目标商品的评论数据条数的第四比值;所述目标商品对应所述商品信息;
当所述第三比值大于所述第四比值时,则增加当前评论者资深系数值。
优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
计算目标商品的每个评论者的平均评论数据条数,当一评论者的评论数据条数大于所述平均评论数据条数,则增加当前评论者资深系数值;所述目标商品对应所述商品信息。
本申请还公开了,一种搜索方法,包括:接收用户端的查询词串;
根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合;
针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序;
将排序靠前的至少一个商品信息返回给用户端;
其中,所述特征词的特征值获得步骤包括:
预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
根据商品信息,获取对应商品信息的各条评论数据;
根据特征词词库,确定每条评论数据中的特征词;
根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
优选的,所述基于所述特征词词库和情感词词库,对评论数据处理的步骤还包括:
根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
和/或,根据所述各特征词的特征值,计算商品信息的综合特征值。
优选的,所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括:
提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序;
或者,根据所述商品信息的综合特征值对所述商品信息进行排序。
本申请还公开了,一种搜索方法,包括:
接收用户端的查询词串;
根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合;
针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序;
返回至少一个排序靠前的卖家店铺给用户端;
其中,所述特征词的特征值获得步骤包括:
预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
根据商品信息,获取对应商品信息的各条评论数据;
根据特征词词库,确定每条评论数据中的特征词;
根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
本申请还公开了一种评论数据展示方法,包括:
接收用户端的对应商品信息的查看请求;
根据所述查看请求对应的商品信息,提取所述商品信息的评论数据的各特征词及特征值,并根据所述特征词及特征值进行展示;
其中,所述商品信息的各特征词及特征值获得步骤包括:
预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
根据商品信息,获取对应商品信息的各条评论数据;
根据特征词词库,确定每条评论数据中的特征词;
根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值;
针对相同的特征词,将所述特征词的各特征值进行汇总。
相应的本申请公开了一种评论数据处理装置,包括:
特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
相应的本申请还公开了一种搜索系统,包括:
所述搜索引擎和评论数据处理装置;
所述搜索引擎包括:
查询接收模块,用于接收用户端的查询词串;
检索模块,用于根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合;
排序模块,用于针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序;
返回模块,用于将排序靠前的至少一个商品信息返回给用户端;
所述评论数据处理装置包括:
特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
优选的,所述评论数据处理装置还包括:
第一特征值计算模块,用于根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
和/或,综合特征值计算模块,用于根据所述各特征词的特征值,计算商品信息的综合特征值。
优选的,所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括:
第一排序模块,用于提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序;
或者,第二排序模块,用于根据所述商品信息的综合特征值对所述商品信息进行排序。
相应的本申请还公开了一种搜索系统,包括:
搜索引擎和评论数据处理装置;
所述搜索引擎包括:
第一查询接收模块,用于接收用户端的查询词串;
第一检索模块,用于根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合;
第一排序模块,用于针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序;
第一返回模块,用于返回至少一个排序靠前的卖家店铺给用户端;
所述评论数据处理装置包括:
特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
相应的本申请还公开了一种评论数据展示装置,包括:
查看请求接收模块,用于接收用户端的对应商品信息的查看请求;
展示模块,用于根据所述查看请求对应的商品信息,提取所述商品信息的各特征词及特征值,并根据所述特征词及特征值进行展示;
其中,所述商品信息的各特征词及特征值获得的模块包括:
特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值;
汇总模块,用于针对相同的特征词,将所述特征词的各特征值进行汇总。
与现有技术相比,本申请包括以下优点:
本申请针对每条评论数据的名词和名词性语素,遍历特征词词库,获得每条评论数据的特征词,并根据特征词确定所述特征词的有效情感词,然后根据所述特征词的有效情感词,查询情感词词库获得特征词的情感取向值。首先,通过本申请可以针对商品的不同方面的特征进行分析,获得评论者对所述商品的各方面的情感取向,比如评论者对商品的质量满意,但对商品的物流不满意,对商品的外观不满意等。其次,通过本申请,提高了对具有短文本、口语化偏重等特点的评论数据分析的准确率,具有更客观的分析结果,这提高了相关网络资源的利用率。
附图说明
图1是本申请一种评论数据处理方法实施例一的流程示意图;
图2是本申请一种评论数据处理方法的特征词词库的建立流程示意图;
图3是本申请一种评论数据处理方法的情感词词库的建立流程示意图;
图4是本申请一种评论数据处理方法实施例二的流程示意图;
图5是本申请一种评论数据处理方法实施例三的流程示意图;
图6是本申请一种搜索方法实施例一的流程示意图;
图7是本申请一种搜索方法实施例二的流程示意图;
图8是本申请一种评论数据展示方法实施例一的流程示意图;
图9是本申请一种评论数据处理装置实施例一的结构示意图;
图10是本申请一种搜索系统实施例一的结构示意图;
图11是本申请一种搜索系统实施例二的结构示意图;
图12是本申请一种评论数据展示装置实施例一的结构示意图,
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
方法实施例一
参照图1,其示出了本申请一种评论数据处理方法实施例一的流程示意图,具体可以包括:
步骤100,预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
在本申请中,可预先建立特征词词库和情感词词库,然后再基于特征词词库进行评论数据的分析。所述特征词词库用户判断和获取评论数据中的特征词,所述情感词用于判断和获取评论数据中的有效情感词,并设置有效情感词的情感取向值。特征词词库中的词可以是名词和/或名词性语素,情感词词库中的词可以是形容词和/或形容词性语素。其中,所述名词性语素可以是动名词等,如“发货”,所述形容词性语素可以是副词+名词等,如“非常好”。
本申请的特征词词库和情感词词库可按商品的类目进行构建。比如抽样某个类目的50万件商品的评论数据作为基础数据,从这些基础数据中提取特征词和情感词,并对情感词进行情感取向值的设定。
优选地,参照图2,所述预置特征词词库步骤包括:
步骤A101,从商品所属类目的各商品的评论数据中,获取评论数据样本集;
在选取商品所属类目的范围时,可以根据实际需求选取,比如,如果需要对某款笔记本电脑的评论数据进行分析,那么可以针对所有笔记本电脑这一层级的类目选取评论数据样本集。
比如获取得到下列评论数据样本集M:
1:“质量非常好,物超所值,但就是发货很慢,物流太差。”
2:“质量一般。帮舅舅买的,他说还行。”
3:“发货慢,物流太差了。但是质量没得说。”
4:“等了一个星期才发货,急死人了。”
步骤A102,从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素;
得到评论数据样本集后,则可基于所述评论样本集,根据预设的阈值条件对其中的名词和名称性语素进行提取。
优选的,所述从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素包括:
步骤A1021,对每条评论数据进行分词和词性标注,并提取每条评论数据中的名词和名词性语素;
比如对于前述的评论样本集M,在进行分词和词性标注,提取每条评论数据中的名词和名词性语素后的得到的项集为:
1:[质量,发货,物流]]
2:[质量,舅舅]
3:[发货,物流,质量]
4:[星期,发货,人]
步骤A1022,将获得的各条评论数据中的名词或者名词性语素进行汇总,获得各名词和名词性语素的出现的次数;
初始时每个项都被看成候选1-项集(即只包含一个词的项集),对各个名词或名词性语素的出现次数(也可理解为支持度)计数,如表一:
表一
步骤A1023,将出现次数小于最小支持度的名词或名词性语素去除;所述最小支持度通过评论数据总数乘以支持度阈值获得;
前述例子事务总数(即评论数据条数)为4,如果支持度阈值为0.5,那么最小支持度为4*0.5=2,从而“舅舅”、“星期”、“人”被去除。那么得到频繁1-项集,如表二:
表二
另外,实际中可存在多个名词或名词性语素是同义词的情况,那么可将多个名词或名词性语素的次数整合在一起再次进行迭代筛选。另外,同义词结合迭代筛选的方法可在频繁1-项集获得后再进行。
本系统中可基于词库规模选取阈值。另外,基于算法复杂度和实际需要的考虑,可以只产生频繁1-项集。
步骤A1024,去除不代表商品特征的名词和名词性语素;
在最终获得特征词词库时,还可对无意义词进行剪枝。比如去除单字词,去除单字词可弥补分词和词性标注的局限,因为大部分单字词作为产品特征词往往并不代表产品特征,因而是无意义的。这样可以节省后续评论数据处理过程的遍历时间,提供评论数据处理效率。
步骤A103,将所获得的名词和名词性语素作为特征词,建立特征词库。
本特征词库的构建方法使用上述方法的原因主要基于以下的观察:
虽然评论数据文本通常包含有很多并不与商品直接相关的方面,并且评论者所处环境、语境以及主观程度也可能存在较大差异,但是,在统计规律下,针对同种或类似商品的某方面的评价用语则会表现出某种近似。
优选的,参照图3,所述预置特征词词库步骤包括:
步骤B101,从商品所属类目的各商品的评论数据中,获取评论数据样本集;
所述步骤与步骤A101类似,只在实际中选择情感词种子时,一般可根据商品所属类目的评论数据样本集中的形容词或形容词新语素设置。在此不再详述。
步骤B102,根据所述评论数据样本集,提取形容词和形容词性语素作为情感词种子,并相应标注情感取向值;
比如提取“很好”标注其情感取向值为“1”,提取“快”:标注其情感取向值为“1”,提取“失望”:标注其情感取向值为“-1”。
步骤B103,根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库。
以前述获得的情感词种子,在同义词词典或反义词词典中进行查询,将相关的词找出,并进行相应的情感取向值标注,即可构建情感词词库
优选的,所述根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库包括:
步骤B1031,以所述情感词种子及相应情感取向值构建初始情感词词库;
例如前述情感词种子:假设情感词种子(seed)初始情感词词库(dic)为:
{“很好”:“1”,“快”:“1”,“失望”:“-1”};
步骤B1032,将各情感词种子,在同义词词典中查询与情感词种子的同义词,将所述同义词作为情感词加入情感词词库,并标注相应情感词种子的情感取向值。
和/或,步骤B1033,将各情感词种子,在反义词词典中查询与情感词种子的反义词,将所述反义词作为情感词加入情感词词库,并标注相应情感词种子的相反的情感取向值;
步骤B3,判断当前情感词词库的数量是否小于阈值;如果小于,则将当前词库中未使用过的情感词作为情感词种子,转入步骤B1032和/或步骤B1033反义词词典,获取情感词;如果不小于,则退出循环迭代,将当前词库作为最终的情感词词库。
比如以同义词词典为例,那么步骤为:
(1),系统取出dic中词项,迭代访问同义词词典:
查询同义词词典,得到“优良;友好”;....
将查询结果词标注(映射)为“1”(正面情感),加入dic:
快:迅速;爽快;....
将查询结果词标注(映射)为“1”(正面情感),加入dic:
失望:绝望;扫兴;....
将查询结果词标注(映射)为“-1”(负面情感),加入dic。
(2),如果dic词项数量<阈值,比如3000个,
从上一步顺序访问的位置开始继续向下访问dic中词项,重复(1),
否则:退出循环迭代。
对于反义词词典,其迭代处理过程与同义词基本类似,只需查询将查询得到的词标注与查询词相反的词义即可,比如查询词“优秀”,其标注的情感取向值为“1”,在反义词词典中,查询其反义词有“差”,“不及格”等,那么标注其情感取向值为“-1”。
本申请实施例在对情感词进行情感标注时,可采用5级形式,如:绝对正面,正面,客观,负面,绝对负面,以分值形式对应可如下形式[2,1,0,-1,-2]。
另外,本申请针对短评论数据的特征词词库和情感词词库还可通过其他方式进行构建,本申请不对其加以限制。
基于所述特征词词库和情感词词库,本申请实施例中基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
步骤110,根据商品信息,获取对应商品信息的各条评论数据;。
比如在电子商务网站中,如果某个用户购买了某个商品,一般会对所述商品进行评论,那么用户的这些评论数据就存在服务器的评论数据库中。如果需要对目标商品的评论数据进行分析,则从评论数据库中提取出目标商品的各条评论数据即可。
步骤120,根据特征词词库,确定每条评论数据中的特征词;
针对每条评论数据,判断和获取其中的特征词可以包括多种方法。比如可直接根据特征词词库中特征词,对评论数据进行最长匹配,判断评论数据中哪些词为特征词。在实际中,特征词词库中的词可为名词和/或名词性语素。
优选的,针对每条评论数据,根据特征词词库,获得每条评论数据的特征词,具体包括:
步骤S121,对每条评论数据进行分词和词性标注。
在获取到目标商品的各条评论数据后,可对每条评论数据进行分词和词性标注。比如,如评论数据文本为:“质量非常好,物超所值,但就是发货很慢,物流太差”。那么根据语言规则进行分词和词性标注后的结果为:“质量/n非常好/a物超所值/a但/c就是/v发货/vn很慢/a物流/n太差/a”。其中,n表示名词或名词性语素,a表示形容词或形容词语素,vn表示动名词(也属于名词性语素),c表示转折词。在对上述评论数据进行分词和词性标注后,得到所述评论数据的词项集合。
步骤S122,针对每条评论数据的名词和/或名词性语素,遍历特征词词库,获得每条评论数据的特征词;
即将步骤S121标注获得的名词或名词性语素与特征词词库进行遍历匹配,如果特征词词库中存在,则确认所述名词或名词性语素为所述条评论数据的特征词。
即,将获得的每条评论数据中的名词和/或名词性语素在特征词词库中进行匹配,当匹配时,则将所述名词和/或名词性语素所述作为特征词。
比如,对于前述得到的词项集合(Item_List):“质量/n非常好/a物超所值/a但/c就是/v发货/vn很慢/a物流/n太差/a”。
遍历特征词词库,查询上述词项集合中的名词和名词性语素是否在特征词词库中存在,如果存在,则将其作为特征词。比如,上述词项集合中的名词和名词性语素包括:“质量/n,发货/vn,物流/n”,遍历特征词词库后发现特征词词库包含上述名词和名词性语素,则将“质量/n”,“发货/vn”,“物流/n”作为特征词。
步骤130,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
在实际的一句评论中,一个名词或名词性语素附近可能存在一个形容词或形容词性语素,用来形容名词或名词性语素的状态,那么本步骤则将所述形容词或形容词性语素作为所述特征词的有效的情感词,并获取所述情感词的情感取向值。
优选的,步骤130,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值,具体包括:
步骤S131,将所述条评论数据中的形容词和形容词性语素在情感词词库中进行匹配,当匹配上,则将所述词作为所述条评论数据的情感词;
首先确定每条条评论数据中的属于情感词词库的情感词,即有效的情感词。
比如对于前述得到的词项集合:“质量/n非常好/a物超所值/a但/c就是/v发货/vn很慢/a物流/n太差/a”。
遍历情感词词库,查询上述词项集合中的形容词和形容词性语素是否在情感词词库中存在,如果存在,则将其作为有效的情感词。比如,上述词项集合中的名词和名词性语素包括:“非常好/a,物超所值/a,很慢/a,太差/a”,遍历特征词词库后,发现特征词词库包含上述名词和名词性语素,则将“非常好/a”,“物超所值/a”,“很慢/a”,“太差/a”作为有效的情感词。
步骤S132,针对获得的每条评论数据的特征词,选取当前语句中与所述特征词距离最近的情感词作为所述特征词的有效情感词。
优选的,本步骤包括:
步骤S1321,针对获得的每条评论数据的各特征词,选取所述特征词后边距离最近的情感词作为所述特征词的有效情感词;
步骤S1322,如果所述特征词后边没有情感词,则选取所述特征词前边距离最近的情感词作为所述特征词的有效情感词。
即针对获得的每条评论数据的各特征词,可以优先选取当前语句中与所述特征词之后距离最近的情感词作为所述特征词的有效情感词,当所述特征词之后没有情感词时,可以选取当前语句中所述特征词前边距离最近的情感词作为所述特征词的有效情感词。
比如在得到特征词之后,按文本顺序,将当前语句中词项前边或后边(优先后边)距离最近的情感词作为有效情感词。
比如对于前述得到的词项集合:“质量/n非常好/a物超所值/a但/c就是/v发货/vn很慢/a物流/n太差/a”。得到所述条评论数据的特征词和情感词后,则选取各特征词的情感词,先选取特征词后边最近的情感词作为有效情感词,其结果为:“质量”->“非常好”;“发货”->“很慢”;“物流”->“太差”。
在确定有效的情感词后,即可根据情感词词典中与所述情感词的对应关系,确定所述情感词的情感取向值。
步骤140,根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
在前述步骤得到特征词与有效的情感词的对应关系后,可将情感词的情感取向值,将其作为所述特征词的情感取向值。比如,在情感词词库中,对于前述“非常好/a”标注的情感词取向值为1,“物超所值/a”标注的情感词取向值为1,“很慢/a”标注的情感词取向值为-1,“太差/a”标注的情感词取向值为-1,在得到各有效情感词的情感取向值之后,再将其作为相应特征值的情感取向值,则对于前述的例子得到的结果为:“质量”->“非常好”->“1”;“发货”->“很慢”->“-1”;“物流”->“太差”>“-1”。
具体在实际中上述过程的核心处理过程可如下表示:
另外,对于未收录到特征词词库中的特征词,即非高频特征词,当针对每条评论数据的名词和名词性语素,遍历特征词词库,未能获得每条评论数据的特征词时,优选的,还包括:
步骤S41,针对每条评论数据的词,遍历情感词词库,判断是否存在情感词;
在本申请中,对于未匹配上特征词的每条评论数据,将其形容词或形容词性语素在情感词词库中进行匹配。
步骤S42,当存在时,则将距情感词距离最近的名词作为特征词,并将所述情感词作为对应所述特征词的有效的情感词。
当评论数据文本中即不包括特征词库中的特征词,也不包括情感词库中的情感词,这通常表明所述评论数据不具备参考价值,可不对其进行处理。
通过步骤S41和S42对上述不在特征词词库中的特征词(即非高频特征词)的识别有助于获取在特征词抽取步骤中遗漏的特征词,同时客观上又是所述商品某一项特征的词项,保证评论数据分析的精确性。
本实施例可通过本申请可以针对商品的不同方面的特征进行分析,获得评论者对所述商品的各方面的情感取向,比如评论者对商品的质量满意,但对商品的物流不满意,对商品的外观不满意等。其次,通过本申请,提高了对具有短文本、口语化偏重等特点的评论数据分析的准确率,具有更客观的分析结果,这提高了相关网络资源的利用率。
方法实施例二
参照图4,其示出了本申请一种评论数据处理方法实施例二的流程示意图,具体可以包括:
步骤200,预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
步骤210,根据商品信息,获取对应商品信息的各条评论数据;
步骤220,根据特征词词库,确定每条评论数据中的特征词;
步骤230,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
步骤240,根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
步骤251,根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
和/或,步骤252,根据所述各特征词的特征值,计算商品信息的综合特征值。
在本实施例中,步骤200至步骤240与实施例一步骤100至步骤140基本相同,在此不再详述。
本申请对于商品的各条评论数据均进行处理获得各条评论数据的特征词及其情感取向值后,可再计算所述特征词对应的目标特征词的第一特征值,和/或商品的综合特征值。
对于步骤251,可根据预置的特征词与目标特征词的多对一或者一对一关系,将各特征词的情感取向值进行加权平均,将加权平均值作为特征词的第一特征值。
在实际中,评论者的采用的不同名词或名词性语素可能是针对商品的同一项特征,即多个特征词对于一个商品特征(即目标特征词)。那么即可将前述步骤得到的大量特征值的情感取向值汇总到相应目标特征词下,方便显示给客户端。
比如特征词为“送货时间”,“运送时间”,“发送时间”,“发货速度”,“发货效率”等都可指卖家对商品信息对应的实物商品发送到买家的时间很快,可将这些特征词对对应到“发货速度”这一目标特征词上,将各特征词的特征值进行加权计算得到“发货速度”的第一特征值。
优选的,根据所述获得的特征词的情感取向值,计算所述特征词对应的目标特征词的第一特征值时包括:
步骤C11,根据预置的特征词与目标特征词的多对一或者一对一关系,在同一目标特征词下,汇总不同情感取向值对应的评论数据条数;
比如,如表三,为汇总后的一情感词不同情感取向值的条数示例。
商品的目标特征词“发货速度”对应了233条情感取向值为2的各种特征词,对应了98条情感取向值为1的特征词,对应了50条情感取向值为0的特征词,对应了20条情感取向值为-1的特征词,对应了25条情感取向值为-2的特征词,其中,2代表绝对正面评论数据,1代表正面评论数据,0代表客观评论数据,-1代表负面评论数据,-2代表绝对负面评论数据。那么“送货时间”有233条绝对正面评论数据,有98条正面评论数据,有50条客观评论数据,有20条负面评论数据,有25条绝对负面评论数据。
步骤S52,对各情感取向值以评论数据条数为权重进行加权平均计算,获得目标特征词的第一特征值。
比如前述“发货速度”,将{2*233+1*98+0*50+(-1)*20+(-2)*25}/(233+98+50+20+25),即可得到“发货速度”的第一特征值。
对于步骤252,则可根据各特征词的特征值计算所述商品的综合特征值,比如以累加再除以特征词个数等方法计算综合特征值,在此不加以限制。
本实施例则可进一步对评论数据进行处理,可得到更直观的处理结果。
方法实施例三
参照图5,其示出了本申请最优的一种评论数据处理方法实施例三的流程示意图,具体可以包括:
步骤300,预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
步骤310,根据商品信息,获取对应商品信息的各条评论数据;
步骤320,根据特征词词库,确定每条评论数据中的特征词;
步骤330,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
步骤340,根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
步骤350,将各特征值的情感取向值乘以对应评论者的评论者资深系数得到各特征词的第二特征值;
步骤360,根据所述各特征词的第二特征值计算所述商品的综合特征值。
得到各特征词的特征值之后,可以将各特征值加权相加得到总特征值,然后将总特征值除以所述商品的总评论数据条数,即可获得所述商品的综合特征值。
本实施例对计算综合特征值优选的一种处理方法,其中步骤310至350可采用前述实施例的对应各步骤基本相似,在此不再详述。
对于步骤350,比如,前述评论数据的:“质量非常好,物超所值,但就是发货很慢,物流太差”的评论者的评论者资深系数为3,那么其特征词“质量”的特征值为1*3=3,“发货”的特征值为-1*3=-3,“物流”的特征值为-1*3=-3。
优选实施例中,会预先建立一个评论者数据库,存储评论者的评论者资深系数。
优选的,通过以下步骤分析所述条评论数据的评论者资深系数;
步骤D10,提取所述条评论数据的评论者在商品信息所属类目下的历史评论数据;
比如一评论者评论了电脑,保健品两个类目的商品信息,如果当前分析的评论数据为电脑类的,那么所述评论者的保健品类的评论数据不相关,可只提前所述评论者电脑类的评论数据。
步骤D20,基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数。
然后即可结合情感词情感词词库和/或特征词词库分析所述评论者的评论者资深系数。
优选的步骤D20可包括:
步骤P11,基于所述情感词词库,分析所述评论者各条评论数据的情感取向值;
步骤P12,统计情感取向值属于正面的评论数据的第一数量,与情感取向值属于负面的评论数据的第二数量;
步骤P13,当所述第一数量与第二数量之差小于阈值,则增加当前评论者资深系数值。
步骤P11至P13即分析所述评论者各条评论数据的情感取向,当所述评论者的正面评论数据数量与负面评论数据数量之差小于阈值,则增加当前评论者资深系数值。
即分析所述评论者的情感极性均分比:所述评论者所有评论数据中,如果正面评论数据和负面评论数据数基本持平,说明所述评论者评论数据较为理性,资深系数+1。可在一定程度上消除评论者非理性的“严厉评论数据”、“激情评论数据”等情况。
和/或,步骤p21,计算评论者的各评论数据中名词和名词性语素出现的总数与所述评论者的评论数据条数的第一比值;
步骤p22,计算目标商品的各的评论数据中名词和名词性语素出现的总数与所述目标商品的评论数据条数的第二比值;所述目标商品对应所述商品信息;
步骤p23,当所述第一比值大于所述第二比值时,则增加当前评论者资深系数值。
步骤P21至步骤P23,计算评论者的评论数据中所有特征词出现的总数与所述评论者的评论数据条数的比值,并计算目标商品的评论数据中所有特征词出现的总数与目标商品的评论数据条数的比值,当所述评论者的比值大于所述目标商品的比值时,则增加当前评论者资深系数值。
即商品特征词评论数据数比:所述值为所有评论数据中特征词出现总数除评论数据条数。如比值较平均值高,这说明所述评论者在评论数据中比较倾向对所述类商品的较多方面作出评论数据。
比如,在类目C下,设系统共抽取N条有效评论数据,N条评论数据中特征属性出现总数(含重复)为F次,商品特征词评论数据数比S,则:
对每一位评论者,其发表的评论数据数为N2,N2条评论数据中特征属性出现总数(含重复)为F2次,所述评论者的商品特征词评论数据数比SC 2,则:
若则所述评论者资深系数+1。
和/或,步骤p31,计算评论者的评论数据中属于特征词词库的名词或名词性语素的总数与所述评论者的评论数据条数的第三比值;
步骤p32,计算目标商品的各评论数据中属于特征词词库的名词或名词性语素的总数与所述目标商品的评论数据条数的第四比值;所述目标商品对应所述商品信息;
步骤p33,当所述第三比值大于所述第四比值时,则增加当前评论者资深系数值。
步骤p31至步骤p33,计算评论者的评论数据中属于特征词词库的特征词的总数与所述评论者的评论数据条数的比值,并计算目标商品的评论数据中属于特征词词库的特征词的总数与目标商品的评论数据条数的比值,当所述评论者的比值大于所述商品的比值时,则增加当前评论者资深系数值。
即高频特征词(即特征词词库中的词)比:高频特征词为统计量,所述评论者评论数据围绕商品特征进行评论数据中,所涉及的高频特征词越多,说明所述用户评论数据措辞较为严谨,可信度较高,故资深系数+1。所述高频特征词即在特征词词库中未标注为非高频特征词的特征词。
在实际中,高频特征词比与商品特征词评论数据数比的区别在于F的定义中特征词的选择。
和/或,步骤p41,计算目标商品的每个评论者的平均评论数据条数,当一评论者的评论数据条数大于所述平均评论数据条数,则增加当前评论者资深系数值;所述目标商品对应所述商品信息。
本步骤即计算评论数据数贡献,所述值同样可以作为反馈率、购买频次的表征。比如抽样显示平均每人评论数据条数为1.7左右,故当所述评论者评论数据条数>=2时,其资深系数+1。
在现有技术中,对于商品的综合特征值的计算是基于每个评论者对商品的评价,比如给予“好评”、“中评”、“差评”中的一个评价,然后系统最终以平均值作为商品的综合特征值,或者比如给予“1星”至“5星”评价,系统最终按星级和人数的加权平均作为商品的综合特征值。以上述方法作为评价评分体系从而导致商品间评分近似,这会带来如下负面影响:
1、对消费者,近似评分不具有实质性参考意义。
2、消费者给予“模板式”的评价反馈,往往与消费者真实意图有一定差距,不够客观。
3、不利于相关或后续应用的开发,如对消费者的个性化推荐、优质商品判定(C2C领域)等。评论数据评分体系往往能提供一些有价值的上下文(context)信息。
4、从评论者角度,没有区分评论者之间的差异。
5、现有技术中还可能存在恶意的负面评价行为,或者欺骗性的正面评价,可能出现“严厉评论数据”、“激情评论数据”,比如,评价者注册新用户名去进行恶意评价或者进行正面评价。但是,现有技术对于上述情况的评价无法有效处理。
而本实施例中,上述步骤结合评论者的评论者资深系数,消费者的评论数据和消费者的“资深程度”得到商品的综合特征值,从而在一定程度上消除商品评价的主观差异,更为客观和科学。
方法实施例四
参照图6,其示出了本申请一种搜索方法实施例一的流程示意图,包括:
步骤410,接收用户端的查询词串;
步骤420,根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合;
步骤430针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序;
步骤440将排序靠前的至少一个商品信息返回给用户端;
其中,所述特征词的特征值获得步骤包括:
步骤S400,预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
步骤S410,根据商品信息,获取对应商品信息的各条评论数据;
步骤S420,根据特征词词库,确定每条评论数据中的特征词;
步骤S430,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
步骤S440,根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
步骤410,接收用户端的查询词串;
接收用户端输入的查询词为“诺基亚”。
步骤420,根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合;
检索搜索引擎中所有与“诺基亚”相关的商品信息,得到包括“诺基亚“的各商品信息的集合。
步骤430,针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序;
根据商品信息的相应评论数据中的特征词的特征值,计算商品信息的排序分值,对各商品信息进行排序。
优选的当所述基于所述特征词词库和情感词词库,对评论数据处理的步骤还包括:
步骤S451,根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
和/或,步骤S452,根据所述各特征词的特征值,计算商品信息的综合特征值。
进一步的所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括:
步骤431,提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序;
即以各目标特征词的第一特征值加入排序权重,对商品信息的排序分值进行计算。
或者,步骤432,根据所述商品信息的综合特征值对所述商品信息进行排序。
即以综合特征值加入排序权重,对商品信息的排序分值进行计算。
步骤440,将排序靠前的至少一个商品信息返回给用户端;
其中所述特征词的特征值获得步骤与方法实施例一至方法实施例三所述基本相似,在此不再详述。
基于本搜索方法,解决了现有技术中由于上述对于短文本的分析效果差,不够精确,导致在搜索引擎中基于短文本的分析结果对目标对象构建搜索引擎时效果不佳,返回给用户端的结果也不够精确的问题。即在采用文本的分析结果让使用户更满意的商品信息进行展示时,本本实施例可提高搜索结果的有效性,减轻用户的访问量,减少相关服务器的访问量,提高处理效率,最终可以进行更好的展示,减少相关网络资源的浪费。
方法实施例五
参照图7,其示出了本申请一种搜索方法实施例二的流程示意图,包括:
步骤510,接收用户端的查询词串;
步骤520,根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合;
步骤530,针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序;
将评论数据的各特征词的特征值,加入排序计算,对卖家店铺进行排序。
步骤540,返回至少一个排序靠前的卖家店铺给用户端;
其中,所述特征词的特征值获得步骤包括:
步骤S500,预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
步骤S510,根据商品信息,获取对应商品信息的各条评论数据;
步骤S520,根据特征词词库,确定每条评论数据中的特征词;
步骤S530,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
步骤S540,根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
对于网络平台的一个卖家店铺来说,其各种商品信息可能存在不同买家的评论数据,那么也可根据本申请对评论数据处理得到的评论数据的特征词的特征值,在用户搜索卖家店铺时,将该特征值作为一个维度进行卖家店铺的排序分值计算。
基于本搜索方法,解决了现有技术中由于上述对于短文本的分析效果差,不够精确,导致在搜索引擎中基于短文本的分析结果对目标对象构建搜索引擎时效果不佳,返回给用户端的结果也不够精确的问题。即在采用文本的分析结果让使用户搜索买家店铺时,可优先展示评论数据量大的或者评论好的卖家店铺,因此本实施例可提高搜索结果的有效性,减轻用户的访问量,减少相关服务器的访问量,提高处理效率,最终可以进行更好的展示,减少相关网络资源的浪费。
其中所述特征词的特征值获得步骤与方法实施例一至方法实施例三所述基本相似,在此不再详述。
方法实施例六
参照图8,其示出了本申请一种评论数据展示方法实施例一的流程示意图,包括:
步骤610,接收用户端的对应商品信息的查看请求;
步骤620,根据所述查看请求对应的商品信息,提取所述商品信息的评论数据的各特征词及特征值,并根据所述特征词及特征值进行展示;
其中,所述商品信息的各特征词及特征值获得步骤包括:
步骤S600,预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
步骤S610,根据商品信息,获取对应商品信息的各条评论数据;
步骤S620,根据特征词词库,确定每条评论数据中的特征词;
步骤S630,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
步骤S640,根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值;
步骤S650,将所述特征词的各特征值进行汇总计算。
在步骤S650中,将所述特征词的各特征值进行汇总计算包括:
步骤S651,根据预置的特征词与目标特征词的多对一或者一对一关系,在同一目标特征词下,汇总不同情感取向值对应的评论数据条数;
步骤S652,对各情感取向值以评论数据条数为权重进行加权平均计算,获得目标特征词的第一特征值。
本实施例,将汇总后的特征词及对应的特征值进行展示,以方便用户选择和查询,避免逐条查看,避免用户大量的重复的查看请求,可降低服务器的负载,减少相关网络资源的浪费。
其中所述特征词的特征值获得步骤与方法实施例一至方法实施例三所述基本相似,在此不再详述。
装置实施例一
参照图9,其示出了本申请一种评论数据处理装置实施例一的结构示意图,包括:
特征词词库710和情感词词库720;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块730,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块740,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块750,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块760,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
装置实施例二
参照图10,其示出了本申请的一种搜索系统实施例一的结构示意图,包括:
所述搜索引擎810和评论数据处理装置820;
所述搜索引擎包括:
查询接收模块811,用于接收用户端的查询词串;
检索模块812,用于根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合;
排序模块813,用于针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序;
返回模块814,用于将排序靠前的至少一个商品信息返回给用户端;
所述评论数据处理装置820包括:
特征词词库S811和情感词词库S812;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块S813,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块S814,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块S815,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块S816,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
所述评论数据处理装置还包括:
第一特征值计算模块,用于根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
和/或,综合特征值计算模块,用于根据所述各特征词的特征值,计算商品信息的综合特征值。
所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括:
第一排序模块,用于提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序;
或者,第二排序模块,用于根据所述商品信息的综合特征值对所述商品信息进行排序。
所述搜索引擎根据客户端输入的关键词查询商品,将商品的标识发送给商品数据库,并将商品数据库返回的结果展示给客户端;所述的商品数据库根据商品的标识将商品信息返回给搜索引擎。
在实际中,本系统实现上采用了MySQL+BerkeleyDB(Berkeley DB是一个开放源代码的内嵌式数据库管理系统,能够为应用程序提供高性能的数据管理服务)作为数据库,J2EE(即Java 2Platform Enterprise Edition。是Sun公司为Java企业级应用推出的标准平台,J2EE包含J2SE中的类,并且还包含用于开发企业级应用的类,如EJB、servlet、JSP、XML、事务控制)基本MVC(模型(Model),视图(View)和控制Controller),MVC模式实现Web系统的各个模块的分工)框架作为web端框架。
其中,Mysql主要承担索引和搜索功能。客户端以关键词进行一次查询(Query),其向Berkeley DB返回匹配商品数字Id。Berkeley DB具有Nosql(指区别于传统关系型数据库(如MySQL)的非关系型的数据库)非关系型数据库的优点,支持百万商品级别(评论数据数千万级别)的快速检索和较高的可扩展性。在循环查询匹配的商品记录后,Berkeley DB向系统的服务端返回经包处理后的商品特征、情感取向信息及打分信息等商品信息。
装置实施例三
参照图11,其示出了本申请的一种搜索系统实施例二的结构示意图,包括:
搜索引擎910和评论数据处理装置920;
所述搜索引擎包括:
第一查询接收模块911,用于接收用户端的查询词串;
第一检索模块912,用于根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合;
第一排序模块913,用于针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序;
第一返回模块914,用于返回至少一个排序靠前的卖家店铺给用户端;
所述评论数据处理装置包括:
特征词词库S911和情感词词库S912;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块S913,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块S914,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块S915,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块S916,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
装置实施例四
参照图12,其示出了本申请的评论数据展示装置实施例一的结构示意图,包括:
查看请求接收模块1110,用于接收用户端的对应商品信息的查看请求;
展示模块1120,用于根据所述查看请求对应的商品信息,提取所述商品信息的各特征词及特征值,并根据所述特征词及特征值进行展示;
其中,所述商品信息的各特征词及特征值获得的模块包括:
特征词词库S1110和情感词词库S1120;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
数据获取模块S1130,用于根据商品信息,获取对应商品信息的各条评论数据;
特征词获取模块S1140,用于根据特征词词库,确定每条评论数据中的特征词;
情感词确认模块S1150,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
特征值计算模块S1160,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值;
汇总模块S1170,用于针对相同的特征词,将所述特征词的各特征值进行汇总。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在所述计算机可读存储器中的指令产生包括指令装置的制造品,所述指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上对本申请所提供的一种评论数据处理方法和装置、一种搜索方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。