CN110929175A - 对用户评价进行评估的方法、装置、系统及介质 - Google Patents
对用户评价进行评估的方法、装置、系统及介质 Download PDFInfo
- Publication number
- CN110929175A CN110929175A CN201810998910.1A CN201810998910A CN110929175A CN 110929175 A CN110929175 A CN 110929175A CN 201810998910 A CN201810998910 A CN 201810998910A CN 110929175 A CN110929175 A CN 110929175A
- Authority
- CN
- China
- Prior art keywords
- word
- commodity
- words
- user
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 210
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012706 support-vector machine Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种对用户评价进行评估的方法。所述方法包括:获取第一用户评价文本;获取所述第一用户评价文本的第一特征向量,其中,所述第一特征向量包括N个通用元素和R个特有元素,所述N个通用元素表征所述第一用户评价文本与通用词库的匹配信息,所述R个特有元素表征所述第一用户评价文本与第一商品的特有词库的匹配信息,所述第一商品为所述第一用户评价文本所评价的商品,其中,所述通用词库与所述第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数;通过分类器对所述第一特征向量进行分类;以及基于对所述第一特征向量的分类结果,确定所述第一用户评价文本的评估指标。本公开还提供了一种对用户评价进行评估的装置、系统和介质。
Description
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种对用户评价进行评估的方法、装置、系统及介质。
背景技术
随着互联网的发展,人们开始在网络上进行各式各样的活动,对各种事件、或者产品等通过评论或评价等方式发表自己看法或者见解。用户评价中往往包含有有价值的信息,例如用户自身的喜好倾向,或者,用户对所评价的商品或事物在价值维度的看法。然而,互联网中,用户评价的品质参差不齐。其中不乏打广告的,谩骂争吵的,恶意攻击的,或者因为想得到评论奖励的复制粘贴的无意义的评价等。而有意义价值的用户评价,质量也高低不同,评价所提供的信息的饱满度不同、价值也不同。具体而言,用户评价的饱满度例如可以是用户评价所涉及的方面,用户评价的价值例如可以是能够提供给其他网络参与者的有用信息的程度。优质的用户评价中往往能够为其他用户或者生产厂家提供有价值的信息,促进消费和产品升级等。可见,从海量的用户评价中,识别出优质的用户评价,对于优化互联网信息、提高用户参与互动等非常重要。
发明内容
有鉴于此,本公开提供了一种能够识别用户评价的饱满度和价值的对用户评价进行评估的方法、装置、系统及介质。
本公开的一个方面提供了一种对用户评价进行评估的方法。所述方法包括:获取第一用户评价文本;获取所述第一用户评价文本的第一特征向量,其中,所述第一特征向量包括N个通用元素和R个特有元素,所述N个通用元素表征所述第一用户评价文本与通用词库的匹配信息,所述R个特有元素表征所述第一用户评价文本与第一商品的特有词库的匹配信息,所述第一商品为所述第一用户评价文本所评价的商品,其中,所述通用词库与所述第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数;通过分类器对所述第一特征向量进行分类;以及基于对所述第一特征向量的分类结果,确定所述第一用户评价文本的评估指标。
根据本公开的实施例,所述方法还包括提取所述第一用户评价文本中的至少部分词,得到第一词语集合。所述获取所述第一用户评价文本的第一特征向量,包括基于所述第一词语集合与所述通用词库的匹配结果,获得所述N个通用元素中每个元素的值,以及基于所述第一词语集合与所述第一商品的特有词库的匹配结果,获取所述R个特有元素中每个元素的值。
根据本公开的实施例,所述通用词库包括至少一个通用高频词集合,所述通用高频词集合包括N个词。所述第一商品的特有词库包括R个不同的第一商品特有词集合,其中所述R个不同的第一商品特有词集合相互之间无交集。所述获取所述第一用户评价文本的第一特征向量,包括基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值,以及基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值。
根据本公开的实施例,基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值,包括基于所述通用高频词集合中的每个词是否出现在所述第一词语集合,对应获得所述N个通用元素中每个元素的值。
根据本公开的实施例,基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值,包括基于所述R个不同的第一商品特有词集合与所述第一词语集合形成的R个交集中的元素的个数,对应得到所述R个特有元素中每个元素的值。
根据本公开的实施例,所述第一商品为第一平台提供的全部商品其中之一,所述第一平台通过层级分类将所述全部商品分类至不同类目,其中,所述层级分类的最上层包括所述全部商品,在所述最上层之外所述层级分类还包括至少R层。所述通用高频词集合,包括在预定时间内对所述全部商品进行评价而产生的用户评价文本中出现频率最高的N个词的集合。所述R个不同的第一商品特有词集合,包括在所述R层的每一层中所述第一商品所在的类目对应的类目属性集合,所述类目属性集合为在所述预定时间内对该类目中的商品进行评价的用户评价文本中符合预定条件的词的集合,其中,所述预定条件包括同一词不同时属于具有父子关系的类目对应的类目属性集合中。
根据本公开的实施例,所述第一特征向量还包括至少一个自有元素,所述自有元素用于表征所述第一用户评价文本中与所述通用词库和所述第一商品的特有词库均没有匹配上的词的信息。
根据本公开的实施例,所述方法还包括通过机器学习训练所述分类器。
根据本公开的实施例,所述分类器包括支持向量机SVM分类器,分类中可供选择的目标分类群的数量大于2。所述通过分类器对所述第一特征向量进行分类,包括对于每一个目标分类群,通过与该目标分类群对应的SVM分类器,确定所述第一特征向量属于该目标分类群的概率,以及将所述第一特征向量分类至概率最大时对应的目标分类群。
本公开的第二方面还提供了一种对用户评价进行评估的装置。所述装置包括评价获取模块、特征向量获取模块、分类模块以及评估模块。评价获取模块用于获取第一用户评价文本。特征向量获取模块用于获取所述第一用户评价文本的第一特征向量,其中,所述第一特征向量包括N个通用元素和R个特有元素,所述N个通用元素表征所述第一用户评价文本与通用词库的匹配信息,所述R个特有元素表征所述第一用户评价文本与第一商品的特有词库的匹配信息,所述第一商品为所述第一用户评价文本所评价的商品,其中,所述通用词库与所述第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数。分类模块用于通过分类器对所述第一特征向量进行分类。评估模块用于基于对所述第一特征向量的分类结果,确定所述第一用户评价文本的评估指标。
根据本公开的实施例,所述装置还包括提取模块。提取模块用于提取所述第一用户评价文本中的至少部分词,得到第一词语集合。所述特征向量获取模块,具体用于基于所述第一词语集合与所述通用词库的匹配结果,获得所述N个通用元素中每个元素的值,以及基于所述第一词语集合与所述第一商品的特有词库的匹配结果,获取所述R个特有元素中每个元素的值。
根据本公开的实施例,所述通用词库包括至少一个通用高频词集合,所述通用高频词集合包括N个词;所述第一商品的特有词库包括R个不同的第一商品特有词集合,其中所述R个不同的第一商品特有词集合相互之间无交集。所述特征向量获取模块,具体用于基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值,以及基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值。
根据本公开的实施例,基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值,包括基于所述通用高频词集合中的每个词是否出现在所述第一词语集合,对应获得所述N个通用元素中每个元素的值。
根据本公开的实施例,基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值,包括基于所述R个不同的第一商品特有词集合与所述第一词语集合形成的R个交集中的元素的个数,对应得到所述R个特有元素中每个元素的值。
根据本公开的实施例,所述第一商品为第一平台提供的全部商品其中之一,所述第一平台通过层级分类将所述全部商品分类至不同类目,其中,所述层级分类的最上层包括所述全部商品,在所述最上层之外所述层级分类还包括至少R层。所述通用高频词集合,包括在预定时间内对所述全部商品进行评价而产生的用户评价文本中出现频率最高的N个词的集合。所述R个不同的第一商品特有词集合,包括在所述R层的每一层中所述第一商品所在的类目对应的类目属性集合,所述类目属性集合为在所述预定时间内对该类目中的商品进行评价的用户评价文本中符合预定条件的词的集合,其中,所述预定条件包括同一词不同时属于具有父子关系的类目对应的类目属性集合中。
根据本公开的实施例,所述第一特征向量还包括至少一个自有元素,所述自有元素用于表征所述第一用户评价文本中与所述通用词库和所述第一商品的特有词库均没有匹配上的词的信息。
根据本公开的实施例,所述装置还包括分类器训练模块。所述分类器训练模块用于通过机器学习训练所述分类器。
根据本公开的实施例,所述分类器包括支持向量机SVM分类器,分类中可供选择的目标分类群的数量大于2。所述分类模块,具体用于对于每一个目标分类群,通过与该目标分类群对应的SVM分类器,确定所述第一特征向量属于该目标分类群的概率,以及将所述第一特征向量分类至概率最大时对应的目标分类群。
本公开的另一方面还提供了一种对用户评价进行评估的系统。所述系统包括一个或多个处理器,以及存储一个或多个程序的存储装置。其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的对用户评价进行评估的方法。
本公开的另一方面还提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的对用户评价进行评估的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,在对用户评价进行分析时,同时提取了用户评价文本与通用词库和商品的特有词库的匹配信息,样可以一定程度上反映出一条用户评价文本的饱满度(即反映该用户评价文本中的信息都涉及了哪些方面),并且可以根据匹配信息的具体取值来反映一条用户评价文本中所含信息的价值,然后对提取的第一特征向量进行分类,并根据分类结果获得对第一用户评价文本的评估指标。这样,根据本公开实施例的方法得到的用户评价文本的评估结果,可以综合反映一条用户评价文本的饱满度和价值。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用对用户评价进行评估的方法和装置的示例性系统架构100;
图2示意性示出了根据本公开实施例的对用户评价进行评估的方法的流程图;
图3示意性示出了根据本公开另一实施例的对用户评价进行评估的方法的流程图;
图4示意性示出了根据本公开实施例的对商品进行层级分类的分类结构示意图;
图5示意性示出了根据本公开一实施例的第一特征向量的示例;
图6示意性示出了根据本公开实施例的对用户评价进行评估的方法中对第一特征向量进行分类的流程图;
图7A示意性示出了根据本公开实施例的对用户评价进行评估的方法中通过机器学习训练分类器的方法流程图;
图7B示意性示出了利用图7A训练的分类器对对用户评价进行评估的方法流程图;
图8示意性示出了根据本公开实施例的对用户评价进行评估的方框图;以及
图9示意性示出了根据本公开实施例的适于实现对用户评价进行评估的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
互联网中的用户评价中包含了大量的信息。例如,该用户自身的特性(尤其是取向特性),或者该用户所评价的事物的特性(比如价值维度)。对用户评价的指令进行评估,识别出其饱满度和价值度,可以鼓励用户更加积极地提供自己的意见和看法,也可以在进行更深入的语义分析之前,剔除大量的冗余的无意义的评论,提高语义分析的效率。本公开的实施例提供了一种对用户评价进行评估的方法,该方法可以用于对用户评价进行评估,在一定程度上可以综合反映一条用户评价文本的饱满度和价值。相应地,本公开实施例还提供了一种对用户评价进行评估的装置、系统和介质。该装置、系统或介质可以用于实现本公开实施例提供的对用户评价进行评估的方法。
根据本公开的实施例,该对用户评价进行评估的方法包括:获取第一用户评价文本;获取该第一用户评价文本的第一特征向量,其中,该第一特征向量包括N个通用元素和R个特有元素,该N个通用元素表征该第一用户评价文本与通用词库的匹配信息,该R个特有元素表征该第一用户评价文本与第一商品的特有词库的匹配信息,该第一商品为该第一用户评价文本所评价的商品,其中,该通用词库与该第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数;通过分类器对该第一特征向量进行分类;以及基于对该第一特征向量的分类结果,确定该第一用户评价文本的评估指标。
根据本公开的实施例,可以一定程度上有效地对用户评价进行评估,从而可以帮助识别出优质的用户评价,可以优化互联网信息提供的机制,鼓励用户更加积极地提供自己的意见和看法,提高用户体验。
根据本公开的实施例,在对用户评价进行分析时,同时提取了用户评价文本与通用词库和商品的特有词库的匹配信息,样可以一定程度上反映出一条用户评价文本的饱满度(即反映该用户评价文本中的信息都涉及了哪些方面),并且可以根据匹配信息的具体取值来反映一条用户评价文本中所含信息的价值。以此方式,根据本公开实施例的方法得到的用户评价文本的评估结果,可以综合反映一条用户评价文本的饱满度和价值。
根据本公开的实施例,在对用户评价进行分析时,同时提取了用户评价文本与通用词库和商品的特有词库的匹配信息。从而,根据本公开实施例的方法,可以适用于任意一条用户评价的评估,而不需要对不同的用户评价按照类目细分后再评估,提高了对用户评价进行评估的效率。
图1示意性示出了根据本公开实施例的可以应用对用户评价进行评估的方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。用户可以在终端设备101、102、103上撰写用户评价,该用户评价的信息可以通过网络104发送至服务器105。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。例如,服务器105可以对用户通过终端设备101、102、103上传的用户评价进行处理,以特定的格式(例如文本格式等)反馈并展示于终端设备101、102、103。
需要说明的是,本公开实施例所提供的对用户评价进行评估的方法一般可以由服务器105执行。相应地,本公开实施例所提供的对用户评价进行评估的装置一般可以设置于服务器105中。本公开实施例所提供的对用户评价进行评估的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的对用户评价进行评估的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的对用户评价进行评估的方法的流程图。
如图2所示,根据本公开的实施例,该对用户评价进行评估的方法包括操作S201~操作S204。
在操作S201,获取第一用户评价文本。
然后在操作S202,获取第一用户评价文本的第一特征向量,其中,该第一特征向量包括N个通用元素和R个特有元素,该N个通用元素表征该第一用户评价文本与通用词库的匹配信息,该R个特有元素表征该第一用户评价文本与第一商品的特有词库的匹配信息,该第一商品为该第一用户评价文本所评价的商品,其中,该通用词库与该第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数。
在操作S203,通过分类器对第一特征向量进行分类。在一些实施例中,可以通过机器学习来训练分类器,从而构建分类模型。
在操作S204,基于对第一特征向量的分类结果,确定该第一用户评价文本的评估指标。该分类结果,例如可以是预先设置好几个目标分类群,每个目标分类群对应一个或多个评估指标(例如,评估得分等)。根据第一特征向量被分到的目标分类群对应的评估指标,确定第一评价文本的评估指标。
例如,可以按照十分制设置分类群。比如,对应于0分~10分设置11个目标分类群。再例如,还可以设置分数越高的目标分类群中的用户评价的质量越好,提供的有价值的信息越多。例如,当该第一用户评价文本被分到0分的群时,可以表示该第一用户评价毫无意义。这种情况可以见于,例如该第一用户评价属于垃圾、广告、谩骂、无意义信息等的情况。相应地,当该第一用户评价被分到1-10分中某一个分数对应的群时,分数越高则表示该第一用户评价的质量越好,提供的有价值的信息越多。
根据本公开的实施例,可以一定程度上有效地对用户评价进行评估,从而可以帮助识别出优质的用户评价,可以优化互联网信息提供的机制,鼓励用户更加积极地提供自己的意见和看法,提高用户体验。
根据本公开的实施例,在对用户评价进行分析时,同时提取了用户评价文本与通用词库和商品的特有词库的匹配信息,样可以一定程度上反映出一条用户评价文本的饱满度(即反映该用户评价文本中的信息都涉及了哪些方面),并且可以根据匹配信息的具体取值来反映一条用户评价文本中所含信息的价值,然后对提取的第一特征向量进行分类,并根据分类结果获得对第一用户评价文本的评估指标。这样,根据本公开实施例的方法得到的用户评价文本的评估结果,可以综合反映一条用户评价文本的饱满度和价值。
根据本公开的实施例,可以通过维护一个平台内的通用词库以及该平台中各种商品的特有词库,就可以对于一个平台内的任意的用户评价文本应用根据本公开实施例的对用户评价进行评估的方法,来评估该用户评价文本的质量。
根据本公开的一些实施例,可以通过机器学习训练分类器。根据本公开的实施例,可以通过分类器对第一用户评价文本的第一特征向量进行分类,获得第一用户评价文本的评估指标。具体地,可以通过分群算法实现。例如,如果是十分制,每一分对应一个群,则可以有11个群。该分类器例如可以通过神经网络、线性回归、或者SVM支持向量机等来构建。
根据本公开的实施例,该第一特征向量,同时包括了第一用户评价文本与通用词库和第一商品的特有词库的匹配信息。从而,在通过机器学习进行分类器训练时可以不用对每个类别的商品的用户评价文本分别训练分类器。以此方式,该对用户评价进行评估的方法,对于一个平台内的任意的用户评价文本使用相同的分类器模型。换言之,对于该平台内的任意用户评价文本,均可以通过一个通用的分类器进行分类,降低了训练分类器的成本,提高了对用户评价文本进行评估的效率。
图3示意性示出了根据本公开另一实施例的对用户评价进行评估的方法的流程图。
如图3所示,根据本公开的实施例,该对用户评价进行评估的方法可以包括操作S201~操作S204,以及操作S301,其中操作S202具体包括操作S202A和操作S202B。
具体地,在操作S301,提取该第一用户评价文本中的至少部分词,得到第一词语集合。
具体地,例如可以对该第一用户评价文本进行预处理,例如分词、以及去停用词,然后提取得到第一评价文本中的至少部分有意义的词(例如,名词、形容词、或者动词等)。预处理时,在一些情形中,还可以将一些能够从形式上直接识别出的、对用户评价文本的质量没有贡献的信息统一处理为特定的字符。例如,若第一用户评价文本为用户对商品的评价时,也可以将第一用户评价文本中的数字、电话、邮箱、地址、链接等处理为特定的符号表示。比如数字用“NUM”表示,电话用“PNUM”表示,邮箱用“EM”,地址用“ADDR”,链接用“LINK“。这样,可以减少在获取第一特征向量时分析大量的重复性的无效的信息。
根据本公开的实施例,操作S202中获取该第一用户评价文本的第一特征向量,具体通过操作S202A和操作S202B来实现。
在操作S202A,基于该第一词语集合与该通用词库的匹配结果,获得该N个通用元素中每个元素的值。
以及,在操作S202B,基于该第一词语集合与该第一商品的特有词库的匹配结果,获取该R个特有元素中每个元素的值。
根据本公开的实施例,该通用词库包括至少一个通用高频词集合,该通用高频词集合包括N个词。该第一商品的特有词库包括R个不同的第一商品特有词集合,其中该R个不同的第一商品特有词集合相互之间无交集。其中,操作S202A具体可以是,基于该第一词语集合与该通用高频词集合的匹配结果,按照第一规则计算该N个通用元素中每个元素的值。操作S202B具体可以是,基于该第一词语集合与该R个不同的第一商品特有词集合的匹配结果,按照第二规则计算该R个特有元素中每个元素的值。
根据本公开的实施例,该第一商品为第一平台提供的全部商品其中之一,该第一平台通过层级分类将该全部商品分类至不同类目,其中,该层级分类的最上层包括该全部商品,在该最上层之外该层级分类还包括至少R层。该通用高频词集合,包括在预定时间内对该全部商品进行评价而产生的用户评价文本中出现频率最高的N个词的集合。该R个不同的第一商品特有词集合,包括在该R层的每一层中该第一商品所在的类目对应的类目属性集合,该类目属性集合为在该预定时间内对该类目中的商品进行评价的用户评价文本中符合预定条件的词的集合,其中,该预定条件包括同一词不同时属于具有父子关系的类目对应的类目属性集合中。具体地,该第一平台提供的全部商品的层级分类结构例如可以参照图4的示意。
图4示意性示出了根据本公开实施例的对商品进行层级分类的分类结构示意图。
如图4所示,该第一平台的全部商品按照层级结构分为三层。第一层包括全部商品,位于最上层。此外还包括第二层和第三层两层。其中第二层为对全部商品进行一级分类后得到的各个商品类目。第三层为每个类目中所包括的商品。在图4示意的层级分类中,R=2。可以理解,图4所示的层级结构仅是一种示例。在另外一些实施例中,商品的层级分类可以有更多层,例如四层、五层更多细分类别。在一些实施例中,商品可以仅分为两层,即全部商品的下一层即为具体的商品,例如,对于一些商品类别比较少的平台就可以这样简易分类。
表1示例性示出了与图4的层级分类对应的通用高频词集合、以及与“手机”相关联的特有词集合。以下以图4所示的第一平台的全部商品的层级结构为例,以第一商品为“手机”,结合表1说明通用高频词集合和R个不同的第一商品特有词集合的具体内容。
在一些实施例中,可以通过统计在预定时间(例如,一个季度等)内在该第一平台中产生的用户评价文本中出现频率最高的N个词的集合,得到通用高频词集合。例如,可以统计一个季度内该第一平台中对所有商品进行评价产生的高频词。具体地,例如可以对该一个季度内该第一平台中对所有商品进行评价而产生的所有用户评价文本进行预处理,获得每条用户评价文本对应的词语集合,然后从这些词语集合中统计出出现高频最高的N个词,存入V={wd1,wd2,…,wdn},从而得到该通用高频词集合。例如,该N个词可以是“好”,“好好”,“非常好”,“真棒”,“爸爸”,“妈妈”,“节日”,“快递”,“速度”等,如表1中的通用高频词集合。
“手机”在图4的第二层中属于“手机数码”类目。例如,可以通过统计获得的对“手机数码”类目所包括的商品进行评价的用户评价文本中一定数量的高频词,然后,再这些一定数量的高频词中剔除掉已经被计入上述通用高频词集合V中的词,然后将剩余的词存入VCi={wd1,wd2,…,wdm}得到“手机数码”类目属性集合。例如,“手机数码”类目对应的类目属性词集合可以包括“手机”,“屏幕”,“拍照”,“清晰”,“死机”等,如表1中所示的手机数码类目属性集合。
图4中的第三层为具体商品。“手机”在图4的第三层中即为手机商品本身。为获取手机(商品)类目属性集合,例如,可以通过统计对手机这一个或一类商品进行评价的用户评价文本中的一定数量高频词,并剔除已经计入手机数码类目属性集合VCj、以及通用高频词集合V中的词,然后将剩余的词存入VCiPj={wd1,wd2,…,wdk}。在一些实施例中,在统计对手机这一个或一类商品的用户评价文本中的高频词的同时,还可以通过爬取“手机”这一商品的商品主页及店铺主页上记载的对手机这一商品进行描述的所有有意义的词,然后同样要剔除已经计入手机数码类目属性集合VCj、以及通用高频词集合V中的词,之后,将剩余的词存入VCiPj={wd1,wd2,…,wdk}。该手机(商品)类目属性集合VCiPj例如可以包括“苹果”,“Apple”,“深空”,“灰色”,“全面屏”等,如表1中的手机(商品)类目属性集合所示。
表1
根据本公开的实施例,同一词不同时属于具有父子关系的类目对应的类目属性集合中。例如,在获取“手机数码”类目对应的类目属性集合时,剔除掉已经被计入通用高频词集合中的词。又例如,在获取手机(商品)类目属性集合时,剔除掉已经计入手机数码类目属性集合、以及通用高频词集合中的词。以此方式,可以使得在操作S202中获取第一特征向量时计入更多不同维度的、有价值的信息,避免重复信息的冗余。
根据本公开的实施例,在构建词库时,按照商品层级分类,不但构建通用词库,还提取各个类目对应的类目属性词集合,构建不同商品的特有词库。从而,可以使得评估得到的优质的用户评价文本所提供的产品的细节信息更过,用户使用感受更加丰富。相反,如果只是用通用的词库来匹配,则不能很好的识别商品特有的细节信息等。根据本公开的实施例,在获取一个用户评价文本的第一特征向量时,既使用通用词库进行匹配,也是用商品特有的分级词库进行匹配,从而既可以识别用户评价文本与商品的相关度,也可以识别用户评价文本内容的丰富程度。
可以理解,图4和表1中仅示意了三次的层级分类的情况。如果分类的层级更多,则可以相应考虑细化词库的分级,或者从层级分类有选择性的抽取某些层中来建立商品特有词库。比如说,袜子的上层类目可以是服饰。或者,也可以是袜子的上层类目是配饰,配饰的上层类目是服饰。具体地,当选择的商品层级分类不同时,对应选择增加或减少对应的商品特有词库的数量。
图5示意性示出了根据本公开一实施例的第一特征向量的示例。继续以第一商品为“手机”,结合图4和表1,说明图5中第一特征向量的组成。
根据本公开的实施例,操作S202A中基于第一词语集合与该通用高频词集合的匹配结果,按照第一规则计算该N个通用元素中每个元素的值,具体可以是基于该通用高频词集合中的每个词是否出现在该第一词语集合,对应获得该N个通用元素中每个元素的值。例如图5中的N个通用元素,每个元素的值是0或1,0可以代表通用高频词集合V中对应位置的词没有出现在第一词语集合中,1可以代表通用高频词集合V中对应位置的词出现在第一词语集合中。
根据本公开的实施例,操作S202B中基于该第一词语集合与该R个不同的第一商品特有词集合的匹配结果,按照第二规则计算该R个特有元素中每个元素的值,具体可以是基于该R个不同的第一商品特有词集合与该第一词语集合形成的R个交集中的元素的个数,对应得到该R个特有元素中每个元素的值。例如图5中第N+1和第N+2个元素分别是10和2,其中,10可以代表例如“手机数码”类目属性集合VCi中的词与第一词语集合的交集中有10个词,2可以代表手机(商品)类目属性集合VCiPj与第一词语集合中的交集中有2个词。
根据本公开的实施例,该第一特征向量还包括至少一个自有元素,该自有元素用于表征该第一用户评价文本中与该通用词库和该第一商品的特有词库均没有匹配上的词的信息。例如图5中第N+3个元素为28,这可以代表在从第一用户评价文本中提取的第一词语集合中,还有28个词没有与通用高频词集合V、手机数码”类目属性集合VCi以及手机(商品)类目属性集合VCiPj匹配上。
如上所述,图5的示例中,前N个元素表示该第一用户评价文本中和通用高频词集合V匹配后的结果,数值为0表示不匹配,数值为1表示匹配。第N+1个元素表示该第一用户评价文本中出现和“手机数码”类目属性集合VCi匹配的词的数量;第N+2个元素表示该第一用户评价文本中出现和手机(商品)类目属性集合VCiPj匹配的词的数量;第N+3个元素表示该第一用户评价文本中去除停用词后没有在词库中出现的有意义的词的数量。
在图5的示例中,该至少一个自有元素具体为第N+3个元素的值,表示的是该第一用户评价文本中去除停用词后没有在词库中出现的有意义的词的数量。这一部分信息可以反映出该第一用户评价文本的独特性,为分析该第一用户评价的饱满度提供有价值的信息。
图6示意性示出了根据本公开实施例的对用户评价进行评估的方法中操作S203对第一特征向量进行分类的流程图。
如图6所示,该分类器包括支持向量机SVM分类器,分类中可供选择的目标分类群的数量大于2,操作S203可以包括操作S213和操作S223。
在操作S213,对于每一个目标分类群,通过与该目标分类群对应的SVM分类器,确定该第一特征向量属于该目标分类群的概率。
在操作S223,将该第一特征向量分类至概率最大时对应的目标分类群。
以下以前述按照十分制,对应于0分~10分设置11个分类群为例进行说明。
例如,该11个分类群对应的SVM分类器可以表示为θ0,θ1,θ2,...,θc,...,θ10,其中θc为矩阵,上标c为被分到每个分类群中的用户评价文本对应的评分,10为最高分。c的值越高,表示评价的质量越好,若c为0,则表示该评论完全没有提供任何有益信息。
具体在操作S213中,可以将该第一用户评价文本对应的第一特征向量输入至每个SVM分类器θc,通过每个SVM分类器θc将第一特征向量转换得到其相似度向量f,并进一步得到并输出(θc)Tf(适用于带kernel的SVM)或者(θc)Tx(适用于linear kernel),其中(θc)Tf或者(θc)Tx可以用于表征第一特征向量属于θc对应的目标分类群的概率。
然后在操作S223中,确定第一用户评价文本所所属的目标分类群为(θc)Tf或者(θc)Tx为最大值时对应的目标分类群θc。相应的,该第一用户评价文本的评估得分为c。
根据本公开的实施例,分类器模型的建立可以通过机器学习的方法实现。以下结合图7A的实例详细说明通过机器学习训练分类器的过程,以及结合图7B的实例说明应用图7A得到的分类器对用户评价进行评估的具体执行。
图7A示意性示出了根据本公开实施例的对用户评价进行评估的方法中通过机器学习训练分类器的方法流程图。
如图7A所示,该实例中通过机器学习训练分类器的方法包括操作S701~S707。
在操作S701,按照第一平台内商品的层级分类(例如图4示意的层级分类结构),收集预定时间内对全部商品进行评价的用户评价文本。并且通过人工对每一个用户评价文本进行评分,以及将人工评分作为分类器训练的参考标准。
接着,在操作S702,对每个用户评价文本进行预处理(例如,分词,或者去停用词等),获取其中有意义的词。
然后,在操作S703,提取出收集到的所有用户评价文本中出现频率最高的N个词,得到例如表1中示出的通用高频词集合V。根据本公开的实施例,可以通过该通用高频词集合V来构建通用词库。
接着,在操作S704,对于例如图4示意的全部商品进行一次分类后得到的每一个类目,提取出该类目中所有商品的用户评价文本中出现的一定数量的高频词,并剔除其中与通用高频词集合V中重合的词,从而得到一级类目属性词集合VCi。相应地,若图4的层级分类为四层或五层分类是,对于其他层级类目,也参考操作S704的方法,得到该类目的属性词集合。
再然后,在操作S705,对于图4示意中层级分类中的最末层的每个商品,提取出对该商品进行评价的用户评价文本中的高频词、和/或该商品主页中对该商品进行描述的词,并剔除其中与通用高频词集合V和一级类目属性词集合VCi重复的词,得到该商品属性词集合VCiPj。
至此,可以根据一级类目属性词集合VCi构建一级类目属性词库,相应地,若存在有其他层级类目属性词集合则也可以对应得到其他层级类目属性词库。同时,根据商品属性词集合VCiPj构建每种商品的属性词库,一个层级类目属性词库(例如,一级类目属性词库、或其他层级类目属性词库)和一个商品的属性词库均反映的是该第一平台中用户对特定范围内的商品进行评价的统计特性。对于一个确定的商品,其对应的层级类目属性词库和商品的属性词库就构成了该商品的多个特有词库。
再然后,在操作S706,将每条用户评价文本与通用词库和该用户评价文本所针对的商品的特有词库进行匹配,按照操作S202获得每条用户评价文本的特征向量x,例如图5的示意。
最后,在操作S707,将每条用户评价文本的特征向量输入至分类器(例如,SVM分类器)。通过分类器对每条用户评价文本进行分类,并根据分类器输出的评分结果与操作S701中得到的人工评分的比较,反复训练分类器。
SVM是一种超平面分群法,但一个SVM支持向量机只能分两部分。因此,若如前所述采用十分制(不包括0分),总共有11群,需要对每个目标分类群设置对应的SVM分类器,分别可以表示为θ0,θ1,θ2,...,θc,...,θ10,其中θc表示对应于目标分类群c的SVM支持向量机的矩阵。在一些实施例中,可以采用有核SVM或者无核SVM,得到最后的评分的方式也略有不同,
在通过机器训练构建分类器的过程中,如果对每个类别的商品或者每个商品都分别做一个评估用户评价文本的分类器模型无疑是十分消耗人力的。而且在这种情况下,若商品的类目增加、或者商品增加以后都需要训练新的分类器。相反,根据本申请的实施例,通过构建通用高频词集合(或通用词库)和层级分类中不同类目对应的类目属性词集合(或商品的特有词库),然后通过用户评价文本与词库的匹配提取用户评价文本对应的特征向量,则可以规避对每个类别的商品或者每个商品都分别做一个用户质量评价的分类器模型的问题。而且,通用高频词集合(或通用词库)和层级分类中不同类目对应的类目属性词集合(或商品的特有词库)的构建可以用计算机自动收集的,可以有效提高分类器训练效率,并进而提高对用户评价文本进行评价的效率。
图7B示意性示出了利用图7A训练的分类器对对用户评价进行评估的方法流程图。
在图7B中,该对用户评价进行评估的方法包括操作S711~操作S716。
在操作S711,获取第一用户评价文本。具体与操作S201类似。
在操作S712,对第一用户评价文本进行预处理,提取所述第一用户评价文本中的至少部分词,得到第一词语集合。具体与操作S301类似。
在操作S713,获取该第一用户文本的第一特征向量,其中,该第一特征向量包括N个通用元素和R个特有元素。根据本公开的实施例,找到通用词库和第一用户评价文本所评价的商品的R个特有词库进行匹配,生成第一用户评价文本的第一特征向量,具体实现可以参考操作S202的描述。
在操作S714,对每一个目标分类群c,计算该第一用户文本属于该目标分类群的概率。以用高斯核的SVM分类器为例,用高斯核计算出该第一特征向量的相似度向量f,然后计算(θc)Tf。(θc)Tf的大小可以表征第一用户文本属于该目标分类群的概率。
在操作S715,在不同的目标分类群中(θc)Tf的值大小不同,将第一用户评价文本分类至(θc)Tf值最大时对应的目标分类群。
在操作S716,根据第一用户评价文本被分到的目标分类群对应的评分c,对应获得该第一用户评价文本的得分c。从而,实现对第一用户评价文本的评估。
根据本公开的实施例,可以通过维护一个平台内的通用词库以及该平台中各种商品的特有词库,一方面提高了分类器训练的效率,另一方面可以对于一个平台内的任意的用户评价文本应用一个分类器模型进行分类,提高评估用户评价文本的效率。
更进一步地,根据本公开的实施例,在对用户评价进行分析时,同时提取了用户评价文本与通用词库和商品的特有词库的匹配信息,这样得到的用户评价文本的评估结果,可以一定程度上综合反映出一条用户评价文本的饱满度和价值。
图8示意性示出了根据本公开实施例的对用户评价进行评估的方框图。
如图8所示,该对用户评价进行评估的装置800包括评价获取模块810、特征向量获取模块820、分类模块830以及评估模块840。根据本公开的实施例,该装置800可以用于实现根据本公开实施例的方法。
评价获取模块810例如可以执行操作S201,用于获取第一用户评价文本。
特征向量获取模820例如可以执行操作S202,用于获取该第一用户评价文本的第一特征向量,其中,该第一特征向量包括N个通用元素和R个特有元素,该N个通用元素表征该第一用户评价文本与通用词库的匹配信息,该R个特有元素表征该第一用户评价文本与第一商品的特有词库的匹配信息,该第一商品为该第一用户评价文本所评价的商品,其中,该通用词库与该第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数。
分类模块830例如可以执行操作S203,用于通过分类器对该第一特征向量进行分类。根据本公开的实施例,该分类器包括支持向量机SVM分类器,分类中可供选择的目标分类群的数量大于2。该分类模块830具体用于对于每一个目标分类群,通过与该目标分类群对应的SVM分类器,确定所述第一特征向量属于该目标分类群的概率;以及将所述第一特征向量分类至概率最大时对应的目标分类群。
评估模块840例如可以执行操作S204,用于基于对该第一特征向量的分类结果,确定该第一用户评价文本的评估指标。
根据本公开的一些实施例,该装置还包括提取模块850。提取模块850例如可以执行操作S301,用于提取该第一用户评价文本中的至少部分词,得到第一词语集合。相应的,特征向量获取模块820,可以具体用于基于该第一词语集合与该通用词库的匹配结果,获得该N个通用元素中每个元素的值,以及基于该第一词语集合与该第一商品的特有词库的匹配结果,获取该R个特有元素中每个元素的值。
根据本公开的实施例,该通用词库包括至少一个通用高频词集合,该通用高频词集合包括N个词。该第一商品的特有词库包括R个不同的第一商品特有词集合,其中该R个不同的第一商品特有词集合相互之间无交集。该特征向量获取模块820可以具体用于基于该第一词语集合与该通用高频词集合的匹配结果,按照第一规则计算该N个通用元素中每个元素的值,以及基于该第一词语集合与该R个不同的第一商品特有词集合的匹配结果,按照第二规则计算该R个特有元素中每个元素的值。
根据本公开的实施例,基于该第一词语集合与该通用高频词集合的匹配结果,按照第一规则计算该N个通用元素中每个元素的值,包括基于该通用高频词集合中的每个词是否出现在该第一词语集合,对应获得该N个通用元素中每个元素的值。
根据本公开的实施例,基于该第一词语集合与该R个不同的第一商品特有词集合的匹配结果,按照第二规则计算该R个特有元素中每个元素的值,包括基于该R个不同的第一商品特有词集合与该第一词语集合形成的R个交集中的元素的个数,对应得到该R个特有元素中每个元素的值。
根据本公开的实施例,该第一商品为第一平台提供的全部商品其中之一,该第一平台通过层级分类将该全部商品分类至不同类目,其中,该层级分类的最上层包括该全部商品,在该最上层之外该层级分类还包括至少R层。该通用高频词集合,包括在预定时间内对该全部商品进行评价而产生的用户评价文本中出现频率最高的N个词的集合。该R个不同的第一商品特有词集合,包括在该R层的每一层中该第一商品所在的类目对应的类目属性集合,该类目属性集合为在该预定时间内对该类目中的商品进行评价的用户评价文本中符合预定条件的词的集合,其中,该预定条件包括同一词不同时属于具有父子关系的类目对应的类目属性集合中。
根据本公开的实施例,该第一特征向量还包括至少一个自有元素,该自有元素用于表征该第一用户评价文本中与该通用词库和该第一商品的特有词库均没有匹配上的词的信息。
根据本公开的实施例,该装置800还包括分类器训练模块860。该分类器训练模块860用于通过机器学习训练该分类器。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,评价获取模块810、特征向量获取模块820、分类模块830、评估模块840、提取模块850以及分类器训练模块860中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,评价获取模块810、特征向量获取模块820、分类模块830、评估模块840、提取模块850以及分类器训练模块860中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,评价获取模块810、特征向量获取模块820、分类模块830、评估模块840、提取模块850以及分类器训练模块860中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本公开实施例的适于实现对用户评价进行评估的计算机系统的方框图。图9示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,根据本公开实施例的计算机系统900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有系统900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,该程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在该一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。系统900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
例如,根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (18)
1.一种对用户评价进行评估的方法,包括:
获取第一用户评价文本;
获取所述第一用户评价文本的第一特征向量,其中,所述第一特征向量包括N个通用元素和R个特有元素,所述N个通用元素表征所述第一用户评价文本与通用词库的匹配信息,所述R个特有元素表征所述第一用户评价文本与第一商品的特有词库的匹配信息,所述第一商品为所述第一用户评价文本所评价的商品,其中,所述通用词库与所述第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数;
通过分类器对所述第一特征向量进行分类;以及
基于对所述第一特征向量的分类结果,确定所述第一用户评价文本的评估指标。
2.根据权利要求1所述的方法,其中,
所述方法还包括:提取所述第一用户评价文本中的至少部分词,得到第一词语集合;
所述获取所述第一用户评价文本的第一特征向量,包括:
基于所述第一词语集合与所述通用词库的匹配结果,获得所述N个通用元素中每个元素的值;
基于所述第一词语集合与所述第一商品的特有词库的匹配结果,获取所述R个特有元素中每个元素的值。
3.根据权利要求2所述的方法,其中,所述通用词库包括至少一个通用高频词集合,所述通用高频词集合包括N个词;所述第一商品的特有词库包括R个不同的第一商品特有词集合,其中所述R个不同的第一商品特有词集合相互之间无交集;所述获取所述第一用户评价文本的第一特征向量,包括:
基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值;以及
基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值。
4.根据权利要求3所述的方法,其中,基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值,包括:
基于所述通用高频词集合中的每个词是否出现在所述第一词语集合,对应获得所述N个通用元素中每个元素的值。
5.根据权利要求3所述的方法,其中,基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值,包括:
基于所述R个不同的第一商品特有词集合与所述第一词语集合形成的R个交集中的元素的个数,对应得到所述R个特有元素中每个元素的值。
6.根据权利要求3所述的方法,其中,所述第一商品为第一平台提供的全部商品其中之一,所述第一平台通过层级分类将所述全部商品分类至不同类目,其中,所述层级分类的最上层包括所述全部商品,在所述最上层之外所述层级分类还包括至少R层:
所述通用高频词集合,包括在预定时间内对所述全部商品进行评价而产生的用户评价文本中出现频率最高的N个词的集合;
所述R个不同的第一商品特有词集合,包括在所述R层的每一层中所述第一商品所在的类目对应的类目属性集合,所述类目属性集合为在所述预定时间内对该类目中的商品进行评价的用户评价文本中符合预定条件的词的集合,其中,所述预定条件包括同一词不同时属于具有父子关系的类目对应的类目属性集合中。
7.根据权利要求1或2所述的方法,其中,所述第一特征向量还包括至少一个自有元素,所述自有元素用于表征所述第一用户评价文本中与所述通用词库和所述第一商品的特有词库均没有匹配上的词的信息。
8.根据权利要求1所述的方法,其中,所述分类器包括支持向量机SVM分类器,分类中可供选择的目标分类群的数量大于2,所述通过分类器对所述第一特征向量进行分类包括:
对于每一个目标分类群,通过与该目标分类群对应的SVM分类器,确定所述第一特征向量属于该目标分类群的概率;以及
将所述第一特征向量分类至概率最大时对应的目标分类群。
9.一种对用户评价进行评估的装置,包括:
评价获取模块,用于获取第一用户评价文本;
特征向量获取模块,用于获取所述第一用户评价文本的第一特征向量,其中,所述第一特征向量包括N个通用元素和R个特有元素,所述N个通用元素表征所述第一用户评价文本与通用词库的匹配信息,所述R个特有元素表征所述第一用户评价文本与第一商品的特有词库的匹配信息,所述第一商品为所述第一用户评价文本所评价的商品,其中,所述通用词库与所述第一商品的特有词库中的词不重复,其中N和R均为大于等于1整数;
分类模块,用于通过分类器对所述第一特征向量进行分类;以及
评估模块,用于基于对所述第一特征向量的分类结果,确定所述第一用户评价文本的评估指标。
10.根据权利要求9所述的装置,其中:
所述装置还包括:
提取模块,用于提取所述第一用户评价文本中的至少部分词,得到第一词语集合;
所述特征向量获取模块具体用于:
基于所述第一词语集合与所述通用词库的匹配结果,获得所述N个通用元素中每个元素的值;
基于所述第一词语集合与所述第一商品的特有词库的匹配结果,获取所述R个特有元素中每个元素的值。
11.根据权利要求10所述的装置,其中,所述通用词库包括至少一个通用高频词集合,所述通用高频词集合包括N个词;所述第一商品的特有词库包括R个不同的第一商品特有词集合,其中所述R个不同的第一商品特有词集合相互之间无交集;所述特征向量获取模块具体用于:
基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值;以及
基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值。
12.根据权利要求11所述的装置,其中,基于所述第一词语集合与所述通用高频词集合的匹配结果,按照第一规则计算所述N个通用元素中每个元素的值,包括:
基于所述通用高频词集合中的每个词是否出现在所述第一词语集合,对应获得所述N个通用元素中每个元素的值。
13.根据权利要求11所述的装置,其中,基于所述第一词语集合与所述R个不同的第一商品特有词集合的匹配结果,按照第二规则计算所述R个特有元素中每个元素的值,包括:
基于所述R个不同的第一商品特有词集合与所述第一词语集合形成的R个交集中的元素的个数,对应得到所述R个特有元素中每个元素的值。
14.根据权利要求11所述的装置,其中,所述第一商品为第一平台提供的全部商品其中之一,所述第一平台通过层级分类将所述全部商品分类至不同类目,其中,所述层级分类的最上层包括所述全部商品,在所述最上层之外所述层级分类还包括至少R层:
所述通用高频词集合,包括在预定时间内对所述全部商品进行评价而产生的用户评价文本中出现频率最高的N个词的集合;
所述R个不同的第一商品特有词集合,包括在所述R层的每一层中所述第一商品所在的类目对应的类目属性集合,所述类目属性集合为在所述预定时间内对该类目中的商品进行评价的用户评价文本中符合预定条件的词的集合,其中,所述预定条件包括同一词不同时属于具有父子关系的类目对应的类目属性集合中。
15.根据权利要求9或10所述的装置,其中,所述第一特征向量还包括至少一个自有元素,所述自有元素用于表征所述第一用户评价文本中与所述通用词库和所述第一商品的特有词库均没有匹配上的词的信息。
16.根据权利要求9所述的装置,其中,所述分类器包括支持向量机SVM分类器,分类中可供选择的目标分类群的数量大于2,所述分类模块具体用于:
对于每一个目标分类群,通过与该目标分类群对应的SVM分类器,确定所述第一特征向量属于该目标分类群的概率;以及
将所述第一特征向量分类至概率最大时对应的目标分类群。
17.一种对用户评价进行评估的系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~8任意一项所述的对用户评价进行评估的方法。
18.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8任意一项所述的对用户评价进行评估的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810998910.1A CN110929175A (zh) | 2018-08-30 | 2018-08-30 | 对用户评价进行评估的方法、装置、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810998910.1A CN110929175A (zh) | 2018-08-30 | 2018-08-30 | 对用户评价进行评估的方法、装置、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929175A true CN110929175A (zh) | 2020-03-27 |
Family
ID=69854912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810998910.1A Pending CN110929175A (zh) | 2018-08-30 | 2018-08-30 | 对用户评价进行评估的方法、装置、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929175A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486976A (zh) * | 2021-07-26 | 2021-10-08 | 中国测绘科学研究院 | 一种地图标注内容的自动分类方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163189A (zh) * | 2010-02-24 | 2011-08-24 | 富士通株式会社 | 从评论性文本中提取评价性信息的方法和装置 |
CN103870973A (zh) * | 2012-12-13 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 基于电子信息的关键词提取的信息推送、搜索方法及装置 |
CN106557948A (zh) * | 2016-10-18 | 2017-04-05 | 李超 | 一种评论信息的展示方法及装置 |
-
2018
- 2018-08-30 CN CN201810998910.1A patent/CN110929175A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163189A (zh) * | 2010-02-24 | 2011-08-24 | 富士通株式会社 | 从评论性文本中提取评价性信息的方法和装置 |
CN103870973A (zh) * | 2012-12-13 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 基于电子信息的关键词提取的信息推送、搜索方法及装置 |
US20140172642A1 (en) * | 2012-12-13 | 2014-06-19 | Alibaba Group Holding Limited | Analyzing commodity evaluations |
CN106557948A (zh) * | 2016-10-18 | 2017-04-05 | 李超 | 一种评论信息的展示方法及装置 |
Non-Patent Citations (1)
Title |
---|
刘杰等: "热门B2C购物门户用户评论质量影响因素分析研究", 计算机应用与软件, no. 03 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486976A (zh) * | 2021-07-26 | 2021-10-08 | 中国测绘科学研究院 | 一种地图标注内容的自动分类方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mostafa | Clustering halal food consumers: A Twitter sentiment analysis | |
US11645321B2 (en) | Calculating relationship strength using an activity-based distributed graph | |
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN104834729B (zh) | 题目推荐方法和题目推荐装置 | |
CN106649890B (zh) | 数据存储方法和装置 | |
US20200110842A1 (en) | Techniques to process search queries and perform contextual searches | |
US20150032753A1 (en) | System and method for pushing and distributing promotion content | |
US9996611B2 (en) | Method, computer program, and computer for classifying users of social media | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
US20170091653A1 (en) | Method and system for predicting requirements of a user for resources over a computer network | |
CN112131322A (zh) | 时间序列分类方法及装置 | |
WO2023129339A1 (en) | Extracting and classifying entities from digital content items | |
CN112052297A (zh) | 信息生成方法、装置、电子设备和计算机可读介质 | |
WO2021081914A1 (zh) | 推送对象确定方法、装置、终端设备及存储介质 | |
Andoh et al. | Statistical analysis of public sentiment on the ghanaian government: a machine learning approach | |
CN113656630A (zh) | 检索图像的方法、装置和系统 | |
CN110929175A (zh) | 对用户评价进行评估的方法、装置、系统及介质 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
US10937078B1 (en) | Dynamic generation of item description content | |
Liu et al. | Stratify Mobile App Reviews: E-LDA Model Based on Hot" Entity" Discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |