CN111859946A - 对评论进行排序的方法和装置及机器可读存储介质 - Google Patents

对评论进行排序的方法和装置及机器可读存储介质 Download PDF

Info

Publication number
CN111859946A
CN111859946A CN201910324798.8A CN201910324798A CN111859946A CN 111859946 A CN111859946 A CN 111859946A CN 201910324798 A CN201910324798 A CN 201910324798A CN 111859946 A CN111859946 A CN 111859946A
Authority
CN
China
Prior art keywords
comment
determining
text
review
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910324798.8A
Other languages
English (en)
Other versions
CN111859946B (zh
Inventor
张琳琳
崔燕
岳爱珍
翟庆羽
宋烈金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910324798.8A priority Critical patent/CN111859946B/zh
Publication of CN111859946A publication Critical patent/CN111859946A/zh
Application granted granted Critical
Publication of CN111859946B publication Critical patent/CN111859946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种对评论进行排序的方法和装置及机器可读存储介质,属于文本处理技术领域。该方法包括:确定至少一个评论中每一评论的内容质量参数和时间影响因子;基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分;以及基于所述至少一个评论中的每一评论的评分对所述至少一个评分进行排序。藉此,实现了对评论进行排序,并且在对评论进行排序时同时考虑了评论的内容质量和发表时间,实现了在对评论进行排序时既能将有价值的优质评论展现给客户又能保证评论的时效性。

Description

对评论进行排序的方法和装置及机器可读存储介质
技术领域
本发明涉及文本处理技术领域,具体地涉及一种对评论进行排序的方法和装置及机器可读存储介质。
背景技术
随着互联网信息的不断增长,以往的信息缺乏消失了,但海量的数据造成的后果是数据质量的参差不齐。因此人们也越来越渴望能快速地在数据汪洋中寻找有内容对自己有价值的数据,即便捷的获取优质内容。对于电子商务来说,消费者希望能从众多的商品评论中通过客观真实的高质量评论获得对商品的认识,进而决定是否购买,商家则希望从中获得市场对商品的看法,从而更好地适应用户的需求。信息过载与数据质量良莠不齐的矛盾出现在越来越多的产品场景,比如博客、微博、论坛和百度口碑等网络信息聚合地,通过一种合理的排序方法将海量数据进行重新排序,将优质内容优先展现给网民是提升用户体验,最大化内容价值的关键。
目前对文本评论进行排序的方法主要包括:(1)按时间顺序,包括按时间顺序正排或者倒排;(2)按评论内容质量,即将文本质量较高的评论排在前面。文本评论排序是提升用户体验,提升海量内容价值的关键手段,是自然语言处理的一个重要分支。
现有方法主要有以下几个局限性:(1)按时间顺序正排导致前端展现的评论都是历史评论,如果时间跨度比较大,对用户参考价值不大;而按时间顺序倒排虽然可以保证用户优先看到的是最新评论,但并不能保证质量最优;因此,按照时间排序不能保证优先展现给用户的都是有价值的优质评论;(2)按评论内容质量排序,虽然可以保证文本质量高的排在前面,但是可能排在前面的一直是质量比较高的特定评论,如果评论时间比较久的话对用户价值也不大,不能保证评论的时效性。
发明内容
本发明的目的是提供一种对评论进行排序的方法和装置及机器可读存储介质,其可解决或至少部分解决上述问题。
为了实现上述目的,本发明的一个方面提供一种用于对评论进行排序的方法,该方法包括:确定至少一个评论中每一评论的内容质量参数和时间影响因子;基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分;以及基于所述至少一个评论中的每一评论的评分对所述至少一个评分进行排序。
可选地,确定所述至少一个评论中每一评论的内容质量参数包括:确定所述至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度;以及基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数。
可选地,所述基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数包括基于以下内容确定该评论所述内容质量参数:针对所述至少一个评论中每一评论,所述内容质量参数与所述情感分值和所述文本丰富度成正相关,所述内容质量参数与所述语句混乱度成负相关。
可选地,确定所述至少一个评论中每一评论的所述情感分值包括:针对所述至少一个评论中每一评论,确定包含情感的句子在该评论中的占比,其中所述占比即为该评论的所述情感分值。
可选地,确定所述至少一个评论中每一评论的所述语句混乱度包括:针对所述至少一个评论中每一评论,基于预设转移概率矩阵确定该评论中相邻词之间的转移概率;以及基于以下公式确定所述语句混乱度:
Figure BDA0002035925820000031
其中,entropy_score表示所述语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率。
可选地,确定所述至少一个评论中每一评论的所述文本丰富度包括:针对所述至少一个评论中每一评论,确定在该评论中实词的密度;以及基于所述实词的密度确定该评论的所述文本丰富度。
可选地,确定所述至少一个评论中每一评论的所述文本丰富度还包括:针对所述至少一个评论中每一评论,确定在该评论中句子的平均长度和连续词的个数,其中,所述确定该评论的所述文本丰富度还基于所述句子的平均长度和所述连续词的个数。
可选地,针对所述至少一个评论中每一评论,基于所述实词的密度、所述句子的平均长度和所述连续词的个数确定该评论的所述文本丰富度包括基于以下公式确定所述文本丰富度:text_score=word_density*mean_len-continuous_word_count,其中,text_score表示所述文本丰富度,word_density表示所述实词的密度,mean_len表示所述句子的平均长度,continuous_word_count表示所述连续词的个数。
可选地,确定至少一个评论中每一评论的时间影响因子包括:确定所述至少一个评论中每一评论的时间跨度,其中所述时间跨度表示该评论自发表时间至进行排序的当前时间的时间跨度;以及基于每一评论的所述时间跨度和预设时间衰减函数确定每一评论的所述时间影响因子。
可选地,该方法还包括:确定所述至少一个评论中的每一评论的用户质量,其中,确定所述至少一个评论中的每一评论的所述评分还基于每一评论的所述用户质量。
可选地,所述确定所述至少一个评论中的每一评论的用户质量包括:针对所述至少一个评论中每一评论,确定关于该评论对应的用户的信息;其中,所述信息包括以下至少一者:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间、最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数;基于所述信息中所包括的每一者对应的数据特征和特征权重,确定该评论的所述用户质量。
相应地,本发明的另一方面提供一种用于对评论进行排序的装置,该装置包括:参数确定模块,用于确定至少一个评论中每一评论的内容质量参数和时间影响因子;评分确定模块,用于基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分;以及排序模块,用于基于所述至少一个评论中的每一评论的评分对所述至少一个评分进行排序。
可选地,所述参数确定模块确定所述至少一个评论中每一评论的内容质量参数包括:确定所述至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度;以及基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数。
可选地,所述参数确定模块基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数包括基于以下内容确定该评论所述内容质量参数:针对所述至少一个评论中每一评论,所述内容质量参数与所述情感分值和所述文本丰富度成正相关,所述内容质量参数与所述语句混乱度成负相关。
可选地,所述参数确定模块确定所述至少一个评论中每一评论的所述情感分值包括:针对所述至少一个评论中每一评论,确定包含情感的句子在该评论中的占比,其中所述占比即为该评论的所述情感分值。
可选地,所述参数确定模块确定所述至少一个评论中每一评论的所述语句混乱度包括:针对所述至少一个评论中每一评论,基于预设转移概率矩阵确定该评论中相邻词之间的转移概率;以及基于以下公式确定所述语句混乱度:
Figure BDA0002035925820000051
其中,entropy_score表示所述语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率。
可选地,所述参数确定模块确定所述至少一个评论中每一评论的所述文本丰富度包括:针对所述至少一个评论中每一评论,确定在该评论中实词的密度;以及基于所述实词的密度确定该评论的所述文本丰富度。
可选地,所述参数确定模块确定所述至少一个评论中每一评论的所述文本丰富度还包括:针对所述至少一个评论中每一评论,确定在该评论中句子的平均长度和连续词的个数,其中,所述确定该评论的所述文本丰富度还基于所述句子的平均长度和所述连续词的个数。
可选地,针对所述至少一个评论中每一评论,所述参数确定模块基于所述实词的密度、所述句子的平均长度和所述连续词的个数确定该评论的所述文本丰富度包括基于以下公式确定所述文本丰富度:text_score=word_density*mean_len-continuous_word_count,其中,text_score表示所述文本丰富度,word_density表示所述实词的密度,mean_len表示所述句子的平均长度,continuous_word_count表示所述连续词的个数。
可选地,所述参数确定模块确定至少一个评论中每一评论的时间影响因子包括:确定所述至少一个评论中每一评论的时间跨度,其中所述时间跨度表示该评论自发表时间至进行排序的当前时间的时间跨度;以及基于每一评论的所述时间跨度和预设时间衰减函数确定每一评论的所述时间影响因子。
可选地,所述参数确定模块还用于确定所述至少一个评论中的每一评论的用户质量,其中,所述评分确定模块确定所述至少一个评论中的每一评论的所述评分还基于每一评论的所述用户质量。
可选地,所述参数确定模块确定所述至少一个评论中的每一评论的用户质量包括:针对所述至少一个评论中每一评论,确定关于该评论对应的用户的信息;其中,所述信息包括以下至少一者:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间、最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数;基于所述信息中所包括的每一者对应的数据特征和特征权重,确定该评论的所述用户质量。
此外,本发明的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的方法。
另外,本发明的另一方面还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行上述的方法。
通过上述技术方案,针对至少一个评论,根据每一评论的内容质量参数和时间影响因子确定每一评论的评分,根据所确定每一评论的评分对至少一个评论进行排序,如此,实现了对评论进行排序,并且在对评论进行排序时同时考虑了评论的内容质量和发表时间,实现了在对评论进行排序时既能将有价值的优质评论展现给客户又能保证评论的时效性,解决了基于时间顺序排序导致的前端展现的都是历史评论或者用户最先看到的是最新评论但不能保证让用户看到的评论的质量的问题,也解决了质量进行排序可能出现排在前排的一直是质量较高的评论但因评论时间较久对用户价值不大的问题。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的用于对评论进行排序的方法的流程图;
图2是本发明另一实施例提供的用于对评论进行排序的方法的流程图;以及
图3是本发明另一实施例提供的用于对评论进行排序的装置的结构框图。
附图标记说明
1 参数确定模块 2 评分确定模块
3 排序模块
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例的一个方面提供一种用于对评论进行排序的方法。图1是本发明一实施例提供的用于对评论进行排序的方法的流程图。
在步骤S10中,确定至少一个评论中每一评论的内容质量参数和时间影响因子。
其中,针对每一评论,确定内容质量参数可以从以下至少一个角度来考虑,分别是文本观点情感、语句混乱度和文本丰富度。具体地,可以是确定每一评论的情感分值、语句混乱度和文本丰富度中的至少一者,基于每一评论的情感分值、语句混乱度和文本丰富度中的至少一者确定其内容质量参数。可选地,当根据每一评论的情感分值、语句混乱度和文本丰富度确定其内容质量参数时可以根据以下原则进行确定:情感分值和文本丰富度与内容质量参数成正比,语句混乱度与内容质量参数成反比。此外,每一评论的时间影响因子可以与该评论的发表时间至进行排序的当前时间的时间跨度有关系。具体地,可以是时间影响因子与时间跨度成负相关,时间跨度越大,时间影响因子越小。例如,时间影响因子可以是与时间跨度成线性关系,或者是反比关系,或者是指数衰减等等,只要是满足随时间跨度的增长但时间影响因子越小均可以。
在步骤S11中,基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分。基于内容质量参数和时间影响因子确定评论的评分可以是将两者相乘或者相加来确定评分。
在步骤S12中,基于至少一个评论中的每一评论的评分对至少一个评分进行排序。具体地,可以是根据评分进行倒排序,使得用户最先看到的是评分较高的评论。
针对至少一个评论,根据每一评论的内容质量参数和时间影响因子确定每一评论的评分,根据所确定每一评论的评分对至少一个评论进行排序,如此,实现了对评论进行排序,并且在对评论进行排序时同时考虑了评论的内容质量和发表时间,实现了在对评论进行排序时既能将有价值的优质评论展现给客户又能保证评论的时效性,解决了基于时间顺序排序导致的前端展现的都是历史评论或者用户最先看到的是最新评论但不能保证让用户看到的评论的质量的问题,也解决了质量进行排序可能出现排在前排的一直是质量较高的评论但因评论时间较久对用户价值不大的问题。
可选地,在本发明实施例中,关于每一评论的情感分值,可以根据该评论中每句话的情感倾向来确定。具体地,针对至少一个评论中的每一评论,对评论进行分句,确定每句话的情感倾向,确定包含情感的句子在该评论中的占比,也就是包含情感的句子与该评论包含的句子总数的比值,其中,该占比即为该评论的情感分值。当确定包含情感的句子与评论包含的句子总数的比值时,可以是直接计算情感倾向为非中立的句子的总数,将非中立的句子的总数与评论包含的句子总数相除得到情感分值;或者可以是确定情感倾向为中立的句子的总数,用评论包含的句子的总数减去中立句子的总数得到非中立句子的总数,进而用非中立句子的总数与句子总数相除得到情感分值。此外,在本发明实施例中,可以采用自然语言处理(NLP)方法来对句子进行情感分析,从而确定句子的情感倾向。
可选地,在本发明实施例中,针对至少一个评论中的每一评论,确定语句混乱度,可以是基于相邻词之间的转移概率来确定。具体地,根据预设转移概率矩阵确定每一评论中的相邻词之间的转移概率,基于以下公式确定该评论的语句混乱度:
Figure BDA0002035925820000091
其中,entropy_score表示语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率。其中,prob(0)表示空格转移到词0的概率。可选地,预设转移概率矩阵可以是马尔可夫转移概率矩阵。
可选地,在本发明实施例中,针对至少一个评论中的每一评论,确定文本丰富度可以是基于评论中实词的密度来确定评论的文本丰富度,例如,用于实词的密度表示评论的文本丰富度。具体地,针对每一评论,对其进行切词,随后对每个词进行词性标注,确定出每个词的词性,进而确定出实词的密度。其中,实词的密度表示实词在评论进行切词后得到的所有词中的占比。例如,可以基于实词的长度和所有词的长度来确定实词的密度。此外,切词的方法可以包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。词性标注的方法可以包括基于隐马尔可夫模型、条件随机场等。
此外,在本发明实施例中,确定文本丰富度时,还可以基于句子的平均长度和连续词的个数。其中,连续词的个数表示在某一评论中,连续出现预设值个相同字的次数,例如,预设值可以是4,在某一评论中,统计连续出现4个相同字的次数,所计算出的次数即为该评论的连续词的个数。此外,确定句子的评论长度可以是根据以下内容:针对至少一个评论中的每一评论,将评论进行分句,计算所分的所有分句中的每一分句的长度,将所有分句的长度求和,除以总的分句数,得到该评论对应的句子的平均长度。另外,基于每一评论对应的实词密度、句子的平均长度和连续词的个数确定该评论对应的文本丰富度时,可以是将实词密度与句子的平均长度相加再减去连续词的个数来表示文本丰富度;还可以是将实词密度与句子的平均长度相乘再减去连续词的个数来表示文本丰富度。
可选地,在本发明实施例中,在对评论进行排序时,还可以将发表评论的用户的质量考虑进去,来避免刷屏或者水军。具体地,针对至少一个评论中的每一评论,在确定用户质量时,可以是先确定关于用户的信息,其中,该信息可以包括很多方面,例如,用户是否有电话、用户是否签到、发表评论的总条数、发表评论的总展现条数等等,该信息可以包括这些方面的一者或者多者,基于该信息所包括的一者或多者对应的数据特征和权重来确定用户质量。
图2是本发明另一实施例提供的用于对评论进行排序的方法的逻辑示意图。如图2所示,针对至少一个评论中的每一评论,计算content_score和user_score,加入time_decay,确定至少一个评论中的每一评论的评分,进而根据至少一个评论中的每一评论的分值倒序排序。其中,content_score表示内容质量参数,user_score表示用户质量,time_decay表示时间影响因子。因此,在该实施例中,对评论进行排序的方法主要包括以下三个方面:评论内容质量评估、评论用户质量评估和时间影响因子评估,也就是确定评论的内容质量参数、用户质量和时间影响因子。下面分别对这三个方面进行介绍。
1、评论内容质量评估。
优质的评论内容应该是态度观点明确、语言表达顺利、评论角度丰富的评论。在该实施例中,从三个角度衡量评论内容质量,分别是文本观点情感、语句混乱度和文本丰富度,也就是,针对每一评论,确定情感分值、语句混乱度和文本丰富度。
(1)针对每一评论,为了分析评论包含情感的程度,对评论文本分句,然后计算每句话的情感倾向,最后用包含情感的句子(文本中句子总数-中立句子总数)在整体评论文本中的占比作为情感分值。在计算文本情感倾向时,可以使用自然语言处理平台NLPC的情感分析服务。情感分值计算公式如下:
Figure BDA0002035925820000111
其中,#all_sen表示句子总数,#neu_sen表示中立句子的总数。
(2)关于衡量评论文本的语句混乱度,可以是衡量在一个词之后出现另一个词的概率,此处可以采用马尔可夫状态转移的假设,即当前状态只受前一个状态的影响,在文本语句混乱度分析中,当前词是否出现以及出现的概率仅取决于前一个词。
具体地,针对至少一个评论中的每一评论,首先对其进行切词,然后根据马尔可夫转移概率矩阵,得到词之间的转移概率,计算评论文本的熵。熵越大,所含信息量越大,表示语句越混乱。熵的计算公式如下:
Figure BDA0002035925820000112
其中,prob(i)表示由词i前的一个词转移到词i的概率;entropy_score表示熵,也就是语句混乱度;n表示词的总数。
另外,关于马尔可夫转移概率矩阵,可以通过训练得到。具体地,选取被标注为正常的评论语料作为训练集,该被标注为正常的评论语料指的是语句混乱度的评论语料,基于自然语言处理平台NLPC的切词服务对评论文本进行切词,接着对评论语料中的词计算统计特征(例如,该统计特征包括,在该评论语料中,某一词出现的次数和概率)并计算词语前后出现频率(该词语前后出现频率包括,在评论语料中,某一词在某一词后出现的频率)作为词语转移概率,训练马尔可夫转移概率矩阵。
(3)计算文本丰富度。为了计算文本丰富度,首先通过切词、词性标注服务得到文本中词的词性,并用实词在文本中出现的密度代表文本丰富度,这里实词是指除助词、介词、连词、标点符号和其他虚词之外的词。实词丰富度的计算公式如下:
word_density=1.0*len(essential_word)/max(len(all_word),1).
其中,essential_word表示评论中切词后的实词词表,all_word是评论中所有词的词表,word_density表示实词的密度,也就是实词的丰富度,len(essential_word)表示实词词表的长度,len(all_word)表示评论的所有词的词表的长度,max(len(all_word),1)表示所有词的词表长度与1中的最大值。
除此之外,在确定文本丰富度时还可以考虑句子的平均长度、连续词个数等特征来表示评论文字本身的质量。
关于计算句子的平均长度,针对每一评论,首先进行分句,随后采用以下公式计算句子的平均长度:
Figure BDA0002035925820000121
其中,mean_len表示句子的平均长度,n表示某一评论进行分句后得到的句子的总数,seni表示句子i,len(seni)表示句子i的长度。
对于计算连续词的个数,可以是统计某一评论中连续出现四个相同字的次数,使用continuous_word_count表示。
在计算出实词密度、句子的平均长度和连续词的个数后,文本丰富度的计算公式如下:
text_score=word_density*mean_len-continuous_word_count
其中,text_score表示文本丰富度。
对于三个角度,通过相关性分析发现,最后的文本质量和情感分值、文本丰富度分值正相关,和熵的分值是负相关,由此训练拟合函数得到最终文本分值。评论内容质量的计算公式如下:
Figure BDA0002035925820000131
其中,sentiment_score表示情感分值,text_score表示文本丰富度分值,entropy_score表示熵的分值。
2、评论用户质量评估
除了考虑评论文本自身的质量之外,还考虑了发表评论的用户的质量。因为考虑到优质用户发表优质评论的可能性比低质用户发表优质评论的可能性大,因此在评论内容质量相同的情况下,可以优先展现用户质量比较高的用户发表的评论。为了较好的衡量用户质量,我们从用户注册信息和用户行为信息两个角度来考虑。对于用户注册信息,包括的特征主要有:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间。对于用户行为信息,包括的特征主要有:最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数等。基于用户注册信息和用户行为信息中的每一特征对应的特征数据和权重计算用户质量分值,用户质量分值的计算公式如下:
Figure BDA0002035925820000132
其中,xi表示特征i的特征数据,wi表示特征i的权重。
此外,这样计算得到用户质量绝对分值的范围比较宽泛,因此,为了使数据处于同一数量级,增强数据间的可比性,可以将绝对数值归一到0到1范围,形成相对序列。
另外,在基于特征数据计算用户质量分值时,可以先对特征数据进行预处理,其中,预处理的操作包括归一化、离散化、缺省值补全等,采用经过预处理的特征数据计算用户质量分值。
此外,关于每一特征对应的权重,可以基于皮尔逊相关系数法进行确定。利用皮尔逊相关系数法对不同维度特征进行分析和筛选,最后根据分析结果和对用户质量的贡献度确定特征权重。具体地,可以包括以下内容。首先,获取多个用户的特征数据,该特征数据包括关于上述两个维度中的每一特征的特征数据,并对多个用户进行分档,标注每个用户的用户质量分值。对于每一特征的特征数据,进行归一化、离散化、缺省值补全等手段对特征数据进行预处理,粗略得到一批特征数据。随后,利用皮尔逊相关系数法,针对每一用户,分析每一特征数据和用户质量分值之间的相关性,从而确定每一特征对用户质量的贡献度。基于每一用户分析每一特征对用户质量的贡献度以后,针对每一特征,可能确定出多个贡献度,基于该多个贡献度确定该特征对应的权重。基于每一特征对用户质量的贡献度确定该特征对应的权重。
3、时间影响因子评估
如果只是考虑评论内容质量和评论用户质量,则很容易将历史优质用户的优质评论排到前面。而对于发表时间比较久的评论,即使评论质量比较高,但是对用户的参考价值也会大打折扣,也不适合被排到前面。因此,在考虑了评论内容质量和评论用户质量之后,还需要考虑时间因子对评论的影响。
根据用户量和评论量以及评论的时间跨度分布,选取指数函数来作为时间衰减函数。选取指数函数作为时间衰减函数,比较符合实际情况。当时间跨度较小时,时间对于评估评论是很重要的影响因素,不同的时间跨度,需要有很明显的区分,随着时间跨度的增加,时间影响因子衰减比较快。当时间跨度较大时,时间对于评估评论的作用已经不大,不同的时间跨度,可以不用出现很明显的区分,随着时间跨度的增大,时间影响因子衰减较慢。时间影响因子的计算公式如下:
time_decay=0.98n
其中,n的计算方式如下:
Figure BDA0002035925820000151
其中,n表示对计算评论分值的当前时间距离发表该评论的发表时间的月数,cur_date表示当前时间,pub_date表示发表时间。
在计算完评论内容质量和评论用户质量以及时间影响因子之后,即可以计算一条评论的最终得分,计算公式如下:
comt_score=time_dacay*content_score*user_score
其中,time_dacay表示时间影响因子,content_score表示评论内容质量,user_score表示评论用户质量。至此,可对每一条评论计算得到评论的最终分值,根据最终分值可以对同一个商户下的评论进行排序,将分值较高的评论展现在前面,优先显示给用户。
随着可以发表评论的平台的发展,评论的数量与日俱增,对评论进行排序,将最新的优质评论进行优先展现,对于保证平台中评论的质量有着举足轻重的意义。本发明实施例提供的对评论进行排序的方法充分考虑了评论本身的文本质量、发表评论的用户质量和时间影响因子,可以将时间较新的优质用户的优质评论排在前面,提升用户体验,提升海量内容价值。此外,本发明实施例提供的对评论进行排序的方法通过对评论进行排序,将有内容有价值的优质评论优先展现,进而减少用户对评价内容的参考成本,缩短用户的挑选时间,为用户快速进行决策提供帮助,提升可以发表评论的平台的用户价值。
相应地,本发明实施例的另一方面提供一种用于对评论进行排序的装置。图3是本发明另一实施例提供的用于对评论进行排序的装置的结构框图。如图3所示,该装置包括参数确定模块1、评分确定模块2和排序模块3。其中,参数确定模块1用于确定至少一个评论中每一评论的内容质量参数和时间影响因子;评分确定模块2用于基于至少一个评论中的每一评论的内容质量参数和时间影响因子确定该评论的评分;排序模块3用于基于至少一个评论中的每一评论的评分对至少一个评分进行排序。
可选地,在本发明实施例中,参数确定模块确定至少一个评论中每一评论的内容质量参数包括:确定至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度;以及基于至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度确定该评论的内容质量参数。
可选地,在本发明实施例中,参数确定模块基于至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度确定该评论的内容质量参数包括基于以下内容确定该评论内容质量参数:针对至少一个评论中每一评论,内容质量参数与情感分值和文本丰富度成正相关,内容质量参数与语句混乱度成负相关。
可选地,在本发明实施例中,参数确定模块确定至少一个评论中每一评论的情感分值包括:针对至少一个评论中每一评论,确定包含情感的句子在该评论中的占比,其中占比即为该评论的情感分值。
可选地,在本发明实施例中,参数确定模块确定至少一个评论中每一评论的语句混乱度包括:针对至少一个评论中每一评论,基于预设转移概率矩阵确定该评论中相邻词之间的转移概率;以及基于以下公式确定语句混乱度:
Figure BDA0002035925820000161
其中,entropy_score表示语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率。
可选地,在本发明实施例中,参数确定模块确定至少一个评论中每一评论的文本丰富度包括:针对至少一个评论中每一评论,确定在该评论中实词的密度;以及基于实词的密度确定该评论的文本丰富度。
可选地,在本发明实施例中,参数确定模块确定至少一个评论中每一评论的文本丰富度还包括:针对至少一个评论中每一评论,确定在该评论中句子的平均长度和连续词的个数,其中,确定该评论的文本丰富度还基于句子的平均长度和连续词的个数。
可选地,在本发明实施例中,针对至少一个评论中每一评论,参数确定模块基于实词的密度、句子的平均长度和连续词的个数确定该评论的文本丰富度包括基于以下公式确定文本丰富度:text_score=word_density*mean_len-continuous_word_count,其中,text_score表示文本丰富度,word_density表示实词的密度,mean_len表示句子的平均长度,continuous_word_count表示连续词的个数。
可选地,在本发明实施例中,参数确定模块确定至少一个评论中每一评论的时间影响因子包括:确定至少一个评论中每一评论的时间跨度,其中时间跨度表示该评论自发表时间至进行排序的当前时间的时间跨度;以及基于每一评论的时间跨度和预设时间衰减函数确定每一评论的时间影响因子。
可选地,在本发明实施例中,参数确定模块还用于确定至少一个评论中的每一评论的用户质量,其中,评分确定模块确定至少一个评论中的每一评论的评分还基于每一评论的用户质量。
可选地,在本发明实施例中,参数确定模块确定至少一个评论中的每一评论的用户质量包括:针对至少一个评论中每一评论,确定关于该评论对应的用户的信息;其中,信息包括以下至少一者:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间、最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数;基于信息中所包括的每一者对应的数据特征和特征权重,确定该评论的所述用户质量。
所述用于对评论进行排序的装置包括处理器和存储器,上述参数确定模块、评分确定模块和排序模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对评论进行排序,并且在对评论进行排序时同时考虑评论的内容质量和发表时间,实现在对评论进行排序时既能将有价值的优质评论展现给客户又能保证评论的时效性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供的用于对评论进行排序的装置的具体工作原理及益处与本发明实施例提供的用于对评论进行排序的方法的具体工作原理及益处相似,这里将不再赘述。
此外,本发明实施例的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述实施例中所述的用于对评论进行排序的方法。
另外,本发明实施例的另一方面还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行述实施例中所述的用于对评论进行排序的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:确定至少一个评论中每一评论的内容质量参数和时间影响因子;基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分;以及基于所述至少一个评论中的每一评论的评分对所述至少一个评分进行排序;确定所述至少一个评论中每一评论的内容质量参数包括:确定所述至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度;以及基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数;所述基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数包括基于以下内容确定该评论所述内容质量参数:针对所述至少一个评论中每一评论,所述内容质量参数与所述情感分值和所述文本丰富度成正相关,所述内容质量参数与所述语句混乱度成负相关;确定所述至少一个评论中每一评论的所述情感分值包括:针对所述至少一个评论中每一评论,确定包含情感的句子在该评论中的占比,其中所述占比即为该评论的所述情感分值;确定所述至少一个评论中每一评论的所述语句混乱度包括:针对所述至少一个评论中每一评论,基于预设转移概率矩阵确定该评论中相邻词之间的转移概率;以及基于以下公式确定所述语句混乱度:
Figure BDA0002035925820000191
其中,entropy_score表示所述语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率;确定所述至少一个评论中每一评论的所述文本丰富度包括:针对所述至少一个评论中每一评论,确定在该评论中实词的密度;以及基于所述实词的密度确定该评论的所述文本丰富度;确定所述至少一个评论中每一评论的所述文本丰富度还包括:针对所述至少一个评论中每一评论,确定在该评论中句子的平均长度和连续词的个数,其中,所述确定该评论的所述文本丰富度还基于所述句子的平均长度和所述连续词的个数;针对所述至少一个评论中每一评论,基于所述实词的密度、所述句子的平均长度和所述连续词的个数确定该评论的所述文本丰富度包括基于以下公式确定所述文本丰富度:text_score=word_density*mean_len-continuous_word_count,其中,text_score表示所述文本丰富度,word_density表示所述实词的密度,mean_len表示所述句子的平均长度,continuous_word_count表示所述连续词的个数;确定至少一个评论中每一评论的时间影响因子包括:确定所述至少一个评论中每一评论的时间跨度,其中所述时间跨度表示该评论自发表时间至进行排序的当前时间的时间跨度;以及基于每一评论的所述时间跨度和预设时间衰减函数确定每一评论的所述时间影响因子;确定所述至少一个评论中的每一评论的用户质量,其中,确定所述至少一个评论中的每一评论的所述评分还基于每一评论的所述用户质量;可选地,所述确定所述至少一个评论中的每一评论的用户质量包括:针对所述至少一个评论中每一评论,确定关于该评论对应的用户的信息;其中,所述信息包括以下至少一者:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间、最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数;基于所述信息中所包括的每一者对应的数据特征和特征权重,确定该评论的所述用户质量。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:确定至少一个评论中每一评论的内容质量参数和时间影响因子;基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分;以及基于所述至少一个评论中的每一评论的评分对所述至少一个评分进行排序;确定所述至少一个评论中每一评论的内容质量参数包括:确定所述至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度;以及基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数;所述基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数包括基于以下内容确定该评论所述内容质量参数:针对所述至少一个评论中每一评论,所述内容质量参数与所述情感分值和所述文本丰富度成正相关,所述内容质量参数与所述语句混乱度成负相关;确定所述至少一个评论中每一评论的所述情感分值包括:针对所述至少一个评论中每一评论,确定包含情感的句子在该评论中的占比,其中所述占比即为该评论的所述情感分值;确定所述至少一个评论中每一评论的所述语句混乱度包括:针对所述至少一个评论中每一评论,基于预设转移概率矩阵确定该评论中相邻词之间的转移概率;以及基于以下公式确定所述语句混乱度:
Figure BDA0002035925820000211
其中,entropy_score表示所述语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率;确定所述至少一个评论中每一评论的所述文本丰富度包括:针对所述至少一个评论中每一评论,确定在该评论中实词的密度;以及基于所述实词的密度确定该评论的所述文本丰富度;确定所述至少一个评论中每一评论的所述文本丰富度还包括:针对所述至少一个评论中每一评论,确定在该评论中句子的平均长度和连续词的个数,其中,所述确定该评论的所述文本丰富度还基于所述句子的平均长度和所述连续词的个数;针对所述至少一个评论中每一评论,基于所述实词的密度、所述句子的平均长度和所述连续词的个数确定该评论的所述文本丰富度包括基于以下公式确定所述文本丰富度:text_score=word_density*mean_len-continuous_word_count,其中,text_score表示所述文本丰富度,word_density表示所述实词的密度,mean_len表示所述句子的平均长度,continuous_word_count表示所述连续词的个数;确定至少一个评论中每一评论的时间影响因子包括:确定所述至少一个评论中每一评论的时间跨度,其中所述时间跨度表示该评论自发表时间至进行排序的当前时间的时间跨度;以及基于每一评论的所述时间跨度和预设时间衰减函数确定每一评论的所述时间影响因子;确定所述至少一个评论中的每一评论的用户质量,其中,确定所述至少一个评论中的每一评论的所述评分还基于每一评论的所述用户质量;可选地,所述确定所述至少一个评论中的每一评论的用户质量包括:针对所述至少一个评论中每一评论,确定关于该评论对应的用户的信息;其中,所述信息包括以下至少一者:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间、最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数;基于所述信息中所包括的每一者对应的数据特征和特征权重,确定该评论的所述用户质量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (24)

1.一种用于对评论进行排序的方法,其特征在于,该方法包括:
确定至少一个评论中每一评论的内容质量参数和时间影响因子;
基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分;以及
基于所述至少一个评论中的每一评论的评分对所述至少一个评分进行排序。
2.根据权利要求1所述的方法,其特征在于,确定所述至少一个评论中每一评论的内容质量参数包括:
确定所述至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度;以及
基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数包括基于以下内容确定该评论所述内容质量参数:
针对所述至少一个评论中每一评论,所述内容质量参数与所述情感分值和所述文本丰富度成正相关,所述内容质量参数与所述语句混乱度成负相关。
4.根据权利要求2或3所述的方法,其特征在于,确定所述至少一个评论中每一评论的所述情感分值包括:
针对所述至少一个评论中每一评论,确定包含情感的句子在该评论中的占比,其中所述占比即为该评论的所述情感分值。
5.根据权利要求2或3所述的方法,其特征在于,确定所述至少一个评论中每一评论的所述语句混乱度包括:
针对所述至少一个评论中每一评论,
基于预设转移概率矩阵确定该评论中相邻词之间的转移概率;以及
基于以下公式确定所述语句混乱度:
Figure FDA0002035925810000021
其中,entropy_score表示所述语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率。
6.根据权利要求2或3所述的方法,其特征在于,确定所述至少一个评论中每一评论的所述文本丰富度包括:
针对所述至少一个评论中每一评论,
确定在该评论中实词的密度;以及
基于所述实词的密度确定该评论的所述文本丰富度。
7.根据权利要求6所述的方法,其特征在于,确定所述至少一个评论中每一评论的所述文本丰富度还包括:
针对所述至少一个评论中每一评论,确定在该评论中句子的平均长度和连续词的个数,其中,所述确定该评论的所述文本丰富度还基于所述句子的平均长度和所述连续词的个数。
8.根据权利要求7所述的方法,其特征在于,针对所述至少一个评论中每一评论,所述基于所述实词的密度、所述句子的平均长度和所述连续词的个数确定该评论的所述文本丰富度包括基于以下公式确定所述文本丰富度:
text_score=word_density*mean_len-continuous_word_count
其中,text_score表示所述文本丰富度,word_density表示所述实词的密度,mean_len表示所述句子的平均长度,continuous_word_count表示所述连续词的个数。
9.根据权利要求1所述的方法,其特征在于,确定至少一个评论中每一评论的时间影响因子包括:
确定所述至少一个评论中每一评论的时间跨度,其中所述时间跨度表示该评论自发表时间至进行排序的当前时间的时间跨度;以及
基于每一评论的所述时间跨度和预设时间衰减函数确定每一评论的所述时间影响因子。
10.根据权利要求1所述的方法,其特征在于,该方法还包括:
确定所述至少一个评论中的每一评论的用户质量,其中,确定所述至少一个评论中的每一评论的所述评分还基于每一评论的所述用户质量。
11.根据权利要求10所述的方法,其特征在于,所述确定所述至少一个评论中的每一评论的用户质量包括:
针对所述至少一个评论中每一评论,
确定关于该评论对应的用户的信息;其中,所述信息包括以下至少一者:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间、最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数;
基于所述信息中所包括的每一者对应的数据特征和特征权重,确定该评论的所述用户质量。
12.一种用于对评论进行排序的装置,其特征在于,该装置包括:
参数确定模块,用于确定至少一个评论中每一评论的内容质量参数和时间影响因子;
评分确定模块,用于基于所述至少一个评论中的每一评论的所述内容质量参数和所述时间影响因子确定该评论的评分;以及
排序模块,用于基于所述至少一个评论中的每一评论的评分对所述至少一个评分进行排序。
13.根据权利要求12所述的装置,其特征在于,所述参数确定模块确定所述至少一个评论中每一评论的内容质量参数包括:
确定所述至少一个评论中每一评论的情感分值、语句混乱度和文本丰富度;以及
基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数。
14.根据权利要求13所述的装置,其特征在于,所述参数确定模块基于所述至少一个评论中每一评论的所述情感分值、所述语句混乱度和所述文本丰富度确定该评论的所述内容质量参数包括基于以下内容确定该评论所述内容质量参数:
针对所述至少一个评论中每一评论,所述内容质量参数与所述情感分值和所述文本丰富度成正相关,所述内容质量参数与所述语句混乱度成负相关。
15.根据权利要求13或14所述的装置,其特征在于,所述参数确定模块确定所述至少一个评论中每一评论的所述情感分值包括:
针对所述至少一个评论中每一评论,确定包含情感的句子在该评论中的占比,其中所述占比即为该评论的所述情感分值。
16.根据权利要求13或14所述的装置,其特征在于,所述参数确定模块确定所述至少一个评论中每一评论的所述语句混乱度包括:
针对所述至少一个评论中每一评论,
基于预设转移概率矩阵确定该评论中相邻词之间的转移概率;以及
基于以下公式确定所述语句混乱度:
Figure FDA0002035925810000051
其中,entropy_score表示所述语句混乱度,n表示该评论中词的个数,prob(i)表示词i相邻的前一词转移到词i的概率。
17.根据权利要求13或14所述的装置,其特征在于,所述参数确定模块确定所述至少一个评论中每一评论的所述文本丰富度包括:
针对所述至少一个评论中每一评论,
确定在该评论中实词的密度;以及
基于所述实词的密度确定该评论的所述文本丰富度。
18.根据权利要求17所述的装置,其特征在于,所述参数确定模块确定所述至少一个评论中每一评论的所述文本丰富度还包括:
针对所述至少一个评论中每一评论,确定在该评论中句子的平均长度和连续词的个数,其中,所述确定该评论的所述文本丰富度还基于所述句子的平均长度和所述连续词的个数。
19.根据权利要求18所述的装置,其特征在于,针对所述至少一个评论中每一评论,所述参数确定模块基于所述实词的密度、所述句子的平均长度和所述连续词的个数确定该评论的所述文本丰富度包括基于以下公式确定所述文本丰富度:
text_score=word_density*mean_len-continuous_word_count
其中,text_score表示所述文本丰富度,word_density表示所述实词的密度,mean_len表示所述句子的平均长度,continuous_word_count表示所述连续词的个数。
20.根据权利要求12所述的装置,其特征在于,所述参数确定模块确定至少一个评论中每一评论的时间影响因子包括:
确定所述至少一个评论中每一评论的时间跨度,其中所述时间跨度表示该评论自发表时间至进行排序的当前时间的时间跨度;以及
基于每一评论的所述时间跨度和预设时间衰减函数确定每一评论的所述时间影响因子。
21.根据权利要求12所述的装置,其特征在于,所述参数确定模块还用于确定所述至少一个评论中的每一评论的用户质量,其中,所述评分确定模块确定所述至少一个评论中的每一评论的所述评分还基于每一评论的所述用户质量。
22.根据权利要求21所述的装置,其特征在于,所述参数确定模块确定所述至少一个评论中的每一评论的用户质量包括:
针对所述至少一个评论中每一评论,
确定关于该评论对应的用户的信息;其中,所述信息包括以下至少一者:用户是否有电话、用户是否有签到、用户基本信息完整度、最近一次登录时间、最近发表评论的时间、发表评论的总条数、发表评论的总展现条数、发表评论的总隐藏条数、加精评论总条数、发表真相的总条数和发表评论中图片的总数;
基于所述信息中所包括的每一者对应的数据特征和特征权重,确定该评论的所述用户质量。
23.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-11中任一项所述的方法。
24.一种处理器,其特征在于,用于运行程序,其中,所述程序被运行时用于执行权利要求1-11中任一项所述的方法。
CN201910324798.8A 2019-04-22 2019-04-22 对评论进行排序的方法和装置及机器可读存储介质 Active CN111859946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910324798.8A CN111859946B (zh) 2019-04-22 2019-04-22 对评论进行排序的方法和装置及机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910324798.8A CN111859946B (zh) 2019-04-22 2019-04-22 对评论进行排序的方法和装置及机器可读存储介质

Publications (2)

Publication Number Publication Date
CN111859946A true CN111859946A (zh) 2020-10-30
CN111859946B CN111859946B (zh) 2023-09-29

Family

ID=72951994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910324798.8A Active CN111859946B (zh) 2019-04-22 2019-04-22 对评论进行排序的方法和装置及机器可读存储介质

Country Status (1)

Country Link
CN (1) CN111859946B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528141A (zh) * 2020-12-03 2021-03-19 中山大学 一种基于多任务学习的个性化评论文本推荐方法
CN113822045A (zh) * 2021-09-29 2021-12-21 深圳市易平方网络科技有限公司 一种基于多模态数据的影评质量的识别方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078519A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム
CN102165435A (zh) * 2007-08-01 2011-08-24 金格软件有限公司 使用因特网语料库的自动上下文相关语言产生、校正和增强
CN104239331A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 一种用于实现评论搜索引擎排序的方法和装置
CN104331451A (zh) * 2014-10-30 2015-02-04 南京大学 一种基于主题的网络用户评论的推荐度评分方法
US20180322115A1 (en) * 2017-05-08 2018-11-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for determining comment, server and storage medium
CN109145187A (zh) * 2018-07-23 2019-01-04 浙江大学 基于评论数据的跨平台电商欺诈检测方法和系统
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109471981A (zh) * 2018-11-06 2019-03-15 北京达佳互联信息技术有限公司 评论信息排序方法、装置、服务器及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078519A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム
CN102165435A (zh) * 2007-08-01 2011-08-24 金格软件有限公司 使用因特网语料库的自动上下文相关语言产生、校正和增强
CN104239331A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 一种用于实现评论搜索引擎排序的方法和装置
CN104331451A (zh) * 2014-10-30 2015-02-04 南京大学 一种基于主题的网络用户评论的推荐度评分方法
US20180322115A1 (en) * 2017-05-08 2018-11-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for determining comment, server and storage medium
CN109145187A (zh) * 2018-07-23 2019-01-04 浙江大学 基于评论数据的跨平台电商欺诈检测方法和系统
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109471981A (zh) * 2018-11-06 2019-03-15 北京达佳互联信息技术有限公司 评论信息排序方法、装置、服务器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑玉荣著: "《基于历时学习者语料库的中国英语专业学生词汇与句法发展研究》", 哈尔滨工程大学出版社, pages: 63 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528141A (zh) * 2020-12-03 2021-03-19 中山大学 一种基于多任务学习的个性化评论文本推荐方法
CN113822045A (zh) * 2021-09-29 2021-12-21 深圳市易平方网络科技有限公司 一种基于多模态数据的影评质量的识别方法及相关装置
CN113822045B (zh) * 2021-09-29 2023-11-17 重庆市易平方科技有限公司 一种基于多模态数据的影评质量的识别方法及相关装置

Also Published As

Publication number Publication date
CN111859946B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
US11756245B2 (en) Machine learning to generate and evaluate visualizations
CN110489644B (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
US11995112B2 (en) System and method for information recommendation
Zhang et al. Distillation of news flow into analysis of stock reactions
Banasik et al. Sample selection bias in credit scoring models
CN112733042B (zh) 推荐信息的生成方法、相关装置及计算机程序产品
CN110647696B (zh) 一种业务对象的排序方法及装置
CN106251174A (zh) 信息推荐方法及装置
US11587172B1 (en) Methods and systems to quantify and index sentiment risk in financial markets and risk management contracts thereon
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN113393306A (zh) 产品推荐方法、装置、电子设备及计算机可读介质
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN111859946B (zh) 对评论进行排序的方法和装置及机器可读存储介质
CN113590945A (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
Frydman et al. Random survival forest for competing credit risks
CN109960777B (zh) 物品评论个性化推荐方法、系统、电子设备及存储介质
CN113468394A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN112231299A (zh) 一种特征库动态调整的方法和装置
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN108764981A (zh) 服务器、文本数据的处理方法及存储介质
CN112183069B (zh) 一种基于历史关键词投放数据的关键词构建方法及系统
CN114756743A (zh) 一种基于用户行为的推荐方法及系统、设备及介质
CN113094584A (zh) 推荐学习资源的确定方法和装置
CN110955823B (zh) 信息推荐方法、装置
CN117609627A (zh) 一种基于多信息源的消息推荐方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant