CN107391729A - 用户评论的排序方法、电子设备及计算机存储介质 - Google Patents
用户评论的排序方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN107391729A CN107391729A CN201710651375.8A CN201710651375A CN107391729A CN 107391729 A CN107391729 A CN 107391729A CN 201710651375 A CN201710651375 A CN 201710651375A CN 107391729 A CN107391729 A CN 107391729A
- Authority
- CN
- China
- Prior art keywords
- comment
- sample
- user
- feature
- characteristic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种用户评论的排序方法、电子设备及计算机存储介质,该方法包括:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过评论排序模型确定与各个用户评论的特征向量相对应的评价得分;根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。本发明能够更好地确定各个评论的质量,进而使排序结果更加合理。
Description
技术领域
本发明涉及计算机领域,具体涉及一种用户评论的排序方法、电子设备及计算机存储介质。
背景技术
为了提升用户之间的互动性,方便用户抒发情感,很多应用都支持评论功能。例如,影音播放类应用支持用户针对已观看的影音内容填写观后感等影音评论,电子书阅读应用支持用户针对已阅读的电子书填写书籍评论。例如,书籍评论主要是指:用户阅读某本书以后对于书中内容的评价及个人感情观点的表达。通过书籍评论能够在作者和读者、读者和读者之间构建信息交流的渠道。书籍评论的好坏往往能够影响其他用户的阅读选择,因此,挖掘书籍评论并进行排序能够对其他用户的阅读提供较好的引导作用。
现有技术中,为了筛选出优质且客观的书籍评论,往往采用单特征指标方法或多特征权值融合方法来实现。其中,单特征指标方法是指:按照评论的时效性、评论的热度、或评论相关性等单一特征进行排序。例如,评论时效性是根据评论发表时间距离当前时间的长短来进行排序,最近的评论排序越靠前。多特征权值融合方法是指:人为设定多个特征,并人工设置各个特征所对应的特征值在总分中所占的权重,以便综合各个特征确定总分排序。例如,可以从评论者、评论时间、评论有用性以及评论内容四个方面选取评论特征,然后根据人工设置的各个评论特征的权重计算评论总分并排序。
但是,在实现本发明的过程中,发明人发现现有技术中的上述方式至少存在如下问题:在单特征指标方法以及多特征权值融合方法中,仅仅通过人工设定的若干特征进行排序,且各个特征的权重也是人为设定的,而人工设置的方式必然存在极大的主观性,并且,在人工设置的方式中,无法挖掘出大量评论之间潜在的语义联系,进而无法作出更为准确公平的排序。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用户评论的排序方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种用户评论的排序方法,包括:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过评论排序模型确定与各个用户评论的特征向量相对应的评价得分;根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过评论排序模型确定与各个用户评论的特征向量相对应的评价得分;根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过评论排序模型确定与各个用户评论的特征向量相对应的评价得分;根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
在本发明提供的用户评论的排序方法、电子设备及计算机存储介质中,首先,通过第一种机器学习算法确定各个评论样本以及用户评论所对应的隐语义特征,进而根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;然后,通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;最后,根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,并通过上述评论排序模型确定与各个用户评论的特征向量相对应的评价得分。由此可见,本发明中的方式能够通过机器学习的方式挖掘出大量评论之间潜在的语义联系,并据此确定各个评论的隐语义特征,根据隐语义特征训练的评论排序模型能够更好地确定各个评论的质量,进而使排序结果更加合理。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的用户评论的排序方法的流程图;
图2示出了本发明实施例二提供的用户评论的排序方法的流程图;
图3a示出了本发明实施例二提供的实例《异世灵武天下》书籍评论采用单特征指标(热度)进行排序的结果;
图3b示出了本发明实施例二提供的实例《异世灵武天下》书籍评论采用本发明中的方案进行排序的结果;
图4示出了根据本发明实施例四的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明实施例一提供的用户评论的排序方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量。
其中,第一种机器学习算法可由本领域技术人员灵活设定,本发明对此不做限定。优选地,第一种机器学习算法为便于挖掘语义之间的深层次联系的算法,例如,word2vec算法、LDA算法。
具体地,在本步骤中,将预先挑选出的评论样本以及待排序的用户评论共同添加到同一个训练集合中,使评论样本与用户评论能够在同一个空间中进行训练,以便于挖掘出评论样本与用户评论之间潜在的语义联系,并根据潜在的语义联系确定每个评论样本及用户评论所对应的隐语义特征。优选地,隐语义特征包括多个维度,以便于更加准确地反映评论的特征。
另外,确定各个评论样本以及用户评论所对应的隐语义特征之后,进一步根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量。其中,特征向量的确定方式可以为多种:例如,可以直接将隐语义特征所对应的各维度的特征值作为特征向量;又如,也可以进一步结合评论样本的预设特征来确定该评论样本的特征向量,本发明对此不做限定。
步骤S120:通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型。
其中,第二种机器学习算法可由本领域技术人员灵活设定,本发明对此不做限定。优选地,第二种机器学习算法为便于确定排序的算法,例如,Pairwise Rank算法、SVM Rank算法等。
在利用第二种机器学习算法对各个评论样本的特征向量进行训练时,需结合各个评论样本的样本标注结果实现,以便于训练出用于实现评论排序的模型。其中,各个评论样本的样本标注时机和标注方式可由本领域技术人员灵活选择。例如,既可以在步骤S110执行之前进行标注,也可以在步骤S120中进行标注。另外,标注方式既可以为人工标注方式,也可以为机器标注方式,甚至还可以为人机结合标注方式。样本标注结果可以通过正负样本体现、也可以通过样本得分或样本排序体现,还可以通过分档排序后得到的Pairwise点对样本体现,本发明对此不做限定。
步骤S130:根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过上述评论排序模型确定与各个用户评论的特征向量相对应的评价得分。
其中,根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量的方式可由本领域技术人员灵活设置。例如,可以直接将隐语义特征所对应的各维度的特征值作为特征向量;又如,也可以进一步结合用户评论的预设特征来确定该用户评论的特征向量,本发明对此不做限定。
确定出每个用户评论的特征向量后,将该特征向量输入上述评论排序模型即可确定该用户评论的得分,根据评论得分可以得到排序结果。
步骤S140:根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
其中,可以根据评价得分对用户评论进行排序,从而便于确定优质的用户评论。相应地,还可以进一步根据排序结果进行展示,例如,将优质的用户评论的展示顺序设置为靠前的顺序,以便于其他用户浏览。具体地,各个用户评论的展示顺序和展示形式可由本领域技术人员灵活设置,本发明对此不做限定。
由此可见,本发明中的方式能够通过机器学习的方式挖掘出大量评论之间潜在的语义联系,并据此确定各个评论的隐语义特征,根据隐语义特征训练的评论排序模型能够更好地确定各个评论的质量,进而使排序结果更加合理。
实施例二
图2示出了本发明实施例二提供的用户评论的排序方法的流程图。如图2所示,该方法包括以下步骤:
步骤S210:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征。
具体地,在本实施例中,主要以电子书中的评论为例进行说明。相应地,需预先挑选出若干条书籍评论作为评论样本。为了全面覆盖各种类型的电子书,可以挑选来自多种类型的电子书的多条评论作为样本,例如,选择情感类型、历史类型、人文类型、科普类型等多种类型的电子书中的评论作为样本,并将样本根据书籍类型进行分类。优选地,为了提升后续训练结果的准确性,可以挑选大量评论作为样本,例如,在本实施例中,选择一万条评论作为样本。
另外,为了便于在后续步骤中训练评论排序模型,可以预先对评论样本进行标注。例如,可以采用人工标注与机器标注相结合的方式,首先由专业人士标注若干样本并排序,然后,对已标注的样本进行预处理后,对评论进行分档,以使高档评论与低档评论构成Pair对。这样标注Pair对是为了使用Pairwise算法进行评论排序模型训练,Pairwise算法能够将排序问题转化为文档对的二元分类问题,从而快速准确地排序。另外,除了利用分档标注外,也可以通过其他方式标注各个样本的正负、具体得分、排序序号等标注结果。本发明并不限定标注操作的具体执行时机,只要能够在训练评论排序模型之前完成样本的标注即可。
其中,用户评论包括:截至当前时间为止,系统中在线生成的全部评论。也就是说,在本实施例中,需要将全部待排序的用户评论与评论样本一起进行训练,以挖掘出各个评论之间潜在的语义联系,进而使得到的隐语义特征更加准确。例如,假设本实施例中用户评论的数量为两万条。具体地,将预先挑选出的一万条评论样本以及两万条待排序的用户评论共同添加到同一个训练集合中,使评论样本与用户评论能够在同一个空间中进行训练,以便于挖掘出评论样本与用户评论之间潜在的语义联系,并根据潜在的语义联系确定每个评论样本及用户评论所对应的隐语义特征。
其中,隐语义特征主要是指通过机器学习的方式挖掘语义之间的深层次联系,进而得到的隐含在评论中的特征。具体地,在本实施例中,通过Word2Vec算法(也称为词向量算法)来确定各个评论样本以及用户评论所对应的隐语义特征。在该算法中,每个词都能够通过向量进行表示,从而将自然语言转化为机器能够识别的语言形式。在此基础上,针对大量的评论样本以及用户评论进行训练,以挖掘出各个评论之间存在的深层次语义联系,进而确定每个评论样本以及用户评论的隐语义特征。例如,通过对多条评论的评论内容进行学习和训练,能够确定出“鹦鹉”、“麻雀”、“黄鹂”所对应的上位概念为“鸟类”,相应地,若某一评论中出现了“黄鹂”一词,则可以通过训练确定其对应的隐语义特征包括“鸟类”。在实际情况中,隐语义特征包括多个维度,例如,在本实施例中,每个评论样本或用户评论所对应的隐语义特征为N维隐语义特征,其中,N=100。由此可见,通过训练得出的隐语义特征能够反映语句间的隐含含义,从而更加准确全面地体现评论的特征。
另外,在本实施例中需要将全部的评论样本与用户评论一起进行训练,而最终训练得出的隐语义特征则是分别针对于每一条评论样本或用户评论的。因此,为了便于快速确定与某一评论样本或用户评论对应的隐语义特征,可以预先为每个评论样本以及用户评论设置唯一的评论标识,相应地,根据各个评论样本以及用户评论的评论标识即可确定对应的隐语义特征。
步骤S220:根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量。
在本实施例中,为了从不同角度、更准确的反映各个评论样本的特征,进一步结合评论样本的预设特征来确定评论样本的特征向量。具体地,先确定每个评论样本所对应的预设特征,然后,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,最后,根据组合结果得到该评论样本的特征向量。
下面介绍本步骤的一种具体实现方式:
首先,设置预设特征的维度数量以及各维度所对应的特征名称及确定方式,并据此确定各个评论样本的预设特征。在本实施例中,选取如下13个维度的特征作为预设特征:评论时效性、评论全局重复度、评论敏感词出现次数、与书籍关键词相似度、评论字数、评论词数、评论中词的重复度、命中书籍关键词的个数、情感得分、点赞数、回复数、点赞比率、以及回复比率。其中,评论时效性主要用于评估评论的时效,可以根据评论发表时间距离当前时间的长短进行排序,最近的评论排序越靠前。评论全局重复度用于去除垃圾评论以及广告评论,若多条评论中的内容完全相同,则说明评论全局重复度较高,可能是垃圾评论或广告评论。评论敏感词出现次数,用于去除垃圾评论,可以预先设置敏感词词库,并在词库中存储反动或污秽的敏感词,以去除垃圾评论。与书籍关键词相似度,用于挑选优质评论,与书籍关键词的相似度越高,说明评论内容越贴切。评论字数、评论词数共同用于辅助评估评论的质量。评论中词的重复度用于区分低质量的评论。命中书籍关键词的个数用于确定评论的内容是否与书籍内容吻合。情感得分可以根据预设的情感词的出现频率以及各个情感词的权重计算,其中,情感词还包括程度词以及否定词。点赞数、回复数共同用于辅助评估评论的热度。点赞比率、以及回复比率通过点赞数(或回复数)/当前书籍所有评论的总点赞数(或总回复数)。由此可见,根据上述设置,能够分别针对每个评论样本计算对应的预设特征,该预设特征为M维预设的显性特征,本实施例中M=13。其中,预设特征也可以称为显性特征,是能够直观看到且容易理解的特征。具体实施中,本发明不限定各个评论样本的预设特征的计算时机,例如,也可以在步骤S210的执行过程中进行计算,只要能够在生成特征向量之前计算出各个评论样本的预设特征即可。
然后,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,以确定该评论样本的特征向量。具体组合方式可由本领域技术人员灵活设置。例如,可以根据13维预设特征所对应的特征值确定特征向量中的前13个维度的取值,根据100维隐语义特征所对应的特征值确定特征向量中的后100个维度的取值,从而得到113维特征向量;又如,也可以根据100维隐语义特征所对应的特征值确定特征向量中的前100个维度的取值,根据13维预设特征所对应的特征值确定特征向量中的后13个维度的取值,从而得到113维特征向量;再如,也可以将13维预设特征和100维隐语义特征按照一定的规则交叉组合后得到113维特征向量。总之,只要特征向量能够同时体现隐语义特征和预设特征即可。在本实施例中,将评论样本的预设特征作为特征向量中的高阶特征,将该评论样本的隐语义特征作为特征向量中的低阶特征,由此构成该评论样本的特征向量。其中,高阶特征主要是指:容易识别的、较显著的特征;低阶特征主要是指:不易识别、较隐晦的特征。另外,还可以针对预设特征和隐语义特征分别设置不同的权重,以使较为重要的、区分度较高的特征占据更高的权重。
步骤S230:通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型。
在本实施例中,为了快速迭代得到较好的模型,采用Pairwise Rank算法进行训练,并利用xgboost(全称是eXtreme Gradient Boosting,一种速度快效果好的boosting模型)实现该算法。在训练评论排序模型的过程中,需利用已标注的评论样本进行训练,由于已标注的评论样本的标注结果经过专业人士的核查,并且,评论样本的特征向量能够同时反映评论的显性特征和隐语义特征,所以,据此训练出的评论排序模型能够较好地预测用户评论的质量。
步骤S240:根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过评论排序模型确定与各个用户评论的特征向量相对应的评价得分。
其中,用户评论包括步骤S210中用于训练隐语义特征的全部用户评论。每个用户评论所对应的隐语义特征直接根据该用户评论的评论标识,从步骤S210的训练结果中获取即可。例如,在本实施例中,共包含两万条用户评论。相应地,需分别针对每条用户评论确定该用户评论的特征向量,并通过评论排序模型确定与该用户评论的特征向量相对应的评价得分。具体实施时,为了提升处理速度,可以通过多线程并行运行的方式快速确定各个用户评论的特征向量及其评价得分。
具体地,可以参照步骤S220中确定评论样本的特征向量的方式来确定用户评论的特征向量。例如,先确定每个用户评论所对应的预设特征,然后,将该用户评论的预设特征与该用户评论的隐语义特征进行组合,最后,根据组合结果得到该用户评论的特征向量。其中,用户评论的预设特征中包含的维度数量以及各维度所对应的特征名称及确定方式可直接参照评论样本的预设特征中的相应内容,此处不再赘述。例如,可以将该用户评论的13维预设特征作为特征向量中的高阶特征,将该用户评论的100维隐语义特征作为特征向量中的低阶特征,从而得到113维特征向量。另外,也可以针对预设特征和隐语义特征中的各个特征设置不同的权重,以便于提升区分度。
确定出每个用户评论的特征向量后,将该特征向量输入上述评论排序模型即可确定该用户评论所对应的评价得分。其中,评价得分可以通过预测得分的形式或排名序号的形式体现,本发明不限定评价得分的具体形式,只要能够评估用户评论的质量即可。
另外,为了便于滤除垃圾评论或广告评论,提升评论排序模型的预测效率,还可以在通过上述评论排序模型确定与各个用户评论的特征向量相对应的评价得分之前,先根据预设的过滤规则对用户评论进行过滤。相应地,仅将过滤后剩余的用户评论的特征向量输入上述评论排序模型并确定对应的评价得分。其中,过滤规则包括:根据敏感词进行过滤的规则、和/或滤除重复评论的规则。另外,由于本实施例的预设特征中包含了与敏感词和重复度相关的特征,因此,实质上评论排序模型本身也具备一定的敏感词过滤及去重功能。
步骤S250:根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
其中,若评价得分为预测得分,则可以直接根据预测得分的高低来确定各个用户评论的先后顺序;若评价得分为排名序号,则直接根据排名序号对用户评论进行排序并展示。总之,通过本发明中的方式,能够使优质的评论展示在靠前的位置,从而便于用户浏览。
图3a展示了实例《异世灵武天下》书籍评论采用单特征指标(热度)进行排序的结果,图3b展示了实例《异世灵武天下》书籍评论采用本发明中的方案进行排序的结果。通过该实例的展示结果可以明显看出经过使用本发明方法,从评论的内容、和书籍相关度、文字表达等方面可以看出该实例书籍评论的排序较之前的排序结果有了很大的提升。由此进一步说明通过本发明方法进行书籍评论排序,能够筛选出高质量评论,进而为读者的阅读提供了可信度高的用户建议,使得书籍评论能够提供读者与读者之间信息的高质交流。
另外,利用本发明中的方式对88本书籍评论的排序结果进行测试后,由专业人士与原评论排序进行了对比评估,发现本发明中的排序结果具有以下优势:在书籍前3条评论中,低质量评论的比例由之前的66.6%降低到3.8%;GSB(Good、Same、Bad,与原评论排序相比更好、相同、更差)比例为144:110:10;前3条评论排序已为最优解的书籍比例由之前的9.1%提高到27.3%;且NDCG(Normalized Discounted Cumulative Gain,衡量排序质量的指标,取值范围为0-1)达99%。通过展示结果得出:本发明方法大幅降低了低质量评论比例,也更准确优化地展示了更多的高质量评论。总的来说,采用word2vec(更优选的可采用paragraph word2vec)训练评论向量,得出低阶隐语义特征,解决了人工筛选特征的局限性;书籍评论的特征向量采用13个显性特征和100个隐语义特征构成113维特征,保证模型在更多维度范围内判定评论质量,提高了模型准确率;评论排名训练采用pairwise rank模型,充分利用评论样本以及样本之间的关系排名,更有效地区分评论的质量。
综上可知,本发明中的方式至少具备以下技术优势:首先,通过机器学习算法挖掘评论样本以及用户评论所对应的隐语义特征,从而能够挖掘出人工提取方式中无法察觉的隐性特征。并且,在挖掘隐语义特征的过程中,将评论样本以及用户评论全部添加到训练集合中一起进行训练,因而能够快速高效地挖掘出评论样本以及用户评论之间的语义联系,从而使得到的隐语义特征更为精准。其次,在训练评论排序模型的过程中,仅利用经严格标注审核的评论样本进行训练,不掺杂经过预测后输出的用户评论,因而确保了评论排序模型的准确性。
另外,通过上面的描述可以看出,在本发明中,每当待预测的用户评论的数量及内容发生变化后,需要相应地更新评论排序模型,以确保预测结果的精准性。举例而言,假设某电子书应用每隔预设的时间周期运行一次本发明中的方法,从而对在线产生的全部用户评论进行排序,该时间周期假设为一天。相应地,第一天,该电子书应用首次运行本发明中的评论排序方法,假设评论样本固定为一万条,第一天在线产生的全部用户评论的数量为两万条,相应地,首先,需要根据一万条评论样本以及两万条用户评论确定隐语义特征,进而确定对应的特征向量;然后,结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;最后,根据该模型进行预测。第二天,该电子书应用第二次运行本发明中的评论排序方法,评论样本仍然固定为一万条,第二天新增的全部用户评论的数量为一万条,加上第一天已有的两万条用户评论,共需预测三万条用户评论。相应地,首先,需要根据一万条评论样本以及三万条用户评论确定隐语义特征,进而确定对应的特征向量;然后,结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;最后,根据该模型进行预测。由此可见,在各次运行本发明中的评论排序方法时,虽然评论样本的数量、标注结果及对应的预设特征均是固定的,但是,由于用户评论的数量和内容不断更新,因此,每次得到的评论样本以及用户评论所对应的隐语义特征也是不断更新的,因而每次预测之前都需要根据更新后的隐语义特征重新确定评论样本的特征向量,并重新训练评论排序模型,由此进一步确保了该评论排序模型与线上评论的匹配程度。另外,本发明技术人员还可以针对上述方案进行各种改动和变形。例如,第一种机器学习算法还可以采用LDA算法、以及矩阵分解算法实现,第二种机器学习算法还可以采用SVM Rank算法等实现。
实施例三
本申请实施例三提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用户评论的排序方法。
可执行指令具体可以用于使得处理器执行以下操作:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过评论排序模型确定与各个用户评论的特征向量相对应的评价得分;根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:将各个评论样本以及用户评论添加到训练集合中进行训练,根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:根据各个评论样本以及用户评论的评论标识确定对应的隐语义特征。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:确定每个评论样本所对应的预设特征,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,根据组合结果得到该评论样本的特征向量;和/或,确定每个用户评论所对应的预设特征,将该用户评论的预设特征与该用户评论的隐语义特征进行组合,根据组合结果得到该用户评论的特征向量。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:将该评论样本的预设特征作为特征向量中的高阶特征,将该评论样本的隐语义特征作为特征向量中的低阶特征;和/或,将该用户评论的预设特征作为特征向量中的高阶特征,将该用户评论的隐语义特征作为特征向量中的低阶特征。
在一种可选的方式中,各个评论样本以及用户评论所对应的隐语义特征为N维隐语义特征,各个评论样本以及用户评论所对应的预设特征为M维预设特征,则各个评论样本以及用户评论所对应的特征向量为S维特征向量;其中,N、M为大于1的自然数,S=N+M,并且,N大于或等于M;
其中,各个评论样本以及用户评论所对应的预设特征包括以下维度中的至少两个:评论时效性、评论全局重复度、评论敏感词出现次数、与书籍关键词相似度、评论字数、评论词数、评论中词的重复度、命中书籍关键词的个数、情感得分、点赞数、回复数、点赞比率、以及回复比率。
在一种可选的方式中,第一种机器学习算法包括以下中的至少一个:Word2Vec算法、LDA算法、以及矩阵分解算法;第二种机器学习算法包括以下中的至少一个:PairwiseRank算法、以及SVM Rank算法。
在一种可选的方式中,可执行指令还使处理器执行以下操作:根据预设的过滤规则对用户评论进行过滤;通过评论排序模型确定与过滤后得到的各个用户评论的特征向量相对应的评价得分;其中,过滤规则包括:根据敏感词进行过滤的规则、滤除重复评论的规则。
在一种可选的方式中,可执行指令还使处理器执行以下操作:对各个评论样本进行标注,以确定各个评论样本的样本标注结果;其中,各个评论样本的样本标注结果包括以下中的至少一个:各个评论样本属于正样本或负样本、各个评论样本的样本得分、各个评论样本在总样本排名中的序号、以及通过分档排序后得到的Pairwise点对样本;并且,与各个用户评论的特征向量相对应的评价得分包括:各个用户评论的特征向量相对应的预测得分和/或排名序号。
在一种可选的方式中,评论样本包括:来自多种类型的电子书的多条评论;用户评论包括:截至当前时间为止,系统中在线生成的全部评论。
实施例四
图4示出了根据本发明实施例四的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用户评论的排序方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过评论排序模型确定与各个用户评论的特征向量相对应的评价得分;根据与各个用户评论的特征向量相对应的评价得分确定各个用户评论的展示顺序。
在一种可选的方式中,程序410进一步使得处理器402执行以下操作:将各个评论样本以及用户评论添加到训练集合中进行训练,根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征。
在一种可选的方式中,程序410进一步使得处理器402执行以下操作:根据各个评论样本以及用户评论的评论标识确定对应的隐语义特征。
在一种可选的方式中,程序410进一步使得处理器402执行以下操作:确定每个评论样本所对应的预设特征,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,根据组合结果得到该评论样本的特征向量;和/或,确定每个用户评论所对应的预设特征,将该用户评论的预设特征与该用户评论的隐语义特征进行组合,根据组合结果得到该用户评论的特征向量。
在一种可选的方式中,程序410进一步使得处理器402执行以下操作:将该评论样本的预设特征作为特征向量中的高阶特征,将该评论样本的隐语义特征作为特征向量中的低阶特征;和/或,将该用户评论的预设特征作为特征向量中的高阶特征,将该用户评论的隐语义特征作为特征向量中的低阶特征。
在一种可选的方式中,各个评论样本以及用户评论所对应的隐语义特征为N维隐语义特征,各个评论样本以及用户评论所对应的预设特征为M维预设特征,则各个评论样本以及用户评论所对应的特征向量为S维特征向量;其中,N、M为大于1的自然数,S=N+M,并且,N大于或等于M;
其中,各个评论样本以及用户评论所对应的预设特征包括以下维度中的至少两个:评论时效性、评论全局重复度、评论敏感词出现次数、与书籍关键词相似度、评论字数、评论词数、评论中词的重复度、命中书籍关键词的个数、情感得分、点赞数、回复数、点赞比率、以及回复比率。
在一种可选的方式中,第一种机器学习算法包括以下中的至少一个:Word2Vec算法、LDA算法、以及矩阵分解算法;第二种机器学习算法包括以下中的至少一个:PairwiseRank算法、以及SVM Rank算法。
在一种可选的方式中,程序410还使得处理器402执行以下操作:根据预设的过滤规则对用户评论进行过滤;通过评论排序模型确定与过滤后得到的各个用户评论的特征向量相对应的评价得分;其中,过滤规则包括:根据敏感词进行过滤的规则、滤除重复评论的规则。
在一种可选的方式中,程序410还使得处理器402执行以下操作:对各个评论样本进行标注,以确定各个评论样本的样本标注结果;其中,各个评论样本的样本标注结果包括以下中的至少一个:各个评论样本属于正样本或负样本、各个评论样本的样本得分、各个评论样本在总样本排名中的序号、以及通过分档排序后得到的Pairwise点对样本;并且,与各个用户评论的特征向量相对应的评价得分包括:各个用户评论的特征向量相对应的预测得分和/或排名序号。
在一种可选的方式中,评论样本包括:来自多种类型的电子书的多条评论;用户评论包括:截至当前时间为止,系统中在线生成的全部评论。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了:A1.一种用户评论的排序方法,其包括:
通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;
通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;
根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分;
根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
A2.根据A1所述的方法,其中,所述通过第一种机器学习算法确定各个评论样本以及用户评论所对应的隐语义特征的步骤具体包括:
将各个评论样本以及用户评论添加到训练集合中进行训练,根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征。
A3.根据A2所述的方法,其中,每个评论样本以及用户评论具有对应的评论标识,则所述根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征的步骤具体包括:
根据各个评论样本以及用户评论的评论标识确定对应的隐语义特征。
A4.根据A1-A3任一所述的方法,其中,所述根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量的步骤具体包括:
确定每个评论样本所对应的预设特征,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,根据组合结果得到该评论样本的特征向量;和/或,
所述根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量的步骤具体包括:
确定每个用户评论所对应的预设特征,将该用户评论的预设特征与该用户评论的隐语义特征进行组合,根据组合结果得到该用户评论的特征向量。
A5.根据A4所述的方法,其中,所述将该评论样本的预设特征与该评论样本的隐语义特征进行组合的步骤具体包括:将该评论样本的预设特征作为特征向量中的高阶特征,将该评论样本的隐语义特征作为特征向量中的低阶特征;和/或,
所述将该用户评论的预设特征与该用户评论的隐语义特征进行组合的步骤具体包括:将该用户评论的预设特征作为特征向量中的高阶特征,将该用户评论的隐语义特征作为特征向量中的低阶特征。
A6.根据A4或A5所述的方法,其中,各个评论样本以及用户评论所对应的隐语义特征为N维隐语义特征,各个评论样本以及用户评论所对应的预设特征为M维预设特征,则各个评论样本以及用户评论所对应的特征向量为S维特征向量;其中,N、M为大于1的自然数,S=N+M,并且,N大于或等于M;
其中,各个评论样本以及用户评论所对应的预设特征包括以下维度中的至少两个:评论时效性、评论全局重复度、评论敏感词出现次数、与书籍关键词相似度、评论字数、评论词数、评论中词的重复度、命中书籍关键词的个数、情感得分、点赞数、回复数、点赞比率、以及回复比率。
A7.根据A1-A6任一所述的方法,其中,所述第一种机器学习算法包括以下中的至少一个:Word2Vec算法、LDA算法、以及矩阵分解算法;所述第二种机器学习算法包括以下中的至少一个:Pairwise Rank算法、以及SVM Rank算法。
A8.根据A1-A7任一所述的方法,其中,所述通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分的步骤之前,进一步包括:根据预设的过滤规则对所述用户评论进行过滤;
则所述通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分的步骤具体包括:通过所述评论排序模型确定与过滤后得到的各个用户评论的特征向量相对应的评价得分;
其中,所述过滤规则包括:根据敏感词进行过滤的规则、滤除重复评论的规则。
A9.根据A1-A8任一所述的方法,其中,所述通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练的步骤之前,进一步包括步骤:对各个评论样本进行标注,以确定各个评论样本的样本标注结果;
其中,所述各个评论样本的样本标注结果包括以下中的至少一个:各个评论样本属于正样本或负样本、各个评论样本的样本得分、各个评论样本在总样本排名中的序号、以及通过分档排序后得到的Pairwise点对样本;
并且,与各个用户评论的特征向量相对应的评价得分包括:各个用户评论的特征向量相对应的预测得分和/或排名序号。
A10.根据A1-A9任一所述的方法,其中,所述评论样本包括:来自多种类型的电子书的多条评论;所述用户评论包括:截至当前时间为止,系统中在线生成的全部评论。
本发明还公开了:B11.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;
通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;
根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分;
根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
B12.根据B11所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
将各个评论样本以及用户评论添加到训练集合中进行训练,根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征。
B13.根据B12所述的电子设备,其中,每个评论样本以及用户评论具有对应的评论标识,则所述可执行指令进一步使所述处理器执行以下操作:
根据各个评论样本以及用户评论的评论标识确定对应的隐语义特征。
B14.根据B11-B13任一所述的电子设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
确定每个评论样本所对应的预设特征,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,根据组合结果得到该评论样本的特征向量;和/或,确定每个用户评论所对应的预设特征,将该用户评论的预设特征与该用户评论的隐语义特征进行组合,根据组合结果得到该用户评论的特征向量。
B15.根据B14所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:将该评论样本的预设特征作为特征向量中的高阶特征,将该评论样本的隐语义特征作为特征向量中的低阶特征;和/或,将该用户评论的预设特征作为特征向量中的高阶特征,将该用户评论的隐语义特征作为特征向量中的低阶特征。
B16.根据B14或B15所述的电子设备,其中,各个评论样本以及用户评论所对应的隐语义特征为N维隐语义特征,各个评论样本以及用户评论所对应的预设特征为M维预设特征,则各个评论样本以及用户评论所对应的特征向量为S维特征向量;其中,N、M为大于1的自然数,S=N+M,并且,N大于或等于M;
其中,各个评论样本以及用户评论所对应的预设特征包括以下维度中的至少两个:评论时效性、评论全局重复度、评论敏感词出现次数、与书籍关键词相似度、评论字数、评论词数、评论中词的重复度、命中书籍关键词的个数、情感得分、点赞数、回复数、点赞比率、以及回复比率。
B17.根据B11-B16任一所述的电子设备,其中,所述第一种机器学习算法包括以下中的至少一个:Word2Vec算法、LDA算法、以及矩阵分解算法;所述第二种机器学习算法包括以下中的至少一个:Pairwise Rank算法、以及SVM Rank算法。
B18.根据B11-B17任一所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
根据预设的过滤规则对所述用户评论进行过滤;
通过所述评论排序模型确定与过滤后得到的各个用户评论的特征向量相对应的评价得分;
其中,所述过滤规则包括:根据敏感词进行过滤的规则、滤除重复评论的规则。
B19.根据B11-B18任一所述的电子设备,所述可执行指令还使所述处理器执行以下操作:对各个评论样本进行标注,以确定各个评论样本的样本标注结果;其中,所述各个评论样本的样本标注结果包括以下中的至少一个:各个评论样本属于正样本或负样本、各个评论样本的样本得分、各个评论样本在总样本排名中的序号、以及通过分档排序后得到的Pairwise点对样本;并且,与各个用户评论的特征向量相对应的评价得分包括:各个用户评论的特征向量相对应的预测得分和/或排名序号。
B20.根据B11-B19任一所述的电子设备,其中,所述评论样本包括:来自多种类型的电子书的多条评论;所述用户评论包括:截至当前时间为止,系统中在线生成的全部评论。
本发明还公开了:C21.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;
通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;
根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分;
根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
C22.根据C21所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
将各个评论样本以及用户评论添加到训练集合中进行训练,根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征。
C23.根据C22所述的计算机存储介质,其中,每个评论样本以及用户评论具有对应的评论标识,则所述可执行指令进一步使所述处理器执行以下操作:
根据各个评论样本以及用户评论的评论标识确定对应的隐语义特征。
C24.根据C21-C23任一所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:
确定每个评论样本所对应的预设特征,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,根据组合结果得到该评论样本的特征向量;和/或,确定每个用户评论所对应的预设特征,将该用户评论的预设特征与该用户评论的隐语义特征进行组合,根据组合结果得到该用户评论的特征向量。
C25.根据C24所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:将该评论样本的预设特征作为特征向量中的高阶特征,将该评论样本的隐语义特征作为特征向量中的低阶特征;和/或,将该用户评论的预设特征作为特征向量中的高阶特征,将该用户评论的隐语义特征作为特征向量中的低阶特征。
C26.根据C24或C25所述的计算机存储介质,其中,各个评论样本以及用户评论所对应的隐语义特征为N维隐语义特征,各个评论样本以及用户评论所对应的预设特征为M维预设特征,则各个评论样本以及用户评论所对应的特征向量为S维特征向量;其中,N、M为大于1的自然数,S=N+M,并且,N大于或等于M;
其中,各个评论样本以及用户评论所对应的预设特征包括以下维度中的至少两个:评论时效性、评论全局重复度、评论敏感词出现次数、与书籍关键词相似度、评论字数、评论词数、评论中词的重复度、命中书籍关键词的个数、情感得分、点赞数、回复数、点赞比率、以及回复比率。
C27.根据C21-C26任一所述的计算机存储介质,其中,所述第一种机器学习算法包括以下中的至少一个:Word2Vec算法、LDA算法、以及矩阵分解算法;所述第二种机器学习算法包括以下中的至少一个:Pairwise Rank算法、以及SVM Rank算法。
C28.根据C21-C27任一所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
根据预设的过滤规则对所述用户评论进行过滤;
通过所述评论排序模型确定与过滤后得到的各个用户评论的特征向量相对应的评价得分;
其中,所述过滤规则包括:根据敏感词进行过滤的规则、滤除重复评论的规则。
C29.根据C21-C28任一所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:对各个评论样本进行标注,以确定各个评论样本的样本标注结果;其中,所述各个评论样本的样本标注结果包括以下中的至少一个:各个评论样本属于正样本或负样本、各个评论样本的样本得分、各个评论样本在总样本排名中的序号、以及通过分档排序后得到的Pairwise点对样本;并且,与各个用户评论的特征向量相对应的评价得分包括:各个用户评论的特征向量相对应的预测得分和/或排名序号。
C30.根据C21-C29任一所述的计算机存储介质,其中,所述评论样本包括:来自多种类型的电子书的多条评论;所述用户评论包括:截至当前时间为止,系统中在线生成的全部评论。
Claims (10)
1.一种用户评论的排序方法,其包括:
通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;
通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;
根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分;
根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
2.根据权利要求1所述的方法,其中,所述通过第一种机器学习算法确定各个评论样本以及用户评论所对应的隐语义特征的步骤具体包括:
将各个评论样本以及用户评论添加到训练集合中进行训练,根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征。
3.根据权利要求2所述的方法,其中,每个评论样本以及用户评论具有对应的评论标识,则所述根据训练结果确定各个评论样本以及用户评论所对应的隐语义特征的步骤具体包括:
根据各个评论样本以及用户评论的评论标识确定对应的隐语义特征。
4.根据权利要求1-3任一所述的方法,其中,所述根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量的步骤具体包括:
确定每个评论样本所对应的预设特征,将该评论样本的预设特征与该评论样本的隐语义特征进行组合,根据组合结果得到该评论样本的特征向量;和/或,
所述根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量的步骤具体包括:
确定每个用户评论所对应的预设特征,将该用户评论的预设特征与该用户评论的隐语义特征进行组合,根据组合结果得到该用户评论的特征向量。
5.根据权利要求4所述的方法,其中,所述将该评论样本的预设特征与该评论样本的隐语义特征进行组合的步骤具体包括:将该评论样本的预设特征作为特征向量中的高阶特征,将该评论样本的隐语义特征作为特征向量中的低阶特征;和/或,
所述将该用户评论的预设特征与该用户评论的隐语义特征进行组合的步骤具体包括:将该用户评论的预设特征作为特征向量中的高阶特征,将该用户评论的隐语义特征作为特征向量中的低阶特征。
6.根据权利要求4或5所述的方法,其中,各个评论样本以及用户评论所对应的隐语义特征为N维隐语义特征,各个评论样本以及用户评论所对应的预设特征为M维预设特征,则各个评论样本以及用户评论所对应的特征向量为S维特征向量;其中,N、M为大于1的自然数,S=N+M,并且,N大于或等于M;
其中,各个评论样本以及用户评论所对应的预设特征包括以下维度中的至少两个:评论时效性、评论全局重复度、评论敏感词出现次数、与书籍关键词相似度、评论字数、评论词数、评论中词的重复度、命中书籍关键词的个数、情感得分、点赞数、回复数、点赞比率、以及回复比率。
7.根据权利要求1-6任一所述的方法,其中,所述第一种机器学习算法包括以下中的至少一个:Word2Vec算法、LDA算法、以及矩阵分解算法;所述第二种机器学习算法包括以下中的至少一个:Pairwise Rank算法、以及SVMRank算法。
8.根据权利要求1-7任一所述的方法,其中,所述通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分的步骤之前,进一步包括:根据预设的过滤规则对所述用户评论进行过滤;
则所述通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分的步骤具体包括:通过所述评论排序模型确定与过滤后得到的各个用户评论的特征向量相对应的评价得分;
其中,所述过滤规则包括:根据敏感词进行过滤的规则、滤除重复评论的规则。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;
通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;
根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分;
根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
通过第一种机器学习算法确定各个评论样本所对应的隐语义特征以及用户评论所对应的隐语义特征,根据每个评论样本所对应的隐语义特征确定该评论样本的特征向量;
通过第二种机器学习算法,并结合各个评论样本的样本标注结果对各个评论样本的特征向量进行训练,得到评论排序模型;
根据每个用户评论所对应的隐语义特征确定该用户评论的特征向量,通过所述评论排序模型确定与各个用户评论的特征向量相对应的评价得分;
根据与各个用户评论的特征向量相对应的评价得分对各个用户评论进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710651375.8A CN107391729B (zh) | 2017-08-02 | 2017-08-02 | 用户评论的排序方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710651375.8A CN107391729B (zh) | 2017-08-02 | 2017-08-02 | 用户评论的排序方法、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391729A true CN107391729A (zh) | 2017-11-24 |
CN107391729B CN107391729B (zh) | 2018-09-04 |
Family
ID=60343058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710651375.8A Active CN107391729B (zh) | 2017-08-02 | 2017-08-02 | 用户评论的排序方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391729B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920611A (zh) * | 2018-06-28 | 2018-11-30 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备及存储介质 |
CN108960574A (zh) * | 2018-06-07 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 问答的质量确定方法、装置、服务器和存储介质 |
CN109189922A (zh) * | 2018-08-07 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 评论评估模型的训练方法和装置 |
CN109255027A (zh) * | 2018-08-27 | 2019-01-22 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
CN109583958A (zh) * | 2018-12-01 | 2019-04-05 | 深圳市润隆实业有限公司 | 一种用于积分商城的点评系统 |
CN109688428A (zh) * | 2018-12-13 | 2019-04-26 | 连尚(新昌)网络科技有限公司 | 视频评论生成方法和装置 |
CN109948138A (zh) * | 2017-12-19 | 2019-06-28 | 优酷网络技术(北京)有限公司 | 一种评论处理方法及系统 |
CN109960777A (zh) * | 2017-12-25 | 2019-07-02 | 北京京东尚科信息技术有限公司 | 物品评论个性化推荐方法、系统、电子设备及存储介质 |
CN110019720A (zh) * | 2017-12-19 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种评论的内容分获取方法及系统 |
CN110087118A (zh) * | 2019-04-26 | 2019-08-02 | 北京达佳互联信息技术有限公司 | 评论消息处理方法、装置、终端、服务器及介质 |
CN110134763A (zh) * | 2019-04-26 | 2019-08-16 | 杭州飞弛网络科技有限公司 | 一种陌生人社交活动的评价信息分类显示方法与系统 |
WO2019201024A1 (zh) * | 2018-04-17 | 2019-10-24 | 百度在线网络技术(北京)有限公司 | 用于更新模型参数的方法、装置、设备和存储介质 |
CN111062838A (zh) * | 2019-10-31 | 2020-04-24 | 安徽踏极智能科技有限公司 | 一种钢琴教学用家长意见登记系统 |
CN111522940A (zh) * | 2020-04-08 | 2020-08-11 | 百度在线网络技术(北京)有限公司 | 用于处理评论信息的方法和装置 |
CN111666280A (zh) * | 2020-04-27 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 评论的排序方法、装置、设备和计算机存储介质 |
CN113159812A (zh) * | 2020-12-31 | 2021-07-23 | 上海明品医学数据科技有限公司 | 一种基于移动终端的积分制智能医学会议学习系统及学习方法 |
CN116800705A (zh) * | 2023-05-06 | 2023-09-22 | 福州畅昕信息科技有限公司 | 一种电子书弹幕控制方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110040759A1 (en) * | 2008-01-10 | 2011-02-17 | Ari Rappoport | Method and system for automatically ranking product reviews according to review helpfulness |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN104199980A (zh) * | 2014-09-24 | 2014-12-10 | 苏州大学 | 一种应用于评论语料的情感信息压缩方法及系统 |
CN105138508A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于偏好扩散的上下文推荐系统 |
-
2017
- 2017-08-02 CN CN201710651375.8A patent/CN107391729B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110040759A1 (en) * | 2008-01-10 | 2011-02-17 | Ari Rappoport | Method and system for automatically ranking product reviews according to review helpfulness |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN104199980A (zh) * | 2014-09-24 | 2014-12-10 | 苏州大学 | 一种应用于评论语料的情感信息压缩方法及系统 |
CN105138508A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于偏好扩散的上下文推荐系统 |
Non-Patent Citations (3)
Title |
---|
张艳丰等: "基于模糊TOPSIS分析的在线评论有用性排序过滤模型研究—以亚马逊手机评论为例", 《图书情报工作》 * |
苏增才: "基于word2vec和SVMperf的网络中文文本评论信息情感分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄震华等: "基于排序学习的推荐算法研究综述", 《软件学报》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948138A (zh) * | 2017-12-19 | 2019-06-28 | 优酷网络技术(北京)有限公司 | 一种评论处理方法及系统 |
CN110019720B (zh) * | 2017-12-19 | 2022-02-08 | 阿里巴巴(中国)有限公司 | 一种评论的内容分获取方法及系统 |
CN110019720A (zh) * | 2017-12-19 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种评论的内容分获取方法及系统 |
CN109960777B (zh) * | 2017-12-25 | 2022-12-02 | 北京京东尚科信息技术有限公司 | 物品评论个性化推荐方法、系统、电子设备及存储介质 |
CN109960777A (zh) * | 2017-12-25 | 2019-07-02 | 北京京东尚科信息技术有限公司 | 物品评论个性化推荐方法、系统、电子设备及存储介质 |
WO2019201024A1 (zh) * | 2018-04-17 | 2019-10-24 | 百度在线网络技术(北京)有限公司 | 用于更新模型参数的方法、装置、设备和存储介质 |
CN108960574A (zh) * | 2018-06-07 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 问答的质量确定方法、装置、服务器和存储介质 |
CN108920611A (zh) * | 2018-06-28 | 2018-11-30 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备及存储介质 |
CN109189922A (zh) * | 2018-08-07 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 评论评估模型的训练方法和装置 |
CN109189922B (zh) * | 2018-08-07 | 2021-06-29 | 创新先进技术有限公司 | 评论评估模型的训练方法和装置 |
CN109255027A (zh) * | 2018-08-27 | 2019-01-22 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
CN109255027B (zh) * | 2018-08-27 | 2022-06-24 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
CN109583958A (zh) * | 2018-12-01 | 2019-04-05 | 深圳市润隆实业有限公司 | 一种用于积分商城的点评系统 |
CN109688428A (zh) * | 2018-12-13 | 2019-04-26 | 连尚(新昌)网络科技有限公司 | 视频评论生成方法和装置 |
CN109688428B (zh) * | 2018-12-13 | 2022-01-21 | 连尚(新昌)网络科技有限公司 | 视频评论生成方法和装置 |
CN110087118B (zh) * | 2019-04-26 | 2022-01-21 | 北京达佳互联信息技术有限公司 | 评论消息处理方法、装置、终端、服务器及介质 |
CN110134763B (zh) * | 2019-04-26 | 2021-06-29 | 杭州飞弛网络科技有限公司 | 一种陌生人社交活动的评价信息分类显示方法与系统 |
CN110134763A (zh) * | 2019-04-26 | 2019-08-16 | 杭州飞弛网络科技有限公司 | 一种陌生人社交活动的评价信息分类显示方法与系统 |
CN110087118A (zh) * | 2019-04-26 | 2019-08-02 | 北京达佳互联信息技术有限公司 | 评论消息处理方法、装置、终端、服务器及介质 |
CN111062838A (zh) * | 2019-10-31 | 2020-04-24 | 安徽踏极智能科技有限公司 | 一种钢琴教学用家长意见登记系统 |
CN111522940A (zh) * | 2020-04-08 | 2020-08-11 | 百度在线网络技术(北京)有限公司 | 用于处理评论信息的方法和装置 |
CN111666280A (zh) * | 2020-04-27 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 评论的排序方法、装置、设备和计算机存储介质 |
CN111666280B (zh) * | 2020-04-27 | 2023-11-21 | 百度在线网络技术(北京)有限公司 | 评论的排序方法、装置、设备和计算机存储介质 |
CN113159812A (zh) * | 2020-12-31 | 2021-07-23 | 上海明品医学数据科技有限公司 | 一种基于移动终端的积分制智能医学会议学习系统及学习方法 |
CN116800705A (zh) * | 2023-05-06 | 2023-09-22 | 福州畅昕信息科技有限公司 | 一种电子书弹幕控制方法、电子设备及存储介质 |
CN116800705B (zh) * | 2023-05-06 | 2023-11-10 | 福州畅昕信息科技有限公司 | 一种电子书弹幕控制方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107391729B (zh) | 2018-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391729B (zh) | 用户评论的排序方法、电子设备及计算机存储介质 | |
Arras et al. | " What is relevant in a text document?": An interpretable machine learning approach | |
Bisgin et al. | Comparing SVM and ANN based machine learning methods for species identification of food contaminating beetles | |
CN109271493B (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
Richert | Building machine learning systems with Python | |
CN108121795A (zh) | 用户行为预测方法及装置 | |
CN109684627A (zh) | 一种文本分类方法及装置 | |
Lee et al. | Protein family classification with neural networks | |
Coelho et al. | Building Machine Learning Systems with Python: Explore machine learning and deep learning techniques for building intelligent systems using scikit-learn and TensorFlow | |
Menshawy | Deep Learning By Example: A hands-on guide to implementing advanced machine learning algorithms and neural networks | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
CN112818218B (zh) | 信息推荐方法、装置、终端设备及计算机可读存储介质 | |
Walsh et al. | Automated human cell classification in sparse datasets using few-shot learning | |
Saleh | The The Machine Learning Workshop: Get ready to develop your own high-performance machine learning algorithms with scikit-learn | |
Kortum et al. | Dissection of AI job advertisements: A text mining-based analysis of employee skills in the disciplines computer vision and natural language processing | |
CN111523315B (zh) | 数据处理方法、文本识别方法、装置及计算机设备 | |
Rai | Advanced deep learning with R: Become an expert at designing, building, and improving advanced neural network models using R | |
CN103345525B (zh) | 文本分类方法、装置及处理器 | |
Nguyen et al. | Explaining how deep neural networks forget by deep visualization | |
Airlie et al. | A novel application of deep learning to forensic hair analysis methodology | |
Zeng et al. | Human-in-the-loop model explanation via verbatim boundary identification in generated neighborhoods | |
Fan et al. | A medical pre-diagnosis system for histopathological image of breast cancer | |
Ahmed et al. | Using boosting approaches to detect spam reviews | |
Grigorev | Machine Learning Bookcamp: Build a Portfolio of Real-life Projects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |