CN110019720B - 一种评论的内容分获取方法及系统 - Google Patents

一种评论的内容分获取方法及系统 Download PDF

Info

Publication number
CN110019720B
CN110019720B CN201711375569.6A CN201711375569A CN110019720B CN 110019720 B CN110019720 B CN 110019720B CN 201711375569 A CN201711375569 A CN 201711375569A CN 110019720 B CN110019720 B CN 110019720B
Authority
CN
China
Prior art keywords
comment
word
content
words
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711375569.6A
Other languages
English (en)
Other versions
CN110019720A (zh
Inventor
杨华涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201711375569.6A priority Critical patent/CN110019720B/zh
Publication of CN110019720A publication Critical patent/CN110019720A/zh
Application granted granted Critical
Publication of CN110019720B publication Critical patent/CN110019720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种评论的内容分获取方法及系统,其中,所述方法包括:对评论主体的每一条评论进行分词处理,获得每一条评论的词语序列;对词语序列进行过滤处理,获得每一条评论的个性词;其中,个性词为评论内容过滤处理之后剩下的词,用于表征评论内容;根据每一条评论的个性词的数量获得评论的内容分。本技术方案对评论内容进行分词处理,根据分词结果计算评论的内容分,可以有效的避免被刷广告的情况发生。本技术方案对评论内容过滤高频词和停用词,并且对无实际意义且胡乱输入的评论内容过滤掉,最终筛选出优质评论的准确性提高,其他用户根据优质评论的内容深入了解评论主体,引起用户对评论主体的兴趣,并提高了用户之间的互动量。

Description

一种评论的内容分获取方法及系统
技术领域
本申请涉及互联网技术领域,特别涉及一种评论的内容分获取方法及系统。
背景技术
随着互联网技术的迅速发展,用户通过互联网进行各种各样的互动。比如:用户可以在被评论视频下方的评论栏发表评论,其他用户可以对评论区的评论进行互动。
评论是表达评论主体某些特征方面状况和用户个体对评论主体情感的信息。用户可以根据评论内容对评论主体进行了解,也可以同其他用户针对同一评论主体进行信息交流。目前,评论区有大量的评论,在评论区展示评论时多采用列表的方式进行排序。
传统的排序方法大多是基于评论文本的发表时间、互动量以及评论人的用户级别进行排序。由于评论排序规则不是基于评论内容设置,使得评论区的前面几页存在大量质量偏水的评论,大量的优质评论被掩没,最终导致用户无法有效地从已有的评论中获得有用信息,并且影响了用户之间的互动。
发明内容
本申请实施方式的目的是提供一种评论的内容分获取方法及系统,解决评论排序规则不涉及评论内容而导致不能精确的筛选出优质评论的技术问题。
为实现上述目的,本申请实施方式提供一种评论的内容分获取方法,所述方法包括:
对评论主体的每一条评论进行分词处理,获得每一条评论的词语序列;
对每一条评论的词语序列进行过滤处理,获得每一条评论的个性词;其中,所述个性词为评论内容过滤处理之后剩下的词,用于表征评论内容;
根据每一条评论的个性词的数量获得所述评论的内容分。
为实现上述目的,本申请实施方式还提供一种评论的内容分获取系统,所述系统包括:存储器和处理器,所述存储器中存储计算机程序,所述计算机程序被所述处理器执行时,实现以下功能:
对评论主体的每一条评论进行分词处理,获得每一条评论的词语序列;
对每一条评论的词语序列进行过滤处理,获得每一条评论的个性词;其中,所述个性词为评论内容过滤处理之后剩下的词,用于表征评论内容;
根据每一条评论的个性词的数量获得所述评论的内容分。
由上可见,与现有技术相比较,本申请提供的技术方案对评论内容进行分词处理,根据分词结果计算评论的内容分,可以有效的避免被刷广告的情况发生。本技术方案对评论内容过滤高频词和停用词,解决了评论区列表的前列垃圾评论的占比过高问题,并且对无实际意义且胡乱输入的评论内容过滤掉,最终筛选出优质评论的准确性提高,其他用户根据优质评论的内容深入了解评论主体,引起用户对评论主体的兴趣,并提高了用户之间的互动量。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提出的一种评论内容分获取方法的流程图之一;
图2为本申请实施例提出的一种评论内容分获取方法的流程图之二;
图3为本实施例中内容分的曲线图;
图4为本申请实施例提出的一种评论内容分获取系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
在目前的排序中,优质的评论内容如果不是在评论主体更新的第一时间发布,则很难有机会处于评论列表中靠前的位置,大量的优质评论内容被埋没。如何在海量的评论中筛选出优质评论是目前需要解决的技术问题。
为了解决以上问题,设置排序原则,对评论进行排序,使得优质评论在评论列表的前面几页。用户在评论主体的页面,能很方便的在评论区的优质评论中获得有效信息,提升用户的阅读体验和整体评论内容的可阅读性。
目前,行业内最常见的评论排序的方案为:评论区分为热评和最新评两个区域。其中,热评按照互动总量作简单的排序,最新评论按照发表评论时间倒序排列。对于这个常规方案来说,热门排序部分按照互动量排序,先发评论优势大,长期占据评论头部没有变化,最新时间排序部分,先发表的评论快速沉底没有机会再次透出,并且容易被刷广告,造成垃圾评论占比过高,影响整体评论头部区域的质量。针对常规排序方案的局限性,又出现两种常见的排序规则来弥补常规方案的短板。第一种是按照评论互动时间排序。该技术方案解决了传统按照评论时间和互动量排序形态固化的问题,仍然不能避免被刷广告的情况发生,并且垃圾评论可以被认为置顶。第二种是评论按照互动量作算法排序。排序维度单一,只依赖于顶、踩的互动方式进行排序,仍然容易被刷广告的情况发生。
由此可知,目前常规的评论排序算法并没有涉及评论内容,导致无法根据内容情况获得具有优质内容的评论。基于现有技术的缺点,本申请提供一种评论内容分获取方法,以一个评论主体为计算范围,根据图1所示步骤计算出每一条评论的内容分。所述方法可以应用于具备数据处理功能的终端设备中。所述终端设备例如可以是台式电脑、笔记本电脑、平板电脑、工作站等。所述方法可以包括以下步骤:
S11:对评论主体的每一条评论进行分词处理,获得每一条评论的词语序列;
在本实施例中,评论主体的每一条评论经过分词器处理,获得评论内容的词语序列。实际中,分词器可以选择开源分词器,如word分词器、IK分词器等。
在本实施例中,有的评论内容中包含评论表情符号。在实际中,评论表情符号是由运营人员维护的特殊标识符号,用来展示情绪,属于高频出现的内容,会影响对评论内容的分词处理结果,需要去除。有的评论内容当中引用或转发他人内容,在计算内容分时,需要将引用或转发他们内容的部分去除掉,用户自己的评论内容部分。因此,在分词处理之前,本技术方案对每一条评论的内容进行预处理。
S12:对每一条评论的词语序列进行过滤处理,获得每一条评论的个性词;其中,所述个性词为评论内容过滤处理之后剩下的词,用于表征评论内容。
在实际中,评论主体的评论区会有很多胡乱输入无意义的评论内容。比如:“买比较好看皇马密密麻麻美国和关怀和根本不过结核杆菌好几年基本没好好回家好好计划过好多小星星和避免部门根据国内版本呢。可急急忙忙吗,。吗。'”。通常情况下,这类无意义输出会使用贝叶斯算法进行过滤。但是,经过分析可知,这类胡乱输入且无意义的评论内容一般很少提取出具有特征性的token字串,这样很难建立胡乱输入且无意义的语句数据样本库,最终导致使用贝叶斯算法过滤的效果欠佳。
经过研究发现,引入神经网络去计算词语的相关度的话,就很大的可能性解决贝叶斯算法无法解决的问题。在实际运用中,大量的文本内容数据样本通过神经网络进行训练,建立识别模型。该模型能够识别出两个词语出现在同一个语境下的概率,这个概率就是两个词语之间的相关度。针对相关度来说,最高的相关度是1,即两个词语完全相同,最低的相关度是0,即两个词语在任意训练的语境中都没有同时出现过,这样计算出来的一条完整的语句中所有词语之间的相关度确定语句有意义的概率一定是一个在0-1之间的值。这个值越高,有意义的语句概率就越大,值越低,无意义的语句概率就越大,再设置一个阈值,就可以用来过滤无意义的语句了。
在应用中,将待过滤的评论内容的各词语序列输入至识别模型中,假如与评论主体无关的词语出现在同一句话中,词语之间的语境不同,导致词语的相关度就会变小。比如:以优酷上播放的视频《甄嬛传》来说,“皇马”、“结核杆菌”这类词出现在《甄嬛传》的评论内容中,这些词与针对《甄嬛传》评论的词语的语境不相同,使得“皇马”、“结核杆菌”这类词语与其他针对《甄嬛传》评论的词语之间的相关度变小,根据评论内容中一条语句的所有词语之间的相关度获得的语句有意义的概率降低。在实际中,这类评论有可能是用户故意胡乱输入而为之。那么,本技术方案将这类评论过滤掉。
基于上述描述,在本实施例中,将所述评论主体的所有评论经过分词处理,获得每条评论的词语序列。然后,将词语序列中的词语转换为词向量,并将所述词向量作为识别模型的输入,经过所述识别模型处理,先获得词语的相关度,所述识别模型根据词语的相关度确定语句有意义的概率,将所述概率小于等于阈值所对应的评论过滤掉。例如:“我是一个男人你是一个女人”,这句话分词处理后每个词的词向量作为识别模型的输入,经过识别模型处理,获得这句话有意义的概率为0.71428573,该概率大于设定的阈值。这个概率越大,表明这句话符合中文表达语序,且具有实际意义,不属于胡乱输入的无意义语句。在实际运作时,阈值根据实际情况设置。
在本实施例中,过滤之后剩余评论的词语序列与停用词库进行匹配,如果评论内容中包含停用词,则将停用词从该评论中过滤掉。
停用词可以看做一类特殊的高频词,会在内容质量计算的时候做剔除,对评论内容分计算时,不参与内容分计算。停用词库包括:数字、字母、标点符号、emoji、虚词等等,停用词可以自行定义,也可以从开源词库中获取。目前,一般开源分词都自带停用词库。
在本实施例中,过滤掉停用词的词语序列与高频词库进行匹配。如果词语序列中包含高频词库中的词,则将这类高频词从该评论中过滤掉。在本实施例中,高频词库可以通过不同视频的海量评论数据样本做分词统计筛选后得到的一份词库。具体地,高频词库设计可以根据如优酷全网站评论数据库中随机获取100万以上的评论数据,对这些评论文本经分词处理后做词频统计,然后设置词频阈值获取高频词,且高频词与评论主体无实际意义。高频词阈值可根据分词结果动态调整。例如:喜欢、视频、沙发、广告、垃圾、加油、谢谢等等,这些词均属于高频词库中的词。高频词在评论内容中属于噪音,会在计算内容分的时候剔除掉。
S13:根据每一条评论的个性词的数量获得所述评论的内容分。
在本实施例中,在一条评论中,将重复出现的个性词删除掉,使得一个个性词集合中不会出现相同的个性词。例如:一条评论内容为“《花千骨》剧情紧凑,是一部值得欣赏的电视剧,是一部值得欣赏的电视剧”,分词处理后,获得的分词包括“电视剧”、“欣赏”,且这两个分词的个数均为两个,发生重复出现的情况。这种情况下,会将重复出现的分词进行删除处理,在个性词集合中仅仅保留一个。将每一条评论中重复出现的个性词删除,可以进一步地降低同质内容的出现,精确获得优质评论内容。
在本实施例中,分词处理后的评论对应一个个性词集合,个性词集合按照各自评论的发布时间进行排序,个性词集合之间相比较。如果一个个性词集合中元素与另外一个个性词集合中元素相同,且元素在集合中的位置关系相同,则评论区列表中出现重复的个性词集合。重复出现的个性词集合,表示评论的内容基本相同或相似,评论中出现同质化的内容。这种情况,需要采取进一步地措施,保证优质评论在内容上不重复。
在本实施例中,对于重复出现的个性词集合,重复出现的个性词集合中对应发布时间最早的评论的内容分根据所述个性词集合中个性词数量确定,其他重复出现的个性词集合对应的评论的内容分设置为0;所述比较结果是所述个性词集合没有出现重复,则评论的内容分根据所述个性词集合中个性词数量确定。
如图2所示,本申请实施例还提供另一种评论内容分获取方法。在图1的基础上,还包括:
S14:所述每一条评论的实内容分与内容分阈值比较,当评论的内容分小于等于所述内容分阈值时,所述评论的内容分为最终内容分;当评论的内容分大于所述内容分阈值时,所述内容分阈值为最终内容分。
在实际中,长篇评论的个性词数量最多,并不是长篇评论就是优质评论,为了避免长篇评论对于内容分占绝对优势,提高优质评论的筛选准确性,需要对内容分作上限处理。即:每一条评论的实际内容分与内容分阈值比较,当实际内容分小于等于内容分阈值时,实际内容分为评论的内容分;当实际内容分大于所述内容分阈值时,内容分阈值为评论的内容分。
对于本技术方案来说,为了获得更精确的内容分,对评论的个性词分别与优质词库、劣质词库和屏蔽词库进行匹配,如果所述个性词为优质词;则在确定每一条评论的实际内容分时作加分操作处理;如果所述个性词为劣质词,则在确定每一条评论的实际内容分时作减分操作处理,如果所述个性词为屏蔽词时,则所述评论的实际内容分作清零操作处理。
在实际运用中,设置优质词、劣质词和屏蔽词的目的是提升用户的讨论氛围。针对不同的评论主体,设置不同的优质词、劣质词和屏蔽词,评论内容中包含优质词,在计算评论内容分时考虑优质词作为加分点,可以引导评论的热点,提高用户的参与度和回复率。另外,优质词中包含评论主体的“锚点词”,如果一条评论内容包含锚点词,鼠标点击到锚点词时,关于锚点词的链接被打开。这样的行为也属于评论的互动行为,如果评论区列表中优质评论内容包含锚点词,可以扩展评论内容,并延展了评论内容的阅读性。
以优酷视频的评论为例,按照剧集/视频维度,通过离线计算任务,对不同主体的剧集/视频下的评论样本做分词计算词频(同样去除停用/高频词),根据词频确定一些个性词作为系统推荐的热词,输出至人工运营后台。
根据剧集/视频的分类以及系统推荐热词中负面、过度同质的内容,定义一些词语为“劣质词”,构成劣质词库。在剧集/视频维度下,根据演员、角色、剧情等定义出与剧集/视频相对应地合适的词语,如《花千骨》中的“花千骨”、“赵丽颖”,《军师联盟》中的“司马懿”、“吴秀波”等等,再加上系统推荐热词中客观、公正的内容,定义一些词语为“优质词”,构成优质词库。对评论的个性词分别与优质词库、劣质词库做匹配,对于评论中的优质词,作为评论内容计算分数的加分项,对于评论中的劣质词,作为评论内容计算分数的减分项。
对于部分政治、时事、舆论焦点等视频内容,可以定义相关的“屏蔽词”,作为评论内容分清零的计分项,对评论的个性词与屏蔽词库做匹配,将不适宜的评论内容移至底部,避免出现在评论列表的前列,及时清新网络运营环境。
对于本技术方案来说,为了获得更精确的内容分,对于含有图片、视频、语音的内容,可以作适当的加分处理。在运算操作时,对于评论中包含的图片、视频、语音均当做个性词来处理,在计算内容分时,这类个性词均设置不同权重,作加分操作处理。当然,为了确保图片、视频和语音的合理合法性,需要在后台运营时增设审核功能,对于评论中不合理合法的图片、视频和语音,将该评论的总质量分进行清零操作。这就需要占用后台服务器资源,根据实际情况来设置。
技术人员对大量的评论内容进行统计发现,小于20个字的评论占比72%,20-140个字的占比26%,140个字以上的占比2%。在本实施例中,对于20字以下短句,作为对内容提精降噪的附加策略,在确定评论的内容分时做减分操作处理。在运算操作时,计算评论内容的字数,评论内容的字数与一字数阈值作差,获得字数差。使用“内容分/字数差”对评论内容的内容分进行计算处理。比如:一条评论“感觉曹操真是心狠手辣,杀人无数呀!”,这里经过分词处理后,获得个性词集合是(曹操、心狠、手辣、杀人、无数),按照一个个性词累计3分进行计算,目前该评论得分为15分。在本实施例中,阈值为20。由于这条评论有15个汉字,与20作差,字数差为5。则该评论的最终内容分为:15/5=3。利用本算法,对于短句来说,评论的内容分由原来的15分减少到3分。使用此步骤中短句的字数阈值可以根据业务形态来定义,也可以使用其他减分的逻辑代替,比如:评论内容的情感语义、频率内容的上下文剧情关联情况。
为了获得更精确的评论内容分,在计算原则上可以做其他扩展,不限于本技术方案列举的内容。这些扩展的目的就是让无实际意义的评论内容沉到评论列表的尾部,筛选出针对评论主体的优质内容。
如图3所示,根据本技术方案设计的评论内容分的计算算法,通过大量评论数据的统计和结果的拟合,会得到图3中的内容分曲线。针对内容分曲线来说,在二维坐标系中,横坐标表示个性词数量,纵坐标表示利用本技术方案提出的内容分计算算法获得的内容分。
由内容分曲线可知,仅仅依靠评论的个性词的数量计算评论内容分,会导致长篇大论但与实际的评论主体不符的评论的内容分很高,为了避免长篇评论对于内容分占绝对优势,提高优质评论的筛选准确性,本实施例对根据个性词的情况计算得到的内容分作上限处理。使得内容分曲线在个性词达到一定数量时,内容分并没有随之继续升高。根据个性词是否为优质词、劣质词、屏蔽词、图片、视频、语音等,对应不同的权重系数,执行相应的加分、减分、清零操作,在个性词数量在一定的范围内,使得具有优质内容的评论随着个性词数量的增加内容分也随着线性增加。换句话说,在个性词数量在一定的范围内,个性词数量和内容分之间成正比线性关系。由此可知,本技术方案在获得评论内容分时计算精度得到确保,准确的筛选出具有优质内容的评论,垃圾评论或争议评论能够在评论列表中沉底,确保排序的公正性,提高评论区列表前列的评论内容的质量。
请参阅图4,本申请还提供一种评论内容分获取系统。所述系统包括:存储器a和处理器b,所述存储器a中存储计算机程序,所述计算机程序被所述处理器b执行时,实现以下功能:
对评论主体的每一条评论进行分词处理,获得每一条评论的词语序列;
对每一条评论的词语序列进行过滤处理,获得每一条评论的个性词;其中,所述个性词为评论内容过滤处理之后剩下的词,用于表征评论内容;
根据每一条评论的个性词的数量获得所述评论的内容分。
在本实施例中,所述计算机程序被所述处理器执行时,还实现以下功能:
将每一条评论中重复出现的个性词删除。
在本实施例中,所述计算机程序被所述处理器执行时,还实现以下功能:
将每一条评论的个性词集合进行比较,判断所述个性词集合是否重复出现;其中,所述个性词集合是删除每条评论中重复出现的个性词之后获得的。
在本实施例中,所述计算机程序被所述处理器执行时,还实现以下功能:
所述评论的内容分与内容分阈值比较,当所述评论的内容分小于等于所述内容分阈值时,所述评论的内容分为最终内容分;当所述评论的内容分大于所述内容分阈值时,所述内容分阈值为最终内容分。
在本实施例中,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
所述比较结果是所述个性词集合出现重复,则重复出现的个性词集合中对应发布时间最早的评论的内容分根据所述个性词集合中个性词数量确定,其他重复出现的个性词集合对应的评论的内容分设置为0;所述比较结果是所述个性词集合没有出现重复,则评论的内容分根据所述个性词集合中个性词数量确定。
在本实施例中,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
对所述评论的个性词集合分别与优质词库、劣质词库和屏蔽词库进行匹配,如果所述个性词为优质词;则在确定评论的实际内容分时作加分操作处理;如果所述个性词为劣质词,则在确定评论的内容分时作减分操作处理,如果所述个性词为屏蔽词时,则所述评论的内容分作清零操作处理。
在本实施例中,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
所述个性词为图片、视频或语音时,在确定评论的内容分时作加分操作处理。
在本实施例中,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
根据评论内容的字数以及评论的实际内容在确定评论的内容分时作相应的加减分操作处理;其中,所述评论的实际内容包括:情感语义和上下文剧情关联。
在本实施例中,所述计算机程序被所述处理器执行时,还实现以下功能:
对每一条评论的内容进行预处理。
在本实施例中,所述对每一条评论的内容进行预处理,所述计算机程序被所述处理器执行时,实现以下功能:
识别所述评论是否引用或转发他人内容,如果一条评论的内容包含引用或转发他人内容,则从评论内容中去除引用或转发他人内容;
去除评论内容中评论表情符号。
在本实施例中,所述对每一条评论的词语序列进行过滤处理,所述计算机程序被所述处理器执行时,实现以下功能:
根据每一条评论的词语序列中每个词语对应的词向量确定所述评论中任意两个词语之间的相关度,利用所述评论中所有词语之间的相关度确定所述评论内容有意义的概率,将所述概率小于等于阈值所对应的评论过滤掉;
过滤处理后剩余评论的词语序列与高频词库进行匹配,根据匹配结果将高频词从词语序列中过滤掉;其中,所述高频词库通过评论样本数据分词处理后作词频统计、大于词频阈值且与所述评论主体无实际意义的词构成的;
过滤掉高频词的词语序列与停用词库进行匹配,根据匹配结果将停用词从评论内容中过滤掉;其中,所述停用词库通过开源词库获取或自行定义获取。
在本实施方式中,所述存储器包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。
本说明书实施方式提供的评论内容分获取系统,其存储器和处理器实现的具体功能,可以与本说明书中的前述实施方式相对照解释,并能够达到前述实施方式的技术效果,这里便不再赘述。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现客户端、服务器以外,完全可以通过将方法步骤进行逻辑编程来使得客户端、服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种客户端、服务器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,针对客户端的实施方式来说,均可以参照前述方法的实施方式的介绍对照解释。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (20)

1.一种评论的内容分获取方法,其特征在于,所述方法包括:
对评论主体的每一条评论进行分词处理,获得每一条评论的词语序列;
对每一条评论的词语序列进行过滤处理,获得每一条评论的个性词;其中,所述个性词为评论内容过滤处理之后剩下的词,用于表征评论内容;
根据每一条评论的个性词的数量获得所述评论的内容分;
其中,所述对每一条评论的词语序列进行过滤处理的步骤包括:根据每一条评论的词语序列中每个词语对应的词向量确定所述评论中任意两个词语之间的相关度,利用所述评论中所有词语之间的相关度确定所述评论内容有意义的概率,将所述概率小于等于阈值所对应的评论过滤掉;
其中,获得所述评论的内容分的步骤还包括:对所述评论的个性词集合分别与优质词库、劣质词库和屏蔽词库进行匹配,如果所述个性词为优质词;则在确定评论的实际内容分时作加分操作处理;如果所述个性词为劣质词,则在确定评论的内容分时作减分操作处理,如果所述个性词为屏蔽词时,则所述评论的内容分作清零操作处理。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
将每一条评论中重复出现的个性词删除。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
将每一条评论的个性词集合进行比较,判断所述个性词集合是否重复出现;其中,所述个性词集合是删除每条评论中重复出现的个性词之后获得的。
4.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
所述评论的内容分与内容分阈值比较,当所述评论的内容分小于等于所述内容分阈值时,所述评论的内容分为最终内容分;当所述评论的内容分大于所述内容分阈值时,所述内容分阈值为最终内容分。
5.如权利要求3所述的方法,其特征在于,获得所述评论的内容分的步骤包括:
将每一条评论的个性词集合进行比较的比较结果是所述个性词集合出现重复,则重复出现的个性词集合中对应发布时间最早的评论的内容分根据所述个性词集合中个性词数量确定,其他重复出现的个性词集合对应的评论的内容分设置为0;所述比较结果是所述个性词集合没有出现重复,则评论的内容分根据所述个性词集合中个性词数量确定。
6.如权利要求1或2所述的方法,其特征在于,获得所述评论的内容分的步骤还包括:
所述个性词为图片、视频或语音时,在确定评论的内容分时作加分操作处理。
7.如权利要求1或2所述的方法,其特征在于,获得所述评论的内容分的步骤还包括:
根据评论内容的字数以及评论的实际内容在确定评论的内容分时作相应的加减分操作处理;其中,所述评论的实际内容包括:情感语义和上下文剧情关联。
8.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
对每一条评论的内容进行预处理。
9.如权利要求8所述的方法,其特征在于,所述对每一条评论的内容进行预处理的步骤包括:
识别所述评论是否引用或转发他人内容,如果一条评论的内容包含引用或转发他人内容,则从评论内容中去除引用或转发他人内容;
去除评论内容中评论表情符号。
10.如权利要求1或2所述的方法,其特征在于,在将所述概率小于等于阈值所对应的评论过滤掉之后,所述对每一条评论的词语序列进行过滤处理的步骤还包括:
过滤处理后剩余评论的词语序列与高频词库进行匹配,根据匹配结果将高频词从词语序列中过滤掉;其中,所述高频词库通过评论样本数据分词处理后作词频统计、大于词频阈值且与所述评论主体无实际意义的词构成的;
过滤掉高频词的词语序列与停用词库进行匹配,根据匹配结果将停用词从评论内容中过滤掉;其中,所述停用词库通过开源词库获取或自行定义获取。
11.一种评论的内容分获取系统,其特征在于,所述系统包括:存储器和处理器,所述存储器中存储计算机程序,所述计算机程序被所述处理器执行时,实现以下功能:
对评论主体的每一条评论进行分词处理,获得每一条评论的词语序列;
对每一条评论的词语序列进行过滤处理,获得每一条评论的个性词;其中,所述个性词为评论内容过滤处理之后剩下的词,用于表征评论内容;
根据每一条评论的个性词的数量获得所述评论的内容分;
所述对每一条评论的词语序列进行过滤处理,所述计算机程序被所述处理器执行时,实现以下功能:根据每一条评论的词语序列中每个词语对应的词向量确定所述评论中任意两个词语之间的相关度,利用所述评论中所有词语之间的相关度确定所述评论内容有意义的概率,将所述概率小于等于阈值所对应的评论过滤掉;
其中,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
对所述评论的个性词集合分别与优质词库、劣质词库和屏蔽词库进行匹配,如果所述个性词为优质词;则在确定评论的实际内容分时作加分操作处理;如果所述个性词为劣质词,则在确定评论的内容分时作减分操作处理,如果所述个性词为屏蔽词时,则所述评论的内容分作清零操作处理。
12.如权利要求11所述的系统,其特征在于,所述计算机程序被所述处理器执行时,还实现以下功能:
将每一条评论中重复出现的个性词删除。
13.如权利要求11或12所述的系统,其特征在于,所述计算机程序被所述处理器执行时,还实现以下功能:
将每一条评论的个性词集合进行比较,判断所述个性词集合是否重复出现;其中,所述个性词集合是删除每条评论中重复出现的个性词之后获得的。
14.如权利要求11或12所述的系统,其特征在于,所述计算机程序被所述处理器执行时,还实现以下功能:
所述评论的内容分与内容分阈值比较,当所述评论的内容分小于等于所述内容分阈值时,所述评论的内容分为最终内容分;当所述评论的内容分大于所述内容分阈值时,所述内容分阈值为最终内容分。
15.如权利要求13所述的系统,其特征在于,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
将每一条评论的个性词集合进行比较的比较结果是所述个性词集合出现重复,则重复出现的个性词集合中对应发布时间最早的评论的内容分根据所述个性词集合中个性词数量确定,其他重复出现的个性词集合对应的评论的内容分设置为0;所述比较结果是所述个性词集合没有出现重复,则评论的内容分根据所述个性词集合中个性词数量确定。
16.如权利要求11或12所述的系统,其特征在于,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
所述个性词为图片、视频或语音时,在确定评论的内容分时作加分操作处理。
17.如权利要求11或12所述的系统,其特征在于,获得所述评论的内容分,所述计算机程序被所述处理器执行时,实现以下功能:
根据评论内容的字数以及评论的实际内容在确定评论的内容分时作相应的加减分操作处理;其中,所述评论的实际内容包括:情感语义和上下文剧情关联。
18.如权利要求11或12所述的系统,其特征在于,所述计算机程序被所述处理器执行时,还实现以下功能:
对每一条评论的内容进行预处理。
19.如权利要求18所述的系统,其特征在于,所述对每一条评论的内容进行预处理,所述计算机程序被所述处理器执行时,实现以下功能:
识别所述评论是否引用或转发他人内容,如果一条评论的内容包含引用或转发他人内容,则从评论内容中去除引用或转发他人内容;
去除评论内容中评论表情符号。
20.如权利要求11或12所述的系统,其特征在于,在将所述概率小于等于阈值所对应的评论过滤掉之后,所述对每一条评论的词语序列进行过滤处理,所述计算机程序被所述处理器执行时,还实现以下功能:
过滤处理后剩余评论的词语序列与高频词库进行匹配,根据匹配结果将高频词从词语序列中过滤掉;其中,所述高频词库通过评论样本数据分词处理后作词频统计、大于词频阈值且与所述评论主体无实际意义的词构成的;
过滤掉高频词的词语序列与停用词库进行匹配,根据匹配结果将停用词从评论内容中过滤掉;其中,所述停用词库通过开源词库获取或自行定义获取。
CN201711375569.6A 2017-12-19 2017-12-19 一种评论的内容分获取方法及系统 Active CN110019720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711375569.6A CN110019720B (zh) 2017-12-19 2017-12-19 一种评论的内容分获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711375569.6A CN110019720B (zh) 2017-12-19 2017-12-19 一种评论的内容分获取方法及系统

Publications (2)

Publication Number Publication Date
CN110019720A CN110019720A (zh) 2019-07-16
CN110019720B true CN110019720B (zh) 2022-02-08

Family

ID=67186938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711375569.6A Active CN110019720B (zh) 2017-12-19 2017-12-19 一种评论的内容分获取方法及系统

Country Status (1)

Country Link
CN (1) CN110019720B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705257B (zh) * 2019-09-16 2021-06-25 腾讯科技(深圳)有限公司 媒体资源的识别方法、装置、存储介质及电子装置
CN113094492B (zh) * 2019-12-23 2023-10-20 腾讯科技(深圳)有限公司 评论信息显示方法、处理系统、装置、设备和存储介质
CN113132813A (zh) * 2019-12-31 2021-07-16 深圳Tcl新技术有限公司 一种视频播放方法、装置、智能电视及存储介质
CN114390311A (zh) * 2022-01-26 2022-04-22 湖南快乐阳光互动娱乐传媒有限公司 一种视频评论处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389971A (zh) * 2013-07-04 2013-11-13 北京卓易讯畅科技有限公司 一种确定应用对应的评论内容的优质等级的方法与设备
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN105760410A (zh) * 2015-04-15 2016-07-13 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
CN107391729A (zh) * 2017-08-02 2017-11-24 掌阅科技股份有限公司 用户评论的排序方法、电子设备及计算机存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9021394B2 (en) * 2010-04-01 2015-04-28 Eventsq Llc Capturing user feedback of software content in a networked environment and controlling the software using a single action
US8775350B1 (en) * 2012-01-30 2014-07-08 Gene Hall Method for sorting a defined set of comments
CN104239331B (zh) * 2013-06-19 2018-10-09 阿里巴巴集团控股有限公司 一种用于实现评论搜索引擎排序的方法和装置
CN103544255B (zh) * 2013-10-15 2017-01-11 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104462333B (zh) * 2014-12-03 2017-08-25 上海同刚网络科技有限公司 购物搜索推荐与告警方法和系统
US10593002B2 (en) * 2016-04-22 2020-03-17 FiscalNote, Inc. Systems and methods for analyzing policymaker alignment with organizational posture
CN106960290B (zh) * 2017-04-11 2023-12-22 西华大学 一种汽车4s店团队销售服务质量评价系统及评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN103389971A (zh) * 2013-07-04 2013-11-13 北京卓易讯畅科技有限公司 一种确定应用对应的评论内容的优质等级的方法与设备
CN105760410A (zh) * 2015-04-15 2016-07-13 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
CN107391729A (zh) * 2017-08-02 2017-11-24 掌阅科技股份有限公司 用户评论的排序方法、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN110019720A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
Kumar et al. Sentiment analysis of multimodal twitter data
CN110019720B (zh) 一种评论的内容分获取方法及系统
CN106503192B (zh) 基于人工智能的命名实体识别方法及装置
Omar et al. Multi-label arabic text classification in online social networks
Effrosynidis et al. A comparison of pre-processing techniques for twitter sentiment analysis
Vadivukarassi et al. Sentimental analysis of tweets using Naive Bayes algorithm
Ginting et al. Hate speech detection on twitter using multinomial logistic regression classification method
Huang et al. Character-level convolutional network for text classification applied to chinese corpus
KR20120109943A (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN106569996B (zh) 一种面向中文微博的情感倾向分析方法
CN112966508B (zh) 一种通用自动术语提取方法
Gilardi et al. Text-as-data methods for comparative policy analysis
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN109948138B (zh) 一种评论处理方法及系统
JP7329933B2 (ja) 類似画像検索装置、類似画像検索方法および類似画像検索プログラム
Hathlian et al. Sentiment-subjective analysis framework for arabic social media posts
Pai et al. Real-time twitter sentiment analytics and visualization using vader
CN113704508A (zh) 多媒体信息识别方法、装置、电子设备及存储介质
Zhang et al. Detecting and analyzing influenza epidemics with social media in China
Salam Ayad Hussein A Proposed Arabic Text and Text Image Classification Technique Using a URL Address
Chen et al. Learning the chinese sentence representation with LSTM autoencoder
Zhao et al. Multi-modal sarcasm generation: dataset and solution
Ariss et al. Morphology based Arabic sentiment analysis of book reviews
KR20120068519A (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200512

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant before: Youku network technology (Beijing) Co., Ltd

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant