CN111046941A - 一种目标评论检测方法、装置、电子设备和存储介质 - Google Patents

一种目标评论检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111046941A
CN111046941A CN201911252082.8A CN201911252082A CN111046941A CN 111046941 A CN111046941 A CN 111046941A CN 201911252082 A CN201911252082 A CN 201911252082A CN 111046941 A CN111046941 A CN 111046941A
Authority
CN
China
Prior art keywords
comment
detected
target
feature information
target comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911252082.8A
Other languages
English (en)
Other versions
CN111046941B (zh
Inventor
赵教生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911252082.8A priority Critical patent/CN111046941B/zh
Publication of CN111046941A publication Critical patent/CN111046941A/zh
Application granted granted Critical
Publication of CN111046941B publication Critical patent/CN111046941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种目标评论检测方法、装置、电子设备和存储介质,用以提高目标评论检测准确率,其中,方法包括:获取待检测评论和针对待检测评论的反馈信息;分别获取将待检测评论语义特征信息,和反馈信息的后验特征信息;基于已训练的目标评论检测模型,获得以后验特征信息和语义特征信息作为输入参数而得到待检测评论作为目标评论的评估概率;若待检测评论的评估概率满足目标评论的评估条件,则确定待检测评论为目标评论。由于本申请中的目标评论检测模型利用了评论的反馈信息的后验特征信息以及语义特征信息,检测结果准确率更高。

Description

一种目标评论检测方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种目标评论检测方法、装置、电子设备和存储介质。
背景技术
随着互联网技术的迅速发展,用户通过互联网进行各种各样的互动。比如:用户可以在被评论视频下方的评论栏发表评论,其他用户可以对评论区的评论进行互动。检测目标评论对于使人们了解热点资讯和舆论详情具有重要意义。
目前检测目标评论的方法,主要是基于CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等深度神经网络或者是传统的机器学习方法,利用文本本身信息对评论进行分类,检测的准确率较低。
发明内容
本申请实施例提供一种目标评论检测方法、装置、电子设备和存储介质,用以提高目标评论检测的准确率。
本申请实施例提供的一种目标评论检测方法,包括:
获取待检测评论和针对所述待检测评论的反馈信息;
分别获取所述待检测评论的语义特征信息,和所述反馈信息的后验特征信息;
基于已训练的目标评论检测模型,获得以所述后验特征信息和语义特征信息作为输入参数而得到所述待检测评论作为目标评论的评估概率,其中所述目标评论检测模型是根据已标注评估概率的训练样本训练得到的,所述训练样本包括根据目标评论样本获取的语义特征信息,以及根据目标评论样本的反馈信息获取的后验特征信息;
若所述待检测评论的评估概率满足目标评论的评估条件,则确定所述待检测评论为目标评论。
本申请实施例提供的一种目标评论检测装置,包括:
第一获取单元,用于获取待检测评论和针对所述待检测评论的反馈信息;
第二获取单元,用于分别获取所述待检测评论的语义特征信息,和所述反馈信息的后验特征信息;
检测单元,用于基于已训练的目标评论检测模型,获得以所述后验特征信息和语义特征信息作为输入参数而得到所述待检测评论作为目标评论的评估概率,其中所述目标评论检测模型是根据已标注评估概率的训练样本训练得到的,所述训练样本包括根据目标评论样本获取的语义特征信息,以及根据目标评论样本的反馈信息获取的后验特征信息;
第一确定单元,用于若所述待检测评论的评估概率满足目标评论的评估条件,则确定所述待检测评论为目标评论。
可选的,所述第二获取单元具体用于:
基于已训练的Wide&Deep(宽度和深度)模型,获取以所述反馈信息作为所述Wide&Deep模型中Wide网络子模型的输入参数而得到的所述反馈信息的后验特征信息,以及获取以所述待检测评论作为所述Wide&Deep模型中Deep网络子模型的输入参数而得到的所述待检测评论的语义特征信息。
可选的,所述装置还包括第三获取单元:
所述第三获取单元,用于获取所述反馈信息的实数值特征信息,其中所述实数值特征信息用于表示所述反馈信息对应的不同指标的统计数据;以及
所述检测单元,具体用于:
基于已训练的目标评论检测模型,获取以所述后验特征信息、语义特征信息和所述实数值特征信息作为输入参数而得到的评估概率,其中,所述目标评论训练样本中还包括根据目标评论样本的反馈信息获取的实数值特征。
可选的,所述反馈信息对应的不同指标包括但不限于下列的部分或全部:
点赞数、回复数、点赞速度、回复速度、字数、情感分值、类别、作者。
可选的,所述装置还包括:
第二确定单元,用于根据所述待检测评论的评估概率确定所述待检测评论在评论界面的展示位置;
展示单元,用于在所述评论界面中确定的展示位置上展示所述待检测评论。
可选的,所述目标评论检测模型为下列任意一种或多种的组合:
SVM(Support Vector Machine,支持向量机)模型、LightGBM(Gradient BoostingMachine,轻量级梯度提升机模型)模型、GBDT(Gradient Boosting Decision Tree,梯度提升树)模型、XGboost模型。
可选的,所述装置还包括:
验证单元,用于对通过所述目标评论检测模型检测得到的目标评论进行验证;
调整单元,用于将验证成功的目标评论添加到目标评论训练样本中,并根据预设比例调整所述目标评论检测模型的学习率;根据增加后的目标评论训练样本以及调整后的学习率,对所述目标评论检测模型进行迭代训练,直至通过所述目标评论检测模型检测得到评估概率与相对应的训练样本预先标注的评估概率的差值在指定范围内。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述一种目标评论检测方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述一种目标评论检测方法的步骤。
本申请有益效果如下:
本申请实施例提供的目标评论检测方法、装置、电子设备和存储介质,由于在检测目标评论时所采用的目标评论检测模型的输入参数既包含待检测评论的语义特征信息,又包含待检测评论反馈信息的后验特征信息,因而既可以根据待检测评论的语义很好的对评论进行分类,又可以结合待检测评论互动情况等后验特征,对待检测评论进行评估,提高目标评论检测的准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种基于CNN的文本分类示意图;
图2为本申请实施例中的一种基于LTSM(Long Short-Term Memory,长短期记忆网络)的文本分类示意图;
图3为本申请实施例提供的一种应用场景的示意图;
图4为本申请实施例提供的一种目标评论检测整体模型示意图;
图5A为本申请实施例提供的一种目标评论检测的整体模型的示意图;
图5B为本申请实施例提供的另一种目标评论检测的整体模型的示意图;
图6A为本申请实施例提供的一种新闻咨询示意图;
图6B为本申请实施例提供的一种目标评论展示的示意图;
图6C为本申请实施例提供的另一种目标评论展示的示意图;
图7为本申请实施例提供的一种目标评论检测的完整方法流程图;
图8为本申请实施例中的一种目标评论检测的组成结构示意图;
图9为本申请实施例中的一种电子设备的组成结构示意图;
图10为应用本申请实施例的一种计算装置的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
网络对象,指电子书籍、网络文章、新闻、资讯、视频以及论坛帖子等允许读者或观众发表评论的网络内容。
目标评论,指具有一些特殊文笔或者是特殊观点,容易引起大众关注或是评价的评论,例如神评、恶评等可以引导舆论倾向的评论。
神评,作为最收欢迎的一种目标评论,是优质评论的通俗名称,一般是指能引起用户互动的,观点出奇的评论。
先验特征,是基于评论本身获取的一些基础特征,非发布之后的统计特征。比如评论的字数,评论的网络对象的类别。
反馈信息,指评论发布之后,人们对评论的关注或者是反馈、评价等,包括互动、点赞等信息,在本申请实施例中反馈信息对应一些比较受关注的指标,例如:点赞数、回复数、点赞速度、回复速度,此外还包括字数、类别、作者等。
后验特征,是基于评论的反馈信息获取的特征,反应的是评论发布后人们对评论的一些关注或是反馈、评价等,因此与先验特征相对,指评论发布之后的表现,在本申请实施例中指点赞数、回复数、点赞速度、回复速度、字数、作者、类别等统计数据的量化结果。其中,后验特征可通过对反馈信息对应的指标的统计数据进行编码处理得到。
语义特征,是语言单位之间相互联系或相互区别的语义要素,它很大程度上制约着语言单位相互组合的可能性以及组合的方式,反应了语言单位的组织形式跟现实世界的对应关系。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中提出的目标评论检测方法可分为两部分,包括训练部分和检测部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练目标评论检测模型,使得训练样本的语义特征信息以及反馈信息的后验特征信息通过目标评论检测模型后,得到训练样本为目标评论的评估概率;检测部分用于通过使用在训练部分训练的目标评论检测模型,对待检测评论进行检测。
主动学习(active learning),指一种学习方法,通过学习算法先主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注,这个筛选过程就属于主动学习。在本申请实施例中,通过学习算法筛选训练样本,并对训练样本进行标注等就属于主动学习的过程。
召回率(Recall Rate,也叫查全率),是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;召回率(Recall)是广泛用于信息检索和统计学分类领域的度量值,用来评论结果的质量。
Sigmoid函数,是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。
N-Gram,是大词汇连续语音识别中常用的一种语言模型,可称为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
随着信息技术和互联网的飞速发展,在线资讯、影音、短视频、电子书籍、网络文章以及论坛帖子等允许读者或观众发表评论的网络内容越来越受到人们的欢迎,成为人们日常生活中获取信息的一种主要的途径。人们可以通过一些主要的网络门户网站或大型的新闻网站或短视频APP(Application,应用程序)等,获取和浏览各种以图片、文字或视频形式呈现的多媒体网络内容。
以新闻资讯为例,在互联网上每时每刻涌现出来的数十亿条资讯信息中,当下的热点资讯通常是人们关注的焦点。同时,人们往往希望了解他人对于热点资讯的看法。其中,评论则是表达评论主体某些特征方面状况和用户个体对评论主体情感的信息。用户可以根据评论内容对评论主体进行了解,也可以同其他用户针对同一评论主体进行信息交流,通过评论区对热点资讯等多媒体网络内容进行评论,而目前评论区有大量的评论,如何根据用户的喜好显示相关的目标评论,例如神评,是一个需要考虑的问题。
目前对目标评论进行文本分类时有以下几种常见的方法:
基于CNN的文本分类:将文本语句通过卷积神经网络提取特征向量,最后根据提取的特征向量对文本句子进行分类。首先将字或者词进行向量化,一个句子的所有字和词进行二维拼接,最后形成一个n*k(n表示句子的词/字个数,k表示字/词的向量维度)的二维矩阵,如图1所示,然后通过不同的卷积窗口,在这个二维矩阵中提取不同的特征,然后将同一个卷积窗口的特征通过最大池化得到一个值,将多个卷积窗口得到的池化值进行拼接得到一个一维的向量,最后通过这个一维向量接全连接进行文本分类。
基于RNN的文本分类:将文本语句分词或者按字粒度输入RNN网络中,通过多个时刻的编码之后得到一个文本的特征向量,最后根据提取的特征向量对文本句子进行分类。或者,通过LSTM(Long Short-Term Memory,长短期记忆网络)网络提取文本特征,然后通过多任务学习来实现文本分类,如图2所示为本申请实施例提供的一种基于LTSM的文本分类示意图。
基于传统机器学习的文本分类:统计句子中词的频次、tf-idf(term frequency–inverse document frequency,词频-逆文本频率指数,是一种用于信息检索与数据挖掘的常用加权技术)、互信息、N-Gram(CLM,Chinese Language Model))等信息,最后通过朴素贝叶斯,最大熵,SVM(Support Vector Machine,支持向量机)等传统机器学习方法类进行文本句子分类。
然而,上述几种文本分类方式仅利用文本本身信息对评论进行分类,对目标评论检测的准确率较低。
有鉴于此,本申请实施例提出了一种目标评论检测技术,考虑到评论的反馈信息在评估目标评论中的作用,本申请中除了获取待检测评论的语义特征之外,还进一步根据待检测评论反馈信息,获取了反馈信息的后验特征信息,其中反馈信息是根据待检测评论被发布之后的互动情况等确定的,对应点赞数、回复数、字数、情感分值、类别、作者、回复速度、点赞速度等指标,因而通过对反馈信息所对应指标的统计数据的量化得到的后验特征信息,可反应评论发布之后人们对评论的一些反馈结果,通过语义特征信息与后验特征信息的结合,得到待检测评论作为目标评论的评估概率,评估概率越大则表明该待检测评论为目标评论的可能性越高,不单单仅根据待检测评论的文本信息对待检测评论进行分类,还结合了评论的后验特征信息,提高了目标评论检测的准确性。
为便于理解,下面结合附图对本申请提供的技术方案做进一步说明。
如图3所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器130,可通过终端设备110登录评论界面120。终端设备110与服务器130之间可以通过通信网络进行通信。
在本申请实施例中,终端设备110为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器130连接,服务器130是一台服务器或若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台。
可选的,服务器130可以包括用于实现目标评论确定平台131的服务器,可选的,服务器130还包括用于实现网络评论管理平台132的服务器。可选的,服务器130还包括用于实现网络对象管理平台133的服务器。
可选的,网络评论管理平台132包括:用于存储各个用户针对网络对象发布的评论的服务器、用于存储网络对象的各条评论对应的用户行为的服务器,以及用户推送及维护目标评论的服务器。
其中,评论对应的用户行为可以是用户对评论的点赞、回复以及引用等的用户行为。目标评论是目标评论确定平台131从各个用户针对网络对象发布的评论中确定出的至少一条评论。
可选的,网络对象管理平台133用于维护以及向终端设备110推送网络对象,该网络对象包括但不限于电子书籍、网络文章、新闻、资讯、视频以及论坛帖子等允许读者或观众发表评论的网络内容。本申请实施例对于网络对象的具体形式不做限定。
需要说明的是,上述两个终端设备只是举例说明,在本申请实施例中实际一般可涉及若干终端设备。此外,上述目标评论确定平台131、网络评论管理平台132以及网络对象管理平台133的服务器可以是相互之间独立的服务器;或者,上述目标评论确定平台131、网络评论管理平台132以及网络对象管理平台133中的两个平台可以实现在同一个服务器中,而另一个平台可以实现在另一个服务器中;或者,用户实现上述三个平台的服务器也可以是同一个服务器。当上述三个平台实现在两个或三个服务器中时,这两个或者三个服务器之间通过通信网络相连。
可选的,通信网络是有线网络或无线网络。
参阅图4所示,为本申请实施例提供的一种目标评论检测方法的实施流程图,以应用于图3所示的系统中的服务器集群为例,该方法的具体实施流程如下:
S41:获取待检测评论和针对待检测评论的反馈信息;
S42:分别获取待检测评论的语义特征信息,和反馈信息的后验特征信息;
在实际应用中,从用户角度来说,对网络对象发布的一条评论是否可以作为该网络对象的目标评论,绝大部分取决于该评论的文本内容,比如,该评论的文本内容与网络对象之间的相关度越高,该条评论越适合作为该网络对象的目标评论;反之,若该评论中的文本内容与网络对象的内容之间的相关性越低,则该条评论越不适合作为该网络对象的目标评论。
然而,在本申请实施例中,目标评论指具有一些特殊文笔、特殊观点的评论,例如神评、恶评等可以引导舆论倾向的评论,一般目标评论的理解难度更大一些,判断待检测评论是否为目标评论时除了要检测评论文本内容的语义特征是否满足之外,还需有一些特殊情况的判断。
例如,神评指非常优质的,能够引起用户互动的,观点出奇的评论,一般神评要有出奇的观点,或者优雅的文笔等,这些特性是难以通过语义特征表达的;恶评,指含有不良意图的评论,往往会损害被评论主体的利益,而可能刺激网友的逆反心理。例如恶意评论一部电影,可能会影响到其他想要观看电影的人对该电影的期望,进一步可能会影响该电影的票房等。一般恶评也会有其独特的特点,例如涉及敏感话题、涉及辱骂字眼,或者是涉嫌违反法规、违反道德准则,或者是消极评论等。
因而,在本申请实施例中,获取待检测评论后,进一步获取了待检测评论的反馈信息,基于反馈信息以及待检测评论,获取待检测评论的语义特征信息,和反馈信息的后验特征信息。
其中,反馈信息指评论发布之后,人们对评论的关注或者是反馈、评价等,包括互动、点赞等信息。
在本申请实施例中,反馈信息对应的指标包括但不限于下列的部分或全部:
点赞数、回复数、点赞速度、回复速度、字数、情感分值、作者、类别。
其中,点赞速度指点赞时间间隔,具体可指待检测评论前几次被点赞的时间间隔的平均时间间隔;回复速度指回复时间间隔,具体可指待检测评论前几次被回复的时间间隔的平均时间间隔。
在本申请实施例中,类别这一指标具体可指某一待检测评论所评价的网络对象的类别,例如军事、教育、游戏、娱乐等;作者这一指标是指发布某一待检测评论的作者。
在一种可选的实施方式中,基于已训练的Wide&Deep模型,获取以待检测评论和反馈信息作为输入参数而得到的待检测评论的语义特征信息,和反馈信息的后验特征信息。
在本申请实施例中,基于已训练的Wide&Deep模型则可获取以反馈信息作为Wide&Deep模型中Wide网络子模型的输入参数而得到的反馈信息的后验特征信息,以及获取以待检测评论作为Wide&Deep模型中Deep网络子模型的输入参数而得到的待检测评论的语义特征信息。
具体的,将反馈信息输入到已训练的Wide&Deep模型中的Wide网络子模型,以对反馈信息所对应指标的统计数据进行编码处理,得到Wide网络子模型输出的后验特征信息;以及,将待检测评论输入到已训练的Wide&Deep模型中的Deep网络子模型中,以对待检测评论中的关键词、语义词等进行语义特征提取,得到Deep网络子模型输入的语义特征信息。
其中,Wide&Deep模型用于分类和回归,核心思想是结合线性模型的记忆能力(memorization)和DNN模型的泛化能力(generalization),在训练过程中同时优化Wide网络子模型和Deep网络子模型的参数,从而达到整体模型的预测能力最优,Wide网络子模型可以通过利用交叉特征高效的实现记忆能力。
在本申请实施例中,Wide网络子模型的特征都是离散特征、离散特征之间的交互作用特征;而Deep网络子模型的特征则是离散特征embedding(嵌入)加上连续特征;Wide网络子模型通过离散特征的交叉组合进行memorization,Deep网络子模型通过特征的embedding进行generalization,这样单个模型的大小和复杂度也能得到控制,而整体模型的性能仍能得到提高。
在本申请实施例中,后验特征信息是通过对反馈信息对应的不同指标的统计数据编码后组成的特征向量。因而通过Wide网络子模型对反馈信息所对应指标的统计数据进行编码处理时,可采用二进制编码的方式,最终将针对各指标统计数据的编码结果组合形成一个多维度特征编码向量。
下面对各指标统计数据的编码过程进行举例说明:
针对点赞数这一指标,假设统计数据为125,也就是125个赞,则可用7位二进制数表示为1111101;针对回复数指标、字数指标也是同理,若回复数为125,则编码后同样可表示为1111101,或采用8位二进制数表示为01111101,等。
针对点赞速度或回复速度这一指标,以前十次被点赞或被回复为例,假设待检测评论第一次被点赞与第二次被点赞之间的时间间隔为t1,第二次与第三次被点赞之间的时间间隔为t2,第三次与第四次被点赞之间的时间间隔为t3,…,第九次与第十次被点赞时间的时间间隔为t9,则点赞速度可表示为t=(t1+t2+t3+…+t9)/9,假设t=10秒,转换为二进制可表示为10010;同理回复速度也可用二进制表示为10010。
在本申请实施例中,情感分值可通过文本情感分析得到。由于待检测评论中一般是带有情感色彩的主观性文本,例如互联网(如博客和论坛以及社会服务网络)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论。这些评论表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。
一种可选的计算情感分值的方式为:通过将待检测评论的内容进行分词处理后,根据每个词计算得到总体的情感分值,公式如:-1^(否定词的个数)*程度词的分值*评价词的分值。
假设情感分值为0.876,则在进行二进制编码时可先乘以1000变成整数,再用8位二进制编码。
可选的,针对待检测评论所评论的网络对象的类别,可采用对类别id(Identity,标识)进行二进制编码的方式,例如id范围0~1000,分别表示教育类、军事类、娱乐类等等,每一类都有相应的id,直接对id进行十位二进制编码即可,例如id=10表示游戏,则编码后可表示为0000010010。
同理,针对待检测评论的作者,也可采用对作者id进行二进制编码的方式,假设作者id是一个很大的id,比如828732372,则用32位二进制数编码表示。
通过对上述反馈信息进行二进制编码后组合则可得到一个多维度特征编码向量,也就是后验特征信息,可表示为一个200维的特征向量。一种可选的表示方式为,各指标统计数据的编码结果对应一定维度,例如该特征向量中前40维可表示点赞数,41~80维可表示回复数,81~90表示点赞时间间隔,...,最后40维表示作者。
需要说明的是,本申请实施例中所列举的编码方式只是举例说明,采用十六进制、八进制等或者其他编码方式都可行,过程类似,不再一一赘述。
可选的,Deep网络子模型可以是Bert、CNN、RNN、LTSM等模型中的任意一种或多种的组合。
在本申请实施例中,以Deep网络子模型为Bert模型为例进行详细介绍,Bert模型是一个多层的Transformer,Transformer是一个encoder-decoder的结构,由若干个编码器和解码器堆叠形成。每一层Transformer的输出值,理论上来说都可以作为句向量,但是前面几层的值可能语义还未充分的学习到,本申请实施例中以最后一层Transformer的输出值作为Bert向量,再通过全连接层提取语义特征信息。其中,语义特征信息可以表示为一个756维的特征向量。
其中,Bert模型最大的特点是抛弃了传统的RNN和CNN,通过Attention机制将任意位置的两个单词的距离转换成1,有效的解决了NLP(naturallanguage processing,自然语言处理)中棘手的长期依赖问题。
可选的,Deep网络子模型也可以通过将CNN和RNN进行融合构成,该方式下,克服了CNN不适合提取长序列语义信息,以及RNN对长序列全局语义信息的提取效果的不足,能够既适合提取局部语义信息,也适合提取长序列全局语义信息,从而提高准确率。
S43:将后验特征信息和语义特征信息输入已训练的目标评论检测模型,得到待检测评论的评估概率。
其中,目标评论检测模型是根据已标注评估概率的训练样本训练得到的,训练样本包括语义特征信息以及训练样本反馈信息的后验特征信息。
也就是说,在训练得到目标评论检测模型时,首先需要确定训练样本的语义特征信息,以及训练样本反馈信息的后验特征信息,并且可通过人工标注的方式对训练样本的评估概率进行标注,将语义特征信息、后验特征信息作为目标评论检测模型的输入参数,将评估概率作为输出参数对目标评论检测模型进行训练。
可选的,目标评论检测模型为下列任意一种或多种的组合:
SVM模型、LightGBM模型、GBDT模型、XGboost模型。
考虑到深度模型难以充分利用评论后验特征,通过编码得到的后验特征信息不能够如实反应待检测评论的反馈信息,因而为了进一步提高检测的准确率,在获得待检测评论作为目标评论的评估概率时,一种可选的实施方式为:
先获取反馈信息的实数值特征信息,其中实数值特征信息用于表示反馈信息对应的不同指标的统计数据;基于已训练的目标评论检测模型,获取以后验特征信息、语义特征信息和实数值特征信息作为输入参数而得到的评估概率,其中,训练样本中还包括根据目标评论样本的反馈信息获取的实数值特征。
该方式下,目标检测模型的输入参数除了语义特征信息和后验特征信息外,还包括能够实际反映较为完整的反馈信息不同指标的实数值特征信息。实数值特征信息相比于Wide&Deep模型输出的后验特征信息,保留的反馈信息更加全面,而且LightGBM模型擅长处理实数值特征,能够自动寻找最优的实数值分割点来分类,所以采用更擅长处理连续值特征的LightGBM模型可以充分利用评论的反馈信息,以提高检测的准确率。
下面针对不同指标,对直接通过反馈信息对应的不同指标的统计数据表示实数值特征信息进行举例说明:
例如,针对点赞数这一指标的统计数据为125,则实数化表示仍为125,相较于后验特征信息中用二进制编码的形式表示为1111101,125这种表示方式更加真实准确。
同理,假设回复数这一指标的统计数据为266,则实数化表示仍为266;假设待检测评论的字数为7个字,则针对字数这一指标,实数化表示为8,若用3位二进制编码的形式表示为111,4位二进制编码的形式表示为0111,5位二进制编码的形式则表示为00111等,针对点赞速度、回复速度、情感分值等指标也是同样的表示方式。
以前十次被点赞或被回复为例,假设待检测评论第一次被点赞与第二次被点赞之间的时间间隔为t1,第二次与第三次被点赞之间的时间间隔为t2,第三次与第四次被点赞之间的时间间隔为t3,…,第九次与第十次被点赞时间的时间间隔为t9,则点赞速度可表示为t=(t1+t2+t3+…+t9)/9,假设t=10秒,则实数化表示则点赞速度为10;同理回复速度也可用实数10表示。
假设情感分值为0.876,则实数化表示仍为0.876。
针对评论的网络对象的类别、作者等则可采用id的形式,实数化表示类别id、作者id等。例如作者id为828732372,则实数化表示则为828732372。
最终,将不同指标的统计数据组合形成一个多维度特征向量,例如可采用一个10维向量表示实数值特征信息,每一维可表示一个指标的统计数据。相较于编码形式表示的后验特征信息,实数值特征信息更加详细准确,将实数值特征信息也作为目标检测模型的输入参数可以提高检测的准确率。
在一种可选的实施方式中,针对不同的指标还可设置各自的指标权重,在直接实数化表示或者是进行编码处理时,可针对不同指标的统计数据乘以该指标相对应的权重,例如点赞数这一指标,假设对应指标权重为0.2,点赞数为125,则应对乘以权重后的点赞数25进行编码处理,或者直接实数化表示。假设以5位二进数表示得到的结果为11001。其它指标也是同样的道理,不再一一赘述。
在本申请实施例中,在目标评论检测模型的输入参数还包括反馈信息的实数值特征的情况下,则在训练该目标评论检测模型时,训练样本还应包括根据目标评论样本的反馈信息获取的实数值特征。将后验特征信息、语义特征信息以及实数值特征信息作为目标评论检测模型的输入参数,将评估概率作为目标评论检测模型的输出参数,对目标评论检测模型训练即可。
该方式下,基于已训练的目标评论检测模型,则可获取以后验特征信息、语义特征信息和实数值特征信息作为输入参数而得到的评估概率。
在一种可选的实施方式中,也可将反馈信息不做实数化,而是做离散化处理,得到反馈信息的离散值特征信息,用于表示反馈信息的离散性,但是该方式下在目标评论检测模型时,输入参数还应增加离散值特征信息,训练样本应包含离散值特征信息。该方式与将实数值特征信息作为输入参数的方式相比,需要更强的经验性。
针对点赞数这一指标的统计数据,一种可选的离散化表示方式为,定义为1~100个赞为1,101~200个赞为2等,即采用分档的方式,采用离散化表示的方式下,125个赞则表示为2,其余反馈信息也是同样的道理。
S44:若待检测评论的评估概率满足目标评论的评估条件,则确定待检测评论为目标评论。
在一种可选的实施方式中,目标评论的评估条件可以表示为:判断评估概率是否大于预设阈值,如果是,则确定待检测评论为目标评论;否则,则确定待检测评论不是目标评论。
例如,目标评论为神评,预设阈值为0.9,假设待检测评论1的评估概率为0.91,大于0.9,则表明待检测评论1为神评;待检测评论2的评估概率为0.8,小于0.9,因而待检测评论2不是神评。
参阅图5A及图5B所示,为本申请实施例提供的两种目标评论检测的整体模型示意图。这两种模型可直接部署在图3所示的终端设备110上,也可部署在服务器130上。模型主要包含两部分,分别为Wide&Deep模型,以及LightGBM模型,其中LightGBM模型即上述实施例中的目标评论检测模型。图5A及图5B的区别在于,图5A所示的模型中的输入参数仅包含上述实施例中的后验特征信息、语义特征信息;图5B所示的模型中的输入参数除了上述实施例中的后验特征信息以及语义特征信息之外,还包括实数值特征信息。
其中,Deep网络子模型为Bert模型,CLS1(CLS是class的缩写,类别)为通过Wide&Deep模型预测得到的待检测评论的类别,CLS2为通过Wide&Deep模型以及LightGBM模型预测得到的待检测评论的类别。
其中,仅通过Wide&Deep模型对目标评论进行检测时,评估概率为:
Figure BDA0002309312910000171
其中,Y是一个二值的类别标签,Y=1表示待检测评论为目标评论,x=[x1,x2,…,xd]是d维特征的一个向量,φ(x)是x的变换,比如做L2归一化,减标准差这些操作变换得到的,表示交叉特征,a(lf)是Bert模型最后一层的输出,T代表参数矩阵的转置,b是bias(偏差),σ表示sigmoid函数,wwide是Wide子网络模型的权值,wdeep是应用在Deep子网络模型最后的隐藏层输出上的权值。可根据P(Y=1|x)的值确定CLS1,确定方式同样可以是:在P(Y=1|x)大于一定值时,CLS1=1,反之,CLS1=0。
在本申请实施例中,若待检测评论为目标评论,则待检测评论的类别为1,若待检测评论不为目标评论,则待检测评论的类别为0。
图5A及图5B的左边主要是提取评论的隐式语义特征,通过将评论反馈信息和评论文本输入Wide&Deep模型的输入层中,输出层的最后接sigmoid函数和交叉熵损失函数,对Wide&Deep模型进行训练,来学习目标评论的检测。
由图可知,输入Wide&Deep模型的评论文本为:一看武林外传就有一种家的感觉,确定评论文本语义特征的方式为:通过已训练的Bert模型,提取Bert向量,在提取Bert向量之后通过全连接层来提取评论的语义特征信息,具体可参见上述实施例。
图5A及图5B右边则是在Wide&Deep模型的基础上,进一步串接的LightGBM模型,在图5A右侧所示的LightGBM模型的输入参数包括:语义特征信息、后验特征信息,在图5B右侧所示的LightGBM模型的输入参数包括:语义特征信息、后验特征信息以及实数值特征信息。通过LightGBM模型对待检测评论进行检测得到评估概率可用于确定CLS2。
其中,图5B中所示的dense encode(稠密编码)是指语义特征向量的一种编码形式,而非对Wide&Deep模型输出的语义特征信息再进行dense encode处理。
表1为本申请实施例提供的一种通过单独的Bert模型,单独的Wide&Deep模型,以及Wide&Deep+LightGBM模型检测目标评论的实验结果对比。
表1
模型 精确率 召回率 F1分数
Bert 0.644 0.745 0.691
Wide&Deep 0.691 0.703 0.697
Wide&Deep+lightGBM 0.748 0.672 0.708
其中,对于检测结果有下面4种情况:
TP:检测为正,实际为正;FP:检测为正,实际为负;TN:检测为负,实际为负;FN:检测为负,实际为正。
其中,精确率、准确率:Accuracy=(TP+TN)/(TP+TN+FN+FP);召回率、查全率:R=TP/(TP+FN);F1-score(分数)=2*TP/(2*TP+FP+FN)。
由表1明显可知,通过本申请实施例采用Wide&Deep+lightGBM模型对目标评论进行检测的方式提高了准确率。
考虑到在实际应用中,一个网络对象的评论条数可能会有很多,比如,以网络对象是网络连载小说为例,随着连载时间的推移,以及读者数量的不断增加,一篇连载小说的评论的数量也在不断增长,即便是比较冷门的小说,通常也会有几千条评论,而某些比较热门的小说的评论数量甚至会达到几十万甚至更多。再或者是一些网络资讯,随着发布时间的推移,浏览的人数也会增多,因而评论的数量也会不断增长。如图6A所示为本申请实施例提供的另一种应用场景示意图,适用于新闻资讯场景下目标评论的家虐,如图6A所示为几条不同财经网站发布的财经类新闻资讯,新闻资讯发布后,用户可对其进行浏览、评论等。
在评论区对一个网络对象的评论进行展示时,传统的排序方法大多是基于评论文本的某一项属性进行排序。例如:按照评论发表的时间先后顺序、按照评论的互动量排序(例如点赞数)、按照评论人的用户级别等。由于评论排序规则的单一性,使得评论区的前面几页存在大量质量偏水的评论,大量的目标评论被掩没,最终导致用户无法有效地从已有的评论中获得有用信息,并且影响了用户之间的互动。
在本申请实施例中,则可根据待检测评论的评估概率确定待检测评论在评论界面的展示位置,其中该展示位置是根据该待检测评论所针对的网络对象的每条评论或者大多数评论的评估概率确定的。
例如,待检测评论所针对的网络对象的评论按照时间顺序排序包括评论1,评论2,评论3,评论4,…,评论100。在待检测评论为评论100时,评论100的评估概率为0.99,前99个评论的评估概率都小于0.99,因而可以确定评论100的评估概率最大,确定其展示位置为评论界面顶部。假设评估概率次之的为评论3和评论6,则可将评论3以及评论6展示在紧邻评论100的下方,其中评论3和评论6的具体排序可根据点赞数或回复数等进一步确定,例如将点赞数更高的评论3展示在评论6的上方。也就是可根据各待检测评论的评估概率,调整各待检测评论在评估界面中的展示位置。
当图5A或图5B所示的模型直接部署在终端设备上时,则在确定待检测评论的展示位置后,则可直接在评论界面中确定的展示位置上展示待检测评论,如图6B所示。其中,棒棒冰所发表的评论即评论100,冰冰棒呀所发表的评论即评论3,你好!陌生人所发表的评论即评论6。
在一种可选的实施方式中,可根据一些预设条件过滤到网络对象的一些评论,例如目标评论为神评时,过滤掉一些传递负能量,违反法规或道德秩序的评论,然后再计算剩余评论中每条评论的评估概率,进而确定待检测评论在评论界面的展示位置。
在确定展示位置时,若目标评论为神评,则可按照评估概率越大,在评论界面的展示位置越靠前的方式来确定展示位置;若目标评论为恶评,则可按照评估概率越大,在评论界面的展示位置越靠后的方式来确定展示位置。
在本申请实施例中,还可将各热点资讯的神评进行综合展示,如图6C所示,用户在查看某一热点资讯的评论区时,可通过点击图6B所示评论区右上角的神评日报,进入神评日报界面,该界面中展示包含一些热点资讯,以及通过上述实施方式确定的热点资讯的神评。其中,图6C所展示的某一热点资讯的神评为该热点资讯的评论中评估概率最高的一个,且在神评前都标志有神评的标签,以便用户查看。
在本申请实施例中,还可通过active learning的方式不断迭代模型,即可迭代Wide&Deep,还可迭代目标评论检测模型,具体过程如下:
对通过目标评论检测模型检测得到的目标评论进行验证,将验证成功的目标评论添加到目标评论训练样本中,并根据预设比例调整目标评论检测模型的学习率;根据增加后的目标评论训练样本以及调整后的学习率,对目标评论检测模型进行迭代训练,直至通过目标评论检测模型检测得到评估概率与相对应的训练样本预先标注的评估概率的差值在指定范围内。
需要说明的是,本申请实施例中的目标评论训练样本实际是一个样本集合,集合中包含多个目标评论样本。
一种可选的验证方式为:将目标评论检测模型检测到的目标评论通过给人工审核,人工验证检测得到的目标评论是否真的为目标评论。审核之后,将检测错误的评论返回,将检测成功的目标评论作为样本数据加入目标评论训练样本中,继续fine tuning(微调)。
具体微调过程为:根据预设比例调整目标评论检测模型的学习率,例如将学习率调整为原来的0.1,重复训练过程,不断调整模型参数,直至通过目标评论检测模型检测得到评估概率与相对应的训练样本预先标注的评估概率的差值在指定范围内。或者,通过目标评论检测模型检测得到的目标样本与实际目标样本的误差在指定误差范围内。也就是说,在人工审核的结果跟模型预测的节本基本一致时,则可停止迭代模型。
例如,训练样本有100个,其中实际目标评论有10个,通过目标评论检测模型检测得到的目标样本有10个,但是有1个并非实际目标评论,因而误差为0.1,假设0.1在指定误差范围内,则可停止迭代。
上述迭代训练的方式,通过将目标评论检测模型检测成功的目标评论加入训练样本中,使得集合中训练样本越来越优化,采用检测成功的目标评论作为样本对目标评论检测模型进行调整,则可使得目标评论检测模型越来越优化,因而检测的准确率也越来越高。
需要说明的是,上述迭代训练的过程同样适用于Wide&Deep模型,基于本申请实施例中所列举的Wide&Deep+LightGBM,即图5A或图5B所示的模型,需要同步对Wide&Deep以及LightGBM模型进行迭代训练。
参阅图7所示,为一种目标评论检测的完整方流程图。该方法的具体实施流程如下:
步骤700:获得待检测评论;
步骤701:获取针对该待检测评论的反馈信息;
步骤702:将反馈信息、目标评论输入已训练的Wide&Deep模型中,获取待检测评论的语义特征信息,和反馈信息的后验特征信息;
步骤703:获取反馈信息的后验实数值特征信息;
步骤704:将后验特征信息、语义特征信息以及后验实数值特征信息输入已训练的LightGBM模型,获得待检测评论的评估概率;
步骤705:判断评估概率是否大于预设阈值,如果是,则执行步骤706,否则,执行步骤707;
步骤706:确定待检测评论为目标评论,并为待检测评论设置标签;
步骤707:确定待检测评论不是目标评论,并为待检测评论设置标签。
需要说明的是,步骤702包括:将反馈信息输入Wide网络子模型进行编码处理得到后验编码向量,以及将目标评论文本输入Deep网络子模型得到目标评论的隐语义向量,这两个过程可以并行处理也可以串行处理。
如图8所示,其为目标评论检测装置800的结构示意图,可以包括:
第一获取单元801,用于获取待检测评论和针对待检测评论的反馈信息;
第二获取单元802,用于分别获取待检测评论的语义特征信息,和反馈信息的后验特征信息;
检测单元803,用于基于已训练的目标评论检测模型,获得以后验特征信息和语义特征信息作为输入参数而得到待检测评论作为目标评论的评估概率,其中目标评论检测模型是根据已标注评估概率的训练样本训练得到的,训练样本包括根据目标评论样本获取的语义特征信息,以及根据目标评论样本的反馈信息获取的后验特征信息;
第一确定单元804,用于若待检测评论的评估概率满足目标评论的评估条件,则确定待检测评论为目标评论。
可选的,第二获取单元802具体用于:
基于已训练的Wide&Deep模型,获取以所述反馈信息作为所述Wide&Deep模型中Wide网络子模型的输入参数而得到的所述反馈信息的后验特征信息,以及获取以所述待检测评论作为所述Wide&Deep模型中Deep网络子模型的输入参数而得到的所述待检测评论的语义特征信息。
可选的,该装置还包括:
第三获取单元805,用于获取反馈信息的实数值特征信息,其中实数值特征信息用于表示反馈信息对应的不同指标的统计数据;
检测单元803,具体用于:
基于已训练的目标评论检测模型,获取以后验特征信息、语义特征信息和实数值特征信息作为输入参数而得到的评估概率,其中,目标评论训练样本中还包括根据目标评论样本的反馈信息获取的实数值特征。
可选的,反馈信息对应的不同指标包括但不限于下列的部分或全部:
点赞数、回复数、点赞速度、回复速度、字数、情感分值、类别、作者。
可选的,该装置还包括:
第二确定单元806,用于根据待检测评论的评估概率确定待检测评论在评论界面的展示位置;
展示单元807,用于在评论界面中确定的展示位置上展示待检测评论。
可选的,目标评论检测模型可以是下来任意一种或多种的组合:
SVM模型、LightGBM模型、GBDT模型、XGboost模型。
可选的,该装置还包括:
验证单元808,用于对通过目标评论检测模型检测得到的目标评论进行验证;
调整单元809,用于将验证成功的目标评论添加到目标评论训练样本中,并根据预设比例调整目标评论检测模型的学习率;根据增加后的目标评论训练样本以及调整后的学习率,对目标评论检测模型进行迭代训练,直至通过目标评论检测模型检测得到评估概率与相对应的训练样本预先标注的评估概率的差值在指定范围内。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的目标评论检测方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的目标评论检测装置。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的电子设备900可以至少包括处理器901和存储器902。其中,存储器902存储有程序代码,当程序代码被处理器901执行时,使得处理器901执行本说明书中描述的根据本申请各种示例性实施方式的目标评论检测方法中的步骤。例如,处理器可以执行如图4中所示的步骤。
下面参照图10来描述根据本申请的这种实施方式的计算装置100。图10的计算装置100仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10,计算装置100以通用计算装置的形式表现。计算装置100的组件可以包括但不限于:上述至少一个处理单元101、上述至少一个存储单元102、连接不同系统组件(包括存储单元102和处理单元101)的总线103。
总线103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储器(ROM)1023。
存储单元102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025,这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置100也可以与一个或多个外部设备104(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置100交互的设备通信,和/或与使得该计算装置100能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,计算装置100还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器106通过总线103与用于计算装置100的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的目标评论检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的目标评论检测方法中的步骤,例如,计算机设备可以执行如图4中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的目标评论检测的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种目标评论检测方法,其特征在于,该方法包括:
获取待检测评论和针对待检测评论的反馈信息;
分别获取待检测评论的语义特征信息,和反馈信息的后验特征信息;
基于已训练的目标评论检测模型,获得以所述后验特征信息和语义特征信息作为输入参数而得到所述待检测评论作为目标评论的评估概率,其中所述目标评论检测模型是根据已标注评估概率的训练样本训练得到的,所述训练样本包括根据目标评论样本获取的语义特征信息,以及根据目标评论样本的反馈信息获取的后验特征信息;
若所述待检测评论的评估概率满足目标评论的评估条件,则确定所述待检测评论为目标评论。
2.如权利要求1所述的方法,其特征在于,所述分别获取所述待检测评论的语义特征信息,和所述反馈信息的后验特征信息,包括:
基于已训练的宽度和深度Wide&Deep模型,获取以所述反馈信息作为所述Wide&Deep模型中Wide网络子模型的输入参数而得到的所述反馈信息的后验特征信息,以及获取以所述待检测评论作为所述Wide&Deep模型中Deep网络子模型的输入参数而得到的所述待检测评论的语义特征信息。
3.如权利要求1所述的方法,其特征在于:
所述方法还包括:获取所述反馈信息的实数值特征信息,其中所述实数值特征信息用于表示所述反馈信息对应的不同指标的统计数据;以及
所述基于已训练的目标评论检测模型,获得以所述后验特征信息和语义特征信息作为输入而得到所述待检测评论作为目标评论的评估概率,具体包括:
基于已训练的目标评论检测模型,获取以所述后验特征信息、语义特征信息和所述实数值特征信息作为输入参数而得到的评估概率,其中,所述训练样本中还包括根据目标评论样本的反馈信息获取的实数值特征。
4.如权利要求3所述的方法,其特征在于,所述反馈信息对应的不同指标包括但不限于下列的部分或全部:
点赞数、回复数、点赞速度、回复速度、字数、情感分值、类别、作者。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待检测评论的评估概率确定所述待检测评论在评论界面的展示位置;
在所述评论界面中确定的展示位置上展示所述待检测评论。
6.如权利要求1所述的方法,其特征在于,所述目标评论检测模型为下列任意一种或多种的组合:
支持向量机SVM模型、轻量级梯度提升机模型LightGBM模型、梯度提升树GBDT模型、XGboost模型。
7.如权利要求1~6任一所述的方法,其特征在于,所述方法还包括:
对通过所述目标评论检测模型检测得到的目标评论进行验证;
将验证成功的目标评论添加到目标评论训练样本中,并根据预设比例调整所述目标评论检测模型的学习率;
根据增加后的目标评论训练样本以及调整后的学习率,对所述目标评论检测模型进行迭代训练,直至通过所述目标评论检测模型检测得到评估概率与相对应的训练样本预先标注的评估概率的差值在指定范围内。
8.一种目标评论检测装置,其特征在于,包括:
第一获取单元,用于获取待检测评论和针对所述待检测评论的反馈信息;
第二获取单元,用于分别获取所述待检测评论的语义特征信息,和所述反馈信息的后验特征信息;
检测单元,用于基于已训练的目标评论检测模型,获得以所述后验特征信息和语义特征信息作为输入参数而得到所述待检测评论作为目标评论的评估概率,其中所述目标评论检测模型是根据已标注评估概率的目标评论训练样本训练得到的,所述训练样本包括根据目标评论训练样本获取的语义特征信息,以及根据目标评论训练样本的反馈信息获取的后验特征信息;
第一确定单元,用于若所述待检测评论的评估概率满足目标评论的评估条件,则确定所述待检测评论为目标评论。
9.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7中任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~7中任一所述方法的步骤。
CN201911252082.8A 2019-12-09 2019-12-09 一种目标评论检测方法、装置、电子设备和存储介质 Active CN111046941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252082.8A CN111046941B (zh) 2019-12-09 2019-12-09 一种目标评论检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252082.8A CN111046941B (zh) 2019-12-09 2019-12-09 一种目标评论检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111046941A true CN111046941A (zh) 2020-04-21
CN111046941B CN111046941B (zh) 2023-08-15

Family

ID=70235278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252082.8A Active CN111046941B (zh) 2019-12-09 2019-12-09 一种目标评论检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111046941B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131389A (zh) * 2020-10-26 2020-12-25 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN112699673A (zh) * 2020-12-25 2021-04-23 北京达佳互联信息技术有限公司 账户识别方法、装置、电子设备及存储介质
CN112733043A (zh) * 2021-03-30 2021-04-30 腾讯科技(深圳)有限公司 评论推荐方法及装置
CN112818011A (zh) * 2021-01-12 2021-05-18 南京邮电大学 改进的TextCNN与TextRNN谣言识别方法
CN113065348A (zh) * 2021-03-09 2021-07-02 北京工业大学 基于Bert模型的互联网负面信息监控方法
CN113157872A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 基于云计算的在线互动话题意图分析方法、服务器及介质
CN113240130A (zh) * 2020-06-22 2021-08-10 北京芯盾时代科技有限公司 数据分类方法及装置、计算机可读存储介质和电子设备
CN113361264A (zh) * 2021-06-25 2021-09-07 上海哔哩哔哩科技有限公司 数据处理方法及装置
CN113741759A (zh) * 2021-11-06 2021-12-03 腾讯科技(深圳)有限公司 评论信息的展示方法、装置、计算机设备和存储介质
CN113761908A (zh) * 2020-11-26 2021-12-07 北京沃东天骏信息技术有限公司 一种存量用户信息的处理方法和装置
CN116303979A (zh) * 2023-05-18 2023-06-23 北京及时语智能科技有限公司 一种智能客服对话模型构建方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150172243A1 (en) * 2013-12-16 2015-06-18 Whistler Technologies, Inc. Compliance mechanism for messaging
CN108776864A (zh) * 2018-05-28 2018-11-09 阿里巴巴集团控股有限公司 用户评论价值的评估方法及装置
CN108874832A (zh) * 2017-05-15 2018-11-23 腾讯科技(深圳)有限公司 目标评论确定方法及装置
CN109492160A (zh) * 2018-10-31 2019-03-19 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN110110203A (zh) * 2018-01-11 2019-08-09 腾讯科技(深圳)有限公司 资源信息推送方法及服务器、资源信息展示方法及终端
US20190287142A1 (en) * 2018-02-12 2019-09-19 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus for evaluating review, device and storage medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150172243A1 (en) * 2013-12-16 2015-06-18 Whistler Technologies, Inc. Compliance mechanism for messaging
CN108874832A (zh) * 2017-05-15 2018-11-23 腾讯科技(深圳)有限公司 目标评论确定方法及装置
CN110110203A (zh) * 2018-01-11 2019-08-09 腾讯科技(深圳)有限公司 资源信息推送方法及服务器、资源信息展示方法及终端
US20190287142A1 (en) * 2018-02-12 2019-09-19 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus for evaluating review, device and storage medium
CN108776864A (zh) * 2018-05-28 2018-11-09 阿里巴巴集团控股有限公司 用户评论价值的评估方法及装置
CN109492160A (zh) * 2018-10-31 2019-03-19 北京字节跳动网络技术有限公司 用于推送信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭顺利;张向先;李中梅;: "面向用户信息需求的移动O2O在线评论有用性排序模型研究――以美团为例", 图书情报工作, no. 23, pages 85 - 93 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240130B (zh) * 2020-06-22 2022-05-27 北京芯盾时代科技有限公司 数据分类方法及装置、计算机可读存储介质和电子设备
CN113240130A (zh) * 2020-06-22 2021-08-10 北京芯盾时代科技有限公司 数据分类方法及装置、计算机可读存储介质和电子设备
CN112131389B (zh) * 2020-10-26 2023-04-07 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN112131389A (zh) * 2020-10-26 2020-12-25 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
WO2022088979A1 (zh) * 2020-10-26 2022-05-05 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN113761908A (zh) * 2020-11-26 2021-12-07 北京沃东天骏信息技术有限公司 一种存量用户信息的处理方法和装置
CN112699673A (zh) * 2020-12-25 2021-04-23 北京达佳互联信息技术有限公司 账户识别方法、装置、电子设备及存储介质
CN112818011A (zh) * 2021-01-12 2021-05-18 南京邮电大学 改进的TextCNN与TextRNN谣言识别方法
CN113065348A (zh) * 2021-03-09 2021-07-02 北京工业大学 基于Bert模型的互联网负面信息监控方法
CN113065348B (zh) * 2021-03-09 2024-04-16 北京工业大学 基于Bert模型的互联网负面信息监控方法
CN112733043B (zh) * 2021-03-30 2021-07-23 腾讯科技(深圳)有限公司 评论推荐方法及装置
CN112733043A (zh) * 2021-03-30 2021-04-30 腾讯科技(深圳)有限公司 评论推荐方法及装置
CN113157872A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 基于云计算的在线互动话题意图分析方法、服务器及介质
CN113361264A (zh) * 2021-06-25 2021-09-07 上海哔哩哔哩科技有限公司 数据处理方法及装置
CN113741759A (zh) * 2021-11-06 2021-12-03 腾讯科技(深圳)有限公司 评论信息的展示方法、装置、计算机设备和存储介质
CN113741759B (zh) * 2021-11-06 2022-02-22 腾讯科技(深圳)有限公司 评论信息的展示方法、装置、计算机设备和存储介质
CN116303979A (zh) * 2023-05-18 2023-06-23 北京及时语智能科技有限公司 一种智能客服对话模型构建方法及系统

Also Published As

Publication number Publication date
CN111046941B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN111046941B (zh) 一种目标评论检测方法、装置、电子设备和存储介质
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
Arulmurugan et al. RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques
CN109858039B (zh) 一种文本信息识别方法及识别装置
Bhardwaj et al. Sentiment analysis for Indian stock market prediction using Sensex and nifty
Li et al. Mining opinion summarizations using convolutional neural networks in Chinese microblogging systems
Zhang et al. A quantum-inspired sentiment representation model for twitter sentiment analysis
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
US11720761B2 (en) Systems and methods for intelligent routing of source content for translation services
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN112329824A (zh) 多模型融合训练方法、文本分类方法以及装置
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
US20220058464A1 (en) Information processing apparatus and non-transitory computer readable medium
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
Zhang et al. Image clustering: An unsupervised approach to categorize visual data in social science research
WO2019139727A1 (en) Accuracy determination for media
Kandhro et al. Performance analysis of hyperparameters on a sentiment analysis model
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021988

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant