CN113887242A - 评论监测方法、介质、装置和计算设备 - Google Patents

评论监测方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN113887242A
CN113887242A CN202111234765.8A CN202111234765A CN113887242A CN 113887242 A CN113887242 A CN 113887242A CN 202111234765 A CN202111234765 A CN 202111234765A CN 113887242 A CN113887242 A CN 113887242A
Authority
CN
China
Prior art keywords
comment
vector
target
feature
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111234765.8A
Other languages
English (en)
Inventor
崔圆圆
林洋港
朱浩齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Hangzhou Netease Zhiqi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Zhiqi Technology Co Ltd filed Critical Hangzhou Netease Zhiqi Technology Co Ltd
Priority to CN202111234765.8A priority Critical patent/CN113887242A/zh
Publication of CN113887242A publication Critical patent/CN113887242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出的评论监测方法、介质、装置和计算设备,在获取目标评论及目标评论对应的主题文本之后,获取主题文本的门限值向量;对目标评论进行语义特征提取,得到信号值向量;将门限值向量和信号值向量进行特征融合,得到目标评论对应的融合向量;根据融合向量,确定目标评论是否为特征评论。本公开可以准确判断目标评论是否为违规评论等特征评论,从而提高评论监测的可靠性。

Description

评论监测方法、介质、装置和计算设备
技术领域
本公开的实施方式涉及互联网领域,更具体地,本发明的实施方式涉及一种评论监测方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
如今,互联网上除了有海量知识和新鲜资讯,也充斥着各种辱骂攻击、政治敏感等负面内容。例如,对于微博、贴吧、论坛、群组等社交网络和社区,允许用户直接发布内容,成为垃圾信息存在的重点区域,需要进行专项清理和净化。相比之下,媒体机构发布的新闻通报等,在发布之前进行了内容审核,因此可以保证主题内容的合规性,但评论中的违规评论等特征评论,仍需要依靠互联网平台进行筛查。
发明内容
本公开提供一种评论监测方法、介质、装置和计算设备,用以解决目前无法精确判断违规对象为评论还是标题这一问题,进而提高评论监测的可靠性。
在本公开实施方式的第一方面中,提供了一种评论监测方法,包括:获取目标评论及目标评论对应的主题文本;获取主题文本的门限值向量,门限值向量表示主题文本的语义特征,门限值向量用于辅助对目标评论的分类;对目标评论进行语义特征提取,得到信号值向量;将门限值向量和信号值向量进行特征融合,得到目标评论对应的融合向量;根据融合向量,确定目标评论是否为特征评论。
在本公开的一个实施例中,获取主题文本的门限值向量,包括:响应于存储有门限值向量,读取已存储的门限值向量。
在本公开的另一实施例中,获取主题文本的门限值向量,包括:响应于未存储主题文本的门限值向量,提取主题文本的语义特征,得到第一语义特征矩阵;提取第一语义特征矩阵的语义特征,得到第二语义特征矩阵;对第二语义特征矩阵进行维度压缩,得到第一语义特征向量;对第一语义特征向量进行归一化处理,得到主题文本的门限值向量。
在本公开的又一实施例中,对目标评论进行语义特征提取,得到信号值向量,包括:提取目标评论的语义特征,得到第三语义特征矩阵;对第三语义特征矩阵进行维度压缩,得到目标评论的信号值向量。
在本公开的再一实施例中,提取目标评论的语义特征,得到第三语义特征矩阵,包括:对目标评论进行文本预处理,得到目标评论对应的评论向量矩阵;提取目标评论对应的评论向量矩阵的语义特征,得到第三语义特征矩阵。
在本公开的再一实施例中,根据融合向量,确定目标评论是否为特征评论,包括:根据融合向量,确定目标评论为特征评论的概率值;响应于概率值大于特征概率阈值,确定目标评论为特征评论;响应于概率值小于或者等于特征概率阈值,确定目标评论不为特征评论。
在本公开的再一实施例中,根据融合向量,确定目标评论为特征评论的概率值,包括:对融合向量进行维度压缩,得到特征融合向量;对特征融合向量进行归一化处理,得到概率值向量,概率值向量包括目标评论为特征评论的概率值。
在本公开的再一实施例中,还包括:根据目标评论和目标评论对应的主题文本,通过评论分类模型确定目标评论是否为特征评论,评论分类模型用于确定评论是否为特征评论。
在本公开的再一实施例中,评论分类模型是通过以下方式训练得到的:获取多个训练数据包,训练数据包中包括至少一个样本分组,样本分组中包括一样本主题文本以及各样本主题文本对应的至少一个样本评论;基于多个训练数据包,对评论分类模型进行训练,得到满足预设要求的评论分类模型。
在本公开的再一实施例中,基于多个训练数据包,对评论分类模型进行训练,得到满足预设要求的评论分类模型,包括:基于多个训练数据包,对评论分类模型进行对比学习训练,得到满足预设要求的评论分类模型。
在本公开的再一实施例中,基于多个训练数据包,对评论分类模型进行对比学习训练,得到满足预设要求的评论分类模型,包括:根据多个训练数据包中各训练数据包,采用如下对比学习目标对评论分类模型进行对比学习训练:
Figure BDA0003317126280000031
Figure BDA0003317126280000032
其中,L-CONTRA为对比学习目标值,L-CONTRAi,j为样本分组标识为i的第j条评论的对比学习目标,sim()为余弦相似度函数;
Figure BDA0003317126280000033
为指示函数;τ为温控调节因子,li,j表示样本分组标识为i的第j条评论的分类值,其中,特征评论的分类值为1,不为特征评论的分类值为0;N表示样本分组标识的个数;Ki表示样本分组的个数;ri,j表示样本分组标识为i的第j条评论对应的融合向量;ri,j表示样本分组标识为i的第k条评论对应的融合向量;exp()为指数函数;得到对比学习目标值小于或等于设定值的评论分类模型。
在本公开实施方式的第二方面中,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现第一方面的评论监测方法。
在本公开实施方式的第三方面中,提供了一种评论监测装置,包括:第一获取模块,用于获取目标评论及目标评论对应的主题文本;第二获取模块,用于获取主题文本的门限值向量,门限值向量表示主题文本的语义特征,门限值向量用于辅助对目标评论的分类;第三获取模块,用于对目标评论进行语义特征提取,得到信号值向量;特征融合模块,用于将门限值向量和信号值向量进行特征融合,得到目标评论对应的融合向量;确定模块,用于根据融合向量,确定目标评论是否为特征评论
在本公开的一个实施例中,第二获取模块,具体用于:响应于存储有门限值向量,读取已存储的门限值向量。
在本公开的另一个实施例中,第二获取模块,包括第一卷积层、第二卷积层、第一池化层和归一化层,其中:第一卷积层,用于响应于未存储主题文本的门限值向量,提取主题文本的语义特征,得到第一语义特征矩阵;第二卷积层,用于提取第一语义特征矩阵的语义特征,得到第二语义特征矩阵;池化层,用于对第二语义特征矩阵进行维度压缩,得到第一语义特征向量;归一化层,用于对第一语义特征向量进行归一化处理,得到主题文本的门限值向量。
在本公开的又一个实施例中,第三获取模块,包括第三卷积层和第二池化层,其中:第三卷积层,用于提取目标评论的语义特征,得到第三语义特征矩阵;第二池化层,用于对第三语义特征矩阵进行维度压缩,得到目标评论的信号值向量。
在本公开的再一个实施例中,第三卷积层,具体用于:对目标评论进行文本预处理,得到目标评论对应的评论向量矩阵;提取目标评论对应的评论向量矩阵的语义特征,得到第三语义特征矩阵。
在本公开的再一个实施例中,确定模块,具体用于:根据融合向量,确定目标评论为特征评论的概率值;响应于概率值大于特征概率阈值,确定目标评论为特征评论;响应于概率值小于或者等于特征概率阈值,确定目标评论不为特征评论。
在本公开的再一个实施例中,确定模块,具体用于:对融合向量进行维度压缩,得到特征融合向量;对特征融合向量进行归一化处理,得到概率值向量,概率值向量包括目标评论为特征评论的概率值。
在本公开的再一个实施例中,确定模块,还用于:根据目标评论和目标评论对应的主题文本,通过评论分类模型确定目标评论是否为特征评论,评论分类模型用于确定评论是否为特征评论。
在本公开的再一个实施例中,还包括训练模块,用于:通过以下方式训练评论分类模型:获取多个训练数据包,训练数据包中包括至少一个样本分组,样本分组中包括一样本主题文本以及各样本主题文本对应的至少一个样本评论;基于多个训练数据包,对评论分类模型进行训练,得到满足预设要求的评论分类模型。
在本公开的再一个实施例中,训练模块,具体用于:基于多个训练数据包,对评论分类模型进行对比学习训练,得到满足预设要求的评论分类模型。
在本公开的再一个实施例中,训练模块,具体用于:根据多个训练数据包中各训练数据包,采用如下对比学习目标对评论分类模型进行对比学习训练:
Figure BDA0003317126280000051
Figure BDA0003317126280000052
其中,L-CONTRA为对比学习目标值,L-CONTRAi,j为样本分组标识为i的第j条评论的对比学习目标,sim()为余弦相似度函数;
Figure BDA0003317126280000053
为指示函数;τ为温控调节因子,li,j表示样本分组标识为i的第j条评论的分类值,其中,特征评论的分类值为1,不为特征评论的分类值为0;N表示样本分组标识的个数;Ki表示样本分组的个数;ri,j表示样本分组标识为i的第j条评论对应的融合向量;ri,j表示样本分组标识为i的第k条评论对应的融合向量;exp()为指数函数;得到对比学习目标值小于或等于设定值的评论分类模型。
在本公开实施方式的第四方面中,提供了一种计算设备,包括:存储器和处理器,存储器用于存储程序指令;处理器用于调用存储器中的程序指令执行第一方面的评论监测方法。
本公开提出的评论监测方法、介质、装置和计算设备,在获取目标评论及目标评论对应的主题文本后,获取主题文本的门限值向量,其中,门限值向量表示主题文本的语义特征,门限值向量用于辅助对目标评论的分类;对目标评论进行语义特征提取,得到信号值向量;将门限值向量和信号值向量进行特征融合,得到目标评论对应的融合向量;根据融合向量,确定目标评论是否为特征评论。本公开通过将主题文本和目标评论分开处理,得到门限值向量和信号值向量,再将门限值向量和信号值向量进行特征融合,这种方法可以避免主题文本和目标评论的过早融合,干扰对彼此完整语义特征的提取;另外,获取的是主题文本的门限值向量,该门限值向量用于辅助对目标评论的分类,即将主题文本作为判断目标评论是否为特征评论的辅助,以避免过分倚重主题文本的内容,实现以目标评论的内容为主来确定目标评论是否为特征评论,从而在面对可疑的局部语义信息时,精确判断该局部语义信息是否是包含于评论的,提高评论监测的可靠性。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开实施方式的应用场景图;
图2示意性地示出了根据本公开一实施例的评论监测方法的流程图;
图3示意性地示出了根据本公开一实施例的运算耗时图;
图4示意性地示出了根据本公开一实施例的训练数据包生成方法;
图5a示意性地示出了根据本公开一实施例的对比学习训练方法;
图5b示意性地示出了根据本公开一实施例的对比学习训练预处理方法的各个流程对应的结果图;
图6a示意性地示出了根据本公开另一实施例的评论监测方法的流程图;
图6b示意性地示出了根据本公开另一实施例的评论监测方法的结果图;
图7示意性地示出了根据本公开一实施例的存储介质示意图;
图8示意性地示出了根据本公开一实施例的评论监测装置的示意图;
图9示意性地示出了根据本公开一实施例的计算设备的结构图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种评论监测方法、介质、装置和计算设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
在传统的评论监测方法中,对于标题和评论的联合分类任务,主要是通过将标题和评论顺序拼接成单条文本,作为神经网络模型的输入。该方案实现简单,可以直接利用单文本分类模型的主体结构。
发明人发现,在对标题信息和评论信息进行文本拼接,不进行任何隔离,会造成两侧信息的完全混合。进而无法判断违规信息等特征信息是由标题提供的还是由评论提供的,导致在实际应用中造成大量错误判断。
而仅对评论进行检测,可以拦截评论本身属于特征评论的内容(例如违规评论)。但有些评论本身属于正常内容,只有结合主题内容才能确定是否真正违规。针对该情况,若将评论和主题进行文本拼接后,通过神经网络模型判断该评论是否违规。在实际应用时,会导致神经网络模型在进行判断时,面对可疑的局部语义信息,无法判断它是由标题提供的还是由评论提供的,在实际应用中造成大量错误判断。
因此,本公开提出一种评论检测方法、介质、装置和计算设备,该方法对标题信息和评论信息进行非对称处理,保证标题信息只是评论信息是否敏感的辅助,敏感信息的判定以评论信息的内容为主。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
图1示意性地示出了根据本公开实施方式的应用场景示例图。如图1所示,该应用场景中包含客户端110和服务器120。示例地,本应用场景中,特征评论可以是违规评论。
例如,客户端110中包含了大量的标题信息和评论信息,其中,一个标题信息可以对应至少一个评论信息。当用户(图中未标出)在客户端110对某个标题信息下输入评论信息后,该评论信息会被客户端110发送至服务器120。由服务器120判断该评论信息是否为违规评论。若服务器120确定该评论信息为违规评论,则拦截该评论信息;若服务器120确定该评论信息不为违规评论,则不拦截该评论信息,这样用户通过客户端110可以看到该评论信息显示在该标题信息之下。
示例性地,客户端110可以是PC电脑、手机,也可以是平板电脑。服务器120与客户端110可以是有线连接,也可以是通过无线网络或者蓝牙进行连接,本公开不对其加以限定。
另外,该应用场景中还可以包含存储器(图中未标出),该存储器用于存储标题信息或者评论信息,其可以位于客户端110中,也可以位于服务器120中。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本公开示例性实施方式的用于评论监测的方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图2示意性地示出了根据本公开一实施例的评论监测方法的流程图。如图2所示,该评论监测方法包括:
S201、获取目标评论及目标评论对应的主题文本。
示例地,一个主题文本可以对应一个目标评论,也可以对应多个目标评论。
另外,主题文本可以是新闻的标题信息,而目标评论可以是新闻标题下的评论信息,本公开不对其加以限定。
其中,获取主题文本和目标评论的方式可以是从存储设备中调用,也可以是从客户端接收。
S202、获取主题文本的门限值向量,门限值向量表示主题文本的语义特征,门限值向量用于辅助对目标评论的分类。
在进行处理时,将主题文本和目标评论分开处理。其中,对于主题文本,会提取其门限值向量。
门限值向量反映了该主题文本的语义特征。例如,以主题文本为新闻标题为例,门限值向量反映的语义特征包含有新闻标题本身、新闻标题的类型、字数等相关内容。示例地,新闻标题的类型可以是娱乐类、政治类或者军事类等。同一新闻标题,在不同类型下对应的门限值向量也可以是不同的。
示例地,门限值是0~1之间的一个小数。0表示完全关闭,1表示完全开启。数值越大,对应维度的影响就越大。若新闻标题的类型为军事类,则该军事类在门限值向量中对应的维度记为1,而政治类和娱乐类在门限值向量对应的维度记为0。
门限值向量可以作为辅助,以电平的形式用于后续对目标评论的监测,以确定目标评论是否为特征评论。
S203、对目标评论进行语义特征提取,得到信号值向量。
信号值向量反映的是目标评论的语义特征。具体地,该信号值向量可以由一次语义特征提取得到,也可以是由多次语义特征提取得到的,其中多次语义特征提取中,前一次语义特征提取的输出为后一次语义特征提取的输入。
信号值向量不同于门限值向量,相对于门限值向量而言,信号值向量可以包含更多语义信息,而门限值向量更多体现的是类别特征。
应理解:经过多次语义特征提取后得到的信号值向量相对于一次语义特征提取后得到的信号值向量而言,每提取一次,无用信息就越少,有用信息就越显著。
S204、将门限值向量和信号值向量进行特征融合,得到目标评论对应的融合向量。
示例地,将门限值向量和信号值向量进行特征融合时,特征融合方式可以是通过两者相乘的方式进行融合,例如,门限值向量为[a1,a2,……,an],信号值向量为[b1,b2,……,bn],两者相乘的结果得到的融合向量即[a1*b1,a2*b2,……,an*bn]。但本公开不对特征融合的具体实现进行限定,例如,还可以通过引入卷积函数,将门限值向量和信号值向量通过卷积相乘的方式进行特征融合,等等。
可以理解:门限值向量和信号值向量经过非对称处理后,以主题文本的门限值向量作为约束,目标评论作为主导,将两者进行特征融合。融合后的融合向量可以被认为是门限值向量辅助的信号值向量。其中,融合向量至少包含了两种特征信息,分别为目标评论的语义信息和主题文本的类型信息等。
S205、根据融合向量,确定目标评论是否为特征评论。
本公开中,对于一目标评论和该目标评论对应的主题文本而言,该目标评论进行特征融合后,可以唯一对应一融合向量。通过对该融合向量进行进一步地的分析,可以对目标评论进行监测。
若一主题文本对应多条目标评论,则该多条目标评论各自会对应一融合向量。具体地,对上述融合向量进行处理时,可以独立的对各个融合向量进行处理,也可以统一对该主题文本下的多个融合向量进行处理。
示例地,可以通过全连接层对融合向量进行处理,全连接层作为一种线性变换层,通过矩阵向量乘积的形式,将融合向量从一个特征空间线性转换到另一个特征空间。通过上述步骤,可以整合卷积层或者池化层中具有类别区分性的局部信息,最终将融合向量的特征综合起来。
一般情况下,新闻标题信息是通过相关机构审核后发布的,因此不存在违规现象,即融合向量中的门限值向量部分不包含有特征信息;而评论是用户自由发布的,其中可能包含有敏感信息等特征信息,则此时对目标评论对应的信号值向量进行特征提取,特征提取后,可以通过引入归一化函数确定该目标评论是否为特征评论(具体地,其可以是违规评论,后续以违规评论为例)。
本公开实施例中,通过将主题文本和目标评论分开处理,得到门限值向量和信号值向量,再将门限值向量和信号值向量进行特征融合,这种方法可以避免主题文本和目标评论的过早融合,干扰对彼此完整语义特征的提取;另外,获取的是主题文本的门限值向量,该门限值向量用于辅助对目标评论的分类,即将主题文本作为判断目标评论是否为特征评论的辅助,以避免过分倚重主题文本的内容,实现以目标评论的内容为主来确定目标评论是否为特征评论,从而在面对可疑的局部语义信息时,精确判断该局部语义信息是否是包含于评论的,提高评论监测的可靠性。
一些实施例中,在确定门限值向量和信号值向量之前,可以先对主题文本和目标评论进行文本预处理,可以通过以下方式进行文本预处理:
a.将连续文本序列分为多个子单元(记为词)。具体地,可以将每个中文汉字分为一个词,每个标点符号分为一个词,连续的数字或英文字母分为一个词。该操作用于后续以词为单元,生成矩阵。
b.根据词典构建词嵌入矩阵。其中,词典包含至少一个(编号、词)键值对,编号和词一一对应。而词嵌入矩阵由(例如,编号、128维向量)键值对组成,其数量和词典中的词条数一致。可以理解,将每个词都转化为128维向量。该128维向量表征了该词的特征,其中,128维向量可以作为一种示例,本公开不对其具体维数进行限定。
c.预先将每个词都对应为一个128维向量后,对于目标评论和主题文本中的每个词,可以先从词典中查询其对应编号,再根据该编号抽取出词嵌入矩阵中相应的128维向量。最终,可以将目标评论和主题文本都由文本序列转化为向量矩阵。
d.由于在卷积计算时,需要将矩阵维度统一。因此,需要先遍历参与计算的全部主题文本和其对应的各个目标评论。例如,若记录主题文本最大词数为N1,目标评论最大词数为N2。对于长度小于N1的主题文本或者长度小于N2的目标评论。需要在矩阵尾部使用128维全零向量进行补齐。最终使得所有主题文本的向量矩阵尺寸一致,以及,所有目标评论的矩阵尺寸也一致。
进行文本预处理后,可以采用矩阵或者向量的形式对主题文本和目标评论进行处理。
例如,对于门限值向量的计算,上述的S202已经叙述过,获取门限值向量可以通过存储设备来获取。在一些实施例中,获取主题文本的门限值向量,可以包括:响应于存储有门限值向量,读取已存储的门限值向量。
该方式对应于一个主题文本对应多个目标评论的形式,可以理解:每次单独计算一目标评论对应的融合向量时,都需要先计算该目标评论对应的主题文本的门限值向量和该目标评论自身的信号值向量。因此,可以将主题文本的门限值向量缓存在存储设备中。可以用于后续该主题文本的其它目标评论进行特征融合。
另外,在一些实施例中,可以通过图3直观的展示缓存门限值向量后,运算速率的改变:图3中,通过对门限值向量进行缓存,可以降低检测过程的计算耗时。若每条主题文本只对应唯一一个目标评论时的计算耗时为100%,在本方案的缓存机制下,两条目标可降低到80%,10条评论可降低到60%。
本公开实施例中,通过引入中间计算结果的缓存机制。在特征融合之前,由于主题文本和目标评论的处理过程是独立的,无任何交叉,这种低耦合结构,便于对由主题文本计算得到的门限值向量进行缓存。因此,可以与应用场景中“一条新闻标题对应多条评论”的实际情况相适应。因此,通过缓存门限值向量,能够有效降低计算开销,提高预测速度。
相对应地,若需要首次计算该主题文本对应的门限值向量,作为一种示例,获取主题文本的门限值向量,可以包括:响应于未存储主题文本的门限值向量,提取主题文本的语义特征,得到第一语义特征矩阵;提取第一语义特征矩阵的语义特征,得到第二语义特征矩阵;对第二语义特征矩阵进行维度压缩,得到第一语义特征向量;对第一语义特征向量进行归一化处理,得到主题文本的门限值向量。
示例地,由于门限值向量包含的语义特征较少,因此需要引入更多的卷积层对其进行深层语义特征提取,进而使得门限值向量所表征的语义特征更为抽象。
例如,将主题文本先分别经过第一卷积层和第二卷积层,再通过池化层后进行降维处理,最终通过归一化层,对其进行归一化。
具体地,第一层卷积层的卷积核为5×128,步长为1,滤波器深度为128,使用线性整流函数(ReLU)作为激活函数。该卷积层负责浅层语义特征的提取。第一卷积层的输入为N1×128的二维矩阵,输出为(N1-4)×128的低层语义特征矩阵,作为第一语义特征矩阵。
第二卷积层的卷积核为5×128,步长为1,滤波器深度为128,同样可以使用线性整流函数(ReLU)作为激活函数。该卷积层负责深层语义特征的提取。第二卷积层的输入为(N1-4)×128的二维矩阵,输出为(N1-8)×128的高层语义特征矩阵。该高层语义特征矩阵作为第二语义特征矩阵。
池化层采用最大池化技术,负责将第二语义特征矩阵压缩为语义特征向量。池化层的输入为(N1-8)×128的二维矩阵,输出为1×128的一维向量。
归一化层可以使用sigmoid函数,将语义特征向量的各个维度,都处理为0~1之间的浮点数,最终输出该主题文本对应的门限值向量。
至于如何确定信号值向量,在上述实施例的基础上,对于一种可选的实施方式,对目标评论进行语义特征提取,得到信号值向量,可以包括:提取目标评论的语义特征,得到第三语义特征矩阵;对第三语义特征矩阵进行维度压缩,得到目标评论的信号值向量。
进一步地,提取目标评论的语义特征,得到第三语义特征矩阵,可以包括:对目标评论进行文本预处理,得到目标评论对应的评论向量矩阵;提取目标评论对应的评论向量矩阵的语义特征,得到第三语义特征矩阵。
示例性地,可以通过一层卷积层和一层池化层对目标评论进行语义特征提取,得到信号值向量,如下:
具体地,该卷积层的输入可以是N2×128的二维矩阵,输出为(N2-4)×128的低层语义特征矩阵,由于信号值向量需要保留更多的目标评论的语义特征,因此使用较少的卷积层对其进行语义特征提取。(N2-4)×128的低层语义特征矩阵即为上述第三语义特征矩阵。
进一步地,将(N2-4)×128的低层语义特征矩阵输入池化层,输出1×128的一维向量。池化层的作用为对矩阵进行压缩处理,其不具有语义特征提取的功能,可以将一些无用向量滤除。输出的1×128的一维向量即上述的信号值向量。
可选地,根据融合向量,确定目标评论是否为特征评论,可以包括:根据融合向量,确定目标评论为特征评论的概率值;响应于概率值大于特征概率阈值,确定目标评论为特征评论;响应于概率值小于或者等于特征概率阈值,确定目标评论不为特征评论。
示例地,该特征概率阈值可以为0.5,也可以是0.6,本公开不对其加以限定。
其中,特征评论在实际应用中,可以是违规评论,也可以是亮点评论等。
在上述实施例对应的一些的实施例中,确定目标评论为特征评论的概率值,可以包括:对融合向量进行维度压缩,得到特征融合向量;对特征融合向量进行归一化处理,得到概率值向量,概率值向量包括目标评论为特征评论的概率值。
示例地,将门限值向量和信号值向量的对应维度进行相乘,得到融合向量。将融合向量输入全连接层,全连接层的变换尺度为128×64,使用线性整流函数(ReLU)作为激活函数。该层负责对融合向量的语义特征进行进一步筛选,同时完成维度压缩。全连接层的输入为1×128的一维向量,输出为1×64的一维向量,即特征融合向量。
再通过输出层对特征融合向量进行归一化处理,具体地,分类层先实施64×2的尺度变换,再使用softmax函数对输出向量进行归一化。其中,softmax函数是一种归一化指数函数,其可以将一个实向量压缩至另一个实向量。压缩后的向量中,每个维度的向量值都处于0到1之间。并且,所有维度向量值的和为1,即归一化。具体地,分类层的输入为1×64的一维向量,输出为1×2的一维向量。该向量中的两个元素均为0~1之间的浮点数,且相加求和为1,分别代表目标评论为特征评论的概率和目标评论不为特征评论的概率。
在一些实施例中,还可以包括:根据目标评论和目标评论对应的主题文本,通过评论分类模型确定目标评论是否为特征评论,评论分类模型用于确定评论是否为特征评论。
即,通过评论分类模型对目标评论和主题文本进行监测,示例地,本公开使用了非对称型的门控神经网络。
进一步地,一些示例中,评论分类模型可以通过以下方式训练得到:获取多个训练数据包,训练数据包中包括至少一个样本分组,样本分组中包括一样本主题文本以及各样本主题文本对应的至少一个样本评论;基于多个训练数据包,对评论分类模型进行训练,得到满足预设要求的评论分类模型。
示例性地,可以通过如下方法组成训练样本:
1.先构建原始样本对,具体地,将一主题文本和其对应的一条目标评论作为一样本对。因此,若一主题文本下有m条目标评论,则该主题文本对应有m个样本对。同理,若整个数据库内有n个主题文本,则训练样本中共有m*n个样本对。样本对构建完成后,将同一主题文本下的所有样本对分为一组,因此,基于上述条件,最终可以分为n组。
2.在每组内,将各个样本对进行随机打乱,即,对于同一个主题文本下的目标评论,其顺序是随机的。同时,对每组进行进一步地划分,设定样本阈值T,若一组内的样本个数小于或者等于T,则该组不被重新划分;若该组内的样本个数大于T,则需要将该组超出T的部分重新生成为一个新的小组。一种具体实施方式中,将原小组从前往后的T条目标评论保留,剩余部分重新作为一个新小组。其中,新小组与原小组具有相同的主题文本。
3.经过上述处理后,将各个小组随机打乱,进而使得每个小组对应的主题文本是随机分布的。
4.构建训练数据包,设定数据包阈值B,具体地实施方式可以为:选取多个小组,当这些被选取小组所包含的样本对的和为B时,则将上述多个小组划分为一个训练数据包。重复上述操作,进而构建多个训练数据包。若最终剩余的多个小组包含的样本对不足数据包阈值B时,则可以将这些样本对分配到之前构建的数据包中去。如此一来,可以理解:每个数据包至少包含B条样本对。作为一种历史经验数据,数据包阈值B可以是设置为200,而样本阈值T可以是设置为10。
因此,本公开在构建训练数据包时,使用了有限打乱的方式来替代完全随机抽样,构建更适配实际情况的训练数据包。具体处理包括按主题文本类型分组、小组内目标评论打乱、小组间打乱等。所生成的每个训练数据包都由若干个小组构成,每个小组内的目标评论隶属于同一主题文本。上述步骤可以通过图4来展现,如图4所示,图4示意性地示出了根据本公开另一实施例的训练数据包生成方法,该方法包括:
S401、根据主题文本的类型,将样本对划分为多个小组。
示例地,若主题文本的类型有政治、军事、人文等,则主题文本为政治的样本会被划分为多个小组,其中,这多个小组内的样本的主题文本皆为政治;同理,主题文本为军事的样本也会被划分为多个小组;主题文本为人文的的样本也会被划分为多个小组。
S402、将每个小组的目标评论随机打乱。
例如,其可以将原本按照时间顺序排列的目标评论打乱。这种方法可以增强训练数据包的随机性。
S403、判断每个小组内目标评论是否超过样本阈值T。
若是,则执行步骤S405;若否,则执行步骤S404。
S404、将小组内超过样本阈值T的评论重新划分为一个新的小组。
示例地,被重新划分出的小组内也可以再次将目标评论随机打乱。
S405、将每个小组随机打乱。
将小组内的目标评论随机打乱后,会进一步将各个小组随机打乱。各个小组被随机打乱后,原本按主题文本类型进行排列的小组变成无规则排列的小组。
S406、将一个小组的样本对移入训练数据包。
示例地,在构建训练数据包时,可以每次转移一个小组内的样本对,也可以每次转移多个小组内的样本对。
S407、判断训练数据包中的样本对是否超过数据包阈值B。
为了保证模型训练的速度和准确率,需要要求训练数据包的样本对不超过一阈值。
若否,则返回步骤S406,若是,则执行步骤S408。
S408、输出一个构建完成的训练数据包。
本公开实施例中,在构建对评论分类模型的训练样本时,一方面,按照主题文本进行分组,进而强化神经网络模型对目标评论细节的对比分辨能力;另一方面,先将小组内的目标评论随机打乱,又将小组随机打乱,可以避免在模型训练时,全部目标都来自相同主题文本或是相同主题文本下的目标评论。由于使用了有限打散的训练数据包构建方式,当训练数据分布不均衡,特别是某些主题文本下的目标评论类型过于集中、样本对丰富度受限时,该方法作为分类学习目标的辅助,可以有效增强神经网络模型在未知数据上的泛化能力。提高了模型训练后运算的准确性。
构建训练样本之后,需要对其进行训练,在一些实施例中,基于多个训练数据包,对评论分类模型进行训练,得到满足预设要求的评论分类模型,可以包括:基于多个训练数据包,对评论分类模型进行对比学习训练,得到满足预设要求的评论分类模型。
应理解:对比学习训练是在基础训练上的加强学习训练。其中,基础训练可以理解为将之前生成的训练样本输入评论分类模型,使得评论分类模型被训练后,具有输出目标评论是否为特征评论的概率的能力。对比学习训练则是为了加强评论分类模型对相同主题文本下目标评论之间的对比分析能力。即可以将同语义的目标评论拉进,将不同语义的目标评论推远。
作为一种示例,基于多个训练数据包,对评论分类模型进行对比学习训练,得到满足预设要求的评论分类模型,可以包括:
根据多个训练数据包中各训练数据包,采用如下对比学习目标对评论分类模型进行对比学习训练:
Figure BDA0003317126280000181
Figure BDA0003317126280000182
其中,L-CONTRA为对比学习目标值,L-CONTRAi,j为样本分组标识为i的第j条评论的对比学习目标,sim()为余弦相似度函数;
Figure BDA0003317126280000183
为指示函数;τ为温控调节因子,li,j表示样本分组标识为i的第j条评论的分类值,其中,特征评论的分类值为1,不为特征评论的分类值为0;N表示样本分组标识的个数;Ki表示样本分组的个数;ri,j表示样本分组标识为i的第j条评论对应的融合向量;ri,j表示样本分组标识为i的第k条评论对应的融合向量;exp()为指数函数;
得到对比学习目标值小于或等于设定值的评论分类模型。
作为一种示例,对比学习训练的输入数据,包括融合向量、样本分组标识和分类值向量三个部分。其中,融合向量为上述将门限值向量和信号值向量进行特征融合后得到的向量。样本分组标识为训练数据包中各个小组的标号。不同的主题文本组成的小组标号不同;相同的主题文本组成的小组标号相同。例如,将这些小组依次进行递增编号,记为1,2,3,…,每个小组内部的全部样本对具有相同主题文本。最终,一个数据包中全部样本对的样本分组标识可以构成样本分组标识向量,形式可以为[1,1,2,2,2,2,3,3,3…]。分类值向量由多个分类值组成,其中,0代表不为目标评论不为特征评论,1代表该目标评论为特征评论。示例地,分类值向量的组成形式可以为[0,0,1,0,1,1,0,0,1,…]。
上式中,分母表示的是除去第j条评论外的样本分组标识为i的训练数据包内的所有评论的余弦相似度之和。分子表示的是除去第j条评论外的样本分组标识为i的训练数据包内的所有特征评论的余弦相似度之和。
该对比学习训练的目标为使得该分数的值趋于1,即对数函数的值趋于0,进而使得整个式子的值趋于0。
式中,由于分母是由特征评论的余弦相似度的和,以及非特征评论的余弦相似度的和两个部分组成的。因此,当分数值趋于1时,可以认为非特征评论的余弦相似度可以忽略不计(为0)。进而,可以得出,特征评论(违规评论)的相似度被拉进,而非特征评论(正常评论)和特征评论之间的相似度被推远。
应理解:对比学习目标值越小,最终训练效果越好,计算结果越精准。其中,设定值可以是0.5,也可以是0.3。本公开不对其加以限定。
上述方法可以通过图5a来进一步展现,图5a示意性地示出了根据本公开又一实施例的对比学习训练方法,如图5a所示,该方法包括:
S501、获取特征融合后的融合向量。
示例地,这里获取的融合向量的维度是1*128。
S502、将融合向量归一化。
归一化后,向量的模值为1。
S503、将归一化的融合向量进行转置操作。
此处为矩阵的转置,用于后续的矩阵乘法运算。
S504、将转置后的融合向量与转置之前的融合向量相乘。
此处的矩阵相乘可以写作:1*128的向量和128*1的向量相乘,得到一该融合向量的余弦相似度值。
S505、根据样本分组标识和分类值向量,计算一小组内所有特征评论的余弦相似度和。
S506、根据样本分组标识和分类值向量,计算一小组内所有目标评论的余弦相似度和。
S507、将所有特征评论的余弦相似度和与所述目标评论的余弦相似度作商,并对商进行对数运算,得到对比学习目标值。
其中,步骤S505、S506和S507和前述的对比学习训练方法相同,此处不再赘述。
S508、通过反复迭代计算,使得当对比学习目标值趋于0时,对比学习训练完成。
这里的迭代计算可以理解为:在前述公式中,不断地更换i和j的值。通过计算每个目标评论的对比学习目标值,并使其趋近于0,最终将评论分类模型训练完成。
图5b展示了在进行对比学习训练之前,还需要预先对分类值向量和样本分组标识进行一定的预处理,即,可以称为:对比学习训练预处理方法。通过矩阵的转置与相乘预算后,得到联合遮罩。联合遮罩反映了一样本对的样本分组标识和分类值向量两种信息,其会参与上述的小组内所有特征评论的余弦相似度和,以及,小组内所有目标评论的余弦相似度和的运算。
本公开实施例中,使用了基于对比学习的增强训练方式。对比对象为某个经过特征融合后的融合向量,对比范围为训练数据包中任一小组内的,除去该融合向量对应的目标评论之外的,其它的特征评论或者目标评论。对比过程使用了样本分组标识和目标评论的分类值进行矩阵运算。最终可以增强评论分类模型对同一个主题文本下的各个目标评论的判断能力,提高了泛化能力。
接下来,通过完整的步骤来展示本公开提出的评论监测方法,图6a示意性地示出了根据本公开再一实施例的评论监测方法,如图6a所示,该方法包括:
S601、对目标评论进行预处理,得到评论矩阵。
将目标评论中的每次“词”作为一个128维向量,最终将目标评论预处理为评论矩阵。评论矩阵的行数被统一为所有目标评论中,目标评论的最大词数N2。
S602、对主题文本进行预处理,得到主题向量矩阵。
将主题文本中的每次“词”作为一个128维向量,最终将主题文本预处理为主题向量矩阵。主题向量矩阵的行数被统一为所有主题文本中,主题文本的最大词数N1。
S603、通过卷积层提取评论向量矩阵的语义特征,得到第三语义特征矩阵。
一般地,评论向量矩阵仅需要提取语义特征,从而在最大程度上保证了目标评论语义的完整性。
S604、通过第一层卷积层提取主题向量矩阵的语义特征,得到第一语义特征矩阵。
同理,通过卷积层对主题文本进行语义特征提取,由于主题文本被用于辅助判断目标评论的违规性,因此,需要提取主题文本的深层语义特征。
S605、通过池化层对第三语义特征矩阵进行降维处理,得到信号值向量。
池化层的主要作用在于压缩数据和参数的量,减小过拟合。下述的S607与本步骤作用一致。处理后的信号值向量的维度为1*128。
S606、通过第二层卷积层提取第一语义特征矩阵的语义特征,得到第二语义特征矩阵。
S607、通过池化层对第二语义特征矩阵进行降维处理,并进行归一化,得到门限值向量。
处理后得到的门限值向量的维度为1*128。
S608、将门限值向量与信号值向量的对应维度相乘,得到融合向量。
示例地,对于处理后的门限值向量和信号值向量,其维度为1*128。若门限值向量为(a1,a2,a3……an),信号值向量为(b1,b2,b3...bn),则融合向量可以表示为(a1*b1,a2*b2,a3*b3…an*bn)。
S609、通过全连接层,进一步提取融合向量。
S610、通过输出层,输出目标评论为特征评论的概率值。
输出层最终输出的向量维度为1*2,可以写作(c1,c2)。其中,c1表示目标评论为特征评论的概率;c2表示目标评论不为特征评论的概率,c1+c2=1。
另外,图6b示意性地示出了根据本公开另一实施例的评论监测方法的流程结果图。通过图6b,可以反映门限值向量和信号值向量的结果,以及,融合向量的结果。
本公开实施例提出的评论监测方法,将主题文本和目标评论先分开处理,再将处理后的主题文本和目标评论进行融合,这种方法可以分开判断主题文本和目标评论的特征。同时,其可以实现将主题文本作为辅助,进一步判断目标评论是否为特征评论。进而提高了监测的准确性。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图7对本公开示例性实施方式的存储介质进行说明。
参考图7所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品70,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图8对本公开示例性实施方式的评论监测装置进行说明,用于实现上述任一方法实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
图8中,该评论监测装置800包括:
第一获取模块801,用于获取目标评论及目标评论对应的主题文本;
第二获取模块802,用于获取主题文本的门限值向量,门限值向量表示主题文本的语义特征,门限值向量用于辅助对目标评论的分类;
第三获取模块803,用于对目标评论进行语义特征提取,得到信号值向量;
特征融合模块804,用于将门限值向量和信号值向量进行特征融合,得到目标评论对应的融合向量;
确定模块805,用于根据融合向量,确定目标评论是否为特征评论
在本公开的一个实施例中,第二获取模块,具体用于:响应于存储有门限值向量,读取已存储的门限值向量。
在本公开的另一个实施例中,第二获取模块802,包括第一卷积层、第二卷积层、第一池化层和归一化层(上述三者在图中未标出),其中:第一卷积层,用于响应于未存储主题文本的门限值向量,提取主题文本的语义特征,得到第一语义特征矩阵;第二卷积层,用于提取第一语义特征矩阵的语义特征,得到第二语义特征矩阵;池化层,用于对第二语义特征矩阵进行维度压缩,得到第一语义特征向量;归一化层,用于对第一语义特征向量进行归一化处理,得到主题文本的门限值向量。
在本公开的又一个实施例中,第三获取模块803,包括第三卷积层和第二池化层(上述两者在图中未标出),其中:第三卷积层,用于提取目标评论的语义特征,得到第三语义特征矩阵;第二池化层,用于对第三语义特征矩阵进行维度压缩,得到目标评论的信号值向量。
在本公开的再一个实施例中,第三卷积层,具体用于:对目标评论进行文本预处理,得到目标评论对应的评论向量矩阵;提取目标评论对应的评论向量矩阵的语义特征,得到第三语义特征矩阵。
在本公开的再一个实施例中,确定模块805,具体用于:根据融合向量,确定目标评论为特征评论的概率值;响应于概率值大于特征概率阈值,确定目标评论为特征评论;响应于概率值小于或者等于特征概率阈值,确定目标评论不为特征评论。
在本公开的再一个实施例中,确定模块805,具体用于:对融合向量进行维度压缩,得到特征融合向量;对特征融合向量进行归一化处理,得到概率值向量,概率值向量包括目标评论为特征评论的概率值。
在本公开的再一个实施例中,确定模块805,还用于:根据目标评论和目标评论对应的主题文本,通过评论分类模型确定目标评论是否为特征评论,评论分类模型用于确定评论是否为特征评论。
在本公开的再一个实施例中,还包括训练模块(图中未标出),用于:通过以下方式训练评论分类模型:获取多个训练数据包,训练数据包中包括至少一个样本分组,样本分组中包括一样本主题文本以及各样本主题文本对应的至少一个样本评论;基于多个训练数据包,对评论分类模型进行训练,得到满足预设要求的评论分类模型。
在本公开的再一个实施例中,训练模块,具体用于:基于多个训练数据包,对评论分类模型进行对比学习训练,得到满足预设要求的评论分类模型。
在本公开的再一个实施例中,训练模块,具体用于:根据多个训练数据包中各训练数据包,采用如下对比学习目标对评论分类模型进行对比学习训练:
Figure BDA0003317126280000241
Figure BDA0003317126280000242
其中,L-CONTRA为对比学习目标值,L-CONTRAi,j为样本分组标识为i的第j条评论的对比学习目标,sim()为余弦相似度函数;
Figure BDA0003317126280000243
为指示函数;τ为温控调节因子,li,j表示样本分组标识为i的第j条评论的分类值,其中,特征评论的分类值为1,不为特征评论的分类值为0;N表示样本分组标识的个数;Ki表示样本分组的个数;ri,j表示样本分组标识为i的第j条评论对应的融合向量;ri,j表示样本分组标识为i的第k条评论对应的融合向量;exp()为指数函数;得到对比学习目标值小于或等于设定值的评论分类模型。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图9对本公开示例性实施方式的计算设备进行说明。
图9显示的计算设备90仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于:上述至少一个处理单元901、上述至少一个存储单元902,连接不同系统组件(包括处理单元901和存储单元902)的总线903。
总线903包括数据总线、控制总线和地址总线。
存储单元902可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)9021和/或高速缓存存储器9022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)9023。
存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025,这样的程序模块9024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且,计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图9所示,网络适配器906通过总线903与计算设备90的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了评论监测装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开评论监测方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种评论监测方法,包括:
获取目标评论及所述目标评论对应的主题文本;
获取所述主题文本的门限值向量,所述门限值向量表示所述主题文本的语义特征,所述门限值向量用于辅助对所述目标评论的分类;
对所述目标评论进行语义特征提取,得到信号值向量;
将所述门限值向量和所述信号值向量进行特征融合,得到目标评论对应的融合向量;
根据所述融合向量,确定所述目标评论是否为特征评论。
2.根据权利要求1所述的评论监测方法,所述获取所述主题文本的门限值向量,包括:
响应于存储有所述门限值向量,读取已存储的所述门限值向量。
3.根据权利要求1所述的评论监测方法,所述获取所述主题文本的门限值向量,包括:
响应于未存储所述主题文本的门限值向量,提取所述主题文本的语义特征,得到第一语义特征矩阵;
提取所述第一语义特征矩阵的语义特征,得到第二语义特征矩阵;
对所述第二语义特征矩阵进行维度压缩,得到第一语义特征向量;
对所述第一语义特征向量进行归一化处理,得到所述主题文本的门限值向量。
4.根据权利要求1至3中任一项所述的评论监测方法,所述对所述目标评论进行语义特征提取,得到信号值向量,包括:
提取所述目标评论的语义特征,得到第三语义特征矩阵;
对所述第三语义特征矩阵进行维度压缩,得到所述目标评论的信号值向量。
5.根据权利要求4所述的评论监测方法,提取所述目标评论的语义特征,得到第三语义特征矩阵,包括:
对所述目标评论进行文本预处理,得到所述目标评论对应的评论向量矩阵;
提取所述目标评论对应的评论向量矩阵的语义特征,得到第三语义特征矩阵。
6.根据权利要求1至3中任一项所述的评论监测方法,所述根据所述融合向量,确定所述目标评论是否为特征评论,包括:
根据所述融合向量,确定所述目标评论为特征评论的概率值;
响应于所述概率值大于特征概率阈值,确定所述目标评论为特征评论;
响应于所述概率值小于或者等于特征概率阈值,确定所述目标评论不为特征评论。
7.根据权利要求6所述的评论监测方法,所述根据所述融合向量,确定所述目标评论为特征评论的概率值,包括:
对所述融合向量进行维度压缩,得到特征融合向量;
对所述特征融合向量进行归一化处理,得到概率值向量,所述概率值向量包括所述目标评论为特征评论的概率值。
8.一种评论监测装置,包括:
第一获取模块,用于获取目标评论及所述目标评论对应的主题文本;
第二获取模块,用于获取所述主题文本的门限值向量,所述门限值向量表示所述主题文本的语义特征,所述门限值向量用于辅助对所述目标评论的分类;
第三获取模块,用于对所述目标评论进行语义特征提取,得到信号值向量;
特征融合模块,用于将所述门限值向量和所述信号值向量进行特征融合,得到目标评论对应的融合向量;
确定模块,用于根据所述融合向量,确定所述目标评论是否为特征评论。
9.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现权利要求1至7任一项所述的评论监测方法。
10.一种计算设备,包括:存储器和处理器,
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1至7任一项所述的评论监测方法。
CN202111234765.8A 2021-10-22 2021-10-22 评论监测方法、介质、装置和计算设备 Pending CN113887242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111234765.8A CN113887242A (zh) 2021-10-22 2021-10-22 评论监测方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111234765.8A CN113887242A (zh) 2021-10-22 2021-10-22 评论监测方法、介质、装置和计算设备

Publications (1)

Publication Number Publication Date
CN113887242A true CN113887242A (zh) 2022-01-04

Family

ID=79004411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111234765.8A Pending CN113887242A (zh) 2021-10-22 2021-10-22 评论监测方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN113887242A (zh)

Similar Documents

Publication Publication Date Title
Aslam et al. Fake detect: A deep learning ensemble model for fake news detection
Song et al. Auditing data provenance in text-generation models
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
Chan et al. Reproducible extraction of cross-lingual topics (rectr)
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
CN112789626A (zh) 可扩展和压缩的神经网络数据储存系统
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN111723260A (zh) 推荐内容的获取方法、装置、电子设备及可读存储介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN109740156B (zh) 反馈信息处理方法、装置、电子设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
Pathak et al. KBCNMUJAL@ HASOC-Dravidian-CodeMix-FIRE20: Using Machine Learning for Detection of Hate Speech and Offensive Code-mixed Social Media
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111950265A (zh) 一种领域词库构建方法和装置
US20230186072A1 (en) Extracting explanations from attention-based models
Rahman et al. Towards a framework for acquisition and analysis of speeches to identify suspicious contents through machine learning
Kao et al. Detecting deceptive language in crime interrogation
CN113887242A (zh) 评论监测方法、介质、装置和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination