CN111930941A - 一种辱骂内容识别方法及装置、服务器 - Google Patents

一种辱骂内容识别方法及装置、服务器 Download PDF

Info

Publication number
CN111930941A
CN111930941A CN202010761006.6A CN202010761006A CN111930941A CN 111930941 A CN111930941 A CN 111930941A CN 202010761006 A CN202010761006 A CN 202010761006A CN 111930941 A CN111930941 A CN 111930941A
Authority
CN
China
Prior art keywords
comment
text
matrix
abuse
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010761006.6A
Other languages
English (en)
Inventor
张亮
江钊
孙中武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010761006.6A priority Critical patent/CN111930941A/zh
Publication of CN111930941A publication Critical patent/CN111930941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本申请实施例公开了一种辱骂内容识别方法及装置、服务器,包括:判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字;若评论文本包含任一辱骂关键字,则提取评论文本的语义特征矩阵;根据评论文本的语义特征矩阵计算得到评论文本的辱骂概率;根据评论文本的语义特征矩阵和第一权重向量,得到评论文本的负面情感概率;根据辱骂概率以及负面情感概率,确定评论文本是否为辱骂评论文本。采用本申请,可以提高辱骂内容的识别准确率。

Description

一种辱骂内容识别方法及装置、服务器
技术领域
本申请涉及计算机技术领域,尤其涉及一种辱骂内容识别方法及装置、服 务器。
背景技术
目前,辱骂内容识别的方案主要是利用文本分类模型来对辱骂内容进行识 别,其中,文本分类模型常用的算法包括fasttext、textcnn和lstm等相关算法, 但在常见社交场景下,相同的辱骂关键词,如猪,就有多种表达方式,并且, 表达的辱骂含义也不一致,例如,傻猪猪真可爱,这种表达方式并不具有辱骂 含义,反而是一种亲昵的表达方式,如果利用文本分类模型来对辱骂内容进行 识别,会出现辱骂内容误判的情况,导致辱骂内容的识别准确率不高。
申请内容
本申请实施例提供一种辱骂内容识别方法及装置、服务器、存储介质,以 期提高辱骂内容的识别准确率。
本申请实施例一方面提供了一种辱骂内容识别方法,包括:
判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字;
若所述评论文本包含所述任一辱骂关键字,则提取所述评论文本的语义特 征矩阵;
根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率;
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的 负面情感概率,其中,所述第一权重向量是基于第一样本评论集合以及所述第 一样本评论集合中每一条评论文本对应的情感分类标签训练得到,所述第一权 重向量包括所述多个评论词中每个评论词的情感分类权重;
根据所述辱骂概率以及所述负面情感概率,确定所述评论文本是否为辱骂 评论文本。
可选的,所述根据所述评论文本的语义特征矩阵和第一权重向量,得到所 述评论文本的负面情感概率,包括:
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的 第一文本特征向量;
将所述第一文本特征向量转化为概率序列,得到所述评论文本的负面情感 概率。
可选的,所述提取评论文本的语义特征,包括:
根据所述评论文本中每个评论词在所述评论文本中的出现顺序,对所述每 个评论词的初始词向量进行排序,得到所述评论文本的初始矩阵;
根据所述评论文本的初始矩阵和输入权重矩阵,得到所述评论文本的文本 矩阵,其中,所述输入权重矩阵包括预设长度个预先训练的输入权重列向量;
对所述文本矩阵进行特征提取,得到所述评论文本的语义特征矩阵。
可选的,所述根据所述评论文本的初始矩阵和输入权重矩阵,得到所述评 论文本的文本矩阵之前,包括:
对第二样本评论集合中每一条评论文本中每个评论词的初始词向量进行排 序,得到所述每一条评论文本的初始矩阵,进而得到所述第二样本评论集合的 初始矩阵,其中,所述第二样本评论集合包括评论文本ai,所述评论文本ai包括 目标评论词bj,其中,i为小于或等于所述第二样本评论集合对应的评论文本总 数的正整数,j为小于或等于所述评论文本ai对应的评论词总数的正整数;
根据所述第二样本评论集合的初始矩阵、初始输入权重矩阵以及初始输出 权重矩阵得到所述评论文本ai中目标评论词bj对应的输出向量,根据所述输出 向量得到所述目标评论词bj的预测词向量;
根据所述目标评论词bj的预测词向量和所述目标评论词bj的初始词向量, 对所述初始输入权重矩阵和所述输出权重矩阵进行调整;
当调整后的所述目标评论词bj的预测词向量和所述目标评论词bj的初始词 向量满足第一收敛条件时,则将调整后的初始输入权重矩阵确定为所述输入权 重矩阵。
可选的,所述根据所述评论文本的语义特征矩阵计算得到所述评论文本的 辱骂概率,包括:
根据所述评论文本的语义特征矩阵和第二权重向量得到第二文本特征向量, 其中,所述第二权重向量包括所述多个评论词中每个评论词的辱骂识别权重, 并且,所述第二权重向量中辱骂评论词所占的权重高于非辱骂评论词所占的权 重;
将所述第二文本特征向量转化为概率序列,得到所述评论文本的辱骂概率。
可选的,所述根据所述评论文本的语义特征矩阵和第一权重向量,得到所 述评论文本的第一文本特征向量之前,还包括:
提取第三样本评论集合中每一条评论文本的语义特征矩阵,得到所述第三 样本评论集合的语义特征矩阵;
根据所述第三样本评论集合的语义特征矩阵和第一初始权重向量,得到所 述第三样本评论集合的文本特征向量;
将所述第三样本评论集合的文本特征向量转化为概率序列,得到所述第三 样本评论集合中每一条评论文本的预测情感分类标签;
根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感 分类标签,对所述第一初始权重向量进行调整;
当所述第三样本评论集合中评论文本的预测情感分类标签和情感分类标签 满足第二收敛条件时,将所述调整后的第一初始权重向量确定为所述第一权重 向量。
可选的,所述第三样本评论集合的文本特征向量包括第m个元素Xm,所述 m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数;
所述将所述第三样本评论集合的文本特征向量转化为概率序列,包括:
计算所述第m个元素Xm的概率值
Figure BDA0002613080260000031
其中,所述n为大于 等于1,并且小于等于所述M的正整数;
根据所述概率值Sm得到所述第三样本评论集合的文本特征向量中每一个 元素的概率值,根据所述每一个元素的概率值得到所述第三样本评论集合的文 本特征向量对应的概率序列。
可选的,所述辱骂评论文本携带所述辱骂评论文本对应的用户账号;
所述确定所述评论文本为辱骂评论文本之后,还包括:
根据所述辱骂评论文本和所述用户账号生成上报消息,将所述上报消息发 送至网络管理平台。
本申请一方面实施例提供了一种辱骂内容识别装置,包括:
判断模块,用于判断评论文本中的多个评论词是否包含辱骂文本库中的任 一辱骂关键字;
确定提取模块,用于若所述评论文本包含所述任一辱骂关键字,则提取所 述评论文本的语义特征矩阵;
辱骂概率计算模块,用于根据所述评论文本的语义特征矩阵计算得到所述 评论文本对应的辱骂概率;
负面情感概率计算模块,用于根据所述评论文本的语义特征矩阵和第一权 重向量,得到所述评论文本的负面情感概率,其中,所述第一权重向量是基于 第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感分 类标签训练得到,所述第一权重向量包括所述多个评论词中每个评论词的情感 分类权重;
确定模块,用于根据所述辱骂概率以及所述负面情感概率,确定所述评论 文本是否为辱骂评论文本。
可选的,所述负面情感概率计算模块,具体用于:
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的 第一文本特征向量;
将所述第一文本特征向量转化为概率序列,得到所述评论文本的负面情感 概率。
可选的,所述确定提取模块,包括:
第一初始矩阵确定单元,用于根据所述评论文本中每个评论词在所述评论 文本中的出现顺序,对所述每个评论词的初始词向量进行排序,得到所述评论 文本的初始矩阵;
文本矩阵计算单元,用于根据所述评论文本的初始矩阵和输入权重矩阵, 得到所述评论文本的文本矩阵,其中,所述输入权重矩阵包括预设长度个预先 训练的输入权重列向量;
特征提取单元,用于对所述文本矩阵进行特征提取,得到所述评论文本的 语义特征矩阵。
可选的,所述确定提取模块,还包括:
第二初始矩阵确定单元,用于对第二样本评论集合中每一条评论文本中每 个评论词的初始词向量进行排序,得到所述每一条评论文本的初始矩阵,进而 得到所述第二样本评论集合的初始矩阵,其中,所述第二样本评论集合包括评 论文本ai,所述评论文本ai包括目标评论词bj,其中,i为小于或等于所述第二 样本评论集合对应的评论文本总数的正整数,j为小于或等于所述评论文本ai对 应的评论词总数的正整数;
计算单元,用于根据所述第二样本评论集合的初始矩阵、初始输入权重矩 阵以及初始输出权重矩阵得到所述评论文本ai中目标评论词bj对应的输出向量, 根据所述输出向量得到所述目标评论词bj的预测词向量;
调整权重矩阵单元,用于根据所述目标评论词bj的预测词向量和所述目标 评论词bj的初始词向量,对所述初始输入权重矩阵和所述输出权重矩阵进行调 整;
输入权重矩阵确定单元,用于当调整后的所述目标评论词bj的预测词向量 和所述目标评论词bj的初始词向量满足第一收敛条件时,则将调整后的初始输 入权重矩阵确定为所述输入权重矩阵。
可选的,所述计算辱骂概率模块,包括:
计算第二文本特征单元,用于根据所述评论文本的语义特征矩阵和第二权 重向量得到第二文本特征向量,其中,所述第二权重向量包括所述多个评论词 中每个评论词的辱骂识别权重,并且,所述第二权重向量中辱骂评论词所占的 权重高于非辱骂评论词所占的权重;
第二概率转化单元,用于将所述第二文本特征向量转化为概率序列,得到 所述评论文本的辱骂概率。
可选的,所述装置,还包括:权重向量确定模块。
所述权重向量确定模块,包括:
提取语义特征单元,用于提取所述第三样本评论集合中每一条评论文本的 语义特征矩阵,得到所述第三样本评论集合的语义特征矩阵;
文本特征计算单元,用于根据所述第三样本评论集合的语义特征矩阵和第 一初始权重向量,得到所述第三样本评论集合的文本特征向量;
预测情感标签确定单元,用于将所述第三样本评论集合的文本特征向量转 化为概率序列,得到所述第三样本评论集合中每一条评论文本的预测情感分类 标签;
调整单元,用于根据所述第三样本评论集合中每一条评论文本的预测情感 分类标签和情感分类标签,对所述第一初始权重向量进行调整;
第一权重向量确定单元,用于当所述第三样本评论集合中评论文本的预测 情感分类标签和情感分类标签满足第二收敛条件时,将所述调整后的第一初始 权重向量确定为所述第一权重向量。
可选的,所述第三样本评论集合的文本特征向量包括第m个元素Xm,所述 m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数;
所述预测情感分类标签确定单元,包括:
概率值计算子单元,用于计算所述第m个元素Xm的概率值
Figure BDA0002613080260000061
其中,所述n为大于等于1,并且小于等于所述M的正整数;
概率序列确定子单元,用于根据所述概率值Sm得到所述第三样本评论集合 的文本特征向量中每一个元素的概率值,根据所述每一个元素的概率值得到所 述第三样本评论集合的文本特征向量对应的概率序列。
可选的,所述辱骂评论文本携带所述辱骂评论文本对应的用户账号;
所述装置还包括:
生成发送模块,用于根据所述辱骂评论文本和所述用户账号生成上报消息, 将所述上报消息发送至网络管理平台。
本申请实施例一方面提供了一种服务器,包括处理器、存储器和收发器, 所述处理器、存储器和收发器相互连接,其中,所述存储器用于存储支持所述 辱骂内容识别装置执行上述辱骂内容识别方法的计算机程序,所述计算机程序 包括程序指令;所述处理器被配置用于调用所述程序指令,执行如上述本申请 实施例一方面中所述的辱骂内容识别方法。
本申请实施例一方面提供了一种存储介质,上述存储介质存储有计算机程 序,上述计算机程序包括程序指令;上述程序指令当被处理器执行时使上述处 理器执行如本申请实施例一方面中上述的辱骂内容识别方法。
在本申请实施例中,辱骂内容识别平台判断评论文本中的多个评论词是否 包含辱骂文本库中的任一辱骂关键字;若评论文本包含任一辱骂关键字,则提 取评论文本的语义特征矩阵;根据评论文本的语义特征矩阵计算得到评论文本 的辱骂概率;根据评论文本的语义特征矩阵和第一权重向量,得到评论文本的 负面情感概率;根据辱骂概率以及负面情感概率,确定评论文本是否为辱骂评 论文本。采用本申请,可以提高辱骂内容的识别准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种辱骂内容识别方法的流程示意图;
图3是本申请实施例提供的一种基于word2vec+bi-lstm+attention算法的网络结构示意图;
图4是本申请实施例提供的一种辱骂内容识别方法的流程示意图;
图5是本申请实施例提供的一种辱骂内容识别装置的结构示意图;
图6是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是 全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,是本申请实施例提供的一种系统架构示意图。如图1所示,该 系统构架示意图包括评论发表方及其终端、辱骂内容识别平台和网络管理平台, 其中,评论发表方及其终端,如图1所示,具体可以包括评论发表方a及其所 在终端、评论发表方b及其所在终端、…。
其中,辱骂内容识别平台、每个评论发表方所在终端和网络管理平台可以 为计算机设备,包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移 动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点) 机、可穿戴设备(例如智能手表、智能手环等)等。
进一步地,如图1所示,在具体实施辱骂内容识别方法的过程中,评论发 表方a在其终端上发表评论文本,如图1中的人机交互界面100所示,辱骂内 容识别平台获取该评论文本,判断该评论文本中多个评论词是否包含辱骂文本 库中的任一辱骂关键词,若该评论文本中包含辱骂文本库中的任一辱骂关键词, 则提取该评论文本的语义特征矩阵,根据该评论文本的语义特征矩阵计算得到 目标评论文本的辱骂概率,若该辱骂概率大于第一预设阈值,则根据评论文本 的语义特征矩阵和第一权重向量,得到评论文本的第一文本特征向量,将该第 一文本特征向量转化为概率序列,得到评论文本的负面情感概率,若该负面情 感概率大于第二预设阈值,则确定评论文本为辱骂评论文本,并根据辱骂评论 文本以及辱骂评论文本携带的用户账号生成上报消息,将该上报消息发送至网 络管理平台,网络管理平台对该用户账号进行相应的打击处理。
进一步地,请参见图2,是本申请实施例提供的一种辱骂内容识别方法的流 程示意图。如图2所示,该方法实施例包括如下步骤:
S101,判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关 键字。
其中,辱骂关键字为各种具有辱骂含义词语中相同的字。
具体的,辱骂内容识别平台将评论文本中的第k个字与辱骂文本库中的辱 骂关键字进行对比,其中,k为小于或等于评论文本的总字数的正整数,若评论 文本中的第k个字与辱骂文本库中的任一辱骂关键字一致,则确定评论文本中 包含辱骂文本库中的辱骂关键字,之后执行步骤S102。
S102,若评论文本中包含任一辱骂关键字,则提取评论文本的语义特征矩 阵。
可选的,所述提取评论文本的语义特征矩阵,包括:
根据所述评论文本中每个评论词在所述评论文本中的出现顺序,对所述每 个评论词的初始词向量进行排序,得到所述评论文本的初始矩阵;
根据所述评论文本的初始矩阵和输入权重矩阵,得到所述评论文本的文本 矩阵,其中,所述输入权重矩阵包括预设值个预先训练的输入权重列向量;
对所述文本矩阵进行特征提取,得到所述评论文本的语义特征矩阵。
具体的,辱骂内容识别平台在确定评论文本包含任一辱骂关键字后,将评 论文本中的每个评论词通过One-Hot Encoder的方式将每个评论词转化为离散的 符号,也就是说,评论文本中的每个评论词对应一个行向量,该行向量中只有 一个值为1,其余值都为0,即每个评论词对应的行向量为该评论词的初始词向 量,其中,初始词向量的维数由人为设定,这里不做限定。
之后,由于不同的评论文本中包含的评论词的个数不一样,为了使每个评 论文本的初始矩阵的行列数一致,则将评论文本中的每个评论词的初始词向量, 按照每个评论词在评论文本中的出现顺序进行排序,得到一个m行n列的矩阵, 之后,将评论文本中包含的评论词的个数l与初始矩阵的预设行数L进行比较, 若评论词的个数小于初始矩阵的预设行数,则在上述m行n列的矩阵中的第m+1 行依次向下添加(L-l)个n维零向量后,得到一个L行n列的矩阵,即评论文 本的初始矩阵。示例性的,评论文本“我爱祖国妈妈”中评论词“我”、“爱”、 “祖国”和“妈妈”的初始词向量分别为x1、x2、x3和x4,则评论文本的初始 矩阵为(x1,x2,x3,x4,x5,x6,…)T,其中,向量“x5,x6,…”均为与初始词向量“x1、 x2、x3和x4”维数一致的零向量。
可以理解的,请参见图3,是本申请实施例提供的一种基于 word2vec+bi-lstm+attention算法的网络结构示意图。这里,评论文本的初始矩阵, 即图3中输入层中的网络结构输入量(x1,x2,x3,…,xT)T,其中,该网络结构输入量 中的x1,x2,x3,…,xT包括评论文本中多个评论词的初始词向量,并且,该网络结构 输入量的行数T为大于等于评论文本中包含的评论词总个数的整数。换句话说, 该网络结构中的输入层用于将评论文本中的每个评论词转化为初始词向量。
进一步地,根据评论文本的初始矩阵和输入权重矩阵,得到评论文本的文 本矩阵,由于输入权重矩阵是预先训练得到的,因此,在计算得到评论文本的 文本矩阵之前,需要训练得到输入权重矩阵。
可选的,所述根据所述评论文本的初始矩阵和输入权重矩阵,得到所述文 本的文本矩阵之前,包括:
对第二样本评论集合中每一条评论文本中每个评论词的初始词向量进行排 序,得到所述每一条评论文本的初始矩阵,进而得到所述第二样本评论集合的 初始矩阵,其中,所述第二样本评论集合包括评论文本ai,所述评论文本ai包括 目标评论词bj,其中,i为小于或等于所述第二样本评论集合对应的评论文本总 数的正整数,j为小于或等于所述评论文本ai对应的评论词总数的正整数;
根据所述第二样本评论集合的初始矩阵、初始输入权重矩阵以及初始输出 权重矩阵得到所述评论文本ai中目标评论词bj对应的输出向量,根据所述输出 向量得到所述目标评论词bj的预测词向量;
根据所述目标评论词bj的预测词向量和所述目标评论词bj的初始词向量, 对所述初始输入权重矩阵和所述输出权重矩阵进行调整;
当调整后的所述目标评论词bj的预测词向量和所述目标评论词bj的初始词 向量满足第一收敛条件时,则将调整后的初始输入权重矩阵确定为所述输入权 重矩阵。
其中,输入权重矩阵的行数为每个评论词的初始词向量的维度,列数为隐 含层神经元个数,输入权重矩阵是用于将每个评论词的初始词向量的维度映射 成固定维度的向量,从而避免每个评论词的初始词向量出现维度爆炸的情况。 此外,初始输入权重矩阵与输入权重矩阵的行列数一致,初始输出权重矩阵的 行数和列数分别与初始输入权重矩阵的列数和行数一致。
具体的,根据上述评论文本得到该评论文本的初始矩阵的方式得到第二样 本评论集合中每一条评论文本ai(不包含目标评论词bj)的初始矩阵Xi,i为小 于或等于第二样本评论集合中包含的评论文本总数I的正整数,j为小于或等于 评论文本ai中包含的评论词总数的正整数,从而得到第二评论样本集合的初始 矩阵X=(X1,X2,…,XI)T,将第二评论样本集合的初始矩阵X与初始输入权重矩阵 W1相乘所得矩阵中的每一列元素值相加求平均,得到维数与初始输入权重矩阵 的列数(隐含层神经元个数)一致的隐含层向量,将该隐含层向量与初始输出 权重矩阵相乘,得到评论文本ai中目标评论词bj对应的输出向量,之后,通过 激活函数softmax将目标评论词bj对应的输出向量中的每个元素映射为0-1之间的实数,得到目标评论词bj的预测词向量,根据评论文本ai中目标评论词bj的 预测词向量和评论文本ai中目标评论词bj的初始词向量,对初始输入权重矩阵 和初始输出权重矩阵进行调整,当调整后的评论文本ai中目标评论词bj的预测 词向量和评论文本ai中目标评论词bj的初始词向量满足第一收敛条件,则将调 整后的初始输入权重矩阵确定为输入权重矩阵。示例性的,第一收敛条件为调 整后的评论文本ai中目标评论词bj的预测词向量中的每个元素值和评论文本ai中目标评论词bj的初始词向量中的每个元素值之间的误差绝对值均达到最小。
可以理解的,本申请实施例中根据第二评论样本集合以及第二样本评论集 合每一条评论文本中每个评论词的初始词向量训练得到输入权重矩阵的过程, 其实就是Word2vec模型中的连续词袋(Continuous bag of words,CBOW)模型, 即隐含层数量为1的神经网络模型,通过每一条评论文本中除目标评论词外的 其他评论词的初始词向量对目标评论词的词向量进行预测,得到目标评论词的 预测词向量,通过调整CBOW模型中的初始输入权重矩阵和初始输出权重矩阵, 不断减小目标评论词的预测词向量中的每个元素值与目标评论词的初始词向量 中的每个元素值之间的误差,当每个元素之间的误差值均达到最小时,则将此 时调整后的初始输入权重矩阵确定为输入权重矩阵。
之后,将评论文本的初始矩阵和包含预设值(隐含层神经元个数)个输入 权重列向量的输入权重矩阵相乘,得到评论文本的文本矩阵。可以理解的,辱 骂内容识别平台根据评论文本的初始矩阵和输入权重矩阵得到评论文本的文本 矩阵的实现过程,可以通过图3所示网络结构中的嵌入层,即Embedding Layer 实现,用于将评论文本中每个评论词的初始词向量的维度映射成维度为预设值 的向量。
之后,通过双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)模型对文本矩阵进行特征提取,得到第i个评论词的正向输出和反向 输出分别为hi’和hi,将hi’和hi中的对应元素相加得到第i个评论词的语义特征 向量,进而得到评论文本的语义特征矩阵。
可以理解的,辱骂内容识别平台根据评论文本的文本矩阵,提取得到评论 文本的语义特征矩阵的实现过程,可以通过图3所示网络结构中的双向长短期 记忆网络层,即Bi-lstm Layer实现,即通过Bi-LSTM模型提取每个评论词的上 下文特征,根据每个评论词的上下文特征得到每个评论词的语义特征向量,从 而得到评论文本的语义特征矩阵。
S103,根据评论文本的语义特征矩阵计算得到评论文本的辱骂概率。
具体的,将评论文本的语义特征矩阵输入辱骂倾向识别模型,得到目标评 论文本的辱骂概率。
其中,所述辱骂倾向识别模型是基于第三样本评论集合以及所述第三样本 评论集合中每一条评论文本对应的辱骂分类标签训练得到。
可选的,所述将所述评论文本的语义特征输入辱骂倾向识别模型,得到所 述评论文本的辱骂概率,包括:
根据所述评论文本的语义特征矩阵和第二权重向量得到第二文本特征向量, 其中,所述第二权重向量包括所述多个评论词中每个评论词的辱骂识别权重, 并且,所述第二权重向量中辱骂评论词所占的权重高于非辱骂评论词所占的权 重;
将所述第二文本特征向量转化为概率序列,得到所述评论文本的辱骂概率。
其中,第二权重向量为行数与步骤S102中评论文本的初始矩阵的行数一致 的列向量,并且,第二权重向量为辱骂倾向识别模型的模型参数。
具体的,辱骂内容识别平台将第二权重向量的转置向量与评论文本的语义 特征矩阵相乘,得到第二文本特征向量,并通过激活函数softmax将第二文本特 征向量中的元素映射为0-1之间的实数,得到评论文本对应的辱骂概率。
可以理解的,这里的辱骂倾向识别模型,即图3所示网络结构中的注意力 层,即Attention Layer,和输出层,其中,注意力层用于调整评论文本中每个评 论词的辱骂识别权重,调整每个评论词的辱骂识别权重的实现方式可以为提高 辱骂含义评论词的权重,降低无关词的权重,最终得到第二权重向量,这里, 得到第二权重向量的实现过程可以参考步骤S104中得到第一权重向量的描述, 此处不再赘述。之后,注意力层根据该第二权重向量对评论文本中的每个评论 词的语义特征向量进行加权求和,得到评论文本的总体特征,即评论文本的第 二文本特征向量。输出层用于将第二文本特征向量中的元素映射为0-1之间的实 数,即评论文本对应的辱骂概率。
S104,根据评论文本的语义特征矩阵和第一权重向量,得到评论文本的负 面情感概率。
具体的,辱骂内容识别平台根据所述评论文本的语义特征矩阵和第一权重 向量,得到所述评论文本的第一文本特征向量;将所述第一文本特征向量转化 为概率序列,得到所述评论文本的负面情感概率。
辱骂内容识别平台根据评论文本的语义特征矩阵和第一权重向量,得到评 论文本的第一文本特征向量。
其中,所述第一权重向量是基于第一样本评论集合以及所述第一样本评论 集合中每一条评论文本对应的情感分类标签训练得到,所述第一权重向量包括 所述多个评论词中每个评论词的情感分类权重。此外,每一条评论文本对应的 情感分类标签为正面情感标签或负面情感标签。
在执行步骤S104之前,辱骂内容识别平台根据第二样本评论集合以及所述 第二样本评论集合中每一条评论文本对应的情感分类标签训练得到第一权重向 量。
可选的,所述根据所述评论文本的语义特征矩阵和第一权重向量,得到所 述评论文本的第一文本特征向量之前,还包括:
提取第三样本评论集合中每一条评论文本的语义特征矩阵,得到所述第三 样本评论集合的语义特征矩阵;
根据所述第三样本评论集合的语义特征矩阵和第一初始权重向量,得到所 述第三样本评论集合的文本特征向量;
将所述第三样本评论集合的文本特征向量转化为概率序列,得到所述第三 样本评论集合中每一条评论文本的预测情感分类标签;
根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感 分类标签,对所述第一初始权重向量进行调整;
当所述第三样本评论集合中评论文本的预测情感分类标签和情感分类标签 满足第二收敛条件时,将所述调整后的第一初始权重向量确定为所述第一权重 向量。
具体的,根据步骤S102中提取评论文本的语义特征矩阵的方式,得到第三 样本评论集合中每一条评论文本的语义特征矩阵,进而得到第三样本评论集合 的语义特征矩阵,将第一初始权重向量和第三样本评论集合的语义特征矩阵相 乘,得到第三样本评论集合的文本特征向量。
进一步地,辱骂内容识别平台将第三样本评论集合的文本特征向量转化为 概率序列。
可选的,所述第三样本评论集合的文本特征向量包括第m个元素Xm,所述 m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数;
所述将所述第三样本评论集合的文本特征向量转化为概率序列,包括:
所述第m个元素Xm的概率值
Figure BDA0002613080260000131
其中,所述n为大于等于 1,并且小于等于所述M的正整数;
根据所述概率值Sm得到所述第三样本评论集合的文本特征向量中每一个 元素的概率值,根据所述每一个元素的概率值得到所述第三样本评论集合的文 本特征向量对应的概率序列。
其中,第三样本评论集合的文本特征向量中包含的元素个数为第三样本评 论集合中包含的评论文本总条数,并且,该文本特征向量中第m个元素Xm为第 三样本评论集合中第m条评论文本对应的文本特征,此外,该文本特征向量中 所有元素的概率值之间的和为1。
举例来说,第三样本评论集合的文本特征向量为(3,-1,2,5),则该文本特征 向量中的第1个元素3的概率值S1=e^3/(e^3+e^(-1)+e^2+e^5),根据该方式可 以计算该文本特征向量中第2、3和4个元素的概率值分别为S2、S3和S4,则第 三样本评论集合的文本特征向量对应的概率序列为S1、S2、S3和S4,即得到第三 样本评论集合中每一条评论文本的负面情感概率。
示例性的,若第i评论文本的负面情感概率大于等于预设阈值,如0.6,则 将第i条评论文本的预测情感分类标签确定为负面面情感标签,反之,则将第i 条评论文本的预测情感分类标签确定为正面情感标签。
之后,根据第三样本评论集合中每一条评论文本的预测情感分类标签和情 感分类标签,对第一初始权重向量进行调整,当调整后的第一初始权重向量满 足第二收敛条件时,将调整后的第一初始权重向量确定为所述第一权重向量, 示例性的,第二收敛条件为第三样本评论集合中,满足预测情感分类标签与情 感分类标签一致的评论文本条数,与第三样本评论集合中包含的评论文本的总 条数之间的比例,大于等于预设比例。
进一步地,辱骂内容识别平台将第一权重向量的转置向量与评论文本的语 义特征矩阵相乘,得到评论文本的第一文本特征向量。
可以理解的,根据评论文本的语义特征矩阵和第一权重向量得到评论文本 的第一文本特征向量的实现过程,可以通过图3所示网络结构中的注意力层实 现。
之后,辱骂内容识别平台将第一文本特征向量转化为概率序列,得到评论 文本的负面情感概率。
具体的,通过激活函数softmax将第一文本特征向量中的元素映射为0-1之 间的实数,得到评论文本的负面情感概率。
可以理解的,辱骂内容识别平台将第一文本特征向量转化为概率序列的实 现过程,可以通过图3所示网络结构中的输出层实现。
S105,根据辱骂概率以及负面情感概率,确定评论文本是否为辱骂评论文 本。
一种可能的实施方式中,若辱骂概率大于第一预设阈值,并且负面情感概 率大于第二预设阈值,则确定评论文本为辱骂评论文本。
举例来说,评论文本的辱骂概率0.7和负面情感概率0.6分别大于第一预设 阈值0.6和第二预设阈值0.5,则确定目标评论文本为辱骂评论文本。
另一种可能的实施方式中,按照辱骂概率和负面情感概率各自对应的预设 权重系数,对辱骂概率和负面情感概率进行加权计算,得到第一概率,若第一 概率大于预设阈值,则确定评论文本为辱骂评论文本。
举例来说,按照辱骂概率和负面情感概率各自对应的预设权重系数,即0.4 和0.6,对评论文本的辱骂概率0.7和负面情感概率0.6进行加权计算,得到第 一概率为0.4*0.7+0.6*0.6=0.64,大于预设阈值0.5,则确定评论文本为辱骂评论 文本。
在本申请实施例中,由于辱骂内容识别平台在识别评论文本是否为辱骂评 论文本时,除了根据评论文本的辱骂概率判断评论文本是否具有辱骂含义外, 还计算得到评论文本的负面情感概率,并根据评论文本的负面情感概率判断评 论文本是否具有负面情感,若该辱骂概率大于第一预设阈值,并且,该负面情 感概率大于第二预设阈值,则确定评论文本为辱骂评论文本,因此,采用本申 请可以有效避免对具有积极情感的文本内容的误判情况,提高辱骂内容的识别 准确率。
请参见图4,是本申请实施例提供的一种辱骂内容识别方法的流程示意图。 如图4所示,该方法实施例包括如下步骤:
S201,判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关 键字。
具体的,辱骂内容识别平台将评论文本中的第k个字与辱骂文本库中的辱 骂关键字进行对比,其中,k为小于或等于评论文本的总字数的正整数,若评论 文本中的第k个字与辱骂文本库中的任一辱骂关键字一致,则确定评论文本中 包含辱骂文本库中的辱骂关键字,则执行步骤S202。此外,若评论文本中的每 一个字与辱骂文本库中的任一辱骂关键字均不一致,则确定评论文本中不包含 辱骂文本库中的任一辱骂关键字,则执行步骤S210。
S202,提取评论文本的语义特征矩阵。
S203,根据评论文本的语义特征矩阵计算得到评论文本的辱骂概率。
这里,步骤S202-S203的具体实现方式可参考图2对应的实施例中步骤 S102-S103的描述,此处不再赘述。
S204,判断辱骂概率是否大于第一预设阈值。
具体的,若辱骂概率大于第一预设概率,则执行步骤S205,否则,执行步 骤S210。
S205,根据评论文本的语义特征矩阵和第一权重向量,得到评论文本的负 面情感概率。
这里,步骤S205的具体实现方式可参考图2对应的实施例中步骤S104的 描述,此处不再赘述。
S206,判断负面情感概率是否大于第二预设阈值。
具体的,若负面情感概率大于第二预设阈值,则执行步骤S207,否则,执 行步骤S209。
S207,确定评论文本为辱骂评论文本,辱骂评论文本携带辱骂评论文本对 应的用户账号。
S208,根据辱骂评论文本和用户账号生成上报消息,将上报消息发送至网 络管理平台。
具体的,辱骂内容识别平台根据辱骂评论文本和用户账号生成上报消息, 将上报消息发送至网络管理平台,网络管理平台在接收到上报消息后,对该用 户账号进行预设时长的禁言或者将该用户账号进行注销处理。
S209,发表评论文本。
在本申请实施例中,辱骂内容识别平台判断评论文本中是否包含任一辱骂 关键字,若不包含任一辱骂关键字,则发表该评论文本;若包含任一辱骂关键 字,则提取评论文本的语义特征矩阵,将该语义特征矩阵输入辱骂倾向识别模 型,得到评论文本对应的辱骂概率,若该辱骂概率小于等于第一预设阈值,则 发表评论文本;若该辱骂概率大于第一预设阈值,则根据评论文本的语义特征 矩阵和第一权重向量,得到评论文本的第一文本特征向量,将第一文本特征向 量转化为概率序列,得到评论文本对应的负面情感概率,若该负面情感概率小 于等于第二预设阈值,则发表评论文本;若该负面情感概率大于第二预设阈值, 则确定评论文本为辱骂评论文本。因此,采用本申请可以有效避免对具有积极 情感的文本内容的误判情况,提高辱骂内容的识别准确率。
基于上述方法实施例的描述,本申请实施例还提供了一种辱骂内容识别装 置,该辱骂内容识别装置可以是运行于计算机设备中的一个计算机程序(包括 程序代码),例如该辱骂内容识别装置为一个应用软件;该装置可以用于执行本 申请实施例提供的方法中的相应步骤。请参见图5,是本申请实施例提供的一种 辱骂内容识别装置的结构示意图。如图5所示,该辱骂内容识别装置5可以包 括:判断模块51、确定提取模块52、辱骂概率计算模块53、负面情感概率计算 模块54和确定模块55。
判断模块51,用于判断评论文本中的多个评论词是否包含辱骂文本库中的 任一辱骂关键字;
确定提取模块52,用于若所述评论文本包含所述任一辱骂关键字,则提取 所述评论文本的语义特征矩阵;
辱骂概率计算模块53,用于根据所述评论文本的语义特征矩阵得到所述评 论文本的辱骂概率;
负面情感概率计算模块54,用于根据所述评论文本的语义特征矩阵和第一 权重向量,得到所述评论文本的负面情感概率,其中,所述第一权重向量是基 于第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感 分类标签训练得到,所述第一权重向量包括所述多个评论词中每个评论词的情 感分类权重;
确定模块55,用于根据所述辱骂概率以及所述负面情感概率,确定所述评 论文本是否为辱骂评论文本。
可选的,所述负面情感概率计算模块54,具体用于:
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的 第一文本特征向量;
将所述第一文本特征向量转化为概率序列,得到所述评论文本的负面情感 概率。
可选的,所述确定提取模块52,包括:
第一初始矩阵确定单元521,用于根据所述评论文本中每个评论词在所述评 论文本中的出现顺序,对所述每个评论词的初始词向量进行排序,得到所述评 论文本的初始矩阵;
文本矩阵计算单元522,用于根据所述评论文本的初始矩阵和输入权重矩阵, 得到所述评论文本的文本矩阵,其中,所述输入权重矩阵包括预设长度个预先 训练的输入权重列向量;
特征提取单元523,用于对所述文本矩阵进行特征提取,得到所述评论文本 的语义特征矩阵。
可选的,所述确定提取模块52,还包括:
第二初始矩阵确定单元524,用于对第二样本评论集合中每一条评论文本中 每个评论词的初始词向量进行排序,得到所述每一条评论文本的初始矩阵,进 而得到所述第二样本评论集合的初始矩阵,其中,所述第二样本评论集合包括 评论文本ai,所述评论文本ai包括目标评论词bj,其中,i为小于或等于所述第 二样本评论集合对应的评论文本总数的正整数,j为小于或等于所述评论文本ai对应的评论词总数的正整数;
计算单元525,用于根据所述第二样本评论集合的初始矩阵、初始输入权重 矩阵以及初始输出权重矩阵得到所述评论文本ai中目标评论词bj对应的输出向 量,根据所述输出向量得到所述目标评论词bj的预测词向量;
调整权重矩阵单元526,用于根据所述目标评论词bj的预测词向量和所述目 标评论词bj的初始词向量,对所述初始输入权重矩阵和所述输出权重矩阵进行 调整;
输入权重矩阵确定单元527,用于当调整后的所述目标评论词bj的预测词向 量和所述目标评论词bj的初始词向量满足第一收敛条件时,则将调整后的初始 输入权重矩阵确定为所述输入权重矩阵。
可选的,所述辱骂概率计算模块53,包括:
计算第二文本特征单元531,用于根据所述评论文本的语义特征矩阵和第二 权重向量得到第二文本特征向量,其中,所述第二权重向量包括所述多个评论 词中每个评论词的辱骂识别权重,并且,所述第二权重向量中辱骂评论词所占 的权重高于非辱骂评论词所占的权重;
第二概率转化单元532,用于将所述第二文本特征向量转化为概率序列,得 到所述评论文本的辱骂概率。
可选的,所述装置还包括:权重向量确定模块56。
所述权重向量确定模块56,包括:
提取语义特征单元561,用于提取第三样本评论集合中每一条评论文本的语 义特征矩阵,得到所述第三样本评论集合的语义特征矩阵;
文本特征计算单元562,用于根据所述第三样本评论集合的语义特征矩阵和 第一初始权重向量,得到所述第三样本评论集合的文本特征向量;
预测情感标签确定单元563,用于将所述第三样本评论集合的文本特征向量 转化为概率序列,得到所述第三样本评论集合中每一条评论文本的预测情感分 类标签;
调整单元564,用于根据所述第三样本评论集合中每一条评论文本的预测情 感分类标签和情感分类标签,对所述第一初始权重向量进行调整;
第一权重向量确定单元565,用于当所述第三样本评论集合中评论文本的预 测情感分类标签和情感分类标签满足第二收敛条件时,将所述调整后的第一初 始权重向量确定为所述第一权重向量。
可选的,所述第三样本评论集合的文本特征向量包括第m个元素Xm,所述 m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数;
所述预测情感标签确定单元563,包括:
概率值计算子单元5631,用于计算所述第m个元素Xm的概率值
Figure BDA0002613080260000191
其中,所述n为大于等于1,并且小于等于所述M的正整数;
概率序列确定子单元5632,用于根据所述概率值Sm得到所述第三样本评 论集合的文本特征向量中每一个元素的概率值,根据所述每一个元素的概率值 得到所述第三样本评论集合的文本特征向量对应的概率序列。
可选的,所述辱骂评论文本携带所述辱骂评论文本对应的用户账号;
所述装置还包括:
生成发送模块57,用于根据所述辱骂评论文本和所述用户账号生成上报消 息,将所述上报消息发送至网络管理平台。
可以理解的,该辱骂内容识别装置5用于实现图2和图4实施例中辱骂内 容识别平台所执行的步骤。关于图5的辱骂内容识别装置5包括的功能块的具 体实现方式及相应的有益效果,可参考前述图2和图4的实施例的具体介绍, 这里不赘述。
上述图5所示实施例中的辱骂内容识别装置5可以以图6所示的服务器600 来实现,该辱骂内容识别装置可运行于服务器中。请参见图6,是本申请实施例 提供的一种服务器的结构示意图。如图6所示,上述辱骂内容识别装置600可 以包括:一个或多个处理器601、存储器602和收发器603。上述处理器601、 存储器602和收发器603通过总线604连接。其中,上述收发器603用于接收 或者发送数据,上述存储器602用于存储计算机程序,该计算机程序包括程序 指令;处理器601用于执行存储器602存储的程序指令,执行如下操作:
判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字;
若所述评论文本包含所述任一辱骂关键字,则提取所述评论文本的语义特 征矩阵;
根据所述评论文本的语义特征矩阵计算得到所述目标评论文本的辱骂概率;
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述目标评论文 本的负面情感概率,其中,所述第一权重向量是基于第二样本评论集合以及所 述第二样本评论集合中每一条评论文本对应的情感分类标签训练得到,所述第 一权重向量包括所述多个评论词中每个评论词的情感分类权重;
根据所述辱骂概率以及所述负面情感概率,确定所述评论文本是否为辱骂 评论文本。
可选的,上述处理器601根据所述评论文本的语义特征矩阵和第一权重向 量,得到所述评论文本的负面情感概率,具体执行以下操作:
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的 第一文本特征向量;
将所述第一文本特征向量转化为概率序列,得到所述评论文本的负面情感 概率。
可选的,上述处理器601提取所述评论文本的语义特征,具体执行以下操 作:
根据所述评论文本中每个评论词在所述评论文本中的出现顺序,对所述每 个评论词的初始词向量进行排序,得到所述评论文本的初始矩阵;
根据所述评论文本的初始矩阵和输入权重矩阵,得到所述评论文本的文本 矩阵,其中,所述输入权重矩阵包括预设长度个预先训练的输入权重列向量;
对所述文本矩阵进行特征提取,得到所述评论文本的语义特征矩阵。
可选的,上述处理器601根据所述评论文本的初始矩阵和输入权重矩阵, 得到所述评论文本的文本矩阵之前,具体执行以下操作:
对第二样本评论集合中每一条评论文本中每个评论词的初始词向量进行排 序,得到所述每一条评论文本的初始矩阵,进而得到所述第二样本评论集合的 初始矩阵,其中,所述第二样本评论集合包括评论文本ai,所述评论文本ai包括 目标评论词bj,其中,i为小于或等于所述第二样本评论集合对应的评论文本总 数的正整数,j为小于或等于所述评论文本ai对应的评论词总数的正整数;
根据所述第二样本评论集合的初始矩阵、初始输入权重矩阵以及初始输出 权重矩阵得到所述评论文本ai中目标评论词bj对应的输出向量,根据所述输出 向量得到所述目标评论词bj的预测词向量;
根据所述目标评论词bj的预测词向量和所述目标评论词bj的初始词向量, 对所述初始输入权重矩阵和所述输出权重矩阵进行调整;
当调整后的所述目标评论词bj的预测词向量和所述目标评论词bj的初始词 向量满足第一收敛条件时,则将调整后的初始输入权重矩阵确定为所述输入权 重矩阵。
可选的,上述处理器601根据所述评论文本的语义特征矩阵计算得到所述 评论文本的辱骂概率,具体执行以下操作:
根据所述评论文本的语义特征矩阵和第二权重向量得到第二文本特征向量, 其中,所述第二权重向量包括所述多个评论词中每个评论词的辱骂识别权重, 并且,所述第二权重向量中辱骂评论词所占的权重高于非辱骂评论词所占的权 重;
将所述第二文本特征向量转化为概率序列,得到所述评论文本的辱骂概率。
可选的,上述处理器601还执行以下操作:
提取第三样本评论集合中每一条评论文本的语义特征矩阵,得到所述第三 样本评论集合的语义特征矩阵;
根据所述第三样本评论集合的语义特征矩阵和第一初始权重向量,得到所 述第三样本评论集合的文本特征向量;
将所述第三样本评论集合的文本特征向量转化为概率序列,得到所述第三 样本评论集合中每一条评论文本的预测情感分类标签;
根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感 分类标签,对所述第一初始权重向量进行调整;其中,所述第三样本评论集合 的文本特征向量包括第m个元素Xm,所述m为小于或等于所述第三样本评论 集合对应的评论文本总数M的正整数;
当所述第三样本评论集合中评论文本的预测情感分类标签和情感分类标签 满足第二收敛条件时,将所述调整后的第一初始权重向量确定为所述第一权重 向量。
可选的,上述处理器601将所述第三样本评论集合的文本特征向量转化为 概率序列,具体执行以下操作:
计算所述第m个元素Xm的概率值
Figure BDA0002613080260000221
其中,所述n为大于 等于1,并且小于等于所述M的正整数;
根据所述概率值Sm得到所述第三样本评论集合的文本特征向量中每一个 元素的概率值,根据所述每一个元素的概率值得到所述第三样本评论集合的文 本特征向量对应的概率序列。
可选的,所述辱骂评论文本携带所述辱骂评论文本对应的用户账号;
上述处理器601还执行以下操作:
根据所述辱骂评论文本和所述用户账号生成上报消息,将所述上报消息发 送至网络管理平台。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介 质,且上述计算机可读存储介质中存储有前文提及的辱骂内容识别装置5所执 行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程 序指令时,能够执行前文图2或图4对应实施例中对上述辱骂内容识别方法的 描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述, 也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的 技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为 在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者, 在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地 点且通过通信网络互连的多个计算设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算 机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。 其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程 图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结 构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结 合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或 其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可 编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个 流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程 序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的 计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令 装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图 一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或 其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操 作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指 令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方 框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之 权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种辱骂内容识别方法,其特征在于,包括:
判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字;
若所述评论文本包含所述任一辱骂关键字,则提取所述评论文本的语义特征矩阵;
根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率;
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的负面情感概率,其中,所述第一权重向量是基于第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感分类标签训练得到,所述第一权重向量包括所述多个评论词中每个评论词的情感分类权重;
根据所述辱骂概率以及所述负面情感概率,确定所述评论文本是否为辱骂评论文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的负面情感概率,包括:
根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的第一文本特征向量;
将所述第一文本特征向量转化为概率序列,得到所述评论文本的负面情感概率。
3.根据权利要求1所述的方法,其特征在于,所述提取所述评论文本的语义特征矩阵,包括:
根据所述评论文本中每个评论词在所述评论文本中的出现顺序,对所述每个评论词的初始词向量进行排序,得到所述评论文本的初始矩阵;
根据所述评论文本的初始矩阵和输入权重矩阵,得到所述评论文本的文本矩阵,其中,所述输入权重矩阵包括预设长度个预先训练的输入权重列向量;
对所述文本矩阵进行特征提取,得到所述评论文本的语义特征矩阵。
4.根据权利要求3所述的方法,所述根据所述评论文本的初始矩阵和输入权重矩阵,得到所述文本的文本矩阵之前,包括:
对第二样本评论集合中每一条评论文本中每个评论词的初始词向量进行排序,得到所述每一条评论文本的初始矩阵,进而得到所述第二样本评论集合的初始矩阵,其中,所述第二样本评论集合包括评论文本ai,所述评论文本ai包括目标评论词bj,其中,i为小于或等于所述第二样本评论集合对应的评论文本总数的正整数,j为小于或等于所述评论文本ai对应的评论词总数的正整数;
根据所述第二样本评论集合的初始矩阵、初始输入权重矩阵以及初始输出权重矩阵得到所述评论文本ai中目标评论词bj对应的输出向量,根据所述输出向量得到所述目标评论词bj的预测词向量;
根据所述目标评论词bj的预测词向量和所述目标评论词bj的初始词向量,对所述初始输入权重矩阵和所述输出权重矩阵进行调整;
当调整后的所述目标评论词bj的预测词向量和所述目标评论词bj的初始词向量满足第一收敛条件时,则将调整后的初始输入权重矩阵确定为所述输入权重矩阵。
5.根据权利要求1所述的方法,其特征在于,所述根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率,包括:
根据所述评论文本的语义特征矩阵和第二权重向量得到第二文本特征向量,其中,所述第二权重向量包括所述多个评论词中每个评论词的辱骂识别权重,并且,所述第二权重向量中辱骂评论词所占的权重高于非辱骂评论词所占的权重;
将所述第二文本特征向量转化为概率序列,得到所述评论文本的辱骂概率。
6.根据权利要求1所述的方法,其特征在于,所述根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的第一文本特征向量之前,还包括:
提取第三样本评论集合中每一条评论文本的语义特征矩阵,得到所述第三样本评论集合的语义特征矩阵;
根据所述第三样本评论集合的语义特征矩阵和第一初始权重向量,得到所述第三样本评论集合的文本特征向量;
将所述第三样本评论集合的文本特征向量转化为概率序列,得到所述第三样本评论集合中每一条评论文本的预测情感分类标签;
根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感分类标签,对所述第一初始权重向量进行调整;
当所述第三样本评论集合中评论文本的预测情感分类标签和情感分类标签满足第二收敛条件时,将所述调整后的第一初始权重向量确定为所述第一权重向量。
7.根据权利要求6所述的方法,其特征在于,所述第三样本评论集合的文本特征向量包括第m个元素Xm,所述m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数;
所述将所述第三样本评论集合的文本特征向量转化为概率序列,包括:
计算所述第m个元素Xm的概率值
Figure FDA0002613080250000031
其中,所述n为大于等于1,并且小于等于所述M的整数;
根据所述概率值Sm得到所述第三样本评论集合的文本特征向量中每一个元素的概率值,根据所述每一个元素的概率值得到所述第三样本评论集合的文本特征向量对应的概率序列。
8.根据权利要求1所述的方法,其特征在于,所述辱骂评论文本携带所述辱骂评论文本对应的用户账号;
所述确定所述评论文本为辱骂评论文本之后,还包括:
根据所述辱骂评论文本和所述用户账号生成上报消息,将所述上报消息发送至网络管理平台。
9.一种辱骂内容识别装置,其特征在于,包括:
判断模块,用于判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字;
确定提取模块,用于若所述评论文本包含所述任一辱骂关键字,则提取所述评论文本的语义特征矩阵;
辱骂概率计算模块,用于根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率;
负面情感概率计算模块,用于根据所述评论文本的语义特征矩阵和第一权重向量,得到所述评论文本的负面情感概率,其中,所述第一权重向量是基于第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感分类标签训练得到,所述第一权重向量包括所述多个评论词中每个评论词的情感分类权重;
确定模块,用于根据所述辱骂概率以及所述负面情感概率,确定所述评论文本是否为辱骂评论文本。
10.一种服务器,其特征在于,包括处理器、存储器和收发器,所述处理器、存储器和收发器相互连接,其中,所述收发器用于接收或发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1-8任一项所述的辱骂内容识别方法。
CN202010761006.6A 2020-07-31 2020-07-31 一种辱骂内容识别方法及装置、服务器 Pending CN111930941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010761006.6A CN111930941A (zh) 2020-07-31 2020-07-31 一种辱骂内容识别方法及装置、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010761006.6A CN111930941A (zh) 2020-07-31 2020-07-31 一种辱骂内容识别方法及装置、服务器

Publications (1)

Publication Number Publication Date
CN111930941A true CN111930941A (zh) 2020-11-13

Family

ID=73315944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010761006.6A Pending CN111930941A (zh) 2020-07-31 2020-07-31 一种辱骂内容识别方法及装置、服务器

Country Status (1)

Country Link
CN (1) CN111930941A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112649034A (zh) * 2020-12-28 2021-04-13 精英数智科技股份有限公司 一种煤矿井下传感器调校状态的识别方法及装置
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN110175325A (zh) * 2019-04-26 2019-08-27 南京邮电大学 基于词向量和句法特征的评论分析方法及可视化交互界面
CN110866398A (zh) * 2020-01-07 2020-03-06 腾讯科技(深圳)有限公司 评论文本处理方法、装置、存储介质和计算机设备
CN111291187A (zh) * 2020-01-22 2020-06-16 北京芯盾时代科技有限公司 一种情感分析方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN110175325A (zh) * 2019-04-26 2019-08-27 南京邮电大学 基于词向量和句法特征的评论分析方法及可视化交互界面
CN110866398A (zh) * 2020-01-07 2020-03-06 腾讯科技(深圳)有限公司 评论文本处理方法、装置、存储介质和计算机设备
CN111291187A (zh) * 2020-01-22 2020-06-16 北京芯盾时代科技有限公司 一种情感分析方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112649034A (zh) * 2020-12-28 2021-04-13 精英数智科技股份有限公司 一种煤矿井下传感器调校状态的识别方法及装置
CN112649034B (zh) * 2020-12-28 2023-09-19 精英数智科技股份有限公司 一种煤矿井下传感器调校状态的识别方法及装置
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台
CN115879901B (zh) * 2023-02-22 2023-07-28 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台

Similar Documents

Publication Publication Date Title
CN108446374B (zh) 用户意图预测方法、装置、电子设备、存储介质
CN108763535B (zh) 信息获取方法及装置
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
WO2018033030A1 (zh) 自然语言文句库的生成方法及装置
CN111291549B (zh) 文本处理方法、装置、存储介质和电子设备
CN110019793A (zh) 一种文本语义编码方法及装置
US11010664B2 (en) Augmenting neural networks with hierarchical external memory
CN108388608B (zh) 基于文本感知的情感反馈方法、装置、计算机设备和存储介质
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN111858854B (zh) 一种基于历史对话信息的问答匹配方法及相关装置
US11947920B2 (en) Man-machine dialogue method and system, computer device and medium
CN111930941A (zh) 一种辱骂内容识别方法及装置、服务器
CN113283238A (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN110968697A (zh) 文本分类方法、装置、设备及可读存储介质
CN112487794A (zh) 行业分类方法、装置、终端设备及存储介质
CN113158687A (zh) 语义的消歧方法及装置、存储介质、电子装置
CN110609958A (zh) 数据推送方法、装置、电子设备及存储介质
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN112182126A (zh) 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质
CN116401522A (zh) 一种金融服务动态化推荐方法和装置
CN116244442A (zh) 文本分类方法、装置、存储介质及电子设备
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN115906861A (zh) 基于交互方面信息融合的语句情感分析方法以及装置
CN115238077A (zh) 基于人工智能的文本分析方法、装置、设备及存储介质
CN111310460B (zh) 语句的调整方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination