CN111966944A

CN111966944A - 一种多层级用户评论安全审核的模型构建方法

Info

Publication number: CN111966944A
Application number: CN202010825591.1A
Authority: CN
Inventors: 常兵; 印忠文; 晏玉珽; 曹扬
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-20
Anticipated expiration: 2040-08-17
Also published as: CN111966944B

Abstract

本发明提供了一种多层级用户评论安全审核的模型构建方法，包括如下步骤：①构建词库：基于数据采集技术获取用户评论数据集；②构建正负样本：从用户评论数据集中构建评论正样本和评论负样本作为样本数据；③迭代优化：切分样本数据为训练集和测试集，以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型；④输出审核结果。本发明采用敏感词库、情感极性分析、协同训练的多层级评论审核的方法，为用户评论内容的检测提供了新思路；基于敏感因子权重对敏感词库进行层级划分和评论检测，避免了传统敏感词过滤一次性匹配所带来的漏判和误判，有效提升了评论审核的精确率。

Description

一种多层级用户评论安全审核的模型构建方法

技术领域

本发明涉及一种多层级用户评论安全审核的模型构建方法。

背景技术

用户评论一般为社会大众对某新闻事件或消费者对特定产品/商品的评价，该数据是用户态度、问题、建议的载体，对媒体和产品评估和改进优化具有很大的参考价值。但用户评论数据多为非正式的文本、图像信息，其内容可能存在诸多垃圾信息(如言语辱骂、涉黄、低质灌水、暴力血腥等)，同时随着互联网技术的迅速发展，用户对媒体新闻和商品网络点评、互动逐渐增强，综合上述等因素，网络评论数据的暴增使得媒体和商家在利用用户评论的辅助决策的同时也饱受评论内容安全检测、信息过载等的困扰。因此，如何高效、准确、全面地检测用户评论内容，对净化网络环境、规范网络发文信息、舆论舆情监管分析等具有重要意义。

用户评论数据多为非正式的文本、图像信息，其具有口语化、多样化、隐晦性等特点，当前的检测方法普遍效果不佳或者不具备通用性，同时人工审核面临工作量大、成本高等问题。同时，传统的敏感词库匹配方法很难及时、高效地应对网络用语的更新变化。

发明内容

为解决上述技术问题，本发明提供了一种多层级用户评论安全审核的模型构建方法，该多层级用户评论安全审核的模型构建方法能够有效地节省人工标注数据工作，同时采用多方法融合的技术对用户评论进行多层次的审核检测，有效提高了用户评论内容审核的准确性和可靠性。

本发明通过以下技术方案得以实现。

本发明提供的一种多层级用户评论安全审核的模型构建方法，包括如下步骤：

①构建词库：基于数据采集技术获取用户评论数据集；

②构建正负样本：从用户评论数据集中构建评论正样本和评论负样本作为样本数据；

③迭代优化：切分样本数据为训练集和测试集，以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型；

④输出审核结果：输出最终所检测的审核结果，同时将错误预测的结果用于优化敏感词词典。

所述步骤①中，基于用户评论数据集构建评论内容安全审核的特征库和模型训练样本，步骤②中构建的评论正样本和评论负样本叠加至模型训练样本中作为样本数据。

所述步骤②包括如下步骤：

L1.构建敏感词库：构建多种类别、多种敏感因子的多层级敏感词库；

L2.基于敏感因子的评论检测：根据不同类别和不同敏感因子权重的敏感词库的语义相似度匹配结果，对用户评论数据集进行不同层次的检测审核；

L3.构建评论情感分析模型：结合用户评论数据集和情感极性词库，进行评论情感分析模型的训练，情感极性包含的类别有“正向”、“负向”和“中性”；

L4.对基于敏感因子的评论检测结果进行情感极性分析：对不同层次的评论审核结果进行情感极性分析。

L5.构建用户评论正负样本：结合敏感因子的检测结果和评论情感极性分析结果，构建用于模型训练的评论正负样本；。

所述步骤③包括如下步骤：

N1.用户评论审核模型协同训练：切分样本数据，进行数据特征工程并构建特征库，采用多个分类器进行协同训练，进行样本标签预测，对比修正和迭代优化模型，获得用户评论审核模型；

N2.加载用户评论审核模型：加载已训练好的用户评论审核模型；

N3.模型预测：结合已训练好的模型，对待测样本进行预测，获取高置信度的数据，依据预测结果对模型进行迭代优化。

所述特征库包括敏感词库、词向量库、谐音库、拼音库。

所述步骤①之后，还包括如下步骤：

数据预处理：对用户评论数据集进行清洗与过滤、字符映射、繁简转换等预处理操作。

所述步骤L4包括如下步骤：

L4.1-结合多种类别和敏感词权重影响因子，采用DFA算法进行不同层次的语义相似度匹配；

L4.2-判断一级筛选中评论内容是否存在一级权重影响因子的敏感信息，若有，则将其判断为敏感评论；否则进行二级筛选；

L4.3-判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息，若有，则将其标记为疑似敏感评论；否则将其标记为正常评论，进入步骤N3的模型预测；

L4.4-在步骤L4.3的基础上，依据敏感类别进行多词汇组合的敏感检测，若同时存在多级敏感组合词则为“敏感信息”，否则为“疑似敏感”，同时动态地设定情感分析的阈值sa_threshold，对疑似敏感评论进行情感极性分析，将情感分析为负向且分值小于sa_threshold的评论内容判断为敏感评论。。

所述步骤N2包括如下步骤：

N2.1-切分S7所构造的正负样本数据集，平均分成n份；

N2.2-对切分的数据集进行数据特征工程并构建特征库；

N2.3-结合不同分类器将不同的训练样本进行向量化表示；

N2.4-在N2.2和N2.3的基础上，构建n个差异性较大的分类器，结合分类器特点分别选用对应的文本向量化表示，训练得到初步训练好的n个分类器；

N2.5-利用N2.4中已训练好的分类器Cn对未标注的数据集进行协同训练，依据各分类器所预测的结果，输出置信度比较高的样本数据，将其添加到样本数据中，用于修正样本数据和迭代优化模型；

N2.6-基于数据集和场景功能设定终止条件如迭代次数、优化阈值，判断是否达到终止条件，若否，则重复上述N2.1～N2.5，若是，则保存最终的分类模型。

本发明的有益效果在于：采用敏感词库、情感极性分析、协同训练的多层级评论审核的方法，为用户评论内容的检测提供了新思路；基于敏感因子权重对敏感词库进行层级划分和评论检测，避免了传统敏感词过滤一次性匹配所带来的漏判和误判，有效提升了评论审核的精确率；采用协同训练的思想多种文本向量表示算分，构建多个差异性较大的分类器，不断地进行训练，实现对未标注数据的自动化标注和分类模型的迭代优化；采用基于敏感因子和情感极性分析的方法构建用户评论正负样本数据集，减少了人工标注的成本；结合用户评论内容审核结果优化敏感词词库，有效确保了敏感词词典应对网络用语更新变化的及时性和完备性；采用DFA算法进行敏感词匹配，有效减少了算法的时间复杂度，提升了算法的审核效率。

附图说明

图1是本发明的流程示意图；

图2是图1中用户评论内容审核模型协同训练步骤的流程示意图；

图3是本发明在使用时单次用户评论审核过滤的流程图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1所示的一种多层级用户评论安全审核的模型构建与应用方法，包括以下步骤：

S1获取用户评论数据集：结合数据采集技术从新闻媒体、电商、社交等网站获取用户评论数据集，该数据集用于构建评论内容安全审核的特征库和模型训练样本；

S2数据预处理：对用户评论数据集进行清洗与过滤、字符映射、繁简转换等预处理操作；

S3构建敏感词库：构建不同类别、不同敏感因子的多层级敏感词库；

S4基于敏感因子的评论检测：根据不同类别和不同敏感因子权重的敏感词库的语义相似度匹配结果，对用户评论数据集进行不同层次的检测审核；

S5构建评论情感分析模型：结合用户评论数据集和情感极性词库，进行评论情感分析模型的训练，情感极性包含的类别有“正向”、“负向”和“中性”；

S6对基于敏感因子的评论检测结果进行情感极性分析：对不同层次的评论审核结果进行情感极性分析。

S7构建用户评论正负样本：结合敏感因子的检测结果和评论情感极性分析结果，构建用于模型训练的评论正负样本；

S8用户评论审核模型协同训练：切分样本数据，进行数据特征工程并构建特征库，采用多个分类器进行协同训练，进行样本标签预测，对比修正和迭代优化模型，获得用户评论审核模型；

S9加载用户评论审核模型：加载已训练好的用户评论审核模型；

S10模型预测：结合已训练好的模型，对待测样本进行预测，获取高置信度的数据，依据预测结果对模型进行迭代优化；

S11输出用户评论内容审核结果：输出最终所检测的审核结果，同时将错误预测的结果用于优化敏感词词典。

步骤S1中的特征库从字符及、词语级和句子级包括但不限于敏感词库、词向量库、谐音库、拼音库等；

步骤S2中，针对用户评论数据中存在的诸多特殊字符，通过匹配删除、字符转换(如字符映射、繁简转换)完成评论数据的规整。

步骤S3中，在通用敏感词库基础上针对特定场景下评论数据的特点，构建不同类别、不同敏感因子权重的多层级敏感词库。

的多层级敏感词库分别从类别(如言语辱骂、涉黄、涉政、广告或垃圾信息等)和敏感因子(如敏感、疑似敏感、多词汇限定的敏感度等)的层级划分和构建。

步骤S4分为以下步骤：

(S4.1)在步骤S3基础上，结合不同的类别和敏感词权重影响因子，采用DFA算法进行不同层次的语义相似度匹配；

(S4.2)判断一级筛选中评论内容是否存在一级权重影响因子的敏感信息，若有，则将其判断为敏感评论；否则进行二级筛选；

(S4.3)判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息，若有，则将其标记为疑似敏感评论；否则将其标记为正常评论，进入步骤S10的模型预测；

(S4.4)在(S4.3)的基础上，依据敏感类别进行多词汇组合的敏感检测，若同时存在多级敏感组合词则为“敏感信息”，否则为“疑似敏感”，同时动态地设定情感分析的阈值sa_threshold，对疑似敏感评论进行情感极性分析，将情感分析为负向且分值小于sa_threshold的评论内容判断为敏感评论。

步骤S5中，结合用户评论数据(表情、情感特征项)和情感极性词库进行的情感分析模型训练，极性分析的类别为“正向”、“负向”、“中性”，置信度值采用0～1进行表示，其值越接近于1表示为正向的概率越大，越接近于0表示为负向的概率越大，接近0.5的代表为中性。

步骤S6中，首先对步骤S4的检测结果进行标签化，主要分为敏感评论、疑似敏感评论和正常评论；其次调用步骤S5中训练的情感分析模型对标签化的结果进行情感极性分析。

步骤S7中，依据步骤S6的结果构建评论检测正负样本的初始数据集，具体步骤如下：

(S7.1)采用包括但不限于统计法、主观法的方法设定情感负向筛选阈值sa_neg_threshold，将S6中标签为“敏感评论”且情感极性值小于sa_neg_threshold评论标注为负样本；

(S7.2)采用包括但不限于统计法、主观法的方法设定情感正向筛选阈值sa_pos_threshold，将S6中标签为“正常评论”的用户评论且情感极性值大于sa_pos_threshold评论标注为正样本。

如图2所示，步骤S8主要分为以下步骤：

(S8.1)切分S7所构造的正负样本数据集，平均分成n份；

(S8.2)对切分的数据集进行数据特征工程并构建特征库；

(S8.3)结合不同分类器将不同的训练样本进行向量化表示；

(S8.4)在(S8.2)和(S8.3)的基础上，构建n个差异性较大的分类器，结合分类器特点分别选用对应的文本向量化表示，训练得到初步训练好的n个分类器；

(S8.5)利用(S8.4)中已训练好的分类器Cn对未标注的数据集进行协同训练，依据各分类器所预测的结果，输出置信度比较高的样本数据，将其添加到样本数据中，用于修正样本数据和迭代优化模型；

(S8.6)基于数据集和场景功能设定终止条件(如迭代次数、优化阈值)，判断是否达到终止条件，若否，则重复上述(S8.1)～(S8.5)，若是，则保存最终的分类模型。

步骤S9中，加载S8中训练好的评论审核模型。

步骤S10中，结合已训练好的模型，对待测样本进行预测，从每一条预测结果中分别挑选最大置信度对应的数据作为当前数据的最终预测结果，依据预测结果对训练模型进行迭代优化。

步骤S11中，输出最终所检测的审核结果，同时将预测错误的结果用于优化敏感词词典。

步骤S4中的情感分析阈值sa_threshold需依据不同的敏感类别(如“辱骂”、“赌博”等)进行动态地调整，S7中的情感负向筛选阈值sa_neg_threshold和情感正向筛选阈值sa_pos_threshold可依据特定场景的评论数据集进行设置。

步骤S8中，采用包括但不限于TF-DIF、word2vec、Bert进行文本向量化，包括但不限于多项式朴素贝叶斯、SVM、lightgbm分类器进行协同训练。

新闻媒体网站中的评论通常是针对当下热点新闻的评论，通常会夹杂着一些“言语辱骂”、“涉黄”、“低质灌水”等垃圾信息，这些内容严重影响了媒体新闻的质量和网络环境。因此，本发明采用敏感因子词库、情感极性分析、评论内容审核模型协调训练等方法对评论内容进行多层级审核，同时采用协调训练的思想进行数据自动化标注和训练模型迭代优化，进而提升了评论内容审核的精确度、节省了人工标注样本数据的成本。

实施例1

采用上述方案，包含如下步骤：

(1)获取用户评论数据集和预处理：

执行S1步骤，本实施例结合数据采集技术从新闻网站抓取评论的发布日期、URL、评论发布者的昵称、评论内容、点赞数等内容。

执行S2步骤，针对用户评论数据中存在的诸多非法字符和无效信息(如@、#、：、【】、等)，采用正则表达式、分词、去停用词等方法对评论内容进行清洗、筛选，同时采用字符映射、繁简转换等方法对内容进行处理，进而完成评论内容的规整。如“回复@yoyo: 一切平安14天”，预处理后的内容为“一切平安14天”。具体数据预处理操作可结合实际处理语料特点而定。

(2)基于敏感因子的评论检测：

执行S3步骤，本实施例中结合已有的通用敏感词库和新闻媒体的评论数据，构建的敏感词库类别有“言语辱骂”、“涉黄”、“赌博”、“涉政”等，具体需要审核的类别可根据实际业务场景和需求而定。本实施例采用但不限于频次统计法、关键语义映射分析法设定相应的敏感因子，如“白痴、走狗”的敏感因子要高于“垃圾、猪头”等词汇。

本实施例中，结合用户评论数据(表情、情感特征项)和情感极性词库进行情感特征工程构建、特征选择、模型训练，极性分析的类别为“正向”、“负向”、“中性”，置信度值采用0～1进行表示，其值越接近于1表示为正向的概率越大，越接近于0表示为负向的概率越大，接近0.5的代表为中性。

依据上面步骤中所构建的敏感词库和构建的情感分析模型，执行S4步骤，具体步骤如下：

(S4.1)在步骤S3基础上，结合不同类别和敏感词权重影响因子，采用DFA算法进行不同层次的语义相似度匹配；

(S4.3)判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息，若有，则将其判断为疑似敏感评论；否则进入步骤S10的模型预测；

(S4.4)依据敏感类别进行多词汇组合的敏感检测，若评论中存在多级敏感组合词则为“敏感信息”，否则为“疑似敏感”，同时动态地设定情感分析的阈值sa_threshold，本实施例中依据不同的敏感类别采用关键语义映射分析法来动态设定sa_threshold，如“辱骂”类别中sa_threshold为0.35，而“赌博”中sa_threshold为0.2,其中情感极性分析值分布为0～1，大于0.55的为正向，小于0.45的为负向，大于等于0.45且小于等于0.55的为中性。若(S4.3)中的疑似敏感评论的情感极性值小于sa_threshold,则将其判断为敏感评论。

(3)用户评论审核模型训练：

为节省人工标注的成本，本发明采用敏感因子检测和情感极性分析的方法进行正负样本的自动化标注，人工修正为辅，同时采用协同训练的思想进行样本数据的修正、补充和模型训练的迭代优化。

执行步骤S6和S7，构建模型训练的正负样本：1)首先对步骤S4的检测结果进行标签化，主要分为敏感评论、疑似敏感评论、正常评论；2)其次对筛选的结果进行情感极性分析；3)为提升正负样本的差异性，然后将标签为“敏感评论”且情感极性值小于0.4的标注为负样本，将标签为“正常评论”且情感极性值大于0.65的标注为正样本。

基于S7构建的初始正负样本，执行步骤S8，主要分为以下步骤：

(S8.1)切分正负样本数据集，平均分成4份；

(S8.2)本实施例中依据词性、词性组合、句子长度、情感极性等进行数据特征工程并构建特征库，如名词n开头“ng、nl、nr、ns”。上述提取的特征仅为本实施例所采用，但并不局限于此，具体特征提取可结合实际处理语料和场景功能特点而定；

(S8.3)本实施例采用TF-IDF、Word2vec和Bert进行向量化表示。

(S8.4)在(S8.3)基础上，本实施例中采用多项式朴素贝叶斯、SVM、lightgbm分类器构造了TF-DIF+多项式朴素贝叶斯、Word2vec+SVM、Word2vec+lightgbm、Bert+lightgbm4个差异性较大的分类器；

(S8.5)基于(S8.4)所构造的分类器模，结合已标注的数据和未标注数据进行协调训练，首先在已标注样本数据上分别进行训练得到基线模型C1,C2,C3,C4，然后采用C1,C2,C3,C4分别对未标注数据进行预测，依据各分类器所预测的结果，输出置信度较高和较低的样本，分别将置信度较高的样本添加到已标注样本和置信度较低的添加到未标注数据中，用于修正样本数据和迭代优化分类模型；

(S8.6)设定预设迭代次数和优化阈值，判断是否达到终止条件，若否，则重复上述(S8.1)～(S8.5)，若是，则保存最终的分类模型。

(3)待审核用户评论过滤

结合上述步骤，如图3所示，对于待审核的用户评论过滤的步骤主要如下：

(3.1)基于构造的敏感词库，首先进行基于敏感因子权重的一级筛选，判断是否含有一级敏感词汇信息，若有则直接过滤该条评论，若无则进行基于敏感因子权重的二级筛选；

(3.2)结合基于敏感因子权重的二级筛选结果判断是否含有二级敏感信息，若有则进行情感极性分析，若无则保留该条评论；

(3.3)判断评论内容是否为负向评论，若是则依据敏感类别动态设定sa_threshold，判断是否小于设定的阈值sa_threshold，若是则过滤该条评论，若否则加载S8中保存的用户评论审核模型；

(3.4)基于加载的模型，进行用户评论预测，判断是否为垃圾评论，若是则过滤该条评论，若否则保留该条评论。

Claims

1.一种多层级用户评论安全审核的模型构建方法，其特征在于：包括如下步骤：

①构建词库：基于数据采集技术获取用户评论数据集；

2.如权利要求1所述的多层级用户评论安全审核的模型构建方法，其特征在于：所述步骤①中，基于用户评论数据集构建评论内容安全审核的特征库和模型训练样本，步骤②中构建的评论正样本和评论负样本叠加至模型训练样本中作为样本数据。

3.如权利要求1所述的多层级用户评论安全审核的模型构建方法，其特征在于：所述步骤②包括如下步骤：

L5.构建用户评论正负样本：结合敏感因子的检测结果和评论情感极性分析结果，构建用于模型训练的评论正负样本。

4.如权利要求1所述的多层级用户评论安全审核的模型构建方法，其特征在于：所述步骤③包括如下步骤：

5.如权利要求2所述的多层级用户评论安全审核的模型构建方法，其特征在于：所述特征库包括敏感词库、词向量库、谐音库、拼音库。

6.如权利要求1所述的多层级用户评论安全审核的模型构建方法，其特征在于：所述步骤①之后，还包括如下步骤：

7.如权利要求3所述的多层级用户评论安全审核的模型构建方法，其特征在于：所述步骤L4包括如下步骤：

L4.4-在步骤L4.3的基础上，依据敏感类别进行多词汇组合的敏感检测，若同时存在多级敏感组合词则为“敏感信息”，否则为“疑似敏感”，同时动态地设定情感分析的阈值sa_threshold，对疑似敏感评论进行情感极性分析，将情感分析为负向且分值小于sa_threshold的评论内容判断为敏感评论。

8.如权利要求4所述的多层级用户评论安全审核的模型构建方法，其特征在于：所述步骤N2包括如下步骤：

N2.1-切分S7所构造的正负样本数据集，平均分成n份；

N2.2-对切分的数据集进行数据特征工程并构建特征库；

N2.3-结合不同分类器将不同的训练样本进行向量化表示；