CN111966944A - 一种多层级用户评论安全审核的模型构建方法 - Google Patents
一种多层级用户评论安全审核的模型构建方法 Download PDFInfo
- Publication number
- CN111966944A CN111966944A CN202010825591.1A CN202010825591A CN111966944A CN 111966944 A CN111966944 A CN 111966944A CN 202010825591 A CN202010825591 A CN 202010825591A CN 111966944 A CN111966944 A CN 111966944A
- Authority
- CN
- China
- Prior art keywords
- comment
- sensitive
- model
- sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012550 audit Methods 0.000 title claims abstract description 21
- 238000010276 construction Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 56
- 230000008451 emotion Effects 0.000 claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 3
- 238000012552 review Methods 0.000 claims description 23
- 238000012216 screening Methods 0.000 claims description 19
- 230000007935 neutral effect Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 4
- 208000001613 Gambling Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002262 irrigation Effects 0.000 description 2
- 238000003973 irrigation Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000011896 sensitive detection Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种多层级用户评论安全审核的模型构建方法,包括如下步骤:①构建词库:基于数据采集技术获取用户评论数据集;②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;④输出审核结果。本发明采用敏感词库、情感极性分析、协同训练的多层级评论审核的方法,为用户评论内容的检测提供了新思路;基于敏感因子权重对敏感词库进行层级划分和评论检测,避免了传统敏感词过滤一次性匹配所带来的漏判和误判,有效提升了评论审核的精确率。
Description
技术领域
本发明涉及一种多层级用户评论安全审核的模型构建方法。
背景技术
用户评论一般为社会大众对某新闻事件或消费者对特定产品/商品的评价,该数据是用户态度、问题、建议的载体,对媒体和产品评估和改进优化具有很大的参考价值。但用户评论数据多为非正式的文本、图像信息,其内容可能存在诸多垃圾信息(如言语辱骂、涉黄、低质灌水、暴力血腥等),同时随着互联网技术的迅速发展,用户对媒体新闻和商品网络点评、互动逐渐增强,综合上述等因素,网络评论数据的暴增使得媒体和商家在利用用户评论的辅助决策的同时也饱受评论内容安全检测、信息过载等的困扰。因此,如何高效、准确、全面地检测用户评论内容,对净化网络环境、规范网络发文信息、舆论舆情监管分析等具有重要意义。
用户评论数据多为非正式的文本、图像信息,其具有口语化、多样化、隐晦性等特点,当前的检测方法普遍效果不佳或者不具备通用性,同时人工审核面临工作量大、成本高等问题。同时,传统的敏感词库匹配方法很难及时、高效地应对网络用语的更新变化。
发明内容
为解决上述技术问题,本发明提供了一种多层级用户评论安全审核的模型构建方法,该多层级用户评论安全审核的模型构建方法能够有效地节省人工标注数据工作,同时采用多方法融合的技术对用户评论进行多层次的审核检测,有效提高了用户评论内容审核的准确性和可靠性。
本发明通过以下技术方案得以实现。
本发明提供的一种多层级用户评论安全审核的模型构建方法,包括如下步骤:
①构建词库:基于数据采集技术获取用户评论数据集;
②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;
③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;
④输出审核结果:输出最终所检测的审核结果,同时将错误预测的结果用于优化敏感词词典。
所述步骤①中,基于用户评论数据集构建评论内容安全审核的特征库和模型训练样本,步骤②中构建的评论正样本和评论负样本叠加至模型训练样本中作为样本数据。
所述步骤②包括如下步骤:
L1.构建敏感词库:构建多种类别、多种敏感因子的多层级敏感词库;
L2.基于敏感因子的评论检测:根据不同类别和不同敏感因子权重的敏感词库的语义相似度匹配结果,对用户评论数据集进行不同层次的检测审核;
L3.构建评论情感分析模型:结合用户评论数据集和情感极性词库,进行评论情感分析模型的训练,情感极性包含的类别有“正向”、“负向”和“中性”;
L4.对基于敏感因子的评论检测结果进行情感极性分析:对不同层次的评论审核结果进行情感极性分析。
L5.构建用户评论正负样本:结合敏感因子的检测结果和评论情感极性分析结果,构建用于模型训练的评论正负样本;。
所述步骤③包括如下步骤:
N1.用户评论审核模型协同训练:切分样本数据,进行数据特征工程并构建特征库,采用多个分类器进行协同训练,进行样本标签预测,对比修正和迭代优化模型,获得用户评论审核模型;
N2.加载用户评论审核模型:加载已训练好的用户评论审核模型;
N3.模型预测:结合已训练好的模型,对待测样本进行预测,获取高置信度的数据,依据预测结果对模型进行迭代优化。
所述特征库包括敏感词库、词向量库、谐音库、拼音库。
所述步骤①之后,还包括如下步骤:
数据预处理:对用户评论数据集进行清洗与过滤、字符映射、繁简转换等预处理操作。
所述步骤L4包括如下步骤:
L4.1-结合多种类别和敏感词权重影响因子,采用DFA算法进行不同层次的语义相似度匹配;
L4.2-判断一级筛选中评论内容是否存在一级权重影响因子的敏感信息,若有,则将其判断为敏感评论;否则进行二级筛选;
L4.3-判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息,若有,则将其标记为疑似敏感评论;否则将其标记为正常评论,进入步骤N3的模型预测;
L4.4-在步骤L4.3的基础上,依据敏感类别进行多词汇组合的敏感检测,若同时存在多级敏感组合词则为“敏感信息”,否则为“疑似敏感”,同时动态地设定情感分析的阈值sa_threshold,对疑似敏感评论进行情感极性分析,将情感分析为负向且分值小于sa_threshold的评论内容判断为敏感评论。。
所述步骤N2包括如下步骤:
N2.1-切分S7所构造的正负样本数据集,平均分成n份;
N2.2-对切分的数据集进行数据特征工程并构建特征库;
N2.3-结合不同分类器将不同的训练样本进行向量化表示;
N2.4-在N2.2和N2.3的基础上,构建n个差异性较大的分类器,结合分类器特点分别选用对应的文本向量化表示,训练得到初步训练好的n个分类器;
N2.5-利用N2.4中已训练好的分类器Cn对未标注的数据集进行协同训练,依据各分类器所预测的结果,输出置信度比较高的样本数据,将其添加到样本数据中,用于修正样本数据和迭代优化模型;
N2.6-基于数据集和场景功能设定终止条件如迭代次数、优化阈值,判断是否达到终止条件,若否,则重复上述N2.1~N2.5,若是,则保存最终的分类模型。
本发明的有益效果在于:采用敏感词库、情感极性分析、协同训练的多层级评论审核的方法,为用户评论内容的检测提供了新思路;基于敏感因子权重对敏感词库进行层级划分和评论检测,避免了传统敏感词过滤一次性匹配所带来的漏判和误判,有效提升了评论审核的精确率;采用协同训练的思想多种文本向量表示算分,构建多个差异性较大的分类器,不断地进行训练,实现对未标注数据的自动化标注和分类模型的迭代优化;采用基于敏感因子和情感极性分析的方法构建用户评论正负样本数据集,减少了人工标注的成本;结合用户评论内容审核结果优化敏感词词库,有效确保了敏感词词典应对网络用语更新变化的及时性和完备性;采用DFA算法进行敏感词匹配,有效减少了算法的时间复杂度,提升了算法的审核效率。
附图说明
图1是本发明的流程示意图;
图2是图1中用户评论内容审核模型协同训练步骤的流程示意图;
图3是本发明在使用时单次用户评论审核过滤的流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1所示的一种多层级用户评论安全审核的模型构建与应用方法,包括以下步骤:
S1获取用户评论数据集:结合数据采集技术从新闻媒体、电商、社交等网站获取用户评论数据集,该数据集用于构建评论内容安全审核的特征库和模型训练样本;
S2数据预处理:对用户评论数据集进行清洗与过滤、字符映射、繁简转换等预处理操作;
S3构建敏感词库:构建不同类别、不同敏感因子的多层级敏感词库;
S4基于敏感因子的评论检测:根据不同类别和不同敏感因子权重的敏感词库的语义相似度匹配结果,对用户评论数据集进行不同层次的检测审核;
S5构建评论情感分析模型:结合用户评论数据集和情感极性词库,进行评论情感分析模型的训练,情感极性包含的类别有“正向”、“负向”和“中性”;
S6对基于敏感因子的评论检测结果进行情感极性分析:对不同层次的评论审核结果进行情感极性分析。
S7构建用户评论正负样本:结合敏感因子的检测结果和评论情感极性分析结果,构建用于模型训练的评论正负样本;
S8用户评论审核模型协同训练:切分样本数据,进行数据特征工程并构建特征库,采用多个分类器进行协同训练,进行样本标签预测,对比修正和迭代优化模型,获得用户评论审核模型;
S9加载用户评论审核模型:加载已训练好的用户评论审核模型;
S10模型预测:结合已训练好的模型,对待测样本进行预测,获取高置信度的数据,依据预测结果对模型进行迭代优化;
S11输出用户评论内容审核结果:输出最终所检测的审核结果,同时将错误预测的结果用于优化敏感词词典。
步骤S1中的特征库从字符及、词语级和句子级包括但不限于敏感词库、词向量库、谐音库、拼音库等;
步骤S2中,针对用户评论数据中存在的诸多特殊字符,通过匹配删除、字符转换(如字符映射、繁简转换)完成评论数据的规整。
步骤S3中,在通用敏感词库基础上针对特定场景下评论数据的特点,构建不同类别、不同敏感因子权重的多层级敏感词库。
的多层级敏感词库分别从类别(如言语辱骂、涉黄、涉政、广告或垃圾信息等)和敏感因子(如敏感、疑似敏感、多词汇限定的敏感度等)的层级划分和构建。
步骤S4分为以下步骤:
(S4.1)在步骤S3基础上,结合不同的类别和敏感词权重影响因子,采用DFA算法进行不同层次的语义相似度匹配;
(S4.2)判断一级筛选中评论内容是否存在一级权重影响因子的敏感信息,若有,则将其判断为敏感评论;否则进行二级筛选;
(S4.3)判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息,若有,则将其标记为疑似敏感评论;否则将其标记为正常评论,进入步骤S10的模型预测;
(S4.4)在(S4.3)的基础上,依据敏感类别进行多词汇组合的敏感检测,若同时存在多级敏感组合词则为“敏感信息”,否则为“疑似敏感”,同时动态地设定情感分析的阈值sa_threshold,对疑似敏感评论进行情感极性分析,将情感分析为负向且分值小于sa_threshold的评论内容判断为敏感评论。
步骤S5中,结合用户评论数据(表情、情感特征项)和情感极性词库进行的情感分析模型训练,极性分析的类别为“正向”、“负向”、“中性”,置信度值采用0~1进行表示,其值越接近于1表示为正向的概率越大,越接近于0表示为负向的概率越大,接近0.5的代表为中性。
步骤S6中,首先对步骤S4的检测结果进行标签化,主要分为敏感评论、疑似敏感评论和正常评论;其次调用步骤S5中训练的情感分析模型对标签化的结果进行情感极性分析。
步骤S7中,依据步骤S6的结果构建评论检测正负样本的初始数据集,具体步骤如下:
(S7.1)采用包括但不限于统计法、主观法的方法设定情感负向筛选阈值sa_neg_threshold,将S6中标签为“敏感评论”且情感极性值小于sa_neg_threshold评论标注为负样本;
(S7.2)采用包括但不限于统计法、主观法的方法设定情感正向筛选阈值sa_pos_threshold,将S6中标签为“正常评论”的用户评论且情感极性值大于sa_pos_threshold评论标注为正样本。
如图2所示,步骤S8主要分为以下步骤:
(S8.1)切分S7所构造的正负样本数据集,平均分成n份;
(S8.2)对切分的数据集进行数据特征工程并构建特征库;
(S8.3)结合不同分类器将不同的训练样本进行向量化表示;
(S8.4)在(S8.2)和(S8.3)的基础上,构建n个差异性较大的分类器,结合分类器特点分别选用对应的文本向量化表示,训练得到初步训练好的n个分类器;
(S8.5)利用(S8.4)中已训练好的分类器Cn对未标注的数据集进行协同训练,依据各分类器所预测的结果,输出置信度比较高的样本数据,将其添加到样本数据中,用于修正样本数据和迭代优化模型;
(S8.6)基于数据集和场景功能设定终止条件(如迭代次数、优化阈值),判断是否达到终止条件,若否,则重复上述(S8.1)~(S8.5),若是,则保存最终的分类模型。
步骤S9中,加载S8中训练好的评论审核模型。
步骤S10中,结合已训练好的模型,对待测样本进行预测,从每一条预测结果中分别挑选最大置信度对应的数据作为当前数据的最终预测结果,依据预测结果对训练模型进行迭代优化。
步骤S11中,输出最终所检测的审核结果,同时将预测错误的结果用于优化敏感词词典。
步骤S4中的情感分析阈值sa_threshold需依据不同的敏感类别(如“辱骂”、“赌博”等)进行动态地调整,S7中的情感负向筛选阈值sa_neg_threshold和情感正向筛选阈值sa_pos_threshold可依据特定场景的评论数据集进行设置。
步骤S8中,采用包括但不限于TF-DIF、word2vec、Bert进行文本向量化,包括但不限于多项式朴素贝叶斯、SVM、lightgbm分类器进行协同训练。
新闻媒体网站中的评论通常是针对当下热点新闻的评论,通常会夹杂着一些“言语辱骂”、“涉黄”、“低质灌水”等垃圾信息,这些内容严重影响了媒体新闻的质量和网络环境。因此,本发明采用敏感因子词库、情感极性分析、评论内容审核模型协调训练等方法对评论内容进行多层级审核,同时采用协调训练的思想进行数据自动化标注和训练模型迭代优化,进而提升了评论内容审核的精确度、节省了人工标注样本数据的成本。
实施例1
采用上述方案,包含如下步骤:
(1)获取用户评论数据集和预处理:
执行S1步骤,本实施例结合数据采集技术从新闻网站抓取评论的发布日期、URL、评论发布者的昵称、评论内容、点赞数等内容。
执行S2步骤,针对用户评论数据中存在的诸多非法字符和无效信息(如@、#、:、【】、等),采用正则表达式、分词、去停用词等方法对评论内容进行清洗、筛选,同时采用字符映射、繁简转换等方法对内容进行处理,进而完成评论内容的规整。如“回复@yoyo: 一切平安14天”,预处理后的内容为“一切平安14天”。具体数据预处理操作可结合实际处理语料特点而定。
(2)基于敏感因子的评论检测:
执行S3步骤,本实施例中结合已有的通用敏感词库和新闻媒体的评论数据,构建的敏感词库类别有“言语辱骂”、“涉黄”、“赌博”、“涉政”等,具体需要审核的类别可根据实际业务场景和需求而定。本实施例采用但不限于频次统计法、关键语义映射分析法设定相应的敏感因子,如“白痴、走狗”的敏感因子要高于“垃圾、猪头”等词汇。
本实施例中,结合用户评论数据(表情、情感特征项)和情感极性词库进行情感特征工程构建、特征选择、模型训练,极性分析的类别为“正向”、“负向”、“中性”,置信度值采用0~1进行表示,其值越接近于1表示为正向的概率越大,越接近于0表示为负向的概率越大,接近0.5的代表为中性。
依据上面步骤中所构建的敏感词库和构建的情感分析模型,执行S4步骤,具体步骤如下:
(S4.1)在步骤S3基础上,结合不同类别和敏感词权重影响因子,采用DFA算法进行不同层次的语义相似度匹配;
(S4.2)判断一级筛选中评论内容是否存在一级权重影响因子的敏感信息,若有,则将其判断为敏感评论;否则进行二级筛选;
(S4.3)判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息,若有,则将其判断为疑似敏感评论;否则进入步骤S10的模型预测;
(S4.4)依据敏感类别进行多词汇组合的敏感检测,若评论中存在多级敏感组合词则为“敏感信息”,否则为“疑似敏感”,同时动态地设定情感分析的阈值sa_threshold,本实施例中依据不同的敏感类别采用关键语义映射分析法来动态设定sa_threshold,如“辱骂”类别中sa_threshold为0.35,而“赌博”中sa_threshold为0.2,其中情感极性分析值分布为0~1,大于0.55的为正向,小于0.45的为负向,大于等于0.45且小于等于0.55的为中性。若(S4.3)中的疑似敏感评论的情感极性值小于sa_threshold,则将其判断为敏感评论。
(3)用户评论审核模型训练:
为节省人工标注的成本,本发明采用敏感因子检测和情感极性分析的方法进行正负样本的自动化标注,人工修正为辅,同时采用协同训练的思想进行样本数据的修正、补充和模型训练的迭代优化。
执行步骤S6和S7,构建模型训练的正负样本:1)首先对步骤S4的检测结果进行标签化,主要分为敏感评论、疑似敏感评论、正常评论;2)其次对筛选的结果进行情感极性分析;3)为提升正负样本的差异性,然后将标签为“敏感评论”且情感极性值小于0.4的标注为负样本,将标签为“正常评论”且情感极性值大于0.65的标注为正样本。
基于S7构建的初始正负样本,执行步骤S8,主要分为以下步骤:
(S8.1)切分正负样本数据集,平均分成4份;
(S8.2)本实施例中依据词性、词性组合、句子长度、情感极性等进行数据特征工程并构建特征库,如名词n开头“ng、nl、nr、ns”。上述提取的特征仅为本实施例所采用,但并不局限于此,具体特征提取可结合实际处理语料和场景功能特点而定;
(S8.3)本实施例采用TF-IDF、Word2vec和Bert进行向量化表示。
(S8.4)在(S8.3)基础上,本实施例中采用多项式朴素贝叶斯、SVM、lightgbm分类器构造了TF-DIF+多项式朴素贝叶斯、Word2vec+SVM、Word2vec+lightgbm、Bert+lightgbm4个差异性较大的分类器;
(S8.5)基于(S8.4)所构造的分类器模,结合已标注的数据和未标注数据进行协调训练,首先在已标注样本数据上分别进行训练得到基线模型C1,C2,C3,C4,然后采用C1,C2,C3,C4分别对未标注数据进行预测,依据各分类器所预测的结果,输出置信度较高和较低的样本,分别将置信度较高的样本添加到已标注样本和置信度较低的添加到未标注数据中,用于修正样本数据和迭代优化分类模型;
(S8.6)设定预设迭代次数和优化阈值,判断是否达到终止条件,若否,则重复上述(S8.1)~(S8.5),若是,则保存最终的分类模型。
(3)待审核用户评论过滤
结合上述步骤,如图3所示,对于待审核的用户评论过滤的步骤主要如下:
(3.1)基于构造的敏感词库,首先进行基于敏感因子权重的一级筛选,判断是否含有一级敏感词汇信息,若有则直接过滤该条评论,若无则进行基于敏感因子权重的二级筛选;
(3.2)结合基于敏感因子权重的二级筛选结果判断是否含有二级敏感信息,若有则进行情感极性分析,若无则保留该条评论;
(3.3)判断评论内容是否为负向评论,若是则依据敏感类别动态设定sa_threshold,判断是否小于设定的阈值sa_threshold,若是则过滤该条评论,若否则加载S8中保存的用户评论审核模型;
(3.4)基于加载的模型,进行用户评论预测,判断是否为垃圾评论,若是则过滤该条评论,若否则保留该条评论。
Claims (8)
1.一种多层级用户评论安全审核的模型构建方法,其特征在于:包括如下步骤:
①构建词库:基于数据采集技术获取用户评论数据集;
②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;
③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;
④输出审核结果:输出最终所检测的审核结果,同时将错误预测的结果用于优化敏感词词典。
2.如权利要求1所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤①中,基于用户评论数据集构建评论内容安全审核的特征库和模型训练样本,步骤②中构建的评论正样本和评论负样本叠加至模型训练样本中作为样本数据。
3.如权利要求1所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤②包括如下步骤:
L1.构建敏感词库:构建多种类别、多种敏感因子的多层级敏感词库;
L2.基于敏感因子的评论检测:根据不同类别和不同敏感因子权重的敏感词库的语义相似度匹配结果,对用户评论数据集进行不同层次的检测审核;
L3.构建评论情感分析模型:结合用户评论数据集和情感极性词库,进行评论情感分析模型的训练,情感极性包含的类别有“正向”、“负向”和“中性”;
L4.对基于敏感因子的评论检测结果进行情感极性分析:对不同层次的评论审核结果进行情感极性分析。
L5.构建用户评论正负样本:结合敏感因子的检测结果和评论情感极性分析结果,构建用于模型训练的评论正负样本。
4.如权利要求1所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤③包括如下步骤:
N1.用户评论审核模型协同训练:切分样本数据,进行数据特征工程并构建特征库,采用多个分类器进行协同训练,进行样本标签预测,对比修正和迭代优化模型,获得用户评论审核模型;
N2.加载用户评论审核模型:加载已训练好的用户评论审核模型;
N3.模型预测:结合已训练好的模型,对待测样本进行预测,获取高置信度的数据,依据预测结果对模型进行迭代优化。
5.如权利要求2所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述特征库包括敏感词库、词向量库、谐音库、拼音库。
6.如权利要求1所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤①之后,还包括如下步骤:
数据预处理:对用户评论数据集进行清洗与过滤、字符映射、繁简转换等预处理操作。
7.如权利要求3所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤L4包括如下步骤:
L4.1-结合多种类别和敏感词权重影响因子,采用DFA算法进行不同层次的语义相似度匹配;
L4.2-判断一级筛选中评论内容是否存在一级权重影响因子的敏感信息,若有,则将其判断为敏感评论;否则进行二级筛选;
L4.3-判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息,若有,则将其标记为疑似敏感评论;否则将其标记为正常评论,进入步骤N3的模型预测;
L4.4-在步骤L4.3的基础上,依据敏感类别进行多词汇组合的敏感检测,若同时存在多级敏感组合词则为“敏感信息”,否则为“疑似敏感”,同时动态地设定情感分析的阈值sa_threshold,对疑似敏感评论进行情感极性分析,将情感分析为负向且分值小于sa_threshold的评论内容判断为敏感评论。
8.如权利要求4所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤N2包括如下步骤:
N2.1-切分S7所构造的正负样本数据集,平均分成n份;
N2.2-对切分的数据集进行数据特征工程并构建特征库;
N2.3-结合不同分类器将不同的训练样本进行向量化表示;
N2.4-在N2.2和N2.3的基础上,构建n个差异性较大的分类器,结合分类器特点分别选用对应的文本向量化表示,训练得到初步训练好的n个分类器;
N2.5-利用N2.4中已训练好的分类器Cn对未标注的数据集进行协同训练,依据各分类器所预测的结果,输出置信度比较高的样本数据,将其添加到样本数据中,用于修正样本数据和迭代优化模型;
N2.6-基于数据集和场景功能设定终止条件如迭代次数、优化阈值,判断是否达到终止条件,若否,则重复上述N2.1~N2.5,若是,则保存最终的分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825591.1A CN111966944B (zh) | 2020-08-17 | 2020-08-17 | 一种多层级用户评论安全审核的模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825591.1A CN111966944B (zh) | 2020-08-17 | 2020-08-17 | 一种多层级用户评论安全审核的模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966944A true CN111966944A (zh) | 2020-11-20 |
CN111966944B CN111966944B (zh) | 2024-04-09 |
Family
ID=73389543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010825591.1A Active CN111966944B (zh) | 2020-08-17 | 2020-08-17 | 一种多层级用户评论安全审核的模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966944B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592407A (zh) * | 2021-08-10 | 2021-11-02 | 深圳职业技术学院 | 一种商品售卖及配送方法和系统 |
CN114637896A (zh) * | 2022-05-23 | 2022-06-17 | 杭州闪马智擎科技有限公司 | 数据的审核方法和装置、存储介质及电子装置 |
CN115048929A (zh) * | 2022-06-29 | 2022-09-13 | 中国银行股份有限公司 | 敏感文本监测方法及装置 |
CN117725909A (zh) * | 2024-02-18 | 2024-03-19 | 四川日报网络传媒发展有限公司 | 一种多维度的评论审核方法、装置、电子设备及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011128512A2 (en) * | 2010-04-14 | 2011-10-20 | Antti Rauhala | Method and apparatus for a control device |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN108304509A (zh) * | 2018-01-19 | 2018-07-20 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
US20180322115A1 (en) * | 2017-05-08 | 2018-11-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for determining comment, server and storage medium |
CN108804412A (zh) * | 2018-04-13 | 2018-11-13 | 中国科学院自动化研究所 | 基于社会媒体的多层级情感分析方法 |
CN109063096A (zh) * | 2018-07-27 | 2018-12-21 | 成都睿码科技有限责任公司 | 一种快速训练泰文情感分析模型的方法 |
CN109241518A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种基于情感分析的检测网络水军方法 |
CN110019795A (zh) * | 2017-11-09 | 2019-07-16 | 普天信息技术有限公司 | 敏感词检测模型的训练方法和系统 |
CN110263166A (zh) * | 2019-06-18 | 2019-09-20 | 北京海致星图科技有限公司 | 基于深度学习的舆情文本分类方法 |
US20190318407A1 (en) * | 2015-07-17 | 2019-10-17 | Devanathan GIRIDHARI | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
US20190332946A1 (en) * | 2018-04-30 | 2019-10-31 | Facebook, Inc. | Combining machine-learning and social data to generate personalized recommendations |
CN110427458A (zh) * | 2019-07-03 | 2019-11-08 | 南京理工大学 | 基于双门lstm的社交网络双语的五分类情感分析方法 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111046174A (zh) * | 2019-11-08 | 2020-04-21 | 广州坚和网络科技有限公司 | 适用于新闻资讯软件的一种评论防灌水的方法 |
CN111046171A (zh) * | 2019-08-29 | 2020-04-21 | 成都信息工程大学 | 一种基于细粒度标注数据的情感判别方法 |
-
2020
- 2020-08-17 CN CN202010825591.1A patent/CN111966944B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011128512A2 (en) * | 2010-04-14 | 2011-10-20 | Antti Rauhala | Method and apparatus for a control device |
US20190318407A1 (en) * | 2015-07-17 | 2019-10-17 | Devanathan GIRIDHARI | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
US20180322115A1 (en) * | 2017-05-08 | 2018-11-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for determining comment, server and storage medium |
CN109241518A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种基于情感分析的检测网络水军方法 |
CN110019795A (zh) * | 2017-11-09 | 2019-07-16 | 普天信息技术有限公司 | 敏感词检测模型的训练方法和系统 |
CN108304509A (zh) * | 2018-01-19 | 2018-07-20 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
CN108804412A (zh) * | 2018-04-13 | 2018-11-13 | 中国科学院自动化研究所 | 基于社会媒体的多层级情感分析方法 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
US20190332946A1 (en) * | 2018-04-30 | 2019-10-31 | Facebook, Inc. | Combining machine-learning and social data to generate personalized recommendations |
CN109063096A (zh) * | 2018-07-27 | 2018-12-21 | 成都睿码科技有限责任公司 | 一种快速训练泰文情感分析模型的方法 |
CN110263166A (zh) * | 2019-06-18 | 2019-09-20 | 北京海致星图科技有限公司 | 基于深度学习的舆情文本分类方法 |
CN110427458A (zh) * | 2019-07-03 | 2019-11-08 | 南京理工大学 | 基于双门lstm的社交网络双语的五分类情感分析方法 |
CN111046171A (zh) * | 2019-08-29 | 2020-04-21 | 成都信息工程大学 | 一种基于细粒度标注数据的情感判别方法 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111046174A (zh) * | 2019-11-08 | 2020-04-21 | 广州坚和网络科技有限公司 | 适用于新闻资讯软件的一种评论防灌水的方法 |
Non-Patent Citations (2)
Title |
---|
吴杰胜;陆奎;王诗兵;: "基于多部情感词典与SVM的电影评论情感分析", 阜阳师范学院学报(自然科学版), no. 02, 13 June 2019 (2019-06-13) * |
唐晓波;朱娟;杨丰华;: "基于情感本体和kNN算法的在线评论情感分类研究", 情报理论与实践, no. 06, 15 June 2016 (2016-06-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592407A (zh) * | 2021-08-10 | 2021-11-02 | 深圳职业技术学院 | 一种商品售卖及配送方法和系统 |
CN114637896A (zh) * | 2022-05-23 | 2022-06-17 | 杭州闪马智擎科技有限公司 | 数据的审核方法和装置、存储介质及电子装置 |
CN114637896B (zh) * | 2022-05-23 | 2022-09-09 | 杭州闪马智擎科技有限公司 | 数据的审核方法和装置、存储介质及电子装置 |
CN115048929A (zh) * | 2022-06-29 | 2022-09-13 | 中国银行股份有限公司 | 敏感文本监测方法及装置 |
CN117725909A (zh) * | 2024-02-18 | 2024-03-19 | 四川日报网络传媒发展有限公司 | 一种多维度的评论审核方法、装置、电子设备及存储介质 |
CN117725909B (zh) * | 2024-02-18 | 2024-05-14 | 四川日报网络传媒发展有限公司 | 一种多维度的评论审核方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111966944B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10628528B2 (en) | System and method for domain-independent aspect level sentiment detection | |
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
Day et al. | Deep learning for financial sentiment analysis on finance news providers | |
CN111966944B (zh) | 一种多层级用户评论安全审核的模型构建方法 | |
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
CN108733748B (zh) | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
Hiai et al. | A sarcasm extraction method based on patterns of evaluation expressions | |
CN111429184A (zh) | 一种基于文本信息的用户画像抽取方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN117291190A (zh) | 一种基于情感词典和lda主题模型的用户需求计算方法 | |
Wu et al. | An intelligent duplicate bug report detection method based on technical term extraction | |
CN110348497A (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
Prakash et al. | Lexicon Based Sentiment Analysis (LBSA) to Improve the Accuracy of Acronyms, Emoticons, and Contextual Words | |
Kavitha et al. | A review on machine learning techniques for text classification | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Suhasini et al. | A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data | |
Kuttiyapillai et al. | Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |