CN113011171A - 一种基于bert的违规文本识别算法及装置 - Google Patents

一种基于bert的违规文本识别算法及装置 Download PDF

Info

Publication number
CN113011171A
CN113011171A CN202110246185.4A CN202110246185A CN113011171A CN 113011171 A CN113011171 A CN 113011171A CN 202110246185 A CN202110246185 A CN 202110246185A CN 113011171 A CN113011171 A CN 113011171A
Authority
CN
China
Prior art keywords
text
violation
illegal
probability
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110246185.4A
Other languages
English (en)
Inventor
姜卫平
赵崟江
郭忠武
王荣芳
纪军
韩煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bohui Technology Inc
Original Assignee
Beijing Bohui Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bohui Technology Inc filed Critical Beijing Bohui Technology Inc
Priority to CN202110246185.4A priority Critical patent/CN113011171A/zh
Publication of CN113011171A publication Critical patent/CN113011171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的一种基于BERT的违规文本识别算法及装置,所述违规文本识别装置用于执行所述违规文本识别算法的步骤,利用关键词匹配算法获得获得敏感文本;将敏感文本输入到BERT文本识别模型,获得敏感文本对应的概率分布;对敏感文本进行概率分布分析及阈值过滤,识别出违规文本;以及对敏感文本进行概率分布分析,获得待定文本,通过对待定文本进行相似度过滤,确定待定文本标记是否为违规文本。本申请实施例提供的违规文本识别算法,结合关键词匹配算法,通过概率分布的分析与阈值过滤,以及相似度过滤的纠错,有效提高了违规文本识别的准确性,与单一情感分类方法相比,所花费的人力成本和时间成本更低,具有更高的文本识别效率。

Description

一种基于BERT的违规文本识别算法及装置
技术领域
本申请设计人工智能领域,具体设计大数据和深度学习技术领域,提供一种基于BERT的违规文本识别算法及装置。
背景技术
互联网作为人们获取信息的重要工具,随着互联网的发展,在互联网上发布信息的门槛越来越低,从而导致互联网上充斥着大量不适合展示给用户的违规文本,违规文本识别就是在海量的文本中找出那些违规文本。
现有技术中,一般采用关键词匹配算法识别互联网上的违规文本,采用关键词匹配算法需要预设一些敏感词,然后再通过关键词匹配算法提取出包含敏感词的句子,作为敏感文本。但是,采用关键词匹配算法识别敏感文本时,只是简单筛选出敏感文本,由于敏感词所处的上下文不同,敏感文本未必是违规文本,所以关键词匹配算法的识别结果会包含大量的非违规文本,误报数量较大。
为了减少违规文本的误报数量,现有技术中,还会在关键词匹配算法的基础上使用的情感分析方法,通过判断敏感文本的正负情感倾向,进一步判断关键词匹配算法识别的敏感文本是否为违规文本。情感分析模型通过对文本进行情感分析,识别出违规的文本,虽然能够大幅度减少误报句子的数量,但是,情感分析模型的鲁棒性较强,需要收集大量含有违规词的句子(包括正向和负向句子),才能训练出情感分析模型,因此,数据收集和标注的时间成本较高。
发明内容
本申请提供一种基于BERT的违规文本识别算法及装置,以提供一种准确性更高,识别效率更高的文本识别方法及装置。
本申请第一方面提供一种基于BERT的违规文本识别算法,所述一种基于BERT的违规文本识别算法包括:
获取待识别文本;
利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本,敏感文本是指包含至少一个预设关键词的待识别文本;
将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布,所述概率分布包括非违规概率和至少一项违规概率;
若所述敏感文本对应的概率分布中存在处于预设的违规区间且大于非违规概率的违规概率,则将所述敏感文本标记为违规文本;
若所述敏感文本对应的概率分布中存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,则将所述敏感文本标记为待定文本;所述判定阈值为预设的违规区间的区间下限;
提取所述待定文本的特征向量,并对所述特征向量进行非违规基准运算和至少一项违规基准运算,获得非违规相似度和至少一项违规相似度;
判断非违规相似度的数值是否大于任意一项违规相似度的数值,若非违规相似度的数值大于任意一项违规相似度的数值,则将所述待定文本标记为非违规文本;若非违规相似度的数值小于或等于任意一项违规相似度的数值,则将所述待定文本标记为违规文本。
可选的,所述非违规基准运算为对所述特征向量和非违规基准向量进行相似度计算,所述非违规基准向量为
Figure RE-GDA0003065923740000021
其中,ai是向量化的非违规文本,m是非违规文本的数量;
所述违规基准运算为对所述特征向量和违规基准向量进行相似度计算,所述违规基准向量为
Figure RE-GDA0003065923740000022
其中,bi是向量化的违规文本,违规文本的数量,n是违规文本的数量。
可选的,所述BERT文本识别模型通过以下步骤建立:
获取待识别文本,将所述待识别文本标记为违规文本或非违规文本;
将违规文本随机分为两个集合,以及将非违规文本随机分为两个集合;
利用一个集合的违规文本和一个集合的非违规文本,建立训练集;利用另一个集合的违规文本和另一个集合的非违规文本,建立测试集;
利用训练集,并采用标签反向传播和梯度下降法,对神经网络模型进行训练;
利用测试集测试训练后的神经网络模型精度,获得BERT文本识别模型。
可选的,在所述将敏感文本输入到预先建立的BERT文本识别模型的步骤之前,还包括:对所述敏感文本预处理;
所述预处理为:
去除所述敏感文本的标点符号和英文字符,获得纯汉字文本;
将所述纯汉字文本中的繁体中文转换成简体中文,获得简体中文文本;
对所述简体中文文本进行向量化,获得预处理后的敏感文本。
本申请第二方面提供一种基于BERT的违规文本识别装置,所述一种基于BERT的违规文本识别装置用于执行权利要求1-4任一项所述的一种基于BERT的违规文本识别算法,包括:
数据获取模块,用于获取待识别文本;
关键词匹配模块,用于利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本;
初步分类模块,存储有预先建立的BERT文本识别模型,用于将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布;
违规文本标记模块,用于判断所述敏感文本对应的概率分布中是否存在处于预设的违规区间且大于非违规概率的违规概率,若所述敏感文本对应的概率分布中存在处于预设的违规区间且大于非违规概率的违规概率,则将所述敏感文本标记为初步违规文本;以及,还用于判断所述敏感文本对应的概率分布中是否存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,若所述敏感文本对应的概率分布中存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,则将所述敏感文本标记为待定文本;
相似度过滤模块,用于提取所述待定文本的特征向量,并对所述特征向量进行非违规基准运算和至少一项违规基准运算,获得非违规相似度和至少一项违规相似度;还用于判断非违规相似度的数值是否大于任意一项违规相似度的数值,若非违规分布相似度的数值大于所有的违规相似度的数值,则将所述待定文本标记为违规文本;若非违规分布相似度的数值小于或等于任意一项违规相似度的数值,则将所述待定文本标记为非违规文本。
可选的,还包括BERT模型建立模块,用于生成所述预先建立的BERT文本识别模型。
本申请第三方面提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现本申请第一方面提供的一种基于BERT的违规文本识别算法的步骤。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现本申请第一方面提供的一种基于BERT的违规文本识别算法的步骤。
本申请提供的一种基于BERT的违规文本识别算法及装置,所述一种基于BERT的违规文本识别装置用于执行所述一种基于BERT的违规文本识别算法的步骤,在利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本;将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布;对所述敏感文本进行概率分布分析及阈值过滤,获得一部分的违规文本;以及对敏感文本进行概率分布分析,获得待定文本,即通过BERT文本识别模型也无法准确分类的文本,通过对所述待定文本进行相似度过滤,确定所述待定文本标记是否为违规文本。
本申请实施例提供的违规文本识别算法,结合关键词匹配算法,通过概率分布的分析与阈值过滤,以及相似度过滤的纠错,有效提高了违规文本识别的准确性,与单一情感分类方法相比,所花费的人力成本和时间成本更低,具有更高的文本识别效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于BERT的违规文本识别算法的流程示意图;
图2为本申请实施例提供的所述BERT文本识别模型建立流程示意图;
图3为本申请实施例提供的一种基于BERT的违规文本识别装置的结构示意图。
具体实施方式
如图1所示,为本申请实施例提供的一种基于BERT的违规文本识别算法的流程示意图,所述一种基于BERT的违规文本识别算法包括步骤S101至步骤S109。
步骤S101,获取待识别文本。
所述待识别文本为从互联网上爬取的文本数据,包括违规文本和非违规文本,本申请实施例的目的是从待识别文本中找出违规文本。
步骤S102,利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本。
其中,所述敏感文本是指包含至少一个预设关键词的待识别文本。
步骤S103,将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布。
其中,所述概率分布包括非违规概率和至少一项违规概率,所述BERT文本识别模型可以根据敏感文本输出敏感文本对应的概率分布,所述非违规概率表示敏感文本为非违规文本的概率值,所述违规概率表示敏感文本为违规文本的概率值,需要说明的是,违规文本可以根据需要设置多个类别,相对应的违规概率也可以存在多个类别。例如,在一种场景下,将违规文本细分为A文本和B文本,则相对应的,违规概率也细分为A文本概率和B文本概率。
如图2所示,为本申请实施例提供的所述BERT文本识别模型建立流程示意图;所述BERT 文本识别模型通过步骤S201至步骤S205建立:
步骤S201,获取待识别文本,将所述待识别文本标记为违规文本或非违规文本。
例如,将待识别文本中的A文本标记为0、B文本标记为1、非违规文本标记为2,
步骤S202,将违规文本随机分为两个集合,以及将非违规文本随机分为两个集合。
在违规文本细分为A文本和B文本的情况下,对用的需要将A文本随机分为两个集合,例如集合1和集合2,以及将B文本随机分为两个集合,例如集合3和集合4。然后将集合1和集合3合并,组成一个违规文本集合,将集合2和集合4合并,组成另一个违规文本集合。
步骤S203,利用一个集合的违规文本和一个集合的非违规文本,建立训练集;利用另一个集合的违规文本和另一个集合的非违规文本,建立测试集。
步骤S204,利用训练集,并采用标签反向传播和梯度下降法,对神经网络模型进行训练。
神经网络模型在训练时会将训练集数据转化成向量,然后通过神经网络参数计算,对每条数据给出一个概率分布,而概率分布的正确与否依靠标签(0,1,2)来判断,接着神经网络模型根据标签进行反向传播并使用梯度下降法来调整神经网络的的参数,使神经网络模型下一次的预测结果更加准确。
步骤S205,利用测试集测试训练后的神经网络模型精度,获得BERT文本识别模型。
训练完成后,神经网络模型模型能够对训练集的数据做出很精准的预测,即A文本对应输出的概率分布中,A文本概率的数值最大,非违规文本对应输出的概率分布中非违规概率的数值最大,B文本对应输出的概率分布中B文本概率最大。然后为了评估神经网络模型模型的泛化能力,用测试集中数据进行预测(此时神经网络模型模型不再训练),其目的是为了验证模型对未见过的数据预测效果如何,由此来判断模型的优劣,在满足神经网络模型精度的情况下,获得BERT文本识别模型。
步骤S104,若所述敏感文本对应的概率分布中存在处于预设的违规区间且大于非违规概率的违规概率,则将所述敏感文本标记为违规文本。
为了更清楚的说明本申请实施例保护的技术方案,现举例进行说明,违规文本细分为A 文本和B文本,输出概率分布为(A文本概率、B文本概率、非违规概率),违规区间细分为 A文本区间[0.40,0.934]和B文本区间[0.40,0.952]。
例如,敏感文本对应的概率分布为(0.12,0.51,0.37),其中存在一项违规概率(B文本概率)处于预设的违规区间(B文本区间)且大于非违规概率的违规概率,所以将敏感文本标记为违规文本。
又例如,敏感文本对应的概率分布为(0.35,0.49,0.16),存在违规概率处于预设的违规区间且大于非违规概率的违规概率,所以将敏感文本标记为违规文本。
又例如,敏感文本对应的概率分布为(0.94,0.0.02,0.04),存在一项违规概率(B文本概率)大于非违规概率的违规概率,但是超出预设的违规区间(B文本区间),所以将敏感文本标记为非违规文本。需要说明的是,这里设置的违规区间的区间上限,为阈值过滤方法,例如,在本例中,A文本阈值过滤的阈值为0.934,B文本阈值过滤的阈值为0.952。
又例如,敏感文本对应的概率分布为(0.14,0.0.41,0.45),不存在违规概率处于预设的违规区间且大于非违规概率的违规概率,所以将敏感文本标记为非违规文本。
本申请实施例中,主要目的是识别出违规文本,当确定敏感文本为非违规文本后,也可以不对敏感文本进行标记,直接将其在互联网上对应的数据放行。
步骤S105,若所述敏感文本对应的概率分布中存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,则将所述敏感文本标记为待定文本。
其中,所述判定阈值为预设的违规区间的区间下限,在本申请实施例中,违规区间的区间下限为0.40,预设差值为0.5。
为了更清楚的说明本申请实施例保护的技术方案,现举例进行说明,违规文本细分为A 文本和B文本,输出概率分布为(A文本概率、B文本概率、非违规概率),违规区间细分为 A文本区间[0.40,0.934]和B文本区间[0.40,0.952]。
例如,敏感文本对应的概率分布为(0.32,0.35,0.33),非违规概率和违规概率均小于 0.4,且非违规概率与违规概率较为接近,非违规概率和任意一项违规概率之间的差值均小于 0.5,则将所述敏感文本标记为待定文本。
步骤S106,提取所述待定文本的特征向量,并对所述特征向量进行非违规基准运算和至少一项违规基准运算,获得非违规相似度和至少一项违规相似度。
其中,所述非违规基准运算为对所述特征向量和非违规基准向量进行相似度计算;所述违规基准运算为对所述特征向量和违规基准向量进行相似度计算。
具体的,在BERT文本识别模型训练前,会将待识别文本(标记为违规文本和非违规文本) 转换为向量进行模型训练,通过对所有非违规本文对应的向量求和取平均,获得非违规基准向量,并采用相同的方法获得违规基准向量,具体表现形式如下:
所述非违规基准向量为
Figure RE-GDA0003065923740000061
其中,ai是向量化的非违规文本,m是非违规文本的数量;所述违规基准向量为
Figure RE-GDA0003065923740000062
其中,bi是向量化的违规文本,违规文本的数量, n是违规文本的数量。
步骤S107,判断非违规相似度的数值是否大于任意一项违规相似度的数值。
步骤S108,若非违规相似度的数值大于任意一项违规相似度的数值,则将所述待定文本标记为非违规文本。
步骤S109,若非违规相似度的数值小于或等于任意一项违规相似度的数值,则将所述待定文本标记为违规文本。
通过比较非违规相似度的数值与任意一项违规相似度的数值大小,如果所述非违规相似度的数值最大,则将所述待定文本标记为非违规文本,如果所述非违规相似度的数值不是最大的,即至少存在一项违规文本的相似度数值大于非违规相似度的数值,则将所述待定文本标记为违规文本。
进一步的,在所述将敏感文本输入到预先建立的BERT文本识别模型的步骤之前,还包括:对所述敏感文本预处理;具体为:去除所述敏感文本的标点符号和英文字符,获得纯汉字文本;将所述纯汉字文本中的繁体中文转换成简体中文,获得简体中文文本;对所述简体中文文本进行向量化,获得预处理后的敏感文本。
本申请实施例第二方面提供一种基于BERT的违规文本识别装置,用于执行本申请实施例第一方面提供的一种基于BERT的违规文本识别算法,对于本申请实施例第二方面提供的识别装置中为公开的细节,请参见本申请实施例第一方面提供的违规文本识别算法。
如图3所示,为本申请实施例提供的一种基于BERT的违规文本识别装置的结构示意图。所述一种基于BERT的违规文本识别装置包括数据获取模块、关键词匹配模块、初步分类模块、违规文本标记模块和相似度过滤模块。
数据获取模块,用于获取待识别文本。
关键词匹配模块,用于利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本。
初步分类模块,存储有预先建立的BERT文本识别模型,用于将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布。
违规文本标记模块,用于判断所述敏感文本对应的概率分布中是否存在处于预设的违规区间且大于非违规概率的违规概率,若所述敏感文本对应的概率分布中存在处于预设的违规区间且大于非违规概率的违规概率,则将所述敏感文本标记为初步违规文本;以及,还用于判断所述敏感文本对应的概率分布中是否存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,若所述敏感文本对应的概率分布中存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,则将所述敏感文本标记为待定文本。
相似度过滤模块,用于提取所述待定文本的特征向量,并对所述特征向量进行非违规基准运算和至少一项违规基准运算,获得非违规相似度和至少一项违规相似度;还用于判断非违规相似度的数值是否大于任意一项违规相似度的数值,若非违规分布相似度的数值大于所有的违规相似度的数值,则将所述待定文本标记为违规文本;若非违规分布相似度的数值小于或等于任意一项违规相似度的数值,则将所述待定文本标记为非违规文本。
进一步的,所述一种基于BERT的违规文本识别装置还包括BERT模型建立模块,用于生成所述预先建立的BERT文本识别模型。
进一步的,所述一种基于BERT的违规文本识别装置还包括预处理模块,所述预处理模块用于对所述敏感文本进行预处理,获得预处理后的敏感文本。
本申请实施例第三方面提供一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现本申请实施例第一方面提供的一种基于BERT的违规文本识别算法的步骤。
本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现本申请实施例第一方面提供的一种基于 BERT的违规文本识别算法的步骤。
本申请实施例提供的一种基于BERT的违规文本识别算法及装置,所述一种基于BERT的违规文本识别装置用于执行所述一种基于BERT的违规文本识别算法的步骤,在利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本;将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布;对所述敏感文本进行概率分布分析及阈值过滤,获得一部分的违规文本;以及对敏感文本进行概率分布分析,获得待定文本,即通过BERT 文本识别模型也无法准确分类的文本,通过对所述待定文本进行相似度过滤,确定所述待定文本标记是否为违规文本。
本申请实施例提供的违规文本识别算法,结合关键词匹配算法,通过概率分布的分析与阈值过滤,以及相似度过滤的纠错,有效提高了违规文本识别的准确性,与单一情感分类方法相比,所花费的人力成本和时间成本更低,具有更高的文本识别效率。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (9)

1.一种基于BERT的违规文本识别算法,其特征在于,所述一种基于BERT的违规文本识别算法包括:
获取待识别文本;
利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本,敏感文本是指包含至少一个预设关键词的待识别文本;
将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布,所述概率分布包括非违规概率和至少一项违规概率;
若所述敏感文本对应的概率分布中存在处于预设的违规区间且大于非违规概率的违规概率,则将所述敏感文本标记为违规文本;
若所述敏感文本对应的概率分布中存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,则将所述敏感文本标记为待定文本;所述判定阈值为预设的违规区间的区间下限;
提取所述待定文本的特征向量,并对所述特征向量进行非违规基准运算和至少一项违规基准运算,获得非违规相似度和至少一项违规相似度;
判断非违规相似度的数值是否大于任意一项违规相似度的数值,若非违规相似度的数值大于任意一项违规相似度的数值,则将所述待定文本标记为非违规文本;若非违规相似度的数值小于或等于任意一项违规相似度的数值,则将所述待定文本标记为违规文本。
2.根据权利要求1所述的一种基于BERT的违规文本识别算法,其特征在于,
所述非违规基准运算为对所述特征向量和非违规基准向量进行相似度计算,所述非违规基准向量为
Figure FDA0002964172370000011
其中,ai是向量化的非违规文本,m是非违规文本的数量;
所述违规基准运算为对所述特征向量和违规基准向量进行相似度计算,所述违规基准向量为
Figure FDA0002964172370000012
其中,bi是向量化的违规文本,违规文本的数量,n是违规文本的数量。
3.根据权利要求1所述的一种基于BERT的违规文本识别算法,其特征在于,所述BERT文本识别模型通过以下步骤建立:
获取待识别文本,将所述待识别文本标记为违规文本或非违规文本;
将违规文本随机分为两个集合,以及将非违规文本随机分为两个集合;
利用一个集合的违规文本和一个集合的非违规文本,建立训练集;利用另一个集合的违规文本和另一个集合的非违规文本,建立测试集;
利用训练集,并采用标签反向传播和梯度下降法,对神经网络模型进行训练;
利用测试集测试训练后的神经网络模型精度,获得BERT文本识别模型。
4.根据权利要求1所述的一种基于BERT的违规文本识别算法,其特征在于,在所述将敏感文本输入到预先建立的BERT文本识别模型的步骤之前,还包括:对所述敏感文本预处理;
所述预处理为:
去除所述敏感文本的标点符号和英文字符,获得纯汉字文本;
将所述纯汉字文本中的繁体中文转换成简体中文,获得简体中文文本;
对所述简体中文文本进行向量化,获得预处理后的敏感文本。
5.一种基于BERT的违规文本识别装置,其特征在于,所述一种基于BERT的违规文本识别装置用于执行权利要求1-4任一项所述的一种基于BERT的违规文本识别算法,包括:
数据获取模块,用于获取待识别文本;
关键词匹配模块,用于利用关键词匹配算法对所述待识别文本进行识别,获得敏感文本;
初步分类模块,存储有预先建立的BERT文本识别模型,用于将敏感文本输入到预先建立的BERT文本识别模型,获得所述敏感文本对应的概率分布;
违规文本标记模块,用于判断所述敏感文本对应的概率分布中是否存在处于预设的违规区间且大于非违规概率的违规概率,若所述敏感文本对应的概率分布中存在处于预设的违规区间且大于非违规概率的违规概率,则将所述敏感文本标记为初步违规文本;以及,还用于判断所述敏感文本对应的概率分布中是否存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,若所述敏感文本对应的概率分布中存在非违规概率和任意一项违规概率均小于判定阈值,且非违规概率和任意一项违规概率之间的差值小于预设差值,则将所述敏感文本标记为待定文本;
相似度过滤模块,用于提取所述待定文本的特征向量,并对所述特征向量进行非违规基准运算和至少一项违规基准运算,获得非违规相似度和至少一项违规相似度;还用于判断非违规相似度的数值是否大于任意一项违规相似度的数值,若非违规分布相似度的数值大于所有的违规相似度的数值,则将所述待定文本标记为违规文本;若非违规分布相似度的数值小于或等于任意一项违规相似度的数值,则将所述待定文本标记为非违规文本。
6.根据权利要求5所述的一种基于BERT的违规文本识别装置,其特征在于,还包括BERT模型建立模块,用于生成所述预先建立的BERT文本识别模型。
7.根据权利要求5所述的一种基于BERT的违规文本识别装置,其特征在于,预处理模块,所述预处理模块用于对所述敏感文本进行预处理,获得预处理后的敏感文本。
8.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-4任一项所述的一种基于BERT的违规文本识别算法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现如权利要求1-4任一项所述的一种基于BERT的违规文本识别算法的步骤。
CN202110246185.4A 2021-03-05 2021-03-05 一种基于bert的违规文本识别算法及装置 Pending CN113011171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110246185.4A CN113011171A (zh) 2021-03-05 2021-03-05 一种基于bert的违规文本识别算法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110246185.4A CN113011171A (zh) 2021-03-05 2021-03-05 一种基于bert的违规文本识别算法及装置

Publications (1)

Publication Number Publication Date
CN113011171A true CN113011171A (zh) 2021-06-22

Family

ID=76407087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110246185.4A Pending CN113011171A (zh) 2021-03-05 2021-03-05 一种基于bert的违规文本识别算法及装置

Country Status (1)

Country Link
CN (1) CN113011171A (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN108763202A (zh) * 2018-05-18 2018-11-06 广州腾讯科技有限公司 识别敏感文本的方法、装置、设备及可读存储介质
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN111241820A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 不良用语识别方法、装置、电子装置及存储介质
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111488732A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种变形关键词检测方法、系统及相关设备
CN111539212A (zh) * 2020-04-13 2020-08-14 腾讯科技(武汉)有限公司 文本信息处理方法、装置、存储介质及电子设备
CN111581956A (zh) * 2020-04-08 2020-08-25 国家计算机网络与信息安全管理中心 基于bert模型和k近邻的敏感信息识别方法及系统
CN111601314A (zh) * 2020-05-27 2020-08-28 北京亚鸿世纪科技发展有限公司 预训练模型加短信地址双重判定不良短信的方法和装置
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111694961A (zh) * 2020-06-23 2020-09-22 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词语义分类方法与系统
CN111738011A (zh) * 2020-05-09 2020-10-02 完美世界(北京)软件科技发展有限公司 违规文本的识别方法及装置、存储介质、电子装置
CN112131453A (zh) * 2020-08-26 2020-12-25 江汉大学 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN112131352A (zh) * 2020-10-10 2020-12-25 南京工业大学 一种网页文本类不良信息的检测方法与检测系统
CN112199480A (zh) * 2020-09-18 2021-01-08 厦门快商通科技股份有限公司 一种基于bert模型的在线对话日志违规检测方法及系统
CN112269794A (zh) * 2020-09-16 2021-01-26 连尚(新昌)网络科技有限公司 一种基于区块链的进行违规预测的方法与设备
CN112307770A (zh) * 2020-10-13 2021-02-02 深圳前海微众银行股份有限公司 敏感信息的检测方法、装置、电子设备及存储介质
CN112417887A (zh) * 2020-11-20 2021-02-26 平安普惠企业管理有限公司 敏感词句识别模型处理方法、及其相关设备

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN108763202A (zh) * 2018-05-18 2018-11-06 广州腾讯科技有限公司 识别敏感文本的方法、装置、设备及可读存储介质
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN111488732A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种变形关键词检测方法、系统及相关设备
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN111241820A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 不良用语识别方法、装置、电子装置及存储介质
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111581956A (zh) * 2020-04-08 2020-08-25 国家计算机网络与信息安全管理中心 基于bert模型和k近邻的敏感信息识别方法及系统
CN111539212A (zh) * 2020-04-13 2020-08-14 腾讯科技(武汉)有限公司 文本信息处理方法、装置、存储介质及电子设备
CN111738011A (zh) * 2020-05-09 2020-10-02 完美世界(北京)软件科技发展有限公司 违规文本的识别方法及装置、存储介质、电子装置
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111601314A (zh) * 2020-05-27 2020-08-28 北京亚鸿世纪科技发展有限公司 预训练模型加短信地址双重判定不良短信的方法和装置
CN111694961A (zh) * 2020-06-23 2020-09-22 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词语义分类方法与系统
CN112131453A (zh) * 2020-08-26 2020-12-25 江汉大学 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN112269794A (zh) * 2020-09-16 2021-01-26 连尚(新昌)网络科技有限公司 一种基于区块链的进行违规预测的方法与设备
CN112199480A (zh) * 2020-09-18 2021-01-08 厦门快商通科技股份有限公司 一种基于bert模型的在线对话日志违规检测方法及系统
CN112131352A (zh) * 2020-10-10 2020-12-25 南京工业大学 一种网页文本类不良信息的检测方法与检测系统
CN112307770A (zh) * 2020-10-13 2021-02-02 深圳前海微众银行股份有限公司 敏感信息的检测方法、装置、电子设备及存储介质
CN112417887A (zh) * 2020-11-20 2021-02-26 平安普惠企业管理有限公司 敏感词句识别模型处理方法、及其相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李扬,等: "基于短文本情感分析的敏感信息识别", 西安交通大学学报, vol. 50, no. 9, 30 September 2016 (2016-09-30), pages 80 - 84 *

Similar Documents

Publication Publication Date Title
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN107832290B (zh) 中文语义关系的识别方法及装置
CN111460164A (zh) 一种基于预训练语言模型的电信工单智能判障方法
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN111930933A (zh) 一种基于人工智能的检务案件处理方法及装置
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN113254643A (zh) 文本分类方法、装置、电子设备和
CN113849648A (zh) 分类模型训练方法、装置、计算机设备和存储介质
CN112036169A (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
CN108280357A (zh) 基于语义特征提取的数据防泄漏方法、系统
CN114925702A (zh) 文本相似度识别方法、装置、电子设备及存储介质
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN111786999B (zh) 一种入侵行为的检测方法、装置、设备和存储介质
CN111723182A (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN111813593A (zh) 一种数据处理方法、设备、服务器及存储介质
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN113011171A (zh) 一种基于bert的违规文本识别算法及装置
CN116126807A (zh) 一种日志分析方法及相关装置
CN115630357A (zh) 一种应用程序越界收集个人信息行为的判定方法
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN115618355A (zh) 注入攻击结果判定方法、装置、设备及存储介质
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination