CN112732912B - 敏感倾向表述检测方法、装置、设备及存储介质 - Google Patents
敏感倾向表述检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112732912B CN112732912B CN202011611216.3A CN202011611216A CN112732912B CN 112732912 B CN112732912 B CN 112732912B CN 202011611216 A CN202011611216 A CN 202011611216A CN 112732912 B CN112732912 B CN 112732912B
- Authority
- CN
- China
- Prior art keywords
- text
- expression
- sensitivity
- vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 247
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 302
- 230000035945 sensitivity Effects 0.000 claims abstract description 183
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 72
- 238000000034 method Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及人工智能领域,公开了一种敏感倾向表述检测方法、装置、设备及存储介质。所述敏感倾向表述检测方法包括:获取待检测的文本表述;将文本表述分别输入预置BERT模型进行向量编码、输入预置统计语言模型进行特征提取、以及进行嵌入词向量转化,分别得到多个文本词向量、多个文本特征向量、以及多个嵌入词向量;将各向量分别输入预置第一敏感倾向识别模型、预置第二敏感倾向识别模型、预置第三敏感倾向识别模型进行识别,得到对应的具有敏感倾向表述的第一概率、第二概率,以及第三概率;对第一概率、第二概率、第三概率进行投票,确定文本表述是否具有敏感倾向。本发明可以高效且精准地检测出包含敏感内容的文本表述信息。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种敏感倾向表述检测方法、装置、设备及存储介质。
背景技术
随着互联网的发展,人们越来越习惯于在网络上发表自己的想法,其中大多是以文字为载体。当这些文字信息中包含有敏感内容时,会对个人乃至社会造成不良影响,由于网络信息传播速度飞快,及时地检测出敏感内容显得尤为重要。
现有技术对敏感内容的检测方式一般是采用敏感词检测法,收集到一些敏感词汇,再检测文本信息中是否包含敏感词汇,从而确定被检测的文本信息是否包含敏感内容。这种方式虽然能较精准地检测出敏感内容,但有两点不足:需要经常更新敏感词汇表,敏感内容的检测范围完全依赖于敏感词汇表的覆盖范围;对于一些不包含敏感词汇,但有敏感倾向的文本表述束手无策。
发明内容
本发明的主要目的在于解决难以检测不包含敏感词汇的文本中的敏感倾向表述的技术问题。
本发明第一方面提供了一种敏感倾向表述检测方法,包括:
获取待检测的文本表述;
将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量;
将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将所述各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率;
对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向。
可选的,在本发明第一方面的第一种实现方式中,所述统计语言模型包括:N-Gram模型、Skip-Gram模型,所述将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量包括:
分别将所述文本表述输入所述N-Gram模型和所述Skip-Gram模型,通过所述N-Gram模型将所述文本表述中各单词转化为第一特征向量,以及通过所述Skip-Gram模型将所述文本表述中各单词转化为第二特征向量;
统计所述文本表述的敏感倾向特征指标,并生成所述文本表述中各单词对应的第三特征向量;
依次拼接所述第一特征向量、所述第二特征向量以及所述第三特征向量,得到多个文本特征向量。
可选的,在本发明第一方面的第二种实现方式中,所述对所述文本表述进行向量转化,得到多个嵌入词向量包括:
将所述文本表述中各单词转化为one-hot稀疏向量,得到多个稀疏向量;
以所述各稀疏向量为查询关键字,查询预置Embedding词表,得到所述各稀疏向量对应的多个嵌入词;
根据所述各稀疏向量对应的多个嵌入词,将所述各稀疏向量映射为稠密向量,得到所述文本表述中各单词对应的嵌入词向量。
可选的,在本发明第一方面的第三种实现方式中,所述第一敏感倾向识别模型包括:卷积层、激活层、池化层、全连接层及SoftMax层,所述将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率包括:
对所述各文本词向量进行矩阵化处理,得到文本词矩阵;
将所述文本词矩阵输入所述第一敏感倾向识别模型的卷积层进行特征提取,得到多个第一特征矩阵;
将所述各第一特征矩阵输入所述第一敏感倾向识别模型的激活层进行非线性映射,得到多个第二特征矩阵;
将所述各第二特征矩阵输入所述第一敏感倾向识别模型的池化层进行特征压缩,得到多个第三特征矩阵;
将所述各第三特征矩阵输入所述第一敏感倾向识别模型的全连接层进行分类,得到分类结果;
将所述分类结果输入所述第一敏感倾向识别模型的SoftMax层进行归一化处理,得到所述各文本词向量具有敏感倾向表述的第一概率。
可选的,在本发明第一方面的第四种实现方式中,在所述获取待检测文本表述之前,还包括:
S1、获取多个带敏感倾向标注的目标文本表述,并对所述各目标文本表述中的各单词进行嵌入词向量转化,得到多个目标词向量;
S2、对所述各目标词向量进行矩阵化处理,得到所述各目标文本表述对应的目标矩阵并作为预置第三敏感倾向识别模型的样本矩阵;
S3、将所述样本矩阵输入所述第三敏感倾向识别模型的卷积层、全连接层对应进行卷积运算和分类处理,得到带敏感倾向标注的分类结果矩阵;
S4、计算所述分类结果矩阵与对应样本矩阵的均方误差,并判断所述均方误差是否大于预置误差阈值;
S5、若所述均方误差大于预置误差阈值,则对所述第三敏感倾向识别模型的参数进行微调,重复执行S3-S4,直至所述均方误差小于所述误差阈值。
可选的,在本发明第一方面的第五种实现方式中,所述第三敏感倾向识别模型包括:膨胀卷积层、全连接层,所述将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率包括:
对所述第三敏感词识别模型的各卷积核进行空洞处理,得到膨胀卷积层;
对所述各嵌入词向量进行矩阵化处理,得到嵌入词矩阵;
将所述嵌入词矩阵输入所述第三敏感倾向识别模型的膨胀卷积层进行特征提取,得到多个第四特征向量;
将所述各第四特征向量输入所述第三敏感倾向识别模型的全连接层进行特征分类处理,得到分类结果;
计算所述分类结果中具有敏感倾向表述的比率,得到所述各嵌入词向量中具有敏感倾向表述的第三概率。
可选的,在本发明第一方面的第六种实现方式中,所述对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否存在敏感词包括:
计算所述第一概率、所述第二概率及所述第三概率中大于所述概率阈值的第一个数以及小于所述概率阈值的第二个数;
若所述第一个数大于所述第二个数,则确定所述文本表述具有敏感倾向,否则确定所述文本表述不具有敏感倾向。
本发明第二方面提供了一种敏感倾向表述检测装置,包括:
获取模块,用于获取待检测的文本表述;
向量化模块,用于将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量;
识别模块,用于将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将所述各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率;
投票模块,用于对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向。
可选的,在本发明第二方面的第一种实现方式中,所述统计语言模型包括:N-Gram模型、Skip-Gram模型,所述向量化模块用于:
分别将所述文本表述输入所述N-Gram模型和所述Skip-Gram模型,通过所述N-Gram模型将所述文本表述中各单词转化为第一特征向量,以及通过所述Skip-Gram模型将所述文本表述中各单词转化为第二特征向量;
统计所述文本表述的敏感倾向特征指标,并生成所述文本表述中各单词对应的第三特征向量;
依次拼接所述第一特征向量、所述第二特征向量以及所述第三特征向量,得到多个文本特征向量。
可选的,在本发明第二方面的第二种实现方式中,所述向量化模块还用于:
将所述文本表述中各单词转化为one-hot稀疏向量,得到多个稀疏向量;
以所述各稀疏向量为查询关键字,查询预置Embedding词表,得到所述各稀疏向量对应的多个嵌入词;
根据所述各稀疏向量对应的多个嵌入词,将所述各稀疏向量映射为稠密向量,得到所述文本表述中各单词对应的嵌入词向量。
可选的,在本发明第二方面的第三种实现方式中,所述第一敏感倾向识别模型包括:卷积层、激活层、池化层、全连接层及SoftMax层,所述识别模块用于:
对所述各文本词向量进行矩阵化处理,得到文本词矩阵;
将所述文本词矩阵输入所述第一敏感倾向识别模型的卷积层进行特征提取,得到多个第一特征矩阵;
将所述各第一特征矩阵输入所述第一敏感倾向识别模型的激活层进行非线性映射,得到多个第二特征矩阵;
将所述各第二特征矩阵输入所述第一敏感倾向识别模型的池化层进行特征压缩,得到多个第三特征矩阵;
将所述各第三特征矩阵输入所述第一敏感倾向识别模型的全连接层进行分类,得到分类结果;
将所述分类结果输入所述第一敏感倾向识别模型的SoftMax层进行归一化处理,得到所述各文本词向量具有敏感倾向表述的第一概率。
可选的,在本发明第二方面的第四种实现方式中,所述敏感倾向表述检测装置还包括:
样本获取模块,用于获取多个带敏感倾向标注的目标文本表述,并对所述各目标文本表述中的各单词进行嵌入词向量转化,得到多个目标词向量;
样本处理模块,用于对所述各目标词向量进行矩阵化处理,得到所述各目标文本表述对应的目标矩阵并作为预置第三敏感倾向识别模型的样本矩阵;
模型处理模块,用于将所述样本矩阵输入所述第三敏感倾向识别模型的卷积层、全连接层对应进行卷积运算和分类处理,得到带敏感倾向标注的分类结果矩阵;
误差计算模块,用于计算所述分类结果矩阵与对应样本矩阵的均方误差,并判断所述均方误差是否大于预置误差阈值;
参数微调模块,用于若所述均方误差大于预置误差阈值,则对所述第三敏感倾向识别模型的参数进行微调,重复执行所述模型处理模块及所述误差计算模块,直至所述均方误差小于所述误差阈值。
可选的,在本发明第二方面的第五种实现方式中,所述第三敏感倾向识别模型包括:膨胀卷积层、全连接层,所述识别模块还用于:
对所述第三敏感词识别模型的各卷积核进行空洞处理,得到膨胀卷积层;
对所述各嵌入词向量进行矩阵化处理,得到嵌入词矩阵;
将所述嵌入词矩阵输入所述第三敏感倾向识别模型的膨胀卷积层进行特征提取,得到多个第四特征向量;
将所述各第四特征向量输入所述第三敏感倾向识别模型的全连接层进行特征分类处理,得到分类结果;
计算所述分类结果中具有敏感倾向表述的比率,得到所述各嵌入词向量中具有敏感倾向表述的第三概率。
可选的,在本发明第二方面的第六种实现方式中,所述投票模块具有用于:
计算所述第一概率、所述第二概率及所述第三概率中大于所述概率阈值的第一个数以及小于所述概率阈值的第二个数;
若所述第一个数大于所述第二个数,则确定所述文本表述具有敏感倾向,否则确定所述文本表述不具有敏感倾向。
本发明第三方面提供了一种敏感倾向表述检测设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述敏感倾向表述检测设备执行上述的敏感倾向表述检测方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的敏感倾向表述检测方法。
本发明提供的技术方案中,为了提高检测的精准度,结合了多个模型对待检测数据进行处理,最终结果由多模型投票,少数服从多数的方式产生。由于文字向量化的方式会对检测结果产生较大的影响,因此结合了BERT模型、统计语言模型及Embedding嵌入词来进行文本向量化处理,能得到多维度的文本特征向量。再分别将3种向量输入到识别模型中进行识别,其中第一个模型为CNN模型,第二个模型为统计语言模型,第三个为IDCNN模型,这3个模型均为训练完成的模型,在完成检测任务时只需将对应格式的文本向量输入到模型,即能输出这些向量中具有敏感表述倾向的概率,最后结合3个概率判断检测结果。本发明可以高效且精准地检测出包含敏感内容的文本表述信息。
附图说明
图1为本发明实施例中敏感倾向表述检测方法的第一个实施例示意图;
图2为本发明实施例中敏感倾向表述检测方法的第二个实施例示意图;
图3为本发明实施例中敏感倾向表述检测装置的第一个实施例示意图;
图4为本发明实施例中敏感倾向表述检测装置的第二个实施例示意图;
图5为本发明实施例中敏感倾向表述检测设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种敏感倾向表述检测方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中敏感倾向表述检测方法的一个实施例包括:
101、获取待检测的文本表述;
可以理解的是,本发明的执行主体可以为敏感倾向表述检测装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,待检测的文本表述是指需要检测敏感倾向的文本信息,可以是一句话或者是一篇文章。检测任务可以部署在文本信息发布之前,可以在检测到敏感内容时进行拦截,及时消除不良言论带来的负面影响。
102、将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量;
本实施例中,BERT模型是指一种从Transformers模型得来的双向编码表征模型,预置的BERT模型为经过文本向量化训练的模型,训练过程包括预训练和微调两步,预训练过程中输入的样本数据中包括具有敏感倾向表述的文本及不具有敏感倾向表述的文本,使BERT更适用于本实施例,由于该模型为无监督学习模型,所有只需在样本数据的选择上做区别即可得到本实施例适用的BERT模型。而微调部分则是根据BERT模型的下游任务调整了训练参数batchsize、Learningrate和epochs。
本实施例中,预置的统计语言模型包括N-Gram模型和Skip-Gram模型,这两种模型都能根据语言规则将单词转化为向量。其中N-Gram模型是提取连续的单词片段,统计片段出现的频率来得到向量,而Skip-Gram模型是提取中心词的上下文单词作为单词片段来计算相似度,进而得到单词的向量。
本实施例中,文本的嵌入词向量转化实际上是寻找单词与单词之间的关系,将大型稀疏向量转换为保留语义关系的低维空间,解决稀疏输入数据的数据量大及计算量大的核心问题。本实施例将待检测文本中的每个单词都转化为稀疏向量,再去查找与各单词有语义关系的单词并映射到稠密向量中,最终得到每个单词对应的稠密向量就是嵌入词向量。
可选的,步骤102包括:
分别将所述文本表述输入所述N-Gram模型和所述Skip-Gram模型,通过所述N-Gram模型将所述文本表述中各单词转化为第一特征向量,以及通过所述Skip-Gram模型将所述文本表述中各单词转化为第二特征向量;
统计所述文本表述的敏感倾向特征指标,并生成所述文本表述中各单词对应的第三特征向量;
依次拼接所述第一特征向量、所述第二特征向量以及所述第三特征向量,得到多个文本特征向量。
本可选实施例中,预置的统计语言模型包括N-Gram模型和Skip-Gram模型,这两种模型都能根据语言规则将单词转化为向量。其中N-Gram模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。
N-Gram模型的实现方式是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。而Skip-Gram模型是在给出中心单词的情况下,预测它的上下文文单词,又称为跳字模型。通过Skip-Gram模型中的Skip-Gram算法计算出了中心单词与其它单词的相似度矩阵,再将相似度矩阵带入softmax公式,即能得到目标向量,其中目标向量中的数值代表在给定单词的条件下,其它单词出现的概率。
本可选实施例中,统计语言模型中还包括了敏感倾向特征指标统计,这些指标可以是文本长度、平均单词长度、停顿次数、大写单词次数等。将这些指标出现的次数表示为第三特征向量。最后将每个单词对应的3各特征向量拼接成一个文本特征向量。
可选的,步骤102还包括:
将所述文本表述中各单词转化为one-hot稀疏向量,得到多个稀疏向量;
以所述各稀疏向量为查询关键字,查询预置Embedding词表,得到所述各稀疏向量对应的多个嵌入词;
根据所述各稀疏向量对应的多个嵌入词,将所述各稀疏向量映射为稠密向量,得到所述文本表述中各单词对应的嵌入词向量。
本可选实施例中,one-hot编码又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,并且在任意时候只有一位有效。由于one-hot方法编码的向量会很高维,因此需要降维处理以减少计算量,降维的方法就是Embedding。
本可选实施例中,利用Embedding来对one-hot向量降维,Embedding的中心思想就是找到一种映射函数,该函数将网络中的每个节点转换为低维度的潜在因素。利于计算存储,并能自动提取特征。实现方法是首先通过索引对句子进行编码,例如“I like apple”可以表示为[1,2,3],接下来会创建嵌入矩阵,我们要决定每一个索引需要分配多少个“潜在因素”,这大体上意味着我们想要多长的向量,通常使用的情况是长度分配为32和50。嵌入矩阵中的每一行对应的就是句子中各单词的向量。
103、将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将所述各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率;
本实施例中,使用3个模型分别对步骤102得到的向量进行识别,分别得到具有敏感倾向表述的概率。其中第一个模型为CNN模型,第二个模型为统计语言模型,第三个为IDCNN模型,3个模型均为训练完成的模型,除IDCNN模型外,其它模型的训练均为常规操作,在此不再赘述。3个模型的任务都是对文本中各单词向量数据进行分类,具体分为具有敏感倾向表述及不具有敏感倾向表述,模型的输出为具有敏感倾向表述的概率值。
本实施例中,第一敏感倾向识别模型为CNN模型,模型的输入为经过BERT模型转化得到的文本词向量,第二个模型为统计语言模型,模型的输入为经过统计语言模型进行特征提取的文本特征向量,第三个为IDCNN模型,模型的输入为经过嵌入词向量转化处理的嵌入词向量。向量输入之前均需进行矩阵化处理,具体的处理方式为将向量按单词顺序合并。
可选的,步骤103包括:
对所述各文本词向量进行矩阵化处理,得到文本词矩阵;
将所述文本词矩阵输入所述第一敏感倾向识别模型的卷积层进行特征提取,得到多个第一特征矩阵;
将所述各第一特征矩阵输入所述第一敏感倾向识别模型的激活层进行非线性映射,得到多个第二特征矩阵;
将所述各第二特征矩阵输入所述第一敏感倾向识别模型的池化层进行特征压缩,得到多个第三特征矩阵;
将所述各第三特征矩阵输入所述第一敏感倾向识别模型的全连接层进行分类,得到分类结果;
将所述分类结果输入所述第一敏感倾向识别模型的SoftMax层进行归一化处理,得到所述各文本词向量具有敏感倾向表述的第一概率。
本可选实施例中,第一敏感倾向识别模型为CNN(Convolutional NeuralNetworks)模型,又称卷积神经网络模型,是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一,卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络。
本可选实施例中,第一敏感倾向识别模型为经过敏感倾向表述检测训练的模型,训练样本数据为带敏感倾向标注的文本数据,训练过程为常规卷积神经网络模型训练过程,最后的分类结果包括具有敏感倾向表述及不具有敏感倾向表述。
可选的,步骤103还包括:
对所述第三敏感词识别模型的各卷积核进行空洞处理,得到膨胀卷积层;
对所述各嵌入词向量进行矩阵化处理,得到嵌入词矩阵;
将所述嵌入词矩阵输入所述第三敏感倾向识别模型的膨胀卷积层进行特征提取,得到多个第四特征向量;
将所述各第四特征向量输入所述第三敏感倾向识别模型的全连接层进行特征分类处理,得到分类结果;
计算所述分类结果中具有敏感倾向表述的比率,得到所述各嵌入词向量中具有敏感倾向表述的第三概率。
本可选实施例中,膨胀卷积层和普通CNN相比,优点是可以在不做pooling损失信息的情况下,增加感受野。例如普通的3*3卷积增加了空洞为1,相当于一个7*7的膨胀卷积,其中只有9个点权重不为0,发生卷积操作时,就将感受野增加到了7*7。使每个卷积的输出都包含较大范围的信息,在输入句子比较长的时候,即输入词向量较长,效果也较普通的卷积有显著提升。
104、对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向。
本实施例中,用同一份数据集,3个模型都会有一个输出结果(具有敏感倾向表述的概率),假设设定的概率阈值为0.5,当模型输出的概率大于0.5时,则判定为具有敏感倾向表述,小于0.5时,则判定不具有敏感倾向表述。然后按照三种模型的投票结果决定模型最终判定结果,例如3个模型都判定具有敏感倾向表述,则最终结果为具有敏感倾向表述;若2个模型判定具有敏感倾向表述,1个模型判定不具有敏感倾向表述,则最终结果为具有敏感倾向表述。
可选的,步骤104包括:
计算所述第一概率、所述第二概率及所述第三概率中大于所述概率阈值的第一个数以及小于所述概率阈值的第二个数;
若所述第一个数大于所述第二个数,则确定所述文本表述具有敏感倾向,否则确定所述文本表述不具有敏感倾向。
本发明实施例中,为了提高检测的精准度,结合了多个模型对待检测数据进行处理,最终结果由多模型投票,少数服从多数的方式产生。由于文字向量化的方式会对检测结果产生较大的影响,因此结合了BERT模型、统计语言模型及Embedding嵌入词来进行文本向量化处理,能得到多维度的文本特征向量。再分别将3种向量输入到识别模型中进行识别,其中第一个模型为CNN模型,第二个模型为统计语言模型,第三个为IDCNN模型,这3个模型均为训练完成的模型,在完成检测任务时只需将对应格式的文本向量输入到模型,即能输出这些向量中具有敏感表述倾向的概率,最后结合3个概率判断检测结果。本发明可以高效且精准地检测出包含敏感内容的文本表述信息。
请参阅图2,本发明实施例中敏感倾向表述检测方法的另一个实施例包括:
201、获取多个带敏感倾向标注的目标文本表述,并对所述各目标文本表述中的各单词进行嵌入词向量转化,得到多个目标词向量;
202、对所述各目标词向量进行矩阵化处理,得到所述各目标文本表述对应的目标矩阵并作为预置第三敏感倾向识别模型的样本矩阵;
203、将所述样本矩阵输入所述第三敏感倾向识别模型的卷积层、全连接层对应进行卷积运算和分类处理,得到带敏感倾向标注的分类结果矩阵;
204、计算所述分类结果矩阵与对应样本矩阵的均方误差,并判断所述均方误差是否大于预置误差阈值;
205、若所述均方误差大于预置误差阈值,则对所述第三敏感倾向识别模型的参数进行微调,重复执行203-204,直至所述均方误差小于所述误差阈值;
本实施例中,对应的是第三敏感倾向识别模型的训练过程。首先初始化一个卷积神经网络模型,为了使这个模型表现出我们想要的行为,需要输入带敏感倾向标注的文本向量作为训练样本,由于未经训练的神经网络模型的行为是随机的,所以我们需要计算这时候的输出与我们期望的目标输出之间的差的模平方,也就是自己与自己的内积,再把全部n个样本的差的模平方求平均,得到均方误差。全部模型输出向量和目标输出向量之间的距离(差的模)越小,则神经网络模型的行为越接近我们的想要的行为,当样本量足够大,训练过程足够多的时候,能找到一个全局最小点,均方误差在可接受的范围内,就可以认为这个神经网络模型训练完成了,成为了带功能性的第三敏感倾向识别模型。若未达到全局最小点,则自动微调模型的参数,这些参数可以是卷积核的值或者是数量等。
本实施例中,训练样本所带的标注分为两种,一种是具有敏感倾向表述标签,另一种是不具有敏感倾向表述标签,这个标签为人工标注标签,可以作为一个向量值输入到样本向量中。
206、获取待检测的文本表述;
207、将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量;
208、将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将所述各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率;
209、对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向。
本发明实施例中,通过训练一个没有行为模式的神经网络模型来赋予模型识别敏感倾向表述的行为能力,这个过程是先把标注的样本数据输入到模型中随机产生识别结果,再计算识别结果与目标结果之间的差的模平方,从而计算所有差的模平方的平均值,得到整体样本的均方误差值,通过判断均方误差是否在全局最小点之内,来确定模型是否训练完成。本发明实施例优化了模型的训练过程,使识别敏感倾向表述的效率及精准度更高。
上面对本发明实施例中敏感倾向表述检测方法进行了描述,下面对本发明实施例中敏感倾向表述检测装置进行描述,请参阅图3,本发明实施例中敏感倾向表述检测装置一个实施例包括:
获取模块301,用于获取待检测的文本表述;
向量化模块302,用于将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量;
识别模块303,用于将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将所述各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率;
投票模块304,用于对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向。
可选的,所述统计语言模型包括:N-Gram模型、Skip-Gram模型,所述向量化模块302用于:
分别将所述文本表述输入所述N-Gram模型和所述Skip-Gram模型,通过所述N-Gram模型将所述文本表述中各单词转化为第一特征向量,以及通过所述Skip-Gram模型将所述文本表述中各单词转化为第二特征向量;
统计所述文本表述的敏感倾向特征指标,并生成所述文本表述中各单词对应的第三特征向量;
依次拼接所述第一特征向量、所述第二特征向量以及所述第三特征向量,得到多个文本特征向量。
可选的,所述向量化模块302还用于:
将所述文本表述中各单词转化为one-hot稀疏向量,得到多个稀疏向量;
以所述各稀疏向量为查询关键字,查询预置Embedding词表,得到所述各稀疏向量对应的多个嵌入词;
根据所述各稀疏向量对应的多个嵌入词,将所述各稀疏向量映射为稠密向量,得到所述文本表述中各单词对应的嵌入词向量。
可选的,所述第一敏感倾向识别模型包括:卷积层、激活层、池化层、全连接层及SoftMax层,所述识别模块303用于:
对所述各文本词向量进行矩阵化处理,得到文本词矩阵;
将所述文本词矩阵输入所述第一敏感倾向识别模型的卷积层进行特征提取,得到多个第一特征矩阵;
将所述各第一特征矩阵输入所述第一敏感倾向识别模型的激活层进行非线性映射,得到多个第二特征矩阵;
将所述各第二特征矩阵输入所述第一敏感倾向识别模型的池化层进行特征压缩,得到多个第三特征矩阵;
将所述各第三特征矩阵输入所述第一敏感倾向识别模型的全连接层进行分类,得到分类结果;
将所述分类结果输入所述第一敏感倾向识别模型的SoftMax层进行归一化处理,得到所述各文本词向量具有敏感倾向表述的第一概率。
可选的,所述第三敏感倾向识别模型包括:膨胀卷积层、全连接层,所述识别模块303还用于:
对所述第三敏感词识别模型的各卷积核进行空洞处理,得到膨胀卷积层;
对所述各嵌入词向量进行矩阵化处理,得到嵌入词矩阵;
将所述嵌入词矩阵输入所述第三敏感倾向识别模型的膨胀卷积层进行特征提取,得到多个第四特征向量;
将所述各第四特征向量输入所述第三敏感倾向识别模型的全连接层进行特征分类处理,得到分类结果;
计算所述分类结果中具有敏感倾向表述的比率,得到所述各嵌入词向量中具有敏感倾向表述的第三概率。
可选的,所述投票模块304具体用于:
计算所述第一概率、所述第二概率及所述第三概率中大于所述概率阈值的第一个数以及小于所述概率阈值的第二个数;
若所述第一个数大于所述第二个数,则确定所述文本表述具有敏感倾向,否则确定所述文本表述不具有敏感倾向。
本发明实施例中,为了提高检测的精准度,结合了多个模型对待检测数据进行处理,最终结果由多模型投票,少数服从多数的方式产生。由于文字向量化的方式会对检测结果产生较大的影响,因此结合了BERT模型、统计语言模型及Embedding嵌入词来进行文本向量化处理,能得到多维度的文本特征向量。再分别将3种向量输入到识别模型中进行识别,其中第一个模型为CNN模型,第二个模型为统计语言模型,第三个为IDCNN模型,这3个模型均为训练完成的模型,在完成检测任务时只需将对应格式的文本向量输入到模型,即能输出这些向量中具有敏感表述倾向的概率,最后结合3个概率判断检测结果。本发明可以高效且精准地检测出包含敏感内容的文本表述信息。
请参阅图4,本发明实施例中敏感倾向表述检测装置的另一个实施例包括:
获取模块301,用于获取待检测的文本表述;
向量化模块302,用于将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量;
识别模块303,用于将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将所述各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率;
投票模块304,用于对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向。
可选的,所述敏感倾向表述检测装置还包括:
样本获取模块305,用于获取多个带敏感倾向标注的目标文本表述,并对所述各目标文本表述中的各单词进行嵌入词向量转化,得到多个目标词向量;
样本处理模块306,用于对所述各目标词向量进行矩阵化处理,得到所述各目标文本表述对应的目标矩阵并作为预置第三敏感倾向识别模型的样本矩阵;
模型处理模块307,用于将所述样本矩阵输入所述第三敏感倾向识别模型的卷积层、全连接层对应进行卷积运算和分类处理,得到带敏感倾向标注的分类结果矩阵;
误差计算模块308,用于计算所述分类结果矩阵与对应样本矩阵的均方误差,并判断所述均方误差是否大于预置误差阈值;
参数微调模块309,用于若所述均方误差大于预置误差阈值,则对所述第三敏感倾向识别模型的参数进行微调,重复执行模型处理模块及误差计算模块,直至所述均方误差小于所述误差阈值。
本发明实施例中,通过训练一个没有行为模式的神经网络模型来赋予模型识别敏感倾向表述的行为能力,这个过程是先把标注的样本数据输入到模型中随机产生识别结果,再计算识别结果与目标结果之间的差的模平方,从而计算所有差的模平方的平均值,得到整体样本的均方误差值,通过判断均方误差是否在全局最小点之内,来确定模型是否训练完成。本发明实施例优化了模型的训练过程,使识别敏感倾向表述的效率及精准度更高。。
上面图3和图4从模块化功能实体的角度对本发明实施例中的敏感倾向表述检测装置进行详细描述,下面从硬件处理的角度对本发明实施例中敏感倾向表述检测设备进行详细描述。
图5是本发明实施例提供的一种敏感倾向表述检测设备的结构示意图,该敏感倾向表述检测设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对敏感倾向表述检测设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在敏感倾向表述检测设备500上执行存储介质530中的一系列指令操作。
敏感倾向表述检测设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的敏感倾向表述检测设备结构并不构成对敏感倾向表述检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种敏感倾向表述检测设备,所述敏感倾向表述检测设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述敏感倾向表述检测方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述敏感倾向表述检测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种敏感倾向表述检测方法,其特征在于,所述敏感倾向表述检测方法包括:
获取待检测的文本表述;
将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量,所述多个文本特征向量包括依次拼接的第一特征向量、第二特征向量和第三特征向量,所述第一特征向量为每个字节片段出现的概率,所述第二特征向量为其它单词在给定单词的条件下出现的概率,所述第三特征向量为敏感倾向特征指标出现的次数;
将各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率,所述第一敏感倾向识别模型为CNN模型,所述第二敏感倾向识别模型为统计语言模型,所述第三敏感倾向识别模型为IDCNN模型;
对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向;
所述第三敏感倾向识别模型包括:膨胀卷积层、全连接层,所述将各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率包括:
对所述第三敏感倾向识别模型的各卷积核进行空洞处理,得到膨胀卷积层;
对各嵌入词向量进行矩阵化处理,得到嵌入词矩阵;
将所述嵌入词矩阵输入所述第三敏感倾向识别模型的膨胀卷积层进行特征提取,得到多个第四特征向量;
将各第四特征向量输入所述第三敏感倾向识别模型的全连接层进行特征分类处理,得到分类结果;
计算所述分类结果中具有敏感倾向表述的比率,得到所述各嵌入词向量中具有敏感倾向表述的第三概率。
2.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,所述统计语言模型包括:N-Gram模型、Skip-Gram模型,所述将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量包括:
分别将所述文本表述输入所述N-Gram模型和所述Skip-Gram模型,通过所述N-Gram模型将所述文本表述中各单词转化为第一特征向量,以及通过所述Skip-Gram模型将所述文本表述中各单词转化为第二特征向量;
统计所述文本表述的敏感倾向特征指标,并生成所述文本表述中各单词对应的第三特征向量;
依次拼接所述第一特征向量、所述第二特征向量以及所述第三特征向量,得到多个文本特征向量。
3.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,所述对所述文本表述进行向量转化,得到多个嵌入词向量包括:
将所述文本表述中各单词转化为one-hot稀疏向量,得到多个稀疏向量;
以各稀疏向量为查询关键字,查询预置Embedding词表,得到所述各稀疏向量对应的多个嵌入词;
根据所述各稀疏向量对应的多个嵌入词,将所述各稀疏向量映射为稠密向量,得到所述文本表述中各单词对应的嵌入词向量。
4.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,所述第一敏感倾向识别模型包括:卷积层、激活层、池化层、全连接层及SoftMax层,所述将各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率包括:
对各文本词向量进行矩阵化处理,得到文本词矩阵;
将所述文本词矩阵输入所述第一敏感倾向识别模型的卷积层进行特征提取,得到多个第一特征矩阵;
将各第一特征矩阵输入所述第一敏感倾向识别模型的激活层进行非线性映射,得到多个第二特征矩阵;
将各第二特征矩阵输入所述第一敏感倾向识别模型的池化层进行特征压缩,得到多个第三特征矩阵;
将各第三特征矩阵输入所述第一敏感倾向识别模型的全连接层进行分类,得到分类结果;
将所述分类结果输入所述第一敏感倾向识别模型的SoftMax层进行归一化处理,得到所述各文本词向量具有敏感倾向表述的第一概率。
5.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,在所述获取待检测文本表述之前,还包括:
S1、获取多个带敏感倾向标注的目标文本表述,并对各目标文本表述中的各单词进行嵌入词向量转化,得到多个目标词向量;
S2、对各目标词向量进行矩阵化处理,得到所述各目标文本表述对应的目标矩阵并作为预置第三敏感倾向识别模型的样本矩阵;
S3、将所述样本矩阵输入所述第三敏感倾向识别模型的卷积层、全连接层对应进行卷积运算和分类处理,得到带敏感倾向标注的分类结果矩阵;
S4、计算所述分类结果矩阵与对应样本矩阵的均方误差,并判断所述均方误差是否大于预置误差阈值;
S5、若所述均方误差大于预置误差阈值,则对所述第三敏感倾向识别模型的参数进行微调,重复执行S3-S4,直至所述均方误差小于所述误差阈值。
6.根据权利要求1-5中任一项所述的敏感倾向表述检测方法,其特征在于,所述对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否存在敏感词包括:
计算所述第一概率、所述第二概率及所述第三概率中大于概率阈值的第一个数以及小于所述概率阈值的第二个数;
若所述第一个数大于所述第二个数,则确定所述文本表述具有敏感倾向,否则确定所述文本表述不具有敏感倾向。
7.一种敏感倾向表述检测装置,其特征在于,所述敏感倾向表述检测装置包括:
获取模块,用于获取待检测的文本表述;
向量化模块,用于将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量,所述多个文本特征向量包括依次拼接的第一特征向量、第二特征向量和第三特征向量,所述第一特征向量为每个字节片段出现的概率,所述第二特征向量为其它单词在给定单词的条件下出现的概率,所述第三特征向量为敏感倾向特征指标出现的次数;
识别模块,用于将各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率,所述第一敏感倾向识别模型为CNN模型,所述第二敏感倾向识别模型为统计语言模型,所述第三敏感倾向识别模型为IDCNN模型;
投票模块,用于对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向;
所述第三敏感倾向识别模型包括:膨胀卷积层、全连接层,所述识别模块还用于:
对所述第三敏感倾向识别模型的各卷积核进行空洞处理,得到膨胀卷积层;
对各嵌入词向量进行矩阵化处理,得到嵌入词矩阵;
将所述嵌入词矩阵输入所述第三敏感倾向识别模型的膨胀卷积层进行特征提取,得到多个第四特征向量;
将各第四特征向量输入所述第三敏感倾向识别模型的全连接层进行特征分类处理,得到分类结果;
计算所述分类结果中具有敏感倾向表述的比率,得到所述各嵌入词向量中具有敏感倾向表述的第三概率。
8.根据权利要求7所述的敏感倾向表述检测装置,其特征在于,所述统计语言模型包括:N-Gram模型、Skip-Gram模型,所述向量化模块用于:
分别将所述文本表述输入所述N-Gram模型和所述Skip-Gram模型,通过所述N-Gram模型将所述文本表述中各单词转化为第一特征向量,以及通过所述Skip-Gram模型将所述文本表述中各单词转化为第二特征向量;
统计所述文本表述的敏感倾向特征指标,并生成所述文本表述中各单词对应的第三特征向量;
依次拼接所述第一特征向量、所述第二特征向量以及所述第三特征向量,得到多个文本特征向量。
9.一种敏感倾向表述检测设备,其特征在于,所述敏感倾向表述检测设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述敏感倾向表述检测设备执行如权利要求1-6中任一项所述的敏感倾向表述检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-6中任一项所述的敏感倾向表述检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011611216.3A CN112732912B (zh) | 2020-12-30 | 2020-12-30 | 敏感倾向表述检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011611216.3A CN112732912B (zh) | 2020-12-30 | 2020-12-30 | 敏感倾向表述检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732912A CN112732912A (zh) | 2021-04-30 |
CN112732912B true CN112732912B (zh) | 2024-04-09 |
Family
ID=75610983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011611216.3A Active CN112732912B (zh) | 2020-12-30 | 2020-12-30 | 敏感倾向表述检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732912B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343699B (zh) * | 2021-06-22 | 2023-10-20 | 湖北华中电力科技开发有限责任公司 | 日志安全风险的监测方法、装置、电子设备及介质 |
CN113723096A (zh) * | 2021-07-23 | 2021-11-30 | 智慧芽信息科技(苏州)有限公司 | 文本识别方法及装置、计算机可读存储介质和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657243A (zh) * | 2018-12-17 | 2019-04-19 | 江苏满运软件科技有限公司 | 敏感信息识别方法、系统、设备及存储介质 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN109961296A (zh) * | 2017-12-25 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 商户类型识别方法及装置 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN110245348A (zh) * | 2019-05-17 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种意图识别方法及系统 |
CN110992257A (zh) * | 2019-12-20 | 2020-04-10 | 北京航天泰坦科技股份有限公司 | 基于深度学习的遥感影像敏感信息自动屏蔽方法及装置 |
CN111539021A (zh) * | 2020-04-26 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种数据隐私类型识别方法、装置及设备 |
CN111968625A (zh) * | 2020-08-26 | 2020-11-20 | 上海依图网络科技有限公司 | 融合文本信息的敏感音频识别模型训练方法及识别方法 |
-
2020
- 2020-12-30 CN CN202011611216.3A patent/CN112732912B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961296A (zh) * | 2017-12-25 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 商户类型识别方法及装置 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN109657243A (zh) * | 2018-12-17 | 2019-04-19 | 江苏满运软件科技有限公司 | 敏感信息识别方法、系统、设备及存储介质 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN110245348A (zh) * | 2019-05-17 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种意图识别方法及系统 |
CN110992257A (zh) * | 2019-12-20 | 2020-04-10 | 北京航天泰坦科技股份有限公司 | 基于深度学习的遥感影像敏感信息自动屏蔽方法及装置 |
CN111539021A (zh) * | 2020-04-26 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种数据隐私类型识别方法、装置及设备 |
CN111968625A (zh) * | 2020-08-26 | 2020-11-20 | 上海依图网络科技有限公司 | 融合文本信息的敏感音频识别模型训练方法及识别方法 |
Non-Patent Citations (1)
Title |
---|
Multi-Classifier System for Authorship Verification task using Word Embeddings;Nacer Eddine Benzebouchi et al;《IEEE Xplore》;第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112732912A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN110209806B (zh) | 文本分类方法、文本分类装置及计算机可读存储介质 | |
CN112732912B (zh) | 敏感倾向表述检测方法、装置、设备及存储介质 | |
CN110580292A (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN112417153B (zh) | 文本分类方法、装置、终端设备和可读存储介质 | |
CN107273352B (zh) | 一种基于Zolu函数的词嵌入学习模型及训练方法 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112836039B (zh) | 基于深度学习的语音数据处理方法和装置 | |
CN113541834B (zh) | 一种异常信号半监督分类方法、系统、数据处理终端 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN112347246B (zh) | 一种基于谱分解的自适应文档聚类方法及系统 | |
CN111522953B (zh) | 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质 | |
CN110413992A (zh) | 一种语义分析识别方法、系统、介质和设备 | |
CN114398891B (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN113032573B (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
CN112966507B (zh) | 构建识别模型及攻击识别方法、装置、设备及存储介质 | |
CN115858781A (zh) | 一种文本标签提取方法、装置、设备及介质 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
CN115309895A (zh) | 基于研发项目文本描述的进度管理系统及其管理方法 | |
CN111368976B (zh) | 基于神经网络特征识别的数据压缩方法 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 | |
CN108563639B (zh) | 一种基于循环神经网络的蒙古语语言模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |