CN109543084B - 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 - Google Patents

一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 Download PDF

Info

Publication number
CN109543084B
CN109543084B CN201811332770.0A CN201811332770A CN109543084B CN 109543084 B CN109543084 B CN 109543084B CN 201811332770 A CN201811332770 A CN 201811332770A CN 109543084 B CN109543084 B CN 109543084B
Authority
CN
China
Prior art keywords
layer
word
sample
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811332770.0A
Other languages
English (en)
Other versions
CN109543084A (zh
Inventor
罗敏楠
林中平
郑庆华
秦涛
刘欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201811332770.0A priority Critical patent/CN109543084B/zh
Publication of CN109543084A publication Critical patent/CN109543084A/zh
Application granted granted Critical
Publication of CN109543084B publication Critical patent/CN109543084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,包括以下步骤:步骤1、互联网社交媒体文本数据高效采集及预处理,构建面向特定应用场景的数据集以及词向量词典,利用稠密的词向量,为数据集中每个类别标签赋予中文语义信息;步骤2、基于深度神经网络特征的多分类模型训练,利用卷积神经网络提取样本数据的深度特征,训练一个多分类的支持向量机;步骤3、基于中文语义理解的模型测试评价,通过深度特征向量得到文本的隐含语义。用于无敏感关键词情况下,从中文语义层面检测网络社交媒体上的中文隐蔽敏感信息,从而增加了网络舆情监测的精准程度。

Description

一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的 方法
技术领域
本发明属于互联网信息处理技术领域,具体涉及一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法。
背景技术
随着互联网的快速发展和全民应用,网络舆情成为社会舆情中十分重要的一部分。相对于传统媒介(电视、报纸、广播等),承载网络舆情的互联网呈现出言论自由度过高、突发性、传播快、受众广等特点,这也给舆情监控系统提出了实时性、高精度等要求。
针对隐蔽性程度较高的有害网络敏感舆情信息,近年来,不法分子逐渐避开在此类信息中直接使用涉及敏感的关键词。虽然这类单词不直接出现,但是从短文本整体的中文语义上,又可以明显地辨别出这种涉及敏感的有害舆情信息。此时,传统舆情系统的关键词过滤方法以及变形关键词过滤方法(拆分关键词、用拼音代替等)已经无法准确滤除包含隐蔽敏感信息的文本。因此,如何准确地检测出社交媒体中具有高隐蔽性的敏感文本信息是一个亟待解决的难点。
针对网络社交媒体的敏感信息检测方法,申请人经过查新,检索到一篇与本发明相关的专利,名称为一种基于计算机的互联网舆情监测系统,专利申请号为CN201620877903.2;该专利1提出了一种基于计算机的互联网舆情监测系统,该系统包括:服务器、数据存储器、信息提取器、数据采集网关、信号采集设备、智能分类检测器、应用网关监测设备、信号传感器、计算机、无线网络路由器和移动设备端。该专利通过数据采集网关简单过滤含特定敏感关键词的信息,但该方式仅能滤除包含显式关键词的敏感信息,对于语义隐蔽性程度较高(不包含特定敏感关键词)的网络敏感舆情信息,尚未提出有效的解决方案。
发明内容
为了解决上述问题,本发明提供了一种有效的建立用于检测隐蔽敏感文本信息的面向网络社交媒体的检测模型的方法。
为达到上述目的,本发明所述一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,包括以下步骤:
步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建。首先,通过爬虫程序,在网络社交媒体站点——新浪微博(http://weibo.cn)上利用事件关键词(组)获取与某事件相关的微博文本内容。对上述获取的原始文本数据进行预处理,以构建面向特定应用场景的隐蔽敏感文本数据集以及词向量词典D。该数据有如下两个用途:1、作为训练神经网络的数据集;2、利用公开的word2vec方法训练词向量(稠密向量),为每一条文本样本数据的标签(tag)赋予中文语义信息。
步骤2、隐蔽敏感文本检测模型训练。对步骤1隐蔽敏感信息数据集训练集中每一个文本样本,将其表示为矩阵形式A∈Rm×n,m表示样本中的单词数,n表示词向量的维度。在训练集上预训练一个卷积神经网络分类模型(Convolutional Neural Network),该模型依次包括一个卷积层、一个池化层、一个全连接层和一个Softmax分类层。当训练完成后,固定前三层的网络参数,将Softmax分类层替换为一个待训练的全连接层,该层的输出作为一个深度特征向量(维度与词向量相同,表示输入文本的整体特征信息),基于该向量训练一个多分类支持向量机,优化该支持向量机的目标函数,从而得到最优的模型,即为隐蔽敏感文本检测模型。
步骤3、隐蔽敏感文本检测模型测试及评估。在步骤2中训练完成的隐蔽敏感文本检测模型,使用预先划分好的测试集样本进行测试及性能评估。采用“Top-K”方法评估该模型的性能,首先将其输入深度神经网络经过前向计算获得特征向量,计算该向量与词典D中欧式距离余弦距离最小的k个单词向量,由这k个向量得到对应的k个单词,若满足“样本标签类别对应的单词属于k个单词中的一个”这一条件,则认为预测正确,最终得到准确率。在模型实际工作过程中,对某样本生成的集合S中的单词,理解为该样本包含的语义信息。对特定的隐蔽敏感信息的样本而言,集合S中可能会出现表示其敏感信息的显式关键词。在实际应用过程中,对于一个新样本(可以是用爬虫实时抓取的文本内容,且不带有显式的敏感关键词),首先经过数据清洗(去除特殊符号、分词、去除停用词),然后表示为大小固定的输入矩阵首先输入隐蔽敏感文本检测模型,经过步骤2.4中已经训练完成的神经网络前向计算获得特征向量,计算该特征向量与类别集合中所有词向量的余弦距离,最后根据距离由小到大距得到k个单词, k个单词可以理解为这个新样本包含的语义信息,并且其中可能会出现表示其敏感信息的显式单词。
进一步的,步骤1包括以下步骤:
步骤1.1、对于目标热点事件,人工设定相关的关键词(组)集合,又已知新浪微博搜索接口链接为“https://weibo.cn/search/mblog?&keyword={}”,将关键词(组)进行url编码,将编码结果填入链接末尾的“{}”中得到目标链接。
步骤1.2、之后利用基于Scrapy框架的Python爬虫程序访问这些目标链接,并解析目标页面,即可获取相关微博页面的原始html文档。
步骤1.3、利用爬虫解析html文档内容,获取搜索结果的原始文本内容。一个目标链接对应一个新浪微博搜索网页,每个网页大约有20条博文,每条博文的文本内容在一对<p>标签中。通过Xpath语法获取原始文本数据。对每一条原始文本数据,首先保留中文,去除数字、英文字母、表情符号等噪声,再对文本进行分词操作,进一步去除停用词,得到若干中文单词,每条原始数据被表示为若干个中文单词的组合,将中文单词存储,构成原始语料库;
步骤1.4、为语料库中的每条文本数据人工添加类别(Class)信息,构建完整的隐蔽敏感信息数据集。以“全国研究生入学考试”为例,将隐蔽敏感信息数据集中的样本分为N个类别,并用N个中文单词表示,M个敏感信息正类和N-M个非敏感信息负类别,敏感信息正类指可能包含违法信息的类别,非敏感信息负类别指与上述违法信息类别相关但其本身不是违法信息的类别,最后将该隐蔽敏感信息数据集划分为80%训练集和20%测试集。步骤1.5、使用开源的 Word2vec方法对步骤1.3中获得的原始语料库进行无监督训练,得到原始语料库中每一个单词的n维稠密向量表征,称为词向量,词向量以实数向量的形式表示单词的语义信息。原始语料库中的中文单词及其词向量组成一个词典D,以供后续步骤使用。
步骤1.6、为隐蔽敏感信息数据集样本添加标签对应的词向量。将步骤1.4得到隐蔽敏感信息数据集的类别信息映射为数值语义信息。在词向量词典D中索引查询得到N个类别单词分别对应的词向量,用以表征中文单词的语义信息,以便后续进行数值计算。
进一步的,步骤2包括以下步骤:
步骤2.1、对一个经过预处理的文本样本(xi,yi),xi表示第i个输入网络的隐蔽敏感原始文本数据,yi表示其对应的类别标签,为one-hot编码形式;xi首先被表示为i×n的矩阵形式,i为xi中实际包含的词向量数,然后对xi进行处理,使训练集数据转换为维度为m×n的输入矩阵A,行数m表示词向量数,列数n表示一个词向量的维度;
步骤2.2、训练卷积神经网络模型,作为预训练模型,首先构建一个4层的卷积神经网络,在网络结构上包括一个卷积层C1,一个池化层P2,一个全连接层F3和一个Softmax分类层 S4;在训练集上优化卷积神经网络的网络参数,待网络参数迭代至最优,作为步骤2.4的预训练模型;
步骤2.3、引入样本类别携带的语义信息,对于某样本的类别单词wt,从词向量词典D 索引得到一个n维的词向量
Figure RE-BDA0001860455890000041
表示类别标签的中文语义信息;
步骤2.4、改变步骤2.2中预训练模型的网络结构,训练隐蔽敏感信息检测模型,固定C1、 P2、F3层,将S4层替换为一个线性变换层L4,将步骤2.2中F3层得到的特征向量F3传入线性变换层L4计算后得到一个n维深度特征向量,
Figure RE-BDA0001860455890000042
用下列目标函数训练L4层的参数矩阵M,
Figure RE-BDA0001860455890000051
其中,O表示多分类支持向量机的目标函数,margin为支持向量机分类间隔值,
Figure RE-BDA0001860455890000052
为样本类别单词tag表征的中文单词的词向量,M为线性变换层的参数矩阵,经过初始化后需要训练,
Figure RE-BDA0001860455890000053
为线性变换层输出向量;
Figure RE-BDA0001860455890000054
为其余类别对应词向量;L4层输出与词向量同维度的稠密向量
Figure RE-BDA0001860455890000055
Figure RE-BDA0001860455890000056
表示输入样本的低维文本语义向量;最后分别计算它与样本对应的类别词向量
Figure RE-BDA0001860455890000057
和其余类别词向量
Figure RE-BDA0001860455890000058
的点积,使用点积相似度度量文本语义向量与类别向量
Figure RE-BDA0001860455890000059
的相似性,点积运算的值越大,则表示文本样本与某个类别词在语义上更为接近,则可判断为该训练样本属于哪个类别。
进一步的,步骤2.2包括以下步骤:输入训练集样本(xi,yi),将xi表示为输入矩阵A的形式,
在卷积层C1中,输入矩阵A经过m个宽度为l的一维卷积核
Figure RE-BDA00018604558900000510
(i=1,2,3,…,m)卷积生成m个(n-l+1)×1的特征映射向量:
Figure RE-BDA00018604558900000511
其中,
Figure RE-BDA00018604558900000512
为第1层卷积层第i个卷积核的输出结果,conv1(·)为卷积运算算子,
Figure RE-BDA00018604558900000513
为第1 个卷积层第i个卷积运算的偏置项,
Figure RE-BDA00018604558900000514
为第1层卷积层第i个卷积核的激活函数输出结果,f(·) 为激活函数算子;
在池化层P2中,一个(n-l+1)×1的特征映射向量取最大值作为池化映射,共生成m个池化映射
Figure RE-BDA00018604558900000515
Figure RE-BDA00018604558900000516
其中,
Figure RE-BDA00018604558900000517
为池化层第i个池化窗口的输出结果,down(·)为池化运算算子,
Figure RE-BDA00018604558900000518
为第2层池化层第i个池化运算的偏置项,
Figure RE-BDA00018604558900000519
为池化层的第i个池化操作经过激活函数作用的输出结果, f(·)为激活函数算子;
在普通全连接层F3中,m个池化映射
Figure RE-BDA0001860455890000061
拼接成为一个向量a,以全连接方式与下一层的q个神经元联结,
F3=f(W3·a+b3),
其中,F3为第3层全连接层经过激活函数作用的输出向量,f(·)为激活函数算子;W3为全连接层的系数矩阵,b3为第3层全连接层的偏置项;
在带Softmax分类器的特殊全连接层S4中,输出样本所属的类别,假设有q个类别(C1,C2,C3,…,Cq),对应地,Softmax分类层有q个神经元;对于样本A,得到q个神经元的输出,即该样本分别属于这q个类别的概率值,其中最大概率值对应的类别Ci就代表样本A的所属类别,计算过程如下:
S4=W4·F3+b4
Figure RE-BDA0001860455890000062
其中,S4为第4层全连接层的输出向量,W4为全连接层的系数矩阵,b4为第4层全连接层的偏置项,P(y=Ci|A)为样本A属于类别Ci的概率;
Figure RE-BDA0001860455890000063
为S4向量中第i个元素做指数幂运算的结果;对一个样本,计算它分别属于4个类别的概率,得到向量:
Figure RE-BDA0001860455890000064
计算样本(xi,yi)经过卷积神经网络前向传播后其分类结果的交叉熵损失(Loss),具体公式如下:
Figure RE-BDA0001860455890000065
其中,
Figure RE-BDA0001860455890000066
表示训练集样本xi的“one-hot”标签yi的第j个元素;同理,
Figure RE-BDA0001860455890000067
表示训练集样本xi经过卷积神经网络计算后得到的向量
Figure RE-BDA0001860455890000068
的第j个元素;在深度学习编程工具中,通过开源的算法迭代优化Loss,使其值不断变小至收敛,可以得到最优化的卷积神经网络相邻层之间的网络参数矩阵;保存这些网络参数矩阵以及卷积神经网络的结构(C1,P2,F3,S4层),作为后续步骤中的预训练模型。
进一步的,步骤3包括以下步骤:
步骤3.1、对于隐蔽敏感信息测试集中的一个样本,经过改变结构的卷积神经网络前向传播计算后,获得线性变换层的输出向量
Figure RE-BDA0001860455890000071
计算
Figure RE-BDA0001860455890000072
在词典D中与之距离最近的k个词向量之间的余弦距离,按照余弦距离由小到大排序,得到k个词向量构成的序列,List(k)= {v1,v2,…,vk};
步骤3.2、通过逆向“键-值”索引得到k个单词,构成一个单词序列,计算测试集的整体准确率,List(w)={w1,w2,…,wk},若List(w)中出现样本标签对应的单词,则预测结果为正确。
进一步的,步骤3.2中利用Top-K评价方法计算隐蔽敏感文本检测模型整体准确率,包括以下步骤:
步骤3.2.1、已知测试集样本数目为N,将样本输入到隐蔽敏感信息检测模型中;始化循环控制变量i=1,用于标识测试样本索引,样本预测准确数pre=0;
步骤3.2.2、对于测试集中的第i个样本,i≤N,经过隐蔽敏感文本检测模型网络前向传播计算后,获得线性变换层输出的n维向量,计算该向量在词向量词典与之余弦距离最小的k个n 维词向量,并通过反向索引得到k个单词,k个单词组成集合S;
步骤3.2.3、若测试样本i的标签对应单词在集合S中,则为预测准确,pre自增1,接着开始判断第i+1个样本;反之,直接判断第i+1个样本;
步骤3.2.4、当遍历完N个测试集样本后,计算
Figure RE-BDA0001860455890000073
与现有技术相比,本发明至少具有以下有益的技术效果,针对来自互联网社交媒体站点的文本数据,提取出不同类别隐蔽敏感信息的深度特征,基于以上特征,训练一个适用的深度学习模型,从而对社交媒体中新的隐蔽敏感文本信息进行有效检测。
传统鉴别敏感信息的方法大多是“分步”的,首先人为设置敏感关键词,然后在文本内容中进行精确匹配,效果容易被一些汉字拆分、异体字等手段所干扰。而本专利基于“端到端”的思路,利用目前在文本挖掘领域应用较为广泛的深度学习技术,在检测效率和效果上相较以往有了显著提升。
附图说明
图1本发明隐蔽敏感信息检测方法流程图;
图2互联网文本数据采集及预处理流程图;
图3语义模型“Top-K”评价方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
参照图1,本实施例以全国大型考试期间(如高考、研究生入学考试等)对网络社交媒体中隐蔽敏感文本进行检测。一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,包括以下步骤:
步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建。首先在网络社交媒体站点——新浪微博上获取与“考试”相关的文本信息。在大型考试到来前1-2个月,人工设定相关的若干个关键词,利用爬虫工具爬取新浪微博的用户发表的与“考试”相关的文本信息,然后对原始文本经过数据清洗、类别标注等操作后得到与考试有关的隐蔽敏感数据数据集。以“全国研究生入学考试”为例,在标注文本数据阶段,经过对采集到的历史数据进行简单分析,预先定义若干种隐蔽敏感信息的类别,如“作弊”、“泄题”、“助考”等类别(比如“作弊”类包含了与“作弊”有关的文本,但文本中不包含单词“作弊”,比如“今天带的小纸条终于派上用场了”这条博文,在考研期间,大概率涉及“作弊”这一现象),另外添加一个非敏感信息类,定义为“考研”类。“作弊”、“泄题”、“助考”和“考研”组成类别集合,将文本数据分到上述若干个类别中。在该隐蔽敏感文本的数据集上使用公开的Word2vec方法无监督训练得到词向量并持久化存储为词向量词典。由于隐蔽敏感信息在网络中分布较少,在训练词向量的数据集中,保留中文单词“作弊”“泄题”“助考”;在训练以及测试后续机器学习模型时,数据集中滤除了这些单词,保证数据集呈现出“隐蔽”性的特点。
步骤1包括以下步骤:
步骤1.1、对于某个全国性考试,如“研究生入学考试”,设置与其相关的关键词(组) 集合,如(“考研”、“考研分数线”等),在新浪微博搜索页面进行全站搜索,寻找包含关键词组的相关微博内容,又已知新浪微博搜索接口链接为“https://weibo.cn/search/mblog? &keyword={}”,将关键词(组)进行url编码,将编码结果填入链接末尾的“{}”中得到目标链接。
步骤1.2、利用基于Scrapy框架的Python爬虫程序访问步骤1.1获得的目标链接,并解析目标页面,即可获取相关微博页面的原始html文档。
步骤1.3、利用爬虫解析html文档内容,获取搜索结果的原始文本内容。一个目标链接对应一个新浪微博搜索网页,每个页面大约有20条博文,每条博文的文本内容在一对<p>标签中。通过Xpath语法获取原始文本数据。在数据清洗阶段,对每一条原始文本数据,首先保留中文,去除数字、英文字母、表情符号等噪声,再对文本进行分词操作,去除停用词,得到若干中文单词,每条原始文本数据被表示为若干个中文单词的组合,将中文单词存储,构成原始语料库;此时,语料库中每条文本数据由若干个中文单词构成。
步骤1.4、为语料库中的每条文本数据人工添加类别(Class)信息,构建完整的隐蔽敏感信息数据集。以“全国研究生入学考试”为例,将数据集中的样本分为四个携带具体含义的类别,并用四个中文单词表示:“泄题”,“答案”,“作弊”三个隐蔽敏感信息正类和一个“考研”负类,最后将该数据集划分为80%训练集和20%测试集。
步骤1.5、使用开源的Word2vec方法对步骤1.3中获得的原始语料库进行无监督训练,得到语料库中每一个单词对应的n维稠密数值向量,称为词向量。词向量以实数向量的形式表示单词的语义信息。原始语料库中的所有中文单词及其词向量组成一个词典D,以“词-词向量”的“键-值”对方式进行查询,供后续步骤使用。
步骤1.6、将步骤1.4得到隐蔽敏感信息数据集的类别信息映射为数值语义信息。仍然以“研究生入学考试”的隐蔽敏感信息数据集为例,在词向量词典D中索引查询得到四个类别单词分别对应的词向量,用以表征中文单词的语义信息,以便后续进行数值计算。
步骤2、隐蔽敏感文本检测模型训练。对步骤1隐蔽敏感文本数据集的训练集中每一个文本样本,将其表示为矩阵形式A∈Rm×n,m表示样本中的单词数,n表示词向量的维度。在训练集上预训练一个卷积神经网络分类模型(Convolutional Neural Network),该分类模型依次包括一个卷积层、一个池化层、一个全连接层和一个Softmax分类层。当训练完成后,固定前三层的网络参数,将Softmax分类层替换为一个待训练的全连接层,该层的输出作为一个深度特征向量(维度与词向量相同,表示输入文本的整体特征信息),基于该向量训练一个多分类支持向量机,使用时下开源的深度学习工具优化该多分类支持向量机的目标函数,从而得到最优的模型,即为隐蔽敏感文本检测模型。
步骤2具体包括以下步骤:
步骤2.1、对一个经过预处理的文本样本(xi,yi),xi表示第i个输入网络的隐蔽敏感原始文本数据,yi表示其对应的类别标签,为“one-hot”编码形式(在本范例中,“作弊”类的编码向量为[1,0,0,0],“泄题”类的编码向量为[0,1,0,0],“助考”类的编码向量为[0,0,1,0],“考研”类的编码向量为[0,0,0,1]);xi首先被表示为i×n的矩阵形式,i为xi中实际包含的词向量数,然后对xi进行处理,使训练集数据转换为维度为m×n的输入矩阵A,行数m表示词向量数,列数n表示一个词向量的维度;
步骤2.2、训练卷积神经网络。获得步骤2.1中某个样本的矩阵表示A后,将该样本作为卷积神经网络的输入,卷积神经网络包括一个卷积层C1,一个池化层P2,一个普通全连接层 F3和一个Softmax分类层S4。然后利用训练集得到一个基于卷积神经网络的预训练模型;
在卷积层C1中,A经过m个宽度为l的一维卷积核
Figure RE-BDA0001860455890000111
卷积生成m个 (n-l+1)×1的特征映射向量:
Figure RE-BDA0001860455890000112
Figure RE-BDA0001860455890000113
其中,
Figure RE-BDA0001860455890000114
为第1层卷积层第i个卷积核的输出结果,conv1(·)为卷积运算算子,
Figure RE-BDA00018604558900001114
为第1 个卷积层第i个卷积运算的偏置项,
Figure RE-BDA0001860455890000116
为第1层卷积层第i个卷积核的激活函数输出结果,f(·) 为激活函数算子。
在池化层P2中,一个(n-l+1)×1的特征映射向量取最大值作为池化映射,共生成m个池化映射
Figure RE-BDA0001860455890000117
Figure RE-BDA0001860455890000118
Figure RE-BDA0001860455890000119
其中,
Figure RE-BDA00018604558900001115
为池化层第i个池化窗口的输出结果,down(·)为池化运算算子,
Figure RE-BDA00018604558900001111
为第2层池化层第i个池化运算的偏置项,
Figure RE-BDA00018604558900001112
为池化层的第i个池化操作经过激活函数作用的输出结果, f(·)为激活函数算子。
在普通全连接层F3中,m个池化映射
Figure RE-BDA00018604558900001113
拼接成为一个向量a,以全连接方式与下一层的q个神经元联结。
F3=f(W3·a+b3)
其中,F3为第3层全连接层经过激活函数作用的输出向量,f(·)为激活函数算子;W3为全连接层的系数矩阵,b3为第3层全连接层的偏置项。
在带Softmax分类器的特殊全连接层S4中,输出样本所属的类别。假设有q个类别(C1,C2,C3,…,Cq),对应地,Softmax分类层有q个神经元。对于样本A,得到q个神经元的输出,即该样本分别属于这q个类别的概率值,其中最大概率值对应的类别Ci就代表样本A的所属类别,计算过程:
S4=W4·F3+b4
Figure RE-BDA0001860455890000121
其中,S4为第4层全连接层的输出向量,W4为全连接层的系数矩阵,b4为第4层全连接层的偏置项,P(y=Ci|A)为样本A属于类别Ci的概率;
Figure RE-BDA0001860455890000122
为S4向量中第i个元素做指数幂运算的结果。对一个样本,计算它分别属于4个类别的概率,得到向量:
Figure RE-BDA0001860455890000123
计算样本(xi,yi)经过卷积神经网络前向传播后其分类结果的交叉熵损失(Loss),具体公式如下:
Figure RE-BDA0001860455890000124
其中,
Figure RE-BDA0001860455890000125
表示训练集样本xi的“one-hot”标签yi的第j个元素。同理,
Figure RE-BDA0001860455890000126
表示训练集样本xi经过卷积神经网络计算后得到的向量
Figure RE-BDA0001860455890000127
的第j个元素。在深度学习编程工具中,通过开源的算法迭代优化Loss,使其值不断变小至收敛,可以得到最优化的卷积神经网络相邻层之间的网络参数矩阵。保存这些网络参数矩阵以及卷积神经网络的结构(C1,P2,F3,S4层),作为后续步骤中的预训练模型。
步骤2.3、引入样本类别携带的语义信息。对于某样本的类别单词wt,从词向量词典D 索引得到一个n维的词向量
Figure RE-BDA0001860455890000131
表示类别标签的中文语义信息。
步骤2.4、改变步骤2.2中卷积神经网络结构,训练多分类支持向量机模型(即隐蔽敏感文本检测模型)。固定C1、P2、F3层,将S4层替换为一个线性变换层L4。将步骤2.2中F3层得到的特征向量F3传入线性变换层L4计算后得到一个n维深度特征向量(与词向量维度相同,表示文本的深度特征)
Figure RE-BDA0001860455890000132
用下列目标函数训练L4层的参数矩阵M。
Figure RE-BDA0001860455890000133
Figure RE-BDA0001860455890000134
其中,O表示多分类支持向量机模型的目标函数,margin为支持向量机分类间隔值,
Figure RE-BDA0001860455890000135
为样本类别单词tag表征的中文单词的词向量,M为线性变换层的参数矩阵,经过初始化后需要训练,
Figure RE-BDA0001860455890000136
为其余类别对应词向量(在本范例中,若tag表示“泄题”,那么 j={“作弊”,“答案”,“考研”})。L4层输出与词向量同维度的稠密向量
Figure RE-BDA0001860455890000137
Figure RE-BDA0001860455890000138
表示输入样本的低维文本语义向量。最后分别计算它与样本对应的类别词向量
Figure RE-BDA0001860455890000139
和其余类别词向量
Figure RE-BDA00018604558900001310
的点积,使用点积相似度(Product Similarity)度量文本语义向量与类别向量
Figure RE-BDA00018604558900001311
的相似性,点积运算的值越大,则表示文本样本与某个类别词在语义上更为接近,则可判断为该训练样本属于哪个类别。
步骤3、隐蔽敏感文本检测模型测试及评估。首先判断步骤2.4中的敏感文本检测模型是否训练完成(网络参数是否收敛),若隐蔽敏感文本检测模型已经完成优化收敛,使用预先划分好的测试集样本进行测试及性能评估。采用“Top-K”方法评估该模型的性能,首先将其输入深度神经网络经过前向计算获得特征向量,计算该向量与词典D中余弦距离最小的k个向量 (k值大小由人工设定,一般k≤20),由这k个向量得到对应的k个单词,若满足“样本类别对应的单词属于k个单词中的一个”这一条件,则认为预测正确,最终得到准确率。
为模型准确率设置一个阈值,若准确率结果大于该阈值,则认为该隐蔽敏感信息检测模型有效;反之,通过调整学习率或/和指数衰减率,直至准确率符合阈值要求。
在实际应用过程中,对于一个新样本(可以是用爬虫实时抓取的文本内容,且不带有显式的敏感关键词),首先经过数据清洗(去除特殊符号、分词、去除停用词),然后表示为大小固定的输入矩阵,经过步骤2.4中已经训练完成的神经网络前向计算获得特征向量,计算该特征向量与类别集合中所有词向量的余弦距离,最后根据距离由小到大得到k个单词,k个单词可以理解为这个新样本包含的语义信息,并且其中可以出现表示其敏感信息的显式单词。
步骤3具体包括以下步骤:
步骤3.1、在模型测试评价阶段,对于隐蔽敏感信息测试集中的一个样本,经过改变结构的卷积神经网络前向传播计算后,获得线性变换层的输出向量
Figure RE-BDA0001860455890000141
计算
Figure RE-BDA0001860455890000145
在词典D中与之距离最近的k个词向量之间的余弦距离,计算公式如下:
Figure RE-BDA0001860455890000143
Figure RE-BDA0001860455890000144
表示词向量词典中的任意词向量,按照余弦距离由小到大排序,得到k个词向量构成的序列,List(k)={v1,v2,…,vk}。
步骤3.2、通过逆向“键-值”索引得到k个单词,构成一个单词序列,List(w)={w1,w2,…,wk},若List(w)中出现样本标签对应的单词,则认为预测正确,最终可以计算测试集的整体准确率。同时,List(w)中的单词也可以表征某一段新的文本样本包含的语义信息,实验证明,即使某些样本中未显式地出现某些敏感词汇,在List(w)中也能够查找得到表示敏感信息且与原文本语义相关的单词,以此可以检测网络社交媒体中某些文本是否呈现携带隐蔽敏感信息。
步骤3.2中利用“Top-K”评价方法计算测试集的整体准确率,参照图3,“Top-K”评价方法计算测试集的整体准确率具体包括以下步骤:
步骤3.2.1、在测试集上进行模型评价。已知测试集样本数目为N,将这些样本输入到隐蔽敏感文本检测模型中。另初始化循环控制变量i=1,用于标识测试样本索引,样本预测准确数pre=0。
步骤3.2.2、对于测试集中的第i(i≤N)个样本,经过隐蔽敏感文本检测模型网络前向传播计算后,获得线性变换层输出的n维向量,计算该向量在词向量词典与之余弦距离最小的 k个n维词向量,从而通过反向索引得到k个单词,k个单词组成集合S。
步骤3.2.3、若测试样本i的标签对应单词在k个单词的集合中,则为预测准确,对pre做自增1,开始判断第i+1个样本;反之,直接开始判断第i+1个样本。
步骤3.2.4、当遍历完N个测试集样本后,计算
Figure RE-BDA0001860455890000151
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (5)

1.一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,其特征在于,包括以下步骤:
步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建:在网络社交媒体站点上利用事件关键词或关键词组获取与某事件相关的原始文本数据,对获取的文本数据进行预处理,以构建隐蔽敏感文本数据集以及词向量词典D,并将隐蔽敏感信息数据集划分为训练集和测试集;
步骤2、隐蔽敏感文本检测模型训练:训练隐蔽敏感信息数据集中的每一个文本样本,将其表示为矩阵形式A∈Rm×n,m表示样本中的单词数,n表示词向量的维度;在训练集上预训练一个卷积神经网络分类模型,训练完成后,固定前三层的网络参数,将Softmax分类层替换为一个待训练的全连接层,该层的输出作为一个深度特征向量,基于该深度特征向量训练一个多分类支持向量机,优化该支持向量机的目标函数,从而得到最优的模型,即为隐蔽敏感文本检测模型;
步骤3、隐蔽敏感文本检测模型测试及评估:使用预先划分好的测试集样本对步骤2中训练完成的隐蔽敏感文本检测模型进行测试及性能评估,评估隐蔽敏感文本检测模型的准确率;
步骤2包括以下步骤:
步骤2.1、对一个经过预处理的文本样本(xi,yi),xi表示第i个输入网络的隐蔽敏感原始文本数据,yi表示其对应的类别标签,为one-hot编码形式;xi首先被表示为i×n的矩阵形式,i为xi中实际包含的词向量数,然后对xi进行处理,使训练集数据转换为维度为m×n的输入矩阵A,行数m表示词向量数,列数n表示一个词向量的维度;
步骤2.2、训练卷积神经网络模型,作为预训练模型,首先构建一个4层的卷积神经网络,在网络结构上包括一个卷积层C1,一个池化层P2,一个全连接层F3和一个Softmax分类层S4;在训练集上优化卷积神经网络的网络参数,待网络参数迭代至最优,作为步骤2.4的预训练模型;
步骤2.3、引入样本类别携带的语义信息,对于某样本的类别单词wt,从词向量词典D索引得到一个n维的词向量
Figure FDA0002581404730000021
表示类别标签的中文语义信息;
步骤2.4、改变步骤2.2中预训练模型的网络结构,训练隐蔽敏感信息检测模型,固定C1、P2、F3层,将S4层替换为一个线性变换层L4,将步骤2.2中F3层得到的特征向量F3传入线性变换层L4计算后得到一个n维深度特征向量,
Figure FDA0002581404730000022
用下列目标函数训练L4层的参数矩阵M,
Figure FDA0002581404730000023
其中,O表示多分类支持向量机的目标函数,margin为支持向量机分类间隔值,
Figure FDA0002581404730000024
为样本类别单词tag表征的中文单词的词向量,M为线性变换层的参数矩阵,经过初始化后需要训练,
Figure FDA0002581404730000025
为线性变换层输出向量;
Figure FDA0002581404730000026
为其余类别对应词向量;L4层输出与词向量同维度的稠密向量
Figure FDA0002581404730000027
Figure FDA0002581404730000028
表示输入样本的低维文本语义向量;最后分别计算它与样本对应的类别词向量
Figure FDA0002581404730000029
和其余类别词向量
Figure FDA00025814047300000210
的点积,使用点积相似度度量文本语义向量与类别向量
Figure FDA00025814047300000211
的相似性,点积运算的值越大,则表示文本样本与某个类别词在语义上更为接近,则可判断为该训练样本属于哪个类别。
2.根据权利要求1所述的一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,其特征在于,步骤1包括以下步骤:
步骤1.1、人工设定与某事件相关的关键或关键词组词集合,将关键词或关键词组进行url编码,得到目标链接;
步骤1.2、利用基于Scrapy框架的Python爬虫程序访问步骤1.1得到的所有目标链接,并解析目标页面,即可获取相关页面的原始html文档;
步骤1.3、解析原始html文档内容,获取原始文本数据,对每一条原始文本数据,依次进行保留中文、去除数字、英文字母以及表情符号的操作,再进行分词操作,然后去除停用词,得到若干中文单词,每条原始文本数据被表示为若干个中文单词的组合,将中文单词存储,构成原始语料库,此时,语料库中的每条文本数据由若干个中文单词构成;
步骤1.4、为语料库中的每条文本数据人工添加类别信息,构建隐蔽敏感信息数据集,将隐蔽敏感信息数据集中的样本分为N个类别,并用N个中文单词表示,N个类别包括M个敏感信息正类和N-M个非敏感信息负类别,敏感信息正类指可能包含违法信息的类别,非敏感信息负类别指与上述违法信息类别相关但其本身不是违法信息的类别,最后将隐蔽敏感信息数据集划分为80%训练集和20%测试集;
步骤1.5、使用开源的Word2vec方法对原始语料库进行无监督训练,得到原始语料库中每一个单词的n维稠密向量表征,称为词向量,原始语料库中的中文单词及其词向量组成一个词典D;
步骤1.6、将隐蔽敏感信息数据集的类别信息映射为数值语义信息,在词向量词典D中索引查询得到N个类别单词分别对应的词向量,用以表征中文单词的语义信息。
3.根据权利要求1所述的一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,其特征在于,步骤2.2包括以下步骤:输入训练集样本(xi,yi),将xi表示为输入矩阵A的形式,
在卷积层C1中,输入矩阵A经过m个宽度为l的一维卷积核
Figure FDA0002581404730000031
卷积生成m个(n-l+1)×1的特征映射向量:
Figure FDA0002581404730000032
其中,
Figure FDA0002581404730000033
为第1层卷积层第i个卷积核的输出结果,conv1(·)为卷积运算算子,
Figure FDA0002581404730000034
为第1个卷积层第i个卷积运算的偏置项,
Figure FDA0002581404730000035
为第1层卷积层第i个卷积核的激活函数输出结果,f(·)为激活函数算子;
在池化层P2中,一个(n-l+1)×1的特征映射向量取最大值作为池化映射,共生成m个池化映射
Figure FDA0002581404730000041
Figure FDA0002581404730000042
其中,
Figure FDA0002581404730000043
为池化层第i个池化窗口的输出结果,down(·)为池化运算算子,
Figure FDA0002581404730000044
为第2层池化层第i个池化运算的偏置项,
Figure FDA0002581404730000045
为池化层的第i个池化操作经过激活函数作用的输出结果,f(·)为激活函数算子;
在普通全连接层F3中,m个池化映射
Figure FDA0002581404730000046
拼接成为一个向量a,以全连接方式与下一层的q个神经元联结,
F3=f(W3·a+b3),
其中,F3为第3层全连接层经过激活函数作用的输出向量,f(·)为激活函数算子;W3为全连接层的系数矩阵,b3为第3层全连接层的偏置项;
在带Softmax分类器的特殊全连接层S4中,输出样本所属的类别,假设有q个类别(C1,C2,C3,...,Cq),对应地,Softmax分类层有q个神经元;对于样本A,得到q个神经元的输出,即该样本分别属于这q个类别的概率值,其中最大概率值对应的类别Ci就代表样本A的所属类别,计算过程如下:
S4=W4·F3+b4
Figure FDA0002581404730000047
其中,S4为第4层全连接层的输出向量,W4为全连接层的系数矩阵,b4为第4层全连接层的偏置项,P(y=Ci|A)为样本A属于类别Ci的概率;
Figure FDA0002581404730000048
为S4向量中第i个元素做指数幂运算的结果;对一个样本,计算它分别属于4个类别的概率,得到向量:
Figure FDA0002581404730000049
计算样本(xi,yi)经过卷积神经网络前向传播后其分类结果的交叉熵损失Loss,具体公式如下:
Figure FDA0002581404730000051
其中,
Figure FDA0002581404730000052
表示训练集样本xi的“one-hot”标签yi的第j个元素;同理,
Figure FDA0002581404730000053
表示训练集样本xi经过卷积神经网络计算后得到的向量
Figure FDA0002581404730000054
的第j个元素;在深度学习编程工具中,通过开源的算法迭代优化Loss,使其值不断变小至收敛,可以得到最优化的卷积神经网络相邻层之间的网络参数矩阵;保存这些网络参数矩阵以及卷积神经网络的结构,作为后续步骤中的预训练模型。
4.根据权利要求1所述的一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,其特征在于,步骤3包括以下步骤:
步骤3.1、对于隐蔽敏感信息测试集中的一个样本,经过改变结构的卷积神经网络前向传播计算后,获得线性变换层的输出向量
Figure FDA0002581404730000055
计算
Figure FDA0002581404730000056
在词典D中与之距离最近的k个词向量之间的余弦距离,按照余弦距离由小到大排序,得到k个词向量构成的序列,List(k)={v1,v2,…,vk};
步骤3.2、通过逆向“键-值”索引得到k个单词,构成一个单词序列,计算测试集的整体准确率,List(w)={w1,w2,...,wk},若List(w)中出现样本标签对应的单词,则预测结果为正确。
5.根据权利要求4所述的一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,其特征在于,步骤3.2中利用Top-K评价方法计算隐蔽敏感文本检测模型整体准确率,包括以下步骤:
步骤3.2.1、已知测试集样本数目为N,将样本输入到隐蔽敏感信息检测模型中;始化循环控制变量i=1,用于标识测试样本索引,样本预测准确数pre=0;
步骤3.2.2、对于测试集中的第i个样本,i≤N,经过隐蔽敏感文本检测模型网络前向传播计算后,获得线性变换层输出的n维向量,计算该向量在词向量词典与之余弦距离最小的k个n维词向量,并通过反向索引得到k个单词,k个单词组成集合S;
步骤3.2.3、若测试样本i的标签对应单词在集合S中,则为预测准确,pre自增1,接着开始判断第i+1个样本;反之,直接判断第i+1个样本;
步骤3.2.4、当遍历完N个测试集样本后,
Figure FDA0002581404730000061
CN201811332770.0A 2018-11-09 2018-11-09 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 Active CN109543084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811332770.0A CN109543084B (zh) 2018-11-09 2018-11-09 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811332770.0A CN109543084B (zh) 2018-11-09 2018-11-09 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Publications (2)

Publication Number Publication Date
CN109543084A CN109543084A (zh) 2019-03-29
CN109543084B true CN109543084B (zh) 2021-01-19

Family

ID=65846492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811332770.0A Active CN109543084B (zh) 2018-11-09 2018-11-09 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Country Status (1)

Country Link
CN (1) CN109543084B (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920710B (zh) * 2018-07-20 2019-07-09 北京开普云信息科技有限公司 一种对互联网信息进行涉密涉敏信息监测方法及系统
CN109508544B (zh) * 2018-10-19 2022-12-06 南京理工大学 一种基于mlp的入侵检测方法
CN110188192B (zh) * 2019-04-16 2023-01-31 西安电子科技大学 一种多任务网络构建与多尺度的罪名法条联合预测方法
US11159551B2 (en) * 2019-04-19 2021-10-26 Microsoft Technology Licensing, Llc Sensitive data detection in communication data
CN110245682B (zh) * 2019-05-13 2021-07-27 华中科技大学 一种基于话题的网络表示学习方法
CN110134961A (zh) * 2019-05-17 2019-08-16 北京邮电大学 文本的处理方法、装置和存储介质
CN110134966A (zh) * 2019-05-21 2019-08-16 中电健康云科技有限公司 一种敏感信息确定方法及装置
CN110162601B (zh) * 2019-05-22 2020-12-25 吉林大学 一种基于深度学习的生物医学出版物投稿推荐系统
CN110209815A (zh) * 2019-05-23 2019-09-06 国家计算机网络与信息安全管理中心 一种卷积神经网络的新闻用户兴趣挖掘方法
CN110188781B (zh) * 2019-06-06 2022-07-22 焦点科技股份有限公司 一种基于深度学习的古诗文自动识别方法
CN110287236B (zh) * 2019-06-25 2024-03-19 平安科技(深圳)有限公司 一种基于面试信息的数据挖掘方法、系统及终端设备
CN110570941B (zh) * 2019-07-17 2020-08-14 北京智能工场科技有限公司 一种基于文本语义向量模型评估心理状态的系统和装置
CN110502610A (zh) * 2019-07-24 2019-11-26 深圳壹账通智能科技有限公司 基于文本语义相似度的智能语音签名方法、装置及介质
CN110442865B (zh) * 2019-07-27 2020-12-11 中山大学 一种基于社交媒体的社会群体认知指数构建方法
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端
CN110688452B (zh) * 2019-08-23 2022-09-13 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110851590A (zh) * 2019-09-11 2020-02-28 上海爱数信息技术股份有限公司 一种通过敏感词检测与非法内容识别进行文本分类的方法
CN112560472B (zh) * 2019-09-26 2023-07-11 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN110929029A (zh) * 2019-11-04 2020-03-27 中国科学院信息工程研究所 一种基于图卷积神经网络的文本分类方法及系统
CN110968795B (zh) * 2019-11-27 2023-06-02 国网能源研究院有限公司 一种公司形象提升系统的数据关联匹配系统
US11194841B2 (en) 2019-11-28 2021-12-07 International Business Machines Corporation Value classification by contextual classification of similar values in additional documents
CN111241825B (zh) * 2020-01-08 2023-03-28 广东博智林机器人有限公司 广告词违禁检测模型的训练方法、检测方法及装置
CN111241824B (zh) * 2020-01-09 2020-11-24 中国搜索信息科技股份有限公司 一种用于中文隐喻信息识别的方法
CN111259658B (zh) * 2020-02-05 2022-08-19 中国科学院计算技术研究所 一种基于类别稠密向量表示的通用文本分类方法及系统
CN111414520B (zh) * 2020-03-19 2021-03-19 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统
CN111414496B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN111460818B (zh) * 2020-03-31 2023-06-30 中国测绘科学研究院 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN113807512B (zh) * 2020-06-12 2024-01-23 株式会社理光 机器阅读理解模型的训练方法、装置及可读存储介质
CN111666414B (zh) * 2020-06-12 2023-10-17 上海观安信息技术股份有限公司 一种敏感数据检测云服务的方法和云服务平台
CN112000799A (zh) * 2020-07-02 2020-11-27 广东华兴银行股份有限公司 基于拼音特征增强的中文舆情监测方法
CN111782811A (zh) * 2020-07-03 2020-10-16 湖南大学 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN111538929B (zh) * 2020-07-08 2020-12-18 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN112036167B (zh) * 2020-08-25 2023-11-28 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112132262B (zh) * 2020-09-08 2022-05-20 西安交通大学 基于可解释模型的循环神经网络后门攻击检测方法
CN112949318B (zh) * 2021-03-03 2022-03-25 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN113297845B (zh) * 2021-06-21 2022-07-26 南京航空航天大学 一种基于多层次双向循环神经网络的简历块分类方法
CN113590918A (zh) * 2021-07-12 2021-11-02 电子科技大学 基于课程式学习的社交媒体舆情热度监测的框架构建方法
CN113641821B (zh) * 2021-08-11 2023-08-29 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN114238661B (zh) * 2021-12-22 2024-03-19 西安交通大学 一种基于可解释模型的文本歧视性样本检测生成系统与方法
CN114429106B (zh) * 2021-12-29 2023-04-07 北京百度网讯科技有限公司 页面信息处理方法、装置、电子设备和存储介质
CN114492437B (zh) * 2022-02-16 2023-07-18 平安科技(深圳)有限公司 关键词识别方法、装置、电子设备及存储介质
CN115618398A (zh) * 2022-12-20 2023-01-17 吉林省信息技术研究所 一种网络数据库用户信息加密系统及方法
CN116628584A (zh) * 2023-07-21 2023-08-22 国网智能电网研究院有限公司 电力敏感数据处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048997B2 (en) * 2016-12-27 2021-06-29 Texas Instruments Incorporated Reduced complexity convolution for convolutional neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109543084A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111274405B (zh) 一种基于gcn的文本分类方法
CN109492157B (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN105139237A (zh) 信息推送的方法和装置
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN107506472B (zh) 一种学生浏览网页分类方法
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
CN110765277A (zh) 一种基于知识图谱的移动端的在线设备故障诊断平台
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN111400478A (zh) 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
Meng et al. Regional bullying text recognition based on two-branch parallel neural networks
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Constantin et al. Hateful meme detection with multimodal deep neural networks
CN111950717B (zh) 一种基于神经网络的舆情量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant