CN112287072A - 一种多维互联网文本风险数据识别方法 - Google Patents

一种多维互联网文本风险数据识别方法 Download PDF

Info

Publication number
CN112287072A
CN112287072A CN202011307349.1A CN202011307349A CN112287072A CN 112287072 A CN112287072 A CN 112287072A CN 202011307349 A CN202011307349 A CN 202011307349A CN 112287072 A CN112287072 A CN 112287072A
Authority
CN
China
Prior art keywords
text
data
internet
risk
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011307349.1A
Other languages
English (en)
Inventor
王慧娟
王晓峰
印晓天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Research Institute of Ministry of Public Security
Original Assignee
First Research Institute of Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Research Institute of Ministry of Public Security filed Critical First Research Institute of Ministry of Public Security
Priority to CN202011307349.1A priority Critical patent/CN112287072A/zh
Publication of CN112287072A publication Critical patent/CN112287072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多维互联网文本风险数据识别方法,包括:S1、对训练样本进行文本预处理;S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;S4、使用降维后的深度特征训练双向LSTM神经网络模型;S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。本发明的方法尤其适用于海量多源的多维互联网文本数据的识别,可以准确、有效地识别出互联网文本风险数据。

Description

一种多维互联网文本风险数据识别方法
技术领域
本发明涉及数据识别技术领域,具体涉及一种多维互联网文本风险数据识别方法。
背景技术
随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛包含海量数据,而且不断产生新网页新数据。互联网数据蕴含大量有价值的信息,对于互联网社会公共安全数据风险防控具有重要意义。
其中,互联网文本数据具有数据量大、实时性强、数据维度高、数据边界广泛等特点,而目前现有的数据识别方法存在模型比较单一的问题,对于多维数据的识别效果差,不适用于海量多源互联网数据,难以准确地在海量互联网文本数据中识别出风险数据。因此设计一种准确高效的多维互联网文本风险数据识别方法,是实现风险防控的关键。
发明内容
针对现有技术的不足,本发明旨在提供一种多维互联网文本风险数据识别方法,可以实现准确、有效地识别出互联网文本风险数据。
为了实现上述目的,本发明采用如下技术方案:
一种多维互联网文本风险数据识别方法,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及文本风险数据作为训练样本;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后采用相应的分词方法将文本分割为词语;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词;
S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;
S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;
S4、使用降维后的深度特征训练双向LSTM神经网络模型;
S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。
进一步地,步骤S1.1中,所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。
进一步地,步骤S1.1中,文本无风险数据和文本风险数据的数量比例为1:1。
进一步地,步骤S1.2中,若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词、去除标点符号、大小写转换、词干提取。
进一步地,步骤S1.2中,若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库,按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
进一步地,步骤S2中,使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。
进一步地,步骤S4中,将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
进一步地,步骤S5的具体过程为:采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
本发明的有益效果在于:本发明的方法尤其适用于海量多源的多维互联网文本数据的识别,可以准确、有效地识别出互联网文本风险数据。
附图说明
图1为本发明实施例的方法流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种多维互联网文本风险数据识别方法,如图1所示,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及含有诈骗、色情、恐吓、暴力等内容的文本风险数据作为训练样本,文本无风险数据和文本风险数据的数量比例为1:1;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后将文本分割为词语(词语是自然语言处理中里最细粒度的表达)。将文本分割为词语方便计算机理解和进一步分析语义,而英文和中文由于构词法和语法的不同,采用不同的分词方法。
若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词,去除标点符号,大小写转换,词干提取(即词根的还原)。其中,词干提取将属于同一个词干的派生词进行归类转化为统一形式,进一步增加词的类别与文档中的词之间匹配度。
若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库(即词典),按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
需要说明的是,采用正向最大匹配法与词典进行匹配的过程为:从左向右取待分汉语句的m个字作为匹配字段,m为词典中最长词的长度;查找词典进行匹配;若匹配成功,则将该字段作为一个词切分出去;若匹配不成功,则将该字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配;重复上述过程,直到切分所有词为止;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词。停用词是没有实际含义的虚词,如中文的“了、着、吧、啊”和英文中的“the、that、a”,结构助词“的、是、对”和“is、to、on、of”等。
预处理结束后,得到分词化、去冗余的文本数据,作为特征提取的输入。
S2、对预处理后的文本数据进行特征提取,生成词向量。
预处理后得到的仍然是文本数据,计算机无法直接处理,需要将单词映射到向量空间中,进行文本特征提取。使用word2vec词嵌入方法中的Cont inuous Bag-of-Words(CBOW)模型来完成文本特征提取。模型训练及单词向量化过程为:
CBOW模型是一个三层的神经网络模型,假设输入文本如下:“a b c d e f g“,想象有个滑动窗口,第一个词‘e’为关键词,其它词帮助分析。文本的长度为7,就得到了7个one-hot向量,作为CBOW模型的输入向量,训练目标是:最大化在给定前后文本情况下输出正确关键词的概率,即:
Maximise P("e"|("c","d","f","g"))
训练完成后,权重矩阵中的每一行就是对应单词的word2vec向量,即为文本中提取的特征。
S3、使用深度自编码网络对步骤S2中提取的特征进行降维。
特征提取后得到的word2vec向量是高维向量,含有大量冗余信息,通过深度自编码网络降维可以提取深度特征,减少数据量,提高识别准确率和效率。
深度自编码网络是多层的神经网络,使用非线性激活函数,由编码器和解码器两部分组成,编码器用于将输入的高维数据映射到低维向量空间,解码器用于重构输入数据,深度自编码网络的训练目标是:最小化输入数据和重构输入数据的误差,即:
Figure BDA0002788683190000061
训练完成后,编码器输出结果即为降维后的深度特征。
另外,除了深度自编码网络外,还可以采用PCA进行降维操作。
S4、使用降维后的深度特征训练双向LSTM神经网络模型。
双向LSTM神经网络模型,是在双向LSTM层基础上,加入全连接层和softmax层,克服了RNN和LSTM只能依据之前时刻的时序信息来预测下一时刻输出的问题,真正做到基于上下文判断,对于双向LSTM神经网络模型结构不再赘述。将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
S5、使用训练好的神经网络模型实现对文本风险数据的识别。
采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (8)

1.一种多维互联网文本风险数据识别方法,其特征在于,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及文本风险数据作为训练样本;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后采用相应的分词方法将文本分割为词语;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词;
S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;
S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;
S4、使用降维后的深度特征训练双向LSTM神经网络模型;
S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。
2.根据权利要求1所述的方法,其特征在于,步骤S1.1中,所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。
3.根据权利要求1所述的方法,其特征在于,步骤S1.1中,文本无风险数据和文本风险数据的数量比例为1:1。
4.根据权利要求1所述的方法,其特征在于,步骤S1.2中,若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词、去除标点符号、大小写转换、词干提取。
5.根据权利要求1所述的方法,其特征在于,步骤S1.2中,若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库,按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
6.根据权利要求1所述的方法,其特征在于,步骤S2中,使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。
7.根据权利要求1所述的方法,其特征在于,步骤S4中,将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
8.根据权利要求1所述的方法,其特征在于,步骤S5的具体过程为:采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
CN202011307349.1A 2020-11-20 2020-11-20 一种多维互联网文本风险数据识别方法 Pending CN112287072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011307349.1A CN112287072A (zh) 2020-11-20 2020-11-20 一种多维互联网文本风险数据识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011307349.1A CN112287072A (zh) 2020-11-20 2020-11-20 一种多维互联网文本风险数据识别方法

Publications (1)

Publication Number Publication Date
CN112287072A true CN112287072A (zh) 2021-01-29

Family

ID=74399294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011307349.1A Pending CN112287072A (zh) 2020-11-20 2020-11-20 一种多维互联网文本风险数据识别方法

Country Status (1)

Country Link
CN (1) CN112287072A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254587A (zh) * 2021-05-31 2021-08-13 北京奇艺世纪科技有限公司 搜索文本的识别方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110321554A (zh) * 2019-06-03 2019-10-11 任子行网络技术股份有限公司 基于Bi-LSTM的不良文本检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110321554A (zh) * 2019-06-03 2019-10-11 任子行网络技术股份有限公司 基于Bi-LSTM的不良文本检测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254587A (zh) * 2021-05-31 2021-08-13 北京奇艺世纪科技有限公司 搜索文本的识别方法、装置、计算机设备及存储介质
CN113254587B (zh) * 2021-05-31 2023-10-13 北京奇艺世纪科技有限公司 搜索文本的识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
US20230031738A1 (en) Taxpayer industry classification method based on label-noise learning
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110188781B (zh) 一种基于深度学习的古诗文自动识别方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111259153B (zh) 一种完全注意力机制的属性级情感分析方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN115238697A (zh) 基于自然语言处理的司法命名实体识别方法
CN115718792A (zh) 一种基于自然语义处理和深度学习的敏感信息提取方法
CN111858933A (zh) 基于字符的层次化文本情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination