CN112287072A - 一种多维互联网文本风险数据识别方法 - Google Patents
一种多维互联网文本风险数据识别方法 Download PDFInfo
- Publication number
- CN112287072A CN112287072A CN202011307349.1A CN202011307349A CN112287072A CN 112287072 A CN112287072 A CN 112287072A CN 202011307349 A CN202011307349 A CN 202011307349A CN 112287072 A CN112287072 A CN 112287072A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- internet
- risk
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 11
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多维互联网文本风险数据识别方法,包括:S1、对训练样本进行文本预处理;S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;S4、使用降维后的深度特征训练双向LSTM神经网络模型;S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。本发明的方法尤其适用于海量多源的多维互联网文本数据的识别,可以准确、有效地识别出互联网文本风险数据。
Description
技术领域
本发明涉及数据识别技术领域,具体涉及一种多维互联网文本风险数据识别方法。
背景技术
随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛包含海量数据,而且不断产生新网页新数据。互联网数据蕴含大量有价值的信息,对于互联网社会公共安全数据风险防控具有重要意义。
其中,互联网文本数据具有数据量大、实时性强、数据维度高、数据边界广泛等特点,而目前现有的数据识别方法存在模型比较单一的问题,对于多维数据的识别效果差,不适用于海量多源互联网数据,难以准确地在海量互联网文本数据中识别出风险数据。因此设计一种准确高效的多维互联网文本风险数据识别方法,是实现风险防控的关键。
发明内容
针对现有技术的不足,本发明旨在提供一种多维互联网文本风险数据识别方法,可以实现准确、有效地识别出互联网文本风险数据。
为了实现上述目的,本发明采用如下技术方案:
一种多维互联网文本风险数据识别方法,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及文本风险数据作为训练样本;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后采用相应的分词方法将文本分割为词语;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词;
S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;
S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;
S4、使用降维后的深度特征训练双向LSTM神经网络模型;
S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。
进一步地,步骤S1.1中,所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。
进一步地,步骤S1.1中,文本无风险数据和文本风险数据的数量比例为1:1。
进一步地,步骤S1.2中,若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词、去除标点符号、大小写转换、词干提取。
进一步地,步骤S1.2中,若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库,按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
进一步地,步骤S2中,使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。
进一步地,步骤S4中,将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
进一步地,步骤S5的具体过程为:采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
本发明的有益效果在于:本发明的方法尤其适用于海量多源的多维互联网文本数据的识别,可以准确、有效地识别出互联网文本风险数据。
附图说明
图1为本发明实施例的方法流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种多维互联网文本风险数据识别方法,如图1所示,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及含有诈骗、色情、恐吓、暴力等内容的文本风险数据作为训练样本,文本无风险数据和文本风险数据的数量比例为1:1;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后将文本分割为词语(词语是自然语言处理中里最细粒度的表达)。将文本分割为词语方便计算机理解和进一步分析语义,而英文和中文由于构词法和语法的不同,采用不同的分词方法。
若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词,去除标点符号,大小写转换,词干提取(即词根的还原)。其中,词干提取将属于同一个词干的派生词进行归类转化为统一形式,进一步增加词的类别与文档中的词之间匹配度。
若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库(即词典),按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
需要说明的是,采用正向最大匹配法与词典进行匹配的过程为:从左向右取待分汉语句的m个字作为匹配字段,m为词典中最长词的长度;查找词典进行匹配;若匹配成功,则将该字段作为一个词切分出去;若匹配不成功,则将该字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配;重复上述过程,直到切分所有词为止;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词。停用词是没有实际含义的虚词,如中文的“了、着、吧、啊”和英文中的“the、that、a”,结构助词“的、是、对”和“is、to、on、of”等。
预处理结束后,得到分词化、去冗余的文本数据,作为特征提取的输入。
S2、对预处理后的文本数据进行特征提取,生成词向量。
预处理后得到的仍然是文本数据,计算机无法直接处理,需要将单词映射到向量空间中,进行文本特征提取。使用word2vec词嵌入方法中的Cont inuous Bag-of-Words(CBOW)模型来完成文本特征提取。模型训练及单词向量化过程为:
CBOW模型是一个三层的神经网络模型,假设输入文本如下:“a b c d e f g“,想象有个滑动窗口,第一个词‘e’为关键词,其它词帮助分析。文本的长度为7,就得到了7个one-hot向量,作为CBOW模型的输入向量,训练目标是:最大化在给定前后文本情况下输出正确关键词的概率,即:
Maximise P("e"|("c","d","f","g"))
训练完成后,权重矩阵中的每一行就是对应单词的word2vec向量,即为文本中提取的特征。
S3、使用深度自编码网络对步骤S2中提取的特征进行降维。
特征提取后得到的word2vec向量是高维向量,含有大量冗余信息,通过深度自编码网络降维可以提取深度特征,减少数据量,提高识别准确率和效率。
深度自编码网络是多层的神经网络,使用非线性激活函数,由编码器和解码器两部分组成,编码器用于将输入的高维数据映射到低维向量空间,解码器用于重构输入数据,深度自编码网络的训练目标是:最小化输入数据和重构输入数据的误差,即:
训练完成后,编码器输出结果即为降维后的深度特征。
另外,除了深度自编码网络外,还可以采用PCA进行降维操作。
S4、使用降维后的深度特征训练双向LSTM神经网络模型。
双向LSTM神经网络模型,是在双向LSTM层基础上,加入全连接层和softmax层,克服了RNN和LSTM只能依据之前时刻的时序信息来预测下一时刻输出的问题,真正做到基于上下文判断,对于双向LSTM神经网络模型结构不再赘述。将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
S5、使用训练好的神经网络模型实现对文本风险数据的识别。
采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
Claims (8)
1.一种多维互联网文本风险数据识别方法,其特征在于,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及文本风险数据作为训练样本;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后采用相应的分词方法将文本分割为词语;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词;
S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;
S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;
S4、使用降维后的深度特征训练双向LSTM神经网络模型;
S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。
2.根据权利要求1所述的方法,其特征在于,步骤S1.1中,所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。
3.根据权利要求1所述的方法,其特征在于,步骤S1.1中,文本无风险数据和文本风险数据的数量比例为1:1。
4.根据权利要求1所述的方法,其特征在于,步骤S1.2中,若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词、去除标点符号、大小写转换、词干提取。
5.根据权利要求1所述的方法,其特征在于,步骤S1.2中,若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库,按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
6.根据权利要求1所述的方法,其特征在于,步骤S2中,使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。
7.根据权利要求1所述的方法,其特征在于,步骤S4中,将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
8.根据权利要求1所述的方法,其特征在于,步骤S5的具体过程为:采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011307349.1A CN112287072A (zh) | 2020-11-20 | 2020-11-20 | 一种多维互联网文本风险数据识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011307349.1A CN112287072A (zh) | 2020-11-20 | 2020-11-20 | 一种多维互联网文本风险数据识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287072A true CN112287072A (zh) | 2021-01-29 |
Family
ID=74399294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011307349.1A Pending CN112287072A (zh) | 2020-11-20 | 2020-11-20 | 一种多维互联网文本风险数据识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287072A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254587A (zh) * | 2021-05-31 | 2021-08-13 | 北京奇艺世纪科技有限公司 | 搜索文本的识别方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN110321554A (zh) * | 2019-06-03 | 2019-10-11 | 任子行网络技术股份有限公司 | 基于Bi-LSTM的不良文本检测方法及装置 |
-
2020
- 2020-11-20 CN CN202011307349.1A patent/CN112287072A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN110321554A (zh) * | 2019-06-03 | 2019-10-11 | 任子行网络技术股份有限公司 | 基于Bi-LSTM的不良文本检测方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254587A (zh) * | 2021-05-31 | 2021-08-13 | 北京奇艺世纪科技有限公司 | 搜索文本的识别方法、装置、计算机设备及存储介质 |
CN113254587B (zh) * | 2021-05-31 | 2023-10-13 | 北京奇艺世纪科技有限公司 | 搜索文本的识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
US20230031738A1 (en) | Taxpayer industry classification method based on label-noise learning | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110188781B (zh) | 一种基于深度学习的古诗文自动识别方法 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN109992775B (zh) | 一种基于高级语义的文本摘要生成方法 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN112434535A (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN113239663B (zh) | 一种基于知网的多义词中文实体关系识别方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
CN114386417A (zh) | 一种融入词边界信息的中文嵌套命名实体识别方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN115238697A (zh) | 基于自然语言处理的司法命名实体识别方法 | |
CN115718792A (zh) | 一种基于自然语义处理和深度学习的敏感信息提取方法 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |