CN114021651A - 一种基于深度学习的区块链违法信息感知方法 - Google Patents
一种基于深度学习的区块链违法信息感知方法 Download PDFInfo
- Publication number
- CN114021651A CN114021651A CN202111299602.8A CN202111299602A CN114021651A CN 114021651 A CN114021651 A CN 114021651A CN 202111299602 A CN202111299602 A CN 202111299602A CN 114021651 A CN114021651 A CN 114021651A
- Authority
- CN
- China
- Prior art keywords
- information
- word
- vector
- feature vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000008447 perception Effects 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的区块链违法信息感知方法,包括如下步骤:1)收集链上信息;2)文本特征提取;3)图片特征提取;4)特征融合;5)利用训练集对步骤1)‑步骤4)的深度学习神经网络模型采用反向传播算法进行训练;6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。这种方法判断更安全准确可靠。
Description
技术领域
本发明涉及深度学习的信息感知技术,具体为一种基于深度学习的区块链违法信息感知方法。
背景技术
网络的快速发展和普及产生海量数据,随之而来的是数据类型繁杂、信息规模庞大等问题。在信息感知识别领域,因非法组织与违法活动产生的数据分散、范围广,加之非结构化数据逐渐增多,导致治理行动受阻,这是安全监管行动部门关注的焦点问题。
在网络违法信息分析领域,针对网络信息流量大流速快的问题,目前并没有特别高效的解决方案能够准确捕获和分析有用信息,主要涉及到两个方面的因素:一是数据量过大,即处理对象难以确定和获取;二是由于人工智能技术近年发展迅速,网民对于传统模型接触较多已能够通过同义(同音,同形)词替换来达到避开人工智能模型的检测。从本质上来看这两个难点均反映出情报工作对数据处理技术的高要求,相较于其他机器学习方法,多编码融合的深度学习算法鼓励大数据集的收集并能够在训练过程中集成特征提取,对链上信息进行多角度综合分析,有效提高信息判断的准确性,从而更方便有效的对链上信息进行管理。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于深度学习的区块链违法信息感知方法。这种方法判断更安全准确可靠。
实现本发明目的的技术方案是:
一种基于深度学习的区块链违法信息感知方法,包括如下步骤:
1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
2)文本特征提取:
21)从链上信息的数据集中单独提取文本信息;
22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
编码步骤如下:
231)词义编码:采用skip-gram模型应用于学习连续语义词向量,记作Tm;
232)词形编码:先将各词组转化为图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作Tg;
233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N 个拼音形式的N个字符的新序列,最后将词义编码中使用的skip-gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记Tv;
234)将词义词向量Tm,词音词向量Tv和词形向量Tg进行级联得到T=[Tm,Tv,Tg];
235)将级联后的向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;
236)用步骤235)中的所得权重乘以步骤234)中级联后的特征向量T,得到融合特征向量;
24)将步骤236)中得到的融合特征向量放入LSTM模型中进行文本特征提取,最终将经过LSTM提取的输出作为文本特征向量记作Xtex;
3)图片特征提取步骤:
31)从链上信息的数据集中单独提取图像信息;
32)去均值:将提取的图像信息的各维度都减对应维度的均值,使得输入数据各个维度都中心化为0;
33)归一化:将图片生成的图像素矩阵中的值变为(0,1)之间的小数,由于图像素矩阵的取值在0~255,故直接将矩阵除255即可;
34)将步骤236)中得到的融合特征向量放入CNN模型中进行图像特征提取,最终将经过图像提取的输出作为文本特征向量记作Ximg;
4)特征融合:
41)将提取的文本特征向量Xtex和图特征向量Ximg进行级联得到Xt=[Xtex,Ximg];
42)将级联后的特征向量Xt利用softmax函数计算图特征向量和文本特征向量各自的权重;
43)用步骤42)中所得的权重去乘步骤41)中级联后的特征向量Xt,得到融合特征向量;
5)利用训练集对步骤1)-步骤4)的深度学习神经网络模型采用反向传播算法进行训练;
6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。
与传统方法相比,本技术方案图文特征信息的融合机制综合考虑了图文两方面,图片特征信息与文本特征信息相辅相成使得模型判断更为准确可靠,同时由于注意力机制的引入,可通过计算图片与文本的权重占比来更为直观的判断链上信息违法成分是在图片还是文本中,其中文本信息还综合考虑了文本语义,文本词形,文本词读音等三方面信息,文本语义信息的提取与运用防止了用户通过同义词恶意修改文本来达到躲避模型检测的目的,文本词形信息的提取与运用防止了用户通过同形词恶意替换文本来达到躲避模型检测的目的,文本读音信息的提取与运用防止了用户通过同音词恶意修改文本来达到躲避模型检测的目的,使得最终提取的文本信息更为全面,使得模型更加安全可靠。
这种方法判断更安全准确可靠。
附图说明
图1为实施例的流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
参照图1,一种基于深度学习的区块链违法信息感知方法,包括如下步骤:
1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
2)文本特征提取:
21)从链上信息的数据集中单独提取文本信息;
22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
编码步骤如下:
231)词义编码:采用skip-gram模型应用于学习连续语义词向量,记作Tm;
232)词形编码:先将各词组转化为24*24*3的图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作Tg;
233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N 个拼音形式的N个字符的新序列,最后将词义编码中使用的skip-gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记Tv;
234)将词义词向量Tm,词音词向量Tv和词形向量Tg进行级联得到T=[Tm,Tv,Tg];
235)将级联后的向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;
236)用步骤235)中所得的权重乘以步骤234)中级联后的特征向量T,得到融合特征向量;
24)将步骤236)中得到的融合特征向量放入LSTM模型中进行文本特征提取,最终将经过LSTM提取的输出作为文本特征向量记作Xtex;
3)图片特征提取步骤:
31)从链上信息的数据集中单独提取图像信息;
32)去均值:将提取的图像信息的各维度都减对应维度的均值,使得输入数据各个维度都中心化为0;
33)归一化:将图片生成的图像素矩阵中的值变为(0,1)之间的小数,由于图像素矩阵的取值在0~255,故直接将矩阵除255即可;
34)将步骤236)中得到的融合特征向量放入CNN模型中进行图像特征提取,最终将经过图像提取的输出作为文本特征向量记作Ximg;
4)特征融合:
41)将提取的文本特征向量Xtex和图特征向量Ximg进行级联得到Xt=[Xtex,Ximg];
42)将级联后的特征向量Xt利用softmax函数计算图特征向量和文本特征向量各自的权重;
43)用步骤42)中所得的权重去乘步骤41)级联后的特征向量Xt,得到融合特征向量;
5)利用训练集对步骤1)-步骤4)的深度学习神经网络模型采用反向传播算法进行训练;
6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。
Claims (1)
1.一种基于深度学习的区块链违法信息感知方法,其特征在于,包括如下步骤:
1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
2)文本特征提取:
21)从链上信息的数据集中单独提取文本信息;
22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
编码步骤如下:
231)词义编码:采用skip-gram模型应用于学习连续语义词向量,记作Tm;
232)词形编码:先将各词组转化为图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作Tg;
233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N个拼音形式的N个字符的新序列,最后将词义编码中使用的skip-gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记Tv;
234)将词义词向量Tm,词音词向量Tv和词形向量Tg进行级联得到T=[Tm,Tv,Tg];
235)将级联后的特征向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;
236)用步骤235)中所得的权重乘以步骤234)中级联后的特征向量T,得到融合特征向量;
24)将步骤236)中得到的融合特征向量放入LSTM模型中进行文本特征提取,最终将经过LSTM提取的输出作为文本特征向量记作Xtex;
3)图片特征提取:
31)从链上信息的数据集中单独提取图像信息;
32)去均值:将提取的图像信息的各维度都减对应维度的均值,使得输入数据各个维度都中心化为0;
33)归一化:将图片生成的图像素矩阵中的值变为(0,1)之间的小数,由于图像素矩阵的取值在0~255,故直接将矩阵除255即可;
34)将步骤236)中得到的融合特征向量放入CNN模型中进行图像特征提取,最终将经过图像提取的输出作为文本特征向量记作Ximg;
4)特征融合:
41)将提取的文本特征向量Xtex和图特征向量Ximg进行级联得到Xt=[Xtex,Ximg];
42)将级联后的特征向量Xt利用softmax函数计算图特征向量和文本特征向量各自的权重;
43)用步骤42)中所得的权重去乘步骤41)中级联后的特征向量Xt,得到融合特征向量;
5)利用训练集对步骤1)-步骤4)的深度学习神经网络模型采用反向传播算法进行训练;
6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299602.8A CN114021651B (zh) | 2021-11-04 | 2021-11-04 | 一种基于深度学习的区块链违法信息感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299602.8A CN114021651B (zh) | 2021-11-04 | 2021-11-04 | 一种基于深度学习的区块链违法信息感知方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114021651A true CN114021651A (zh) | 2022-02-08 |
CN114021651B CN114021651B (zh) | 2024-03-29 |
Family
ID=80060991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111299602.8A Active CN114021651B (zh) | 2021-11-04 | 2021-11-04 | 一种基于深度学习的区块链违法信息感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021651B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN111522956A (zh) * | 2020-05-08 | 2020-08-11 | 河南理工大学 | 基于双通道和层次化注意力网络的文本情感分类方法 |
WO2020244066A1 (zh) * | 2019-06-04 | 2020-12-10 | 平安科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN112560858A (zh) * | 2020-10-13 | 2021-03-26 | 国家计算机网络与信息安全管理中心 | 一种联合轻量化网络和个性化特征提取的字符图片检测及快速匹配方法 |
CN113034331A (zh) * | 2021-05-06 | 2021-06-25 | 国家计算机网络与信息安全管理中心上海分中心 | 一种基于多模态融合的安卓赌博应用识别方法和系统 |
-
2021
- 2021-11-04 CN CN202111299602.8A patent/CN114021651B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
WO2020244066A1 (zh) * | 2019-06-04 | 2020-12-10 | 平安科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN111522956A (zh) * | 2020-05-08 | 2020-08-11 | 河南理工大学 | 基于双通道和层次化注意力网络的文本情感分类方法 |
CN112560858A (zh) * | 2020-10-13 | 2021-03-26 | 国家计算机网络与信息安全管理中心 | 一种联合轻量化网络和个性化特征提取的字符图片检测及快速匹配方法 |
CN113034331A (zh) * | 2021-05-06 | 2021-06-25 | 国家计算机网络与信息安全管理中心上海分中心 | 一种基于多模态融合的安卓赌博应用识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
张仰森;周炜翔;张禹尧;吴云芳;: "一种基于情感计算与层次化多头注意力机制的负面新闻识别方法", 电子学报, no. 09, 15 September 2020 (2020-09-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114021651B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN109145712B (zh) | 一种融合文本信息的gif短视频情感识别方法及系统 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN107491435B (zh) | 基于计算机自动识别用户情感的方法及装置 | |
CN110188781B (zh) | 一种基于深度学习的古诗文自动识别方法 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN113780486B (zh) | 一种视觉问答的方法、装置及介质 | |
CN109446333A (zh) | 一种实现中文文本分类的方法及相关设备 | |
CN109241383A (zh) | 一种基于深度学习的网页类型智能识别方法及系统 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN110969023A (zh) | 文本相似度的确定方法及装置 | |
CN117851871A (zh) | 一种境外互联网社交阵地多模态数据识别方法 | |
CN115953788A (zh) | 基于ocr和nlp技术的绿色金融属性智能认定方法及系统 | |
CN111538893B (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112487795A (zh) | 上下文讽刺检测方法、装置、电子设备及存储介质 | |
CN114021651B (zh) | 一种基于深度学习的区块链违法信息感知方法 | |
CN116579348A (zh) | 基于不确定语义融合的虚假新闻检测方法及系统 | |
US20230305863A1 (en) | Self-Supervised System for Learning a User Interface Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |