CN114021651A - 一种基于深度学习的区块链违法信息感知方法 - Google Patents

一种基于深度学习的区块链违法信息感知方法 Download PDF

Info

Publication number
CN114021651A
CN114021651A CN202111299602.8A CN202111299602A CN114021651A CN 114021651 A CN114021651 A CN 114021651A CN 202111299602 A CN202111299602 A CN 202111299602A CN 114021651 A CN114021651 A CN 114021651A
Authority
CN
China
Prior art keywords
information
word
vector
feature vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111299602.8A
Other languages
English (en)
Other versions
CN114021651B (zh
Inventor
梁海
丁勇
苏子秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202111299602.8A priority Critical patent/CN114021651B/zh
Publication of CN114021651A publication Critical patent/CN114021651A/zh
Application granted granted Critical
Publication of CN114021651B publication Critical patent/CN114021651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的区块链违法信息感知方法,包括如下步骤:1)收集链上信息;2)文本特征提取;3)图片特征提取;4)特征融合;5)利用训练集对步骤1)‑步骤4)的深度学习神经网络模型采用反向传播算法进行训练;6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。这种方法判断更安全准确可靠。

Description

一种基于深度学习的区块链违法信息感知方法
技术领域
本发明涉及深度学习的信息感知技术,具体为一种基于深度学习的区块链违法信息感知方法。
背景技术
网络的快速发展和普及产生海量数据,随之而来的是数据类型繁杂、信息规模庞大等问题。在信息感知识别领域,因非法组织与违法活动产生的数据分散、范围广,加之非结构化数据逐渐增多,导致治理行动受阻,这是安全监管行动部门关注的焦点问题。
在网络违法信息分析领域,针对网络信息流量大流速快的问题,目前并没有特别高效的解决方案能够准确捕获和分析有用信息,主要涉及到两个方面的因素:一是数据量过大,即处理对象难以确定和获取;二是由于人工智能技术近年发展迅速,网民对于传统模型接触较多已能够通过同义(同音,同形)词替换来达到避开人工智能模型的检测。从本质上来看这两个难点均反映出情报工作对数据处理技术的高要求,相较于其他机器学习方法,多编码融合的深度学习算法鼓励大数据集的收集并能够在训练过程中集成特征提取,对链上信息进行多角度综合分析,有效提高信息判断的准确性,从而更方便有效的对链上信息进行管理。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于深度学习的区块链违法信息感知方法。这种方法判断更安全准确可靠。
实现本发明目的的技术方案是:
一种基于深度学习的区块链违法信息感知方法,包括如下步骤:
1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
2)文本特征提取:
21)从链上信息的数据集中单独提取文本信息;
22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
编码步骤如下:
231)词义编码:采用skip-gram模型应用于学习连续语义词向量,记作Tm
232)词形编码:先将各词组转化为图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作Tg
233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N 个拼音形式的N个字符的新序列,最后将词义编码中使用的skip-gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记Tv
234)将词义词向量Tm,词音词向量Tv和词形向量Tg进行级联得到T=[Tm,Tv,Tg];
235)将级联后的向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;
236)用步骤235)中的所得权重乘以步骤234)中级联后的特征向量T,得到融合特征向量;
24)将步骤236)中得到的融合特征向量放入LSTM模型中进行文本特征提取,最终将经过LSTM提取的输出作为文本特征向量记作Xtex
3)图片特征提取步骤:
31)从链上信息的数据集中单独提取图像信息;
32)去均值:将提取的图像信息的各维度都减对应维度的均值,使得输入数据各个维度都中心化为0;
33)归一化:将图片生成的图像素矩阵中的值变为(0,1)之间的小数,由于图像素矩阵的取值在0~255,故直接将矩阵除255即可;
34)将步骤236)中得到的融合特征向量放入CNN模型中进行图像特征提取,最终将经过图像提取的输出作为文本特征向量记作Ximg
4)特征融合:
41)将提取的文本特征向量Xtex和图特征向量Ximg进行级联得到Xt=[Xtex,Ximg];
42)将级联后的特征向量Xt利用softmax函数计算图特征向量和文本特征向量各自的权重;
43)用步骤42)中所得的权重去乘步骤41)中级联后的特征向量Xt,得到融合特征向量;
5)利用训练集对步骤1)-步骤4)的深度学习神经网络模型采用反向传播算法进行训练;
6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。
与传统方法相比,本技术方案图文特征信息的融合机制综合考虑了图文两方面,图片特征信息与文本特征信息相辅相成使得模型判断更为准确可靠,同时由于注意力机制的引入,可通过计算图片与文本的权重占比来更为直观的判断链上信息违法成分是在图片还是文本中,其中文本信息还综合考虑了文本语义,文本词形,文本词读音等三方面信息,文本语义信息的提取与运用防止了用户通过同义词恶意修改文本来达到躲避模型检测的目的,文本词形信息的提取与运用防止了用户通过同形词恶意替换文本来达到躲避模型检测的目的,文本读音信息的提取与运用防止了用户通过同音词恶意修改文本来达到躲避模型检测的目的,使得最终提取的文本信息更为全面,使得模型更加安全可靠。
这种方法判断更安全准确可靠。
附图说明
图1为实施例的流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
参照图1,一种基于深度学习的区块链违法信息感知方法,包括如下步骤:
1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
2)文本特征提取:
21)从链上信息的数据集中单独提取文本信息;
22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
编码步骤如下:
231)词义编码:采用skip-gram模型应用于学习连续语义词向量,记作Tm
232)词形编码:先将各词组转化为24*24*3的图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作Tg
233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N 个拼音形式的N个字符的新序列,最后将词义编码中使用的skip-gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记Tv
234)将词义词向量Tm,词音词向量Tv和词形向量Tg进行级联得到T=[Tm,Tv,Tg];
235)将级联后的向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;
236)用步骤235)中所得的权重乘以步骤234)中级联后的特征向量T,得到融合特征向量;
24)将步骤236)中得到的融合特征向量放入LSTM模型中进行文本特征提取,最终将经过LSTM提取的输出作为文本特征向量记作Xtex
3)图片特征提取步骤:
31)从链上信息的数据集中单独提取图像信息;
32)去均值:将提取的图像信息的各维度都减对应维度的均值,使得输入数据各个维度都中心化为0;
33)归一化:将图片生成的图像素矩阵中的值变为(0,1)之间的小数,由于图像素矩阵的取值在0~255,故直接将矩阵除255即可;
34)将步骤236)中得到的融合特征向量放入CNN模型中进行图像特征提取,最终将经过图像提取的输出作为文本特征向量记作Ximg
4)特征融合:
41)将提取的文本特征向量Xtex和图特征向量Ximg进行级联得到Xt=[Xtex,Ximg];
42)将级联后的特征向量Xt利用softmax函数计算图特征向量和文本特征向量各自的权重;
43)用步骤42)中所得的权重去乘步骤41)级联后的特征向量Xt,得到融合特征向量;
5)利用训练集对步骤1)-步骤4)的深度学习神经网络模型采用反向传播算法进行训练;
6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。

Claims (1)

1.一种基于深度学习的区块链违法信息感知方法,其特征在于,包括如下步骤:
1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
2)文本特征提取:
21)从链上信息的数据集中单独提取文本信息;
22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
编码步骤如下:
231)词义编码:采用skip-gram模型应用于学习连续语义词向量,记作Tm
232)词形编码:先将各词组转化为图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作Tg
233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N个拼音形式的N个字符的新序列,最后将词义编码中使用的skip-gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记Tv
234)将词义词向量Tm,词音词向量Tv和词形向量Tg进行级联得到T=[Tm,Tv,Tg];
235)将级联后的特征向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;
236)用步骤235)中所得的权重乘以步骤234)中级联后的特征向量T,得到融合特征向量;
24)将步骤236)中得到的融合特征向量放入LSTM模型中进行文本特征提取,最终将经过LSTM提取的输出作为文本特征向量记作Xtex
3)图片特征提取:
31)从链上信息的数据集中单独提取图像信息;
32)去均值:将提取的图像信息的各维度都减对应维度的均值,使得输入数据各个维度都中心化为0;
33)归一化:将图片生成的图像素矩阵中的值变为(0,1)之间的小数,由于图像素矩阵的取值在0~255,故直接将矩阵除255即可;
34)将步骤236)中得到的融合特征向量放入CNN模型中进行图像特征提取,最终将经过图像提取的输出作为文本特征向量记作Ximg
4)特征融合:
41)将提取的文本特征向量Xtex和图特征向量Ximg进行级联得到Xt=[Xtex,Ximg];
42)将级联后的特征向量Xt利用softmax函数计算图特征向量和文本特征向量各自的权重;
43)用步骤42)中所得的权重去乘步骤41)中级联后的特征向量Xt,得到融合特征向量;
5)利用训练集对步骤1)-步骤4)的深度学习神经网络模型采用反向传播算法进行训练;
6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。
CN202111299602.8A 2021-11-04 2021-11-04 一种基于深度学习的区块链违法信息感知方法 Active CN114021651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111299602.8A CN114021651B (zh) 2021-11-04 2021-11-04 一种基于深度学习的区块链违法信息感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111299602.8A CN114021651B (zh) 2021-11-04 2021-11-04 一种基于深度学习的区块链违法信息感知方法

Publications (2)

Publication Number Publication Date
CN114021651A true CN114021651A (zh) 2022-02-08
CN114021651B CN114021651B (zh) 2024-03-29

Family

ID=80060991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111299602.8A Active CN114021651B (zh) 2021-11-04 2021-11-04 一种基于深度学习的区块链违法信息感知方法

Country Status (1)

Country Link
CN (1) CN114021651B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN111522956A (zh) * 2020-05-08 2020-08-11 河南理工大学 基于双通道和层次化注意力网络的文本情感分类方法
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN112560858A (zh) * 2020-10-13 2021-03-26 国家计算机网络与信息安全管理中心 一种联合轻量化网络和个性化特征提取的字符图片检测及快速匹配方法
CN113034331A (zh) * 2021-05-06 2021-06-25 国家计算机网络与信息安全管理中心上海分中心 一种基于多模态融合的安卓赌博应用识别方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN111522956A (zh) * 2020-05-08 2020-08-11 河南理工大学 基于双通道和层次化注意力网络的文本情感分类方法
CN112560858A (zh) * 2020-10-13 2021-03-26 国家计算机网络与信息安全管理中心 一种联合轻量化网络和个性化特征提取的字符图片检测及快速匹配方法
CN113034331A (zh) * 2021-05-06 2021-06-25 国家计算机网络与信息安全管理中心上海分中心 一种基于多模态融合的安卓赌博应用识别方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张仰森;周炜翔;张禹尧;吴云芳;: "一种基于情感计算与层次化多头注意力机制的负面新闻识别方法", 电子学报, no. 09, 15 September 2020 (2020-09-15) *

Also Published As

Publication number Publication date
CN114021651B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN109145712B (zh) 一种融合文本信息的gif短视频情感识别方法及系统
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
CN107491435B (zh) 基于计算机自动识别用户情感的方法及装置
CN110188781B (zh) 一种基于深度学习的古诗文自动识别方法
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN113780486B (zh) 一种视觉问答的方法、装置及介质
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN109241383A (zh) 一种基于深度学习的网页类型智能识别方法及系统
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN110969023A (zh) 文本相似度的确定方法及装置
CN117851871A (zh) 一种境外互联网社交阵地多模态数据识别方法
CN115953788A (zh) 基于ocr和nlp技术的绿色金融属性智能认定方法及系统
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN112487795A (zh) 上下文讽刺检测方法、装置、电子设备及存储介质
CN114021651B (zh) 一种基于深度学习的区块链违法信息感知方法
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant