CN117540059A - 一种面向异构区块链的信息内容风险检测方法及系统 - Google Patents
一种面向异构区块链的信息内容风险检测方法及系统 Download PDFInfo
- Publication number
- CN117540059A CN117540059A CN202311382459.8A CN202311382459A CN117540059A CN 117540059 A CN117540059 A CN 117540059A CN 202311382459 A CN202311382459 A CN 202311382459A CN 117540059 A CN117540059 A CN 117540059A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- detected
- automaton
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000007726 management method Methods 0.000 claims description 44
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 8
- 238000013499 data model Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 description 52
- 239000010410 layer Substances 0.000 description 26
- 230000007246 mechanism Effects 0.000 description 18
- 238000007689 inspection Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000007405 data analysis Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 238000010223 real-time analysis Methods 0.000 description 5
- 239000012792 core layer Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向异构区块链的信息内容风险检测方法及系统,该方法包括:构建若干个字典树;其中,每一字典树包括与一数据类型相关的关键词;对异构区块链中的数据经过统一接入、数据类型与核心要素提取后,得到待检测数据集;基于数据类型选择一字典树,遍历字典树的节点并将节点添加到一空AC自动机中后,得到该数据类型对应的AC自动机;基于AC自动机,对待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果。本发明解决了大规模多类型区块链应用数据的高效且准确的检测问题。
Description
技术领域
本发明属于区块链技术和信息安全领域,尤其涉及一种面向异构区块链的信息内容风险检测方法及系统。
背景技术
区块链融合了分布式存储、点对点网络、共识机制、密码学和智能合约等计算机技术,使得数据公开透明、不可篡改、不可伪造、可追溯。以区块链为载体的信息和价值的协同和传递已经在社会经济生活中显现出强大的创新驱动能力。与此同时,随着区块链应用深度和广度的急速提升,区块链上的信息内容安全问题凸显,已发生过利用区块链匿名、不可篡改、不可删除的特性进行违法不良信息传播的现象。
我国区块链监管的核心思路是实名制、备案制、和设置监管节点,也即要求境内使用区块链网络服务的用户必须是实名制的、境内提供区块链网络服务的主体必须取得中央网信办的备案许可、境内运行的区块链网络服务系统必须设置监管节点。
面向境内的异构区块链及其多样化的链上应用与内容,区块链监管在高效接入与风险检测方面存在技术挑战。
(1)通过构建监管节点服务,将应用区块链纳入监管中,支撑内容安全监管。应用区块链及其应用系统的多样性对信息检测系统的高效接入提出了较大挑战,需要设计一种业务无关、灵活易扩展的信息检测接入方法,能够使得企业能以较低成本配合实行信息安全检测服务且不影响其常规业务。
(2)在多轮区块链创新应用浪潮中,区块链应用范围大大扩展,由单纯的加密货币交易信息到多媒体信息内容,多样化链上内容对信息检测系统提出了新的挑战。围绕信息服务的应用规模和信息内容存储与传播能力,如何对接入信息内容高效且准确的检测是关键。
发明内容
本发明的目的在于克服面向异构区块链及其多样化应用系统的高效接入与风险检测技术的不足,提出一种面向异构区块链的信息内容风险检测方法及系统,解决了大规模多类型区块链应用数据的高效且准确的检测问题。
具体来说,本发明结合基于异构区块链应用多样性兼容机制与适配多样性的多级动态关键词过滤引擎,实现区块链多类型应用的高效接入与风险检测。该方案是以一个区块链统一接入与风险检测平台为载体实现的。该平台是前后端分离模式实现的,前端由Vue框架实现,后端是基于SpringBoot+Mybatis+Elasticsearch实现的Restful API接口服务的形式供前端页面调用,针对异构区块链及链上应用的数据多样性,采用主流的分布式搜索引擎Elasticsearch对数据进行统一存储与检索,而对于服务部署方式的选择,考虑到服务的快速部署与扩缩,结合海量数据多样性的接入检测场景,实现服务编排管理模块,提供服务的调度、核心控制和运行时管理等功能。
本发明的技术方案,包括:
一种面向异构区块链的信息内容风险检测方法,所述方法包括:
构建若干个字典树;其中,每一所述字典树包括与一数据类型相关的关键词;
对异构区块链中的数据经过统一接入、数据类型与核心要素提取后,得到待检测数据集;
基于数据类型选择一字典树,遍历所述字典树的节点并将所述节点添加到一空AC自动机中后,得到该数据类型对应的AC自动机;
基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果。
进一步地,所述关键词包括:相关人的关键词、相关机构的关键词或相关事件的关键词。
进一步地,所述对异构区块链中的数据经过统一接入、数据类型与核心要素提取后,得到待检测数据集,包括:
定义一个统一标准化模型;其中,所述统一标准化模型用于:
所述数据模型包括异构区块链涉及的所有数据类型,所述数据类型包括:交易信息、账户信息、合约发布、合约调用、合约代码和元数据信息;
和,
为每个数据类型明确定义必要的数据字段,所述必要的数据字段包括:数据类型、数据长度和数据格式;
和,
对各种数据类型的差异化数据进行统一封装,并结合关键通用字段,提供对外格式统一的数据;
和,
使用规范的命名规则,以以确保不同数据元素之间的交互和解释一致性;其中,所述规范的命名规则包括:驼峰命名法或下划线分隔符;
和,
在不同区块链使用不同的数据格式或编码方式的情况下,定义一数据转换规则,以确保数据在不同区块链之间的传输和解释;
基于所述统一标准化模型,获取异构区块链中数据的统一表达,以构建待检测数据集。
进一步地,基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,包括:
针对包含k个字符的待检测数据,按字符逐个遍历所述AC自动机;
如果当前字符char_j在当前节点Node_i的子节点中,则继续向下匹配;
如果当前字符char_j不在当前节点Node_i的子节点中,则返回到所述AC自动机的根节点Node_0,重新开始匹配;
当匹配到叶子节点Node_k时,记录关键词在待检测数据中的起始位置startj和结束位置endj。
进一步地,所述基于匹配结果,生成信息内容风险检测结果,还包括:
基于关键词在待检测数据中的起始位置startj和待检测数据的文本长度,得到该关键词的位置重要性;
结合关键词的前后语境,得到该关键词的上下文分析结果;
计算关键词长度;
根据该关键词的位置重要性、上下文分析结果和关键词长度,得到所述关键词的级别;
基于所述关键词的级别,得到该关键词的危害级别;
依据该关键词的危害级别,确定信息内容风险检测结果。
进一步地,基于所述关键词的级别,得到该关键词的危害级别,包括:
在所述关键词的级别大于第一阈值ThresholdHigh Risk的情况下,将该关键词划为高危害关键词;
在所述关键词的级别大于第二阈值ThresholdLow Risk,且小于第一阈值ThresholdHigh Risk的情况下,将该关键词划为低危害关键词;
在所述关键词的级别小于第二阈值ThresholdLow Risk,将该关键词划为疑似关键词;其中,ThresholdLow Risk<ThresholdHigh Risk。
进一步地,基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果之后,还包括:
上链请求拦截所述信息内容风险检测结果对应的命中内容;
和,
上报所述信息内容风险检测结果对应的命中内容。
进一步地,基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果之后,还包括:
接收用户从web前台界面发起查询请求;
针对所述查询请求,通过WebService服务层调用业务计算层,以使业务计算层可对从数据层返回的信息内容风险检测结果进行统计与分析后,通过所述WebService服务层返回给Web前台界面。
一种面向异构区块链的信息内容风险检测系统,所述系统包括:
引擎编排管理模块,用于发出引擎编排调用请求,并对请求进行内部认证与鉴权;
资源调度模块,用于将字典树写入元数据;其中,每一所述字典树包括与一数据类型相关的关键词;
节点管理模块,用于调用引擎容器镜像服务拉取镜像,以创建引擎容器;
核心控制模块,用于实现引擎容器的运行时管理;
动态管理模块,用于通过核心控制模块实现引擎容器的运行时管理,其中,所述通过核心控制模块实现引擎容器的运行时管理,包括:
对异构区块链中的数据经过统一接入、数据类型与核心要素提取后,得到待检测数据集;
基于数据类型选择一字典树,遍历所述字典树的节点并将所述节点添加到一空AC自动机中后,得到该数据类型对应的AC自动机;
基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果。
相较于现有的异构区块链应用检测方案,本发明提出的面向异构区块链的信息内容风险检测方法及系统具有以下益处:
1.本发明所述的兼容异构区块链应用多样性的接入检测方法,对接入的应用数据进行了统一化表达,为适配多级动态关键词引擎,通过数据解析模型提取关键数据类型与检测要素,为后续的数据风险检测提供了规范统一的数据输入,使方案具备业务无关性与可扩展性。
2.本发明在基于异构区块链应用多样性兼容机制的基础上,针对区块链数据类型的特征设计基于区块链核心数据特征的AC自动机匹配机制,引入多级动态关键词引擎技术,实现适配区块链应用数据多样性的检测方法,极大提升了数据风险的检测效率,解决了大规模多类型区块链应用数据的高效且准确的检测问题。
本发明不仅满足了不同类型的区块链数据的协同接入,保证数据格式的一致性。还对接入的区块链数据进行针对性适配的风险识别与发现,以便及时提升链上数据风险检测效率。
附图说明
图1多级动态关键词过滤引擎分级结构图。
图2多级动态关键词过滤引擎处理流程。
图3区块链接入管理中枢模块处理流程。
图4可视化实时分析计算模块处理流程。
具体实施方式
下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明的面向异构区块链的信息内容风险检测方法,基于异构区块链应用多样性兼容机制,实现多类型区块链应用的高效信息接入检测方案。基于兼容机制的统一接入检测规范与数据解析模型,实现多类型区块链应用的高效接入检测,且业务无关、灵活易扩展。同时,引入多级动态关键词引擎技术,设计适配区块链应用数据多样性的多级动态过滤机制,解决了大规模多类型区块链应用数据的高效且准确的检测问题。
本发明提出的区块链信息内容风险检测方法与系统包括以下四个方面:
1.多级动态关键词过滤引擎,针对异构区块链应用多样性特征,设计基于区块链核心数据特征的AC自动机匹配机制,充分考虑到交易信息、账户信息、合约发布、合约调用、合约代码、元数据信息等多种数据类型检测的差异性,并结合相关人、相关机构、以及相关事件等多级检测结构,形成多级动态关键词过滤关键词服务。服务通过设计多级动态关键词过滤关键词结构,依据区块链数据类型自动匹配对应的处理策略与关键词处理结构,服务具体由相关人关键词过滤服务,相关机构关键词过滤服务、以及相关事件关键词过滤服务等关键词过滤服务组成。其中这些关键词过滤服务又分为高危负面关键词过滤服务、疑似负面关键词过滤服务和低危负面关键词过滤服务三类组成。通过已建立好的关键词过滤服务,对文本进行过滤。
该引擎将文本数据通过多个关键词过滤服务过滤,判断为高危负面信息,本系统将直接判断该文本为负面样本。如果该引擎将文本数据判断为低危负面信息,本系统将直接判断该文本为低危负面样本。若该引擎将文本数据判断为疑似负面信息时,本系统将再通过预警处理流程对文本的负面程度进行判断。
本系统将关键词过滤服务细化为相关人、相关机构、以及相关事件等多个关键词过滤服务。并增加了用户可自主指定调用哪些关键词过滤服务的功能。对于不同的应用场景,不同的区块链应用类型,可更有针对性的判断负面信息。
2.区块链接入管理中枢模块,设计异构区块链应用多样性兼容机制,实现统一接入检测规范,并通过数据解析模型提取接入数据的主要类型与核心要素,数据类型包括交易信息、账户信息、合约发布、合约调用、合约代码、元数据信息等,考虑到不同类型数据的检测方法与检测效率,结合多级动态关键词过滤引擎,实现多类型区块链应用的高效信息接入检测方案。模块由链前信息过滤、链上信息巡检、信息接入检测接口规范等子模块组成。对不同区块链数据根据接入规范进行链前过滤接入,根据巡检指令进行链上数据巡检、风险发现识别,将处理结果导入可视化实时分析计算模块的业务库中。
3.可视化实时分析计算模块,将区块链接入管理中枢模块处理的结果进行统计分析,由区块链态势分析、信息检测结果查询、信息检测结果预警、接入链管理和权限管理模块组成。
4.服务编排管理模块,本模块由交互层、核心层和资源层组成。交互层主要实现服务化管理功能,为用户提供服务调用,同时可通过引擎管理接口直接对外提供核心功能的调用服务;核心层是引擎容器服务的核心处理层,负责服务的调度、核心控制和运行时管理等;资源层调用计算/存储/网络等虚拟化服务提供容器化的虚拟资源服务。下文对上述的四个方面进行具体说明。
(一)多级动态关键词过滤引擎
本发明涉及一种多级动态关键词过滤引擎,用于检测和过滤与特定人、机构或事件相关的关键词,以确保用户在网络环境中不受到敏感或不良信息的侵扰。该引擎如图1所示,由以下几个关键组成部分组成:
1.相关人关键词过滤服务。
该服务负责监测与特定个人相关的关键词。用户可以定义需要监测的人物,系统会基于用户设定的人物关键词库进行实时监测。当这些关键词出现在网络内容中时,系统将识别并加以标记,以便进一步处理。
2.相关机构关键词过滤服务。
该服务用于检测与特定机构或组织相关的关键词。用户可以设定需要监测的机构名称或关键词,系统将持续监测网络内容,一旦出现与设定相关的关键词,即可及时发现并进行处理。
3.相关事件关键词过滤服务。
该服务负责监测与特定事件相关的关键词。用户可以设定需要监测的事件名称或关键词,系统会跟踪网络上的新闻、社交媒体等内容,一旦发现与事件相关的关键词,将其加以识别和过滤。
首先介绍本发明采用的基础关键词过滤技术流程:
字典树(Trie树)是一种高效的字符串匹配算法,通常用于快速检测文本中是否包含预定义的关键词。
1)构建字典树:将所有关键词按字符构建成字典树。字典树的每个节点Node_i代表一个字符,从根节点Node_0开始,每个节点有若干子节点Nodei.children,每个路径代表一个关键词。
Node_i={character,is_end_of_word,children}
character(字符):表示字典树中的一个节点,该节点代表一个字符。在这个节点上,会记录当前字符的值,例如,如果节点代表字母″A″,那么character的值就是″A″。
is_end_of_word(是否是关键词的结束字符):表示当前节点是否是一个关键词的结束字符。在字典树中,不是每个节点都代表一个关键词的结束,只有当一个节点被标记为is_end_of_word时,表示从根节点到当前节点的路径构成了一个关键词。这个标记用于判断一个字符串是否是字典树中的一个关键词。
children(子节点集合):表示当前节点的子节点集合。每个子节点也是一个包含character、is_end_of_word和children的节点。子节点的character表示当前节点字符的一个后继字符,is_end_of_word表示这个字符是否是一个关键词的结束字符,而children则是该节点的下一级子节点集合。
2)文本预处理:对输入的文本进行预处理,包括分词、去除特殊字符、转换为小写等操作,以便于与字典树中的关键词进行匹配。
3)关键词匹配:从文本的预处理结果中,按字符逐个遍历字典树。如果当前字符char_j在当前节点Node_i的子节点中,则继续向下匹配;如果不在子节点中,则返回到根节点Node-0,重新开始匹配。当匹配到叶子节点Node_k时(表示找到了一个关键词),可以记录关键词的起始位置startj和结束位置endj。
Nodek={character:charj,is_end_of_word:True,children:}
Keywordj=Text[startj:endj+1]
4)记录匹配结果:当匹配到关键词时,可以记录下关键词在文本中的位置(startj,endj),也可以统计关键词的出现次数。如果需要实现敏感词过滤功能,可以将匹配到的关键词替换为特定字符(如“*”)
5)处理多关键词匹配:如果文本中可能同时包含多个关键词,需要在匹配过程中继续查找,直到整个文本被匹配完毕或者不再存在匹配的关键词。
4.样本分级。
上述服务分别拥有子模块,用于样本分级,分别为:
高危负面关键词过滤服务:高危负面关键词过滤服务负责检测和过滤那些被广泛认定为高度危险和有害的关键词。这些高危负面关键词通常涉及负面或不良内容。该服务采用先进的自然语言处理算法,快速准确地识别并过滤这些高危负面关键词,以确保用户免受极端信息的干扰。
疑似负面关键词过滤服务:疑似负面关键词过滤服务负责检测那些可能具有负面含义的关键词。这些关键词可能在不同语境下被解读为负面内容,因此需要特别的识别和处理。该服务使用机器学习算法,结合上下文分析,判断关键词的语境,识别并过滤疑似负面关键词,以避免信息误判。
低危负面关键词过滤服务:低危负面关键词过滤服务负责过滤那些负面但程度较低的关键词。这类关键词可能包括一些轻微侮辱、争议性言论等。该服务通过关键词频次分析和用户反馈机制,筛选并过滤低危负面关键词,以确保用户在网络环境中获得更积极、健康的交流体验。
分级过滤技术流程:
字典树(Trie树)被用于构建关键词库,其中每个关键词都被分为三个不同级别:低危(Low Risk)、高危(High Risk)和疑似(Suspicious)。在匹配文本时,首先通过字典树定位关键词,并结合上下文分析。
1)关键词匹配:
当文本中出现一个关键词时,使用以下公式判断其级别:
PositionImportance(位置重要性):关键词在文本中的位置,一般情况下,位于文本开头的关键词更为重要,这是因为在很多场景下,文本的开头往往包含了最重要的信息,而文本结尾可能是一些附加说明或者无关紧要的内容。可以使用公式
进行计算。
其中:
Start Position表示关键词在文本中的起始位置。
Text Length表示整个文本的长度。
这个公式的结果范围在[0,1]之间,数值越接近1,表示关键词在文本开头的位置,越接近0,表示关键词在文本末尾的位置。因此,这个值可以用来衡量关键词在文本中的位置重要性,用于确定关键词的级别。
ContextAnalysis(上下文分析):结合关键词前后的语境,如果上下文中有其他关键词,或者关键词在特定语境下出现,可以增加其级别。如果存在关联关键词的数量为N,则
KeywordLength(关键词长度):关键词的长度,用于对不同长度的关键词进行标准化,其可以基于上述的起始位置startj和结束位置endj得到。
2)级别划分
根据计算得到的级别,将关键词分为三个级别:
如果Level>ThresholdHigh Risk,则关键词划为高危害。
如果ThresholdLow Risk<Level<ThresholdHigh Risk,则关键词被划分为低危。
如果Level≤ThresholdLow Risk,则关键词被划分为疑似。
这种基于字典树的判断方法,结合了关键词位置、上下文分析、关键词长度等因素,能够更加准确地对关键词进行分级,提高了关键词过滤引擎的灵活性和精确性。
5.基于区块链核心数据特征的AC自动机匹配机制。
针对区块链数据类型的特征,在上述的基础关键词过滤技术上,通过设计基于区块链核心数据特征的AC自动机匹配机制,依据区块链数据类型自动匹配对应的AC自动机匹配服务,适配了区块链应用数据的多样性,显著提升区块链数据的检测效率。
基于区块链核心数据特征的AC自动机匹配机制实现方法如下:
1)数据预处理:数据经过统一接入、主要类型与核心要素提取之后,在输入引擎之前,进一步去除特殊字符、添加辅助类别信息,形成交易信息、账户信息、合约发布、合约调用、合约代码、元数据信息等类型数据集。
2)适配区块链的AC自动机机制:为区块链的不同数据类型(账户数据、交易数据、合约代码、元数据等)构建专用的AC自动机。采取这种方式可显著提升匹配速度,因为每个AC自动机专注于特定区块链数据类型的关键词匹配。下面以交易数据与智能合约代码两类不同类型的数据为例,详细说明特定AC自动机的构造方法:
交易数据的构造方法:一是创建一个专用的字典树,其中包括与账户数据相关的关键词和术语,如"发送者地址"、"接收者地址"、"交易金额"等。然后,
通过初始化空AC自动机,遍历字典树节点并将节点添加到AC自动机中,同时,在添加节点的过程中,建立自动机的失败指针,以构建自动机的失败转移,通过以上步骤即将字典树转化为AC自动机;二是将交易数据的文本输入到交易数据的AC自动机中。AC自动机将在文本中查找并标记所有匹配的关键词;三是根据AC自动机的匹配结果,可以确定文本中与账户数据相关的关键词位置;最后,基于匹配结果,可以生成报告、标记关键数据,或进行其他自定义的数据分析。
智能合约代码的构造方法:一是创建一个专用的字典树,其中包括与账户数据相关的关键词和术语,如"函数调用"、"变量定义"、"智能合约地址"等。然后,通过初始化空AC自动机,遍历字典树节点并将节点添加到AC自动机中,同时,在添加节点的过程中,建立自动机的失败指针,以构建自动机的失败转移,通过以上步骤即将字典树转化为AC自动机;二是将智能合约的文本输入到合约代码的AC自动机中。AC自动机将在文本中查找并标记所有匹配的关键词;三是根据AC自动机的匹配结果,可以确定文本中与账户数据相关的关键词位置;最后,基于匹配结果,可以执行智能合约代码的分析、检测潜在漏洞检测等。
3)适配区块链的检索优化方案:一是利用多核处理器或分布式计算环境,将上述构建的不同AC自动机并行运行,以提高整体匹配速度;二是针对区块链数据特征使用匹配的字典树压缩技术,如前缀树压缩或基于间隔的压缩,以减小字典树的内存占用,同时保持匹配性能;三是定期审查和更新关键词集,去除不再使用的关键词,以减小字典树的规模,从而提高匹配性能。
基于关键词分级过滤技术,设计基于区块链核心数据特征的AC自动机匹配机制,通过上述各个服务相互配合,形成一个多级的动态关键词过滤系统。该系统不仅能够根据用户需求实时调整监测范围,还能够根据不同关键词的重要性进行动态调整。例如,在某些紧急事件发生时,系统可以调整为更加敏感的模式,以确保相关信息的及时发现和处理。多级动态关键词过滤引擎处理流程如图2所示。
6.实时监测和自动处理。
该引擎具备实时监测功能,能够持续不断地监测网络上的新数据。当发现与设定关键词相关的内容时,系统会自动进行处理,例如将其标记为敏感内容、进行通知、加以审查等操作。
(二)区块链接入管理中枢。
首先,对接入的区块应用数据进行了统一化表达,具体的实现方法如下:
1)定义统一标准化模型:需要定义一个标准的数据模型,用于统一表示不同区块链数据。这个数据模型应包括各种数据类型,如交易信息、账户信息、合约发布、合约调用、合约代码、元数据信息等。确保数据模型具备足够的灵活性,以容纳不同类型的区块链数据。
2)明确关键数据字段:为每个数据类型明确定义必要的数据字段。确保每个字段都有详细的描述,包括数据类型、长度、格式等。这将有助于确保数据的一致性和互操作性。
3)具备通用数据对象:对各种类型的差异化数据进行统一封装,结合关键通用字段,整体数据对外格式统一,可进行统一处理。
4)使用标准化的命名约定:采用一致的命名约定,以确保不同数据元素之间的交互和解释一致性。这包括使用规范的命名规则,例如驼峰命名法或下划线分隔符。
5)制定数据转换规则:如果不同区块链使用不同的数据格式或编码方式,需要定义数据转换规则,以确保数据能够在不同区块链之间进行无缝的传输和解释。这可能包括数据编码方式、加密算法等。
其次,在实现数据的统一化表达后,通过链前信息过滤模块对接入检测的区块链拟上链的信息进行匹配过滤,对命中内容的上链请求进行拦截;链上信息巡检模块接收信息交互中枢管理模块的巡检指令,对接入检测的区块链链上已经存在的数据进行周期性巡检,对发现的命中内容进行上报;信息检测接口规范制定业务无关、灵活易扩展的接口规范,将尽可能多的区块链企业和服务纳入服务范围,使企业能以较低成本调用信息检测服务且不影响常规业务的正常进行。
处理流程如图3所示,包含三个步骤一是待检测的业务链按照系统的检测接口规范接入该模块;二是业务链在信息上链前和接收到巡检指令时,调用该模块的关键词过滤接口以实现区块链信息过滤功能,三是模块会将过滤处理结果导入可视化实时分析计算模块的业务库中。
(三)可视化实时分析计算。
设计异构区块链应用多样性兼容机制,实现统一接入检测规范,并通过数据解析模型提取接入数据的主要类型与核心要素,数据类型包括交易信息、账户信息、合约发布、合约调用、合约代码、元数据信息等,考虑到不同类型数据的检测方法与检测效率,结合多级动态关键词过滤引擎,实现多类型区块链应用的高效信息接入检测方案。模块通过区块链态势分析、信息检测结果查询、信息检测结果告警、接入应用管理和用户权限管理组成。业务人员可通过该模块查询已接入区块链信息服务的检测结果。模块处理流程如图4所示,模块采用分层结构,包括5个层次,Web前台层、WebService服务层、业务计算层、数据层和区块链接入管理中枢模块。用户从web前台界面发起查询请求,通过WebService服务层调用业务计算层;业务计算层可对从数据层返回的检测数据进行计算、统计与分析,再通过WebService服务层返回给Web前台。区块链接入管理中枢模块将检测的中间数据与最终结果存储到本模块的数据层。
区块链态势分析针对业务链各维度数据统计分析,其中包括业务链总数、巡检总量、正在巡检数量、巡检成功数量、违规数量、正常数量等各维度统计。其中业务链总数是统计已注册业务链数量,巡检总量是针对业务链已下发数据巡检任务统计总数,正在巡检数量是针对业务链已下发但未巡检结束的任务统计总数,巡检成功数量是针对业务链已下发并巡检结束的任务统计总数,违规数量和正常数量是针对监管链与接入链数据协同系统接入已注册业务链的区块链数据完成数据巡检任务后对违规数据及正常数据不同维度的统计;业务链数据类型统计是针对系统接入各业务链的区块链数据类型统计数量、占比,其中包括图片、文本等数据类型。业务链敏感数据量统计是根据各个业务链数据通过数据巡检任务后将敏感数据量以曲线图形式进行可视化展示。
信息检测结果查询向业务人员提供可视化方式进行区块链信息检测记录的查询、统计、计算等服务;区块链态势分析以可视化形式展示包括但不限于区块链公司的统计信息、区块链项目的统计信息、区块链项目的行业分布、区块链项目的地理位置分布等信息;接入应用管理模块对使用本系统的区块链应用和服务进行管理,包括基础信息管理、对接接口管理、访问控制管理等;用户权限管理模块负责业务系统中的用户权限控制管理,以可视化、可交互的形式提供对系统中各账号和功能模块的使用权限管理,并能提供相应的安全日志审查。
信息检测结果告警具备接入各个业务链的所有数据的查询功能,可根据选择业务链、接入数据时间、数据状态、关键词等条件进行查询并以表格形式对所有数据进行列举展示,除此之外还可以查看数据是否已检测、是否有安全风险和数据一致性问题。
接入应用管理和用户权限管理,研发业务链鉴权、秘钥管理功能,具备业务链注册功能,生成appKey,业务链通过appKey与系统进行对接,完成数据接入,并具备接入业务链查询功能。
上述的appKey使用随机数生成算法生成一组随机的字符串作为密钥。这个密钥通常由字母、数字和特殊字符组成,长度根据安全需求来决定。为了增加安全性和防止重放攻击,可以在生成的密钥后面添加一个时间戳。时间戳可以是当前时间的UNIX时间戳(以秒为单位)或其他形式的时间标识。根据具体需求,可以在生成的密钥后面添加其他参数,如应用程序ID、用户ID等。这些参数可以用于进一步验证身份和授权权限。将生成的密钥、时间戳和其他参数进行哈希运算,生成一个哈希值。常用的哈希算法包括MD5、SHA-1、SHA-256等。哈希算法可以将输入的任意长度数据转换为固定长度的哈希值。
(四)服务编排管理。
由交互层、核心层和资源层组成。交互层主要实现服务化管理功能,为用户提供服务调用,同时可通过引擎管理接口直接对外提供核心功能的调用服务;核心层是引擎容器服务的核心处理层,负责服务的调度、核心控制和运行时管理等;资源层调用计算/存储/网络等虚拟化服务提供容器化的虚拟资源服务。
引擎编排管理模块处理流程,用户发出引擎编排调用请求,并对请求进行内部认证与鉴权;核心控制模块将请求信息写入元数据,并调用资源调度模块进行资源调度并写入元数据,以及调用节点管理模块部署引擎容器服务;节点管理模块调用引擎容器镜像服务拉取镜像创建引擎运行容器,并调用容器网络服务配置容器网络;动态管理模块通过核心控制模块实现引擎容器的运行时管理。
综上所述,本发明针对异构区块链及其多样化应用系统的高效接入与风险检测技术所带来的挑战,设计异构区块链应用多样性兼容机制,实现多类型区块链应用的高效信息接入检测方案。基于兼容机制的统一接入检测规范与数据解析模型,实现多类型区块链应用的高效接入检测,且业务无关、灵活易扩展。同时,本发明设计基于区块链核心数据特征的AC自动机匹配机制,提出了一种多级动态关键词引擎技术,解决了大规模多类型区块链应用数据的高效且准确的检测问题。
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (9)
1.一种面向异构区块链的信息内容风险检测方法,其特征在于,所述方法包括:
构建若干个字典树;其中,每一所述字典树包括与一数据类型相关的关键词;
对异构区块链中的数据经过统一接入、数据类型与核心要素提取后,得到待检测数据集;
基于数据类型选择一字典树,遍历所述字典树的节点并将所述节点添加到一空AC自动机中后,得到该数据类型对应的AC自动机;
基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果。
2.如权利要求1所述的方法,其特征在于,所述关键词包括:相关人的关键词、相关机构的关键词或相关事件的关键词。
3.如权利要求1所述的方法,其特征在于,所述对异构区块链中的数据经过统一接入、数据类型与核心要素提取后,得到待检测数据集,包括:
定义一个统一标准化模型;其中,所述统一标准化模型用于:
所述数据模型包括异构区块链涉及的所有数据类型,所述数据类型包括:交易信息、账户信息、合约发布、合约调用、合约代码和元数据信息;
和,
为每个数据类型明确定义必要的数据字段,所述必要的数据字段包括:数据类型、数据长度和数据格式;
和,
对各种数据类型的差异化数据进行统一封装,并结合关键通用字段,提供对外格式统一的数据;
和,
使用规范的命名规则,以以确保不同数据元素之间的交互和解释一致性;其中,所述规范的命名规则包括:驼峰命名法或下划线分隔符;
和,
在不同区块链使用不同的数据格式或编码方式的情况下,定义一数据转换规则,以确保数据在不同区块链之间的传输和解释;
基于所述统一标准化模型,获取异构区块链中数据的统一表达,以构建待检测数据集。
4.如权利要求1所述的方法,其特征在于,基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,包括:
针对包含k个字符的待检测数据,按字符逐个遍历所述AC自动机;
如果当前字符char_j在当前节点Node_i的子节点中,则继续向下匹配;
如果当前字符char_j不在当前节点Node_i的子节点中,则返回到所述AC自动机的根节点Node_0,重新开始匹配;
当匹配到叶子节点Node_k时,记录关键词在待检测数据中的起始位置startj和结束位置endj。
5.如权利要求1所述的方法,其特征在于,所述基于匹配结果,生成信息内容风险检测结果,还包括:
基于关键词在待检测数据中的起始位置startj和待检测数据的文本长度,得到该关键词的位置重要性;
结合关键词的前后语境,得到该关键词的上下文分析结果;
计算关键词长度;
根据该关键词的位置重要性、上下文分析结果和关键词长度,得到所述关键词的级别;
基于所述关键词的级别,得到该关键词的危害级别;
依据该关键词的危害级别,确定信息内容风险检测结果。
6.如权利要求5所述的方法,其特征在于,基于所述关键词的级别,得到该关键词的危害级别,包括:
在所述关键词的级别大于第一阈值ThresholdHigh Risk的情况下,将该关键词划为高危害关键词;
在所述关键词的级别大于第二阈值ThresholdLow Risk,且小于第一阈值ThresholdHigh Risk的情况下,将该关键词划为低危害关键词;
在所述关键词的级别小于第二阈值ThresholdLow Risk,将该关键词划为疑似关键词;其中,Tf1resholdLow Risk<ThresholdHigh Risk。
7.如权利要求1所述的方法,其特征在于,基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果之后,还包括:
上链请求拦截所述信息内容风险检测结果对应的命中内容;
和,
上报所述信息内容风险检测结果对应的命中内容。
8.如权利要求1所述的方法,其特征在于,基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果之后,还包括:
接收用户从web前台界面发起查询请求;
针对所述查询请求,通过WebService服务层调用业务计算层,以使业务计算层可对从数据层返回的信息内容风险检测结果进行统计与分析后,通过所述WebService服务层返回给Web前台界面。
9.一种面向异构区块链的信息内容风险检测系统,其特征在于,所述系统包括:
引擎编排管理模块,用于发出引擎编排调用请求,并对请求进行内部认证与鉴权;
资源调度模块,用于将字典树写入元数据;其中,每一所述字典树包括与一数据类型相关的关键词;
节点管理模块,用于调用引擎容器镜像服务拉取镜像,以创建引擎容器;
核心控制模块,用于实现引擎容器的运行时管理;
动态管理模块,用于通过核心控制模块实现引擎容器的运行时管理,其中,所述通过核心控制模块实现引擎容器的运行时管理,包括:
对异构区块链中的数据经过统一接入、数据类型与核心要素提取后,得到待检测数据集;
基于数据类型选择一字典树,遍历所述字典树的节点并将所述节点添加到一空AC自动机中后,得到该数据类型对应的AC自动机;
基于所述AC自动机,对所述待检测数据集中对应数据类型的待检测数据进行匹配,并基于匹配结果,生成信息内容风险检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311382459.8A CN117540059A (zh) | 2023-10-24 | 2023-10-24 | 一种面向异构区块链的信息内容风险检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311382459.8A CN117540059A (zh) | 2023-10-24 | 2023-10-24 | 一种面向异构区块链的信息内容风险检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117540059A true CN117540059A (zh) | 2024-02-09 |
Family
ID=89794817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311382459.8A Pending CN117540059A (zh) | 2023-10-24 | 2023-10-24 | 一种面向异构区块链的信息内容风险检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540059A (zh) |
-
2023
- 2023-10-24 CN CN202311382459.8A patent/CN117540059A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113255B2 (en) | Computer-based systems configured for entity resolution for efficient dataset reduction | |
CN109902297B (zh) | 一种威胁情报生成方法及装置 | |
Namaki et al. | Discovering graph temporal association rules | |
CN116157790A (zh) | 文档处理和响应生成系统 | |
CN105518656A (zh) | 用于多传感器数据融合的认知神经语言学行为辨识系统 | |
AU2016204068A1 (en) | Data acceleration | |
CN111581355A (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
Xu et al. | Vulnerability detection for source code using contextual LSTM | |
CN110851761A (zh) | 基于区块链的侵权检测方法、装置、设备及存储介质 | |
Mitra et al. | Combating fake cyber threat intelligence using provenance in cybersecurity knowledge graphs | |
CN105930360A (zh) | 一种基于Storm流计算框架文本索引方法及系统 | |
CN112306820B (zh) | 一种日志运维根因分析方法、装置、电子设备及存储介质 | |
CN112000992B (zh) | 数据防泄漏保护方法、装置、计算机可读介质及电子设备 | |
US20130151519A1 (en) | Ranking Programs in a Marketplace System | |
WO2023129353A1 (en) | Enhanced lexicon-based classifier models with tunable error-rate tradeoffs | |
Zhao et al. | A survey of deep anomaly detection for system logs | |
Sun et al. | Design and Application of an AI‐Based Text Content Moderation System | |
Li et al. | Learning from Limited Heterogeneous Training Data: Meta-Learning for Unsupervised Zero-Day Web Attack Detection across Web Domains | |
CN116821903A (zh) | 检测规则确定及恶意二进制文件检测方法、设备及介质 | |
US12093222B2 (en) | Data tagging and synchronisation system | |
CN117540059A (zh) | 一种面向异构区块链的信息内容风险检测方法及系统 | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
CN115237978A (zh) | 一种开源威胁情报聚合平台 | |
Gang et al. | [Retracted] Research on Clue Mining in Criminal Cases of Smart Phone Trojan Horse under the Background of Information Security | |
Xu et al. | [Retracted] IoT‐Oriented Distributed Intrusion Detection Methods Using Intelligent Classification Algorithms in Spark |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |