CN116402048B - 一种可解释的区块链应用趋势分析方法及系统 - Google Patents

一种可解释的区块链应用趋势分析方法及系统 Download PDF

Info

Publication number
CN116402048B
CN116402048B CN202310648456.8A CN202310648456A CN116402048B CN 116402048 B CN116402048 B CN 116402048B CN 202310648456 A CN202310648456 A CN 202310648456A CN 116402048 B CN116402048 B CN 116402048B
Authority
CN
China
Prior art keywords
blockchain
text
analysis
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310648456.8A
Other languages
English (en)
Other versions
CN116402048A (zh
Inventor
蒋海
彭策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bubi Beijing Network Technology Co ltd
Original Assignee
Bubi Beijing Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bubi Beijing Network Technology Co ltd filed Critical Bubi Beijing Network Technology Co ltd
Priority to CN202310648456.8A priority Critical patent/CN116402048B/zh
Publication of CN116402048A publication Critical patent/CN116402048A/zh
Application granted granted Critical
Publication of CN116402048B publication Critical patent/CN116402048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种可解释的区块链应用趋势分析方法及系统,该方法包括:从区块链领域文献资料中提取区块链数据文本并对提取的文本进行预处理;利用文本分析模型对预处理后的文本进行计算得到关键词标签;基于关键词标签在社交媒体网站中进行文本筛选,并对筛选出的文本进行情感分析处理以得到情感分析结果;利用反向回溯分析模型对所述情感分析结果进行计算得到文本中各个词汇的贡献值;对本文中各个词汇的贡献值进行解释性分析,并将各个词汇的贡献值与区块链热门应用技术进行映射以得到各区块链热门应用技术间的关联性以及当前支持程度;该方法数据来源广泛,使用CNN词嵌入技术及回溯分析模型,实现对区块链领域当前热点技术的智能分析。

Description

一种可解释的区块链应用趋势分析方法及系统
技术领域
本发明涉及区块链技术领域,更具体地,涉及一种可解释的区块链应用趋势分析方法及系统。
背景技术
区块链技术被称为互联网的第二时代,又被称为第四次工业革命。作为互联网时代快速发展的新兴技术之一,其去中心化、不可篡改和分布式存储等特性使得它在多个领域都得到充分发挥,成为国际上科技竞争的热门领域,对区块链领域进行趋势分析和预测研究有助于企业提前进行技术布局,在国际竞争中占据领先地位。
然而,目前已公开的分析方法存在诸多问题,并不完善。相关技术中,例如,存在一些方案从区块链赋能数字身份和数字资产管理的角度出发,获取大量相关专利数据,从中提取并分析了区块链在当前主流技术中的发展历程和特征,讨论和分析了区块链的应用,从中选取并重点分析了区块链的身份管理模型、区块链-非同质化通证等技术的应用和发展趋势。而此种从应用中分析区块链发展趋势的分析方法存在数据来源比较片面,需要人工进行关键技术的提取和处理,耗时很长。再如,还存在一些方案,其中,部分研究人员分析行业应用案例以及案例的规模、效益和市场反馈并关注区块链领域的技术创新、研究方向、研究成果、技术白皮书,从而了解区块链在不同行业中的实际应用情况和潜力以及新技术的发展。而此种分析方法无法实现对区块链应用趋势的高效的多维度全面分析,分析结果因人而异。
因而,亟需研发一种可解释的区块链应用趋势分析方法及系统以高效的解决上述存在的一个或多个问题。
发明内容
本发明的一个目的是提供一种可解释的区块链应用趋势分析方法及系统的新技术方案。
根据本发明的第一方面,提供了一种可解释的区块链应用趋势分析方法,所述方法包括:
步骤S1:从区块链领域文献资料中提取区块链数据文本;
步骤S2:对提取的所述区块链数据文本进行预处理;
步骤S3:利用预先建立的文本分析模型对经预处理后的区块链数据文本进行计算处理,以得到所述区块链数据文本的关键词标签;
步骤S4:基于计算得到的所述区块链数据文本的关键词标签在社交媒体网站中进行文本筛选,并对筛选出的文本进行情感分析处理以得到情感分析结果;
步骤S5:利用预先建立的反向回溯分析模型对所述情感分析结果进行计算处理,以得到所述区块链数据文本中各个词汇的贡献值;
步骤S6:对所述区块链数据文本中各个词汇的贡献值进行解释性分析得到解释分析结果,并将所述区块链数据文本中各个词汇的贡献值与从区块链领域文献资料中得到的区块链热门应用技术进行映射以得到各区块链热门应用技术间的关联性以及当前支持程度。
可选地,在所述步骤S1中,利用预先训练的文本提取模型对区块链领域文献资料进行处理,以提取得到包含区块链领域关键技术的区块链数据文本。
可选地,在所述步骤S2中,所述预处理包括文本处理和词向量处理:
所述文本处理为对所述区块链数据文本进行分词、停用词去除以及词性标注;
所述词向量处理为将所述区块链数据文本分解为单独的词汇向量。
可选地,在所述步骤S3中,所述文本分析模型为基于CNN文本分析模型,所述文本分析模型包括两个卷积池化层以及位于两个所述卷积池化层后面的密集连接层。
可选地,在所述步骤S3中,所述文本分析模型还包括位于两个所述卷积池化层前面的词嵌入层,所述词嵌入层通过一个V×D矩阵将经预处理后的区块链数据文本中的词转换为数字向量,其中,V是词汇量的大小,D是词嵌入的维度。
可选地,在所述步骤S4中,利用预先建立的基于CNN文本情感分析模型对筛选出的文本进行情感分析处理以得到情感分析结果;
所述基于CNN文本情感分析模型还用于对区块链领域文献资料进行处理得到区块链热门应用技术。
可选地,所述方法还包括:
步骤S7:对所述解释分析结果、各区块链热门应用技术间的关联性以及当前支持程度进行计算分析得到综合分析图,以实现分析结果的可视化展示。
根据本发明的第二方面,提供了一种可解释的区块链应用趋势分析系统,所述系统包括:
提取模块,被配置为从区块链领域文献资料中提取区块链数据文本;
预处理模块,被配置为对提取的所述区块链数据文本进行预处理;
文本分析模块,被配置为利用预先建立的文本分析模型对经预处理后的区块链数据文本进行计算处理,以得到所述区块链数据文本的关键词标签;
情感分析模块,被配置为基于计算得到的所述区块链数据文本的关键词标签在社交媒体网站中进行文本筛选,并对筛选出的文本进行情感分析处理以得到情感分析结果;
回溯分析模块,被配置为利用预先建立的反向回溯分析模型对所述情感分析结果进行计算处理,以得到所述区块链数据文本中各个词汇的贡献值;
解释性分析模块,被配置为对所述区块链数据文本中各个词汇的贡献值进行解释性分析得到解释分析结果,并将所述区块链数据文本中各个词汇的贡献值与从区块链领域文献资料中得到的区块链热门应用技术进行映射以得到各区块链热门应用技术间的关联性以及当前支持程度。
根据本发明的第三方面,提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现如上述本发明第一方面所述的一种可解释的区块链应用趋势分析方法中的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述本发明第一方面所述的一种可解释的区块链应用趋势分析方法中的步骤。
根据本发明公开的一个实施例,具有如下有益效果:
本发明的可解释的区块链应用趋势分析方法中数据来源广泛,使用CNN及词嵌入作为区块链领域技术分析模型,并使用回溯分析模型对分析结果提供可解释性,实现对区块链领域当前热点技术的智能分析。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1为根据实施例提供的一种可解释的区块链应用趋势分析方法的流程示意图;
图2为根据实施例提供的一种可解释的区块链应用趋势分析方法的具体技术流程图;
图3为根据实施例提供的基于CNN文本分析模型的结构示意图;
图4为根据实施例提供的反向回溯分析模型的结构示意图;
图5为根据实施例提供的综合分析图示例;
图6为根据实施例提供的一种可解释的区块链应用趋势分析系统的结构框图;
图7为一种电子设备的示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
实施例1:
参见图1所示,本实施例提供了一种可解释的区块链应用趋势分析方法,所述方法包括:
步骤S1:从区块链领域文献资料中提取区块链数据文本;
本步骤中区块链领域文献资料包括专利文献和论文。
步骤S2:对提取的区块链数据文本进行预处理;
步骤S3:利用预先建立的文本分析模型对经预处理后的区块链数据文本进行计算处理,以得到区块链数据文本的关键词标签;
步骤S4:基于计算得到的区块链数据文本的关键词标签在社交媒体网站中进行文本筛选,并对筛选出的文本进行情感分析处理以得到情感分析结果;
步骤S5:利用预先建立的反向回溯分析模型对情感分析结果进行计算处理,以得到区块链数据文本中各个词汇的贡献值;
步骤S6:对区块链数据文本中各个词汇的贡献值进行解释性分析得到解释分析结果,并将区块链数据文本中各个词汇的贡献值与从区块链领域文献资料中得到的区块链热门应用技术进行映射以得到各区块链热门应用技术间的关联性以及当前支持程度。
可选地,本实施例可解释的区块链应用趋势分析方法在步骤S1中,利用预先训练的文本提取模型对区块链领域文献资料进行处理,以提取得到包含区块链领域关键技术的区块链数据文本。
需要说明的是,本实施例中预先训练的文本提取模型可以为基于Word2Vec词聚类的关键词提取方法建立的模型,其主要是通过K-Means聚类算法对搜集到的区块链领域文献资料中的词进行聚类(本实施例中文献长度一般控制在500词以内),选择聚类中心作为文献的一个关键技术,并计算其他词与聚类中心的相似度,选择前3个距离聚类中心最近的词作为关键词,词间的相似度可以使用Word2Vec算法所生成的词向量计算得到,其具体实现步骤如下:(1)利用预先训练的词嵌入模型获取上述收集的区块链领域文献资料的词向量矩阵;(2)初始化K-Means聚类算法,获得每个文献的3个候选关键词;(3)遍历候选关键词,从词向量矩阵中提取候选关键词的词向量表示;(4)对候选关键词使用K-Means聚类算法,得到聚类中每个簇的聚类中心;(5)计算每个簇中的词语与步骤(4)中聚类中心的欧氏距离,并进行降序排序;(6)不断迭代,直到簇中心词变化范围在所设置范围内。即对候选关键词计算结果得到排名前3的词语作为该文献的关键词;(7)对所有关键词进行汇总,并过滤掉部分噪音得到区块链领域当前关键技术词汇。
可选地,本实施例可解释的区块链应用趋势分析方法在步骤S2中,预处理包括文本处理和词向量处理:
文本处理为对区块链数据文本进行分词、停用词去除以及词性标注;
词向量处理为将区块链数据文本分解为单独的词汇向量。
可选地,本实施例可解释的区块链应用趋势分析方法在步骤S3中,文本分析模型为基于CNN文本分析模型,文本分析模型包括两个卷积池化层以及位于两个卷积池化层后面的密集连接层。
可选地,本实施例可解释的区块链应用趋势分析方法在步骤S3中,文本分析模型还包括位于两个卷积池化层前面的词嵌入层,词嵌入层通过一个V×D矩阵将经预处理后的区块链数据文本中的词转换为数字向量,其中,V是词汇量的大小,D是词嵌入的维度。
可选地,本实施例可解释的区块链应用趋势分析方法在步骤S4中,利用预先建立的基于CNN文本情感分析模型对筛选出的文本进行情感分析处理以得到情感分析结果;
基于CNN文本情感分析模型还用于对区块链领域文献资料进行处理得到区块链热门应用技术。
可选地,参见图1所示,本实施例可解释的区块链应用趋势分析方法还包括:
步骤S7:对解释分析结果、各区块链热门应用技术间的关联性以及当前支持程度进行计算分析得到综合分析图,以实现分析结果的可视化展示。
具体的,参见图2所示,本实施例可解释的区块链应用趋势分析方法主要采用深度学习和词嵌入技术进行区块链领域应用趋势的分析模型构建。首先,通过搭建并训练模型在专利和论文摘要数据中对区块链领域关键技术进行分析和提取;然后对提取的摘要数据的原始数据进行初步预处理,将预处理后的词向量转化为文本作为基于CNN文本分析模型的输入,计算基于CNN文本分析模型后,得到摘要文本的关键词标签;然后将标签作为关键字在twitter和社交媒体网站中进行文本筛选,对筛选出的相关文本进行情感分析;然后将分析结果作为反向回溯分析模型的输入,通过反向回溯分析模型计算文本中各部分词汇的贡献值;最后,根据模型得出的词汇贡献值进行可解释性分析,并与论文和专利摘要中得到的区块链领域当前热门应用技术进行映射,可以得到各应用技术间的关联性以及技术当前的支持程度,并可以可视化的方式通过微信小程序对智能分析结果进行展示。
具体的,本实施例可解释的区块链应用趋势分析方法主要采用深度学习和可视化技术进行区块链领域应用趋势的分析模型构建,主要分为四部分:
第一部分通过网络爬虫获取区块链领域专利和论文的摘要文本,使用分词和预训练的词嵌入模型对摘要文本进行分词和向量化处理,使用预先训练的文本提取模型对处理后的摘要文本进行关键词提取,提取出的关键词作为后续情感分析模型中使用的Twitter和媒体数据的筛选条件。
第二部分主要包括基于CNN的文本分析模型的构建和训练。首先根据上述提取出的区块链领域关键词作为筛选条件,搜集区块链领域Twitter和媒体数据集,数据集中包括每种区块链关键词相关的评论集。接着训练基于CNN的文本分析模型,使用搜集到的区块链领域不同技术方向的评论作为模型的输入,模型通过对评论的情感分析最终做出二分类决策,给出区块链领域不同方向输入数据的积极或消极判断。
第三部分主要包括对上述基于CNN的文本分析模型的可解性证明,从而证明该模型对输入数据所得到的情感分析结果的原因,为后续的可视化部分提供理论依据。该部分可解释性主要通过CNN文本分析模型梯度的反向传播结果,根据链式求导法则和归一化等方式找寻出该模型中输入文本对最终模型情感结果影响最大的权重向量,以证明该模型性感分析的准确性。
第四部分主要根据上述基于CNN的文本分析模型得到的区块链领域各方向数据的情感分析结果,对其进行加权平均计算,将求得的加权平均结果作为最终区块链领域热点研究方向的结果。该部分(第四部分)主要实现对上述过程的可视化展示,主要包括区块链领域热门方向的展示(第一部分得到的关键词)、区块链领域各方向Twitter和媒体文本中主要情感词的展示(第三部分通过可解释性分析得到的文本情感词)以及区块链领域各方向之间的关联性的可视化展示。
其中,文本预处理步骤主要包括对收集的区块链相关twitter数据文本和专利摘要文本中分词、停用词去除和词性标注等操作。不同语言的文本特征不同,因此处理方法也可能不同。本实施例中将文本分解为单独的词汇向量,对于由多个标识符组成的文本,需要将每个标识符转换为分布式表示,作为基于CNN文本分析模型的输入。
基于CNN文本分析模型中的词嵌入层是将文本中的词转换为数字向量的一种方法,为了使用标准的机器学习算法对区块链相关Twitter文本和专利摘要进行分析,需要将这些转换成数字的向量作为数字形式的输入,参见图3所示,本实施例使用一个V×D矩阵进行转换,其中V是词汇量的大小,D是词嵌入的维度,词嵌入的维度定义为128维。在模型中采用两个卷积池化层,利用深度学习模型训练方法可以确定模型的结构和超参数,卷积池化层之后是密集连接层,使用全局池化方法来构建,实现模型对区块链相关文本中热门词汇的识别和提取。
具体的,图3示出了卷积神经网络(Convolutional neural network)、原始文本(Original text)、量化(to quantify)、词嵌入模型(Word embedding model)、嵌入模型(Embedded model)、连接层(Connection layer)、池化层(Pooling layer)、卷积层(Convolution layer)、分类(Category)、分类标签(Category label)、技术a、b、c......,结合图3,基于CNN的文本分析模型的整体架构图。该模型主要由嵌入层、卷积层和分类层构成。首先使用词嵌入将根据区块链关键词搜集到的Twitter和媒体数据转换为词向量,转换后的词向量使用V×D矩阵来表示,其中V是句子中词汇量的长度,本实施例考虑搜集到的文本数据的实际长度,将V控制在500词以内,即对于任意大于500词的句子进行裁剪,小于500词的句子使用0进行填充,D是词嵌入的维度,本实施例使用128维的词嵌入来表示文本中词语的嵌入特征。接着将上述计算后得到的V×D矩阵作为基于CNN文本分析模型的输入,考虑本实施例所使用的数据类型,对于小于500词以内的文本使用两个卷积层和两个池化层来进行文本的情感分析,其中第一个卷积层使用64个5*5卷积,第二个卷积层使用32个3*3卷积,不对padding和stride进行特殊设置,第二个卷积后使用了全局最大池化的方法提取出特征图中的最大特征元素作为后续分类层的输入,此处使用全局最大池化的方法可以保留最大值并强制模型选择最具有区分性的特征,有助于提高该模型的泛化性和鲁棒性,进而减少模型整体的计算量,提高模型情感分析的整体效率。最后使用二分类作为最后模型的输出。
图4示出了卷积神经网络(Convolutional neural network),关键词标签(Keywords label)、NFTcard、连接层(Connection layer)、池化层(Pooling layer)、解卷积层(Deconvolution layer)、Marker嵌入层(Marker embedding layer)、文本回溯(Textrecovery)、标签文本(Tag text)、技术a、b、c......,结合图4,反向回溯分析模型是基于CNN文本分析模型的结果,通过对模型计算出的热门词汇进行回溯分析,追踪到影响模型分析结果的重要因素,反向回溯分析模型通过多个密集连接层、池化层和卷积层对分析结果进行反向计算,计算输入的文本向量值各部分对分析结果的影响程度,该影响程度是输入向量中每个点的量化值,也是后续模型可解释性分析的基本数据来源。由此模型可以得到当前模型所分析的文本中关键词的来源,为模型对区块链关键技术的分析提供有力证据。
具体的,本实施例中反向回溯分析模型是基于CNN文本分析模型的反向回溯,主要还是针对上述的基于CNN的文本分析模型,通过链式法则反向计算梯度从而对上述情感分析结果给出一个可解释性的分析结果。经过基于CNN文本分析模型的计算后,我们得到了当前区块链领域不同方向的twitter和媒体文本的类别标签,即积极标签和消极标签两类标签。然后根据分类标签进行反向回溯分析,即从最终模型给出的类别标签(二分类计算结果值)通过链式求导法则反向传播进行权值的回溯分析,将基于CNN文本分析模型的二分类计算结果值经过多个密集连接层、池化层和卷积层的反向计算,从而可以计算出输入文本(Twitter和媒体数据文本)向量值各个部分对于预测结果的影响程度,这个影响程度是针对CNN文本分析模型输入向量中每个点的量化值,量化值计算公式如(1)和(2)所示,也是模型可解释性分析的一个基础数据来源。整体来说主要是运用了CNN在视觉领域中图像区域提取的思想,转换为本文中提取和输出对提高分类置信度起作用的文本区域,从而为模型的情感分类结果的可解释性提供多维度和深层次的特征,为接下来的可视化提供有效数据。
量化值计算公式:
(1)
(2)
由于每个句子中每个词语都是128维度的向量,因此经过反向传播后想得到该词的对整句话的影响程度需要对128维中的所有维度做标准化处理,经过实验得到所有实验文本数据中每个词嵌入层的高维分布,经过降维分析定义标准差区间为[0.2,0.4],因此针对不同区间使用不同的量化值计算方法。上述公式中(1)主要针对标准差在0.2到0.4范围内的每个词量化值计算方法,其中QA为计算后的量化值,μ为偏置项,Xi,xi代表词语中128维度中的第i维的嵌入值;公式(2)为标准差在[0.2,0.4]范围外的每个词量化值计算方法,通过变换参数N来降低标准差不在范围内的嵌入维度(即噪音)对最终分析结果的影响,QA为计算后的量化值,μ为偏置项,Xi,xi代表词语中128维度中的第i维的嵌入值。
可视化分析具体包括:通过模型获得最终的分析结果,设计综合分析图(参见图5所示的区块链领域关键技术分析),包括区块链热点技术相关性分析、正高频词汇图、负高频词汇图和综合分析文本。可将词语阈值控制在[0.73,0.85]范围内,使用所示公式进行词语权重加权计算,并绘制计算结果综合分析图。
最终区块链应用趋势分析的可视化使用了上述的基于CNN文本分析模型经过反向回溯分析得到的文本中的影响情感分析的词语、使用文本提取模型得到的当前区块领域的热门研究方向和热门研究方向之间的关联性计算结果(即使用TF-IDF算法分析出摘要文本中区块链领域多个关键词之间的关联性),最终通过构造可视化方法和量化值计算等方法对本实施例上述整体分析过程得到的结果进行统一可视化展示。
该可视化部分包括区块链领域关键技术分析,主要由三个部分构成,分别是区块链领域关键技术的关联性分析图、Twitter文本和媒体数据中影响模型最终情感分类结果的积极词汇和消极词汇以及最终的结论,具体包括关键技术(Hot technology)、消极评论(Negative comments)、积极评论(Positive comments)、Twitter消极词汇(TwitterNegative keywords)、Twitter积极词汇(Twitter Positive keywords)即当前区块链领域应用趋势分析结果的文本描述。首先第一部分在关键词提取过程中,对搜集到的区块链专利或论文摘要部分的关键词提取中,在摘要数据中出现多项区块链技术关键词的样本中使用TF-IDF算法计算关键词的词频和逆文档频率,并对同一摘要文本中出现的多项关键技术进行统计,在可视化阶段对技术之间同时出现的概率进行关联性可视化;第二部分通过基于CNN文本分析模型在反向传播后得到的输入文本中词语对模型最终情感分析结果的影响程度,通过对词语128个维度上的量化值计算得到每个词语的最终计算结果,将词语根据量化值计算结果进行排序,取出每个样本中排名前3的词语并记录下来,同时需要去除一些常见的并且词频很高的词语(即噪音),并考虑词语在不同文本中重要程度不同使用如(3)所示的词语加权计算公式对结果进一步优化处理,最终将所有样本回溯分析后得到的词语进行汇总并通过可视化的方式进行展示。第三部分主要根据提取到的区块链领域关键技术和情感分析结果进行加权计算,即每个关键技术和该技术下的文本情感分类后积极文本和消极文本数量的加权平均,将得到的所有关键技术加权计算结果进行排序,并生成最终区块链应用趋势分析文本进行可视化展示。
词语加权计算公式:
(3)
其中A为当前句子的超参数,主要实现控制不同维度中词语权重值的均匀分布,以提高计算效率,超参数A的值可在基于CNN文本分析模型反向回溯分析过程中根据结果分析得到并设置合理的取值;Wi代表当前句子中的词语i的维度矩阵,MaxWi代表词语i在各个维度中取到的最大值,N表示当前句子的长度即包含多少个词语。
综上所述,本发明实施例的可解释的区块链应用趋势分析方法中数据来源广泛,使用CNN及词嵌入作为区块链领域技术分析模型,并使用回溯分析模型对分析结果提供可解释性,实现对区块链领域当前热点技术的智能分析。
实施例2:
参见图6所示,本实施例提供了一种可解释的区块链应用趋势分析系统1,所述系统1包括:
提取模块10,被配置为从区块链领域文献资料中提取区块链数据文本;
预处理模块20,被配置为对提取的区块链数据文本进行预处理;
文本分析模块30,被配置为利用预先建立的文本分析模型对经预处理后的区块链数据文本进行计算处理,以得到区块链数据文本的关键词标签;
情感分析模块40,被配置为基于计算得到的区块链数据文本的关键词标签在社交媒体网站中进行文本筛选,并对筛选出的文本进行情感分析处理以得到情感分析结果;
回溯分析模块50,被配置为利用预先建立的反向回溯分析模型对情感分析结果进行计算处理,以得到区块链数据文本中各个词汇的贡献值;
解释性分析模块60,被配置为对区块链数据文本中各个词汇的贡献值进行解释性分析得到解释分析结果,并将区块链数据文本中各个词汇的贡献值与从区块链领域文献资料中得到的区块链热门应用技术进行映射以得到各区块链热门应用技术间的关联性以及当前支持程度。
可选地,本实施例可解释的区块链应用趋势分析系统1中提取模块10利用预先训练的文本提取模型对区块链领域文献资料进行处理,以提取得到包含区块链领域关键技术的区块链数据文本。
可选地,本实施例可解释的区块链应用趋势分析系统1中预处理模块20被配置为文本处理和词向量处理:
文本处理为对区块链数据文本进行分词、停用词去除以及词性标注;
词向量处理为将区块链数据文本分解为单独的词汇向量。
可选地,本实施例可解释的区块链应用趋势分析系统1中文本分析模块30采用的文本分析模型为基于CNN文本分析模型,文本分析模型包括两个卷积池化层以及位于两个卷积池化层后面的密集连接层。
可选地,本实施例可解释的区块链应用趋势分析系统1中文本分析模块30采用的文本分析模型还包括位于两个卷积池化层前面的词嵌入层,词嵌入层通过一个V×D矩阵将经预处理后的区块链数据文本中的词转换为数字向量,其中,V是词汇量的大小,D是词嵌入的维度。
可选地,本实施例可解释的区块链应用趋势分析系统1中情感分析模块40被配置为利用预先建立的基于CNN文本情感分析模型对筛选出的文本进行情感分析处理以得到情感分析结果;
基于CNN文本情感分析模型还用于对区块链领域文献资料进行处理得到区块链热门应用技术。
可选地,本实施例可解释的区块链应用趋势分析系统1还包括:
可视化模块70,被配置为对解释分析结果、各区块链热门应用技术间的关联性以及当前支持程度进行计算分析得到综合分析图,以实现分析结果的可视化展示。
实施例3:
本发明公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开实施例1中任一项的一种可解释的区块链应用趋势分析方法中的步骤。
图7为根据本发明实施例的一种电子设备的结构图,如图7所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例4:
本发明公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明的实施例1中任一项的一种可解释的区块链应用趋势分析方法中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (9)

1.一种可解释的区块链应用趋势分析方法,其特征在于,所述方法包括:
步骤S1:从区块链领域文献资料中提取区块链数据文本;
步骤S2:对提取的所述区块链数据文本进行预处理;
步骤S3:利用预先建立的文本分析模型对经预处理后的区块链数据文本进行计算处理,以得到所述区块链数据文本的关键词标签;
步骤S4:基于计算得到的所述区块链数据文本的关键词标签在社交媒体网站中进行文本筛选,并对筛选出的文本进行情感分析处理以得到情感分析结果,在所述步骤S4中,利用预先建立的基于CNN文本情感分析模型对筛选出的文本进行情感分析处理以得到情感分析结果;所述基于CNN文本情感分析模型还用于对区块链领域文献资料进行处理得到区块链热门应用技术;
步骤S5:利用预先建立的反向回溯分析模型对所述情感分析结果进行计算处理,以得到所述区块链数据文本中各个词汇的贡献值;
步骤S6:对所述区块链数据文本中各个词汇的贡献值进行解释性分析得到解释分析结果,并将所述区块链数据文本中各个词汇的贡献值与从区块链领域文献资料中得到的区块链热门应用技术进行映射以得到各区块链热门应用技术间的关联性以及当前支持程度。
2.根据权利要求1所述的可解释的区块链应用趋势分析方法,其特征在于,在所述步骤S1中,利用预先训练的文本提取模型对区块链领域文献资料进行处理,以提取得到包含区块链领域关键技术的区块链数据文本。
3.根据权利要求1所述的可解释的区块链应用趋势分析方法,其特征在于,在所述步骤S2中,所述预处理包括文本处理和词向量处理:
所述文本处理为对所述区块链数据文本进行分词、停用词去除以及词性标注;
所述词向量处理为将所述区块链数据文本分解为单独的词汇向量。
4.根据权利要求1所述的可解释的区块链应用趋势分析方法,其特征在于,在所述步骤S3中,所述文本分析模型为基于CNN文本分析模型,所述文本分析模型包括两个卷积池化层以及位于两个所述卷积池化层后面的密集连接层。
5.根据权利要求4所述的可解释的区块链应用趋势分析方法,其特征在于,在所述步骤S3中,所述文本分析模型还包括位于两个所述卷积池化层前面的词嵌入层,所述词嵌入层通过一个V×D矩阵将经预处理后的区块链数据文本中的词转换为数字向量,其中,V是词汇量的大小,D是词嵌入的维度。
6.根据权利要求1所述的可解释的区块链应用趋势分析方法,其特征在于,所述方法还包括:
步骤S7:对所述解释分析结果、各区块链热门应用技术间的关联性以及当前支持程度进行计算分析得到综合分析图,以实现分析结果的可视化展示。
7.一种可解释的区块链应用趋势分析系统,其特征在于,所述系统包括:
提取模块,被配置为从区块链领域文献资料中提取区块链数据文本;
预处理模块,被配置为对提取的所述区块链数据文本进行预处理;
文本分析模块,被配置为利用预先建立的文本分析模型对经预处理后的区块链数据文本进行计算处理,以得到所述区块链数据文本的关键词标签;
情感分析模块,被配置为基于计算得到的所述区块链数据文本的关键词标签在社交媒体网站中进行文本筛选,并对筛选出的文本进行情感分析处理以得到情感分析结果,其中,情感分析模块被配置为利用预先建立的基于CNN文本情感分析模型对筛选出的文本进行情感分析处理以得到情感分析结果;基于CNN文本情感分析模型还用于对区块链领域文献资料进行处理得到区块链热门应用技术;
回溯分析模块,被配置为利用预先建立的反向回溯分析模型对所述情感分析结果进行计算处理,以得到所述区块链数据文本中各个词汇的贡献值;
解释性分析模块,被配置为对所述区块链数据文本中各个词汇的贡献值进行解释性分析得到解释分析结果,并将所述区块链数据文本中各个词汇的贡献值与从区块链领域文献资料中得到的区块链热门应用技术进行映射以得到各区块链热门应用技术间的关联性以及当前支持程度。
8.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至6中任一项所述的一种可解释的区块链应用趋势分析方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至6中任一项所述的一种可解释的区块链应用趋势分析方法中的步骤。
CN202310648456.8A 2023-06-02 2023-06-02 一种可解释的区块链应用趋势分析方法及系统 Active CN116402048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310648456.8A CN116402048B (zh) 2023-06-02 2023-06-02 一种可解释的区块链应用趋势分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310648456.8A CN116402048B (zh) 2023-06-02 2023-06-02 一种可解释的区块链应用趋势分析方法及系统

Publications (2)

Publication Number Publication Date
CN116402048A CN116402048A (zh) 2023-07-07
CN116402048B true CN116402048B (zh) 2023-10-10

Family

ID=87007924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310648456.8A Active CN116402048B (zh) 2023-06-02 2023-06-02 一种可解释的区块链应用趋势分析方法及系统

Country Status (1)

Country Link
CN (1) CN116402048B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598972A (zh) * 2019-07-26 2019-12-20 浙江华云信息科技有限公司 一种基于自然语言处理的计量采集研究方向趋势分析方法
WO2020253042A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 情感智能判断方法、装置及计算机可读存储介质
CN112347252A (zh) * 2020-11-04 2021-02-09 吉林大学 一种基于cnn文本分类模型的可解释性分析方法
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN116167627A (zh) * 2023-01-10 2023-05-26 广东横琴数说故事信息科技有限公司 一种基于大数据的全链式产品设计决策方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253042A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 情感智能判断方法、装置及计算机可读存储介质
CN110598972A (zh) * 2019-07-26 2019-12-20 浙江华云信息科技有限公司 一种基于自然语言处理的计量采集研究方向趋势分析方法
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN112347252A (zh) * 2020-11-04 2021-02-09 吉林大学 一种基于cnn文本分类模型的可解释性分析方法
CN116167627A (zh) * 2023-01-10 2023-05-26 广东横琴数说故事信息科技有限公司 一种基于大数据的全链式产品设计决策方法及系统

Also Published As

Publication number Publication date
CN116402048A (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
Mathur et al. Detecting offensive tweets in hindi-english code-switched language
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
US20150095017A1 (en) System and method for learning word embeddings using neural language models
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN114298053B (zh) 一种基于特征和注意力机制融合的事件联合抽取系统
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
CN110737839A (zh) 短文本的推荐方法、装置、介质及电子设备
Ma et al. A deep-learning based citation count prediction model with paper metadata semantic features
Zhang et al. Multi-modal multi-label emotion detection with modality and label dependence
CN111291188A (zh) 一种智能信息抽取方法及系统
Sridhar et al. Fake news detection and analysis using multitask learning with BiLSTM CapsNet model
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN116402048B (zh) 一种可解释的区块链应用趋势分析方法及系统
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115700555A (zh) 模型训练方法、预测方法、装置和电子设备
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN112417131A (zh) 信息推荐方法和装置
Xu et al. Two-stage semantic matching for cross-media retrieval
CN113343666B (zh) 评分的置信度的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant