CN116527697B - 应用于一网统管的区块链和ipfs舆情共享方法及系统 - Google Patents
应用于一网统管的区块链和ipfs舆情共享方法及系统 Download PDFInfo
- Publication number
- CN116527697B CN116527697B CN202310791281.6A CN202310791281A CN116527697B CN 116527697 B CN116527697 B CN 116527697B CN 202310791281 A CN202310791281 A CN 202310791281A CN 116527697 B CN116527697 B CN 116527697B
- Authority
- CN
- China
- Prior art keywords
- public opinion
- information
- text
- ipfs
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 68
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000007726 management method Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/176—Support for shared access to files; File sharing support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种应用于一网统管的区块链和IPFS舆情共享方法及系统,该方法包括:搭建基于区块链和IPFS的舆情共享平台并获取舆情信息以形成舆情文本。将舆情文本存储于IPFS网络内且每一舆情文本对应有唯一的IPFS地址,并将每一舆情文本的IPFS地址存储至区块链内。预处理获取的舆情文本并将舆情文本中的关键词转化为向量表示;基于关键词的向量表示通过计算相似度以进行主题识别并将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将舆情文本进行分类。分析预处理后的舆情文本,基于舆情文本的关键词呈现该舆情文本的摘要信息。基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点。
Description
技术领域
本发明涉及数据处理技术领域,其特别涉及一种应用于一网统管的区块链和IPFS舆情共享方法及系统。
背景技术
一网统管是以物联网、大数据、人工智能、5G移动通信等前沿技术为支撑来整合城市运行管理服务相关信息的城市运行管理服务平台,其主要对城市运行管理服务状况的实时监测、动态分析以及统筹协调。随着互联网技术的不断发展,大量的舆情数据被产生并在城市的各个领域内广泛快速传播。现有舆情信息的难追溯性导致大量对民生产生错误引导的虚假信息在互联网上迅速传播,给一网统管的舆论监控预警、分析研判以及舆论引导带来了很大的困难;而信息的可篡改性这会导致数字存证所存储的舆论信息无法作为司法证据而影响事实判断的可能。
为实现舆情信息的监管,当前主要采用中心化平台进行数据的共享和分析;例如政府或企业内部的数据共享平台、数据仓库等。这些平台需要统一的管理和授权且数据流转也比较固定,难以满足具有大量舆情信息场景需求。而现有的中心化共享平台由于数据的集中式管理,不仅数据的传输能力较差且往往还面临着数据存储有限、需要定期维护以及数据存在被修改,被窃取等安全性问题。此外,随着大量互联网网络平台的涌现,舆情信息分散在不同的平台和数据源而导致数据分散和不完整,这亦会给舆情的分析带来和管理带来很大的难度。
发明内容
本发明为了克服现有技术的至少一个不足,提供一种应用于一网统管的区块链和IPFS舆情共享方法及系统。
为了实现上述目的,本发明提供一种应用于一网统管的区块链和IPFS舆情共享方法,其包括:
搭建基于区块链和IPFS的舆情共享平台并获取舆情信息以形成舆情文本;
将舆情文本存储于IPFS网络内且每一舆情文本对应有唯一的IPFS地址,通过调用智能合约将每一舆情文本的IPFS地址存储至区块链内;
预处理获取的舆情文本;
采用词向量模型将预处理后的舆情文本中的关键词转化为向量表示;
基于关键词的向量表示,计算舆情文本内每一关键词与预设主题词之间的相似度以进行主题识别;并将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每个簇代表一个主题以进行舆情信息的主题分类;
分析预处理后的舆情文本,基于舆情文本的关键词呈现该舆情文本的摘要信息;
基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点;该步骤包括:在区块链上创建一个新的智能合约,用于存储和管理舆情信息和关键词信息;智能合约定义舆情信息的结构,包括舆情文本、关键词、主题以及摘要并同时定义相应的存储和查询方法;在区块链上创建一个新的交易,新的交易关联当前所处理的舆情信息的IPFS地址并将舆情文本、摘要、关键词以及主题打包;将交易提交到区块链网络中并等待网络中的节点确认和处理交易;一旦交易被确认并写入区块链中,舆情信息和关键词信息将与该条舆情信息相关联,将其主题和摘要信息广播至区块链内的每一节点。
根据本发明的一实施例,使用k-means聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每一舆情文本的向量平均值的计算公式如下:
其中,表示舆情文本t的向量平均值,N(t)表示舆情文本t中的关键词的数量,表示舆情文本t中第i个关键词的向量表示。
根据本发明的一实施例,基于舆情文本的关键词呈现该舆情文本的摘要信息包括:
以预处理后所获得的舆情文本的关键词为节点,词与词之间的共现关系为边构建有向加权图;
将关键词节点的初始权重设置为1并迭代计算每个节点的权重直到收敛;
计算每个节点的入度权重之和并将其作为该节点的初始权重。
对于节点v,遍历所有指向其的节点u并计算每一节点u对节点v的贡献值,将所有贡献值相加以得到节点v的新权重值;将每个节点的权重值除以所有节点权重值之和以归一化所有节点的权重值;
其中节点u对节点v的贡献值计算公式为:
其中,表示从节点u指向节点v的边的权重,是节点u指向所有外部节点
的集合,表示从节点u指向节点k的边的权重;
计算每个节点的得分,对于节点v其得分表示为:
其中,表示节点v的得分,u→v表示所有指向节点v的节点集合;为上一
次迭代出的节点u的得分;d为阻尼系数,取值范围为[0,1]代表从有向加权图中的一点指向
其它任意点的概率;
对所有节点的得分进行排序并选取前N个节点所对应的关键词形成该舆情文本的摘要信息。
根据本发明的一实施例,根据关键词构建有向加权图后,基于主题识别过程中的关键词向量表示来计算每个节点的权重。
根据本发明的一实施例,在预处理舆情文本和词向量转化后,以并行的方式同步执行舆情文本的主题分类识别以及摘要信息的呈现;
或者,在完成主题分类识别后分析每一主题下的所有舆情信息以呈现每一舆情信息摘要和该主题下所有舆情信息的总摘要。
根据本发明的一实施例,预处理舆情文本包括对舆情文本进行分词和去除停用词处理。
根据本发明的一实施例,在获取到舆情文本后调用智能合约将舆情文本进行打包加密并产生该舆情文本对应的唯一IPFS地址;
智能合约将基于IPFS网络内节点的身份信息和分发能力对所有可用的网络节点进行匹配以得到分发节点;
将打包加密的舆情文本和对应的IPFS地址分发至匹配到的分发节点;
分发节点将打包加密的舆情文本以链下的形式同步至网络内的其它节点同时将该舆情文本对应的IPFS地址存储入链上的区块内。
另一方面,本发明还提供一种应用于一网统管的区块链和IPFS舆情共享系统,其包括信息获取模块、上链存储模块、预处理模块、向量转换模块、主题分类识别模块、摘要分析模块以及反馈模块。信息获取模块获取舆情信息以形成舆情文本。上链存储模块将舆情文本存储于IPFS网络内且每一舆情文本对应有唯一的IPFS地址,通过调用智能合约将每一舆情文本的IPFS地址存储至区块链内。预处理模块预处理获取的舆情文本。向量转换模块采用词向量模型将预处理后的舆情文本中的关键词转化为向量表示。主题分类识别模块基于关键词的向量表示,计算舆情文本内每一关键词与预设主题词之间的相似度以进行主题识别;并将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每个簇代表一个主题以进行舆情信息的主题分类。摘要分析模块分析预处理后的舆情文本,基于舆情文本的关键词呈现该舆情文本的摘要信息。反馈模块基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点;该步骤包括:在区块链上创建一个新的智能合约,用于存储和管理舆情信息和关键词信息;智能合约定义舆情信息的结构,包括舆情文本、关键词、主题以及摘要并同时定义相应的存储和查询方法;在区块链上创建一个新的交易,新的交易关联当前所处理的舆情信息的IPFS地址并将舆情文本、摘要、关键词以及主题打包;将交易提交到区块链网络中并等待网络中的节点确认和处理交易;一旦交易被确认并写入区块链中,舆情信息和关键词信息将与该条舆情信息相关联,将其主题和摘要信息广播至区块链内的每一节点。
根据本发明的一实施例,在预处理舆情文本和词向量转化后,主题分类识别模块和摘要分析模块以并行的方式同步执行舆情文本的主题分类识别以及摘要信息的呈现;
或者,在主题分类识别模块完成主题分类识别后,摘要分析模块分析每一主题下的所有舆情信息以呈现每一舆情信息摘要和该主题下所有舆情信息的总摘要。
根据本发明的一实施例,在获取到舆情文本后上链存储模块调用智能合约将舆情文本进行打包加密并产生该舆情文本对应的唯一IPFS地址;
智能合约将基于IPFS网络内节点的身份信息和分发能力对所有可用的网络节点进行匹配以得到分发节点;
将打包加密的舆情文本和对应的IPFS地址分发至匹配到的分发节点;
分发节点将打包加密的舆情文本以链下的形式同步至网络内的其它节点同时将该舆情文本对应的IPFS地址存储入链上的区块内。
综上所述,本发明提供的应用于一网统管的区块链和IPFS舆情共享方法基于区块链技术实现了舆情信息的去中心化管理,避免了传统中心化管理方式下可能存在的单点故障问题,提高了数据安全性和可靠性。利用IPFS网络实现了海量舆情的高效存储和传输,有效解决了传统技术中存在的数据容易被篡改,数据传输效率低下等问题。进一步的,将基于自然语言的舆情文本主题识别和摘要呈现关联反馈至IPFS网络节点内对应的舆情信息,在实现舆情信息归类的同时亦实现了舆情信息的准确查询为提高舆情分析的速度和精准度提供了基础。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
附图说明
图1所示为本发明一实施例提供的应用于一网统管的区块链和IPFS舆情共享方法。
图2所示为图1中步骤S20的具体流程示意图。
图3所示为图1中步骤S60的具体流程示意图。
图4所示为本发明一实施例提供的应用于一网统管的区块链和IPFS舆情共享系统。
具体实施方式
如图1所示,本实施例提供的应用于一网统管的区块链和IPFS舆情共享方法,其包括:搭建基于区块链和IPFS的舆情共享平台并获取舆情信息以形成舆情文本(步骤S10)。将舆情文本存储于IPFS网络内且每一舆情文本对应有唯一的IPFS地址,通过调用智能合约将每一舆情文本的IPFS地址存储至区块链内(步骤S20)。预处理获取的舆情文本(步骤S30)。采用词向量模型将预处理后的舆情文本中的关键词转化为向量表示(步骤S40)。基于关键词的向量表示,计算舆情文本内每一关键词与预设主题词之间的相似度以进行主题识别;并将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每个簇代表一个主题以进行舆情信息的主题分类(步骤S50)。分析预处理后的舆情文本,基于舆情文本的关键词呈现该舆情文本的摘要信息(步骤S60)。基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点(步骤S70)。
在步骤S10中,基于区块链和IPFS的舆情共享平台将利用IPFS网络的P2P协议实现节点之间的直接通信以实现信息的快速传输和共享,并基于IPFS网络的缓存功能来加速信息的传输和访问以提高信息的响应速度和效率。在步骤S10中,通过网络爬虫从微博、抖音、微信公众号、今日头条以及知乎等多个社交媒体软件中获取舆情信息,实现多平台舆情信息的汇总收集。优选的,获取的舆情信息以为自然语言的文本形式。然而,本发明对此不作任何限定。基于短视频的快速传播,于其它实施例中,若获取的舆情信息为视频或音频的形式时则将其转换为文本形式以形成舆情文本。
在获得舆情信息后将执行步骤S20,将舆情信息存储于IPFS网络内。具体的,如图2所示该步骤包括:
步骤S201:在获取到舆情文本后调用智能合约将舆情文本进行打包加密并产生该舆情文本对应的唯一IPFS地址。具体的,将舆情文本进行哈希运算在实现舆情文本加密以确保数据传输的安全性和完整性的同时产生与该舆情文本内容一一对应的哈希值,该哈希值即为该舆情文本对应的唯一的IPFS地址。
步骤S202:智能合约将基于IPFS网络内节点的身份信息(如网络节点的可信任度等)和分发能力(如网络节点的可用性和带宽等因素)对所有可用的网络节点进行匹配以得到分发节点。
步骤S203:智能合约将打包加密的舆情文本和对应的IPFS地址分发至匹配到的分发节点。
步骤S204:分发节点将通过P2P协议将打包加密的舆情文本以链下的形式同步传输至网络内的其它节点,从而实现舆情文本的分布式存储;与此同时,分发节点将该舆情文本对应的IPFS地址存储入链上的区块内。
IPFS网络的分布式存储和基于区块链的IPFS地址共识管理使得海量的舆情文本无需存储在区块链上亦可保证所有网络节点的数据一致性和安全性,防止信息被篡改或删除的同时还有效解决现有中心化共享平台所存在的数据存储有限以及单点数据存储易被攻击等问题。进一步的,海量舆情信息的分布式存储和P2P的点对点通信则有效提升了数据共享的效率。此外,由于IPFS地址是基于舆情文本内容经哈希转换后得到的,故在舆情信息存储时还可利用IPFS网络的哈希算法实现舆情信息的验证和去重,防止重复信息的传输和存储。
在获得大量的舆情信息后需要对其进行分析和深度挖掘,为舆情的走向趋势和监控提供准确地数据基础。因此,本实施例提供的基于区块链和IPFS的舆情共享方法还包括步骤S30:预处理获取的舆情文本。具体的,包括去除停用词、分词以及去除标点符号等处理以得到每一舆情文本的关键词。预处理后将执行步骤S40:使用word2vec算法训练词向量模型,将舆情文本中每一关键词转化为向量表示。
在大量的舆情信息中,不同的行业或部门所关注的舆情方向是不同的。因此需要根据行业或所属部门职能的需求将大量的舆情信息进行分类并从中识别出与其所关注的一个或多个预设主题词相关的舆情信息,从而为后续的舆情的走势分析和监控提供准确且实时的数据支持。具体的,对于市政管理部门而言,其主要关注多为与民生相关的交通、供水、教育以及养老服务等主题词相关的舆情信息;进一步的,市政管理下属中不同的部门其所关注的舆情方向也将不同。因此,步骤S50将包括两个步骤:
步骤S501,基于关键词的向量表示,计算舆情文本内每一关键词与预设主题词之间的相似度以进行主题识别。于本实施例中,采用如下公式来计算关键词向量和预设主题词向量之间的相似度,计算结果的范围在[-1,1]数值越大则表明关键词和预设主题词之间越接近。其具体的计算公式如下:
其中,表示舆情文本t中第i个关键词的向量表示,表示第j个预设主
题词的向量表示。
步骤S502,将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每个簇代表一个主题以进行舆情信息的主题分类。于本实施例中,使用k-means聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每一舆情文本的向量平均值的计算公式如下:
其中,表示舆情文本t的向量平均值,N(t)表示舆情文本t中的关键词的数量,表示舆情文本t中第i个关键词的向量表示。
具体的,于本实施例中,在步骤S501进行主题识别后执行步骤S502,采用k-means聚类算法将基于多个预设关键词进行主题识别后所获得的多条舆情文本进行分类。具体的,将交通、供水、教育以及养老服务等主题词相关的舆情信息进行逐一分类;与交通相关的所有舆情信息将归类于一起,而与教育相关的则归类于一起以实现舆情信息的分类识别。然而,本发明对于步骤S501和步骤S502的执行顺序不作任何限定。于其它实施例中,亦可先执行步骤S502将舆情进行分类后再对于每一分类进行主体识别。
舆情信息主题的识别和分类使得用户可根据其所属部门或行业的需求来快速查询并锁定到其所需要的舆情方向。然而,随着互联网技术的快速发展,每个舆情类别下其每天所产生的数据量仍然非常的庞大,为实现舆情信息的准确检索和分析,本实施例提供的基于区块链和IPFS的舆情共享平台还将通过关键词来呈现每一舆情文本的摘要信息。具体的,如图3所示,步骤S60包括:
步骤S601:以步骤S30预处理后所获得的舆情文本的关键词为节点,词与词之间的共现关系为边构建有向加权图。
步骤S602:将关键词节点的初始权重设置为1并迭代计算每个节点的权重直到收敛。
步骤S603:计算每个节点的入度权重之和并将其作为该节点的初始权重。
步骤S604:对于节点v,遍历所有指向其的节点u并计算每一节点u对节点v的贡献值,将所有贡献值相加以得到节点v的新权重值;
其中节点u对节点v的贡献值计算公式为:
表示从节点u指向节点v的边的权重,是节点u指向所有外部节点的集
合,表示从节点u指向节点k的边的权重;
步骤S605:将每个节点的权重值除以所有节点权重值之和以归一化所有节点的权重值;
步骤S606:计算每个节点的得分,对于节点v其得分表示为:
其中,表示节点v的得分,u→v表示所有指向节点v的节点集合;为上一
次迭代出的节点u的得分;d为阻尼系数,取值范围为[0,1]代表从有向加权图中的一点指向
其它任意点的概率;
步骤S607:对所有节点的得分进行排序并选取前N个节点所对应的关键词形成该舆情文本的摘要信息,N为预设的节点数量。
于本实施例中,步骤S602中节点权重的计算可基于步骤S40中关键词的向量表示以简化程序的计算量。与此同时,该设置还使得在预处理舆情文本和词向量转化后,步骤S50中舆情文本的主题分类识别和步骤S60的摘要信息呈现可以并行的方式同步执行以实现多链并行处理,提高系统的可扩展性和并发性。然而,本发明对此不作任何限定。于其它实施例中,亦可在步骤 S50完成主题分类识别后再执行步骤S60,分析每一主题下的所有舆情信息以呈现每一舆情信息摘要和该主题下所有舆情信息的总摘要。基于主题分类后的摘要呈现是基于用户需求的有效舆情信息的摘要呈现,有效避免了无效舆情信息的数据处理。
在获得舆情信息的主题分类识别以及摘要信息后执行步骤S70,基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点。具体的,在该步骤中,在区块链上创建一个新的智能合约,用于存储和管理舆情文本和关键词信息;该智能合约定义了舆情信息的结构,包括舆情文本、关键词、主题以及摘要等信息并同时定义相应的存储和查询方法。在区块链上创建一个新的交易,新的交易关联该当前所处理的舆情信息的IPFS地址,用于将舆情文本、摘要、关键词以及主题等信息打包并定义相应的数据格式和验证机制,确保数据的完整性和准确性。将交易提交到区块链网络中并等待网络中的节点确认和处理交易。一旦交易被确认并写入区块链中,舆情信息和关键词信息将与该条舆情信息相关联,将其主题和摘要信息广播至区块链内的每一节点并且可以通过区块链网络查询和访问。在每个节点上,可以使用相应的客户端程序查询和访问舆情信息和关键词信息,以便及时了解和分析最新的舆情动态。
与上述方法想对应的,如图4所示,本实施例还提供一种应用于一网统管的区块链和IPFS舆情共享系统,其包括信息获取模块10、上链存储模块20、预处理模块30、向量转换模块40、主题分类识别模块50、摘要分析模块60以及反馈模块70。信息获取模块10获取舆情信息以形成舆情文本。上链存储模块20将舆情文本存储于IPFS网络内且每一舆情文本对应有唯一的IPFS地址,通过调用智能合约将每一舆情文本的IPFS地址存储至区块链内。预处理模块30预处理获取的舆情文本。向量转换模块40采用词向量模型将预处理后的舆情文本中的关键词转化为向量表示。主题分类识别模块50基于关键词的向量表示,计算舆情文本内每一关键词与预设主题词之间的相似度以进行主题识别;并将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每个簇代表一个主题以进行舆情信息的主题分类。摘要分析模块60分析预处理后的舆情文本,基于舆情文本的关键词呈现该舆情文本的摘要信息。反馈模块70基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点。
具体的,在获取到舆情文本后,上链存储模块20通过调用智能合约来将舆情文本存储至IPFS网络中并将舆情文本对应的唯一IPFS地址存储区块链上,其具体的存储上链步骤如步骤S201至步骤S204所示。
于本实施例中,在预处理舆情文本和词向量转化后,主题分类识别模块50和摘要分析模块60以并行的方式同步执行舆情文本的主题分类识别以及摘要信息的呈现。然而,本发明对此不作任何限定。于其它实施例中,在主题分类识别模块50完成主题分类识别后,摘要分析模块60分析每一主题下的所有舆情信息以呈现每一舆情信息摘要和该主题下所有舆情信息的总摘要。
由于应用于一网统管的区块链和IPFS舆情共享系统的各功能已在其对应的方法步骤S10至步骤S70中详细描述,在此不作赘述。
本实施例提供的基于区块链和IPFS的舆情共享平台具有以下有点:
(1)使用分布式的区块链和IPFS技术进行舆情信息的存储与共享,在保证数据的安全性、可靠性、可追溯性以及去中心化的同时高效处理海量数据。
(2)通过主题识别和信息摘要呈现来对舆情信息进行深入挖掘,提取重要的关键词和主题以改善数据质量,避免信息冗余从而提高信息处理效率和准确性。
(3)实现多链并行处理,提高系统的可扩展性和并发性。
(4)提供多种数据共享方式,包括点对点共享,节点间共享和跨侧链共享。区块链舆情共享平台本质是一个不可篡改的分布式数字账本,其可溯源、不可篡改、多节点辅助验证等特点使得其可被用于打造一个可信的、有约束力的舆情机制且具有舆论信源评估、内容不可篡改以及多节点内容验证等三方面相辅相成的特点。
(5)提高数据共享的安全性:使用哈希算法对舆情数据进行加密处理,保证数据的隐私和安全性,同时采用P2P协议,去中心化共享数据,防止数据被篡改和丢失。
虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。
Claims (10)
1.一种应用于一网统管的区块链和IPFS舆情共享方法,其特征在于,包括:搭建基于区块链和IPFS的舆情共享平台并获取舆情信息以形成舆情文本;将舆情文本存储于IPFS网络内且每一舆情文本对应有唯一的IPFS地址,通过调用智能合约将每一舆情文本的IPFS地址存储至区块链内;预处理获取的舆情文本;采用词向量模型将预处理后的舆情文本中的关键词转化为向量表示;基于关键词的向量表示,计算舆情文本内每一关键词与预设主题词之间的相似度以进行主题识别;并将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每个簇代表一个主题以进行舆情信息的主题分类;分析预处理后的舆情文本,基于舆情文本的关键词呈现该舆情文本的摘要信息;基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点;该步骤包括:在区块链上创建一个新的智能合约,用于存储和管理舆情信息和关键词信息;智能合约定义舆情信息的结构,包括舆情文本、关键词、主题以及摘要并同时定义相应的存储和查询方法;在区块链上创建一个新的交易,新的交易关联当前所处理的舆情信息的IPFS地址并将舆情文本、摘要、关键词以及主题打包;将交易提交到区块链网络中并等待网络中的节点确认和处理交易;一旦交易被确认并写入区块链中,舆情信息和关键词信息将与该条舆情信息相关联,将其主题和摘要信息广播至区块链内的每一节点。
2.根据权利要求1所述的应用于一网统管的区块链和IPFS舆情共享方法,其特征在于,使用k-means聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每一舆情文本的向量平均值的计算公式如下:其中,/>表示舆情文本t的向量平均值,N(t)表示舆情文本t中的关键词的数量,/>表示舆情文本t中第i个关键词/>的向量表示。
3.根据权利要求1所述的应用于一网统管的区块链和IPFS舆情共享方法,其特征在于,基于舆情文本的关键词呈现该舆情文本的摘要信息包括:以预处理后所获得的舆情文本的关键词为节点,词与词之间的共现关系为边构建有向加权图;将关键词节点的初始权重设置为1并迭代计算每个节点的权重直到收敛;计算每个节点的入度权重之和并将其作为该节点的初始权重;对于节点v,遍历所有指向其的节点u并计算每一节点u对节点v的贡献值,将所有贡献值相加以得到节点v的新权重值;将每个节点的权重值除以所有节点权重值之和以归一化所有节点的权重值;其中节点u对节点v的贡献值计算公式为:;/>表示从节点u指向节点v的边的权重,/>是节点u指向所有外部节点的集合,/>表示从节点u指向节点k的边的权重;计算每个节点的得分,对于节点v其得分表示为:/>其中,/>表示节点v的得分,u→v表示所有指向节点v的节点集合;/>为上一次迭代出的节点u的得分;d为阻尼系数,取值范围为[0,1]代表从有向加权图中的一点指向其它任意点的概率;对所有节点的得分进行排序并选取前N个节点所对应的关键词形成该舆情文本的摘要信息。
4.根据权利要求3所述的应用于一网统管的区块链和IPFS舆情共享方法,其特征在于,根据关键词构建有向加权图后,基于主题识别过程中的关键词向量表示来计算每个节点的权重。
5.根据权利要求1所述的应用于一网统管的区块链和IPFS舆情共享方法,其特征在于,在预处理舆情文本和词向量转化后,以并行的方式同步执行舆情文本的主题分类识别以及摘要信息的呈现;或者,在完成主题分类识别后分析每一主题下的所有舆情信息以呈现每一舆情信息摘要和该主题下所有舆情信息的总摘要。
6.根据权利要求1所述的应用于一网统管的区块链和IPFS舆情共享方法,其特征在于,预处理舆情文本包括对舆情文本进行分词和去除停用词处理。
7.根据权利要求1所述的应用于一网统管的区块链和IPFS舆情共享方法,其特征在于,在获取到舆情文本后调用智能合约将舆情文本进行打包加密并产生该舆情文本对应的唯一IPFS地址;智能合约将基于IPFS网络内节点的身份信息和分发能力对所有可用的网络节点进行匹配以得到分发节点;将打包加密的舆情文本和对应的IPFS地址分发至匹配到的分发节点;分发节点将打包加密的舆情文本以链下的形式同步至网络内的其它节点同时将该舆情文本对应的IPFS地址存储入链上的区块内。
8.一种应用于一网统管的区块链和IPFS舆情共享系统,其特征在于,包括:信息获取模块,获取舆情信息以形成舆情文本;上链存储模块,将舆情文本存储于IPFS网络内且每一舆情文本对应有唯一的IPFS地址,通过调用智能合约将每一舆情文本的IPFS地址存储至区块链内;预处理模块,预处理获取的舆情文本;向量转换模块,采用词向量模型将预处理后的舆情文本中的关键词转化为向量表示;主题分类识别模块,基于关键词的向量表示,计算舆情文本内每一关键词与预设主题词之间的相似度以进行主题识别;并将每一舆情文本表示为其所包含的关键词的向量平均值,使用聚类算法将所获取的所有舆情文本的向量平均值聚成若干个簇,每个簇代表一个主题以进行舆情信息的主题分类;摘要分析模块,分析预处理后的舆情文本,基于舆情文本的关键词呈现该舆情文本的摘要信息;反馈模块,基于每一舆情信息的IPFS地址将其主题和摘要信息广播至区块链内的每一节点;该步骤包括:在区块链上创建一个新的智能合约,用于存储和管理舆情信息和关键词信息;智能合约定义舆情信息的结构,包括舆情文本、关键词、主题以及摘要并同时定义相应的存储和查询方法;在区块链上创建一个新的交易,新的交易关联当前所处理的舆情信息的IPFS地址并将舆情文本、摘要、关键词以及主题打包;将交易提交到区块链网络中并等待网络中的节点确认和处理交易;一旦交易被确认并写入区块链中,舆情信息和关键词信息将与该条舆情信息相关联,将其主题和摘要信息广播至区块链内的每一节点。
9.根据权利要求8所述的应用于一网统管的区块链和IPFS舆情共享系统,其特征在于,在预处理舆情文本和词向量转化后,主题分类识别模块和摘要分析模块以并行的方式同步执行舆情文本的主题分类识别以及摘要信息的呈现;或者,在主题分类识别模块完成主题分类识别后,摘要分析模块分析每一主题下的所有舆情信息以呈现每一舆情信息摘要和该主题下所有舆情信息的总摘要。
10.根据权利要求8所述的应用于一网统管的区块链和IPFS舆情共享系统,其特征在于,在获取到舆情文本后上链存储模块调用智能合约将舆情文本进行打包加密并产生该舆情文本对应的唯一IPFS地址;智能合约将基于IPFS网络内节点的身份信息和分发能力对所有可用的网络节点进行匹配以得到分发节点;将打包加密的舆情文本和对应的IPFS地址分发至匹配到的分发节点;分发节点将打包加密的舆情文本以链下的形式同步至网络内的其它节点同时将该舆情文本对应的IPFS地址存储入链上的区块内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791281.6A CN116527697B (zh) | 2023-06-30 | 2023-06-30 | 应用于一网统管的区块链和ipfs舆情共享方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791281.6A CN116527697B (zh) | 2023-06-30 | 2023-06-30 | 应用于一网统管的区块链和ipfs舆情共享方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116527697A CN116527697A (zh) | 2023-08-01 |
CN116527697B true CN116527697B (zh) | 2023-09-08 |
Family
ID=87397989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310791281.6A Active CN116527697B (zh) | 2023-06-30 | 2023-06-30 | 应用于一网统管的区块链和ipfs舆情共享方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116527697B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377695A (zh) * | 2019-06-17 | 2019-10-25 | 广州艾媒数聚信息咨询股份有限公司 | 一种舆情主题数据聚类方法、装置及存储介质 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110555092A (zh) * | 2019-09-10 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 舆情处理方法、装置及计算机可读存储介质 |
CN111259221A (zh) * | 2020-01-20 | 2020-06-09 | 山东爱城市网信息技术有限公司 | 基于区块链的实现舆情处理的方法、设备、介质及系统 |
CN112883734A (zh) * | 2021-01-15 | 2021-06-01 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN113626717A (zh) * | 2021-09-16 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 一种舆情监测的方法、装置、电子设备和存储介质 |
-
2023
- 2023-06-30 CN CN202310791281.6A patent/CN116527697B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110377695A (zh) * | 2019-06-17 | 2019-10-25 | 广州艾媒数聚信息咨询股份有限公司 | 一种舆情主题数据聚类方法、装置及存储介质 |
CN110555092A (zh) * | 2019-09-10 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 舆情处理方法、装置及计算机可读存储介质 |
CN111259221A (zh) * | 2020-01-20 | 2020-06-09 | 山东爱城市网信息技术有限公司 | 基于区块链的实现舆情处理的方法、设备、介质及系统 |
CN112883734A (zh) * | 2021-01-15 | 2021-06-01 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN113626717A (zh) * | 2021-09-16 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 一种舆情监测的方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于区块链激励机制的网络舆情数据多源化的探索;於渊渊;吴茜;余莹;;文化与传播(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116527697A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740037B (zh) | 多源、异构流态大数据分布式在线实时处理方法及系统 | |
US7747083B2 (en) | System and method for good nearest neighbor clustering of text | |
US20070226207A1 (en) | System and method for clustering content items from content feeds | |
CN104021194A (zh) | 一种面向行业大数据多样性应用的混合型处理系统及处理方法 | |
Nasution et al. | Social network extraction based on Web: 3. The integrated superficial method | |
Kılınç | A spark‐based big data analysis framework for real‐time sentiment prediction on streaming data | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN113157735A (zh) | 一种区块链存储数据的查询方法及装置 | |
US11809460B1 (en) | Systems, methods, and graphical user interfaces for taxonomy-based classification of unlabeled structured datasets | |
CN111708932A (zh) | 一种云计算平台及其调度、数据分析方法及系统 | |
CN105320711B (zh) | 巨量数据存取方法以及使用该方法的系统 | |
Duan et al. | Distributed in-memory vocabulary tree for real-time retrieval of big data images | |
CN106685707A (zh) | 一种分布式基础设施系统中的资产信息控制方法 | |
Lian | Implementation of computer network user behavior forensic analysis system based on speech data system log | |
CN116527697B (zh) | 应用于一网统管的区块链和ipfs舆情共享方法及系统 | |
KR20200066428A (ko) | 행위 기반 룰 처리 장치 및 그 처리 방법 | |
CN117669582A (zh) | 一种基于深度学习的工程咨询处理方法、装置及电子设备 | |
US20090164584A1 (en) | Collaborative tagging systems and methods for resources | |
US20190347243A1 (en) | System and method for collaborative sharing of information | |
CN115510116A (zh) | 数据目录构建方法、装置、介质及设备 | |
KR101878291B1 (ko) | 에너지 빅데이터 관리 시스템 및 그 방법 | |
CN113973003B (zh) | 基于区块链的云集群调度存储信息的验证方法 | |
Vijesh Joe et al. | Big data analytics: tools, challenges, and scope in data-driven computing | |
Zhou et al. | SAPMS: a semantic-aware privacy-preserving multi-keyword search scheme in cloud | |
Amato et al. | Semantic summarization of news from heterogeneous sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |