CN112883734B - 区块链安全事件舆情监测方法及系统 - Google Patents

区块链安全事件舆情监测方法及系统 Download PDF

Info

Publication number
CN112883734B
CN112883734B CN202110055652.5A CN202110055652A CN112883734B CN 112883734 B CN112883734 B CN 112883734B CN 202110055652 A CN202110055652 A CN 202110055652A CN 112883734 B CN112883734 B CN 112883734B
Authority
CN
China
Prior art keywords
news
data
public
public opinion
pushed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110055652.5A
Other languages
English (en)
Other versions
CN112883734A (zh
Inventor
郭文生
杨霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Li'an Technology Co ltd
Original Assignee
Chengdu Li'an Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Li'an Technology Co ltd filed Critical Chengdu Li'an Technology Co ltd
Priority to CN202110055652.5A priority Critical patent/CN112883734B/zh
Publication of CN112883734A publication Critical patent/CN112883734A/zh
Application granted granted Critical
Publication of CN112883734B publication Critical patent/CN112883734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了区块链安全事件舆情监测方法及系统,涉及舆情监测领域,包括:基于训练数据训练命名实体识别模型;将待识别区块链预设安全事件舆情数据输入训练后的命名实体识别模型,获得预设安全事件对应的地域数据、机构名称数据和人名数据;获得每个区块链安全事件舆情数据对应的关键词集合,将关键词集合存入数据库中;获得待推送舆情新闻的第一关键词集合;计算第一关键词集合与数据库中关键词集合的相似度,基于相似度计算结果判断历史新闻中是否存在与本次待推送舆情新闻相似的舆情新闻;本发明在推送舆情新闻时会先判断该舆情新闻与历史舆情新闻是否重复,若重复则不推送重复的舆情新闻,避免了将舆情新闻重复推送给用户,保障用户体验。

Description

区块链安全事件舆情监测方法及系统
技术领域
本发明涉及舆情监测领域,具体地,涉及区块链安全事件舆情监测方法及系统。
背景技术
舆情监测是对互联网上公众的言论和观点进行监视和预测的行为。这些言论主要为对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
具体上讲,舆情监测是指整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。行业化、服务化是舆情监测分析的发展趋势,将文本分类、文本聚类、文本摘要、倾向性分析等结合语料库和知识库,建立基于SaaS模式的舆情语义分析基础设施,可更好的实现人机结合,提高舆情研判的准确率。
传统的安全舆情新闻推送系统,只要有相关安全新闻被报道,那么就会给用户推送相关新闻,重复报道的舆情新闻也会重复推送给用户,会严重影响用户体验。
发明内容
为了解决上述问题,本发明提供了区块链安全事件舆情监测方法及系统,本发明中的方法及系统在推送舆情新闻时会先判断该舆情新闻与历史舆情新闻是否重复,若重复则不推送重复的舆情新闻,避免了将重复报道的舆情新闻重复推送给用户,保障用户体验。
为实现上述目的,本发明提供了区块链安全事件舆情监测方法,所述方法包括:
收集区块链安全事件舆情数据,标注收集的舆情数据,结构化处理标注后的舆情数据中的安全事件对应的地域数据、安全事件对应的机构名称数据和安全事件对应的人名数据,获得训练数据,基于训练数据训练命名实体识别模型,获得训练后的命名实体识别模型;
获得待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据输入训练后的命名实体识别模型,获得预设安全事件对应的地域数据、机构名称数据和人名数据;
收集区块链安全事件舆情数据,基于句法依存分析模型和词语词性从区块链安全事件舆情数据中提取关键词,获得每个区块链安全事件舆情数据对应的关键词集合,将关键词集合存入数据库中;
获得待推送舆情新闻,提取推送舆情新闻的关键词,获得第一关键词集合;
计算待推送舆情新闻的标题与数据库中舆情新闻的标题之间的第一相似度,若第一相似度大于或等于阈值,则判断数据库历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;若第一相似度小于阈值,则计算第一关键词集合与数据库中关键词集合的第二相似度,基于第二相似度计算结果判断历史新闻中是否存在与本次待推送舆情新闻相似的舆情新闻;若历史新闻中不存在相似的舆情新闻,则将待推送舆情新闻推送至预设终端;若历史新闻中存在相似的舆情新闻,则基于安全事件发生时间先后顺序将相似的舆情新闻和待推送舆情新闻排序,向预设终端推送排序第一的舆情新闻。
其中,本方法的原理为:收集历史舆情新闻数据,建立历史舆情新闻数据库,将待推送的舆情新闻与历史舆情新闻进行相似度比较,将相似的舆情新闻去重,避免了将重复报道的舆情新闻重复推送给用户,保障用户体验。
其中,本方法中判断舆情新闻是否相似的方式为提取舆情新闻的关键词集合,通过判断关键词集合之间的相似度来判断舆情新闻之间是否相似,上述相似度判断方式能够准确快速的判断出舆情新闻之间是否相似。
进一步的,本方法中训练获得了训练后的命名实体识别模型,而通过训练后的命名实体识别模型能够获得预设安全事件对应的地域数据、机构名称数据和人名数据,把非结构化数据转化成相应的结构数据以便后续进行快速的检索,根据识别的结果能够快速的统计出各个地域的安全事件变化概况,各个安全事件涉及的人名和机构等等信息,通过对比历史数据,快速看出各个地域安全事件的数量增减,进而能够监测舆情发展态势,提高区块链安全舆情的感知能力,提升区块链安全事件响应速度。
优选的,本方法中命名实体识别模型对待识别区块链预设安全事件舆情数据的处理过程包括:
获取待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据处理为文本向量;
使用预训练模型BERT编码文本向量获得文本特征序列;
使用BI-LSTM学习文本特征序列的特征获取各节点上下文特征;
利用CRF层进行分类,每个节点选取标签时考虑上个节点的标签与该节点标签之间的转移概率,根据每个节点标签的似然和标签之间的转移概率,计算出最优标签序列。
优选的,本方法中若存在相似的舆情新闻,则根据相似的舆情新闻数据计算本次推送的舆情新闻的热度,获得推送舆情新闻热度,将排序第一的舆情新闻和对应的舆情新闻热度推送至预设终端。通过统计舆情新闻热度能够让用户快速了解到该新闻的热度以及是否是热门新闻。
优选的,所述方法还包括:
收集区块链安全事件舆情数据,匹配出区块链安全事件舆情数据中各个虚拟货币的交易地址与交易哈希,根据交易地址或交易哈希获取链上交易信息及地址行为数据。本方法能够自动使链上交易行为与链下舆情进行关联,通过链下舆情内容对虚拟货币地址进行标注入库以及提升区块链安全舆情的感知能力与区块链安全事件的响应速度。
优选的,所述方法还包括:
获得与待推送舆情新闻相似的舆情新闻;
获得与待推送舆情新闻相似的舆情新闻对应的第二关键词集合;
组合第一关键词集合和第二关键词集合获得第三关键词集合;
针对第三关键词集合中每个关键词均统计其在预设时间段内的舆情新闻频次,获得每个关键词的舆情新闻频次;其中,关键词的舆情新闻频次为其在预设时间段内被进行相似度计算的次数;
基于第三关键词集合中关键词的舆情新闻频次构造词云图,将排序第一的舆情新闻和构造的词云图推送至预设终端。其中,本方法利用关键词集合能够用来构造词云图,词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。利用词云图能够让用户快速的获取到当前安全新闻主要的聚焦点。
优选的,本方法中构造词云图的方式为:
基于关键词的舆情新闻频次大小对关键词降序排序,获得关键词排序结果;
基于关键词排序结果依次将关键词放入词云图中,其中,关键词距离词云图中心的距离大小与该关键词的舆情新闻频次大小呈反比,关键词在词云图中的字体大小与该关键词的舆情新闻频次大小呈正比。
其中,利用上述构造方式构造的词云图能够重点凸显舆情新闻频次较高的关键词,帮助用户快速抓住舆情新闻的关键点。
优选的,本方法通过正则匹配的方式匹配出区块链安全事件舆情数据中各个虚拟货币的交易地址与交易哈希,地址行为数据包括:地址的最近一周的交易金额、交易频率、转出交易对手数量和转入对手数量。
优选的,本方法获得关键词集合的方式为:
收集区块链安全事件舆情数据,标注出区块链安全事件舆情数据对应文本的结构信息,获得标注后的数据;
将标注后的数据输入句法依存分析模型,句法依存分析模型输出该数据对应的关键词集合;
结合每个关键词的词性过滤关键词集合,得到每个区块链安全事件舆情数据对应最终关键词集合。
其中,本方法中利用词性对关键词集合进行过滤的作用和目的为:由于单独通过句法结构无法较为准确的提取出文本中的关键信息,通过词性过滤能在句法依存分析的基础上提升关键词提取的准确率。
优选的,本方法中计算关键词集合之间的相似度的方式为:
计算第一关键词集合与数据库中关键词集合的交集得到共同关键词的个数m;
第一关键词集合与数据库中关键词集合的相似度K=m/min(a,b);其中,a为数据库中与待推送舆情新闻对应的历史舆情新闻的关键词集合中的关键词个数,b第一关键词集合中关键词的个数;
若相似度K大于或等于阈值,则判断历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;
若相似度K小于阈值,则判断历史新闻中不存在与本次待推送舆情新闻相似的舆情新闻。
与本发明中的方法对应,本发明提供了区块链安全事件舆情监测系统,所述系统包括:
训练单元,用于收集区块链安全事件舆情数据,标注收集的舆情数据,结构化处理标注后的舆情数据中的安全事件对应的地域数据、安全事件对应的机构名称数据和安全事件对应的人名数据,获得训练数据,基于训练数据训练命名实体识别模型,获得训练后的命名实体识别模型;
地域机构人名数据获得单元,用于获得待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据输入训练后的命名实体识别模型,获得预设安全事件对应的地域数据、机构名称数据和人名数据;
关键词集合获得单元,用于收集区块链安全事件舆情数据,基于句法依存分析模型和词语词性从区块链安全事件舆情数据中提取关键词,获得每个区块链安全事件舆情数据对应的关键词集合,将关键词集合存入数据库中;
待推送舆情新闻处理单元,用于获得待推送舆情新闻,提取推送舆情新闻的关键词,获得第一关键词集合;
舆情新闻去重推送单元,用于计算待推送舆情新闻的标题与数据库中舆情新闻的标题之间的第一相似度,若第一相似度大于或等于阈值,则判断数据库历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;若第一相似度小于阈值,则计算第一关键词集合与数据库中关键词集合的第二相似度,基于第二相似度计算结果判断历史新闻中是否存在与本次待推送舆情新闻相似的舆情新闻;若历史新闻中不存在相似的舆情新闻,则将待推送舆情新闻推送至预设终端;若历史新闻中存在相似的舆情新闻,则基于安全事件发生时间先后顺序将相似的舆情新闻和待推送舆情新闻排序,向预设终端推送排序第一的舆情新闻。
本发明还提供了一种区块链安全事件舆情监测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述区块链安全事件舆情监测方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述区块链安全事件舆情监测方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明中的技术方案能够在推送舆情新闻时会先判断该舆情新闻与历史舆情新闻是否重复,若重复则不推送重复的舆情新闻,避免了将重复报道的舆情新闻重复推送给用户,保障用户体验。
本发明中的技术方案通过训练后的命名实体识别模型能够获得预设安全事件对应的地域数据、机构名称数据和人名数据,把非结构化数据转化成相应的结构数据以便后续进行快速的检索。
本发明中的技术方案能够自动使链上交易行为与链下舆情进行关联,通过链下舆情内容对虚拟货币地址进行标注入库以及提升区块链安全舆情的感知能力与区块链安全事件的响应速度。
本发明中的技术方案在推送舆情新闻时能够构造词云图,通过词云图能够重点凸显舆情新闻频次较高的关键词,帮助用户快速抓住舆情新闻的关键点。
本发明中的技术方案能够监测舆情发展态势,提高区块链安全舆情的感知能力,提升区块链安全事件响应速度,解决区块链链上行为朔源与链下犯罪线索结合的问题。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1为区块链安全事件舆情监测方法的流程示意图;
图2为舆情数据处理流程示意图;
图3为区块链安全事件舆情监测系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
实施例一
请参考图1,图1为区块链安全事件舆情监测方法的流程示意图,本发明实施例一提供了区块链安全事件舆情监测方法,所述方法包括:
收集区块链安全事件舆情数据,标注收集的舆情数据,结构化处理标注后的舆情数据中的安全事件对应的地域数据、安全事件对应的机构名称数据和安全事件对应的人名数据,获得训练数据,基于训练数据训练命名实体识别模型,获得训练后的命名实体识别模型;
获得待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据输入训练后的命名实体识别模型,获得预设安全事件对应的地域数据、机构名称数据和人名数据;
收集区块链安全事件舆情数据,基于句法依存分析模型和词语词性从区块链安全事件舆情数据中提取关键词,获得每个区块链安全事件舆情数据对应的关键词集合,将关键词集合存入数据库中;
获得待推送舆情新闻,提取推送舆情新闻的关键词,获得第一关键词集合;
计算待推送舆情新闻的标题与数据库中舆情新闻的标题之间的第一相似度,若第一相似度大于或等于阈值,则判断数据库历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;若第一相似度小于阈值,则计算第一关键词集合与数据库中关键词集合的第二相似度,基于第二相似度计算结果判断历史新闻中是否存在与本次待推送舆情新闻相似的舆情新闻;若历史新闻中不存在相似的舆情新闻,则将待推送舆情新闻推送至预设终端;若历史新闻中存在相似的舆情新闻,则基于安全事件发生时间先后顺序将相似的舆情新闻和待推送舆情新闻排序,向预设终端推送排序第一的舆情新闻。
其中,本发明实施例中的预设终端可以是电脑、平板、PC、智能手机、智能手表、智能游戏机等等,本发明对预设终端的具体实现方式不进行限定。
其中,本发明实施例不对区块链安全事件舆情数据的收集方式进行限定,能够获得区块链安全事件舆情数据即可。
其中,本发明中的舆情数据可以为区块链安全事件舆情数据,也可以为其他类型的舆情数据,本发明对舆情数据的具体类型不进行限定。
本发明实施例中的舆情新闻去重的方法能够避免相同新闻内容被重复推送,其次新闻去重过程中产生的关键词集合能够用来构造词云图,词云图也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。本发明中每个舆情对应着一个关键词集合,通过统计指定时间段的所有舆情对应的关键词集合,计算出每个关键词对应的频次,频次越大的关键词在词云中字体越大越靠中心点,频次越小的关键词在词云中字体越小越远离中心点,能够让用户快速的获取到当前安全新闻主要的聚焦点。
其中,本方法的具体实施步骤包括:
收集相关舆情数据,通过人工标注数据,对地域,机构与人名这块的数据进行结构化处理,然后通过命名实体识别模型(BERT_LSTM_CRF)对标注文本进行训练,达到能够识别地域、机构名称、人名的命名实体识别模型,通过对比历史数据,快速看出各个地域安全事件的数量增减根据识别的结果能够快速的统计出各个地域的安全事件变化概况,各个安全事件涉及的人名和机构等等信息。
此部分的算法步骤包括:
获取待识别的舆情数据,并对待识别数据进行文本预处理,处理为文本向量;
对于文本向量表示,使用预训练模型BERT编码文本向量获得文本特征序列(利用Bert-base chinese预训练模型启动bert-serving-server,调用bert-serving-client,对字典集中所有字符进行encode);
对于文本特征序列的特征学习使用BI-LSTM,可以双向获取各节点上下文特征{构建静态计算图(Input层(输入数据的占位符)-Embedding层(Bert)-BILSTM层(计算Output)- CRF层(计算预测标签概率值)-loss层(定义损失函数,计算loss)-Optimizer层(定义优化损失函数方式:Adam/RMSProp)-变量初始化开始层)};
其中,CRF作为最后一层进行分类,则对于各节点,每个节点在N个标签中选取标签时,还同时考虑上个节点的标签与该节点标签的转移概率,最后用维特比算法,根据每个节点标签的likelihood和标签之间的转移概率,计算出最优标签序列。
其中,请参考图2,图2为舆情数据处理流程示意图,舆情新闻去重方法包括:
第一步:收集相关舆情数据,通过人工标注出文本的主谓宾定状补等结构信息,通过句法依存分析算法进行模型的应用(如中文依存句法分析工具DDParser进行问题的句子结构分析),从而达到根据句子结构提取相关的关键词,再结合各个词语的词性(名词、代词、动词等词性)对关键词集合进行过滤,得到每个舆情对应最终关键词集合;然后将最终关键词集合存入数据库中;词性对关键词集合进行过滤的作用和目的为:由于单独通过句法结构无法较为准确的提取出文本中的关键信息,通过词性过滤能在句法依存分析的基础上提升关键词提取的准确率。
第二步:新输入舆情新闻,通过匹配数据库中历史舆情数据对应的关键词结合,进行关键词集合的相似度计算(相似度计算方法通过计算新舆情数据对应的关键词集合与历史舆情数据对应的关键词集合的交集得到共同关键词的个数,并使用关键词的个数除以历史舆情或者新舆情关键词集合的长度,长度取两者长度中的最小值),并确定相关阈值,确定新输入舆情数据是否与数据库内的新闻报导同样的新闻内容。
第三步:客户信息推送,重复的新闻只推送最先出现的舆情新闻,避免推送重复报道的新闻;同时根据重复舆情新闻数据,计算新闻的热度,如果新闻被报道次数越多那么新闻的热度越高,关注度越高;如在指定时间段内的,每篇新闻被不同金融财经网站报道的次数,相当于新闻被重复播报的次数越多,那么此新闻的热度越高。后面通过统计排名前20名的新闻对应的关键词集合做词云图,能够让客户快速的了解当前热门新闻的主要内容。如果一个新闻被其他新闻播报,说明此新闻的内容关注度比较高,会导致很多新闻和一个新闻重复。如果只拿这个新闻的一条做词云,那么有些关键词被舆情中提及到多次,这样就只会统计一次。所以是把此新闻和与此新闻相似新闻放在一起来求词云(在做词云的时候,通常使用热度排名前二十条的新闻,同时把与这20条新闻相似的新闻都会纳入进来一起做词云)。
链上交易信息与链下舆情相结合:
为了能够自动使链上交易行为与链下舆情进行关联,通过链下舆情内容对虚拟货币地址进行标注入库以及提升区块链安全舆情的感知能力与区块链安全事件的响应速度。通过自动爬虫程序自动收集各个渠道的区块链安全舆情新闻数据,正则匹配出舆情数据中的各个虚拟货币的交易地址与交易hash,根据交易地址或交易hash过滤查询获取相关链上交易信息及地址态势(当前地址的行为数据,例如,地址的最近一周的交易金额、交易频率、转出交易对手数量、转入对手数量等等)。
其中,本实施例中的技术方案能够提出采用命名实体识别模型进行人物,地域与机构名信息的提取,本发明提出使用命名实体识别算法来进行地域(省市区)、机构名称、人物名称的识别与获取,把非结构化数据转化成相应的结构数据以便后续进行快速的检索。
其中,本实施例中的技术方案能够将安全舆情数据去重,能够计算关注度,能够构造词云图,本实施例采用句法依存分析算法进行模型的训练,从而根据句子结构提取相关的关键词,再结合各个词语的词性对关键词集合进行过滤,得到每个舆情对应最终关键词集合;
针对新输入舆情新闻,本实施例通过匹配数据库内每个舆情行文对应的关键词结合,进行关键词集合的相似度计算,确定新输入舆情数据是否与数据库内的新闻报导同样的新闻内容。
本实施例能够根据重复舆情新闻数据,计算指定新闻的热度,如果新闻被报道次数越多那么新闻的热度越高,关注度越高;
本实施例根据安全舆情对应的最终关键词集合汇总统计进行词云图中的词频数据统计。
其中,在本实施例中,句法依存分析算法的步骤包括:
1. 训练集和测试集数据预处理:给定的语料,在模型中不能直接使用,需要先经过预处理,把上述语料格式重新组织成具有词性、方向和距离的格式;
2. 语料特征生成:语料特征提取,主要采用 N-gram 模型来完成。这里使用 3-gram 完成提取,将词性与词语两两进行匹配,分别返回特征集合和标签集合;
3. 模型训练及预测:在完成特征工程和特征提取之后,接下来,要进行条件随机场CRF模型训练和预测,要预定义模型需要的一些参数,并初始化模型对象,进而完成模型训练和预测,以及模型的保存与加载。
本实施例的主要特点为:提出采用命名实体识别模型进行人物,地域与机构名信息的提取;提出采用句法依存分析算法进行关键词语的提取,并进行新闻的快速匹配,达到新闻去重的目的。将链上交易信息与链下安全舆情数据进行自动关联,提高区块链安全舆情的感知能力,提升区块链安全事件响应速度。
实施例二
请参考图3,图3为区块链安全事件舆情监测系统的组成示意图,本发明实施例二提供了区块链安全事件舆情监测系统,所述系统包括:
训练单元,用于收集区块链安全事件舆情数据,标注收集的舆情数据,结构化处理标注后的舆情数据中的安全事件对应的地域数据、安全事件对应的机构名称数据和安全事件对应的人名数据,获得训练数据,基于训练数据训练命名实体识别模型,获得训练后的命名实体识别模型;
地域机构人名数据获得单元,用于获得待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据输入训练后的命名实体识别模型,获得预设安全事件对应的地域数据、机构名称数据和人名数据;
关键词集合获得单元,用于收集区块链安全事件舆情数据,基于句法依存分析模型和词语词性从区块链安全事件舆情数据中提取关键词,获得每个区块链安全事件舆情数据对应的关键词集合,将关键词集合存入数据库中;
待推送舆情新闻处理单元,用于获得待推送舆情新闻,提取推送舆情新闻的关键词,获得第一关键词集合;
舆情新闻去重推送单元,用于计算待推送舆情新闻的标题与数据库中舆情新闻的标题之间的第一相似度,若第一相似度大于或等于阈值,则判断数据库历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;若第一相似度小于阈值,则计算第一关键词集合与数据库中关键词集合的第二相似度,基于第二相似度计算结果判断历史新闻中是否存在与本次待推送舆情新闻相似的舆情新闻;若历史新闻中不存在相似的舆情新闻,则将待推送舆情新闻推送至预设终端;若历史新闻中存在相似的舆情新闻,则基于安全事件发生时间先后顺序将相似的舆情新闻和待推送舆情新闻排序,向预设终端推送排序第一的舆情新闻。
实施例三
本发明还提供了一种区块链安全事件舆情监测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述区块链安全事件舆情监测方法的步骤。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中区块链安全事件舆情监测装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例四
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述区块链安全事件舆情监测方法的步骤。
所述区块链安全事件舆情监测装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.区块链安全事件舆情监测方法,其特征在于,所述方法包括:
收集区块链安全事件舆情数据,标注收集的舆情数据,结构化处理标注后的舆情数据中的安全事件对应的地域数据、安全事件对应的机构名称数据和安全事件对应的人名数据,获得训练数据,基于训练数据训练命名实体识别模型,获得训练后的命名实体识别模型;
获得待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据输入训练后的命名实体识别模型,获得预设安全事件对应的地域数据、机构名称数据和人名数据;
收集区块链安全事件舆情数据,基于句法依存分析模型和词语词性从区块链安全事件舆情数据中提取关键词,获得每个区块链安全事件舆情数据对应的关键词集合,将关键词集合存入数据库中;
获得待推送舆情新闻,提取推送舆情新闻的关键词,获得第一关键词集合;
计算待推送舆情新闻的标题与数据库中舆情新闻的标题之间的第一相似度,若第一相似度大于或等于阈值,则判断数据库历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;若第一相似度小于阈值,则计算第一关键词集合与数据库中关键词集合的第二相似度,基于第二相似度计算结果判断历史新闻中是否存在与本次待推送舆情新闻相似的舆情新闻;若历史新闻中不存在相似的舆情新闻,则将待推送舆情新闻推送至预设终端;若历史新闻中存在相似的舆情新闻,则基于安全事件发生时间先后顺序将相似的舆情新闻和待推送舆情新闻排序,向预设终端推送排序第一的舆情新闻;
所述方法还包括:
收集区块链安全事件舆情数据,匹配出区块链安全事件舆情数据中各个虚拟货币的交易地址与交易哈希,根据交易地址或交易哈希获取链上交易信息及地址行为数据。
2.根据权利要求1所述的区块链安全事件舆情监测方法,其特征在于,命名实体识别模型对待识别区块链预设安全事件舆情数据的处理过程包括:
获取待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据处理为文本向量;
使用预训练模型BERT编码文本向量获得文本特征序列;
使用BI-LSTM学习文本特征序列的特征获取各节点上下文特征;
利用CRF层进行分类,每个节点选取标签时考虑上个节点的标签与该节点标签之间的转移概率,根据每个节点标签的似然和标签之间的转移概率,计算出最优标签序列。
3.根据权利要求1所述的区块链安全事件舆情监测方法,其特征在于,若存在相似的舆情新闻,则根据相似的舆情新闻数据计算本次推送的舆情新闻的热度,获得推送舆情新闻热度,将排序第一的舆情新闻和对应的舆情新闻热度推送至预设终端。
4.根据权利要求1所述的区块链安全事件舆情监测方法,其特征在于,所述方法还包括:
获得与待推送舆情新闻相似的舆情新闻;
获得与待推送舆情新闻相似的舆情新闻对应的第二关键词集合;
组合第一关键词集合和第二关键词集合获得第三关键词集合;
针对第三关键词集合中每个关键词均统计其在预设时间段内的舆情新闻频次,获得每个关键词的舆情新闻频次;其中,关键词的舆情新闻频次为其在预设时间段内被进行相似度计算的次数;
基于第三关键词集合中关键词的舆情新闻频次构造词云图,将排序第一的舆情新闻和构造的词云图推送至预设终端。
5.根据权利要求4所述的区块链安全事件舆情监测方法,其特征在于,本方法中构造词云图的方式为:
基于关键词的舆情新闻频次大小对关键词降序排序,获得关键词排序结果;
基于关键词排序结果依次将关键词放入词云图中,其中,关键词距离词云图中心的距离大小与该关键词的舆情新闻频次大小呈反比,关键词在词云图中的字体大小与该关键词的舆情新闻频次大小呈正比。
6.根据权利要求1所述的区块链安全事件舆情监测方法,其特征在于,本方法通过正则匹配的方式匹配出区块链安全事件舆情数据中各个虚拟货币的交易地址与交易哈希,地址行为数据包括但不限于以下维度:地址最近一周的有效交易天数、地址最近一月的有效交易天数、转入交易笔数、转出交易笔数、转入交易金额、转出交易金额、日均交易频率、转出交易对手数量和转入对手数量。
7.根据权利要求1-6中任意一个所述的区块链安全事件舆情监测方法,其特征在于,本方法获得关键词集合的方式为:
收集区块链安全事件舆情数据,标注出区块链安全事件舆情数据对应文本的结构信息,获得标注后的数据;
将标注后的数据输入句法依存分析模型,句法依存分析模型输出该数据对应的关键词集合;
结合每个关键词的词性过滤关键词集合,得到每个区块链安全事件舆情数据对应最终关键词集合。
8.根据权利要求1所述的区块链安全事件舆情监测方法,其特征在于,本方法中计算关键词集合之间的相似度的方式为:
计算第一关键词集合与数据库中关键词集合的交集得到共同关键词的个数m;
第一关键词集合与数据库中关键词集合的相似度K=m/min(a,b);其中,a为数据库中与待推送舆情新闻对应的历史舆情新闻的关键词集合中的关键词个数,b第一关键词集合中关键词的个数;
若相似度K大于或等于阈值,则判断历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;
若相似度K小于阈值,则判断历史新闻中不存在与本次待推送舆情新闻相似的舆情新闻。
9.区块链安全事件舆情监测系统,其特征在于,所述系统包括:
训练单元,用于收集区块链安全事件舆情数据,标注收集的舆情数据,结构化处理标注后的舆情数据中的安全事件对应的地域数据、安全事件对应的机构名称数据和安全事件对应的人名数据,获得训练数据,基于训练数据训练命名实体识别模型,获得训练后的命名实体识别模型;
地域机构人名数据获得单元,用于获得待识别区块链预设安全事件舆情数据,将待识别区块链预设安全事件舆情数据输入训练后的命名实体识别模型,获得预设安全事件对应的地域数据、机构名称数据和人名数据;
关键词集合获得单元,用于收集区块链安全事件舆情数据,基于句法依存分析模型和词语词性从区块链安全事件舆情数据中提取关键词,获得每个区块链安全事件舆情数据对应的关键词集合,将关键词集合存入数据库中;
待推送舆情新闻处理单元,用于获得待推送舆情新闻,提取推送舆情新闻的关键词,获得第一关键词集合;
舆情新闻去重推送单元,用于计算待推送舆情新闻的标题与数据库中舆情新闻的标题之间的第一相似度,若第一相似度大于或等于阈值,则判断数据库历史新闻中存在与本次待推送舆情新闻相似的舆情新闻;若第一相似度小于阈值,则计算第一关键词集合与数据库中关键词集合的第二相似度,基于第二相似度计算结果判断历史新闻中是否存在与本次待推送舆情新闻相似的舆情新闻;若历史新闻中不存在相似的舆情新闻,则将待推送舆情新闻推送至预设终端;若历史新闻中存在相似的舆情新闻,则基于安全事件发生时间先后顺序将相似的舆情新闻和待推送舆情新闻排序,向预设终端推送排序第一的舆情新闻;
链上交易信息及地址行为数据获取单元,用于收集区块链安全事件舆情数据,匹配出区块链安全事件舆情数据中各个虚拟货币的交易地址与交易哈希,根据交易地址或交易哈希获取链上交易信息及地址行为数据。
CN202110055652.5A 2021-01-15 2021-01-15 区块链安全事件舆情监测方法及系统 Active CN112883734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110055652.5A CN112883734B (zh) 2021-01-15 2021-01-15 区块链安全事件舆情监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110055652.5A CN112883734B (zh) 2021-01-15 2021-01-15 区块链安全事件舆情监测方法及系统

Publications (2)

Publication Number Publication Date
CN112883734A CN112883734A (zh) 2021-06-01
CN112883734B true CN112883734B (zh) 2023-01-10

Family

ID=76048327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110055652.5A Active CN112883734B (zh) 2021-01-15 2021-01-15 区块链安全事件舆情监测方法及系统

Country Status (1)

Country Link
CN (1) CN112883734B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609298A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院舆情语料提取的数据处理的方法和装置
CN116204594A (zh) * 2023-05-05 2023-06-02 中国民航信息网络股份有限公司 一种基于区块链的数据处理方法、装置及设备
CN116527697B (zh) * 2023-06-30 2023-09-08 杭州城市大脑有限公司 应用于一网统管的区块链和ipfs舆情共享方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN107018146A (zh) * 2017-05-09 2017-08-04 暨南大学 一种基于区块链技术的舆情检测平台建设方法
CN107103087A (zh) * 2017-05-02 2017-08-29 成都中远信电子科技有限公司 区块链大数据商情分析系统
CN109743368A (zh) * 2018-12-24 2019-05-10 北京京东金融科技控股有限公司 舆情信息处理方法、装置、系统及存储介质
CN110334263A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目舆情监控方法以及装置
CN111259221A (zh) * 2020-01-20 2020-06-09 山东爱城市网信息技术有限公司 基于区块链的实现舆情处理的方法、设备、介质及系统
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112149409A (zh) * 2020-09-23 2020-12-29 平安国际智慧城市科技股份有限公司 医疗词云生成方法、装置、计算机设备及存储介质
CN112182157A (zh) * 2020-09-29 2021-01-05 中国平安人寿保险股份有限公司 在线序列标注模型的训练方法、在线标注方法及相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776652B (zh) * 2018-05-21 2022-04-01 众安信息技术服务有限公司 一种基于新闻语料的行情预测方法
CN110334268B (zh) * 2019-07-05 2022-01-14 李晨 一种区块链项目热词生成方法以及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN107103087A (zh) * 2017-05-02 2017-08-29 成都中远信电子科技有限公司 区块链大数据商情分析系统
CN107018146A (zh) * 2017-05-09 2017-08-04 暨南大学 一种基于区块链技术的舆情检测平台建设方法
CN109743368A (zh) * 2018-12-24 2019-05-10 北京京东金融科技控股有限公司 舆情信息处理方法、装置、系统及存储介质
CN110334263A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目舆情监控方法以及装置
CN111259221A (zh) * 2020-01-20 2020-06-09 山东爱城市网信息技术有限公司 基于区块链的实现舆情处理的方法、设备、介质及系统
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112149409A (zh) * 2020-09-23 2020-12-29 平安国际智慧城市科技股份有限公司 医疗词云生成方法、装置、计算机设备及存储介质
CN112182157A (zh) * 2020-09-29 2021-01-05 中国平安人寿保险股份有限公司 在线序列标注模型的训练方法、在线标注方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Towards characterizing blockchain-based cryptocurrencies for highly-accurate predictions";Muhammad Saad 等;《IEEE INFOCOM 2018》;20180709;1-12 *
"区块链网络测量与行为分析";kakaka;《https://www.doc88.com/p-91699073838087.html》;20201029;1-65 *
"基于区块链技术的突发公共卫生事件数据发布与共享体系研究";杨绍禹 等;《软件》;20201015;225-228 *

Also Published As

Publication number Publication date
CN112883734A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112883734B (zh) 区块链安全事件舆情监测方法及系统
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US11593671B2 (en) Systems and methods for semantic analysis based on knowledge graph
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN110888990A (zh) 文本推荐方法、装置、设备及介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN109460477B (zh) 信息收集分类系统和方法及其检索和集成方法
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113392195B (zh) 舆情监测方法及装置、电子设备及存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN111736804A (zh) 一种基于用户评论识别App关键功能的方法及装置
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115129808A (zh) 一种食药环热线类事件犯罪线索筛查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant