CN112395539B - 一种基于自然语言处理的舆情风险监测方法及系统 - Google Patents
一种基于自然语言处理的舆情风险监测方法及系统 Download PDFInfo
- Publication number
- CN112395539B CN112395539B CN202011343545.4A CN202011343545A CN112395539B CN 112395539 B CN112395539 B CN 112395539B CN 202011343545 A CN202011343545 A CN 202011343545A CN 112395539 B CN112395539 B CN 112395539B
- Authority
- CN
- China
- Prior art keywords
- model
- public opinion
- public
- information
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000003058 natural language processing Methods 0.000 title claims abstract description 22
- 238000012544 monitoring process Methods 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 21
- 230000006698 induction Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 16
- 230000008859 change Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- JIGWWGDIEUWCOR-UHFFFAOYSA-N 3-(1,4-diazabicyclo[3.2.2]nonan-4-yl)-6-fluorodibenzothiophene 5,5-dioxide Chemical compound C1=C2S(=O)(=O)C=3C(F)=CC=CC=3C2=CC=C1N1CCN2CCC1CC2 JIGWWGDIEUWCOR-UHFFFAOYSA-N 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于自然语言处理的舆情风险监测方法及系统,其中方法包括如下步骤:步骤一、获取互联网上的舆情信息,利用文本抽取模型对舆情信息进行数据结构化内容提取抽取,得到数据结构化内容;步骤二、利用文档主题生成模型对舆情信息生成文档主题;步骤三、利用基于自然语言处理的短文本立场判定模型对舆情信息进行立场判定;步骤四、利用舆情传播网络溯源分析模型对舆情信息进行溯源分析,按照一定的时间间隔和溯源分析结果对用户交互行为建立时序的网络图结构快照,所述网络图结构快照包括数据结构化内容、文档主题和立场判定。本发明可以实现舆情的风险监测和溯源分析。
Description
技术领域
本发明涉及软件技术领域,尤其涉及一种基于自然语言处理的舆情风险监测方法及系统。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。现有互联网背景下,舆情主要的表现形式即是文字。大家通过文字的形式发表自己的看法,形成舆情。由于互联网的便利性和开发性,存在一些错误的、误导性的舆情信息可能产生负面的社会影响,所以需要舆情的监测。现有的舆情检测有多种的技术实现方式,如现有的中国专利申请,申请号:201710773679.1,名称为“一种网络舆情监控方法及系统”,即提出一种通过自然语言模块来进行分析的舆情监控系统。但是该专利仅公开有自然语言处理模块,具体如何实现自然语言的处理,现有技术并没有给出详细实现过程。以及现有技术没法对舆情进行时间追溯。
发明内容
为此,需要提供一种基于自然语言处理的舆情风险监测方法及系统,解决在舆情风险监测中自然语言处理的实现技术方案和时间追溯。
为实现上述目的,本发明提供了一种基于自然语言处理的舆情风险监测方法,包括如下步骤:
步骤一、获取互联网上的舆情信息,利用文本抽取模型对舆情信息进行数据结构化内容提取抽取,得到数据结构化内容;
步骤二、利用文档主题生成模型对舆情信息生成文档主题;
步骤三、利用基于自然语言处理的短文本立场判定模型对舆情信息进行立场判定;
步骤四、利用舆情传播网络溯源分析模型对舆情信息进行溯源分析,按照一定的时间间隔和溯源分析结果对用户交互行为建立时序的网络图结构快照,所述网络图结构快照包括数据结构化内容、文档主题和立场判定。
进一步地,所述文本抽取模型的生成步骤包括如下:
步骤1:编写正则表达式抽取规则,实现从大量的语料中匹配出部分且准确的抽取对象;
步骤2:将步骤1中获得的抽取对象,随机选取出预设的比例数量,选取出的导入到“自动模式归纳”算法作为训练语料;
步骤3:利用步骤2选取出的训练语料,结合开源的“自动模式归纳”算法,构建“抽取模型”;
步骤4:利用步骤3的抽取模型,对步骤2随机选取后剩余的语料进行自动化抽取,并对抽取结果进行准确性判断;如果抽取模型的准确性尚未达到预设要求,则前往步骤1,编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入;如果抽取模型的准确性已经达到预设要求,则停止该过程,并将该模型作为文本抽取模型。
进一步地,所述步骤二包括如下步骤:
将舆情信息的事件相关数据流按照时间片进行分割,每个分片之间的数据有时间先后关系;
按照时间顺序,对每个分片用话题模型进行分析挖掘,而且每一个分片要利用到前一个时间片的学习结果作为先验知识,对参数进行初始化;
利用参数初始化后的话题模型对舆情信息生成文档主题。
进一步地,利用吉布斯采样方法对所述话题模型进行推理和参数求解。
进一步地,所述步骤三包括如下步骤:
采用卷积神经网络模型来训练立场判定专有的嵌入词向量;
采用LSTM模型和所述嵌入词向量训练立场判定分类模型;
利用立场判定模型对舆情信息进行立场判定。
进一步地,所述步骤四包括如下步骤:
按照时间段对舆情文档集做水平划分,即同一个时间段内的舆情文档划分到同一个集合,根据产生舆情文档的频度确定时间间隔;
对同一个集合的舆情文档进行预处理,包括:分词、去停用词和标签提取;
采用高频词选取的方法对预处理后的舆情文档抽取文档特征,降低文档的表示维度;
基于LSH局部敏感哈希函数来实现,找到高相似度的舆情文本;
对于高相似度的舆情文本,再次利用基于余弦距离度量的最邻近聚类算法发现高度相似的舆情,根据高度相似舆情在网络中传播的路径,构建社交网络时序快照,按照一定的时间间隔对用户交互行为建立时序的网络图结构快照。
本发明提供一种基于自然语言处理的舆情风险监测系统,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例任意一项所述方法的步骤。
区别于现有技术,上述技术方案能够对互联网中各类异构的Web网页、新媒体舆情文本关键内容进行高适应性地统一抽取,自动地将标题、事件、发布机构、作者等信息提取出作为舆情的基本结构。可以将非结构化的外部舆情信息将转化为易于分析的结构化数据,为后续的舆情检索、分析奠定了良好的数据基础,实现舆情溯源。
附图说明
图1为特定主题信息传播的路径溯源示例图;
图2为非结构化舆情关键结构化内容提取技术路线示意图;
图3为具体实施方式所述的话题模型示意图;
图4为具体实施方式所述的基于时间序列的话题模型设计图;
图5为(a)基于CNN的专有词向量训练模型和(b)基于LSTM的立场判定模型的模型示意图;
图6为具体实施方式所述的相似主贴归并流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1到图6,本实施例提供一种基于自然语言处理的舆情风险监测方法,包括如下步骤:
步骤一、基于海量Web(微博、论坛、新闻等)多区域、跨渠道外部信息的数据结构化内容提取技术步骤:舆情信息主要由各类web网页文本构成,要实现舆情文本信息的进一步统计分析及挖掘利用,有必要将网页文本中包含的关键元数据信息提取出,如标题、时间、发布机构、作者,乃至阅读数、转发数等结构化信息。上述网页的关键元数据信息中,一部分可以针对网页的具体结构进行提取,如根据特定的html标签识别其中的内容属于哪个特定元信息,而后在清洗阶段利用规则方法(如正则表达式)将其精确提取、保存。然而,互联网舆情来自于各类不同的站点,且站点数量呈逐渐上升的趋势,如现有某一舆情监测系统就采用超过18000个站点。不同互联网站点的网页结构皆不相同,应用规则方法需要针对所有站点开展规则编制、测试和维护,工作量庞大且容易出错,难以适应后续舆情监测及风险预警业务发展的需求。
人工智能相关技术为外部信息的数据结构化内容提取提供了新的可能。通过观察可以发现,对于多数站点网页信息,其主要的结构化数据(发布时间、阅读数等)及其上下文内容都存在几种主要“模式”。例如:“文章阅读数”通常出现在一大段文字的末尾、评论区的上方、通常都是数字以及属性名称通常为“阅读数”或“阅”等。由于上述单个“模式”均难以兼顾准确度和覆盖度,撰写通用的抽取规则是很困难的。结合自然语言处理的断句、分词及词性识别能力,利用机器学习技术特别是“模式自动归纳”,结合文本抽取设计工程化的学习过程,而后将多种“模式”总结为对应的“特征值”,通过算法拟合出最可能的模式组合并固化到模型中,即可利用模型预测文章的哪一部分内容对应的是相关类型的结构化信息,从而实现较高准确度的自动提取。
本发明将以上述基本思路为基础,开展基于机器学习的文本结构化关键信息提取步骤,面向海量Web(微博、论坛、新闻等)多区域、跨渠道外部信息的数据结构化内容提取问题,利用机器学习等技术的“模式自动归纳”发现能力和针对性的工程过程,实现能够针对差异较大的不同站点的元信息的共性提取,初步建立网页舆情的信息结构。
步骤二、通过文档主题生成模型和概率潜在语义分析技术,获取关于舆情的主题结构。互联网便捷、多样的分享手段使得社交媒体快速积累了海量的信息,尤其是当热点事件发生的时候,公众会大量关注、评论、转发消息。例如,twitter每天产生的数据量超过两亿条,如何从这海量的数据中,准确地挖掘出热点事件中公众所关注的主题,以及公众对这些主题的观点、态度和情感,是情感分析的重要内容之一。
主题建模是对文本隐含主题进行建模的方法。主题模型有两种训练推理方法:潜在语义索引概率模型(Probabilistic Latent Semantic Analysis,PLSA)和潜在狄里克雷分配模型(Latent Dirichlet Allocation Model,LDA),其中LDA是由PLSA演变而来,很多已有的工作利用基于LDA的主题模型进行方面词提取和挖掘工作。PLSA和LDA都利用“词袋模型”表示文档,利用每个主题的分布不同以及词的共现,从而识别主题以及每个词属于每个主题的概率。但是对于同一个事件相关的文档,所讲述的内容大体一致,因此全局的主题模型没有显著的效果。
本发明将通过面向舆情特定领域的主题生成模型,利用现有数据得到的主题分析结果,作为增量式主题模型的先验知识,从而帮助新一轮的主题模型学习和分析。增量式主题模型一方面可以分析出随着时间的推移和事件发展主题的变化,另一方面也可以将大量的文本输入流在时间片上进行划分,从而针对每个时间片进行增量式更新,可以解决海量数据的分析问题。
步骤三、通过基于深度学习的Web短文本立场判定技术步骤。立场分析指的是对于给定主题的文本,判断文本对于主题是持支持、反对或中立态度的任务,是当前自然语言处理领域的一个技术热点。立场分析和情感分析具有很多相似性,二者都是挖掘作者在该段文本中表达的情绪、态度。然而在特征层面,二者有很大的区别。情感分析主要是挖掘文本表达当中具有强烈感情色彩的词汇,立场分析则是要求在给定的话题下发掘文本的立场,而文本对于某个立场的态度如何,不完全取决于文本中具有情感色彩的词汇的倾向。立场判定可用于企业形象分析、大众对企业相关政策的态度分析以及热点话题的网民倾向性定舆情分析。
本发明通过基于深度学习的Web短文本立场判定技术,从特征建模的层面出发,将立场作为特征的一部分,为立场判定构建专有的embedding(嵌入)特征(Huang等,2012),并基于attention(注意力)机制构建LSTM深度神经网络(LeCun等,2015;Tai等,2015),用于训练立场判定模型。
步骤四、通过舆情传播网络溯源分析技术步骤。本发明的目标是实现特定主题信息传播的源头和路径方向。并通过网络快照的方式,构建特定主题信息传播的路径溯源图,如图1所示,从而发现在信息传播过程中起核心作用的节点,可进一步用于企业形象管理中的精准信息推送等场景。由于活跃的社交网络中存在大量相似内容的转载,需要对相似的内容进行归并分析,梳理信息流动和变化的主线条。同时还需要对网络构建快照,作为溯源分析的基础。
首先通过互联网内容的相似性检测问题,将以帖子为分析粒度,具体分析帖子中的内容,实现能够合并相似的帖子到同一帖子列表,提高对帖子的时序分析能力。首先利用LSH方法(局部敏感哈希算法)(Gionis等,2016)和话题模型相结合,利用LSH降低文档中词汇数量的思想,以及话题模型考虑词汇共现度的思想,在时间复杂度和空间复杂度上做均衡,使得算法在不牺牲合并相似帖子能力的基础上,兼顾时间效率和空间效率。
其次通过社会网络结构时序快照获取方法,针对社会网络结构变化快的特点,按照一定的时间间隔对用户交互行为建立时序的网络图结构快照,以记录网络结构的变化情况,并以此为基础实现特定主题帖子的传播溯源分析。
以下对本发明中的每个步骤从技术路线和具体技术方案上进行说明:
步骤一、海量Web(微博、论坛、新闻等)多区域、跨渠道外部信息的数据结构化内容提取步骤:
A)整体的技术路线
拟采用基于人工智能的“模式自动归纳”的技术路线,实现多源舆情信息基本结构的统一提取。
“模式归纳”的方法具有适应性强的优点,能够自动化地通过算法对模式进行归纳(形成“抽取模型”),对于没有明显模式、人工很难观察到特定规则的关键信息的抽取具有较强的抽取能力。然而,经典的模式归纳方法也有其固有缺点,包括:需要一定数量的、已经标注好的语料作为导入,这部分语料的标注工作需要人工编写。待抽取的关键信息越缺乏模式、要求抽的结果越精确,需要导入的语料就越多;另外,作为一种机器学习类的算法,模式归纳的缺点是不够稳定,其执行过程是“黑盒”(不像规则判断能够回溯),准确率不由算法决定,而主要取决于用以训练的标注语料是否和目标测试语料比较一致,所以该方法构建出的“抽取模型”常常难以判断是否能够满足业务对于抽取准确性的要求。
为此,结合实际需求和数据特点,在采用经典模式归纳的同时,本发明技术路线引入了“规则方法”,为模式归纳算法提供初始的驱动语料,并将整个过程进行标准化工程定义,以避免事先准备较多的人工标注语料、抽取效果不稳定、准确性难以预估的问题,提升技术的通用性和效果稳定性。
B)技术方案
基于人工智能的“模式自动归纳”的技术路线,本发明采用的技术方案主要包含以下主要过程:
步骤1:利用“正则表达式抽取”准确性高、匹配范围小的特点,编写少量的规则,实现从大量的语料中匹配出少量但准确的抽取对象,并作为后续过程的导入。
步骤2:将步骤1中获得的抽取结果,随机选取出预设的比例数量(80%),作为导入到“自动模式归纳”方法的训练语料,替代“人工标注”过程。
步骤3:利用步骤2结果的训练语料,结合开源的“自动模式归纳”类算法,构建“抽取模型”。
步骤4:利用步骤3的结果,对步骤2切割出的、剩余的语料(20%)进行自动化抽取,并对抽取结果进行自动判断;如果模型自动判断的准确性尚未达到预设的业务要求,则前往步骤1,编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入;如果模型自动判断的准确性已经达到业务要求,则停止该过程,并将该模型作为文本抽取最终模型部署应用。
完整过程图示如图2所示下:
相对于现有技术方案,本方案在文本关键信息抽取问题上取得以下提升:
用基于少量规则的“规则判断”,替代“人工标注”获得初始标准语料,大大降低了初期人工投入。
对“模式自动归纳”模型的抽取结果进行自动化回测,确保模型的准确性符合业务需求。
用“自动归纳模型”作为最终文本抽取的执行器,确保模型的适用性得到保障(不限制于待抽取信息是否具有严格的模版,所以抽取范围远高于纯粹基于“正则表达式”的方法)。
整个过程是可增量迭代的。如果“模式自动归纳”训练得到的模型的抽取效果不理想(准确性达不到要求),仅需要进行增加编写少量正则表达式,执行同样的过程循环,即可有效提升模型抽取效果,前期编写的规则不会被废弃。
综上所述,采用基于人工智能的“模式自动归纳”的技术路线及本发明的技术方案,采用了确定性强的规则方法构建驱动语料,而后基于驱动语料、结合模式归纳算法构建模式归纳文本关键信息抽取模型,具备对于多源异构舆情多种关键的结构化字段提取的通用性,也能够总体减小了人工投入。
步骤二、文档主题生成模型和概率潜在语义分析技术步骤:
A)技术路线
主题建模是对文本隐含主题进行建模的方法,很多已有的工作利用基于LDA的主题模型进行方面词提取和挖掘工作。本发明通过面向舆情特定领域的主题生成模型,在LDA模型基础上利用现有数据得到的主题分析结果,作为增量式主题模型的先验知识,从而帮助新一轮的主题模型学习和分析。同时,在现有LDA模型的基础上,增加时间属性,实现增量式主题模型,一方面可以分析出随着时间的推移和事件发展主题的变化,另一方面也可以将大量的文本输入流在时间片上进行划分,从而针对每个时间片进行增量式更新,可以解决海量数据的分析问题。拟采用ASEM话题模型开展主题建模工作,如图3所示。
主题模型求解有两种常用的方法:变分推理和吉布斯(Gibbs)采样。Gibbs采样对于参数推理的方法实现较简单且有效,目前已有大部分工作对主题模型的参数求解都使用Gibbs采样模型。因此,本发明将利用Gibbs采样方法对ASEM话题模型进行推理和参数求解。
随着时间变化事件的不断发展,公众关注的方面会发生变化,有些方面的主题会继续保持,而有些方面的主题则可能消失或出现新的话题,话题模型的一次性学习不能反映这种随着时间序列的演变情况。增量式更新方法,是将数据划分到时间片中,在每个时间片内利用前一个时间片的学习结果作为初始化,不仅能够针对当前时间片的小数据量进行分析,也能够很好地反映出每个时间片的主题演变过程。
B)技术方案
我们拟将事件相关数据流按照时间片进行分割,分割的原则是按照时间粒度或者不同机器的处理能力进行分割,每个分片之间的数据有时间先后关系,但是分片内部的数据输入没有时间先后关系;然后按照时间顺序,对每个分片用ASEM话题模型进行分析挖掘,而且每一个分片要利用到前一个时间片的学习结果作为先验知识,对参数进行初始化。因此,受上一个时间片影响的部分称为“遗传”部分,不受影响的则为“突变”部分。基于时间序列的话题模型设计图,如图4所示。
步骤三、基于自然语言处理的Web短文本立场判定技术步骤:
A)技术路线
深度学习是当前重要的机器学习算法之一,在图像识别、自然语言处理等领域已有很好的应用案例出现。深度学习算法能够有效提升有监督学习模型训练和测试的准确率。本发明将通过基于深度学习的Web短文本立场判定技术,从特征建模的层面出发,将立场作为特征的一部分,为立场判定构建专有的embedding特征,训练专有的用于立场判定分类的词向量。同时,有效的立场判定方法不仅需要考察词的分类特征,还需要兼顾上下文的信息。注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用。LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合处理和预测时间序列中间隔和延迟相对较长的重要事件,在很多任务中比标准的RNN(循环神经网络)表现得更好。因此,本发明将基于attention机制构建LSTM深度神经网络,用于训练立场判定模型,提高分类的准确率。
Word embedding,中文翻译为词嵌入,是目前深度学习中非常热门的领域之一,最早是由Bengio等人提出的。词向量能够帮助神经网络学习出一套更有效的参数。
B)技术方案
本发明将采样CNN(卷积神经网络)模型来训练立场判定专有的embedding词向量,当词向量训练好以后,将采用LSTM模型训练立场判定分类模型,具体的模型形式如图5所示。
步骤四、基于深度学习的舆情传播网络溯源分析技术步骤:
A)技术路线
由于网络信息存在大量转发和转载的情况,首先需要对多个数据源头的信息内容做梳理和归并。本发明将利用LSH方法和话题模型相结合,利用LSH降低文档中词汇数量的思想,以及话题模型考虑词汇共现度的思想,在时间复杂度和空间复杂度上做均衡,使得算法在不牺牲合并相似帖子能力的基础上,兼顾时间效率和空间效率。
其次本发明将针对社会网络结构变化快的特点,按照一定的时间间隔对用户交互行为建立时序的网络图结构快照,以记录网络结构的变化情况,并以此为基础实现特定主题帖子的传播溯源分析。
针对社交网络中的帖子数据,我们采用了两阶段的帖子内容归并方法。第一阶段利用局部敏感哈希算法(LSH)将相似概率较大的帖子映射到同一个桶中,能够达到降维的目的,同时缩减最近邻计算的搜索空间,提高聚类效率。第二阶段对每一个桶中的帖子,再利用基于余弦距离度量的nearest neighbor聚类算法发现相似微博,以提高相似帖子挖掘的准确率和召回率。
B)技术方案
相似帖子挖掘的整体流程图如图6所示,主要包括文档存储与水平分隔模块、文本预处理模块、特征抽取模块、局部敏感哈希以及内容聚类模块5个部分。
文档集按时间段的水平划分:按照时间段对文档集做水平划分,即同一个时间段内的文档划分到同一个集合,根据产生文档的频度(如学术界会议论文与微博的产生频度不同)确定时间间隔,具体以天为单位划分文档集。
文本预处理:文本预处理阶段主要包括:分词、去停用词、标签提取。
文档特征抽取:此步骤的意义在于抽取文档特征,降低文档的表示维度。本模型将采用高频词选取的方法,选取文档集合中去掉停用词后的高频词T个。这也意味着每个文档在向量空间的向量表示降低到了T维。
局部敏感哈希:通常的聚类算法需要对文本集中的所有文本进行两两间的相似度计算,即在生成特征向量之后,需要计算文本对象间的特征值的相等概率,代价很大。因此本发明考虑基于LSH局部敏感哈希函数来实现,不遍历所有可能的元素对找到相似度较大的文本,缩小计算的范围。
内容聚类:对于在同一个bucket(桶)中的文本对象,我们利用基于余弦距离度量的nearest neighbor(最邻近)聚类算法发现高度相似的微博。
本发明在相似文档归并后,将根据信息在网络中传播的路径,例如帖子转发、评论关系,构建社交网络时序快照。按照一定的时间间隔对用户交互行为建立时序的网络图结构快照,以记录网络结构的变化情况,并以此为基础实现特定主题帖子的传播溯源分析,构建信息溯源图。
通过本发明,可以实现如下的有益效果:
1)通过海量Web多区域、跨渠道外部信息的数据结构化内容提取关键技术步骤,解决异构网页中关键的结构化元信息的共性提取问题,获得多源异构舆情信息的标题、时间、发布机构、作者等关键信息,为舆情信息建立基本结构,为舆情处理分析全过程建立基本的数据结构保障。
2)本发明将研发面向舆情领域的主题生成模型,在现有LDA模型的基础上,增加时间属性,实现增量式主题模型,一方面可以分析出随着时间的推移和事件发展主题的变化,另一方面也可以将大量的文本输入流在时间片上进行划分,从而针对每个时间片进行增量式更新,可以解决海量数据的分析问题。
3)本发明将实现基于深度学习的Web短文本立场判定算法,基于attention机制构建LSTM深度神经网络,用于训练立场判定模型,提高分类的准确率。
4)本发明通过利用LSH方法和话题模型相结合,实现对多个数据源头的信息内容做梳理和归并,并按照一定的时间间隔对用户交互行为建立时序的网络图结构快照,以记录网络结构的变化情况,并以此为基础实现特定主题帖子的传播溯源分析。
本发明还提供舆情风险检测系统,包括存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本实施例的存储介质可以是设置在电子设备中的存储介质,电子设备可以读取存储介质的内容并实现本发明的效果。存储介质还可以是单独的存储介质,将该存储介质与电子设备连接,电子设备就可以读取存储介质里的内容并实现本发明的方法步骤。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (6)
1.一种基于自然语言处理的舆情风险监测方法,其特征在于,包括如下步骤:
步骤一、获取互联网上的舆情信息,利用文本抽取模型对舆情信息进行数据结构化内容提取抽取,得到数据结构化内容;
步骤二、利用文档主题生成模型对舆情信息生成文档主题;
步骤三、利用基于自然语言处理的短文本立场判定模型对舆情信息进行立场判定;
步骤四、利用舆情传播网络溯源分析模型对舆情信息进行溯源分析,按照一定的时间间隔和溯源分析结果对用户交互行为建立时序的网络图结构快照,所述网络图结构快照包括数据结构化内容、文档主题和立场判定;所述文本抽取模型的生成步骤包括如下:
步骤1:编写正则表达式抽取规则,实现从大量的语料中匹配出部分且准确的抽取对象;
步骤2:将步骤1中获得的抽取对象,随机选取出预设的比例数量,选取出的导入到“自动模式归纳”算法作为训练语料;
步骤3:利用步骤2选取出的训练语料,结合开源的“自动模式归纳”算法,构建“抽取模型”;
步骤4:利用步骤3的抽取模型,对步骤2随机选取后剩余的语料进行自动化抽取,并对抽取结果进行准确性判断;如果抽取模型的准确性尚未达到预设要求,则前往步骤1,编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入;如果抽取模型的准确性已经达到预设要求,则停止该步骤4,并将该模型作为文本抽取模型。
2.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,所述步骤二包括如下步骤:
将舆情信息的事件相关数据流按照时间片进行分割,每个分片之间的数据有时间先后关系;
按照时间顺序,对每个分片用话题模型进行分析挖掘,而且每一个分片要利用到前一个时间片的学习结果作为先验知识,对参数进行初始化;
利用参数初始化后的话题模型对舆情信息生成文档主题。
3.根据权利要求2所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,利用吉布斯采样方法对所述话题模型进行推理和参数求解。
4.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,所述步骤三包括如下步骤:
采用卷积神经网络模型来训练立场判定专有的嵌入词向量;
采用LSTM模型和所述嵌入词向量训练立场判定分类模型;
利用立场判定模型对舆情信息进行立场判定。
5.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,所述步骤四包括如下步骤:
按照时间段对舆情文档集做水平划分,即同一个时间段内的舆情文档划分到同一个集合,根据产生舆情文档的频度确定时间间隔;
对同一个集合的舆情文档进行预处理,包括:分词、去停用词和标签提取;
采用高频词选取的方法对预处理后的舆情文档抽取文档特征,降低文档的表示维度;
基于LSH局部敏感哈希函数来实现,找到高相似度的舆情文本;
对于高相似度的舆情文本,再次利用基于余弦距离度量的最邻近聚类算法发现高度相似的舆情,根据高度相似舆情在网络中传播的路径,构建社交网络时序快照,按照一定的时间间隔对用户交互行为建立时序的网络图结构快照。
6.一种基于自然语言处理的舆情风险监测系统,其特征在于:包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343545.4A CN112395539B (zh) | 2020-11-26 | 2020-11-26 | 一种基于自然语言处理的舆情风险监测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343545.4A CN112395539B (zh) | 2020-11-26 | 2020-11-26 | 一种基于自然语言处理的舆情风险监测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395539A CN112395539A (zh) | 2021-02-23 |
CN112395539B true CN112395539B (zh) | 2021-12-17 |
Family
ID=74604019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011343545.4A Active CN112395539B (zh) | 2020-11-26 | 2020-11-26 | 一种基于自然语言处理的舆情风险监测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395539B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051455B (zh) * | 2021-03-31 | 2022-04-26 | 合肥供水集团有限公司 | 一种基于网络文本数据的水务舆情识别方法 |
CN113220973B (zh) * | 2021-05-31 | 2023-10-24 | 北京海纳数聚科技有限公司 | 一种基于知识推理技术的舆情验真方法 |
CN114386422B (zh) * | 2022-01-14 | 2023-09-15 | 淮安市创新创业科技服务中心 | 基于企业污染舆情抽取的智能辅助决策方法及装置 |
CN114661770A (zh) * | 2022-04-11 | 2022-06-24 | 平安资产管理有限责任公司 | 数据分页查询方法、装置、计算机设备及可读存储介质 |
CN115878902B (zh) * | 2023-02-16 | 2023-05-23 | 北京同方凌讯科技有限公司 | 基于神经网络模型的融媒体平台自动信息关键主题提取系统 |
CN117350287A (zh) * | 2023-10-18 | 2024-01-05 | 重庆邮电大学 | 一种基于舆情大数据的文本情感分析方法 |
CN117422063B (zh) * | 2023-12-18 | 2024-02-23 | 四川省大数据技术服务中心 | 应用智能辅助决策的大数据处理方法及智能辅助决策系统 |
CN117670571B (zh) * | 2024-01-30 | 2024-04-19 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150046793A (ko) * | 2013-10-21 | 2015-05-04 | 대한민국(국민안전처 국립재난안전연구원장) | 소셜미디어를 이용한 재난 감지 시스템 |
CN104850549A (zh) * | 2014-02-13 | 2015-08-19 | 夷希数码科技(上海)有限公司 | 一种网络舆情的监控方法 |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及系统 |
CN109325860A (zh) * | 2018-08-29 | 2019-02-12 | 中国科学院自动化研究所 | 用于海外投资风险预警的网络舆情检测方法及系统 |
CN109582796A (zh) * | 2018-12-05 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 企业舆情事件网络的生成方法、装置、设备及存储介质 |
CN110427549A (zh) * | 2019-06-20 | 2019-11-08 | 北京清博大数据科技有限公司 | 一种网络舆论溯源分析方法、装置、终端及存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111967761A (zh) * | 2020-08-14 | 2020-11-20 | 国网电子商务有限公司 | 一种基于知识图谱的监控预警方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8051162B2 (en) * | 2006-07-28 | 2011-11-01 | Hewlett-Packard Development Company, L.P. | Data assurance in server consolidation |
CN107229735A (zh) * | 2017-06-13 | 2017-10-03 | 成都布林特信息技术有限公司 | 基于自然语言处理的舆情信息分析预警方法 |
CN108776671A (zh) * | 2018-05-12 | 2018-11-09 | 苏州华必讯信息科技有限公司 | 一种网络舆情监控系统及方法 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
-
2020
- 2020-11-26 CN CN202011343545.4A patent/CN112395539B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150046793A (ko) * | 2013-10-21 | 2015-05-04 | 대한민국(국민안전처 국립재난안전연구원장) | 소셜미디어를 이용한 재난 감지 시스템 |
CN104850549A (zh) * | 2014-02-13 | 2015-08-19 | 夷希数码科技(上海)有限公司 | 一种网络舆情的监控方法 |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及系统 |
CN109325860A (zh) * | 2018-08-29 | 2019-02-12 | 中国科学院自动化研究所 | 用于海外投资风险预警的网络舆情检测方法及系统 |
CN109582796A (zh) * | 2018-12-05 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 企业舆情事件网络的生成方法、装置、设备及存储介质 |
CN110427549A (zh) * | 2019-06-20 | 2019-11-08 | 北京清博大数据科技有限公司 | 一种网络舆论溯源分析方法、装置、终端及存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111967761A (zh) * | 2020-08-14 | 2020-11-20 | 国网电子商务有限公司 | 一种基于知识图谱的监控预警方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
Full diffusion history reconstruction in networks;Zhen Chen 等;《IEEE》;20151228;第707-716页 * |
微博舆情监测系统的设计与实现;郭琪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200315;I138-1716 * |
Also Published As
Publication number | Publication date |
---|---|
CN112395539A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112395539B (zh) | 一种基于自然语言处理的舆情风险监测方法及系统 | |
Kang et al. | Natural language processing (NLP) in management research: A literature review | |
Yang et al. | Identifying semantic edit intentions from revisions in wikipedia | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
Corallo et al. | Sentiment analysis for government: An optimized approach | |
Karim et al. | A step towards information extraction: Named entity recognition in Bangla using deep learning | |
Castillo et al. | Text analysis using different graph-based representations | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
Salah et al. | A systematic review on opinion mining and sentiment analysis in social media | |
Mohammad et al. | Knowledge-based approach for event extraction from arabic tweets | |
Wijesekara et al. | Source credibility analysis on Twitter users | |
Viet et al. | Analyzing recent research trends of computer science from academic open-access digital library | |
Chen et al. | A history and theory of textual event detection and recognition | |
Addepalli et al. | A proposed framework for measuring customer satisfaction and product recommendation for ecommerce | |
Sharma | Study of sentiment analysis using hadoop | |
KR20200065348A (ko) | 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 | |
Hamdi et al. | BERT and word embedding for interest mining of instagram users | |
Suhasini et al. | A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data | |
Hassanian-esfahani et al. | A survey on web news retrieval and mining | |
Hogenboom et al. | Detecting economic events using a semantics-based pipeline | |
Zhao et al. | Determining the topic hashtags for chinese microblogs based on 5W model | |
Chaudhary et al. | Fake News Detection During 2016 US Elections Using Bootstrapped Metadata-Based Naïve Bayesian Classifier | |
Bhagat et al. | Cut-based classification for user behavioral analysis on social websites | |
Weese et al. | Parody Detection: An Annotation, Feature Construction, and Classification Approach to the Web of Parody |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |