CN111950717B - 一种基于神经网络的舆情量化方法 - Google Patents
一种基于神经网络的舆情量化方法 Download PDFInfo
- Publication number
- CN111950717B CN111950717B CN202010881063.8A CN202010881063A CN111950717B CN 111950717 B CN111950717 B CN 111950717B CN 202010881063 A CN202010881063 A CN 202010881063A CN 111950717 B CN111950717 B CN 111950717B
- Authority
- CN
- China
- Prior art keywords
- data
- public opinion
- layer
- network
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于神经网络的舆情量化方法,步骤为:1)利用爬虫技术采集用户在社交平台上的舆论文本数据,将采集的数据以文本形式存储于数据库中;2)对收集的舆论文本数据进行数据预处理;3)根据预处理后的数据,构建舆论分析数据集;4)构建网络模型,利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练;5)利用训练好的网络模型对舆论文本进行量化;该方法可以通过神经网络的方式对符号化文本进行量化,并且采用了多特征碎片的权重计算来确定各类因素的影响权重。较传统方法而言,该方法更加灵活,鲁棒性更强,从社会经济来看,该方法可以紧抓热点,跟随数据量的增大而更加客观理性,更加符合舆情实际结果。
Description
技术领域
本发明涉及人工智能及深度学习技术领域,具体是一种基于神经网络的舆情量化方法。
背景技术
随着互联网的蓬勃发展,用户迅速增加,用户上网所产生信息不断增长,这为大数据的研究发展提供了庞大的数据,数据随着用户的增多而飞速增加,大量的舆论数据以文字的形式出现在互联网上,从各类社交媒体反映着社会的主观认识和价值。如何从其中提取出一些商业风险信息并且将其量化成数字的形式的方法具有极大的价值。
目前,现有技术中没有一个成熟的风险量化方法,其难点在于对于以符号化的文字无法用一种客观的形式来将其数字化,对于舆情文本而言需要考虑的各方面因素非常多,各种权重分布也无法客观进行统计学方面的判断。
发明内容
本发明的目的在克服现有技术的不足,而提供一种基于神经网络的舆情量化方法,该方法基于特征融合的神经网络进行风险量化,利用神经网络可以进行特征量化的方式,充分利用舆情特征,符合客观的分析,计算特征能力较强,底层技术比较成熟,可以将符号化的文字量化成风险分数。
实现本发明目的的技术方案是:
一种基于神经网络的舆情量化方法,包括如下步骤:
1)利用爬虫技术采集用户在社交平台上的舆论文本数据,将采集的数据以文本形式存储于数据库中;
2)对收集的舆论文本数据进行数据预处理;
3)根据预处理后的数据,构建舆论分析数据集;
4)构建网络模型,利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练,网络模型的构建方法包括如下步骤:
4-1)建立编码层Embedding,使用随机编码技术将文字符号映射成一个随机向量用来表示文字特征和关联因素;
4-2)建立循环神经网络层RNN和长短记忆网络层LSTM,用于接收编码层输出的数据,计算长期语义依赖,得到一个包含语义关系仅仅只能被网络模型识别的语义特征值;
4.3)建立NextVlad网络层和卷积CNN网络层,用于聚合步骤4-2)所得的特征值;
4-4)经过步骤4-3)的网络层聚合,得到范围为[-1,1]的分数,该分数代表输入文本和关联因素之间的量化分数;
4-5)将步骤3)中的舆论分析数据集当作模型的输入数据,对模型进行反复训练,实行梯度下降训练,得到训练好的网络模型;
5)利用训练好的网络模型对舆论文本进行量化,具体包括如下步骤:
5-1)将需要进行量化分析的数据按照步骤2)方式进行预处理,并按照步骤3)的格式将数据构建成舆论分析数据集;
5-2)将步骤5-1)得到的舆论分析数据集输入训练好的网络模型中,得到舆论文本与关联因素间量化关系的分数,从而完成舆论数据的量化。
步骤2)中,所述的预处理,包括数据清洗,半结构化、非结构化的数据结构化,以及数据归一化;数据清洗是将爬取下来的杂乱无章、无用、需要定义一下正则表达式的内容删除;半结构化、非结构化的数据结构化是对数据清洗后的用户数据进行标准化;数据归一化是将数据结构化后的数据映射至[0-1]的范围中被神经网络学习。
步骤3)中,所述的舆论分析数据集,是将预处理后的数据以pytorch的形式打包成一个能被神经网络接收的tensor向量,使得能被步骤4)中的所构建的神经网络识别并训练。
步骤4)中,所述的循环神经网络层RNN和长短记忆网络层LSTM,计算规则如下:
经过语义计算的舆论语义间的内容能被网络模型理解识别,网络模型对输入的关联因素和语义进行关联计算,NextVlad网络层和卷积CNN网络层对该关联因素和语义进行聚合,得到量化分数,首先设置聚合阀来筛选各种关联数据的权重,公式如下:
其中a(xi)是预测值输出,α是超参数,xi是第i维的价值,ck是NextVlad的特征碎片权重,e为自然对数;
量化分数的计算公式如下:
本发明提供的一种基于神经网络的舆情量化方法,该方法可以通过神经网络的方式对符号化文本进行量化,并且采用了多特征碎片的权重计算来确定各类因素的影响权重。较传统方法而言,该方法更加灵活,鲁棒性更强,从社会经济来看,该方法可以紧抓热点,跟随数据量的增大而更加客观理性,更加符合舆情实际结果。
附图说明
图1为实施例中的一种基于神经网络的舆情量化方法的流程图;
图2为爬虫Scrapy爬取过程示意图;
图3为RNN计算流程图;
图4为长短记忆网络层LSTM示意图;
图5为Nextvlad结构图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。
实施例:
一种基于神经网络的舆情量化方法,如图1所示,包括如下步骤:
1)利用爬虫技术采集用户在社交平台上的舆论文本数据,将采集的数据以文本形式存储于数据库中;具体是:
使用的爬虫技术为scrapy框架,Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。该爬虫框架通过以下几个组件进行爬取:Scrapy Engine,Scheduler,Downloader,Spiders,Item Pipeline。对于爬取舆论数据来源的社交媒体有以下但不限于:知乎,微博,贴吧,头条等社交媒体。本实施例的爬取方法是将上述社交媒体的主域名输入到框架之中,并且设计正则表达式过滤掉无用的数据,经过该步骤可以得到大量互联网的舆论文本内容,爬虫流程如图2所示。
2)对收集的舆论文本数据进行数据预处理;
预处理包括数据清洗,半结构化、非结构化的数据结构化,以及数据归一化;
数据清洗是将爬取下来的杂乱无章、无用、需要定义一下正则表达式的内容删除;
半结构化、非结构化的数据结构化是对数据清洗后的用户数据进行标准化,例如得分:9分和19分在计算机上的数字位数表达就为1位和2位,所以在这里需要将9转化成09;
归一化是将数据结构化后的数据映射至[0-1]的范围中被神经网络学习,采用的公式为:
Xmin表示数据样本中最小的一个样本数据,Xmax表示数据最高的样本数据,X表示的为当前需要归一化的样本数据,Xnorm为进行归一化之后的样本数据。
3)根据预处理后的数据,构建舆论分析数据集,具体如下:
3-1)设置数据库数据集
使用人工对每一个文字文本内容对进行分类,将分类的结果设置成关联因素,例如以下语句:“某某和女儿某某不幸去世,这位NBA传奇巨星永远地离开了我们”,对此设置的关联因素为“NBA,篮球,体育,足球,政治”,在此处也可以使用传统的神经网络对这些关联因素进行分类;
3-2)人工打分
对于步骤3-1)得到的关联进行打分,例如对于步骤3-1)中的NBA:0.8,篮球:0.78,足球:0.12,政治:-0.5,上述越靠近0的分数表示相关性较小,越靠近负数则表示不相关。
3-3)制作训练数据集
经过步骤3-1)和3-2)之后,将所得的结果用pytorch进行数据整合,使得整合完的数据集能拟合后续模型的输入输出,使其能够正常的训练。
4)构建网络模型,利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练,网络模型的构建方法包括如下步骤:
4-1)建立编码层Embedding,使用随机编码技术将文字符号映射成一个随机向量用来表示文字特征和关联因素,作为;
4-2)建立循环神经网络层RNN和长短记忆网络层LSTM,如图3和图4所示,用于接收编码层输出的数据,计算长期语义依赖,得到一个包含语义关系仅仅只能被网络模型识别的语义特征值;
4.3)建立NextVlad网络层和卷积CNN网络层,如图5所示,用于聚合步骤4-2)所得的特征值,NextVlad网络层对特征碎片进行打散和聚合,卷积CNN网络层进行打分;
4-4)经过步骤4-3)的网络层聚合,得到范围为[-1,1]的分数,该分数代表输入文本和关联因素之间的量化分数;
4-5)将步骤3)中的舆论分析数据集当作模型的输入数据,对模型进行反复训练,实行梯度下降训练,得到训练好的网络模型;
5)利用训练好的网络模型对舆论文本进行量化,具体包括如下步骤:
5-1)将需要进行量化分析的数据按照步骤2)方式进行预处理,并按照步骤3)的格式将数据构建成舆论分析数据集;
5-2)将步骤5-1)得到的舆论分析数据集输入训练好的网络模型中,得到舆论文本与关联因素间量化关系的分数,从而完成舆论数据的量化。
步骤2)中,所述的预处理,包括数据清洗,半结构化、非结构化的数据结构化,以及数据归一化;数据清洗是将爬取下来的杂乱无章、无用、需要定义一下正则表达式的内容删除;半结构化、非结构化的数据结构化是对数据清洗后的用户数据进行标准化;数据归一化是将数据结构化后的数据映射至[0-1]的范围中被神经网络学习。
步骤3)中,所述的舆论分析数据集,是将预处理后的数据以pytorch的形式打包成一个能被神经网络接收的tensor向量,使得能被步骤4)中的所构建的神经网络识别并训练。
步骤4)中,所述的循环神经网络层RNN和长短记忆网络层LSTM,计算规则如下:
经过语义计算的舆论语义间的内容能被网络模型理解识别,计算机对输入的关联因素和语义进行关联计算,NextVlad网络层和卷积CNN网络层对该关联因素和语义进行聚合,得到量化分数,首先设置聚合阀来筛选各种关联数据的权重,公式如下:
量化分数的计算公式如下:
Claims (4)
1.一种基于神经网络的舆情量化方法,其特征在于,包括如下步骤:
1)利用爬虫技术采集用户在社交平台上的舆论文本数据,将采集的数据以文本形式存储于数据库中;
2)对收集的舆论文本数据进行数据预处理;
3)根据预处理后的数据,构建舆论分析数据集;
4)构建网络模型,利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练,网络模型的构建方法包括如下步骤:
4-1)建立编码层Embedding,使用随机编码技术将文字符号映射成一个随机向量用来表示文字特征和关联因素;
4-2)建立循环神经网络层RNN和长短记忆网络层LSTM,用于接收编码层输出的数据,计算长期语义依赖,得到一个包含语义关系仅仅只能被网络模型识别的语义特征值;
4.3)建立NextVlad网络层和卷积CNN网络层,用于聚合步骤4-2)所得的特征值;
4-4)经过步骤4-3)的网络层聚合,得到范围为[-1,1]的分数,该分数代表输入文本和关联因素之间的量化分数;
4-5)将步骤3)中的舆论分析数据集当作模型的输入数据,对模型进行反复训练,实行梯度下降训练,得到训练好的网络模型;
5)利用训练好的网络模型对舆论文本进行量化,具体包括如下步骤:
5-1)将需要进行量化分析的数据按照步骤2)方式进行预处理,并按照步骤3)的格式将数据构建成舆论分析数据集;
5-2)将步骤5-1)得到的舆论分析数据集输入训练好的网络模型中,得到舆论文本与关联因素间量化关系的分数,从而完成舆论数据的量化。
2.根据权利要求1所述的一种基于神经网络的舆情量化方法,其特征在于,步骤2)中,所述的预处理,包括数据清洗,半结构化、非结构化的数据结构化,以及数据归一化;数据清洗是将爬取下来的杂乱无章、无用、需要定义一下正则表达式的内容删除;半结构化、非结构化的数据结构化是对数据清洗后的用户数据进行标准化;数据归一化是将数据结构化后的数据映射至[0-1]的范围中被神经网络学习。
3.根据权利要求1所述的一种基于神经网络的舆情量化方法,其特征在于,步骤3)中,所述的舆论分析数据集,是将预处理后的数据以pytorch的形式打包成一个能被神经网络接收的tensor向量,使得能被步骤4)中的所构建的神经网络识别并训练。
4.根据权利要求1所述的一种基于神经网络的舆情量化方法,其特征在于,步骤4)中,所述的循环神经网络层RNN和长短记忆网络层LSTM,计算规则如下:
经过语义计算的舆论语义间的内容能被网络模型理解识别,网络模型对输入的关联因素和语义进行关联计算,NextVlad网络层和卷积CNN网络层对该关联因素和语义进行聚合,得到量化分数,首先设置聚合阀来筛选各种关联数据的权重,公式如下:
其中a(xi)是预测值输出,α是超参数,xi是第i维的价值,ck是NextVlad的特征碎片权重,e为自然对数;
量化分数的计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010881063.8A CN111950717B (zh) | 2020-08-27 | 2020-08-27 | 一种基于神经网络的舆情量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010881063.8A CN111950717B (zh) | 2020-08-27 | 2020-08-27 | 一种基于神经网络的舆情量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950717A CN111950717A (zh) | 2020-11-17 |
CN111950717B true CN111950717B (zh) | 2022-07-19 |
Family
ID=73367080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010881063.8A Active CN111950717B (zh) | 2020-08-27 | 2020-08-27 | 一种基于神经网络的舆情量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950717B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115840844B (zh) * | 2022-12-17 | 2023-08-15 | 深圳市新联鑫网络科技有限公司 | 一种基于大数据的互联网络平台用户行为分析系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330613A (zh) * | 2017-06-29 | 2017-11-07 | 平安万家医疗投资管理有限责任公司 | 一种舆情监控方法、设备及计算机可读存储介质 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
-
2020
- 2020-08-27 CN CN202010881063.8A patent/CN111950717B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN107330613A (zh) * | 2017-06-29 | 2017-11-07 | 平安万家医疗投资管理有限责任公司 | 一种舆情监控方法、设备及计算机可读存储介质 |
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
Non-Patent Citations (5)
Title |
---|
基于CNN与VLAD融合的闭环检测;林辉;《现代计算机》;20181231(第36期);第17-21、25页 * |
基于CNN和LSTM的异构数据舆情分类方法;黑富郁等;《计算机系统应用》;20190615;第28卷(第6期);第141-147页 * |
基于深度学习算法的学生舆情分析系统;黄迅等;《杭州师范大学学报(自然科学版)》;20200730;第19卷(第4期);第427-431页 * |
基于深度模型学习的跨模态检索;陈小平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181130;I138-425 * |
结合注意力机制的Bi-LSTM循环神经网络对关系分类的研究;邢吉亮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181231;I138-2026 * |
Also Published As
Publication number | Publication date |
---|---|
CN111950717A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN109543084B (zh) | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 | |
CN110442684B (zh) | 一种基于文本内容的类案推荐方法 | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN110321563A (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN114048305B (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN111581956A (zh) | 基于bert模型和k近邻的敏感信息识别方法及系统 | |
CN111339249A (zh) | 一种联合多角度特征的深度智能文本匹配方法和装置 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Hu et al. | Predicting the quality of online health expert question-answering services with temporal features in a deep learning framework | |
CN112529638A (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN111950717B (zh) | 一种基于神经网络的舆情量化方法 | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
CN108596205B (zh) | 基于地域相关因子与稀疏表示的微博转发行为预测方法 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN114764463A (zh) | 基于事件传播特征的互联网舆情事件自动预警系统 | |
CN111708865A (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |