CN112527956A - 一种基于深度学习的食品安全舆情事件提取方法 - Google Patents
一种基于深度学习的食品安全舆情事件提取方法 Download PDFInfo
- Publication number
- CN112527956A CN112527956A CN202011422197.XA CN202011422197A CN112527956A CN 112527956 A CN112527956 A CN 112527956A CN 202011422197 A CN202011422197 A CN 202011422197A CN 112527956 A CN112527956 A CN 112527956A
- Authority
- CN
- China
- Prior art keywords
- public
- public opinion
- food
- sentiment
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000013305 food Nutrition 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 11
- 235000021393 food security Nutrition 0.000 claims abstract description 7
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000011161 development Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明提供一种基于深度学习的食品安全舆情事件提取方法,能够及时为政府相关舆情管理者和公众提供食品安全相关舆情的最新内容。所述方法包括:搭建食品安全舆情语料库库;与开放域的word embedding资源库融合,搭建食品安全舆情Embedding资源库;对舆情预料进行实体关系标注,并加入语义角色注意力机制对舆情事件进行信息要素提取;搭建舆情提取模型,将舆情信息要素输入模型进行舆情事件的提取。本发明能通过网络中海量食品安全相关的文章、报道、新闻中快速的提取、总结出准确的舆情事件,能够以最少的时间成本获取更为丰富、更具价值的舆情信息资源。
Description
技术领域
本发明涉及人工智能领域,特别是指一种基于深度学习的食品安全舆情事件提取方法。
背景技术
近年发生的一些食品安全事件中,媒体群体表现最为活跃,是核心参与者、舆论主导者。一方面,媒体大规模发布、转载食品安全事件信息,促使其最终演变为网络热点事件;另一方面,由于专业性食品安全知识的匮乏,乃至道德缺失,媒体极有可能成为虚假信息的发源地,诱发公众恐慌甚至影响社会稳定。通过对食品安全舆情事件的提取,能够及时为政府相关舆情管理者和公众提供食品安全相关舆情的最新内容。使政府可提前对舆情及相关食品安全问题进行正确、有效的引导和治理举措,避免出现大范围的舆情混乱,在降低公共安全维护成本的同时,也符合和谐社会发展的必然要求。
食品安全领域是一个相对来说比较固定的领域,领域内的实体来说相对也比较固定,因此需要提前收集并整理食品安全领域内的实体知识,于此同时在互联网上因为食品安全属于较敏感的事件,因此在对食品安全事件的监控上也提出了要求,我们可以采用成熟的爬虫技术获取互联网中关于食品安全的舆情报道文本,并对文本进行分析处理。
因为之前的研究大部分都是集中在对开放领域内的文本进行分析研究的,因此当这些技术应用在食品安全这个固定领域上面的时候会存在很多已知的特征函数在对文本分析起到重要的作用,提前获知这些特征对文本语义分析有重要的帮助,因此提前获取食品安全领域内的专业知识对于研究有很大的帮助。
在神经网络的飞速发展的时候,长短时记忆网络(LSTM)以及Attention机制的发展,对于机器能更好的处理自然语言起了至关重要的作用,因此在对于这两方面相关技术的研究将是本次研究的重点应用方面。
这些关键技术的发展大多集中在对英文文本的处理或者对其他领域的发展。例如在实体识别领域,Huang Z提出的一种Bi-LSTM-CRF网络在对文本中词性标注上面具有较好的效果,并且这种网络对于词向量的依赖较小。对于信息抽取方面,因为当设计合适的神经网络的时候,能够捕捉更多的信息,进而更准确的完成关系的抽取,因此我们采用Zeng D提出的CNN模型来实现对句子级信息的捕获,而且不需要依赖复杂的句法分析工具。针对领域内的实体特殊性,我们还采用爬虫技术来对互联网上关于食品安全领域内的中文文本进行定向爬取。
现有的语言模型难以在互联网文本环境下精确处理食品领域的问题。然而,现在网络上已经有大量的大规模公共领域语料和公共领域word Embedding资源库,为本研究构建一种融合领域知识的Embedding资源库提供了途径。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于深度学习的食品安全舆情事件提取方法,为了能通过网络中海量食品安全相关的文章、报道、新闻中快速的提取、总结出准确的舆情事件,能够以最少的时间成本获取更为丰富、更具价值的舆情信息资源。
为了达到上述目的,本发明所提出的方法是:一种基于深度学习的食品安全舆情事件提取方法,包括以下步骤:
步骤1、构建食品领域舆情语料库,用于存储爬取的舆情语料;
步骤2、基于开放域的word embedding资源库,与食品领域舆情语料库相结合,搭建食品安全舆情Embedding资源库;
步骤3、利用实体关系抽取相关技术,判断出食品领域舆情语料库中舆情发生的准确的时间、地点、事件描述以及单位,并从食品安全舆情Embedding资源库中提取词向量,形成舆情信息要素作为舆情事件的提取模型的输入;
步骤4、构建K-means-sLDA模型,作为舆情事件的提取模型,利用步骤3中提取出的舆情信息要素对步骤1中的食品领域舆情语料库中的舆情进行聚类分析,并将该舆情进行标签标注,用于对新爬取的舆情语料进行分类,转化成有标签变量的舆情文本;最后对有标签变量的舆情文本使用sLDA模型进行文本隐含主题提取,从而提取舆情事件话题。
进一步的,食品领域舆情语料库包括:舆情语料的来源链接、发布日期、发布方、文章类别、文章标题、文章概述、文章正文信息,并将其作为基础语料用于步骤2中食品安全舆情Embedding资源库的搭建及步骤3中舆情信息要素的提取。
进一步的,在开放域word embedding资源库基础上,结合skip-gram模型和字词语义表示,将步骤1中,食品领域舆情语料库中的语料进行词向量训练,形成食品安全舆情的word embedding语义资源库。
进一步的,对新爬取的舆情事件文本进行分类的同时,将新舆情事件加入语料库,以天为单位,更新文本聚类分析,以保证事件提取与分类达到最优效果。
进一步的,对于舆情事件的提取,拟使用K-means-sLDA模型。首先使用K-means算法对舆情文本数据进行文本聚类,综合聚类组内平方和法和轮廓系数法寻找最优的聚类簇数量,对舆情文本进行分类。其次,将最优聚类簇数量作为舆情文本的主题数量K,将K作为sLDA模型的输入变量。然后将文本分类结果作为标签变量,将无标签变量舆情文本数据转化成有标签变量的文本数据。最后,对有标签变量的舆情文本使用sLDA模型进行文本隐含主题提取,从而提取舆情事件话题。
本发明与现有技术相比的优点在于:
(1)构建食品安全领域舆情语料库及食品安全舆情Embedding资源库。由于现有技术的公共语料相对较少,特别是经过加工的基准语料还比较缺乏,本发明构建完成更全面、针对性更强的食品领域舆情的语料库及食品安全舆情Embedding资源库;
(2)基于Attention机制的Bi-LSTM关系抽取模型的食品安全领域舆情文本中信息要素提取模块。能够更加准确的提取舆情中的时间、地点、单位以及事件描述等因子。
(3)K-means-sLDA舆情提取模型的开发,运用K-means-sLDA模型对食品安全领域舆情文本进行事件提取,能通过网络中海量食品安全相关的文章、报道、新闻中快速的提取、总结出准确的舆情事件,能够以更少的时间成本获取更为丰富、更具价值的舆情信息资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实例提供的基于深度学习的食品安全舆情事件提取的方法流程示意图;
图2为卷积神经网络模型示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的方法,其流程如图1所示,包括:
步骤1、构建食品领域舆情语料库,用于存储爬取的舆情语料;
步骤2、基于开放域的word embedding资源库,与食品领域舆情语料库相结合,搭建食品安全舆情Embedding资源库;
步骤3、利用实体关系抽取相关技术,判断出食品领域舆情语料库中舆情发生的准确的时间、地点、事件描述以及单位,并从食品安全舆情Embedding资源库中提取词向量,形成舆情信息要素作为舆情事件的提取模型的输入;
步骤4、构建K-means-sLDA模型,作为舆情事件的提取模型,利用步骤3中提取出的舆情信息要素对步骤1中的食品领域舆情语料库中的舆情进行聚类分析,并将该舆情进行标签标注,用于对新爬取的舆情语料进行分类,转化成有标签变量的舆情文本;最后对有标签变量的舆情文本使用sLDA模型进行文本隐含主题提取,从而提取舆情事件话题。
在图2所示实施例中,本发明通过双向长短期记忆网络进行舆情文本实体关系的抽取。在实体关系抽取中,先对食品领域舆情语料库的语料进行文本向量化处理。之后将得出的词向量作为BLSTM网络层的输入,由BLSTM网络生成隐层向量进行下一步的计算。而后模型将会引入网络注意力机制,首先,将食品安全舆情Embedding资源库与当前的每个词语进行逐一匹配,在经过基于位置感知的领域词语义注意力机制的计算后,得出影响向量,将影响向量传播到BLSTM隐层向量中结合计算,从而影响BLSTM的输出结果。在网络的输出层采用了SoftMax函数,对于每种关系进行归一化处理,得到每种关系的概率值。
计算方法即:P(q|S)=SoftMax(wvV+bv) (1)
在公式(1)中,S为输入的句子,q为预测的关系概率,wv为权重,V为输出向量,bv为偏置向量。对于实体标注部分,输入句子的每一个词会被指派一个实体标签,本发明中的标签采用相同的编码模式:0-1标签(1是主体或者客体)。因此,实体标注问题可以转变为:对于给定的长度为n的句子S=(s1,…st,…sn),假设标注输出结果为Q=(q1,…qt,…qn),在已知序列S下,找出使得Q=(q1,…qt,…qn)的概率P=(q1,…qt,…qn)最大的序列[q1,…qt,…qn]。
上述内容对本发明具体实施方式进行了描述,但本发明的保护范围并不局限上述实施方式的范围,任何在本发明技术范围内所做的变化或替换,均在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种基于深度学习的食品安全舆情事件提取方法,其特征在于,包括:
步骤1、构建食品领域舆情语料库,用于存储爬取的舆情语料;
步骤2、基于开放域的word embedding资源库,与食品领域舆情语料库相结合,搭建食品安全舆情Embedding资源库;
步骤3、利用实体关系抽取相关技术,判断出食品领域舆情语料库中舆情发生的准确的时间、地点、事件描述以及单位,并从食品安全舆情Embedding资源库中提取词向量,形成舆情信息要素作为舆情事件的提取模型的输入;
步骤4、构建K-means-sLDA模型,作为舆情事件的提取模型,利用步骤3中提取出的舆情信息要素对步骤1中的食品领域舆情语料库中的舆情进行聚类分析,并将该舆情进行标签标注,用于对新爬取的舆情语料进行分类,转化成有标签变量的舆情文本;最后对有标签变量的舆情文本使用sLDA模型进行文本隐含主题提取,从而提取舆情事件话题。
2.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法,其特征在于:所述步骤1中,食品领域舆情语料库包括:舆情语料的来源链接、发布日期、发布方、文章类别、文章标题、文章概述、文章正文信息,并将其作为基础语料用于步骤2中食品安全舆情Embedding资源库的搭建及步骤3中舆情信息要素的提取。
3.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法,其特征在于:所述步骤2中,在开放域word embedding资源库基础上,结合skip-gram模型和字词语义表示,将步骤1中,食品领域舆情语料库中的语料进行词向量训练,形成食品安全舆情的wordembedding语义资源库。
4.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法,其特征在于:所述步骤4中,对新爬取的舆情事件文本进行分类的同时,将新舆情事件加入语料库,以天为单位,更新文本聚类分析,以保证事件提取与分类达到最优效果。
5.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法,其特征在于:所述步骤4中,构建K-means-sLDA模型具体为:首先使用K-means算法对舆情进行文本聚类,综合聚类组内平方和法和轮廓系数法寻找最优的聚类簇数量,对舆情进行分类;其次,将最优聚类簇数量作为舆情文本的主题数量K,将K作为sLDA模型的输入变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011422197.XA CN112527956A (zh) | 2020-12-08 | 2020-12-08 | 一种基于深度学习的食品安全舆情事件提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011422197.XA CN112527956A (zh) | 2020-12-08 | 2020-12-08 | 一种基于深度学习的食品安全舆情事件提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112527956A true CN112527956A (zh) | 2021-03-19 |
Family
ID=74998149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011422197.XA Pending CN112527956A (zh) | 2020-12-08 | 2020-12-08 | 一种基于深度学习的食品安全舆情事件提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527956A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278195A1 (en) * | 2014-03-31 | 2015-10-01 | Abbyy Infopoisk Llc | Text data sentiment analysis method |
CN110457562A (zh) * | 2019-08-15 | 2019-11-15 | 中国农业大学 | 一种基于神经网络模型的食品安全事件分类方法及装置 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110968672A (zh) * | 2019-12-03 | 2020-04-07 | 北京工商大学 | 一种基于神经网络的食品安全虚假舆情识别方法 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
-
2020
- 2020-12-08 CN CN202011422197.XA patent/CN112527956A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278195A1 (en) * | 2014-03-31 | 2015-10-01 | Abbyy Infopoisk Llc | Text data sentiment analysis method |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN110457562A (zh) * | 2019-08-15 | 2019-11-15 | 中国农业大学 | 一种基于神经网络模型的食品安全事件分类方法及装置 |
CN110968672A (zh) * | 2019-12-03 | 2020-04-07 | 北京工商大学 | 一种基于神经网络的食品安全虚假舆情识别方法 |
Non-Patent Citations (2)
Title |
---|
徐静等: "药品安全话题发现技术研究", 软件导刊, vol. 18, no. 5, pages 151 - 154 * |
李卫疆等: "基于多特征自注意力BLSTM的中文实体关系抽取", 中文信息学报, vol. 33, no. 10, pages 47 - 56 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199511B (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN108829722B (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN106776581B (zh) | 基于深度学习的主观性文本情感分析方法 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
Liu et al. | Neural Chinese word segmentation with dictionary | |
CN112989841B (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN112069408A (zh) | 一种融合关系抽取的推荐系统及方法 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN112188312B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN113032552A (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
Kocayusufoglu et al. | Riser: Learning better representations for richly structured emails | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN116049437A (zh) | 基于自标签与prompt的文档级低资源场景的要素抽取方法 | |
CN113392323B (zh) | 基于多源数据联合学习的商务角色预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |