CN115292568B - 一种基于联合模型的民生新闻事件抽取方法 - Google Patents
一种基于联合模型的民生新闻事件抽取方法 Download PDFInfo
- Publication number
- CN115292568B CN115292568B CN202210201217.3A CN202210201217A CN115292568B CN 115292568 B CN115292568 B CN 115292568B CN 202210201217 A CN202210201217 A CN 202210201217A CN 115292568 B CN115292568 B CN 115292568B
- Authority
- CN
- China
- Prior art keywords
- event
- word
- news
- civil
- trigger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 238000002372 labelling Methods 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims description 39
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 230000007787 long-term memory Effects 0.000 abstract description 4
- 230000006403 short-term memory Effects 0.000 abstract description 3
- 238000004140 cleaning Methods 0.000 abstract description 2
- 125000004122 cyclic group Chemical group 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000512668 Eunectes Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于联合模型的民生新闻事件抽取方法,使用网络爬虫爬取网络公开民生领域新闻,对原始语料进行数据清洗,获得可用的文本语料数据;对数据进行人工标注,获得质量较高的数据集;使用预训练语言模型Bert获得词嵌入表示;实现长短期记忆神经网络模型捕获文本数据单词之间的依赖特征,并作为共享参数层,实现联合提取;实现多层标签指针网络分别提取触发词和事件参数,解决角色重叠问题。本发明通过网络公开民生新闻人工标注数据集,利用预训练语言模型和循环神经网络挖掘民生新闻文本数据的深层语义信息,利用多层标签指针网络解决角色重叠问题,在民生新闻事件抽取任务上取得了较好的效果。
Description
技术领域
本发明属于人工智能与大数据分析应用技术领域,涉及对舆情的智能分析,特别涉及一种基于联合模型的民生新闻事件抽取方法。
背景技术
当今快速发展的社会,每天都有大量的新闻在不同的社交平台或者媒体上传播。随着云计算与大数据分析技术的发展,舆情智能监控也成为目前热门的研究方向。通过事件抽取系统可以将复杂的新闻事件分解,获得结构化的有效的信息,为下一步政府决策提供了有效的支持。
当前基于深度学习的传统事件抽取方法大致分为两种:基于管道模型和基于联合模型的抽取方法。基于管道模型的事件抽取方法将事件抽取任务分为多个阶段的序列标注任务,但是基于管道模型的抽取方法存在误差传播,即上有任务的误差会导致后续任务出现错误。基于联合模型的事件抽取方法则构建起触发词和事件参数之间的关系,对每个部分进行整体更新,对触发词和事件参数联合提取。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于联合模型的民生新闻事件抽取方法,通过构建事件检测和事件参数识别之间的关联关系得到联合模型;利用多层标签指针网络代替传统序列标注任务,解决角色重叠问题。在民生领域事件抽取任务上取得了良好的效果,大大减少了人工分析民生新闻的劳动成本和时间成本,提升了民生领域事件抽取的效果。
为了实现上述目的,本发明采用的技术方案是:
一种基于联合模型的民生新闻事件抽取方法,包括如下步骤:
步骤1,数据获取、预处理:
使用网络爬虫爬取公开的民生新闻,对原始民生新闻进行文本预处理,并进行分句、分词,获得可用的民生文本语料库;
步骤2,对步骤1中获取的文本语料库中的新闻数据进行人工标注,得到标注后的民生新闻数据集;
步骤3,首先,利用Bert预训练语言模型获取标注后的民生新闻数据的词嵌入表示,其次,利用长短期记忆神经网络模型捕获词嵌入表示序列中的语义特征,然后,利用多层标签指针网络进行触发词提取得到触发词集合,实现事件类型检测;之后,利用注意力机制将触发词集合与词嵌入表示融合成新的特征表示,并再次利用长短期记忆神经网络模型捕获新的特征表示序列中的语义特征,最后,再次利用多层标签指针网络进行事件参数提取,得到最终结果。
进一步地,所述步骤1具体步骤为:
步骤1.1,使用网络爬虫根据关键词从新闻网站上爬取公开的民生新闻,所述民生新闻包括民生类事件;所述民生类事件细分为城乡社会保障、教育、就业、社会管理和医保5种类型事件;
步骤1.2,对原始民生新闻进行包括去重、去除无效符号在内的文本预处理;
步骤1.3,对完成步骤1.2文本预处理的民生新闻,利用jieba工具进行分句、分词,获得可用的民生文本语料库。
进一步地,所述步骤2具体步骤为:
步骤2.1,对步骤1中获取的文本语料库中的每种事件定义触发词和事件参数,并预定义事件结构;
步骤2.2,根据步骤2.1中预定义好的事件结构对每条新闻数据进行人工标注。
进一步地,所述步骤2.1,触发词是指爬取每种新闻时设定的关键词,也是判断事件类型的唯一标准;所述事件结构是通过分析步骤1获得的民生文本语料库中的每种类型事件,得出不同类型事件所必需包含的事件元素。所述事件元素即事件参数;所述事件结构由确定其事件类型的触发词以及组成该事件的事件参数组成。
进一步地,所述步骤3中,使用Bert预训练语言模型对标注后的民生新闻数据进行编码,获得数据的词嵌入表示,每一条词嵌入表示的顺序为相应新闻数据中词的顺序,将各词嵌入表示组成的词嵌入表示序列输入至长短期记忆神经网络模型,使用3层LSTM捕获词嵌入表示序列中的语义特征。
进一步地,所述步骤3中,通过头位置指针和尾位置指针两个0/1序列来确定触发词在词嵌入表示序列中的起止边界(span),每组二分类网络均由一个头位置指针(start)和一个尾位置指针(end)组成;同时,根据定义的触发词叠加多组二分类网络,即一个触发词分配一组二分类网络,同时对词嵌入表示序列中的每个字/词进行多次二分类判断,实现事件类型检测;输入的词嵌入表示序列中每个字/词均能够表示成某一触发词的起止位置。
进一步地,所述利用多层标签指针网络进行事件参数提取,具体过程为:当前输入的词嵌入表示序列包含事件类型,首先根据相应的事件结构,为每组二分类网络分配一个事件参数标签,每组二分类网络中的头位置指针和尾位置指针均利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测,来确定词嵌入表示序列中的事件参数位置。
与现有技术相比,本发明针对同一实体在不同事件中的角色分类也不同,即角色重叠问题,采用参数共享的方法,以及触发词和事件参数之间的关联关系,事件检测任务和事件参数识别任务使用长短期记忆神经网络层作为共享参数层,实现多层标签指针网络代替传统的序列标注任务,解决角色重叠问题;将提取出的触发词融合进词嵌入表示中作为事件参数识别模块的输入进行预测。采用本发明,可极大程度上解决传统基于管道模型的事件抽取方法存在误差传播的现象,提高事件抽取模型预测的准确性,为政府相关部门提供更精确的处理结果。
附图说明
图1是本发明流程示意图。
图2是本发明模型框架图。
图3是事件类型检测中的多层标签指针网络示意图。
图4是事件参数检测中的多层标签指针网络示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明为一种基于联合模型的民生新闻事件抽取方法,包括如下步骤:
步骤1,数据获取、预处理:
使用网络爬虫爬取公开的民生新闻,对原始民生新闻进行文本预处理,并进行分句、分词等操作,获得可用的民生文本语料库。具体步骤为:
步骤1.1,使用网络爬虫根据关键词从新闻网站上爬取公开的民生新闻共2万条,民生新闻包括民生类事件,两类事件各1.0万条;所述民生类事件又细分为城乡社会保障、教育、就业、社会管理和医保5种类型事件。民生类事件的每种新闻数量为:城乡社会保障类新闻1000条;教育类新闻3000条;就业类新闻2000条;社会管理类新闻3000条;医保类新闻1000条。
步骤1.2,对原始民生新闻进行数据清洗等文本预处理,如去重、去除无效符号等,以除掉重复新闻以及无效符号。
步骤1.3,对完成步骤1.2文本预处理的民生新闻,利用jieba工具进行分句、分词,获得可用的民生文本语料库。
步骤2,采用人工标注方法,对步骤1中获取的文本语料库中的新闻数据进行人工标注,得到标注质量较高的民生新闻数据集。具体步骤为:
步骤2.1,对步骤1中获取的文本语料库中的每种事件预定义事件结构,定义触发词和事件参数。
本发明中,触发词是指爬取每种新闻时设定的关键词,也是判断事件类型的唯一标准;事件结构是通过分析步骤1获得的民生文本语料库中的每种类型事件,得出不同类型事件所必需包含的事件元素,例如时间、参与人员、所在城市等。事件元素即事件参数;事件结构由确定其事件类型的触发词以及组成该事件的事件参数组成。表1为本实施例中的原始民生领域新闻数据的类型及事件结构定义,如下:
表1
步骤2.2,根据步骤2.1中预定义好的事件结构对每条新闻数据进行人工标注,得到标注质量较高的民生新闻数据集,并将每种类型的新闻按照7:2:1的比例分成训练集、测试集、验证集。
步骤3,首先,利用Bert预训练语言模型获取标注后的民生新闻数据的词嵌入表示,其次,利用长短期记忆神经网络模型捕获词嵌入表示序列中的语义特征,然后,利用多层标签指针网络进行触发词提取得到触发词集合,实现事件类型检测;之后,利用注意力机制将触发词集合与词嵌入表示融合成新的特征表示,并再次利用长短期记忆神经网络模型捕获新的特征表示序列中的语义特征,最后,再次利用多层标签指针网络进行事件参数提取,得到最终结果。
即本步骤利用民生新闻事件抽取系统实现,该抽取系统基于Bert预训练语言模型,长短期记忆神经网络模型和多层标签指针网络。其中的民生事件检测任务以及民生事件论元抽取任务均使用该抽取系统。
具体步骤可分解描述如下:
步骤3.1,语义特征获取:
使用Bert预训练语言模型对标注后的民生新闻数据进行编码,获得数据的词嵌入表示,每一条词嵌入表示的顺序为相应新闻数据中词的顺序,将各词嵌入表示组成的词嵌入表示序列输入至长短期记忆神经网络模型,使用3层LSTM捕获词嵌入表示序列中的语义特征。
步骤3.2,事件类型检测:
通过头位置指针和尾位置指针两个0/1序列来确定触发词在词嵌入表示序列中的起止边界(span),每组二分类网络均由一个头位置指针(start)和一个尾位置指针(end)组成;同时,根据定义的触发词叠加多组二分类网络,即一个触发词分配一组二分类网络,同时对词嵌入表示序列中的每个字/词进行多次二分类判断,实现事件类型检测;输入的词嵌入表示序列中每个字/词均能够表示成某一触发词的起止位置。
其原理可描述为:当前输入的词嵌入表示序列X={x1,x2,...,xn},根据每种事件类型的触发词,每一组指针向量(start,end)分别对应一个触发词,将每组指针向量的值初始化为0,记为Ss=Se={0,0,.,,,,0},长度与当前输入的X长度相等,即Ss和Se组成的二维矩阵表示一个触发词,每一列都对应词嵌入表示序列中的每一个字/词。
具体过程为:首先根据定义好的触发词,为每组二分类网络分配一个触发词标签,每组二分类网络长度相等且都等于当前输入的词嵌入表示序列的长度。每组二分类网络都由一个头位置指针和尾位置指针组成。然后每组二分类网络中的头位置指针和尾位置指针都利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测,来确定词嵌入表示序列中是否含有触发词。sigmoid函数阈值设定为0.45,当一组二分类网络中的头位置指针(尾位置指针)得到某个字/词的检测值大于0.45,则认为该字/词为触发词的起始(结束)位置,并将该组二分类网络中对应该字/词位置的起始(结束)位置设为1。如图3所示,当“触发词1农业”对应的二分类网络检测到“农”字时,头位置指针的检测值大于0.45,认为该字是触发词的起始位置,便将该字对应头位置指针的值设为1;同理,当尾指针检测到“业”字时检测值同样大于0.45,便将该字对应尾位置指针的值设为1。通过以上步骤实现事件类型检测。
步骤3.3,事件参数提取:
如图3所示,当前输入的词嵌入表示序列只包含“竞赛行为”2种事件类型,首先根据该事件的事件结构m={a,b,c,d},a,b,c,d均为该事件类型新闻的事件参数,为每组二分类网络分配一个事件参数标签,然后每组二分类网络中的头位置指针和尾位置指针均利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测,来确定词嵌入表示序列中的事件参数位置。sigmoid函数阈值同样设定为0.45,当事件参数标签为a的二分类网络中的头位置指针(尾位置指针)得到某个字/词的检测值大于0.45,则认为该字/词是事件参数a的起始(结束)位置,并将该组二分类网络中对应该字/词位置的起始(结束)位置设为1。若事件参数标签为b的二分类网络在该字/词上的检测值也大于0.45,则同样执行以上步骤,如图4所示,在“地点”对应的二分类网络检测当前输入的词嵌入表示序列时,当头位置指针检测到“车”字时,其检测值大于0.45,则认为“车”是该事件参数的起始位置,则将该字对应头位置指针处的值设为1,同理,当尾位置指针检测到“乡”字时,其检测值大于0.45,便将“乡”字对应尾位置指针处的值设为1,以此实现事件参数检测。
本发明采用多层标签指针网络来计算输入序列的每个字/词在其对应指针位置是0/1的值,以此来确定触发词的起始位置及参数角色类型的起始位置。事件类型检测和事件参数检测的原理相似,可分别以事件类型检测模块和事件参数检测模块实现。因此,本发明基于联合模型的思想进行建模,事件类型检测模块和事件参数检测模块结构类似,均由长短期记忆神经网络和多层标签指针网络构成,故可以同步更新两个模型参数,达到联合效果。
在事件类型检测过程中,经过LSTM捕获特征之后,先进行触发词提取,实现多层标签指针网络代替传统的序列标注任务,得到触发词集合T={t1,t2,...,tn}。
在事件参数检测过程中,利用注意力机制将T与词嵌入表示融合成新的特征表示,送入到事件参数识别模块中的3层LSTM中进行特征捕获,然后利用多层标签指针网络进行预测,得到事件参数识别最终结果。
事件类型检测模块和事件参数检测模块的训练方法为:
在步骤2执行所得的标注数据作为Bert预训练语言模型的输入,得到数据的词嵌入表示。然后将词嵌入表示序列输入到事件检测模块中的3层LSTM进行语义特征捕获,公式如下:
S=Bert(X)
hl=LSTM(hl-1),l∈[1,3]
其中,X为步骤2得到的数据集,S为词嵌入表示;l为LSTM的层数。
在检测识别过程中,本发明使用了一种多层标签指针网络来实现序列标注任务,即通过两个二分类网络生成两个0/1序列来确定事件参数在序列中的起止边界(span),每个都由一个头位置指针(start)和一个尾位置指针(end)确定,同时采用多个二分类网络来对进行角色分类。输入序列中每个字(token)都可以表示成某一元素的起止位置,任意两个组成的都可以表示成任意一个事件角色,这样就解决了角色重叠问题。
具体地,结合附图2进行说明,为待提取文本中需要提取的事件参数角色都分别对应一组指针向量(start,end),将所有角色标签的和指针向量分别组合在一起可以得到两个二维矩阵,记为Ss和Se,即Ss和Se中的每一行表示一个角色类型,每一列都对应序列中一个token。本发明采用多组二分类网络来预测输入序列在每个角色对应及指针向量所有位置是0/1的可能性来确定事件参数的起止位置及参数角色类型。整个任务可以视为对输入序列的每个进行多标签分类,第个被预测为角色的元素起止位置的概率值。
即,检测过程可以视为对输入序列X的每个字/词xi,i∈[1,n]进行多标签分类,输入序列的第i个字/词为某一种事件类型/事件参数类型的起始位置的概率值,公式如下:
其中xi为输入序列中第i个字/词的向量表示;上标的s、e表示start和end;Ws r和为可训练权重向量,/>和/>为偏置项;σ为sigmoid激活函数,设置sigmoid激活函数阈值为0.45,即使用sigmoid函数对词嵌入表示序列中每个字/词进行分类预测时,超过0.45时则认为该字/词为触发词的一部分。
进一步地,利用多层标签指针网络对输入序列的每个字/词进行计算,最终得到检测出的触发词集合T={t1,t2,...,tn}。
在联合过程时,利用注意力机制依次将触发词集合T中的每一个触发词t与词嵌入表示H融合成新的特征序列,然后作为事件参数识别模块的输入,利用与事件检测模块相同的方法进行抽取,得到最终的事件参数预测结果。利用融合触发词集合能够在一定程度上使得事件参数识别模块学习到触发词与事件参数之间的关联关系。生成新的特征序列公式如下:
α1=softmax(vT tanh(W1H+W2t1))
H1=α·H
α2=softmax(vT tanh(W1H+W2t2))
H2=α2·H1
...
αn=softmax(vTtanh(W1H+W2tn))
其中H为输入的词嵌入表示序列X;t为触发词,V、W1、W2为可训练权重。VT为V的转置矩阵,为原始输入序列H融合触发词集合后生成的新的特征序列。
在完成上述步骤后,应用时,将步骤2所生成的数据集作为抽取系统的输入数据,抽取系统经过训练测试后输出抽取结果,提高预测准确性和模型适用性,为相关部门提供更精确的处理结果。综上,本发明通过网络公开民生新闻人工标注数据集,利用预训练语言模型和循环神经网络挖掘民生新闻文本数据的深层语义信息,利用多层标签指针网络解决角色重叠问题,在民生新闻事件抽取任务上取得了较好的效果。
本发明实施例中,所依赖的硬件为一台计算机,配置包含硬件环境:CPU:1颗Inteli7-9700处理器(3.10GHz);GPU:1块8G GeForce RTX 2060SUPER;软件环境:操作系统:Ubantu 16.04;深度学习框架:Torch1.6;语言及开发环境:Python 3.6、Anaconda 3。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。
Claims (2)
1.一种基于联合模型的民生新闻事件抽取方法,其特征在于,包括如下步骤:
步骤1,数据获取、预处理:
使用网络爬虫爬取公开的民生新闻,对原始民生新闻进行文本预处理,并进行分句、分词,获得可用的民生文本语料库;
步骤2,对步骤1中获取的文本语料库中的新闻数据进行人工标注,得到标注后的民生新闻数据集;具体步骤为:
步骤2.1,对步骤1中获取的文本语料库中的每种事件定义触发词和事件参数,并预定义事件结构;所述触发词是指爬取每种新闻时设定的关键词,也是判断事件类型的唯一标准;所述事件结构是通过分析步骤1获得的民生文本语料库中的每种类型事件,得出不同类型事件所必需包含的事件元素,所述事件元素即事件参数;所述事件结构由确定其事件类型的触发词以及组成该事件的事件参数组成;
步骤2.2,根据步骤2.1中预定义好的事件结构对每条新闻数据进行人工标注;
步骤3,包括:
步骤3.1,语义特征获取,方法如下:
使用Bert预训练语言模型对标注后的民生新闻数据进行编码,获得数据的词嵌入表示,每一条词嵌入表示的顺序为相应新闻数据中词的顺序,将各词嵌入表示组成的词嵌入表示序列输入至长短期记忆神经网络模型,使用3层LSTM捕获词嵌入表示序列中的语义特征;
步骤3.2,利用多层标签指针网络进行触发词提取得到触发词集合,实现事件类型检测,方法如下:
通过头位置指针和尾位置指针两个0/1序列来确定触发词在词嵌入表示序列中的起止边界(span),每组二分类网络均由一个头位置指针(start)和一个尾位置指针(end)组成;同时,根据定义的触发词叠加多组二分类网络,即一个触发词分配一组二分类网络,同时对词嵌入表示序列中的每个字/词进行多次二分类判断,实现事件类型检测;输入的词嵌入表示序列中每个字/词均能够表示成某一触发词的起止位置;
步骤3.3,利用注意力机制将触发词集合与词嵌入表示融合成新的特征表示,并再次利用长短期记忆神经网络模型捕获新的特征表示序列中的语义特征,最后再次利用多层标签指针网络进行事件参数提取,得到最终结果;
其中所述利用多层标签指针网络进行事件参数提取,具体过程为:当前输入的词嵌入表示序列包含事件类型,首先根据相应的事件结构,为每组二分类网络分配一个事件参数标签,每组二分类网络中的头位置指针和尾位置指针均利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测,来确定词嵌入表示序列中的事件参数位置。
2.根据权利要求1所述基于联合模型的民生新闻事件抽取方法,其特征在于,所述步骤1具体步骤为:
步骤1.1,使用网络爬虫根据关键词从新闻网站上爬取公开的民生新闻,所述民生新闻包括民生类事件;所述民生类事件细分为城乡社会保障、教育、就业、社会管理和医保5种类型事件;
步骤1.2,对原始民生新闻进行包括去重、去除无效符号在内的文本预处理;
步骤1.3,对完成步骤1.2文本预处理的民生新闻,利用jieba工具进行分句、分词,获得可用的民生文本语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201217.3A CN115292568B (zh) | 2022-03-02 | 2022-03-02 | 一种基于联合模型的民生新闻事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201217.3A CN115292568B (zh) | 2022-03-02 | 2022-03-02 | 一种基于联合模型的民生新闻事件抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115292568A CN115292568A (zh) | 2022-11-04 |
CN115292568B true CN115292568B (zh) | 2023-11-17 |
Family
ID=83820546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210201217.3A Active CN115292568B (zh) | 2022-03-02 | 2022-03-02 | 一种基于联合模型的民生新闻事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292568B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115577112B (zh) * | 2022-12-09 | 2023-04-18 | 成都索贝数码科技股份有限公司 | 一种基于类型感知门控注意力机制的事件抽取方法及系统 |
CN117391456B (zh) * | 2023-11-27 | 2024-04-05 | 浙江南斗数智科技有限公司 | 基于人工智能的村社管理方法及服务平台系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN112256945A (zh) * | 2020-11-06 | 2021-01-22 | 四川大学 | 一种基于深度神经网络的社交网络粤语谣言检测方法 |
CN112836052A (zh) * | 2021-02-19 | 2021-05-25 | 中国第一汽车股份有限公司 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
CN113535963A (zh) * | 2021-09-13 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN114020907A (zh) * | 2021-11-01 | 2022-02-08 | 深圳市中科明望通信软件有限公司 | 信息抽取方法、装置、存储介质与电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10552728B2 (en) * | 2016-07-29 | 2020-02-04 | Splunk Inc. | Automated anomaly detection for event-based system |
US11227208B2 (en) * | 2016-07-29 | 2022-01-18 | Splunk Inc. | Automated data-generation for event-based system |
US12020693B2 (en) * | 2020-04-29 | 2024-06-25 | Samsung Electronics Co., Ltd. | System and method for out-of-vocabulary phrase support in automatic speech recognition |
-
2022
- 2022-03-02 CN CN202210201217.3A patent/CN115292568B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN112256945A (zh) * | 2020-11-06 | 2021-01-22 | 四川大学 | 一种基于深度神经网络的社交网络粤语谣言检测方法 |
CN112836052A (zh) * | 2021-02-19 | 2021-05-25 | 中国第一汽车股份有限公司 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
CN113535963A (zh) * | 2021-09-13 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN114020907A (zh) * | 2021-11-01 | 2022-02-08 | 深圳市中科明望通信软件有限公司 | 信息抽取方法、装置、存储介质与电子设备 |
Non-Patent Citations (5)
Title |
---|
Adailton Ferreira de Araújo 等.RE-BERT: automatic extraction of software requirements from app reviews using BERT language model.《SAC '21: Proceedings of the 36th Annual ACM Symposium on Applied Computing》.2021,1321–1327. * |
Rui Xiong.Chinese Conference Event Named Entity Recognition Based on BERT-BiLSTM-CRF.《ICBDT '20: Proceedings of the 3rd International Conference on Big Data Technologies》.2020,188–191. * |
中医门诊电子病历关键临床信息抽取方法研究;刘子晴;《中国博士学位论文全文数据库 医药卫生科技辑》(第02期);E053-24 * |
基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告;王炳乾 等;《中文信息学报》;第35卷(第07期);81-88 * |
基于多类别参数随机调优的境外活动安全评估模型研究;郭孟杰 等;《计算机应用研究》;第37卷(第05期);1492-1496+1501 * |
Also Published As
Publication number | Publication date |
---|---|
CN115292568A (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN111291185B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN112085012B (zh) | 项目名称和类别识别方法及装置 | |
CN112989841B (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN114372470B (zh) | 基于边界检测和提示学习的中文法律文本实体识别方法 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN111400492A (zh) | 基于sfm-dcnn的层次特征文本分类方法和系统 | |
CN111026880A (zh) | 基于联合学习的司法知识图谱构建方法 | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN116935274A (zh) | 一种基于模态特征对齐的弱监督跨模态视频定位方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN115481635A (zh) | 一种地址要素解析方法和系统 | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
Jasim et al. | Analyzing Social Media Sentiment: Twitter as a Case Study | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN114691895A (zh) | 一种基于指针网络的刑事案情实体关系联合抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |