CN112269949B - 一种基于事故灾害新闻的信息结构化方法 - Google Patents
一种基于事故灾害新闻的信息结构化方法 Download PDFInfo
- Publication number
- CN112269949B CN112269949B CN202011116412.3A CN202011116412A CN112269949B CN 112269949 B CN112269949 B CN 112269949B CN 202011116412 A CN202011116412 A CN 202011116412A CN 112269949 B CN112269949 B CN 112269949B
- Authority
- CN
- China
- Prior art keywords
- news
- accident
- training
- extracted
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000009435 building construction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000002265 prevention Effects 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 230000004913 activation Effects 0.000 description 4
- 230000006378 damage Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于事故灾害新闻的信息结构化方法,首先利用网络爬虫,对事先设定好的各大门户网站爬取新闻数据作为初始语料库;然后利用深度学习方法构建事故灾害抽取模型,并用获取的新闻数据样本训练模型;再将抽取模型部署到分析系统中,对实时获取的每一条新闻抽取其事故类型和事故要素,并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中。本发明可以针对海量的互联网新闻数据,自动、精准地抽取事故灾害事件及相关事件要素,便于检索、分析,为后续事故灾害统计和预防提供必要的数据信息;且不需要人为查找、筛选,大大降低了人力成本,具有重要的大数据应用研究价值。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于事故灾害新闻的信息结构化方法。
背景技术
近年来,随着社会经济的发展和人民生活水平的提高,各类企业、工厂的数量和规模都在扩大,但与此同时也造成各种事故灾害频发,给社会稳定和谐带来不利影响。事故灾害主要包括工矿商贸的安全生产事故、交通运输事故、环境污染和生态破坏事故等,且一般会有多个事件要素构成,如:发生时间、发生地点、受伤人数、死亡人数、经济损失等。国内每天都在发生大小事故数十起,而关于这些事故的相关新闻报道更是不计其数,从海量的新闻中抽取事故灾害要素并整合结构化,将为后续事故灾害统计和预防提供必要的数据信息。
随着互联网信息公开化程度的提升,事故灾害的发布渠道已从单一的政府公文扩展到各类新闻网站等网络渠道,利用自然语言处理技术对网络上爬取的原始新闻进行加工处理得到对应结果。该方法可实现自动获取事故灾害相关信息,便于后期统计、分析;且不需要人为提取、录入,大大降低了人力成本,具有重要的大数据价值。
发明内容
有鉴于此,本发明提出一种基于事故灾害新闻的信息结构化方法。通过网络爬虫不停地爬取各大网站的新闻,使用训练好的事故灾害抽取模型处理新闻内容判断其是否为事故灾害事件,若是则进一步抽取其中的相关要素并存入到数据库中,以便为后续事故灾害统计和预防提供必要的基础信息。为实现上述目的,本发明提供如下技术方案:
一种基于事故灾害新闻的信息结构化自动方法,包括以下步骤:
步骤一:利用网络爬虫,对事先设定好的各大门户网站爬取新闻数据作为初始语料库;
步骤二:利用深度学习方法构建事故灾害抽取模型,并用步骤一获取的新闻数据样本训练模型;
步骤三:将抽取模型部署到分析系统中,对实时获取的每一条新闻抽取其事故类型和事故要素,并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中。
进一步的,步骤二包括以下步骤:
2.1:标注样本:通过BIO标注方式,对采集到的新闻数据标注其中的事故类型和事故要素,事故类型包括危化品、矿山、交通、建筑施工、火灾、工商贸,事故要素包括发生时间、发生地点、受伤人数、死亡人数、经济损失;
2.2:划分数据集:将标注完的新闻数据随机划分为训练数据集和测试数据集,其中测试数据集占20%;
2.3:构建模型:采用ALBERT、Bi-LSTM和CRF组合的方式实现;ALBERT的输入为新闻句子的字符(包括中文字符、英文单词、数字和标点符号),内容长度不超过512,记为n;输出为每一个字符经计算得到的向量,向量维度大小为128,因此最终输出为n×128(x1,x2,,xn);将每一个字符对应的向量xi,依次作为Bi-LSTM的输入,经过循环计算,得到每一个LSTM单元的输出向量yi,yi的维度大小为23,yi的含义为23种标签对应的概率值,Bi-LSTM的最终输出为n×23(y1,y2,,yn);将每一个单元输出的概率值通过CRF层得到最终结果路径;CRF层能加入一些约束来保证最终预测结果是有效的,这些约束能在训练数据时被CRF层自动学习得到,CRF通过计算所有路径的得分进行训练和预测,设每种路径的分数为Pi,共有N条路径,则路径的总分是
其中,表示第i个LSTM单元输出的对应标签的概率值;/>表示第i个标签到第i+1个标签的跳转概率,此跳转概率属于CRF层的参数,在训练时会自动学习;
训练时,损失函数定义如下,其中PRealPath代表真实路径得分
实际预测时,取得分最高的路径作为最终结果,即Ppredict=max(P1,P2,,PN);
2.4:将训练数据集作为模型的输入,根据损失函数计算loss值,反向传播训练模型,训练过程中,使用测试数据集对模型进行测试,将模型预测的结果与人工标注的结果进行比较,计算准确率,若准确率超过95%或迭代次数大于预设最大次数,则完成了整个训练过程,若准确率没有达到要求,则返回继续迭代训练。
进一步的,步骤三包括以下步骤:
3.1:通过网络爬虫爬取预先设定的新闻源网站,利用HTML标签提取新闻的正文,并且过滤掉无关的内容;
3.2:对提取到的新闻正文内容进行预处理,包括:去除内容中的字符乱码;当新闻内容包含大量图片且新闻内容字数少于50字符时,则舍弃该条新闻,返回步骤3.1;
3.3:取新闻内容的前3句话作为摘要,输入到事故灾害抽取模型中,输出预测概率最大的标签路径;
3.4:解析标签路径,判断其中是否含有事故类型标签,若有则同时将提取到的事故要素和事故类型一起保存;若没有,说明该条新闻不是事故灾害新闻,则舍弃该条新闻并返回步骤3.1;
3.5:对抽取到的时间要素进行格式转换,将新闻涉及到的“月”、“日”、“时”(“点”)、“分”;或者“今天”、“昨天”、“上午”、“下午”、“凌晨”时间段;又或者是前两种的组合,通过使用正则表达式,将事故发生时间转换为YYYY-MM-dd的格式;
3.6:对抽取到的地点要素进行格式转换;首先根据中国地名库建立各省市区的详细地名表并采用树型结构存储;对抽取到的地点要素进行结巴分词,并根据结巴的词性标注功能过滤出地点名词,再与已建立的地名表进行查找匹配,将事故发生地点转化为“××省××市××区”的格式;
3.7:将抽取到的受伤人数、死亡人数、经济损失转成阿拉伯数字格式;若提取到的数字为中文格式,则使用正则表达式进行匹配,并转成阿拉伯数字格式;
3.8:将标准化后的发生时间、发生地点、受伤人数、死亡人数、经济损失和事故类型存入数据库,然后返回3.1循环。
本发明的有益效果为:
本发明可以针对海量的互联网新闻数据,自动、精准地抽取事故灾害事件及相关事件要素,便于检索、分析,为后续事故灾害统计和预防提供必要的数据信息;且不需要人为查找、筛选,大大降低了人力成本,具有重要的大数据应用研究价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的一种基于事故灾害新闻的信息结构化自动方法的整体流程图;
图2为本发明实施例中提供的Bi-LSTM循环神经网络的结构示意图;
如图2所示,Bi-LSTM由2×n个单元组成,每个单元的结构完全相同,n与输入数据的长度相等,每个单元都由输入层、隐藏层和输出层组成,第一个单元的输出作为第二个单元的输入,以此类推,直至最后一个单元完成正向计算;再从最后一个单元依次往前,直至第一个单元完成反向计算;再将同一个输入数据的正向结果和反向结果相加得到每一个输出;
图3为本发明实施例中提供的单个LSTM结构的示意图;
如图3所示,单元内包含了4个网络层,其中两个网络层的激活函数是S型函数(sigmoid函数),另外两个网络层的激活函数是双曲函数(tanh函数)。另外还设置了3道门来控制信息的流通方式,如图3中的和/>“门”是LSTM循环神经网络最典型的特征,起到了保留信息和过滤噪音的作用。xi作为第i个循环单元的输入,同时输入单元系数ci-1和激活值ai-1,经过计算后输出yi、单元系数ci、激活值ai,ci和ai又作为第i+1个循环单元的输入,整个过程如下:
yi=ai
其中,Wf、Wu、Wt分别对应三个步骤的权重系数,bf、bu、bt则是偏置系数,图3中标注的ci、ai、ci-1、ai-1分别对应运算过程中产生的中间变量;
图4为本发明实施例中提供的BIO标注示例;
图5为本发明实施例中提供的事故灾害抽取模型总体结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例中提供的一种基于事故灾害新闻的信息结构化方法,整体流程图如图1所示,其主要包括如下步骤:
步骤(1):利用网络爬虫爬取相关网站的新闻数据。预先选取事故灾害新闻源网站(如各大门户网站、各地新闻网站、应急管理网站)并设置对应的XPath路径,爬虫会自动下载新闻源列表中的所有新闻。
步骤(2):利用深度学习方法获取事故灾害抽取模型;
(2.1)标注样本
通过BIO标注方式,对采集到的新闻数据标注其中的事故类型和事故要素。事故类型包括危化品、矿山、交通、建筑施工、火灾、工商贸6类,事故要素包含发生时间、发生地点、受伤人数、死亡人数、经济损失5类。其中,“B-Label”代表某一字段(事故类型或事故要素)的开头,“I-Label”代表该字段的中间和结尾,“O”代表无关字符;标注示例如图4所示。
(2.2)划分数据集
将标注完的新闻数据集随机划分为训练数据集和测试数据集,其中测试集占20%。
(2.3)构建模型,模型采用ALBERT、Bi-LSTM和CRF组合的方式实现,模型结构如图5所示;
(2.3.1)、ALBERT是由谷歌开源的一个轻量级预训练的语言表征模型,具体作用可理解为将一个句子转化为具有语义信息的向量形式,即数字化。ALBERT的输入为新闻句子的字符(包括中文字符、英文单词、数字和标点符号),内容长度不超过512,记为n;输出为每一个字符经计算得到的向量,向量维度大小为128,因此最终输出为n×128(x1,x2,,xn);
(2.3.2)、将上一步中每一个字符对应的向量xi,依次作为Bi-LSTM的输入,经过循环计算,得到每一个LSTM单元的输出向量yi,yi的维度大小为23(6类事故类型和5类事故要素,每一类均含“B-”和“I-”两种标签,再加“O”标签),yi的含义为23种标签对应的概率值,Bi-LSTM的最终输出为n×23(y1,y2,,yn);如图2所示,Bi-LSTM由2×n个单元组成,单个LSTM结构如图3所示。
(2.3.3)、将上一步中每一个单元输出的概率值通过CRF层得到最终结果路径。CRF层可以加入一些约束来保证最终预测结果是有效的(如“B-Label1 I-Labe1”是有效的,“B-Label1 I-Labe2”则是无效的),这些约束可以在训练数据时被CRF层自动学习得到。CRF通过计算所有可能路径的得分进行训练和预测,设每种可能的路径的分数为Pi,共有N条路径,则路径的总分是
其中,表示第i个LSTM单元输出的对应标签的概率;/>表示第i个标签到第i+1个标签的跳转概率,此跳转概率属于CRF层的参数,在训练时会自动学习。
训练时,损失函数定义如下,其中PRealPath代表真实路径(标注时结果)得分。
实际预测时,取得分最高的路径作为最终结果,即
Ppredict=max(P1,P2,,PN)
(2.4)训练模型
(2.4.1)、将训练样本分批次输入到模型中;
(2.4.2)、训练过程中,根据步骤(2.3.3)中定义的损失函数(LossFunction)计算损失值(loss),采用小批量梯度下降法(机器学习中常用的优化算法)不断更新模型权重;
(2.4.3)、经过大量迭代训练后,模型输出的loss值收敛到较低;之后,每一轮迭代训练完成后,在测试集上对模型进行测试,将模型预测的结果与人工标注的结果进行比较,计算准确率(正确结果的个数/全部个数);若准确率超过95%或迭代次数大于预设最大次数,则完成了整个训练过程,若准确率没有达到要求,则回到步骤(2.4.1),继续训练。
步骤(3):将训练好的事故灾害抽取模型部署到实际应用中;
(3.1)、通过网络爬虫爬取预先设定的新闻源网站,利用HTML(超文本标记语言)标签提取新闻的正文,并且过滤掉无关的内容;
(3.2)、对提取到的新闻正文内容进行预处理,主要包括:去除内容中的字符乱码;当新闻内容包含大量图片且新闻内容字数少于50字符时,则舍弃该条新闻,返回步骤(3.1);
(3.3)、取新闻内容的前3句话作为摘要输入到事故灾害抽取模型中,输出预测概率最大的标签路径(如:B-时间、I-时间、I-时间、O、O、B-地点、I-地点、I-地点、I-地点、O、O、......);
(3.4)、解析标签路径,判断其中是否含有事故类型标签,若有则同时将发生时间、发生地点、受伤人数、死亡人数、经济损失和事故类型一起保存;若没有,说明该条新闻不是事故灾害新闻,则舍弃并返回步骤(3.1);
(3.5)、对抽取到的时间要素进行格式转换,一般新闻时间会涉及到“月”、“日”、“时”(“点”)、“分”具体时间点;或者只提及“今天”、“昨天”、“上午”、“下午”、“凌晨”这些时间段;又或者是前两种的组合方式。通过使用正则表达式,将事故发生时间转换为YYYY-MM-dd的格式;
(3.6)、对抽取到的地点要素进行格式转换。首先根据中国地名库建立各省市区的详细地名表并采用树型结构存储;对抽取到的地点要素进行结巴(中文分词库)分词,并根据结巴的词性标注功能过滤出地点名词,再与已建立的地名表进行查找匹配,最终以××省××市××区的格式返回事故地点;
(3.7)、对抽取到的伤亡人数和损失金额转成阿拉伯数字格式。若提取到的数字为中文格式(如二十一),则使用正则表达式(数字[一、二、...、九])+(数词[十、百、千、万、十万、百万、千万、亿])进行匹配,并转成阿拉伯数字格式;
(3.8)、将标准化后的事故时间、事故地点、伤亡人数、经济损失和事故类型存入数据库,返回步骤(3.1)继续循环。
Claims (2)
1.一种基于事故灾害新闻的信息结构化方法,其特征在于:包括以下步骤:S1:利用网络爬虫,对事先设定好的各大门户网站爬取新闻数据作为初始语料库;
S2:利用深度学习方法构建事故灾害抽取模型,并用S1获取的新闻数据样本训练模型;
S3:将抽取模型部署到分析系统中,对实时获取的每一条新闻抽取其事故类型和事故要素,并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中;
所述S2包括以下步骤:S21:标注样本:通过BIO标注方式,对采集到的新闻数据标注其中的事故类型和事故要素,事故类型包括危化品、矿山、交通、建筑施工、火灾、工商贸,事故要素包括发生时间、发生地点、受伤人数、死亡人数、经济损失;
S22:划分数据集:将标注完的新闻数据随机划分为训练数据集和测试数据集,其中测试数据集占20%;
S23:构建模型:采用ALBERT、Bi-LSTM和CRF组合的方式实现;ALBERT的输入为新闻句子的字符,这些字符包括中文字符、英文单词、数字和标点符号,内容长度不超过512,记为n;
输出为每一个字符经计算得到的向量,向量维度大小为128,因此最终输出为n×128(x1,x2,…,xn);将每一个字符对应的向量xi,依次作为Bi-LSTM的输入,经过循环计算,得到每一个LSTM单元的输出向量yi,yi的维度大小为23,yi的含义为23种标签对应的概率值,Bi-LSTM的最终输出为n×23(y1,y2,…,yn);将每一个单元输出的概率值通过CRF层得到最终结果路径;
S24:将训练数据集作为模型的输入,根据损失函数计算loss值,反向传播训练模型,训练过程中,使用测试数据集对模型进行测试,将模型预测的结果与人工标注的结果进行比较,计算准确率,若准确率超过95%或迭代次数大于预设最大次数,则完成了整个训练过程,若准确率没有达到要求,则返回继续迭代训练;
所述S3包括以下步骤:
S31:通过网络爬虫爬取预先设定的新闻源网站,利用HTML标签提取新闻的正文,并且过滤掉图片、外部链无关的内容;
S32:对提取到的新闻正文内容进行预处理,包括:去除内容中的字符乱码;当新闻内容包含大量图片且新闻内容字数少于50字符时,则舍弃该条新闻,返回步骤S31;
S33:取新闻内容的前3句话作为摘要,输入到事故灾害抽取模型中,输出预测概率最大的标签路径;
S34:解析标签路径,判断其中是否含有事故类型标签,若有则同时将提取到的事故要素和事故类型一起保存;若没有,说明该条新闻不是事故灾害新闻,则舍弃该条新闻并返回步骤S31;
S35:对抽取到的时间要素进行格式转换,将新闻涉及到的“月”、“日”、“时”、“点”、“分”;或者“今天”、“昨天”、“上午”、“下午”、“凌晨”;又或者是前两种的组合,通过使用正则表达式,将事故发生时间转换为YYYY-MM-dd的格式;
S36:对抽取到的地点要素进行格式转换;首先根据中国地名库建立各省市区的详细地名表并采用树型结构存储;对抽取到的地点要素进行结巴分词,并根据结巴的词性标注功能过滤出地点名词,再与已建立的地名表进行查找匹配,将事故发生地点转化为“××省××市××区”的格式;
S37:将抽取到的受伤人数、死亡人数、经济损失转成阿拉伯数字格式;若提取到的数字为中文格式,则使用正则表达式进行匹配,并转成阿拉伯数字格式;
S38:将标准化后的发生时间、发生地点、受伤人数、死亡人数、经济损失和事故类型存入数据库,然后返回S31循环。
2.根据权利要求1所述的一种基于事故灾害新闻的信息结构化方法,其特征在于:所述CRF层能加入一些约束来保证最终预测结果是有效的,这些约束能在训练数据时被CRF层自动学习得到,CRF通过计算所有路径的得分进行训练和预测,设每种路径的分数为Pi,共有N条路径,则路径的总分是:
其中,表示第i个LSTM单元输出的对应标签的概率值;/>表示第i个标签到第i+1个标签的跳转概率,此跳转概率属于CRF层的参数,在训练时会自动学习;
训练时,损失函数定义如下,其中PRealPath代表真实路径得分
实际预测时,取得分最高的路径作为最终结果,即Ppredict=max(P1+P2+…+PN)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011116412.3A CN112269949B (zh) | 2020-10-19 | 2020-10-19 | 一种基于事故灾害新闻的信息结构化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011116412.3A CN112269949B (zh) | 2020-10-19 | 2020-10-19 | 一种基于事故灾害新闻的信息结构化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112269949A CN112269949A (zh) | 2021-01-26 |
CN112269949B true CN112269949B (zh) | 2023-09-22 |
Family
ID=74338662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011116412.3A Active CN112269949B (zh) | 2020-10-19 | 2020-10-19 | 一种基于事故灾害新闻的信息结构化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269949B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385795A (zh) * | 2021-08-05 | 2022-04-22 | 应急管理部通信信息中心 | 事故信息提取方法、装置及电子设备 |
CN113792545B (zh) * | 2021-11-16 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN113868381B (zh) * | 2021-11-22 | 2022-03-22 | 中国矿业大学(北京) | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 |
CN114282534A (zh) * | 2021-12-30 | 2022-04-05 | 南京大峡谷信息科技有限公司 | 一种基于要素信息抽取的气象灾害事件聚合方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844609A (zh) * | 2017-12-14 | 2018-03-27 | 武汉理工大学 | 一种基于文体和词表的突发事件信息抽取方法及系统 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
US10387568B1 (en) * | 2016-09-19 | 2019-08-20 | Amazon Technologies, Inc. | Extracting keywords from a document |
KR20190124403A (ko) * | 2018-04-26 | 2019-11-05 | 대한민국(행정안전부 국립재난안전연구원장) | 재난속성정보 추출 시스템 및 방법 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110852068A (zh) * | 2019-10-15 | 2020-02-28 | 武汉工程大学 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
CN111597328A (zh) * | 2020-05-27 | 2020-08-28 | 青岛大学 | 一种新事件主题提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8230062B2 (en) * | 2010-06-21 | 2012-07-24 | Salesforce.Com, Inc. | Referred internet traffic analysis system and method |
US10798193B2 (en) * | 2015-06-03 | 2020-10-06 | Oath Inc. | System and method for automatic storyline construction based on determined breaking news |
-
2020
- 2020-10-19 CN CN202011116412.3A patent/CN112269949B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387568B1 (en) * | 2016-09-19 | 2019-08-20 | Amazon Technologies, Inc. | Extracting keywords from a document |
CN107844609A (zh) * | 2017-12-14 | 2018-03-27 | 武汉理工大学 | 一种基于文体和词表的突发事件信息抽取方法及系统 |
KR20190124403A (ko) * | 2018-04-26 | 2019-11-05 | 대한민국(행정안전부 국립재난안전연구원장) | 재난속성정보 추출 시스템 및 방법 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN110852068A (zh) * | 2019-10-15 | 2020-02-28 | 武汉工程大学 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
CN111597328A (zh) * | 2020-05-27 | 2020-08-28 | 青岛大学 | 一种新事件主题提取方法 |
Non-Patent Citations (1)
Title |
---|
山阴少年."NLP(二十五) 实现ALBERT+Bi-LSTM+CRF模型".《https://www.cnblogs.com/jclian91/p/12482938.html》.2020,1-4. * |
Also Published As
Publication number | Publication date |
---|---|
CN112269949A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112269949B (zh) | 一种基于事故灾害新闻的信息结构化方法 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN108536801A (zh) | 一种基于深度学习的民航微博安保舆情情感分析方法 | |
CN107832457A (zh) | 基于TextRank算法的输变电设备缺陷词库建立方法及系统 | |
US10796097B2 (en) | System and method for event profiling | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN106294322A (zh) | 一种基于lstm的汉语零指代消解方法 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
CN113312501A (zh) | 基于知识图谱的安全知识自助查询系统的构建方法及装置 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
Zhao et al. | ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN | |
Vel | Pre-processing techniques of text mining using computational linguistics and python libraries | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN112883286A (zh) | 基于bert的新冠肺炎疫情微博情感分析方法、设备、介质 | |
CN111783428A (zh) | 基于深度学习的应急管理类客观题自动生成系统 | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN113011161A (zh) | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 | |
Uddin et al. | Depression analysis of bangla social media data using gated recurrent neural network | |
CN112926325A (zh) | 基于bert神经网络的中文人物关系抽取构建方法 | |
Popping | Online tools for content analysis | |
CN114519613B (zh) | 价格数据的处理方法和装置、电子设备、存储介质 | |
CN116822625A (zh) | 一种发散式关联的风机设备运检知识图谱构建及检索方法 | |
CN110728139A (zh) | 关键信息提取模型及其构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |