CN113792545A - 一种基于深度学习的新闻事件活动名称抽取方法 - Google Patents

一种基于深度学习的新闻事件活动名称抽取方法 Download PDF

Info

Publication number
CN113792545A
CN113792545A CN202111354123.1A CN202111354123A CN113792545A CN 113792545 A CN113792545 A CN 113792545A CN 202111354123 A CN202111354123 A CN 202111354123A CN 113792545 A CN113792545 A CN 113792545A
Authority
CN
China
Prior art keywords
news
text
labeling
event
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111354123.1A
Other languages
English (en)
Other versions
CN113792545B (zh
Inventor
杨瀚
朱婷婷
温序铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202111354123.1A priority Critical patent/CN113792545B/zh
Publication of CN113792545A publication Critical patent/CN113792545A/zh
Application granted granted Critical
Publication of CN113792545B publication Critical patent/CN113792545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的新闻事件活动名称抽取方法,包括步骤:S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称;本发明具有抽取新闻事件活动名称完整、准确和高效的优点。

Description

一种基于深度学习的新闻事件活动名称抽取方法
技术领域
本发明涉及新闻文本内容信息抽取领域,更为具体的,涉及一种基于深度学习的新闻事件活动名称抽取方法。
背景技术
新媒体时代下,我们每天接收到的新闻资讯数据呈现爆炸式增长,快速掌握新闻资讯内容成为迫切任务。自动抽取新闻事件活动名称能够满足用户便捷查看当前发生各个热点事件的需求,也可用于推荐、去重、提升事件排行榜单等业务场景,具有十分重要的实际意义。
目前新闻事件活动名抽取多采用序列标注技术方向来实现,是一个类似于实体识别但又难于实体识别的任务。实际生产中面临着许多难点问题:如中文分词问题,错误的分词会导致最后抽取的事件活动名称不完整,出现中文词语被错误截断的问题;另外由于事件活动名相对实体而言往往更长,较长的文本信息就需要考虑上下文信息捕捉与传递误差的问题,否则容易出现信息抽取不完全;事件活动名称往往包含更复杂的语法特征,结构信息相对于实体而言也更复杂更多变。
发明内容
本发明的目的在于克服现有技术的不足,为解决上述问题,提供一种基于深度学习的新闻事件活动名称抽取方法,解决背景中的问题,具有抽取新闻事件活动名称完整、准确和高效的优点。
本发明的目的是通过以下方案实现的:
一种基于深度学习的新闻事件活动名称抽取方法,包括步骤:
S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;
S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;
S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称。
进一步地,步骤S1包括子步骤:
S11,对收集的新闻文本数据,根据中文语句分割符号进行分句后,记录分句后的新闻文本数量K,K为正整数;
S12,将完成分句的K条新闻文本数据,复制N份并分发给N个相互独立的标注系统进行数据标注,N为正整数;
S13,构建评价中心服务,收集N个标注系统的已标注数据,对N个标注系统的标注质量进行评价并将存在标注争议的数据回退给标注系统,直至标注争议消除,并在满足预选设定的条件后生成新闻事件活动名称数据集。
进一步地,步骤S2中所述构建新闻事件活动名称抽取模型包括构建:文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。
进一步地,步骤S3包括子步骤:
S31,按照中文语句分割符号对收集到的新闻文本数据进行分句,将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型;
S32,利用所述新闻事件活动名称抽取模型,获得新闻文本包含的事件活动名称候 选集合
Figure 187466DEST_PATH_IMAGE001
,其中
Figure 901344DEST_PATH_IMAGE002
表示候选事件活动名称的数量,
Figure 212240DEST_PATH_IMAGE003
表示第r个事件活动 名称;
S33,对新闻事件活动名称进行后处理,得到输入新闻文本数据中所包含的事件名称预测结果。
进一步地,步骤S12中在所述复制N份并分发给N个相互独立的标注系统后,由N位新闻从业人员进行数据标注。
进一步地,步骤S13中包括子步骤:
S131,设置标注争议判定阈值为
Figure 138607DEST_PATH_IMAGE004
,设置数据质量过审阈值
Figure 749717DEST_PATH_IMAGE005
S132,基于N个标注系统的相同文本内容的已标注数据,若N个标注系统对于同一 条数据产生M种不同的标注结果,M为正整数;第i种标注结果的数量为mi,i=1,2,...,M,计 算标注争议判定权重
Figure 103338DEST_PATH_IMAGE006
如下:
Figure 167109DEST_PATH_IMAGE007
其中,
Figure 897168DEST_PATH_IMAGE008
求取最大值的函数;
S133,判定当前新闻文本的标注结果是否存在争议,判定方法如下:
Figure 97205DEST_PATH_IMAGE009
无争议,
Figure 636376DEST_PATH_IMAGE010
有争议;
S134,基于步骤S133的判断结果进行处理:若当前新闻文本的标注结果有争议,则 将N个系统对于当前新闻文本的标注全部清除并返回到N个系统进行再标注,若当前新闻文 本的标注结果无争议,则记录为无争议标注文本数据并统计无争议标注文本数据数量,记 为
Figure 921863DEST_PATH_IMAGE011
S135,对所有K条新闻文本数据重复步骤S132至S134,并计算无争议标注文本数据 数量占总文本数量的比例
Figure 455613DEST_PATH_IMAGE012
,计算公式如下:
Figure 510157DEST_PATH_IMAGE013
S136,若S135的计算结果满足条件
Figure 471159DEST_PATH_IMAGE014
,则将K条新闻文本数据,及其最优标注结 果导出为新闻事件活动名称数据集,其中最优标注结果的定义为:每一条新闻文本数据在 全部N个标注系统的M种标注结果中,
数量
Figure 509522DEST_PATH_IMAGE015
最多的第i个标注结果;若S135的计算结果不满足条件
Figure 315804DEST_PATH_IMAGE014
,则重复步骤 S132至S135,直至满足条件
Figure 490434DEST_PATH_IMAGE014
后将K条新闻文本数据,及其最优标注结果导出为新闻事 件活动名称数据集,其中,最优标注结果的定义为:每一条新闻文本数据在全部N个标注系 统的M种标注结果中,数量
Figure 356759DEST_PATH_IMAGE015
最多的第i个标注结果。
进一步地,构建所述文本字符编码层包括子步骤:使用预训练模型BERT对文本进 行字符级编码,将输入的新闻文本的每个字符j转换为设定的维度的实数向量
Figure 616839DEST_PATH_IMAGE016
,维度记 为p。
进一步地,构建所述文本分词编码层包括子步骤:
S2A1,对输入的新闻文本进行分词,并根据BMES规则进行分词标注;
S2A2,定义分词编码矩阵
Figure 492391DEST_PATH_IMAGE017
,其中,第一行为BMES规则中B对应的分词编 码、第二行为BMES规则中M对应的分词编码、第三行为BMES规则中E对应的分词编码、第四行 为BMES规则中S对应的分词编码;
S2A3,通过分词编码矩阵
Figure 521527DEST_PATH_IMAGE017
将输入新闻文本的每个字符j转化为维度为p 的实数向量
Figure 824332DEST_PATH_IMAGE018
,并构建分词嵌入矩阵
Figure 571708DEST_PATH_IMAGE019
,其中H的第j行为
Figure 988302DEST_PATH_IMAGE018
,L输入新闻文本的字符 数量。
进一步地,构建所述文本词语编码层包括子步骤:
S2B1,统计输入新闻文本的字符数量L;
S2B2,构建初始化分词表示矩阵
Figure 137523DEST_PATH_IMAGE020
,初始化Q中的每一个元素均为0;
S2B3,构建字符嵌入矩阵
Figure 611230DEST_PATH_IMAGE021
,其中U的第j行是
Figure 845902DEST_PATH_IMAGE016
S2B4,基于利用BMES规则进行的分词标注,更新分词表示矩阵为
Figure 797678DEST_PATH_IMAGE022
S2B5,按照如下公式计算输入新闻文本的词语嵌入矩阵
Figure 801406DEST_PATH_IMAGE023
Figure 711593DEST_PATH_IMAGE024
其中,
Figure 167982DEST_PATH_IMAGE025
表示矩阵乘法。
进一步地,构建文本特征融合层包括子步骤:
S2C1,将步骤S2A3得到的分词嵌入矩阵
Figure 923449DEST_PATH_IMAGE026
、步骤S2B3得到的字符嵌入矩阵
Figure 516104DEST_PATH_IMAGE027
、步骤 S2B5得到的词语嵌入矩阵
Figure 331613DEST_PATH_IMAGE023
依次进行拼接,得到三维文本表示矩阵
Figure 540878DEST_PATH_IMAGE028
S2C2,构建卷积神经网络层
Figure 100035DEST_PATH_IMAGE029
Figure 812776DEST_PATH_IMAGE030
进行卷积操作,并得到卷积后的融合三维文本表 示矩阵
Figure 536537DEST_PATH_IMAGE031
S2C3,构建最大池化层P对
Figure 233098DEST_PATH_IMAGE032
在第二维度上执行最大池化得到融合文本表示矩阵
Figure 330367DEST_PATH_IMAGE033
S2C4,构建上下文语义融合层
Figure 163193DEST_PATH_IMAGE034
,采用双向长短期记忆神经网络对融合文本表示矩 阵进行上下文语义融合,得到上下文文本表示矩阵
Figure 54926DEST_PATH_IMAGE035
进一步地,步骤S2B4包括子步骤:
S2B41,初始化文本词语首字符统计
Figure 973203DEST_PATH_IMAGE036
S2B42,若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注 为S,则令
Figure 139743DEST_PATH_IMAGE037
若输入新闻文本的第l个字符根据BMES规则进行分词标注后得到的标注为B,则令
Figure 561497DEST_PATH_IMAGE037
,令
Figure 889710DEST_PATH_IMAGE038
若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为M或 E,则令
Figure 29704DEST_PATH_IMAGE039
,其中
Figure 999934DEST_PATH_IMAGE040
S2B43,对输入新闻文本从第一个字符开始依次对每一个字符执行步骤S2B42,从 而完成更新后的分词表示矩阵,记为
Figure 276195DEST_PATH_IMAGE041
进一步地,构建所述事件活动名称抽取层包括子步骤:采用CRF算法将上下文文本 表示矩阵
Figure 40888DEST_PATH_IMAGE042
作为输入,得到事件活动名称的预测结果。
进一步地,步骤S33中所述后处理包括子步骤:
S331,若当前事件活动名称
Figure 402600DEST_PATH_IMAGE003
仅包含一个字符,则从事件活动名候选集中删除当 前事件活动名称;
若当前事件活动名称
Figure 910941DEST_PATH_IMAGE003
起始字符或结尾字符为顿号、逗号、分号、冒号、句号、感叹 号、问号、省略号其中之一的,则删除首尾的对应符号并将余下的文本继续作为事件活动名 称保留在候选集中;
若当前事件活动名称
Figure 310217DEST_PATH_IMAGE003
的起始字符在利用BMES规则进行分词标注后的标注结果 不为B或S其中之一,则从事件活动名候选集中删除当前事件活动名称;
若当前事件活动名称
Figure 980233DEST_PATH_IMAGE003
的起始字符在利用BMES规则进行分词标注后的标注结果 不为E或S其中之一,则从事件活动名候选集中删除当前事件活动名称;
S332,分别针对
Figure 94820DEST_PATH_IMAGE043
的情况,依次执行步骤S331,得到修改后的事件活动名 称候选集,作为最终的预测结果。
本发明的有益效果是:
本发明实施例,解决了背景中提成的问题,具有抽取新闻事件活动名称完整、准确和高效的优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于深度学习的新闻事件活动名称抽取方法的框架图。
图2为本发明实施例中构建自动评价中心服务的步骤流程图。
图3为利用基于深度学习的新闻事件活动名称抽取系统进行新闻事件活动名称抽取过程示意图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1所示,一种基于深度学习的新闻事件活动名称抽取方法,包括步骤:
S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;
S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;
S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称。
在本发明的其他可选实施例中,需要进一步说明的是,步骤S1包括子步骤:
S11,对收集的新闻文本数据,根据中文语句分割符号进行分句后,记录分句后的新闻文本数量K,K为正整数;可以通过互联网、广播电视、报刊杂志收集新闻文本数据;中文语句分割符号包括:句号(“。”)、感叹号(“!”)、问号、省略号(“……”);
S12,将完成分句的K条新闻文本数据,复制N份并分发给N个相互独立的标注系统进行数据标注,N为正整数;
S13,构建评价中心服务,收集N个标注系统的已标注数据,对N个标注系统的标注质量进行评价并将存在标注争议的数据回退给标注系统,直至标注争议消除,并在满足预选设定的条件后生成新闻事件活动名称数据集。
在本发明的其他可选实施例中,需要进一步说明的是,步骤S2中所述构建新闻事件活动名称抽取模型包括构建:文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。
在本发明的其他可选实施例中,需要进一步说明的是,步骤S3包括子步骤:
S31,按照中文语句分割符号对收集到的新闻文本数据进行分句,将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型;中文语句分割符号包括:句号(“。”)、感叹号(“!”)、问号、省略号(“……”);
S32,利用所述新闻事件活动名称抽取模型,获得新闻文本包含的事件活动名称候 选集合
Figure 875694DEST_PATH_IMAGE001
,其中
Figure 657705DEST_PATH_IMAGE002
表示候选事件活动名称的数量,
Figure 498622DEST_PATH_IMAGE003
表示第r个事件活动 名称;
S33,对新闻事件活动名称进行后处理,得到输入新闻文本数据中所包含的事件名称预测结果。
在本发明的其他可选实施例中,需要进一步说明的是,步骤S12中在所述复制N份并分发给N个相互独立的标注系统后,由N位新闻从业人员进行数据标注。
在本发明的其他可选实施例中,需要进一步说明的是,如图2所示,步骤S13中包括子步骤:
S131,设置标注争议判定阈值为
Figure 100505DEST_PATH_IMAGE004
,设置数据质量过审阈值
Figure 685070DEST_PATH_IMAGE005
S132,基于N个标注系统的相同文本内容的已标注数据,若N个标注系统对于同一 条数据产生M种不同的标注结果,M为正整数,;,第i种标注结果的数量为mi,i=1,2,...,M, 计算标注争议判定权重
Figure 56008DEST_PATH_IMAGE006
如下:
Figure 67827DEST_PATH_IMAGE007
其中,
Figure 157005DEST_PATH_IMAGE008
求取最大值的函数;
S133,判定当前新闻文本的标注结果是否存在争议,判定方法如下:
Figure 545261DEST_PATH_IMAGE009
无争议,
Figure 770706DEST_PATH_IMAGE010
有争议;
S134,基于步骤S133的判断结果进行处理:若当前新闻文本的标注结果有争议,则 将N个系统对于当前新闻文本的标注全部清除并返回到N个系统进行再标注,若当前新闻文 本的标注结果无争议,则记录为无争议标注文本数据并统计无争议标注文本数据数量,记 为
Figure 953426DEST_PATH_IMAGE011
S135,对所有K条新闻文本数据重复步骤S132至S134,并计算无争议标注文本数据 数量占总文本数量的比例
Figure 529901DEST_PATH_IMAGE012
,计算公式如下:
Figure 447479DEST_PATH_IMAGE013
S136,若S135的计算结果满足条件
Figure 527431DEST_PATH_IMAGE014
,则将K条新闻文本数据,及其最优标注结 果导出为新闻事件活动名称数据集,其中最优标注结果的定义为:每一条新闻文本数据在 全部N个标注系统的M种标注结果中,
数量
Figure 146631DEST_PATH_IMAGE015
最多的第i个标注结果;若S135的计算结果不满足条件
Figure 210402DEST_PATH_IMAGE014
,则重复步骤 S132至S135,直至满足条件
Figure 940461DEST_PATH_IMAGE014
后将K条新闻文本数据,及其最优标注结果导出为新闻事 件活动名称数据集,其中,最优标注结果的定义为:每一条新闻文本数据在全部N个标注系 统的M种标注结果中,数量
Figure 874919DEST_PATH_IMAGE015
最多的第i个标注结果。
在本发明的其他可选实施例中,需要进一步说明的是,构建所述文本字符编码层 包括子步骤:使用预训练模型BERT对文本进行字符级编码,将输入的新闻文本的每个字符j 转换为设定的维度的实数向量
Figure 930599DEST_PATH_IMAGE016
,维度记为p。
在本发明的其他可选实施例中,需要进一步说明的是,如图3所示,构建所述文本分词编码层包括子步骤:
S2A1,对输入的新闻文本进行分词,并根据BMES规则进行分词标注;在该步骤中所述对输入的新闻文本进行分词,可使用开源工具包jieba;,其中,“BMES”规则是指:多字符组合而成的词语,第一个字符标记为“B”,中间字符标记为“M”,结束字符标记为“E”;单字符形成的词语或标点标记为“S”;
S2A2,定义分词编码矩阵
Figure 216087DEST_PATH_IMAGE017
,其中,第一行为BMES规则中B对应的分词编 码、第二行为BMES规则中M对应的分词编码、第三行为BMES规则中E对应的分词编码、第四行 为BMES规则中S对应的分词编码;
S2A3,通过分词编码矩阵
Figure 484257DEST_PATH_IMAGE017
将输入新闻文本的每个字符j转化为维度为p 的实数向量
Figure 538801DEST_PATH_IMAGE018
,并构建分词嵌入矩阵
Figure 499804DEST_PATH_IMAGE019
,其中H的第j行为
Figure 7009DEST_PATH_IMAGE018
,L输入新闻文本的字符 数量。
在本发明的其他可选实施例中,需要进一步说明的是,构建所述文本词语编码层包括子步骤:
S2B1,统计输入新闻文本的字符数量L;
S2B2,构建初始化分词表示矩阵
Figure 344449DEST_PATH_IMAGE020
,初始化Q中的每一个元素均为0;
S2B3,构建字符嵌入矩阵
Figure 519078DEST_PATH_IMAGE021
,其中U的第j行是
Figure 388333DEST_PATH_IMAGE016
S2B4,基于利用BMES规则进行的分词标注,更新分词表示矩阵为
Figure 648413DEST_PATH_IMAGE022
S2B5,按照如下公式计算输入新闻文本的词语嵌入矩阵
Figure 258386DEST_PATH_IMAGE023
Figure 553101DEST_PATH_IMAGE044
其中,
Figure 590327DEST_PATH_IMAGE025
表示矩阵乘法。
在本发明的其他可选实施例中,需要进一步说明的是,如图3所示,构建文本特征融合层包括子步骤:
S2C1,将步骤S2A3得到的分词嵌入矩阵
Figure 337703DEST_PATH_IMAGE026
、步骤S2B3得到的字符嵌入矩阵
Figure 751367DEST_PATH_IMAGE027
、步骤 S2B5得到的词语嵌入矩阵
Figure 635009DEST_PATH_IMAGE023
依次进行拼接,得到三维文本表示矩阵
Figure 108716DEST_PATH_IMAGE028
S2C2,构建卷积神经网络层
Figure 77809DEST_PATH_IMAGE029
Figure 295164DEST_PATH_IMAGE030
进行卷积操作,并得到卷积后的融合三维文本表 示矩阵
Figure 33313DEST_PATH_IMAGE031
S2C3,构建最大池化(MaxPool)层P对
Figure 677921DEST_PATH_IMAGE032
在第二维度上执行最大池化得到融合文本 表示矩阵
Figure 134310DEST_PATH_IMAGE033
S2C4,构建上下文语义融合层
Figure 889776DEST_PATH_IMAGE034
,采用双向长短期记忆神经网络(Bi-LSTM)对融合 文本表示矩阵进行上下文语义融合,得到上下文文本表示矩阵
Figure 750941DEST_PATH_IMAGE035
在本发明的其他可选实施例中,需要进一步说明的是,步骤S2B4包括子步骤:
S2B41,初始化文本词语首字符统计
Figure 832029DEST_PATH_IMAGE036
S2B42,若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注 为S,则令
Figure 775714DEST_PATH_IMAGE037
若输入新闻文本的第l个字符根据BMES规则进行分词标注后得到的标注为B,则令
Figure 69292DEST_PATH_IMAGE037
,令
Figure 782033DEST_PATH_IMAGE038
若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为M或 E,则令
Figure 768444DEST_PATH_IMAGE039
,其中
Figure 199425DEST_PATH_IMAGE040
S2B43,对输入新闻文本从第一个字符开始依次对每一个字符执行步骤S2B42,从 而完成更新后的分词表示矩阵,记为
Figure 296694DEST_PATH_IMAGE041
在本发明的其他可选实施例中,需要进一步说明的是,构建所述事件活动名称抽 取层包括子步骤:采用CRF算法将上下文文本表示矩阵
Figure 863942DEST_PATH_IMAGE042
作为输入,得到事件活动名称的 预测结果。
在本发明的其他可选实施例中,需要进一步说明的是,步骤S33中所述后处理包括子步骤:
S331,若当前事件活动名称
Figure 21254DEST_PATH_IMAGE003
仅包含一个字符,则从事件活动名候选集中删除当 前事件活动名称;
若当前事件活动名称
Figure 205110DEST_PATH_IMAGE003
起始字符或结尾字符为顿号、逗号、分号、冒号、句号、感叹 号、问号、省略号其中之一的,则删除首尾的对应符号并将余下的文本继续作为事件活动名 称保留在候选集中;
若当前事件活动名称
Figure 840491DEST_PATH_IMAGE003
的起始字符在利用BMES规则进行分词标注后的标注结果 不为B或S其中之一,则从事件活动名候选集中删除当前事件活动名称;
若当前事件活动名称
Figure 527824DEST_PATH_IMAGE003
的起始字符在利用BMES规则进行分词标注后的标注结果 不为E或S其中之一,则从事件活动名候选集中删除当前事件活动名称;
S332,分别针对
Figure 856037DEST_PATH_IMAGE043
的情况,依次执行步骤S331,得到修改后的事件活动名 称候选集,作为最终的预测结果。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (13)

1.一种基于深度学习的新闻事件活动名称抽取方法,其特征在于,包括步骤:
S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;
S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;
S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称。
2.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S1包括子步骤:
S11,对收集的新闻文本数据,根据中文语句分割符号进行分句后,记录分句后的新闻文本数量K,K为正整数;
S12,将完成分句的K条新闻文本数据,复制N份并分发给N个相互独立的标注系统进行数据标注,N为正整数;
S13,构建评价中心服务,收集N个标注系统的已标注数据,对N个标注系统的标注质量进行评价并将存在标注争议的数据回退给标注系统,直至标注争议消除,并在满足预选设定的条件后生成新闻事件活动名称数据集。
3.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S2中所述构建新闻事件活动名称抽取模型包括构建:文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。
4.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S3包括子步骤:
S31,按照中文语句分割符号对收集到的新闻文本数据进行分句,将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型;
S32,利用所述新闻事件活动名称抽取模型,获得新闻文本包含的事件活动名称候选集 合
Figure 625132DEST_PATH_IMAGE001
,其中
Figure 496136DEST_PATH_IMAGE002
表示候选事件活动名称的数量,
Figure 899436DEST_PATH_IMAGE003
表示第r个事件活动名称;
S33,对新闻事件活动名称进行后处理,得到输入新闻文本数据中所包含的事件名称预测结果。
5.根据权利要求2所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S12中在所述复制N份并分发给N个相互独立的标注系统后,由N位新闻从业人员进行数据标注。
6.根据权利要求2所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S13中包括子步骤:
S131,设置标注争议判定阈值为
Figure 79750DEST_PATH_IMAGE004
,设置数据质量过审阈值
Figure 771763DEST_PATH_IMAGE005
S132,基于N个标注系统的相同文本内容的已标注数据,若N个标注系统对于同一条数 据产生M种不同的标注结果,M为正整数;第i种标注结果的数量为mi,i=1,2,...,M,计算标 注争议判定权重
Figure 226884DEST_PATH_IMAGE006
如下:
Figure 422373DEST_PATH_IMAGE007
其中,
Figure 321059DEST_PATH_IMAGE008
求取最大值的函数;
S133,判定当前新闻文本的标注结果是否存在争议,判定方法如下:
Figure 549302DEST_PATH_IMAGE009
无争议,
Figure 293267DEST_PATH_IMAGE010
有争议;
S134,基于步骤S133的判断结果进行处理:若当前新闻文本的标注结果有争议,则将N个系统对于当前新闻文本的标注全部清除并返回到N个系统进行再标注,若当前新闻文本的标注结果无争议,则记录为无争议标注文本数据并统计无争议标注文本数据数量,记为;
S135,对所有K条新闻文本数据重复步骤S132至S134,并计算无争议标注文本数据数量 占总文本数量的比例
Figure 608842DEST_PATH_IMAGE011
,计算公式如下:
Figure 662118DEST_PATH_IMAGE012
S136,若S135的计算结果满足条件
Figure 125460DEST_PATH_IMAGE013
,则将K条新闻文本数据,及其最优标注结果导 出为新闻事件活动名称数据集,其中最优标注结果的定义为:每一条新闻文本数据在全部N 个标注系统的M种标注结果中,
数量
Figure 876378DEST_PATH_IMAGE014
最多的第i个标注结果;若S135的计算结果不满足条件
Figure 358044DEST_PATH_IMAGE013
,则重复步骤S132 至S135,直至满足条件
Figure 801795DEST_PATH_IMAGE013
后将K条新闻文本数据,及其最优标注结果导出为新闻事件活 动名称数据集,其中,最优标注结果的定义为:每一条新闻文本数据在全部N个标注系统的M 种标注结果中,数量
Figure 221275DEST_PATH_IMAGE014
最多的第i个标注结果。
7.根据权利要求3所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,构建所述文本字符编码层包括子步骤:使用预训练模型BERT对文本进行字符级编码,将输入的新闻文本的每个字符j转换为设定的维度的实数向量
Figure DEST_PATH_IMAGE015
,维度记为p。
8.根据权利要求3所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,构建所述文本分词编码层包括子步骤:
S2A1,对输入的新闻文本进行分词,并根据BMES规则进行分词标注;
S2A2,定义分词编码矩阵
Figure DEST_PATH_IMAGE016
,其中,第一行为BMES规则中B对应的分词编码、第二行为BMES规则中M对应的分词编码、第三行为BMES规则中E对应的分词编码、第四行为BMES规则中S对应的分词编码;
S2A3,通过分词编码矩阵
Figure 228414DEST_PATH_IMAGE016
将输入新闻文本的每个字符j转化为维度为p的实数向量
Figure DEST_PATH_IMAGE017
,并构建分词嵌入矩阵
Figure DEST_PATH_IMAGE018
,其中H的第j行为
Figure 962322DEST_PATH_IMAGE017
,L输入新闻文本的字符数量。
9.根据权利要求8所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,构建所述文本词语编码层包括子步骤:
S2B1,统计输入新闻文本的字符数量L;
S2B2,构建初始化分词表示矩阵,初始化Q中的每一个元素均为0;
S2B3,构建字符嵌入矩阵
Figure DEST_PATH_IMAGE019
,其中U的第j行是
Figure 295083DEST_PATH_IMAGE015
S2B4,基于利用BMES规则进行的分词标注,更新分词表示矩阵为
Figure DEST_PATH_IMAGE020
S2B5,按照如下公式计算输入新闻文本的词语嵌入矩阵
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示矩阵乘法。
10.根据权利要求9所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,构建文本特征融合层包括子步骤:
S2C1,将步骤S2A3得到的分词嵌入矩阵
Figure DEST_PATH_IMAGE024
、步骤S2B3得到的字符嵌入矩阵
Figure DEST_PATH_IMAGE025
、步骤S2B5得到的词语嵌入矩阵
Figure 716706DEST_PATH_IMAGE021
依次进行拼接,得到三维文本表示矩阵
Figure DEST_PATH_IMAGE026
S2C2,构建卷积神经网络层
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
进行卷积操作,并得到卷积后的融合三维文本表示矩阵
Figure DEST_PATH_IMAGE029
S2C3,构建最大池化层P对
Figure DEST_PATH_IMAGE030
在第二维度上执行最大池化得到融合文本表示矩阵
Figure DEST_PATH_IMAGE031
S2C4,构建上下文语义融合层
Figure DEST_PATH_IMAGE032
,采用双向长短期记忆神经网络对融合文本表示矩阵进行上下文语义融合,得到上下文文本表示矩阵
Figure DEST_PATH_IMAGE033
11.根据权利要求9所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S2B4包括子步骤:
S2B41,初始化文本词语首字符统计
Figure DEST_PATH_IMAGE034
S2B42,若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为S,则令
Figure DEST_PATH_IMAGE035
若输入新闻文本的第l个字符根据BMES规则进行分词标注后得到的标注为B,则令
Figure 297510DEST_PATH_IMAGE035
,令
Figure DEST_PATH_IMAGE036
若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为M或E,则令
Figure DEST_PATH_IMAGE037
,其中
Figure DEST_PATH_IMAGE038
S2B43,对输入新闻文本从第一个字符开始依次对每一个字符执行步骤S2B42,从而完成更新后的分词表示矩阵,记为
Figure DEST_PATH_IMAGE039
12.根据权利要求10所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,构建所述事件活动名称抽取层包括子步骤:采用CRF算法将上下文文本表示矩阵
Figure DEST_PATH_IMAGE040
作为输入,得到事件活动名称的预测结果。
13.根据权利要求4所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S33中所述后处理包括子步骤:
S331,若当前事件活动名称
Figure 222609DEST_PATH_IMAGE003
仅包含一个字符,则从事件活动名候选集中删除当前事件活动名称;
若当前事件活动名称
Figure 54168DEST_PATH_IMAGE003
起始字符或结尾字符为顿号、逗号、分号、冒号、句号、感叹号、问号、省略号其中之一的,则删除首尾的对应符号并将余下的文本继续作为事件活动名称保留在候选集中;
若当前事件活动名称
Figure 713820DEST_PATH_IMAGE003
的起始字符在利用BMES规则进行分词标注后的标注结果不为B或S其中之一,则从事件活动名候选集中删除当前事件活动名称;
若当前事件活动名称
Figure 406969DEST_PATH_IMAGE003
的起始字符在利用BMES规则进行分词标注后的标注结果不为E或S其中之一,则从事件活动名候选集中删除当前事件活动名称;
S332,分别针对
Figure DEST_PATH_IMAGE041
的情况,依次执行步骤S331,得到修改后的事件活动名称候选集,作为最终的预测结果。
CN202111354123.1A 2021-11-16 2021-11-16 一种基于深度学习的新闻事件活动名称抽取方法 Active CN113792545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111354123.1A CN113792545B (zh) 2021-11-16 2021-11-16 一种基于深度学习的新闻事件活动名称抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111354123.1A CN113792545B (zh) 2021-11-16 2021-11-16 一种基于深度学习的新闻事件活动名称抽取方法

Publications (2)

Publication Number Publication Date
CN113792545A true CN113792545A (zh) 2021-12-14
CN113792545B CN113792545B (zh) 2022-03-04

Family

ID=78955221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111354123.1A Active CN113792545B (zh) 2021-11-16 2021-11-16 一种基于深度学习的新闻事件活动名称抽取方法

Country Status (1)

Country Link
CN (1) CN113792545B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795039A (zh) * 2023-02-08 2023-03-14 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995015538A1 (en) * 1993-11-30 1995-06-08 Polaroid Corporation Coding methods and apparatus for scaling and filtering images using discrete cosine transforms
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN108959305A (zh) * 2017-05-22 2018-12-07 北京国信宏数科技有限公司 一种基于互联网大数据的事件抽取方法及系统
CN109992664A (zh) * 2019-03-12 2019-07-09 平安科技(深圳)有限公司 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110209815A (zh) * 2019-05-23 2019-09-06 国家计算机网络与信息安全管理中心 一种卷积神经网络的新闻用户兴趣挖掘方法
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110737812A (zh) * 2019-09-20 2020-01-31 浙江大学 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112269949A (zh) * 2020-10-19 2021-01-26 杭州叙简科技股份有限公司 一种基于事故灾害新闻的信息结构化方法
CN112347245A (zh) * 2020-09-29 2021-02-09 徐佳慧 面向投融资领域机构的观点挖掘方法、装置和电子设备
KR20210036318A (ko) * 2020-03-20 2021-04-02 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 아규먼트 추출 방법, 장치 및 전자 기기
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN113128232A (zh) * 2021-05-11 2021-07-16 济南大学 一种基于albert与多重词信息嵌入的命名实体识别方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995015538A1 (en) * 1993-11-30 1995-06-08 Polaroid Corporation Coding methods and apparatus for scaling and filtering images using discrete cosine transforms
CN108959305A (zh) * 2017-05-22 2018-12-07 北京国信宏数科技有限公司 一种基于互联网大数据的事件抽取方法及系统
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109992664A (zh) * 2019-03-12 2019-07-09 平安科技(深圳)有限公司 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110209815A (zh) * 2019-05-23 2019-09-06 国家计算机网络与信息安全管理中心 一种卷积神经网络的新闻用户兴趣挖掘方法
CN110737812A (zh) * 2019-09-20 2020-01-31 浙江大学 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法
KR20210036318A (ko) * 2020-03-20 2021-04-02 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 아규먼트 추출 방법, 장치 및 전자 기기
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112347245A (zh) * 2020-09-29 2021-02-09 徐佳慧 面向投融资领域机构的观点挖掘方法、装置和电子设备
CN112269949A (zh) * 2020-10-19 2021-01-26 杭州叙简科技股份有限公司 一种基于事故灾害新闻的信息结构化方法
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN113128232A (zh) * 2021-05-11 2021-07-16 济南大学 一种基于albert与多重词信息嵌入的命名实体识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DU JINLIAN 等: "Chinese Word Segmentation in Electronic Medical Record Text via Graph Neural Network-Bidirectional LSTM-CRF Model", 《2020 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
ZHAO XINCHUN: "Research and Application of Event Finding based on massive Internet Imagine Tag", 《2014 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND COMMUNICATION NETWORKS》 *
丁兆云 等: "微博数据挖掘研究综述", 《计算机研究与发展》 *
杨文浩 等: "基于BERT和深层等长卷积的新闻标签分类", 《计算机与现代化》 *
钟华帅: "基于深度学习的实体和关系联合抽取模型研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795039A (zh) * 2023-02-08 2023-03-14 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质
CN115795039B (zh) * 2023-02-08 2023-06-02 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质

Also Published As

Publication number Publication date
CN113792545B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN109472033B (zh) 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
US20200073882A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN106778878B (zh) 一种人物关系分类方法及装置
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113792545B (zh) 一种基于深度学习的新闻事件活动名称抽取方法
WO2022143608A1 (zh) 语言标注方法、装置、计算机设备和存储介质
CN114782965A (zh) 基于布局关联性的视觉富文档信息抽取方法、系统及介质
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN112561530A (zh) 一种基于多模型融合的交易流水处理方法及系统
CN111736804A (zh) 一种基于用户评论识别App关键功能的方法及装置
CN107274077B (zh) 课程先后序计算方法和设备
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115526176A (zh) 文本识别方法及装置、电子设备、存储介质
CN113297482A (zh) 基于多模型的搜索引擎数据的用户画像刻画方法及系统
CN113934922A (zh) 一种智能推荐的方法、装置、设备及计算机存储介质
CN114049528B (zh) 一种品牌名称识别的方法及设备
CN112287184B (zh) 基于神经网络的迁移标注方法、装置、设备及存储介质
US20240086452A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
CN114996394A (zh) 知识图谱中知识点的抽取方法、系统、电子设备
Marcé Gomis Comparison of active learning methods for automatic document classification
CN118069789A (zh) 一种面向立法意见的关键信息抽取方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant