CN112989031B - 基于深度学习的广播电视新闻事件要素抽取方法 - Google Patents

基于深度学习的广播电视新闻事件要素抽取方法 Download PDF

Info

Publication number
CN112989031B
CN112989031B CN202110464100.XA CN202110464100A CN112989031B CN 112989031 B CN112989031 B CN 112989031B CN 202110464100 A CN202110464100 A CN 202110464100A CN 112989031 B CN112989031 B CN 112989031B
Authority
CN
China
Prior art keywords
core
extraction
news
word
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110464100.XA
Other languages
English (en)
Other versions
CN112989031A (zh
Inventor
杨瀚
朱婷婷
温序铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobei Video Cloud Computing Co ltd
Original Assignee
Chengdu Sobei Video Cloud Computing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobei Video Cloud Computing Co ltd filed Critical Chengdu Sobei Video Cloud Computing Co ltd
Priority to CN202110464100.XA priority Critical patent/CN112989031B/zh
Publication of CN112989031A publication Critical patent/CN112989031A/zh
Application granted granted Critical
Publication of CN112989031B publication Critical patent/CN112989031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果等;本发明能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。

Description

基于深度学习的广播电视新闻事件要素抽取方法
技术领域
本发明涉及广播电视新闻文本结构化领域,更为具体的,涉及基于深度学习的广播电视新闻事件要素抽取方法。
背景技术
近年来,随着我国广播电视行业的迅猛发展,媒体内容数据、用户服务数据等正在海量增长。
广播电视新闻是一种非结构化的媒体内容数据,由标题、导语、主体、背景、结语组成,其中标题、导语、主体往往不可或缺,此外某些场景下还存在同期声。因此,新闻通常都相对冗长。新闻要素如时间(when)、地点(where )、人物(who )、事件(what)、原因(why)等作为一则新闻报道所必须具备的基本要素,可以作为新闻内容所蕴含的事件信息的结构化表征,进而高度概括新闻实质内容。然而,单纯依靠人工识别新闻要素并整理成结构化信息费时又费力,因此新闻要素的自动抽取具有重要意义。此外,通过新闻要素的自动抽取实现无结构化新闻的结构化转换也可为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供支持。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度学习的广播电视新闻事件要素抽取方法,能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。
本发明的目的是通过以下方案实现的:
基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
进一步地,在步骤S1中,构建要素数据集是在摘要数据集的基础上进行,包括如下步骤:
S11,建立N类目标类型新闻事件核心要素词库,利用同义词对核心要素词进行扩充,然后对扩充后的新闻事件核心要素词库进行修订,召回新闻事件数据,同时定位新闻事件摘要中的核心句;然后对核心要素词进行归类,以作为核心要素的归一化表达;其中,N为正整数;
S12,根据新闻事件核心要素词筛选出所标注的摘要中的核心句;采样设定的核心句,总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息,为后续搭建要素标注系统提供相关的配置信息和约束信息;利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息;
S13,利用文本增强手段扩充数据集,保持样本均衡;具体包括:首先利用特定占位符替换核心要素与其他要素;然后按扩充比例对文本中其他字符进行随机处理;再对其他要素进行同类替换:汇总同类新闻事件同类角色用词,对每条文本中的事件其他要素进行随机替换,替换候选为在同类新闻事件中扮演同类角色的词;最后还原被占位的核心要素和未被替换的其他要素词。经过这些处理,可以尽量减小文本增强过程中带来的语义漂移问题,从而保证文本增强的数据质量。
进一步地,步骤S2中摘要抽取模型记为BertSum模型,该BertSum模型基于Bert模型,其在Bert之上添加基于Transformer的摘要抽取层,以获取作为摘要的句子信息。
进一步地,步骤S2中要素抽取模型串联顺序包括:文本向量化层、核心要素提取层,其他要素提取层以及核心要素归一化表达层。
进一步地,文本向量化层采用经过摘要抽取训练fine-tune后的Bert层。
进一步地,考虑到一个新闻核心句中可能描述了多个新闻事件,存在多个核心要素词,并且这些核心要素词之间可能存在嵌套的情况(这里指一个核心要素词在另一个核心要素词内部,是其子串),所以,在该实施方案中,核心要素提取层的构建过程包括如下步骤:
B1,定义语义矩阵
Figure 711161DEST_PATH_IMAGE001
,将语义矩阵
Figure 378903DEST_PATH_IMAGE002
和激活函数sigmoid分别用于每个字向量
Figure 985465DEST_PATH_IMAGE003
,计算每个字是核心要素开始字符的概率大小值
Figure 447670DEST_PATH_IMAGE004
,其中字向量
Figure 670841DEST_PATH_IMAGE003
为字
Figure 611115DEST_PATH_IMAGE005
经过文本向 量化层后的结果:
Figure 594553DEST_PATH_IMAGE006
B2,定义语义矩阵
Figure 227660DEST_PATH_IMAGE007
,将语义矩阵
Figure 938127DEST_PATH_IMAGE007
和激活函数sigmoid分别用于每个字向量
Figure 682092DEST_PATH_IMAGE008
,获得每个字是核心要素结束字符的概率大小值
Figure 528825DEST_PATH_IMAGE009
:
Figure 332833DEST_PATH_IMAGE010
B3,对步骤B1、B2获得的核心要素提取结果进行过滤,以去除为核心要素开始或结 束字符的概率大小值中较小的识别结果,从而获得位置集合
Figure 265017DEST_PATH_IMAGE011
Figure 812673DEST_PATH_IMAGE012
;这里,
Figure 779492DEST_PATH_IMAGE013
Figure 754401DEST_PATH_IMAGE014
;其中,
Figure 173881DEST_PATH_IMAGE015
Figure 525228DEST_PATH_IMAGE016
为阈值;
B4,根据步骤B3获得核心词集合
Figure 80974DEST_PATH_IMAGE017
,这里
Figure 489434DEST_PATH_IMAGE018
为集合
Figure 130631DEST_PATH_IMAGE012
中最靠近
Figure 20090DEST_PATH_IMAGE019
的元素。这样可以同时识别多个核心要素词,即使核心要素词之间存在嵌套关系。
进一步地,考虑到对新闻核心句所描述的事件来说,每个类别的其他要素可能有多个,并且这些要素词之间可能存在嵌套的情况;同时,引入核心要素信息以及其他要素类别信息有助于更好地识别各类别下的与相应核心要素相关的其他要素,所以,在该实施方案中,其他要素层的构建过程包括如下步骤:
C1,取出
Figure 961501DEST_PATH_IMAGE020
里的每一个核心词
Figure 278213DEST_PATH_IMAGE021
,首先获得其语义向量
Figure 672285DEST_PATH_IMAGE022
,然后将其与每个字的字向量相加获得特征语义 向量
Figure 99855DEST_PATH_IMAGE023
,以此融入不同核心要素的语义,使后续模型层能在此基础上更好地 进行与核心要素词相关的其他要素识别;其中,
Figure 630194DEST_PATH_IMAGE024
为第j个字向量,
Figure 383386DEST_PATH_IMAGE025
为第k个字向量;
C2,针对每类其他要素
Figure 999175DEST_PATH_IMAGE026
Figure 496016DEST_PATH_IMAGE027
是其他要素集合,定义语义矩阵
Figure 880861DEST_PATH_IMAGE028
,将语义矩 阵
Figure 539375DEST_PATH_IMAGE029
和激活函数sigmoid分别用于每个字的特征语义向量
Figure 908040DEST_PATH_IMAGE030
,获得每个字是o类其他要 素开始字符的概率大小值
Figure 680342DEST_PATH_IMAGE031
Figure 450852DEST_PATH_IMAGE032
C3,针对每类其他要素
Figure 280268DEST_PATH_IMAGE026
Figure 870649DEST_PATH_IMAGE027
是其他要素集合,定义语义矩阵
Figure 709292DEST_PATH_IMAGE033
,将语义矩 阵
Figure 68729DEST_PATH_IMAGE034
和激活函数sigmoid分别用于每个字的特征语义向量
Figure 69046DEST_PATH_IMAGE035
,获得每个字是o类要素结束 字符的概率大小值
Figure 146724DEST_PATH_IMAGE036
Figure 789058DEST_PATH_IMAGE037
C4,对步骤C2、C3获得的其他要素提取结果进行过滤,以去除为其他要素开始或结 束字符的概率大小值中较小的识别结果,从而获得位置集合
Figure 3001DEST_PATH_IMAGE038
Figure 439799DEST_PATH_IMAGE039
,其中
Figure 739193DEST_PATH_IMAGE026
;这里,
Figure 919639DEST_PATH_IMAGE040
Figure 454001DEST_PATH_IMAGE041
;其中,
Figure 61700DEST_PATH_IMAGE042
Figure 848390DEST_PATH_IMAGE043
为阈值;k为数字,表示 第k个位置;
C5,根据步骤C4获得其他要素集合
Figure 566947DEST_PATH_IMAGE044
,这里
Figure 21063DEST_PATH_IMAGE045
为集合
Figure 534083DEST_PATH_IMAGE039
中最靠近
Figure 73649DEST_PATH_IMAGE046
的元素,
Figure 595897DEST_PATH_IMAGE026
。这样,每个类别下,都可以同时识别多个其他要素词,即使其他要素词之 间存在嵌套关系。
进一步地,核心要素归一化层的构建过程包括如下步骤:
D1,取出结果
Figure 638940DEST_PATH_IMAGE020
中的每一个核心要素词
Figure 588441DEST_PATH_IMAGE021
,首先获得其语义向量
Figure 84145DEST_PATH_IMAGE022
,同样针对每类其他要素结果
Figure 410084DEST_PATH_IMAGE047
中每个其他要 素词
Figure 573212DEST_PATH_IMAGE048
,并获得相应语义向量
Figure 255184DEST_PATH_IMAGE049
;然后将所有这 些语义向量拼接作为Self-Attention层的输入
Figure 769342DEST_PATH_IMAGE050
,利用Self-Attention层获得更对核心要 素的更高层语义表征,以更好地进行核心要素的归一化判别:
Figure 633393DEST_PATH_IMAGE051
这里函数
Figure 385448DEST_PATH_IMAGE052
表示基于Self-Attenion的语义表征提取层,
Figure 942331DEST_PATH_IMAGE053
表示核心要素词
Figure 678206DEST_PATH_IMAGE054
的更高层语义表征,k为其他要素词
Figure 345948DEST_PATH_IMAGE048
的开始位置,
Figure 952510DEST_PATH_IMAGE045
为其他要素词
Figure 680294DEST_PATH_IMAGE048
的结束位置,H为核 心要素词及该核心要素词下所有其他要素词的语义向量拼接的结果向量;
D2,定义将语义矩阵
Figure 637886DEST_PATH_IMAGE055
和激活函数softmax,将语义矩阵
Figure 843739DEST_PATH_IMAGE056
和激活函 数softmax分别用于每个核心要素的语义表征向量
Figure 835966DEST_PATH_IMAGE057
,获得每个核心要素的类别,并将该 类别作为规一化术语表达:
Figure 469073DEST_PATH_IMAGE058
进一步地,步骤S2中,训练摘要抽取模型和要素抽取模型均采用批梯度下降算法;摘要抽取模型的损失函数采用二分类的交叉熵损失函数;要素抽取模型的损失函数包括三部分:核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数,核心要素归一化部分则采用多分类的交叉熵损失函数,最终要素抽取模型的损失函数为三部分加权和。
进一步地,步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果包括如下步骤:
S31,对输入的广播电视新闻数据进行清洗,去除同期声,保留导语、正文,如果有标题同样保留,为后续摘要抽取以及要素抽取过滤无关或无用内容;
S32,利用训练好的摘要抽取模型分析导语和正文内容,获得新闻的摘要句,将提取的摘要与标题合并,构成要素抽取模型分析内容;
S33,对带分析内容进行分字,获得字序列
Figure 911031DEST_PATH_IMAGE060
,并将其输入文本向量 化层,获得每个字的字向量
Figure 654996DEST_PATH_IMAGE003
;这里
Figure 767308DEST_PATH_IMAGE061
为待分析内容长度,
Figure 571316DEST_PATH_IMAGE005
Figure 503500DEST_PATH_IMAGE003
分别代表第
Figure 51156DEST_PATH_IMAGE062
个字和其对应 字向量;
S34,将向量化结果输入核心要素提取层,获得新闻核心要素提取结果;
S35,融合核心要素提取结果和S33的向量结果送入其他要素提取层,获得新闻其他要素提取结果;
S36,融合核心要素提取结果和其他要素提取结果送入核心要素归一化表达层,获得核心要素术语归一化结果,整合核心要素、其他要素和核心要素归一化结果形成结构化新闻要素信息并提供给用户。
本发明的有益效果包括:
本发明能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持。具体的,能够保证文本增强的数据质量;即使核心要素词之间存在嵌套关系,可以同时识别多个核心要素词;能够更好地识别各类别下的与相应核心要素相关的其他要素;通过融入不同核心要素的语义,使后续模型层能在此基础上更好地进行与核心要素词相关的其他要素识别,能够更好地进行核心要素的归一化判别等,提高了广播电视新闻内容要素抽取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于深度学习的广播电视新闻要素抽取方法流程框架图;
图2为本发明实施例中两阶段要素抽取模型结构示意图;
图3为本发明实施例中利用摘要抽取模型和要素抽取模型进行要素提取过程示意图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
如图1~3所示,基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
实施例2
在实施例1的基础上,在步骤S1中,构建要素数据集是在摘要数据集的基础上进行,包括如下步骤:
S11,建立N类目标类型新闻事件核心要素词库,利用同义词对核心要素词进行扩充,然后对扩充后的新闻事件核心要素词库进行修订,召回新闻事件数据,同时定位新闻事件摘要中的核心句;然后对核心要素词进行归类,以作为核心要素的归一化表达;其中,N为正整数;
S12,根据新闻事件核心要素词筛选出所标注的摘要中的核心句;采样设定的核心句,总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息,为后续搭建要素标注系统提供相关的配置信息和约束信息;利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息;
S13,利用文本增强手段扩充数据集,保持样本均衡;具体包括:首先利用特定占位符替换核心要素与其他要素;然后按扩充比例对文本中其他字符进行随机处理;再对其他要素进行同类替换:汇总同类新闻事件同类角色用词,对每条文本中的事件其他要素进行随机替换,替换候选为在同类新闻事件中扮演同类角色的词;最后还原被占位的核心要素和未被替换的其他要素词。经过这些处理,可以尽量减小文本增强过程中带来的语义漂移问题,从而保证文本增强的数据质量。
实施例3
在实施例1的基础上,步骤S2中摘要抽取模型记为BertSum模型,该BertSum模型基于Bert模型,其在Bert之上添加基于Transformer的摘要抽取层,以获取作为摘要的句子信息。
步骤S2中要素抽取模型串联顺序包括:文本向量化层、核心要素提取层,其他要素提取层以及核心要素归一化表达层。
文本向量化层采用经过摘要抽取训练fine-tune后Bert层。
考虑到一个新闻核心句中可能描述了多个新闻事件,存在多个核心要素词,并且这些核心要素词之间可能存在嵌套的情况(这里指一个核心要素词在另一个核心要素词内部,是其子串),所以,在该实施方案中,核心要素提取层的构建过程包括如下步骤:
B1,定义语义矩阵
Figure 752396DEST_PATH_IMAGE001
,将语义矩阵
Figure 727305DEST_PATH_IMAGE002
和激活函数sigmoid分别用于每个字向量
Figure 412365DEST_PATH_IMAGE003
,计算每个字是核心要素开始字符的概率大小值
Figure 498132DEST_PATH_IMAGE004
,其中字向量
Figure 319458DEST_PATH_IMAGE003
为字
Figure 465268DEST_PATH_IMAGE005
经过文本向 量化层后的结果:
Figure 372044DEST_PATH_IMAGE006
B2,定义语义矩阵
Figure 261503DEST_PATH_IMAGE007
,将语义矩阵
Figure 940265DEST_PATH_IMAGE007
和激活函数sigmoid分别用于每个字向量
Figure 256976DEST_PATH_IMAGE008
,获得每个字是核心要素结束字符的概率大小值
Figure 651049DEST_PATH_IMAGE009
:
Figure 344198DEST_PATH_IMAGE063
B3,对步骤B1、B2获得的核心要素提取结果进行过滤,以去除为核心要素开始或结 束字符的概率大小值中较小的识别结果,从而获得位置集合
Figure 874537DEST_PATH_IMAGE011
Figure 362150DEST_PATH_IMAGE012
;这里,
Figure 243518DEST_PATH_IMAGE013
Figure 474779DEST_PATH_IMAGE014
;其中,
Figure 859624DEST_PATH_IMAGE015
Figure 783718DEST_PATH_IMAGE016
为阈值;
B4,根据步骤B3获得核心词集合
Figure 886803DEST_PATH_IMAGE017
,这里
Figure 921755DEST_PATH_IMAGE018
为集合
Figure 426686DEST_PATH_IMAGE012
中最靠近
Figure 253172DEST_PATH_IMAGE019
的元素。这样可以同时识别多个核心要素词,即使核心要素词之间存在嵌套关系。
考虑到对新闻核心句所描述的事件来说,每个类别的其他要素可能有多个,并且这些要素词之间可能存在嵌套的情况;同时,引入核心要素信息以及其他要素类别信息有助于更好地识别各类别下的与相应核心要素相关的其他要素,所以,在该实施方案中,其他要素层的构建过程包括如下步骤:
C1,取出
Figure 109133DEST_PATH_IMAGE020
里的每一个核心词
Figure 416617DEST_PATH_IMAGE021
,首先获得其语义向量
Figure 41634DEST_PATH_IMAGE022
,然后将其与每个字的字向量相加获得特征语义 向量
Figure 307530DEST_PATH_IMAGE023
,以此融入不同核心要素的语义,使后续模型层能在此基础上更好地 进行与核心要素词相关的其他要素识别;其中,
Figure 119628DEST_PATH_IMAGE024
为第j个字向量,
Figure 761962DEST_PATH_IMAGE025
为第k个字向量;
C2,针对每类其他要素
Figure 241485DEST_PATH_IMAGE026
Figure 412703DEST_PATH_IMAGE027
是其他要素集合,定义语义矩阵
Figure 977677DEST_PATH_IMAGE028
,将语义矩 阵
Figure 626964DEST_PATH_IMAGE029
和激活函数sigmoid分别用于每个字的特征语义向量
Figure 226572DEST_PATH_IMAGE030
,获得每个字是o类其他要 素开始字符的概率大小值
Figure 568692DEST_PATH_IMAGE031
Figure 612173DEST_PATH_IMAGE032
C3,针对每类其他要素
Figure 65151DEST_PATH_IMAGE026
Figure 519266DEST_PATH_IMAGE027
是其他要素集合,定义语义矩阵
Figure 297866DEST_PATH_IMAGE033
,将语义矩 阵
Figure 571853DEST_PATH_IMAGE034
和激活函数sigmoid分别用于每个字的特征语义向量
Figure 94101DEST_PATH_IMAGE035
,获得每个字是o类要素结束 字符的概率大小值
Figure 402722DEST_PATH_IMAGE036
Figure 86645DEST_PATH_IMAGE037
C4,对步骤C2、C3获得的其他要素提取结果进行过滤,以去除为其他要素开始或结 束字符的概率大小值中较小的识别结果,从而获得位置集合
Figure 847927DEST_PATH_IMAGE038
Figure 908287DEST_PATH_IMAGE039
,其中
Figure 71415DEST_PATH_IMAGE026
;这里,
Figure 191818DEST_PATH_IMAGE040
Figure 705976DEST_PATH_IMAGE041
;其中,
Figure 304447DEST_PATH_IMAGE042
Figure 319152DEST_PATH_IMAGE043
为阈值;
C5,根据步骤B8获得其他要素集合
Figure 876036DEST_PATH_IMAGE044
,这里
Figure 346331DEST_PATH_IMAGE045
为集合
Figure 748494DEST_PATH_IMAGE039
中最靠近
Figure 886214DEST_PATH_IMAGE046
的元素,
Figure 348419DEST_PATH_IMAGE026
。这样,每个类别下,都可以同时识别多个其他要素词,即使其他要素词之 间存在嵌套关系。
核心要素归一化层的构建过程包括如下步骤:
D1,取出结果
Figure 306011DEST_PATH_IMAGE020
中的每一个核心要素词
Figure 777444DEST_PATH_IMAGE021
,首先获得其语义向量
Figure 504091DEST_PATH_IMAGE022
,同样针对每类其他要素结果
Figure 137198DEST_PATH_IMAGE047
中每个其他要 素词
Figure 847665DEST_PATH_IMAGE048
,并获得相应语义向量
Figure 591630DEST_PATH_IMAGE049
;然后将所有这 些语义向量拼接作为Self-Attention层的输入
Figure 438363DEST_PATH_IMAGE050
,利用Self-Attention层获得更对核心要 素的更高层语义表征,以更好地进行核心要素的归一化判别:
Figure 507950DEST_PATH_IMAGE051
这里函数
Figure 443064DEST_PATH_IMAGE052
表示基于Self-Attenion的语义表征提取层,
Figure 990720DEST_PATH_IMAGE053
表示核心要素词
Figure 691960DEST_PATH_IMAGE054
的更高层语义表征,k为其他要素词
Figure 666869DEST_PATH_IMAGE048
的开始位置,
Figure 86349DEST_PATH_IMAGE045
为其他要素词
Figure 437696DEST_PATH_IMAGE048
的结束位置,H为核 心要素词及该核心要素词下所有其他要素词的语义向量拼接的结果向量;
D2,定义将语义矩阵
Figure 259021DEST_PATH_IMAGE055
和激活函数softmax,将语义矩阵
Figure 139253DEST_PATH_IMAGE056
和激活函 数softmax分别用于每个核心要素的语义表征向量
Figure 46029DEST_PATH_IMAGE057
,获得每个核心要素的类别,并将该 类别作为规一化术语表达:
Figure 935488DEST_PATH_IMAGE058
步骤S2中,训练摘要抽取模型和要素抽取模型均采用批梯度下降算法;摘要抽取模型的损失函数采用二分类的交叉熵损失函数;要素抽取模型的损失函数包括三部分:核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数,核心要素归一化部分则采用多分类的交叉熵损失函数,最终要素抽取模型的损失函数为三部分加权和。
步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果包括如下步骤:
S31,对输入的广播电视新闻数据进行清洗,去除同期声,保留导语、正文,如果有标题同样保留,为后续摘要抽取以及要素抽取过滤无关或无用内容;
S32,利用训练好的摘要抽取模型分析导语和正文内容,获得新闻的摘要句,将提取的摘要与标题合并,构成要素抽取模型分析内容;
S33,对带分析内容进行分字,获得字序列
Figure 611319DEST_PATH_IMAGE064
,并将其输入文本向量 化层,获得每个字的字向量
Figure 193611DEST_PATH_IMAGE003
;这里
Figure 322104DEST_PATH_IMAGE061
为待分析内容长度,
Figure 12323DEST_PATH_IMAGE005
Figure 808241DEST_PATH_IMAGE003
分别代表第
Figure 295854DEST_PATH_IMAGE062
个字和其对应 字向量;
S34,将向量化结果输入核心要素提取层,获得新闻核心要素提取结果;
S35,融合核心要素提取结果和S33的向量结果送入其他要素提取层,获得新闻其他要素提取结果;
S36,融合核心要素提取结果和其他要素提取结果送入核心要素归一化表达层,获得核心要素术语归一化结果,整合核心要素、其他要素和核心要素归一化结果形成结构化新闻要素信息并提供给用户。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (5)

1.基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
步骤S2中要素抽取模型串联顺序包括:文本向量化层、核心要素提取层,其他要素提取层以及核心要素归一化表达层;文本向量化层采用经过摘要抽取训练fine-tune后的Bert层;
核心要素提取层的构建过程包括如下步骤:
B1,定义语义矩阵
Figure DEST_PATH_IMAGE001
,将语义矩阵
Figure DEST_PATH_IMAGE002
和激活函数sigmoid分别用于每个字向量
Figure DEST_PATH_IMAGE003
,计算每个字是核心要素开始字符的概率大小值
Figure DEST_PATH_IMAGE004
,其中字向量为字
Figure DEST_PATH_IMAGE005
经过文本向量化层后的结果:
Figure DEST_PATH_IMAGE006
B2,定义语义矩阵
Figure DEST_PATH_IMAGE007
,将语义矩阵
Figure 215634DEST_PATH_IMAGE007
和激活函数sigmoid分别用于每个字向量
Figure DEST_PATH_IMAGE008
,获得每个字是核心要素结束字符的概率大小值
Figure DEST_PATH_IMAGE009
:
Figure DEST_PATH_IMAGE010
B3,对步骤B1、B2获得的核心要素提取结果进行过滤,以去除为核心要素开始或结束字符的概率大小值中较小的识别结果,从而获得位置集合
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
;这里,
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
;其中,
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
为阈值;
B4,根据步骤B3获得核心词集合
Figure DEST_PATH_IMAGE017
,这里
Figure DEST_PATH_IMAGE018
为集合
Figure 699485DEST_PATH_IMAGE012
中最靠近
Figure DEST_PATH_IMAGE019
的元素;
其他要素层的构建过程包括如下步骤:
C1,取出核心词集合
Figure DEST_PATH_IMAGE020
里的每一个核心词
Figure DEST_PATH_IMAGE021
,首先获得其语义向量
Figure DEST_PATH_IMAGE022
,然后将其与每个字的字向量相加获得特征语义向量
Figure DEST_PATH_IMAGE023
,以此融入不同核心要素的语义,使后续模型层能在此基础上更好地进行与核心要素词相关的其他要素识别;其中,
Figure DEST_PATH_IMAGE024
为第j个字向量,
Figure DEST_PATH_IMAGE025
为第k个字向量;
C2,针对每类其他要素
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
是其他要素集合,定义语义矩阵
Figure DEST_PATH_IMAGE028
,将语义矩阵和激活函数sigmoid分别用于每个字的特征语义向量
Figure DEST_PATH_IMAGE029
,获得每个字是o类其他要素开始字符的概率大小值
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
C3,针对每类其他要素
Figure 508916DEST_PATH_IMAGE026
Figure 310650DEST_PATH_IMAGE027
是其他要素集合,定义语义矩阵
Figure DEST_PATH_IMAGE032
,将语义矩阵
Figure DEST_PATH_IMAGE033
和激活函数sigmoid分别用于每个字的特征语义向量
Figure DEST_PATH_IMAGE034
,获得每个字是o类要素结束字符的概率大小值
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
C4,对步骤C2、C3获得的其他要素提取结果进行过滤,以去除为其他要素开始或结束字符的概率大小值中较小的识别结果,从而获得位置集合
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
,其中
Figure 547859DEST_PATH_IMAGE026
;这里,
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
;其中,
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
为阈值,k为数字,表示第k个位置;
C5,根据步骤C4获得其他要素集合
Figure DEST_PATH_IMAGE043
,这里
Figure DEST_PATH_IMAGE044
为集合
Figure 377844DEST_PATH_IMAGE038
中最靠近
Figure DEST_PATH_IMAGE045
的元素,
Figure 582560DEST_PATH_IMAGE026
核心要素归一化层的构建过程包括如下步骤:
D1,取出结果
Figure 453564DEST_PATH_IMAGE020
中的每一个核心要素词
Figure 653601DEST_PATH_IMAGE021
,首先获得其语义向量
Figure 53490DEST_PATH_IMAGE022
,同样针对每类其他要素结果
Figure DEST_PATH_IMAGE046
中每个其他要素词
Figure DEST_PATH_IMAGE047
,并获得相应语义向量
Figure DEST_PATH_IMAGE048
;然后将所有这些语义向量拼接作为Self-Attention层的输入
Figure DEST_PATH_IMAGE049
,利用Self-Attention层获得更对核心要素的更高层语义表征,以更好地进行核心要素的归一化判别:
Figure DEST_PATH_IMAGE050
这里函数
Figure DEST_PATH_IMAGE051
表示基于Self-Attenion的语义表征提取层,
Figure DEST_PATH_IMAGE052
表示核心要素词
Figure DEST_PATH_IMAGE053
的更高层语义表征,k为其他要素词
Figure DEST_PATH_IMAGE054
的开始位置,l为其他要素词
Figure 103092DEST_PATH_IMAGE047
的结束位置,H为核心要素词及该核心要素词下所有其他要素词的语义向量拼接的结果向量;
D2,定义语义矩阵
Figure DEST_PATH_IMAGE055
和激活函数softmax,将语义矩阵
Figure DEST_PATH_IMAGE056
和激活函数softmax分别用于每个核心要素的语义表征向量
Figure DEST_PATH_IMAGE057
,获得每个核心要素的类别,并将该类别作为归一化术语表达:
Figure DEST_PATH_IMAGE058
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
2.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,在步骤S1中,构建要素数据集是在摘要数据集的基础上进行,包括如下步骤:
S11,建立N类目标类型新闻事件核心要素词库,利用同义词对核心要素词进行扩充,然后对扩充后的新闻事件核心要素词库进行修订,召回新闻事件数据,同时定位新闻事件摘要中的核心句;然后对核心要素词进行归类,以作为核心要素的归一化表达;其中,N为正整数;
S12,根据新闻事件核心要素词筛选出所标注的摘要中的核心句;采样设定的核心句,总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息,为后续搭建要素标注系统提供相关的配置信息和约束信息;利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息;
S13,利用文本增强手段扩充数据集,保持样本均衡;具体包括:首先利用特定占位符替换核心要素与其他要素;然后按扩充比例对文本中其他字符进行随机处理;再对其他要素进行同类替换:汇总同类新闻事件同类角色用词,对每条文本中的事件其他要素进行随机替换,替换候选为在同类新闻事件中扮演同类角色的词;最后还原被占位的核心要素和未被替换的其他要素词。
3.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,步骤S2中摘要抽取模型记为BertSum模型,该BertSum模型基于Bert,其在Bert之上添加基于Transformer的摘要抽取层,以获取作为摘要的句子信息。
4.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,步骤S2中,训练摘要抽取模型和要素抽取模型均采用批梯度下降算法;摘要抽取模型的损失函数采用二分类的交叉熵损失函数;要素抽取模型的损失函数包括三部分:核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数,核心要素归一化部分则采用多分类的交叉熵损失函数,最终要素抽取模型的损失函数为三部分加权和。
5.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果包括如下步骤:
S31,对输入的广播电视新闻数据进行清洗,去除同期声,保留导语、正文,如果有标题同样保留,为后续摘要抽取以及要素抽取过滤无关或无用内容;
S32,利用训练好的摘要抽取模型分析导语和正文内容,获得新闻的摘要句,将提取的摘要与标题合并,构成要素抽取模型分析内容;
S33,对待分析内容进行分字,获得字序列
Figure DEST_PATH_IMAGE060
,并将其输入文本向量化层,获得每个字的字向量
Figure 62608DEST_PATH_IMAGE003
;这里
Figure DEST_PATH_IMAGE062
为待分析内容长度,
Figure 789255DEST_PATH_IMAGE005
Figure 891203DEST_PATH_IMAGE003
分别代表第
Figure DEST_PATH_IMAGE063
个字和其对应字向量;
S34,将向量化结果输入核心要素提取层,获得新闻核心要素提取结果;
S35,融合核心要素提取结果和步骤S33的向量结果送入其他要素提取层,获得新闻其他要素提取结果;
S36,融合核心要素提取结果和其他要素提取结果送入核心要素归一化表达层,获得核心要素术语归一化结果,整合核心要素、其他要素和核心要素归一化结果形成结构化新闻要素信息并提供给用户。
CN202110464100.XA 2021-04-28 2021-04-28 基于深度学习的广播电视新闻事件要素抽取方法 Active CN112989031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110464100.XA CN112989031B (zh) 2021-04-28 2021-04-28 基于深度学习的广播电视新闻事件要素抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110464100.XA CN112989031B (zh) 2021-04-28 2021-04-28 基于深度学习的广播电视新闻事件要素抽取方法

Publications (2)

Publication Number Publication Date
CN112989031A CN112989031A (zh) 2021-06-18
CN112989031B true CN112989031B (zh) 2021-08-03

Family

ID=76340478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110464100.XA Active CN112989031B (zh) 2021-04-28 2021-04-28 基于深度学习的广播电视新闻事件要素抽取方法

Country Status (1)

Country Link
CN (1) CN112989031B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029279B (zh) * 2023-03-28 2023-07-07 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质
CN117408242A (zh) * 2023-12-15 2024-01-16 成都索贝数码科技股份有限公司 基于级联编码的新闻事件抽取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055658A (zh) * 2016-06-02 2016-10-26 中国人民解放军国防科学技术大学 一种针对Twitter文本事件抽取的方法
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN109033074A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 新闻摘要生成方法、装置、设备及计算机可读介质
CN110019758A (zh) * 2019-04-11 2019-07-16 北京百度网讯科技有限公司 一种核心要素提取方法、装置及电子设备
CN110287309A (zh) * 2019-06-21 2019-09-27 深圳大学 快速提取文本摘要的方法
CN111159415A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 序列标注方法及系统、事件要素抽取方法及系统
CN111597333A (zh) * 2020-04-27 2020-08-28 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9535899B2 (en) * 2013-02-20 2017-01-03 International Business Machines Corporation Automatic semantic rating and abstraction of literature
CN104408093B (zh) * 2014-11-14 2018-01-26 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN106445999A (zh) * 2016-07-27 2017-02-22 天津海量信息技术股份有限公司 一种基于事件要素的事件抽取方法及系统
CN110633409B (zh) * 2018-06-20 2023-06-09 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110362674B (zh) * 2019-07-18 2020-08-04 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN111444721B (zh) * 2020-05-27 2022-09-23 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055658A (zh) * 2016-06-02 2016-10-26 中国人民解放军国防科学技术大学 一种针对Twitter文本事件抽取的方法
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN109033074A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 新闻摘要生成方法、装置、设备及计算机可读介质
CN110019758A (zh) * 2019-04-11 2019-07-16 北京百度网讯科技有限公司 一种核心要素提取方法、装置及电子设备
CN110287309A (zh) * 2019-06-21 2019-09-27 深圳大学 快速提取文本摘要的方法
CN111159415A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 序列标注方法及系统、事件要素抽取方法及系统
CN111597333A (zh) * 2020-04-27 2020-08-28 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Research review on key techniques of topic-based news elements extraction;Song Qing 等;《2017 IEEE/ACIS 16th International Conference on Computer and Information Science (ICIS)》;20170629;585-590 *
中文新闻事件要素自动抽取研究;李芳 等;《2007中国计算机大会》;20110929;1496-1504 *
基于要素抽取的舆情新闻生成式文摘技术研究;宋治勋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215(第02期);I138-2527 *

Also Published As

Publication number Publication date
CN112989031A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
JP6653334B2 (ja) 情報抽出方法及び装置
US10740678B2 (en) Concept hierarchies
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN106878632B (zh) 一种视频数据的处理方法和装置
CN112989031B (zh) 基于深度学习的广播电视新闻事件要素抽取方法
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN111159414B (zh) 文本分类方法及系统、电子设备、计算机可读存储介质
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN114239588A (zh) 文章处理方法、装置、电子设备及介质
CN110795932B (zh) 基于地质本体的地质报告文本信息提取方法
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN115422948A (zh) 一种基于语义分析的事件层次网络识别系统及方法
CN111143642A (zh) 网页分类方法、装置、电子设备及计算机可读存储介质
WO2022160445A1 (zh) 语义理解方法、装置、设备及存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN108038109A (zh) 从非结构化文本中提取特征词的方法及系统、计算机程序
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
CN106294292B (zh) 章节目录筛选方法及装置
CN111930959B (zh) 用于图谱知识生成文本的方法与装置
CN111736804B (zh) 一种基于用户评论识别App关键功能的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant