CN112989031B - 基于深度学习的广播电视新闻事件要素抽取方法 - Google Patents
基于深度学习的广播电视新闻事件要素抽取方法 Download PDFInfo
- Publication number
- CN112989031B CN112989031B CN202110464100.XA CN202110464100A CN112989031B CN 112989031 B CN112989031 B CN 112989031B CN 202110464100 A CN202110464100 A CN 202110464100A CN 112989031 B CN112989031 B CN 112989031B
- Authority
- CN
- China
- Prior art keywords
- core
- extraction
- news
- word
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果等;本发明能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。
Description
技术领域
本发明涉及广播电视新闻文本结构化领域,更为具体的,涉及基于深度学习的广播电视新闻事件要素抽取方法。
背景技术
近年来,随着我国广播电视行业的迅猛发展,媒体内容数据、用户服务数据等正在海量增长。
广播电视新闻是一种非结构化的媒体内容数据,由标题、导语、主体、背景、结语组成,其中标题、导语、主体往往不可或缺,此外某些场景下还存在同期声。因此,新闻通常都相对冗长。新闻要素如时间(when)、地点(where )、人物(who )、事件(what)、原因(why)等作为一则新闻报道所必须具备的基本要素,可以作为新闻内容所蕴含的事件信息的结构化表征,进而高度概括新闻实质内容。然而,单纯依靠人工识别新闻要素并整理成结构化信息费时又费力,因此新闻要素的自动抽取具有重要意义。此外,通过新闻要素的自动抽取实现无结构化新闻的结构化转换也可为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供支持。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度学习的广播电视新闻事件要素抽取方法,能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。
本发明的目的是通过以下方案实现的:
基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
进一步地,在步骤S1中,构建要素数据集是在摘要数据集的基础上进行,包括如下步骤:
S11,建立N类目标类型新闻事件核心要素词库,利用同义词对核心要素词进行扩充,然后对扩充后的新闻事件核心要素词库进行修订,召回新闻事件数据,同时定位新闻事件摘要中的核心句;然后对核心要素词进行归类,以作为核心要素的归一化表达;其中,N为正整数;
S12,根据新闻事件核心要素词筛选出所标注的摘要中的核心句;采样设定的核心句,总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息,为后续搭建要素标注系统提供相关的配置信息和约束信息;利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息;
S13,利用文本增强手段扩充数据集,保持样本均衡;具体包括:首先利用特定占位符替换核心要素与其他要素;然后按扩充比例对文本中其他字符进行随机处理;再对其他要素进行同类替换:汇总同类新闻事件同类角色用词,对每条文本中的事件其他要素进行随机替换,替换候选为在同类新闻事件中扮演同类角色的词;最后还原被占位的核心要素和未被替换的其他要素词。经过这些处理,可以尽量减小文本增强过程中带来的语义漂移问题,从而保证文本增强的数据质量。
进一步地,步骤S2中摘要抽取模型记为BertSum模型,该BertSum模型基于Bert模型,其在Bert之上添加基于Transformer的摘要抽取层,以获取作为摘要的句子信息。
进一步地,步骤S2中要素抽取模型串联顺序包括:文本向量化层、核心要素提取层,其他要素提取层以及核心要素归一化表达层。
进一步地,文本向量化层采用经过摘要抽取训练fine-tune后的Bert层。
进一步地,考虑到一个新闻核心句中可能描述了多个新闻事件,存在多个核心要素词,并且这些核心要素词之间可能存在嵌套的情况(这里指一个核心要素词在另一个核心要素词内部,是其子串),所以,在该实施方案中,核心要素提取层的构建过程包括如下步骤:
进一步地,考虑到对新闻核心句所描述的事件来说,每个类别的其他要素可能有多个,并且这些要素词之间可能存在嵌套的情况;同时,引入核心要素信息以及其他要素类别信息有助于更好地识别各类别下的与相应核心要素相关的其他要素,所以,在该实施方案中,其他要素层的构建过程包括如下步骤:
C1,取出里的每一个核心词,首先获得其语义向量,然后将其与每个字的字向量相加获得特征语义
向量,以此融入不同核心要素的语义,使后续模型层能在此基础上更好地
进行与核心要素词相关的其他要素识别;其中,为第j个字向量,为第k个字向量;
进一步地,核心要素归一化层的构建过程包括如下步骤:
D1,取出结果中的每一个核心要素词,首先获得其语义向量,同样针对每类其他要素结果中每个其他要
素词,并获得相应语义向量;然后将所有这
些语义向量拼接作为Self-Attention层的输入,利用Self-Attention层获得更对核心要
素的更高层语义表征,以更好地进行核心要素的归一化判别:
这里函数表示基于Self-Attenion的语义表征提取层,表示核心要素词
的更高层语义表征,k为其他要素词的开始位置,为其他要素词的结束位置,H为核
心要素词及该核心要素词下所有其他要素词的语义向量拼接的结果向量;
进一步地,步骤S2中,训练摘要抽取模型和要素抽取模型均采用批梯度下降算法;摘要抽取模型的损失函数采用二分类的交叉熵损失函数;要素抽取模型的损失函数包括三部分:核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数,核心要素归一化部分则采用多分类的交叉熵损失函数,最终要素抽取模型的损失函数为三部分加权和。
进一步地,步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果包括如下步骤:
S31,对输入的广播电视新闻数据进行清洗,去除同期声,保留导语、正文,如果有标题同样保留,为后续摘要抽取以及要素抽取过滤无关或无用内容;
S32,利用训练好的摘要抽取模型分析导语和正文内容,获得新闻的摘要句,将提取的摘要与标题合并,构成要素抽取模型分析内容;
S34,将向量化结果输入核心要素提取层,获得新闻核心要素提取结果;
S35,融合核心要素提取结果和S33的向量结果送入其他要素提取层,获得新闻其他要素提取结果;
S36,融合核心要素提取结果和其他要素提取结果送入核心要素归一化表达层,获得核心要素术语归一化结果,整合核心要素、其他要素和核心要素归一化结果形成结构化新闻要素信息并提供给用户。
本发明的有益效果包括:
本发明能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持。具体的,能够保证文本增强的数据质量;即使核心要素词之间存在嵌套关系,可以同时识别多个核心要素词;能够更好地识别各类别下的与相应核心要素相关的其他要素;通过融入不同核心要素的语义,使后续模型层能在此基础上更好地进行与核心要素词相关的其他要素识别,能够更好地进行核心要素的归一化判别等,提高了广播电视新闻内容要素抽取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于深度学习的广播电视新闻要素抽取方法流程框架图;
图2为本发明实施例中两阶段要素抽取模型结构示意图;
图3为本发明实施例中利用摘要抽取模型和要素抽取模型进行要素提取过程示意图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
如图1~3所示,基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
实施例2
在实施例1的基础上,在步骤S1中,构建要素数据集是在摘要数据集的基础上进行,包括如下步骤:
S11,建立N类目标类型新闻事件核心要素词库,利用同义词对核心要素词进行扩充,然后对扩充后的新闻事件核心要素词库进行修订,召回新闻事件数据,同时定位新闻事件摘要中的核心句;然后对核心要素词进行归类,以作为核心要素的归一化表达;其中,N为正整数;
S12,根据新闻事件核心要素词筛选出所标注的摘要中的核心句;采样设定的核心句,总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息,为后续搭建要素标注系统提供相关的配置信息和约束信息;利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息;
S13,利用文本增强手段扩充数据集,保持样本均衡;具体包括:首先利用特定占位符替换核心要素与其他要素;然后按扩充比例对文本中其他字符进行随机处理;再对其他要素进行同类替换:汇总同类新闻事件同类角色用词,对每条文本中的事件其他要素进行随机替换,替换候选为在同类新闻事件中扮演同类角色的词;最后还原被占位的核心要素和未被替换的其他要素词。经过这些处理,可以尽量减小文本增强过程中带来的语义漂移问题,从而保证文本增强的数据质量。
实施例3
在实施例1的基础上,步骤S2中摘要抽取模型记为BertSum模型,该BertSum模型基于Bert模型,其在Bert之上添加基于Transformer的摘要抽取层,以获取作为摘要的句子信息。
步骤S2中要素抽取模型串联顺序包括:文本向量化层、核心要素提取层,其他要素提取层以及核心要素归一化表达层。
文本向量化层采用经过摘要抽取训练fine-tune后Bert层。
考虑到一个新闻核心句中可能描述了多个新闻事件,存在多个核心要素词,并且这些核心要素词之间可能存在嵌套的情况(这里指一个核心要素词在另一个核心要素词内部,是其子串),所以,在该实施方案中,核心要素提取层的构建过程包括如下步骤:
考虑到对新闻核心句所描述的事件来说,每个类别的其他要素可能有多个,并且这些要素词之间可能存在嵌套的情况;同时,引入核心要素信息以及其他要素类别信息有助于更好地识别各类别下的与相应核心要素相关的其他要素,所以,在该实施方案中,其他要素层的构建过程包括如下步骤:
C1,取出里的每一个核心词,首先获得其语义向量,然后将其与每个字的字向量相加获得特征语义
向量,以此融入不同核心要素的语义,使后续模型层能在此基础上更好地
进行与核心要素词相关的其他要素识别;其中,为第j个字向量,为第k个字向量;
核心要素归一化层的构建过程包括如下步骤:
D1,取出结果中的每一个核心要素词,首先获得其语义向量,同样针对每类其他要素结果中每个其他要
素词,并获得相应语义向量;然后将所有这
些语义向量拼接作为Self-Attention层的输入,利用Self-Attention层获得更对核心要
素的更高层语义表征,以更好地进行核心要素的归一化判别:
这里函数表示基于Self-Attenion的语义表征提取层,表示核心要素词
的更高层语义表征,k为其他要素词的开始位置,为其他要素词的结束位置,H为核
心要素词及该核心要素词下所有其他要素词的语义向量拼接的结果向量;
步骤S2中,训练摘要抽取模型和要素抽取模型均采用批梯度下降算法;摘要抽取模型的损失函数采用二分类的交叉熵损失函数;要素抽取模型的损失函数包括三部分:核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数,核心要素归一化部分则采用多分类的交叉熵损失函数,最终要素抽取模型的损失函数为三部分加权和。
步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果包括如下步骤:
S31,对输入的广播电视新闻数据进行清洗,去除同期声,保留导语、正文,如果有标题同样保留,为后续摘要抽取以及要素抽取过滤无关或无用内容;
S32,利用训练好的摘要抽取模型分析导语和正文内容,获得新闻的摘要句,将提取的摘要与标题合并,构成要素抽取模型分析内容;
S34,将向量化结果输入核心要素提取层,获得新闻核心要素提取结果;
S35,融合核心要素提取结果和S33的向量结果送入其他要素提取层,获得新闻其他要素提取结果;
S36,融合核心要素提取结果和其他要素提取结果送入核心要素归一化表达层,获得核心要素术语归一化结果,整合核心要素、其他要素和核心要素归一化结果形成结构化新闻要素信息并提供给用户。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。
Claims (5)
1.基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
步骤S2中要素抽取模型串联顺序包括:文本向量化层、核心要素提取层,其他要素提取层以及核心要素归一化表达层;文本向量化层采用经过摘要抽取训练fine-tune后的Bert层;
核心要素提取层的构建过程包括如下步骤:
其他要素层的构建过程包括如下步骤:
C1,取出核心词集合里的每一个核心词,首先获得其语义向量,然后将其与每个字的字向量相加获得特征语义向量,以此融入不同核心要素的语义,使后续模型层能在此基础上更好地进行与核心要素词相关的其他要素识别;其中,为第j个字向量,为第k个字向量;
核心要素归一化层的构建过程包括如下步骤:
D1,取出结果中的每一个核心要素词,首先获得其语义向量,同样针对每类其他要素结果中每个其他要素词,并获得相应语义向量;然后将所有这些语义向量拼接作为Self-Attention层的输入,利用Self-Attention层获得更对核心要素的更高层语义表征,以更好地进行核心要素的归一化判别:
这里函数表示基于Self-Attenion的语义表征提取层,表示核心要素词的更高层语义表征,k为其他要素词的开始位置,l为其他要素词的结束位置,H为核心要素词及该核心要素词下所有其他要素词的语义向量拼接的结果向量;
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
2.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,在步骤S1中,构建要素数据集是在摘要数据集的基础上进行,包括如下步骤:
S11,建立N类目标类型新闻事件核心要素词库,利用同义词对核心要素词进行扩充,然后对扩充后的新闻事件核心要素词库进行修订,召回新闻事件数据,同时定位新闻事件摘要中的核心句;然后对核心要素词进行归类,以作为核心要素的归一化表达;其中,N为正整数;
S12,根据新闻事件核心要素词筛选出所标注的摘要中的核心句;采样设定的核心句,总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息,为后续搭建要素标注系统提供相关的配置信息和约束信息;利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息;
S13,利用文本增强手段扩充数据集,保持样本均衡;具体包括:首先利用特定占位符替换核心要素与其他要素;然后按扩充比例对文本中其他字符进行随机处理;再对其他要素进行同类替换:汇总同类新闻事件同类角色用词,对每条文本中的事件其他要素进行随机替换,替换候选为在同类新闻事件中扮演同类角色的词;最后还原被占位的核心要素和未被替换的其他要素词。
3.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,步骤S2中摘要抽取模型记为BertSum模型,该BertSum模型基于Bert,其在Bert之上添加基于Transformer的摘要抽取层,以获取作为摘要的句子信息。
4.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,步骤S2中,训练摘要抽取模型和要素抽取模型均采用批梯度下降算法;摘要抽取模型的损失函数采用二分类的交叉熵损失函数;要素抽取模型的损失函数包括三部分:核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数,核心要素归一化部分则采用多分类的交叉熵损失函数,最终要素抽取模型的损失函数为三部分加权和。
5.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果包括如下步骤:
S31,对输入的广播电视新闻数据进行清洗,去除同期声,保留导语、正文,如果有标题同样保留,为后续摘要抽取以及要素抽取过滤无关或无用内容;
S32,利用训练好的摘要抽取模型分析导语和正文内容,获得新闻的摘要句,将提取的摘要与标题合并,构成要素抽取模型分析内容;
S34,将向量化结果输入核心要素提取层,获得新闻核心要素提取结果;
S35,融合核心要素提取结果和步骤S33的向量结果送入其他要素提取层,获得新闻其他要素提取结果;
S36,融合核心要素提取结果和其他要素提取结果送入核心要素归一化表达层,获得核心要素术语归一化结果,整合核心要素、其他要素和核心要素归一化结果形成结构化新闻要素信息并提供给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464100.XA CN112989031B (zh) | 2021-04-28 | 2021-04-28 | 基于深度学习的广播电视新闻事件要素抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464100.XA CN112989031B (zh) | 2021-04-28 | 2021-04-28 | 基于深度学习的广播电视新闻事件要素抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989031A CN112989031A (zh) | 2021-06-18 |
CN112989031B true CN112989031B (zh) | 2021-08-03 |
Family
ID=76340478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110464100.XA Active CN112989031B (zh) | 2021-04-28 | 2021-04-28 | 基于深度学习的广播电视新闻事件要素抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989031B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116029279B (zh) * | 2023-03-28 | 2023-07-07 | 深圳前海环融联易信息科技服务有限公司 | 基于多模态模型的中登附件解析方法、装置、设备及介质 |
CN117408242A (zh) * | 2023-12-15 | 2024-01-16 | 成都索贝数码科技股份有限公司 | 基于级联编码的新闻事件抽取方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN109033074A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 新闻摘要生成方法、装置、设备及计算机可读介质 |
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN111597333A (zh) * | 2020-04-27 | 2020-08-28 | 国家计算机网络与信息安全管理中心 | 一种面向区块链领域的事件与事件要素抽取方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535899B2 (en) * | 2013-02-20 | 2017-01-03 | International Business Machines Corporation | Automatic semantic rating and abstraction of literature |
CN104408093B (zh) * | 2014-11-14 | 2018-01-26 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN106445999A (zh) * | 2016-07-27 | 2017-02-22 | 天津海量信息技术股份有限公司 | 一种基于事件要素的事件抽取方法及系统 |
CN110633409B (zh) * | 2018-06-20 | 2023-06-09 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110362674B (zh) * | 2019-07-18 | 2020-08-04 | 中国搜索信息科技股份有限公司 | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 |
CN111444721B (zh) * | 2020-05-27 | 2022-09-23 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
-
2021
- 2021-04-28 CN CN202110464100.XA patent/CN112989031B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN109033074A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 新闻摘要生成方法、装置、设备及计算机可读介质 |
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN111597333A (zh) * | 2020-04-27 | 2020-08-28 | 国家计算机网络与信息安全管理中心 | 一种面向区块链领域的事件与事件要素抽取方法及装置 |
Non-Patent Citations (3)
Title |
---|
Research review on key techniques of topic-based news elements extraction;Song Qing 等;《2017 IEEE/ACIS 16th International Conference on Computer and Information Science (ICIS)》;20170629;585-590 * |
中文新闻事件要素自动抽取研究;李芳 等;《2007中国计算机大会》;20110929;1496-1504 * |
基于要素抽取的舆情新闻生成式文摘技术研究;宋治勋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215(第02期);I138-2527 * |
Also Published As
Publication number | Publication date |
---|---|
CN112989031A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6653334B2 (ja) | 情報抽出方法及び装置 | |
US10740678B2 (en) | Concept hierarchies | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN106878632B (zh) | 一种视频数据的处理方法和装置 | |
CN112989031B (zh) | 基于深度学习的广播电视新闻事件要素抽取方法 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN111310470B (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN111159414B (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
WO2023108991A1 (zh) | 模型的训练方法、知识分类方法、装置、设备、介质 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN111144116B (zh) | 一种文档知识结构化的抽取方法及装置 | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN115422948A (zh) | 一种基于语义分析的事件层次网络识别系统及方法 | |
CN111143642A (zh) | 网页分类方法、装置、电子设备及计算机可读存储介质 | |
WO2022160445A1 (zh) | 语义理解方法、装置、设备及存储介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN108038109A (zh) | 从非结构化文本中提取特征词的方法及系统、计算机程序 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN106294292B (zh) | 章节目录筛选方法及装置 | |
CN111930959B (zh) | 用于图谱知识生成文本的方法与装置 | |
CN111736804B (zh) | 一种基于用户评论识别App关键功能的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |