CN111967267B - 一种基于XLNet的新闻文本地域提取的方法及系统 - Google Patents

一种基于XLNet的新闻文本地域提取的方法及系统 Download PDF

Info

Publication number
CN111967267B
CN111967267B CN202011009623.7A CN202011009623A CN111967267B CN 111967267 B CN111967267 B CN 111967267B CN 202011009623 A CN202011009623 A CN 202011009623A CN 111967267 B CN111967267 B CN 111967267B
Authority
CN
China
Prior art keywords
region
model
training
xlnet
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011009623.7A
Other languages
English (en)
Other versions
CN111967267A (zh
Inventor
童逸琦
马涛
倪斌
汪姿如
庄福振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Xiamen Data Intelligence Research Institute
Original Assignee
Zhongke Xiamen Data Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Xiamen Data Intelligence Research Institute filed Critical Zhongke Xiamen Data Intelligence Research Institute
Priority to CN202011009623.7A priority Critical patent/CN111967267B/zh
Publication of CN111967267A publication Critical patent/CN111967267A/zh
Application granted granted Critical
Publication of CN111967267B publication Critical patent/CN111967267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本发明公开了一种基于XLNet的新闻文本地域提取的方法及系统,其方法包括如下步骤:S1、利用互联网上获取海量未标注生语料,输入XLNet预训练模型中进行预训练;S2、将预处理后的数据输入到步骤S1预训练好的XLNet预训练模型中进行编码,将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出识别后的地域实体;S3、地域实体消歧;S4、地域实体汇总;S5、地域主体补全操作;其系统包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成。本发明的二阶段训练过程克服了现有技术存在的预训练阶段和训练阶段存在使用模式不一致的问题,解决了传统的自回归模型无法同时学习上下文信息的痛点,实现了完整建模。

Description

一种基于XLNet的新闻文本地域提取的方法及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种基于XLNet的新闻文本地域提取的方法及系统。
背景技术
新闻文本的地域属性蕴含了新闻事件发生的地点,是对新闻事件进行统计、分析的重要参考维度,因此利用计算机实现对新闻文本地域的自动抽取,对下游任务如推荐系统、舆情分析、文本摘要等具有非常重要的推动作用。目前主流的地域提取方法包括机器学习方法和深度学习方法,这两种方法都需要人工标注的地域实体数据集进行训练。
BERT+BiLSTM+CRF模型就是(双向转换的编码预训练模型+双向长短期记忆网络+条件随机场模型)深度学习方法中的一种,但BERT模型存在如下缺点:1、预训练阶段采用引入遮掩标记来遮掩15%的词,但在训练阶段不含有这些被加入遮掩标记的词,导致预训练阶段和训练阶段存在使用模式不一致的情况;2、在预训练阶段,随机遮掩的15%词之间是条件独立的,不存在关联,但自然语言的词之间有些是存在关联的,导致模型的性能损失,无法同时学习上下文信息;3、只能对固定长度的文本序列进行建模,而新闻文本通常是长文本序列,导致无法对其进行完整建模。
发明内容
为解决上述问题,本发明提供了一种基于XLNet的新闻文本地域提取的方法及系统。
本发明采用以下技术方案:
一种基于XLNet的新闻文本地域提取的方法,包括如下步骤:
S1、预训练:利用爬虫技术从互联网上获取海量未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;
S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;
S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县(区)三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
进一步地,步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。
进一步地,所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。
进一步地,所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,对于单词xi,原本出现在它后面的词{xi+1,...,xn}也可以出现在它前面,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示一种排列组合情况即z∈ZT的前t-1个元素,则排列语言模型对文本序列的建模过程可以表示成:
Figure BDA0002697141340000031
其中,θ为待训练的模型参数。
进一步地,所述XLNet预训练模型采用了双流注意力机制。
进一步地,所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。
一种基于XLNet的新闻文本地域提取的系统,包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成,所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码,所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域主体,所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接,所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧,所述地域汇总模块用于所述地域实体的统计、排序和补全。
进一步地,所述XLNet预训练模型采用排列语言模型和双流注意力机制。
进一步地,所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合,所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM神经网络和一个从后端到前端的LSTM神经网络拼接而成,所述CRF模型为条件随机场模型。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明采用二阶段训练过程,即预训练过程和训练过程,预训练过程在大规模为标注数据上进行无监督学习得到预训练模型,训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练,整体框架可确保获得较高的地域提取质量,克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题;
2、传统的自回归模型只能从前端到后端(或从后端到前端)单方向的建模,而本发明引入了排列语言模型,将输入的文本序列按照排列组合的方式随机打乱序列,使得后端的文本序列可能随机组合到了前端,解决了传统的自回归模型无法同时学习上下文信息的痛点;
3、引入的XLNet模型使用的是相对位置编码而不是绝对位置编码,使得本发明的地域提取方法能够完整的识别整个长文本序列的地域,实现了完整建模。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,一种基于XLNet的新闻文本地域提取的方法,包括如下步骤:
S1、预训练:利用爬虫技术从互联网上获取海量未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;
S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
步骤S1和步骤S2中的所述数据预处理包括对未标注数据进行清洗,即剔除无用的文本,以及对文本进行分词、断句、去停用词等通用的数据预处理流程。
步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。例如:“江苏省苏州市”就会被人工标注成“江苏B-TER省I-TER苏州I-TER市E-TER”。
所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。
在模型效果测试的过程中发现,发现对有些文本中出现的地域实体无法完整抽取,如:浙江省丽水市,会被识别成“浙江省”、“丽水市”两个实体,针对该问题,添加了在步骤S2添加了e、地域拼接的步骤,依赖地域实体在文章中的位置信息进行拼接,以此解决部分实体无法完整抽取的痛点。例如在文本中出现了“浙江省”、“丽水市”,此时模型会认为“浙江省”地域实体的末尾位置为1、“丽水市”地域实体的末尾位置为2,即这两个地域实体在文中是相邻的,然后判断两者是否存在从属关系,若是,则将二者拼接为“浙江省丽水市”,否则不作任何处理。地域拼接效果如下表所示:
表1.地域拼接效果
Figure BDA0002697141340000051
S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;
由于中国语言丰富多彩,存在着大量缺省现象,不同的文本却可以代表相同的含义,如“沪”、“上海”和网络常用语“魔都”表示的都是同一个地域,因此,构建了一个省/市二级同一地名知识库,通过地域实体与该知识库进行匹配映射,上述的“沪”、“上海”、“魔都”都会被映射为“上海市”。
S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县(区)三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
补全的示例效果如下表所示:
表2.补全示例效果
Figure BDA0002697141340000061
所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,对于单词xi,原本出现在它后面的词{xi+1,...,xn}也可以出现在它前面,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示一种排列组合情况即z∈ZT的前t-1个元素,则排列语言模型对文本序列的建模过程可以表示成:
Figure BDA0002697141340000062
其中,θ为待训练的模型参数。
所述XLNet预训练模型采用了双流注意力机制。
引入排列语言模型后,解决了传统的自回归模型无法同时学习上下文信息的缺点同时,也会带来一个问题:文本位置信息丢失。在传统的自回归模型中,对于句子[x1,x2.x3,x4],模型预测的永远是序列下一个位置的单词,但对于排列语言模型,假设当前要预测x3对于排列组合后的序列[x2,x4,x1,x3],模型就会预测x1。为了使模型学习到序列的位置信息,在XLNet中引入了双流注意力机制,其中Content stream attention(内容流注意力)就是标准的自注意力(self-attention)机制,Query stream attention(查询流注意力)和Content stream attention(内容流注意力)的区别在于Query stream attention(查询流注意力)使用的都是上下文信息,没有涉及到任何有关预测目标词的信息,两者相结合有助于模型更好的提取有关上下文信息的特征,具体的双流注意力计算机制为:
Figure BDA0002697141340000071
Figure BDA0002697141340000072
其中,
Figure BDA0002697141340000073
为额外输入的预测目标词的位置信息,
Figure BDA0002697141340000074
表示文本序列中各个位置之间的相关性,Attention表示经典的自注意力机制,其计算公式如下:
Figure BDA0002697141340000075
其中,上标T代表矩阵转置操作,dim代表矩阵维度。
引入的XLNet模型使用的是相对位置编码而不是绝对位置编码,使得本发明的地域提取方法能够完整的识别整个长文本序列的地域,实现完整建模。
所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。
本实施例采用二阶段训练过程,即预训练过程和训练过程,预训练过程在大规模为标注数据上进行无监督学习得到预训练模型,训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练,整体框架可确保获得较高的地域提取质量,克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题。
实施例二
一种基于XLNet的新闻文本地域提取的系统,包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成,所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码,所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域主体,所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接,所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧,所述地域汇总模块用于所述地域实体的统计、排序和补全。
所述XLNet预训练模型采用排列语言模型和双流注意力机制。所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合,所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM(长短期记忆网络)和一个从后端到前端的LSTM(长短期记忆网络)拼接而成,所述CRF模型为条件随机场模型。
本实施例的系统中的地域实体识别模块采用二阶段训练过程,即基于XLNet预训练模型的预训练过程和基于BiLSTM+CRF模型的训练过程,预训练过程在大规模为标注数据上进行无监督学习得到预训练模型,训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练,整体框架可确保获得较高的地域提取质量,克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题;
传统的自回归模型只能从前端到后端(或从后端到前端)单方向的建模,而本发明引入了排列语言模型,将输入的文本序列按照排列组合的方式随机打乱序列,使得后端的文本序列可能随机组合到了前端,解决了传统的自回归模型无法同时学习上下文信息的痛点;
引入的XLNet模型使用的是相对位置编码而不是绝对位置编码,使得本发明的地域提取方法能够完整的识别整个长文本序列的地域,实现完整建模。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于XLNet的新闻文本地域提取的方法,其特征在于:包括如下步骤:
S1、预训练:利用爬虫技术从互联网上获取未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;
所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示所有排列组合集合ZT的其中一种排列组合情况的前t-1个元素,则排列语言模型对文本序列的建模过程表示成:
Figure FDA0003615619710000011
其中,θ为待训练的模型参数;
S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;
S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县或区三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
2.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。
3.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。
4.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述XLNet预训练模型采用了双流注意力机制。
5.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。
6.一种基于XLNet的新闻文本地域提取的系统,其特征在于:包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成,所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码,所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域实体,所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接,所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧,所述地域汇总模块用于所述地域实体的统计、排序和补全;
所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示所有排列组合集合ZT的其中一种排列组合情况的前t-1个元素,则排列语言模型对文本序列的建模过程表示成:
Figure FDA0003615619710000021
其中,θ为待训练的模型参数;
所述获得地域实体的步骤为:A1、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,A2、对所述模型训练语料进行通用的数据预处理流程,A3、将预处理后的数据输入到所述XLNet预训练模型中进行编码,A4、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
所述地域实体的统计、排序具体为:B1、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,B2、采用成对比较法,利用所述人工特征构建特征矩阵,B3、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,B4、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
所述地域实体的补全具体为:利用爬虫技术爬取中国的行政区划信息,构建省/市/县或区三级的中国地域知识库,对保留的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
7.如权利要求6所述的一种基于XLNet的新闻文本地域提取的系统,其特征在于:所述XLNet预训练模型采用排列语言模型和双流注意力机制。
8.如权利要求6所述的一种基于XLNet的新闻文本地域提取的系统,其特征在于:所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合,所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM神经网络和一个从后端到前端的LSTM神经网络拼接而成,所述CRF模型为条件随机场模型。
CN202011009623.7A 2020-09-23 2020-09-23 一种基于XLNet的新闻文本地域提取的方法及系统 Active CN111967267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011009623.7A CN111967267B (zh) 2020-09-23 2020-09-23 一种基于XLNet的新闻文本地域提取的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011009623.7A CN111967267B (zh) 2020-09-23 2020-09-23 一种基于XLNet的新闻文本地域提取的方法及系统

Publications (2)

Publication Number Publication Date
CN111967267A CN111967267A (zh) 2020-11-20
CN111967267B true CN111967267B (zh) 2022-06-21

Family

ID=73387426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011009623.7A Active CN111967267B (zh) 2020-09-23 2020-09-23 一种基于XLNet的新闻文本地域提取的方法及系统

Country Status (1)

Country Link
CN (1) CN111967267B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487291B (zh) * 2020-11-28 2022-06-10 重庆邮电大学 一种基于大数据的个性化新闻推荐方法及装置
CN113282767B (zh) * 2021-04-30 2022-08-30 武汉大学 一种面向文本的相对位置信息提取方法
TWI799274B (zh) * 2021-05-24 2023-04-11 宏達國際電子股份有限公司 運算方法以及運算系統

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825890A (zh) * 2020-01-13 2020-02-21 成都四方伟业软件股份有限公司 一种预训练模型知识图谱实体关系抽取方法及装置
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
CN111428054B (zh) * 2020-04-14 2022-11-01 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111444721B (zh) * 2020-05-27 2022-09-23 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Also Published As

Publication number Publication date
CN111967267A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN115935995A (zh) 面向知识图谱生成的非遗丝织领域实体关系抽取方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN115795060B (zh) 一种基于知识增强的实体对齐方法
CN115270774B (zh) 一种半监督学习的大数据关键词词典构建方法
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant after: Zhongke (Xiamen) data Intelligence Research Institute

Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant