CN113239659A - 一种融合规则的文本数字抽取装置 - Google Patents

一种融合规则的文本数字抽取装置 Download PDF

Info

Publication number
CN113239659A
CN113239659A CN202110427381.1A CN202110427381A CN113239659A CN 113239659 A CN113239659 A CN 113239659A CN 202110427381 A CN202110427381 A CN 202110427381A CN 113239659 A CN113239659 A CN 113239659A
Authority
CN
China
Prior art keywords
label
rule
layer module
text
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110427381.1A
Other languages
English (en)
Inventor
周靖宇
冉小瑜
景泳霖
邹鸿岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kuaique Information Technology Co ltd
Original Assignee
Shanghai Kuaique Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kuaique Information Technology Co ltd filed Critical Shanghai Kuaique Information Technology Co ltd
Priority to CN202110427381.1A priority Critical patent/CN113239659A/zh
Publication of CN113239659A publication Critical patent/CN113239659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种融合规则的文本数字抽取装置,它涉及金融技术领域,它包括信息输出层模块、解码层模块、标签融合层模块、编码层模块、预处理提取模块,所述预处理提取模块连接编码层模块,所述编码层模块与标签融合层模块相连接,所述标签融合层模块通过解码层模块与信息输出层模块相连接本发明有益效果为:对有大量数字类数据的文本抽取,在针对金融领域的数据抽取中准确率能提升%‑%以上,针对金融行业,对算法模型要求高的行业中,使其信息抽取准确率更好的达到商用的标准。

Description

一种融合规则的文本数字抽取装置
技术领域
本发明涉及金融技术领域,具体涉及一种融合规则的文本数字抽取装置。
背景技术
在文本处理中,一个通用的需求是将一段文本中有价值的信息提取出来。如知识图谱的构建需要从非结构的文本信息提取出三元组。在金融领域各个业务场景中同样有从非结构文本信息中提取有价值信息的需求,与一般的文本处理中,提取信息不同;在一些私有(如金融)领域,存在比较特殊的文本,它包含大量的数字类信息,并且这些数字信息很相似,需要有专业或者有经验的人员才能识别其中的信息。
现券交易中的一个成交的文本信息,是需要将里面的信息提取,这个问题对当前的信息抽取模型来说,有两个难点:a)数字信息为0-9,可以随意组合成任意的数值,不像中文字符,每个字符有明确的意义,并且有一定的排列顺序。b)专业或者有经验的人员,基于长期在私有(如金融)领域的习惯、或者额外的经验知识,是能够识别其中意思的,但是一个算法模型,只是基于当前的训练语料,没有额外的辅助知识,是很难判断其信息的
现有技术中,信息抽取在文本处理领域是一个比较成熟的技术。主要是基于神经网络模型,对文本进行系列标注,把文本中的要素信息识别出来。早期有LSTM+CRF、BiLSTM+CRF等模型,随着预训练模型Bert的出现,以及相关变种的推出,有Bert+BiLSTM+CRF,Bert+CRF等一系列的算法模型,且达到了比较高的准确率。随着不同领域对技术要求的提高,如中文的歧义问题,抽取中的边界漂移问题,随着算法模型的发展,如图神经网络模型的出现,出现了如FLAT、LGN、Graph4CNER等算法,解决中文信息抽取中的歧义、边界漂移等问题。主要解决的是针对一段文本,能够提取出里面的有价值的信息。但是现有的技术方案中存在两个难点:一是对于需要额外经验信息的,在一些私有领域、需要训练样本之外的经验或专业知识的信息抽取任务,目前并不能很好的解决。二是对于数字类的,如金融领域的一个数字“2.78”,有可能是期限,也可能是投标的标位信息,或者是现券交易的票面值。这种数字,不仅需要语境,还需要对数值大小的判断,等相关的信息辅助判断的。这对于当前的技术来说,是一个难点问题,并不能有效解决。
采用已有的技术,在标准的训练语料下,模型大概的准确率在85%-90%左右,针对金融行业,对算法模型要求高的行业中,这样的信息抽取准确率难于达到商用的标准。
发明内容
本发明的目的在于针对现有技术中不足与缺陷,提供一种融合规则的文本数字抽取装置,对有大量数字类数据的文本抽取,在针对金融领域的数据抽取中准确率能提升2%-3%以上。
为实现上述目的,本发明采用以下技术方案是:一种融合规则的文本数字抽取装置,它包括信息输出层模块1、解码层模块2、标签融合层模块3、编码层模块4、预处理提取模块5,所述预处理提取模块5连接编码层模块4,所述编码层模块4与标签融合层模块3相连接,所述标签融合层模块3通过解码层模块2与信息输出层模块1相连接。
作为本发明更为优化的,所述预处理提取模块5的提取规则为:将专家的经验或者专业知识总结出来,变成一套逻辑函数库;采用逻辑程序,对于输入的文本信息,先做预处理,通过正则表达式,将满足一定规则的各种数字信息、中文加数字信息提取出来;对规则提取出的文本信息,进行逻辑运算,判断其满足哪些规则,并贴上相应的“规则标签”,对于一段信息,有可能是多标签的情况,则将两个标签直接拼接,形成第三种标签;标签转换,将“规则标签”转换为唯一的标签ID,标签ID采用四位数的字符串,保障标签转换过程中,能确保不同的“规则标签“对应唯一的“标签ID”即可。
作为本发明更为优化的,所述编码层模块4的编码方式包括当不限于:字符的编码,采用经典的编码方式,首先是通过利用金融数据进行预训练后的albert对字符进行编码训练,再在上层拼接上一个LSTM层,对文本中的字符和数字进行特征训练,最后获得每个字符的特征向量Xi;对于“规则标签”的编码,采用one-hot的形式,同样可以采用word2vec或bert等预训练模型获得的编码形式。
作为本发明更为优化的,所述标签融合层模块3上增加了Rule-self-attention的网络层,来融合文本标签和规则标签的信息;
对任意一个句子,形成的词向量为X,规则标签形成的编码为R,则Rule-self-attention的定义为
Figure BDA0003030061090000031
在attention之后,在拼接上归一化函数,进行一次全连接层:
Figure BDA0003030061090000032
Figure BDA0003030061090000033
Figure BDA0003030061090000034
Figure BDA0003030061090000035
Figure BDA0003030061090000036
利用上面的Rule-self-attention函数,将“规则标签”信息融合到文本的编码中,形成每个字符最终编码结果。
作为本发明更为优化的,所述解码层模块2同样采用的是CRF算法,对编码的字符向量进行序列标注,输出最终的抽取结果。
作为本发明更为优化的,所述预处理提取模块5的提取规则a中具体规则以金融的数字为例:标位值的大小在0到20的范围内;票面的价格通常在90-110的范围内;债券代码是4位-6位的纯数字。
本发明的工作原理:首先建立一套规则逻辑库;在预处理提取阶段,先通过规则提取出文本中满足一定规则的信息,将满足不同规则的文本数据贴上不同的“规则标签”;其次在模型训练阶段,将“规则标签”和文本一起放入神经网络模型中训练学习。在融合上,基于文本的attention机制,将“规则标签”信息融合到文本的特征学习中,最后执行下游的解码任务,获得信息提取的序列标注结果,对“规则标签”的编码,采用one-hot编码,或者预训练模型进行编码,同时可采用其它词向量化方式,以及未来出现的新技术;当前提供的示例为金融领域的数据,但是不限于金融业务,也包括其它包含大量数字类数据信息;这种融合“规则标签”的模型编码方式,还可以拓展到其它的需要结合“外部规则”的相关任务中。
采用上述技术方案后,本发明有益效果为:对有大量数字类数据的文本抽取,在针对金融领域的数据抽取中准确率能提升2%-3%以上,针对金融行业,对算法模型要求高的行业中,使其信息抽取准确率更好的达到商用的标准。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的网络模型示意图。
附图标记说明:信息输出层模块1、解码层模块2、标签融合层模块3、编码层模块4、预处理提取模块5。
具体实施方式
参看图1所示,本具体实施方式采用的技术方案是:它包括信息输出层模块1、解码层模块2、标签融合层模块3、编码层模块4、预处理提取模块5,所述预处理提取模块5连接编码层模块4,所述编码层模块4与标签融合层模块3相连接,所述标签融合层模块3通过解码层模块2与信息输出层模块1相连接。
作为本发明更为优化的,所述预处理提取模块5的提取规则为:将专家的经验或者专业知识总结出来,变成一套逻辑函数库;采用逻辑程序,对于输入的文本信息,先做预处理,通过正则表达式,将满足一定规则的各种数字信息、中文加数字信息提取出来;对规则提取出的文本信息,进行逻辑运算,判断其满足哪些规则,并贴上相应的“规则标签”,对于一段信息,有可能是多标签的情况,则将两个标签直接拼接,形成第三种标签;标签转换,将“规则标签”转换为唯一的标签ID,标签ID采用四位数的字符串,保障标签转换过程中,能确保不同的“规则标签“对应唯一的“标签ID”即可。
作为本发明更为优化的,所述编码层模块4的编码方式包括当不限于:字符的编码,采用经典的编码方式,首先是通过利用金融数据进行预训练后的albert对字符进行编码训练,再在上层拼接上一个LSTM层,对文本中的字符和数字进行特征训练,最后获得每个字符的特征向量Xi;对于“规则标签”的编码,采用one-hot的形式,同样可以采用word2vec或bert等预训练模型获得的编码形式。
作为本发明更为优化的,所述标签融合层模块3上增加了Rule-self-attention的网络层,来融合文本标签和规则标签的信息;
对任意一个句子,形成的词向量为X,规则标签形成的编码为R,则Rule-self-attention的定义为
Figure BDA0003030061090000051
在attention之后,在拼接上归一化函数,进行一次全连接层:
Figure BDA0003030061090000052
Figure BDA0003030061090000053
Figure BDA0003030061090000054
Figure BDA0003030061090000055
Figure BDA0003030061090000056
利用上面的Rule-self-attention函数,将“规则标签”信息融合到文本的编码中,形成每个字符最终编码结果。
作为本发明更为优化的,所述解码层模块2同样采用的是CRF算法,对编码的字符向量进行序列标注,输出最终的抽取结果。
作为本发明更为优化的,所述预处理提取模块5的提取规则a中具体规则以金融的数字为例:标位值的大小在0到20的范围内;票面的价格通常在90-110的范围内;债券代码是4位-6位的纯数字。
本发明的工作原理:首先建立一套规则逻辑库;在预处理提取阶段,先通过规则提取出文本中满足一定规则的信息,将满足不同规则的文本数据贴上不同的“规则标签”;其次在模型训练阶段,将“规则标签”和文本一起放入神经网络模型中训练学习。在融合上,基于文本的attention机制,将“规则标签”信息融合到文本的特征学习中,最后执行下游的解码任务,获得信息提取的序列标注结果,对“规则标签”的编码,采用one-hot编码,或者预训练模型进行编码,同时可采用其它词向量化方式,以及未来出现的新技术;当前提供的示例为金融领域的数据,但是不限于金融业务,也包括其它包含大量数字类数据信息;这种融合“规则标签”的模型编码方式,还可以拓展到其它的需要结合“外部规则”的相关任务中。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种融合规则的文本数字抽取装置,其特征在于:它包括信息输出层模块(1)、解码层模块(2)、标签融合层模块(3)、编码层模块(4)、预处理提取模块(5),所述预处理提取模块(5)连接编码层模块(4),所述编码层模块(4)与标签融合层模块(3)相连接,所述标签融合层模块(3)通过解码层模块(2)与信息输出层模块(1)相连接。
2.根据权利要求1所述的一种融合规则的文本数字抽取装置,其特征在于:所述预处理提取模块(5)的提取规则为:
a、将专家的经验或者专业知识总结出来,变成一套逻辑函数库;
b、采用逻辑程序,对于输入的文本信息,先做预处理,通过正则表达式,将满足一定规则的各种数字信息、中文加数字信息提取出来;
c、对规则提取出的文本信息,进行逻辑运算,判断其满足哪些规则,并贴上相应的“规则标签”,对于一段信息,有可能是多标签的情况,则将两个标签直接拼接,形成第三种标签;
d、标签转换,将“规则标签”转换为唯一的标签ID,标签ID采用四位数的字符串,保障标签转换过程中,能确保不同的“规则标签“对应唯一的“标签ID”即可。
3.根据权利要求2所述的一种融合规则的文本数字抽取装置,其特征在于:所述编码层模块(4)的编码方式包括当不限于:
a、字符的编码,采用经典的编码方式,首先是通过利用金融数据进行预训练后的albert对字符进行编码训练,再在上层拼接上一个LSTM层,对文本中的字符和数字进行特征训练,最后获得每个字符的特征向量Xi;
b、对于“规则标签”的编码,采用one-hot的形式,同样可以采用word2vec或bert等预训练模型获得的编码形式。
4.根据权利要求1所述的一种融合规则的文本数字抽取装置,其特征在于:所述标签融合层模块(3)上增加了Rule-self-attention的网络层,来融合文本标签和规则标签的信息;
对任意一个句子,形成的词向量为X,规则标签形成的编码为R,则Rule-self-attention的定义为
Figure FDA0003030061080000021
在attention之后,在拼接上归一化函数,进行一次全连接层:
Figure FDA0003030061080000022
Figure FDA0003030061080000023
Figure FDA0003030061080000024
Figure FDA0003030061080000025
Figure FDA0003030061080000026
利用上面的Rule-self-attention函数,将“规则标签”信息融合到文本的编码中,形成每个字符最终编码结果。
5.根据权利要求1所述的一种融合规则的文本数字抽取装置,其特征在于:所述解码层模块(2)同样采用的是CRF算法,对编码的字符向量进行序列标注,输出最终的抽取结果。
6.根据权利要求1所述的一种融合规则的文本数字抽取装置,其特征在于:所述预处理提取模块(5)的提取规则a中具体规则以金融的数字为例
1)标位值的大小在0到20的范围内;
2)票面的价格通常在90-110的范围内;
3)债券代码是4位-6位的纯数字。
CN202110427381.1A 2021-04-21 2021-04-21 一种融合规则的文本数字抽取装置 Pending CN113239659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427381.1A CN113239659A (zh) 2021-04-21 2021-04-21 一种融合规则的文本数字抽取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427381.1A CN113239659A (zh) 2021-04-21 2021-04-21 一种融合规则的文本数字抽取装置

Publications (1)

Publication Number Publication Date
CN113239659A true CN113239659A (zh) 2021-08-10

Family

ID=77128594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427381.1A Pending CN113239659A (zh) 2021-04-21 2021-04-21 一种融合规则的文本数字抽取装置

Country Status (1)

Country Link
CN (1) CN113239659A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761202A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
CN115114934A (zh) * 2022-07-15 2022-09-27 广东工业大学 一种标签融合的联合抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN111753545A (zh) * 2020-06-19 2020-10-09 科大讯飞(苏州)科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN111753545A (zh) * 2020-06-19 2020-10-09 科大讯飞(苏州)科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张秋颖;傅洛伊;王新兵;: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 计算机应用研究, vol. 37, no. 1, pages 47 - 49 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761202A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
CN115114934A (zh) * 2022-07-15 2022-09-27 广东工业大学 一种标签融合的联合抽取方法

Similar Documents

Publication Publication Date Title
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN113239659A (zh) 一种融合规则的文本数字抽取装置
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN113886601B (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN114065702A (zh) 一种融合实体关系和事件要素的事件检测方法
CN114218940B (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN117149940A (zh) 事件论元抽取方法、装置
CN111737951B (zh) 一种文本语言关联关系标注方法和装置
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN114528840A (zh) 融合上下文信息的中文实体识别方法、终端及存储介质
CN113095082A (zh) 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质
CN116484852A (zh) 一种基于关系图注意力网络的中文专利实体关系联合抽取方法
CN112883183B (zh) 构建多分类模型的方法、智能客服方法和相关装置及系统
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
CN110598212A (zh) 一种快速命名体识别方法
CN114429106B (zh) 页面信息处理方法、装置、电子设备和存储介质
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN113505207B (zh) 一种金融舆情研报的机器阅读理解方法及系统
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210810