CN112052681A - 信息抽取模型训练方法、信息抽取方法、装置及电子设备 - Google Patents
信息抽取模型训练方法、信息抽取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112052681A CN112052681A CN202010839979.7A CN202010839979A CN112052681A CN 112052681 A CN112052681 A CN 112052681A CN 202010839979 A CN202010839979 A CN 202010839979A CN 112052681 A CN112052681 A CN 112052681A
- Authority
- CN
- China
- Prior art keywords
- loss function
- function value
- text
- information extraction
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 113
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013135 deep learning Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims description 153
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 244000062793 Sorghum vulgare Species 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 235000019713 millet Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种信息抽取模型训练方法、信息抽取方法、装置及电子设备,应用于深度学习技术领域,其中该方法包括:将领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。
Description
技术领域
本申请涉及深度学习技术领域,具体而言,本申请涉及一种信息抽取模型训练方法、信息抽取方法、装置及电子设备。
背景技术
现阶段,信息抽取研究领域中,一般采用序列标注的框架,然后使用各种深度学习模型进行建模,通过数据驱动的的方式,来抽取实体以及实体间关系。然而,在整个过程中,人类的领域知识没有办法直接用于建模中,比如,“我吃了一个苹果”,“苹果特别好用”,前面一个苹果指的是水果,后面一个苹果指的是苹果手机,在抽取的时候需要学习到这2个区别,需要训练数据中存在大量相关的区分数据,让模型能够学习到2者之间的区别。
发明内容
本申请提供了一种信息抽取模型训练方法、信息抽取方法、装置及电子设备,将领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。本申请采用的技术方案如下:
第一方面,提供了一种信息抽取模型训练方法,包括:
步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;
步骤二、将文本样本序列输入至多层神经网络得到预测序列;
步骤三、基于文本样本对应的标注序列以及预测序列确定第一损失函数值;
步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;
步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;
步骤六、基于第三损失函数值更新多层深度学习网络的参数;
迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。
可选地,基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:
获取多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将输出向量映射为一个传递数值;
基于自然语言理解技术提取文本样本的关键词,如果预构建的领域知识库包括关键词,则匹配成功;
基于预定的匹配成功的得分值与传递数值确定第二损失函数值。
可选地,该方法包括:
从训练文本样本集中获取文本样本;
基于预训练的词嵌入模型得到文本样本的文本样本序列,文本样本序列为向量表达。
可选地,基于第一损失函数值与第二损失函数值确定第三损失函数值,包括:
基于预定的第一损失函数值与第二损失函数的权重值,对第一损失函数值与第二损失函数值进行加权处理,得到第三损失函数值。
可选地,第一损失函数值与第二损失函数的权重值通过机器学习的方法学习得到。
可选地,文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。
第二方面,提供了一种信息抽取方法,包括:
获取待抽取信息的文本的文本序列,文本序列为文本向量;
将待抽取信息的文本的文本序列输入权利要求1-5任一项的目标信息抽取模型得到抽取的目标信息。
可选地,抽取的目标信息包括实体信息和/或实体之间的关系信息。
可选地,待抽取信息的文本为简历文本。
第三方面,提供了一种信息抽取模型训练装置,包括:
构建模块,用于构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;
第一输入模块,用于将文本样本序列输入至多层神经网络得到预测序列;
第一确定模块,用于基于文本样本对应的标注序列以及预测序列确定第一损失函数值;
第二确定模块,用于基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;
第三确定模块,用于基于第一损失函数值与第二损失函数值确定第三损失函数值;
更新模块,用于基于第三损失函数值更新多层深度学习网络的参数;
迭代执行模块,用于迭代执行第一确定模块、第二确定模块、第三确定模块、更新模块的功能,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。
可选地,基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:
获取单元,用于获取多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将输出向量映射为一个传递数值;
提取单元,用于基于自然语言理解技术提取文本样本的关键词,如果预构建的领域知识库包括关键词,则匹配成功;
确定单元,用于基于预定的匹配成功的得分值与传递数值确定第二损失函数值。
可选地,该装置包括:
第一获取模块,用于从训练文本样本集中获取文本样本;
词嵌入模块,用于基于预训练的词嵌入模型得到文本样本的文本样本序列,文本样本序列为向量表达。
可选地,基于第一损失函数值与第二损失函数值确定第三损失函数值,包括:
加权处理单元,用于基于预定的第一损失函数值与第二损失函数的权重值,对第一损失函数值与第二损失函数值进行加权处理,得到第三损失函数值。
可选地,该装置还包括:
机器学习模块,用于第一损失函数值与第二损失函数的权重值通过机器学习的装置学习得到。
可选地,文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。
第四方面,提供了一种信息抽取装置,该装置包括:
第二获取模块,用于获取待抽取信息的文本的文本序列,文本序列为文本向量;
第二输入模块,用于将待抽取信息的文本的文本序列输入第一方面任一项所示的目标信息抽取模型得到抽取的目标信息。
可选地,抽取的目标信息包括实体信息和/或实体之间的关系信息。
可选地,待抽取信息的文本为简历文本。
第五方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的信息抽取模型训练方法或信息抽取方法。
第六方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的信息抽取模型训练方法或信息抽取方法。
本申请提供了一种信息抽取模型训练方法、信息抽取方法、装置及电子设备,与仅通过标注的训练样本训练深度学习模型相比,本申请通过步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;步骤二、将文本样本序列输入至多层神经网络得到预测序列;步骤三、基于文本样本对应的标注序列以及预测序列确定第损失函数值;步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;步骤六、基于第三损失函数值更新多层深度学习网络的参数;迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。即将领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种信息抽取模型训练方法的流程示意图;
图2为本申请实施例的一种信息抽取方法的流程示意图;
图3为本申请实施例的信息抽取模型训练装置的结构示意图;
图4为本申请实施例的一种电子设备的结构示意图;
图5为本申请实施例的信息抽取装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
信息抽取:这里指将自然语言非结构化文档抽取成要素形式的结构化信息,主要涉及实体抽取及实体关系抽取;实体抽取:指按照key-value形式抽取的实体和实体相应的值,比如人名-乔布斯;实体关系:实体间的关系类型判断,比如有实体,公司-苹果,人名-乔布斯,那么<公司-苹果,人名-乔布斯>的关系是‘创建’。
实施例一
本申请实施例提供了一种信息抽取模型训练方法,如图1所示,该方法可以包括以下步骤:
步骤S101、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;其中,该多层神经学习网络可以采用多种神经网络结构进行建模,比如LSTM,GRU,BiLSTM等。
步骤S102、将文本样本序列输入至多层神经网络得到预测序列;具体地,可以对文本样本进行预处理后输入多层神经网络得到预测序列,其中,预处理包括分词、去停用词等。
步骤S103、基于文本样本对应的标注序列以及预测序列确定第一损失函数值;
示例性地,对于待标注的一段文本序列X={x1,x2,...,xn},我们需要给每个xi预测一个tag,先定义Tag集合是T={t1,t2,...,tm},比如,分词的Tag可以定义为{Begin,Middle,End,Single},命名实体识别的Tag可以定义为{人名,地名,机构名,…}。
假设得到的预测序列是Y={y1,y2,...,yn},文本样本序列对应的人工或自动标注的序列为L={l1,l1,...,ln},可以通过对Y和L使用交叉熵计算Loss,通过梯度下降来求解参数,训练时可以获得信息抽取模型预测的损失值。
步骤S104、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;
示例性地,主要有2个类型的规则,其形式化表示如下:
规则1:seg(Z=b)=>seg(X=a);
规则2:entity(X=c)+rel((X,Z)=l)=>entity(Z=d);
规则1表示序列片段Z的类型是b,则可用推出序列片段X的类型是a;规则2表示实体X的类型是c,实体X和实体Z的实体关系是l,那么可用推断出实体Z的类型是d;
根据则2条原型规则,针对不同的数据和抽取业务,可以将信息抽取的领域知识整理成不同的规则(如苹果、乔布斯同时出现时,苹果表示手机而不是水果;小米、雷军同时出现时,小米表示手机而不是食物;爪哇、程序员同时出现时,爪哇表示编程语言而不是地名)。
步骤S105、基于第一损失函数值与第二损失函数值确定第三损失函数值;具体地,可以对第一损失函数值与第二损失函数直接进行叠加或基于第一损失函数值与第二损失函数的权重值进行加权计算得到第三损失函数值。
步骤S106、基于第三损失函数值更新多层深度学习网络的参数;
迭代执行上述步骤S101-S106,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。
本申请实施例提供了一种可能的实现方式,基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:
获取多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将输出向量映射为一个传递数值;
基于自然语言理解技术提取文本样本的关键词,如果预构建的领域知识库包括关键词,则匹配成功;
基于预定的匹配成功的得分值与传递数值确定第二损失函数值。
具体地,基于预构建的领域知识规则对文本样本进行匹配,看是否有相应知识被匹配,以“这个苹果的口味很棒”这个句子,在做实体识别任务时候为例,可以通过自然语言理解技术提取得到关键词“口味”、“苹果”,然后在利用预构建的领域知识库对关键词进行匹配,发现“苹果”和“口味”作为匹配单元,在知识库中匹配成功,符合seg(“口味”)=>seg(“苹果”=水果),那么规则模块中的神经网络输出是Ye-1;反之,如果在知识库中没有匹配到任何相应知识,则输出变成Ye,就是相应的的神经网络的输出,人为的减去1,相当于如果不符合知识库中预定义知识,要对输出坐一定程度惩罚,这样就能把符合知识库的知识作为强制的,让深度神经网络加强记忆。其中,Ye即为传递数值,可以通过一个简单的神经网络将文本样本的向量映射成一个数值得来,其中,该神经网络可以是信息抽取模型中的多层神经学习网络中非最后一层的任一层。
可选地,该方法包括:
从训练文本样本集中获取文本样本;
基于预训练的词嵌入模型得到文本样本的文本样本序列,文本样本序列为向量表达。
可选地,基于第一损失函数值与第二损失函数值确定第三损失函数值,包括:
基于预定的第一损失函数值与第二损失函数的权重值,对第一损失函数值与第二损失函数值进行加权处理,得到第三损失函数值。
可选地,第一损失函数值与第二损失函数的权重值通过机器学习的方法学习得到。具体地,通过机器学习的方法学习得到第一损失函数值与第二损失函数的权重值,与人工确定权重值相比,能够提升训练的信息抽取模型预测的准确性。
可选地,文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。
具体地,信息抽取模型的训练可以是有监督学习,预先对文本样本训练集进行标注,其中,该标注可以是人工进行的,也可以是自动进行的,也可以是半自动进行的。
本申请提供了一种信息抽取模型训练方法,与仅通过标注的训练样本训练深度学习模型相比,本申请通过步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;步骤二、将文本样本序列输入至多层神经网络得到预测序列;步骤三、基于文本样本对应的标注序列以及预测序列确定第损失函数值;步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;步骤六、基于第三损失函数值更新多层深度学习网络的参数;迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。即领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。
实施例二
第二方面,提供了一种信息抽取方法,包括:
获取待抽取信息的文本的文本序列,文本序列为文本向量;
将待抽取信息的文本的文本序列输入第一方面所示实施例的目标信息抽取模型得到抽取的目标信息。
具体地,抽取的目标信息包括实体信息和/或实体之间的关系信息。
具体地,待抽取信息的文本为简历文本。示例性地,该抽取的目标信息可以实体信息(姓名、年龄、学校、公司名称等)、以及实体之间的关系信息(如张三、微软的关系工作,张三、清华的关系学习)
对于本申请实施例,目前简历自动化抽取领域,已经基本可以做到对一份非结构化的简历,按预定义字段完成相应的信息抽取(即关键字匹配),因此,在简历信息抽取方面还存在精细化较低的问题。本申请实施例,将领域知识应用到引入到信息抽取模型的训练当中,能够提升信息抽取的精细化以及准确性。
实施例三
本申请实施例提供了一种信息抽取模型训练装置,如图3所示,该装置30包括:
构建模块301,用于构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;
第一输入模块302,用于将文本样本序列输入至多层神经网络得到预测序列;
第一确定模块303,用于基于文本样本对应的标注序列以及预测序列确定第一损失函数值;
第二确定模块304,用于基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;
第三确定模块305,用于基于第一损失函数值与第二损失函数值确定第三损失函数值;
更新模块306,用于基于第三损失函数值更新多层深度学习网络的参数;
迭代执行模块307,用于迭代执行第一确定模块、第二确定模块、第三确定模块、更新模块的功能,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。
可选地,基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:
获取单元,用于获取多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将输出向量映射为一个传递数值;
提取单元,用于基于自然语言理解技术提取文本样本的关键词,如果预构建的领域知识库包括关键词,则匹配成功;
确定单元,用于基于预定的匹配成功的得分值与传递数值确定第二损失函数值。
可选地,该装置包括:
第一获取模块,用于从训练文本样本集中获取文本样本;
词嵌入模块,用于基于预训练的词嵌入模型得到文本样本的文本样本序列,文本样本序列为向量表达。
可选地,基于第一损失函数值与第二损失函数值确定第三损失函数值,包括:
加权处理单元,用于基于预定的第一损失函数值与第二损失函数的权重值,对第一损失函数值与第二损失函数值进行加权处理,得到第三损失函数值。
可选地,该装置还包括:
机器学习模块,用于第一损失函数值与第二损失函数的权重值通过机器学习的装置学习得到。
可选地,文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。
本申请提供了一种信息抽取模型训练方法,与仅通过标注的训练样本训练深度学习模型相比,本申请通过步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;步骤二、将文本样本序列输入至多层神经网络得到预测序列;步骤三、基于文本样本对应的标注序列以及预测序列确定第损失函数值;步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;步骤六、基于第三损失函数值更新多层深度学习网络的参数;迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。即领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。
本申请实施例的具体实现方式与有益效果同实施例一,此处不再赘述。
实施例四
本申请实施例提供了一种信息抽取装置,如图5所示,该装置50包括:
第二获取模块501,用于获取待抽取信息的文本的文本序列,文本序列为文本向量;
第二输入模块502,用于将待抽取信息的文本的文本序列输入第一方面任一项所示的目标信息抽取模型得到抽取的目标信息。
可选地,抽取的目标信息包括实体信息和/或实体之间的关系信息。
可选地,待抽取信息的文本为简历文本。
对于本申请实施例,目前简历自动化抽取领域,已经基本可以做到对一份非结构化的简历,按预定义字段完成相应的信息抽取(即关键字匹配),因此,在简历信息抽取方面还存在精细化较低的问题。本申请实施例,将领域知识应用到引入到信息抽取模型的训练当中,能够提升信息抽取的精细化以及准确性。
对于本申请实施例,目前简历自动化抽取领域,已经基本可以做到对一份非结构化的简历,按预定义字段完成相应的信息抽取(即关键字匹配),因此,在简历信息抽取方面还存在精细化较低的问题。本申请实施例,将领域知识应用到引入到信息抽取模型的训练当中,能够提升信息抽取的精细化以及准确性。
实施例五
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图3或图5所示模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现图3或图5所示实施例提供的装置的功能。
本申请实施例提供了一种电子设备,与仅通过标注的训练样本训练深度学习模型相比,本申请通过步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;步骤二、将文本样本序列输入至多层神经网络得到预测序列;步骤三、基于文本样本对应的标注序列以及预测序列确定第损失函数值;步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;步骤六、基于第三损失函数值更新多层深度学习网络的参数;迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。即领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
实施四
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,与仅通过标注的训练样本训练深度学习模型相比,本申请通过步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;步骤二、将文本样本序列输入至多层神经网络得到预测序列;步骤三、基于文本样本对应的标注序列以及预测序列确定第损失函数值;步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;步骤六、基于第三损失函数值更新多层深度学习网络的参数;迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。即领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (15)
1.一种信息抽取模型训练方法,其特征在于,包括:
步骤一、构建初始信息抽取模型,所述初始信息抽取模型包括多层深度学习网络;
步骤二、将文本样本序列输入至所述多层神经网络得到预测序列;
步骤三、基于所述文本样本对应的标注序列以及所述预测序列确定第一损失函数值;
步骤四、基于预构建的领域知识规则对所述文本样本进行匹配,并基于匹配结果确定第二损失函数值;
步骤五、基于所述第一损失函数值与所述第二损失函数值确定第三损失函数值;
步骤六、基于所述第三损失函数值更新所述多层深度学习网络的参数;
迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。
2.根据权利要求1所述的方法,其特征在于,基于预构建的领域知识规则对所述文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:
获取所述多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将所述输出向量映射为一个传递数值;
基于自然语言理解技术提取所述文本样本的关键词,如果预构建的领域知识库包括所述关键词,则匹配成功;
基于预定的匹配成功的得分值与所述传递数值确定第二损失函数值。
3.根据权利要求1所述的方法,其特征在于,该方法包括:
从训练文本样本集中获取文本样本;
基于预训练的词嵌入模型得到所述文本样本的文本样本序列,所述文本样本序列为向量表达。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数值与所述第二损失函数值确定第三损失函数值,包括:
基于预定的第一损失函数值与所述第二损失函数的权重值,对所述第一损失函数值与所述第二损失函数值进行加权处理,得到第三损失函数值。
5.根据权利要求4所述的方法,其特征在于,第一损失函数值与所述第二损失函数的权重值通过机器学习的方法学习得到。
6.根据权利要求1所述的方法,其特征在于,所述文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。
7.一种信息抽取方法,其特征在于,包括:
获取待抽取信息的文本的文本序列,所述文本序列为文本向量;
将所述待抽取信息的文本的文本序列输入权利要求1-5任一项所述的目标信息抽取模型得到抽取的目标信息。
8.根据权利要求7所述的方法,其特征在于,所述抽取的目标信息包括实体信息和/或实体之间的关系信息。
9.根据权利要求8所述的方法,其特征在于,所述待抽取信息的文本为简历文本。
10.一种信息抽取模型训练装置,其特征在于,包括:
构建模块,用于构建初始信息抽取模型,所述初始信息抽取模型包括多层深度学习网络;
第一输入模块,用于将文本样本序列输入至所述多层神经网络得到预测序列;
第一确定模块,用于基于所述文本样本对应的标注序列以及所述预测序列确定第一损失函数值;
第二确定模块,用于基于预构建的领域知识规则对所述文本样本进行匹配,并基于匹配结果确定第二损失函数值;
第三确定模块,用于基于所述第一损失函数值与所述第二损失函数值确定第三损失函数值;
更新模块,用于基于所述第三损失函数值更新所述多层深度学习网络的参数;
迭代执行模块,用于迭代执行第一确定模块、第二确定模块、第三确定模块、更新模块的功能,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。
11.根据权利要求10所述的装置,其特征在于,基于预构建的领域知识规则对所述文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:
获取单元,用于获取所述多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将所述输出向量映射为一个传递数值;
提取单元,用于基于自然语言理解技术提取所述文本样本的关键词,如果预构建的领域知识库包括所述关键词,则匹配成功;
确定单元,用于基于预定的匹配成功的得分值与所述传递数值确定第二损失函数值。
12.一种信息抽取装置,其特征在于,包括:
第二获取模块,用于获取待抽取信息的文本的文本序列,所述文本序列为文本向量;
第二输入模块,用于将所述待抽取信息的文本的文本序列输入权利要求1-5任一项所述的目标信息抽取模型得到抽取的目标信息。
13.根据权利要求12所述的装置,其特征在于,所述抽取的目标信息包括实体信息和/或实体之间的关系信息。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至9任一项所述的信息抽取模型训练方法或信息抽取方法。
15.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至9中任一项所述的信息抽取模型训练方法或信息抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839979.7A CN112052681A (zh) | 2020-08-20 | 2020-08-20 | 信息抽取模型训练方法、信息抽取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839979.7A CN112052681A (zh) | 2020-08-20 | 2020-08-20 | 信息抽取模型训练方法、信息抽取方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052681A true CN112052681A (zh) | 2020-12-08 |
Family
ID=73599749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010839979.7A Pending CN112052681A (zh) | 2020-08-20 | 2020-08-20 | 信息抽取模型训练方法、信息抽取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052681A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699668A (zh) * | 2021-01-05 | 2021-04-23 | 广州楹鼎生物科技有限公司 | 一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质 |
CN115033717A (zh) * | 2022-08-12 | 2022-09-09 | 杭州恒生聚源信息技术有限公司 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN110110905A (zh) * | 2019-04-17 | 2019-08-09 | 华电国际电力股份有限公司十里泉发电厂 | 一种基于cnn的电力设备故障判断预警方法,终端及可读存储介质 |
CN111160189A (zh) * | 2019-12-21 | 2020-05-15 | 华南理工大学 | 一种基于动态目标训练的深度神经网络人脸表情识别方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
-
2020
- 2020-08-20 CN CN202010839979.7A patent/CN112052681A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN110110905A (zh) * | 2019-04-17 | 2019-08-09 | 华电国际电力股份有限公司十里泉发电厂 | 一种基于cnn的电力设备故障判断预警方法,终端及可读存储介质 |
CN111160189A (zh) * | 2019-12-21 | 2020-05-15 | 华南理工大学 | 一种基于动态目标训练的深度神经网络人脸表情识别方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699668A (zh) * | 2021-01-05 | 2021-04-23 | 广州楹鼎生物科技有限公司 | 一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质 |
CN115033717A (zh) * | 2022-08-12 | 2022-09-09 | 杭州恒生聚源信息技术有限公司 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
CN115033717B (zh) * | 2022-08-12 | 2022-11-08 | 杭州恒生聚源信息技术有限公司 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951805B (zh) | 一种文本数据处理方法及装置 | |
CN110532397B (zh) | 基于人工智能的问答方法、装置、计算机设备及存储介质 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN111898636B (zh) | 一种数据处理方法及装置 | |
CN113128232B (zh) | 一种基于albert与多重词信息嵌入的命名实体识别方法 | |
US20230244704A1 (en) | Sequenced data processing method and device, and text processing method and device | |
CN113128233B (zh) | 一种心理疾病知识图谱的构建方法及系统 | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN111324738B (zh) | 一种确定文本标签的方法和系统 | |
CN112463989B (zh) | 一种基于知识图谱的信息获取方法及系统 | |
JP2018022496A (ja) | 自然言語処理装置に用いられるトレーニングデータを作成する方法と機器 | |
CN106897265A (zh) | 词向量训练方法及装置 | |
CN112052681A (zh) | 信息抽取模型训练方法、信息抽取方法、装置及电子设备 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN113159315A (zh) | 一种神经网络的训练方法、数据处理方法以及相关设备 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN114168819B (zh) | 一种基于图神经网络的岗位匹配方法及装置 | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 | |
CN113761375A (zh) | 基于神经网络的消息推荐方法、装置、设备及存储介质 | |
CN115859302A (zh) | 源代码漏洞检测方法、装置、设备及存储介质 | |
CN107967304A (zh) | 会话交互处理方法、装置及电子设备 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220926 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |