CN116542250B - 一种信息抽取模型获取方法和系统 - Google Patents
一种信息抽取模型获取方法和系统 Download PDFInfo
- Publication number
- CN116542250B CN116542250B CN202310783197.XA CN202310783197A CN116542250B CN 116542250 B CN116542250 B CN 116542250B CN 202310783197 A CN202310783197 A CN 202310783197A CN 116542250 B CN116542250 B CN 116542250B
- Authority
- CN
- China
- Prior art keywords
- model
- candidate
- information extraction
- labels
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 84
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 21
- 239000002131 composite material Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 17
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本说明书涉及信息技术领域,特别涉及一种信息抽取模型获取方法和系统,该方法包括:获取置信度模型以及包括多个辅助信息抽取模型的集成模型;获取候选文本集,通过集成模型确定候选文本集中每个候选文本的候选标签;候选标签为通过集成模型得到的候选文本的满足预设条件的标签;通过置信度模型确定候选标签的置信度,确定候选标签中满足置信度要求的目标标签,进而得到目标标注文本集;目标标注文本集包括带有目标标签的候选文本;基于文本数据集训练目标信息抽取模型,以得到训练后的目标信息抽取模型,其中文本数据集的一部分为目标标注文本集。
Description
技术领域
本说明书涉及信息技术领域,特别涉及一种信息抽取模型获取方法和系统。
背景技术
信息抽取是指从文本中提取特定信息的过程,通常用于处理大量文本数据或特定类型的文本数据,并从中提取有用的信息。为了提高信息抽取工作的效率,通常使用机器学习模型进行高效的信息抽取。但模型的训练过程中,需要大量带有标注的训练样本,而样本的标注成本通常比较高,并且常规的样本扩充方法(如通过对文本进行替换、删除和增加等操作)并不适用于信息抽取模型的训练。
因此,需要一种信息抽取模型获取方法,能够在具有较少标注的样本下,得到信息抽取效果更高的模型。
发明内容
本说明书实施例之一提供一种信息抽取模型获取方法,包括:获取置信度模型以及包括多个辅助信息抽取模型的集成模型;获取候选文本集,通过所述集成模型确定所述候选文本集中每个候选文本的候选标签;所述候选标签为通过集成模型得到的候选文本的满足预设条件的标签;通过所述置信度模型确定所述候选标签的置信度,确定所述候选标签中满足置信度要求的目标标签,进而得到目标标注文本集;所述目标标注文本集包括带有目标标签的候选文本;基于文本数据集训练目标信息抽取模型,以得到训练后的目标信息抽取模型,其中所述文本数据集的一部分为所述目标标注文本集。
本说明书实施例之一提供一种信息抽取模型获取系统,包括:模型获取模块,用户获取置信度模型以及包括多个辅助信息抽取模型的集成模型;候选文本集获取模块,用于获取候选文本集,通过所述集成模型确定所述候选文本集中每个候选文本的候选标签;所述候选标签为通过集成模型得到的候选文本的满足预设条件的标签;目标标注文本集获取模块,用于通过所述置信度模型确定所述候选标签的置信度,确定所述候选标签中满足置信度要求的目标标签,进而得到目标标注文本集;所述目标标注文本集包括带有目标标签的候选文本;信息抽取模型训练模块,用于基于文本数据集训练目标信息抽取模型,以得到训练后的目标信息抽取模型,其中所述文本数据集的一部分为所述目标标注文本集。
本说明书实施例之一提供一种信息抽取模型获取装置,包括处理器,所述处理器用于执行上述信息抽取模型获取方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的信息抽取模型获取系统应用场景示意图;
图2是根据本说明书一些实施例所示的信息抽取模型获取方法的示例性流程图;
图3是根据本说明书一些实施例所示的获取信息抽取模型的示意图;
图4是根据本说明书一些实施例所示的确定候选标签的置信度的示意图;
图5是根据本说明书一些实施例所示的信息抽取模型获取系统的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
在一些实施例中,对于仅含有少量标注(标签)的训练数据集,可以先利用有标签的部分,通过监督训练的方式训练一个中间模型,再利用中间模型对训练数据集中不含有标签的部分进行预测,得到对应的预测标签,并进一步通过含有预测标签的拓展训练数据集对模型进行最终的训练。但由于中间模型的训练样本数量较少,此时模型输出的预测标签准确率不高,所得到的预测标签中可能存在较多错误标签,而利用含有错误标签的拓展训练数据集对模型进行训练,会引入大量数据噪声,进而使得训练得到的模型预测准确度的提升不明显。
有鉴于此,本说明书一些实施例提供了一种信息抽取模型获取方法,能够有效的避免数据噪声的引入,使得可以利用含有较少标注的初始训练数据集得到效果更好的信息抽取模型。
图1是根据本说明书一些实施例所示的信息抽取模型获取系统应用场景示意图。
信息抽取模型获取系统100可以包括服务器110、网络120、数据库130和服务器140。
服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,服务器110可以是一个单个的服务器或者一个服务器群。服务器群可以是集中式的或分布式的(例如,服务器110可以是一分布式的系统)。在一些实施例中,服务器110可以是本地的或远程的。在一些实施例中,服务器110可以在一个云端平台上实现,或者以虚拟方式提供。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,服务器110可以在一个计算设备上实现,该计算设备可以包括一个或多个部件。在一些实施例中,服务器110可以用于信息抽取模型的训练或执行。
在一些实施例中,服务器110可以包括处理设备112。处理设备112可以处理与训练数据生成相关的信息和/或数据以执行本说明书中描述的一个或多个功能。在一些实施例中,处理设备112可以包括一个或多个处理器(例如,单晶片处理器或多晶片处理器)。仅仅作为示例,处理设备112可以包括一个或多个硬件处理器,例如中央处理器(CPU)、专用积体电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数位讯号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或上述举例的任意组合。
网络120可以连接系统100的各组成部分和/或连接系统100与外部资源部分。网络120使得各组成部分之间,以及与系统100之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种,或其组合。仅仅作为示例,网络120可以包括电缆网络、有线网络、光纤网络、远端通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络等或上述举例的任意组合。在一些实施例中,网络120可以包括一个或多个网络交换点。在一些实施例中,服务器110可以通过网络120获取训练样本以实现模型的训练。
数据库130可以用于储存数据和/或指令。在一些实施例中,数据库130可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。在一些实施例中,数据库130可以包括大容量存储器、可以移动存储器、挥发性读写存储器(例如,随机存取存储器RAM)、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,数据库130可以在一个云端平台上实现。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,数据库130中可以包括用于信息抽取模型训练的文本数据以及其他数据。
在一些实施例中,服务器140与服务器110类似,在一些实施例中,服务器140可以用于训练或执行目标信息抽取模型。
在一些实施例中,服务器110可以通过网络120与训练数据生成信息抽取模型获取系统100的其他组件(如数据库130和/或其他数据源等)通信,以获取其中的信息和/或数据。例如,服务器110可以通过网络120获取储存于数据库130中的训练数据。在一些实施例中,数据库130可以与网络120连接以与信息抽取模型获取系统100中的一个或多个部件(例如,服务器110)通信。在一些实施例中,信息抽取模型获取系统100中的一个或多个部件可以通过网络120访问储存于数据库130和/或其他数据源中的数据或指令。在一些实施例中,数据库130可以直接与系统100中的一个或多个部件(例如,服务器110)连接或通信。在一些实施例中,数据库130可以是服务器110的一部分。在一些实施例中,信息抽取模型获取系统100的一个或多个部件(例如,服务器110)可以拥有存取数据库130的许可。
图2是根据本说明书一些实施例所示的信息抽取模型获取方法的示例性流程图。图3是根据本说明书一些实施例所示的获取信息抽取模型的示意图。
如图2所示,流程200包括下述步骤。在一些实施例中,流程200中的一个或多个步骤可由图1中的处理设备112执行。
步骤210,获取置信度模型以及包括多个辅助信息抽取模型的集成模型。在一些实施例中,步骤210可由模型获取模块510执行。
置信度模型和辅助信息抽取模型可以是机器学习模型。集成模型包括多个辅助信息抽取模型,例如,如图3中的辅助信息抽取模型1、辅助信息抽取模型2、……、辅助信息抽取模型n。在一些实施例中,集成模型可以是多个辅助信息抽取模型作为子模型融合得到。
在一些实施例中,置信度模型和辅助信息抽取模型可以通过训练得到,关于模型训练的更多内容,可以参见后文相关描述。在一些实施例中,多个辅助信息抽取模型可以是集成模型训练时,采用不同参数初始化或采用不同调参方法得到。
在一些实施例中,辅助信息抽取模型可以是任意的用于实现文本信息抽取的模型,例如,辅助信息抽取模型可以是预训练的语言表征模型BERT模型(BidirectionalEncoder Representations from Transformers)。辅助信息抽取模型用于辅助目标信息抽取模型的训练,以保证目标信息抽取模型的信息抽取效果,关于目标信息抽取模型的更多内容可以参见步骤240相关描述。
信息抽取模型可以在所输入的文本中抽取各种所需信息,包括针对问题在文本中抽取关键词或答案,以及在文本中抽取地名、人名等。信息抽取模型的输入为文本,输出为文本对应标签,该标签可以表示从输入文本中所抽取到的文本信息(如前述示例中的关键词、人名等)。在一些实施例中,信息抽取模型输出的文本对应的标签可以是BIOE标注标签,其中,B表示所标识文本中的词处于一个实体的开始(Begin),I表示内部(Inside),O表示外部(Outside),E表示这个词处于一个实体的结束位置(End)。在一些其他实施例中,标签还可以是BIO标注标签、IOB标注标签、BILOU标注标签、BMEWO标注标签和BMEWO+标注标签等。
在一些实施例中,置信度模型可以是用于对集成模型所输出的标签确定置信度的模型。在一些实施例中,置信度模型可以包括但不限于:DNN(Deep Neural Networks)、RNN(Recurrent Neural Networks)、CNN(Convolutional Neural Networks)、Transformer、BERT模型中的一种或组合。
置信度模型的输入为集成模型输入的文本以及集成模型输出的标签,输出为置信度,该置信度表示所输入的标签为正确标签的概率。例如,置信度可以是0~1之间的值,值越接近于1,则代表集成模型输出的标签为正确的可能性越大。需要说明的是,若集成模型输出多个标签,置信度模型可以分别得到多个置信度。
步骤220,获取候选文本集,通过集成模型确定候选文本集中每个候选文本的候选标签。在一些实施例中,步骤220可由候选文本集获取模块520执行。
候选文本集可以是用户最初获取的,用于训练目标信息抽取模型的初始训练数据集中不含有对应标签的部分训练数据。将候选文本集中每个候选文本输入至集成模型,可以根据集成模型中辅助信息抽取模型的数量,得到多个对应输入候选文本的标签。在一些实施例中,候选标签为通过集成模型得到的候选文本的满足预设条件的标签。例如,集成模型包括5个辅助信息抽取模型,则对应任一输入候选文本,集成模型可以输出5个标签。需要说明的是,所输出的多个标签之间可以相同或不同,即不同辅助信息抽取模型在相同输入的情况下,其输出标签可能相同或不同。
在一些实施例中,预设条件包括集成模型的标签投票数量为最高,其中,每个辅助信息抽取模型的输出可以记为一票,当有两个辅助信息抽取模型得到相同输出时,则可以记为两票。示例性的,假设辅助信息抽取模型包括三个,对于相同输入,若两个辅助信息抽取模型得到相同输出,则该输出投票胜出,可以作为候选标签。
为了避免集成模型的标签投票过程中,出现平局的情况,因此,在一些实施例中,集成模型中的辅助信息抽取模型数量为单数。作为优先的实施例,集成模型中的辅助信息抽取模型可以是3个、5个或7个。
步骤230,通过置信度模型确定候选标签的置信度,确定候选标签中满足置信度要求的目标标签,进而得到目标标注文本集。在一些实施例中,步骤230可由目标标注文本集获取模块530执行。
在一些实施例中,目标标注文本集包括带有目标标签的候选文本,基于目标标注文本集可以对目标信息抽取模型进行监督训练。
图4是根据本说明书一些实施例所示的确定候选标签的置信度的示意图。
参考图4,步骤230中,通过所述置信度模型确定所述候选标签的置信度,可以进一步包括:通过所述置信度模型处理所述候选标签及所述候选标签对应的所述候选文本,确定所述候选标签的置信度。
可以理解的,候选标签对应的候选文本即为集成模型的输入,将集成模型的输入以及满足预设条件的输出输入置信度模型,以确定集成模型所确定候选标签正确的概率。
具体的,置信度模型的处理可以包括:获取所述候选文本的文本特征表示,获取所述候选标签的标签向量表示,通过叠加所述文本特征表示和所述标签向量表示得到综合特征表示,基于所述综合特征表示确定所述候选标签的置信度。
在一些实施例中,置信度模型可以将候选标签特征引入的方式为将候选标签对应的BIOE标注标签作为新的标签向量表示(embedding)加到对应候选文本的文本特征中,即得到综合特征表示,并进一步基于得到的综合特征表示确定标签的置信度。
步骤240,基于文本数据集训练目标信息抽取模型,以得到训练后的目标信息抽取模型。在一些实施例中,步骤240可由信息抽取模型训练模块540执行。
在一些实施例中,文本数据集的一部分或全部为目标标注文本集。在一些实施例中,文本数据集可由目标标注文本集以及初始训练数据集中含标签训练数据构成。
目标信息抽取模型可以是BERT模型,目标信息抽取模型通过含有标签的文本数据集对预训练模型进行训练得到。具体的,可以将文本数据集输入初始目标信息抽取模型,通过标签和初始目标信息抽取模型的结果构建损失函数,基于损失函数通过梯度下降或其他方法迭代更新初始时间预测模型的参数。当满足结束训练条件时模型训练完成,得到训练好的目标信息抽取模型。其中,结束训练条件可以是损失函数收敛、迭代的次数达到阈值等。
进一步的,在一些实施例中,训练包括至少一轮迭代处理,其中任一轮迭代处理包括:通过目标信息抽取模型处理所述文本数据集中的训练文本,得到训练文本的标签所对应的预测概率;以减小目标损失函数为目标调整目标信息抽取模型的模型参数。
目标损失函数可以包括关于预测概率的交叉熵项和正则项,在一些实施例中,目标损失函数可以表示为:/>,其中,为预测概率的交叉熵项,/>为正则项。
在一些实施例中,预测概率的交叉熵项可以由交叉熵损失函数确定,其中交叉熵损失函数可以包括现有或本领域技术人员已知的各种可以表示交叉熵损失的函数形式,作为示例,可以表示为:,其中,/>为目标信息抽取模型所输出的文本标签所对应的预测概率。
正则项可以避免训练模型过度学习当前训练集,具体的,作为正则项可以在模型训练过程中,输出的预测概率/>接近1时,控制模型实际输出的预测概率变小一点,以避免过度学习可能出现的标注错误的样本。
由于在实际实验的观察中,训练模型对于含有噪声的样本往往在训练末期拟合的,因此,在一些实施例中,通过构造目标损失函数,使得模型训练过程中,不会更倾向于学习较高概率的预测样本,以防止模型拟合含有噪音的样本,训练得到的模型效果更好。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
在一些实施例中,可以通过训练样本对所述置信度模型和所述集成模型进行联合训练,得到训练后的集成模型和置信度模型。在联合训练过程中,置信度模型和集成模型共用两模型共同确定的损失函数,并以减小联合训练的损失函数为目标调整置信度模型和集成模型的参数。如前文所述,置信度模型的输入为集成模型的输入和输出,将置信度模型和集成模型进行联合训练,可以显著提高两模型的效果。
在一些实施例中,训练样本包括文本训练数据以及对应标签,在一些实施例中,训练数据可以包括初始训练集中含有标签的文本训练数据。
在一些实施例中,联合训练的损失函数可以基于文本抽取损失和置信度预测损失/>的共同确定,例如使用两者的和。在一些实施例中,在共同确定损失函数时可以为两者赋予权重,例如两者的加权平均,权重可以预先设定,以反映对于置信度模型和集成模型的作用的重视程度。在一些实施例中,联合训练的损失函数可以表示为:,其中,/>和/>为权重系数。
在一些实施例中,所述文本抽取损失可以通过所述集成模型对训练数据的实际预测结果与该训练数据对应的标签之间的交叉熵函数确定。在一些实施例中,文本抽取损失/>可以表示为:/>,其中,K表示集成模型中辅助信息抽取模型的数量;/>表示交叉熵函数(Cross-Entropy);/>表示集成模型对训练数据的实际预测结果;/>表示训练数据对应的标签。
在一些实施例中,所述置信度预测损失可以基于所述置信度模型预测所述集成模型得到正确输出的概率与所述集成模型的实际预测结果确定。同时,模型的预测结果仅包括预测正确或预测错误两种情况,因此可以采用二元交叉熵,在一些实施例中,置信度预测损失/>可以表示为:/>,其中,/>表示二元交叉熵函数;/>表示置信度模型预测的集成模型得到正确输出的概率;/>表示集成模型的实际预测结果是否正确,若预测正确则/>,若预测错误则/>。
在一些实施例中,由于集成模型对训练数据的实际预测结果与训练数据对应的标签/>一致时,可以认为集成模型的实际预测是正确的,因此,集成模型的实际预测结果/>可以进一步表示为:/>。
通过上述方式获取的置信度模型可以对集成模型的输出进行有效的过滤,避免后续目标信息抽取模型训练中存在过多标注错误的样本。
图5是根据本说明书一些实施例所示的信息抽取模型获取系统的示例性模块图。
在一些实施例中,所述信息抽取模型获取系统500可以包括模型获取模块510、候选文本集获取模块520、目标标注文本集获取模块530和信息抽取模型训练模块540。
模型获取模块510可以用户获取置信度模型以及包括多个辅助信息抽取模型的集成模型。
在一些实施例中,关于置信度模型和集成模型的更多描述可以参见步骤210相关内容。
候选文本集获取模块520可以用于获取候选文本集,通过所述集成模型确定所述候选文本集中每个候选文本的候选标签;所述候选标签为通过集成模型得到的候选文本的满足预设条件的标签。
在一些实施例中,关于候选文本集的更多描述可以参见步骤220相关内容。
目标标注文本集获取模块530可以用于通过所述置信度模型确定所述候选标签的置信度,确定所述候选标签中满足置信度要求的目标标签,进而得到目标标注文本集;所述目标标注文本集包括带有目标标签的候选文本。
在一些实施例中,关于目标标注文本集的更多描述可以参见步骤230相关内容。
信息抽取模型训练模块540可以用于基于文本数据集训练目标信息抽取模型,以得到训练后的目标信息抽取模型,其中所述文本数据集的一部分为所述目标标注文本集。
在一些实施例中,关于目标信息抽取模型的更多描述可以参见步骤240相关内容。
需要注意的是,以上对于信息抽取模型获取系统500及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图5中披露的候选文本集获取模块520、目标标注文本集获取模块530模块可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (8)
1.一种信息抽取模型获取方法,包括:
获取置信度模型以及包括多个辅助信息抽取模型的集成模型;所述多个辅助信息抽取模型是所述集成模型训练时,采用不同参数初始化或采用不同调参方法得到;
获取候选文本集,所述候选文本集包括少量含有标签的候选文本;通过所述集成模型确定所述候选文本集中每个候选文本的候选标签;所述候选标签为通过集成模型得到的候选文本的满足预设条件的标签;所述预设条件包括所述多个辅助信息抽取模型得到的多个对应所述候选文本的标签中投票数量为最高的标签;
通过所述置信度模型确定所述候选标签的置信度,确定所述候选标签中满足置信度要求的目标标签,进而得到目标标注文本集;所述目标标注文本集包括带有目标标签的候选文本;
基于文本数据集训练目标信息抽取模型,以得到训练后的目标信息抽取模型,其中所述文本数据集的一部分为所述目标标注文本集;
所述基于文本数据集训练目标信息抽取模型,包括至少一轮迭代处理,其中任一轮迭代处理包括:
通过目标信息抽取模型处理所述文本数据集中的训练文本,得到所述训练文本的标签所对应的预测概率;以减小目标损失函数的值为目标调整目标信息抽取模型的模型参数,所述目标损失函数包括关于训练文本的标签所对应的预测概率的交叉熵项和正则项。
2.如权利要求1所述的方法,所述通过所述置信度模型确定所述候选标签的置信度,包括:
通过所述置信度模型处理所述候选标签及所述候选标签对应的所述候选文本,确定所述候选标签的置信度。
3.如权利要求2所述的方法,其中,所述置信度模型的处理进一步包括:
获取所述候选文本的文本特征表示和所述候选标签的标签向量表示;
叠加所述文本特征表示和所述标签向量表示得到综合特征表示;
基于所述综合特征表示确定所述候选标签的置信度。
4.如权利要求1所述的方法,其中,所述集成模型和置信度模型的获取方法包括:
通过训练样本对所述置信度模型和所述集成模型进行联合训练,得到训练后的集成模型和置信度模型;其中,所述训练样本包括文本训练数据以及对应标签。
5.如权利要求4所述的方法,所述联合训练的损失函数基于文本抽取损失和置信度预测损失确定;其中,
所述文本抽取损失基于所述集成模型对训练数据的实际预测结果与该训练数据对应的训练标签之间的交叉熵函数确定;
所述置信度预测损失基于所述置信度模型预测所述集成模型得到正确输出的概率与所述集成模型的实际预测结果是否正确确定。
6.如权利要求1所述的方法,其中,所述多个辅助信息抽取模型的数量为奇数。
7.一种信息抽取模型获取系统,包括:
模型获取模块,用户获取置信度模型以及包括多个辅助信息抽取模型的集成模型;所述多个辅助信息抽取模型是所述集成模型训练时,采用不同参数初始化或采用不同调参方法得到;
候选文本集获取模块,用于获取候选文本集,所述候选文本集包括少量含有标签的候选文本;通过所述集成模型确定所述候选文本集中每个候选文本的候选标签;所述候选标签为通过集成模型得到的候选文本的满足预设条件的标签;所述预设条件包括所述多个辅助信息抽取模型得到的多个对应所述候选文本的标签中投票数量为最高的标签;
目标标注文本集获取模块,用于通过所述置信度模型确定所述候选标签的置信度,确定所述候选标签中满足置信度要求的目标标签,进而得到目标标注文本集;所述目标标注文本集包括带有目标标签的候选文本;
信息抽取模型训练模块,用于基于文本数据集训练目标信息抽取模型,以得到训练后的目标信息抽取模型,其中所述文本数据集的一部分为所述目标标注文本集;所述基于文本数据集训练目标信息抽取模型,包括至少一轮迭代处理,其中任一轮迭代处理包括:通过目标信息抽取模型处理所述文本数据集中的训练文本,得到所述训练文本的标签所对应的预测概率;以减小目标损失函数的值为目标调整目标信息抽取模型的模型参数,所述目标损失函数包括关于训练文本的标签所对应的预测概率的交叉熵项和正则项。
8.一种信息抽取模型获取装置,包括处理器,所述处理器用于执行权利要求1~6中任一项所述的信息抽取模型获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310783197.XA CN116542250B (zh) | 2023-06-29 | 2023-06-29 | 一种信息抽取模型获取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310783197.XA CN116542250B (zh) | 2023-06-29 | 2023-06-29 | 一种信息抽取模型获取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116542250A CN116542250A (zh) | 2023-08-04 |
CN116542250B true CN116542250B (zh) | 2024-04-19 |
Family
ID=87447430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310783197.XA Active CN116542250B (zh) | 2023-06-29 | 2023-06-29 | 一种信息抽取模型获取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542250B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970981A (zh) * | 2017-03-28 | 2017-07-21 | 北京大学 | 一种基于转移矩阵构建关系抽取模型的方法 |
CN111737552A (zh) * | 2020-06-04 | 2020-10-02 | 中国科学院自动化研究所 | 训练信息抽取模型和获取知识图谱的方法、装置和设备 |
CN111797612A (zh) * | 2020-05-15 | 2020-10-20 | 中国科学院软件研究所 | 一种自动化数据功能项抽取的方法 |
CN112560479A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 |
CN112862021A (zh) * | 2021-04-25 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 一种内容标注方法和相关装置 |
CN113807096A (zh) * | 2021-04-09 | 2021-12-17 | 京东科技控股股份有限公司 | 文本数据的处理方法、装置、计算机设备和存储介质 |
CN114972880A (zh) * | 2022-06-15 | 2022-08-30 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种标签识别方法、装置、电子设备及存储介质 |
CN115718830A (zh) * | 2022-11-21 | 2023-02-28 | 阿里巴巴(中国)有限公司 | 训练信息抽取模型的方法、信息抽取方法及对应装置 |
CN115983274A (zh) * | 2022-12-20 | 2023-04-18 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
CN116049412A (zh) * | 2023-03-31 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
CN116070700A (zh) * | 2023-02-02 | 2023-05-05 | 北京交通大学 | 融合迭代式主动学习的生物医学关系抽取方法及系统 |
CN116151238A (zh) * | 2023-01-16 | 2023-05-23 | 马上消费金融股份有限公司 | 信息抽取方法及装置、电子设备、计算机可读存储介质 |
CN116166827A (zh) * | 2023-04-24 | 2023-05-26 | 北京百度网讯科技有限公司 | 语义标签抽取模型的训练和语义标签的抽取方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725666B2 (en) * | 2010-02-26 | 2014-05-13 | Lawrence Livermore National Security, Llc. | Information extraction system |
-
2023
- 2023-06-29 CN CN202310783197.XA patent/CN116542250B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970981A (zh) * | 2017-03-28 | 2017-07-21 | 北京大学 | 一种基于转移矩阵构建关系抽取模型的方法 |
CN111797612A (zh) * | 2020-05-15 | 2020-10-20 | 中国科学院软件研究所 | 一种自动化数据功能项抽取的方法 |
CN111737552A (zh) * | 2020-06-04 | 2020-10-02 | 中国科学院自动化研究所 | 训练信息抽取模型和获取知识图谱的方法、装置和设备 |
CN112560479A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 |
CN113807096A (zh) * | 2021-04-09 | 2021-12-17 | 京东科技控股股份有限公司 | 文本数据的处理方法、装置、计算机设备和存储介质 |
CN112862021A (zh) * | 2021-04-25 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 一种内容标注方法和相关装置 |
CN114972880A (zh) * | 2022-06-15 | 2022-08-30 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种标签识别方法、装置、电子设备及存储介质 |
CN115718830A (zh) * | 2022-11-21 | 2023-02-28 | 阿里巴巴(中国)有限公司 | 训练信息抽取模型的方法、信息抽取方法及对应装置 |
CN115983274A (zh) * | 2022-12-20 | 2023-04-18 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
CN116151238A (zh) * | 2023-01-16 | 2023-05-23 | 马上消费金融股份有限公司 | 信息抽取方法及装置、电子设备、计算机可读存储介质 |
CN116070700A (zh) * | 2023-02-02 | 2023-05-05 | 北京交通大学 | 融合迭代式主动学习的生物医学关系抽取方法及系统 |
CN116049412A (zh) * | 2023-03-31 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
CN116166827A (zh) * | 2023-04-24 | 2023-05-26 | 北京百度网讯科技有限公司 | 语义标签抽取模型的训练和语义标签的抽取方法及其装置 |
Non-Patent Citations (4)
Title |
---|
Text Extraction from Digital English Comic Image Using Two Blobs Extraction Method;Dr.M.Sundaresan 等;《Pattern Recognition, Informatics and Medical Engineering》;20121231;449-452 * |
基于深度学习的威胁情报信息抽取研究;孙天放;《现代计算机》;20210630;59-64 * |
拉姆什·沙尔达 等.《商业分析 基于数据科学及人工智能技术的决策支持系统 原书第11版》.北京机械工业出版社,2022,276-287. * |
融合多粒度全局信息的临床问诊信息抽取模型;李珊如 等;《信息技术》;20221231;23-27 * |
Also Published As
Publication number | Publication date |
---|---|
CN116542250A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674880B (zh) | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 | |
US9990558B2 (en) | Generating image features based on robust feature-learning | |
CN111783902B (zh) | 数据增广、业务处理方法、装置、计算机设备和存储介质 | |
US20210004677A1 (en) | Data compression using jointly trained encoder, decoder, and prior neural networks | |
WO2021057884A1 (zh) | 语句复述方法、训练语句复述模型的方法及其装置 | |
CN114912433B (zh) | 文本层级多标签分类方法、装置、电子设备以及存储介质 | |
CN117709426A (zh) | 训练机器学习模型的方法、系统和计算机存储介质 | |
CN112131890A (zh) | 一种会话意图智能识别模型的构建方法、装置及设备 | |
CN113196314A (zh) | 适配预测模型 | |
CN116775807A (zh) | 自然语言处理、模型训练方法、设备及存储介质 | |
US20200272812A1 (en) | Human body part segmentation with real and synthetic images | |
US20190228297A1 (en) | Artificial Intelligence Modelling Engine | |
CN111950295A (zh) | 一种训练自然语言处理模型的方法和系统 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN112000788B (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
CN114372191A (zh) | 消息行业应用模板推荐方法、装置及计算设备 | |
CN117876940A (zh) | 视频语言任务执行及其模型训练方法、装置、设备、介质 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN118228047A (zh) | 一种数据的标注方法、装置及设备 | |
CN111767744B (zh) | 文本风格迁移系统的训练方法及装置 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN117708698A (zh) | 一种类别确定方法、装置、设备及存储介质 | |
CN116542250B (zh) | 一种信息抽取模型获取方法和系统 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
CN111259673A (zh) | 一种基于反馈序列多任务学习的法律判决预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |