CN115270801A - 文本信息抽取模型的训练方法、文本信息抽取方法和应用 - Google Patents
文本信息抽取模型的训练方法、文本信息抽取方法和应用 Download PDFInfo
- Publication number
- CN115270801A CN115270801A CN202211192280.1A CN202211192280A CN115270801A CN 115270801 A CN115270801 A CN 115270801A CN 202211192280 A CN202211192280 A CN 202211192280A CN 115270801 A CN115270801 A CN 115270801A
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- text information
- head
- information extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 141
- 238000012549 training Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 98
- 238000009826 distribution Methods 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 208000007530 Essential hypertension Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 208000024893 Acute lymphoblastic leukemia Diseases 0.000 description 2
- 208000014697 Acute lymphocytic leukaemia Diseases 0.000 description 2
- 208000006664 Precursor Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本信息抽取模型的训练方法、文本信息抽取方法和应用,用于解决现有技术中文本信息抽取不准确的问题,其中该训练方法包括:获取样本训练集中各条样本的语义特征表示;基于各条样本的语义特征表示,构建实体类别识别任务损失函数;基于各条样本的语义特征表示,构建头实体识别任务损失函数;基于各条样本中的头实体和对应的头实体类别,获得融合特征表示;基于融合特征表示,构建尾实体和关系识别任务损失函数;基于实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对文本信息抽取模型进行训练,确定文本信息抽取模型的模型参数。
Description
技术领域
本申请属于计算机数据处理技术领域,具体涉及一种文本信息抽取模型的训练方法和装置、文本信息抽取方法和装置、以及电子设备和存储介质。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在自然语言处理的多种场景下,会涉及对文本的结构化处理。例如,当抽取文本中的实体关系时,会召回三元组的结构化数据,该三元组中包含主体(subject)、关系(relationship)以及客体(object)。许多情况下,大段文本中往往包含着许多结构化表格数据中未填写的有用信息或已填写信息的补充信息,现有技术的方法在这样的应用场景下通常不能准确且全面地进行信息的抽取。
公开于该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本申请的目的在于提供一种文本信息抽取模型的训练方法,其用于解决现有技术中文本信息抽取准确率不高的问题。
为实现上述目的,本申请提供了一种文本信息抽取模型的训练方法,所述方法包括:
获取样本训练集中各条样本的语义特征表示;
基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
一实施例中,所述方法还包括:
利用词典将原始语料映射为序列化的符号表示文本;
对所述符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集;
在第二固定长度滑窗中,对所述符号表示文本进行所述第一固定长度的裁剪,以获得第二子样本集,其中,所述第二固定长度大于第一固定长度;
将所述第一子样本集和第二子样本集组合为样本集,其中,所述样本集中的样本为第一固定长度的符号表示文本。
一实施例中,获取样本训练集中各条样本的语义特征表示,具体包括:
利用预训练后的词向量模型,将所述样本集中的各条样本映射为向量化表示;
对所述向量化表示的各条样本进行编码与解码,以获得所述样本集中各条样本的语义特征表示;
确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样本的语义特征表示。
一实施例中,基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,具体包括:
对所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数,其中,所述尾实体和关系识别任务损失函数的权重与设定实体的长度相关联;
基于所述综合损失函数,对所述文本信息抽取模型进行训练。
一实施例中,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布为实体类别识别任务,识别所述各条样本中的词为头实体的开头和结尾的概率分布为头实体识别任务,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布为尾实体和关系识别任务;其中,
所述实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享。
一实施例中,基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示的计算方法为:
本申请还提供一种文本信息抽取方法,所述方法包括:
基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于如上所述的方法训练获得。
一实施例中,所述方法还包括:
遍历目标文本以获得存在于预设词典中的实体;
判断获得的所述实体是否满足第一预设规则;若是,
则将获得的所述实体添加进所述头实体集合,并基于获得的所述实体抽取对应的尾实体和关系。
一实施例中,所述方法还包括:
基于第二预设规则确定所述头实体集合中的时间类头实体;
在所述时间类头实体所属语句的前一语句中寻找时间类尾实体;
基于第三预设规则,确定所述时间类头实体和时间类尾实体之间的关系。
一实施例中,所述方法还包括:
遍历所述实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;
以所述预设词典中匹配到的最长实体为拆分单元,对所述待拆分实体进行拆分。
本申请还提供一种文本信息抽取模型的训练装置,所述训练装置包括:
获取模块,用于获取样本训练集中各条样本的语义特征表示;
第一识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
第二识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
融合模块,用于基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
第三识别模块,用于基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
训练模块,用于基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
本申请还提供一种文本信息抽取装置,所述文本信息抽取装置包括:
第一抽取模块,用于基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
第二抽取模块,用于基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
第三抽取模块,用于以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
确定模块,用于基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于如上所述的方法训练获得。
本申请还提供一种电子设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的文本信息抽取模型的训练方法或文本信息抽取方法。
本申请还提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的文本信息抽取模型的训练方法或文本信息抽取方法。
与现有技术相比,根据本申请的文本信息抽取模型的训练方法,通过将各条样本中的头实体和对应的头实体类别融合为融合特征表示,在头实体类别的维度对信息进行了利用,利用头实体类别信息引导后续的尾实体和关系识别,提高了训练出的模型文本信息抽取的准确率。
在另一个方面,对原始语料进行了固定长度裁剪和在滑窗内裁剪的操作,减少了实体信息和跨句关系信息丢失的可能。
在另一个方面,在构建综合损失函数时,考虑了特定应用场景下长实体的识别,将尾实体和关系识别任务损失函数的权重设定为与设定实体的长度相关联,增强对长实体的训练识别效果。
在另一个方面,将文本信息抽取模型中各级联的实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数设置为分层共享,加快模型的训练和收敛速度。
在另一个方面,在利用文本信息抽取模型进行信息抽取时,提出了利用后处理的方式,对模型的抽取结果进行补充的方法,减少了因为原始语料分布不均衡导致一些低频实体无法被很好地学习、时间类跨句关系容易丢失、模型过于关注头尾特征表示导致学习到错误实体等问题。
附图说明
图1是本申请文本信息抽取模型训练方法和文本信息抽取方法的实施环境图;
图2是根据本申请一实施例文本信息抽取模型训练方法的流程图;
图3是根据本申请一实施例文本信息抽取模型训练方法和文本信息抽取方法的流程走向图;
图4是根据本申请一实施例文本信息抽取方法的流程图;
图5根据本申请一实施例文本信息抽取模型训练装置的模块图;
图6根据本申请一实施例文本信息抽取装置的模块图;
图7是根据本申请一实施例电子设备的硬件结构图。
具体实施方式
以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请,本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了方便理解,下面首先对本申请实施例中涉及的名词进行说明。
六元组:由语句ID、头实体、头实体实体类别、关系、尾实体、尾实体实体类别构成的六元组。其中,头实体和尾实体均可以为特定领域的实体。以医学领域为例,头实体可以为医学症状,关系可以为医学症状的性质、部位、时间等属性,尾实体则是关系所指示属性对应的实体。在一个示意性的例子中,六元组可以为(语句1,急性淋巴细胞白血病,疾病,分型,L3,分型种类)。本申请实施例提供的方法,即用于首先训练可以从特定领域的文本中,抽取出包含特定领域实体的实体类型和实体间关系的六元组的模型;并基于训练好的模型进行文本信息抽取。
人工标注:指训练神经网络模型前,通过人工对训练数据集中的训练样本进行真实值(ground-truth)标注的过程。人工标注得到的标注标签作为模型训练过程中对模型输出结果的监督,相应的,模型训练的过程即通过调整模型参数,使模型输出结果趋向于标注标签的过程。本申请实施例中涉及的人工标注过程包括对样本文本中的实体和关系等进行标注。
损失函数(loss function):又被称为代价函数(cost function),是一种用于评价神经网络模型的预测值与真实值之间差异程度的函数,损失函数越小,表明神经网络模型的性能越好,模型的训练过程即通过调整模型参数,最小化损失函数的过程。对于不同的神经网络模型,所采用的损失函数也不同,常见的损失函数包括0-1损失函数、绝对值损失函数、对数损失函数、指数损失函数、感知损失函数、交叉熵损失函数等等。
本申请实施例提供的文本信息抽取模型的训练方法和文本信息的抽取方法,可用于医学领域长样本实体的抽取过程,例如在严重不良事件描述中需要抽取出文本长度大于20的“影像检查结果”、“体征”等。示范性的应用场景中,开发人员可以首先对部分医学领域的文本语料进行人工标注,从而利用人工标注的文本语料训练文本信息抽取模型,该文本信息抽取模型即用于基于输入文本输出六元组。训练完成的文本信息抽取模型部署在计算机设备上后,计算机设备将未标注文本语料输入文本信息抽取模型,得到文本信息抽取模型输出的六元组。
参图1,示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端和服务器。其中,终端与服务器之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端可以是用于提供文本语料的电子设备,该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中,以终端为医护人员使用的计算机为例进行说明。
终端获取到文本语料后,将文本语料发送至服务器,由服务器从文本语料中提取文本信息。如图1所示,医护人员通过终端录入对患者的症状描述后,终端将症状描述作为医学领域的文本语料发送至服务器。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本实施例中,服务器中设置有文本信息抽取模型,用于从特定领域文本中提取出包含语句ID、头实体、头实体实体类别、关系、尾实体、尾实体实体类别的实体关系六元组。可选的,该文本信息抽取模型预先根据人工标注的文本在该服务器中训练得到。
示意性的,如图1所示,服务器接收到终端发送的文本语料后,将文本语料中的医学文本输入文本信息抽取模型,得到文本信息抽取模型抽取的六元组。
当然,服务器除了从终端处获取文本语料外,还可以从网络中抓取文本语料,或者,从语料库中获取文本语料,本实施例对此不作限定。
在其它可能的实施方式中,文本信息抽取模型也可以部署在终端侧,由终端从文本中提取出六元组,并可以将六元组上报至服务器(避免服务器直接获取原始文本语料)。
参图2,介绍本申请文本信息抽取模型的训练方法的一实施例。在本实施例中,该方法包括:
S101、获取样本训练集中各条样本的语义特征表示。
配合参图3,样本训练集可以是从样本集中随机挑选出的部分样本,示范性地,一个样本集可以是根据模型的训练、测试、验证的需要被划分为样本训练集、样本测试集、样本验证集。
以医学领域的严重不良事件描述文本为例,研究人员对收集的原始语料进行初步的清洗,包括去除特殊符号、划分为段落,并针对性地设定实体与关系的结构体系,从而对清洗后的原始语料进行上述的人工标注。
研究人员还可以利用计算设备辅助原始语料的清洗。例如,在划分段落过程中,可以预设一个标准文本字符间距和标准文本行间距。当计算设备检测到两个字符的间距大于该标准文本字符间距时,可以认为这两个字符分属于两个段落文本;又或者,计算设备检测到两个文本行的间距大于该标准文本行间距时,可以认为这两个文本行分属于两个段落文本。当然,段落文本的划分还可以同时结合文本字符间距和文本行间距的信息,以增强段落划分的可靠性。
示范性地,在对收集到的严重不良事件原始语料进行初步清洗后,得到了共5196条数据,其中大部分为段落(由多个句子组成),会存在跨句子的实体关系。根据实际业务场景需求,设定了31种实体类型和23种关系类型,实体类型包括不良事件、现疾病、既往疾病、检查项名称、时间等,关系类型包括开始时间、检查项结果、不良事件CTCAE、不良事件严重性标准等,对数据进行人工标注后,得到数据集。
数据集可以进一步地通过词典映射为序列化的符号文本表示,这里的词典可以是通过遍历原始语料获得,或者是直接使用已公开的现有词典。示范性地,可以采用字符级分词,即每一个字符当作一个词,对应地,上述的词典可以是字符级词典。
为了满足模型的输入需要,本实施例中进一步将得到的符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集。
在一些场景下,由于数据集的样本平均长度较长,只对长样本进行裁剪可能会导致实体信息和一些跨句关系的丢失。因此,本实施例中,还进一步在第二固定长度的滑窗中,对符号表示文本进行第一固定长度的裁剪,以获得第二子样本集。
为了满足模型的输入需要,本实施例中还利用预训练后的词向量模型,将样本集中的各条样本映射为向量化表示。
将样本映射为向量化表示的过程可以是对样本进行编码的过程。其中,当样本为英文时,对样本编码得到各个英文单词对应的词向量;当样本为中文时,对样本编码得到各个中文汉字对应的词向量。样本集的向量化表示可以表示为),样本集中每一条样本的向量化表示可以表示为。
接着,对向量化表示的各条样本进行编码和解码,以获得样本集中各条样本的语义特征表示,并确定预设比例的样本集中各条样本的语义特征表示为样本训练集中各条样本的语义特征表示。
语义特征表示可以是包括每个词的前后语境信息。示范性地,还是以词向量维度为300维为例,可以使用输出维度为600的双向LSTM(LongShort-Term Memory,长短期记忆神经网络)对其进行编码与解码,得到样本集中各条样本的语义特征表示,其中,其大小为1**1200,为前向LTSM与后向LSTM的输出拼接表示。
LSTM模型使用参数共享的遗忘门、输入门和输出门控制信息的丢弃、遗忘和输出,可以对所需要的历史信息传入,不需要的历史信息丢弃,并且可以同时处理长期和短期信息依赖。一些替换的实施例中,还可以利用GRU(Gated Recurrent Unit,门控循环神经网络)模型实现类似的效果,GRU模型属于LSTM的一种变体,将遗忘门和输入门合成一个更新门,同样混合了神经元(Cell)的状态和隐状态,相对于LSTM更简单。
示范性地,可以将样本集中各样本的语义特征表示按照8:1:1的比例划分,以分别供文本信息抽取模型的训练、测试、验证使用。
S102、基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数。
在本申请的实施例中,文本信息抽取模型中可以包括级联的解码器,级联的解码器可以包括实体类别标注器、头实体标注器、和特定关系尾实体标注器。本申请以下的实施例中,将对这样的模型框架构建和各级解码器的功能作进一步的解释。
具体地,实体类别标注器可以通过以下的公式计算各条样本中的词取得设定实体类别的开头和结尾的概率分布。
其中,和大小分别为, , 为经过双向LSTM后的特征向量表示,和分别表示样本中第个词取得实体类别的开头与结尾位置的概率,通过sigmoid激活函数,和的概率大于设定阈值则取值为1、否则取值为0;和为权重(也叫连接系数),和为偏置,和、和均为模型中可以训练的参数。
其中,表示在当前样本拥有正确entity_type实体类型的概率,即其实体类型entity_type属于预设的头实体-关系-尾实体的三元组集合相对应的正确实体类别;表示在当前样本的实体类型entity_type∅不属于预设的实体-关系-尾实体的三元组集合的概率,即该实体entity的实体类型entity_type被预测错,此时其实体应当都为“null”,即与的概率应当都为0,设定“null”实体集合为,为待训练参数。
公式(3)中右半部分的似然函数可以进一步表示为:
S103、基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数。
具体地,头实体标注器可以通过以下的公式计算各条样本中的词为头实体的开头和结尾的概率分布。
其中,和大小分别为, , 为经过双向LSTM后的特征向量表示,和分别表示样本中第个词为头实体的开头与结尾位置的概率,通过sigmoid激活函数,和的概率大于设定阈值则取值为1、否则取值为0;和为权重(也叫连接系数),和为偏置,和、和均为模型中可以训练的参数。
其中,为样本的长度,如果满足Z,则I{z} = 1,否则I{Z}=0;表示实体t属于头实体subject的开头和结尾,D为样本训练集,为预设的实体-关系-尾实体的三元组集合,Dj为训练集中的一条样本,表示样本中的token_i的属于头实体的概率,其取值映射到(0,1)的区间,为待训练参数。
S104、基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示。
示范性地,以实体类别为“检查项名称”的头实体为例,其后的关系和尾实体应当是局限在一定的集合中,例如,可以是“检查项结果数字”;对应地,“不良事件名称”类型的实体应当不是与“检查项名称”的头实体对应的尾实体。基于本申请提出的该思想,本实施例提出对实体类别信息的利用,将其融合在头实体的语义特征表示中,以共同引导在后的尾实体-关系矩阵的识别;同时,在模型中加入融合层fuse-layer加快网络的收敛。
本实施例中,通过步骤S103的实体类别识别任务以及步骤S104的头实体识别任务,实体类别标注器和头实体标注器可以分别将各条样本中的词的概率分布映射到对应的(0,1)区间,从而确定各条样本中的头实体和对应的实体类别。
获得的融合特征表示的计算方法为:
S105、基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数。
具体地,特定关系尾实体标注器可以通过以下的公式计算各条样本中的词取得设定关系类别的开头和结尾的概率分布。
其中,和大小分别为, , 为融合特征表示经过双向LSTM后的特征向量表示,和分别表示样本中第个词取得关系类别j的开头与结尾位置的概率,通过sigmoid激活函数,和的概率大于设定阈值则取值为1、否则取值为0;和为权重(也叫连接系数),和为偏置,和、和均为模型中可以训练的参数。
其中,表示训练集样本中出现的尾实体object,其尾实体和关系属于预设的实体-关系-尾实体的三元组集合、且头实体为S的概率;表示样本中出现的尾实体object,其尾实体和关系不属于预设的实体-关系-尾实体的三元组集合的概率,此时其尾实体应当都为“null”,即和的概率应当都为0,设定“null”实体集合为,为待训练参数。
公式(11)中右半部分的似然函数可以进一步表示为:
S106、基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
本实施例中,可以对实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数;并基于综合损失函数,对文本信息抽取模型进行训练。
以医学领域中包括长实体(例如严重不良事件)的场景为例,为了加强长实体的训练效果,本实施例中将尾实体和关系识别任务损失函数的权重设置为与设定实体的长度相关联。
整个训练集D的综合损失函数可以表示为:
本实施例中,可以按照固定轮数及批大小,每次随机选定样本训练集中部分样本作为输入,并可以对综合损失函数使用Adam算法将梯度回传并计算更新后的模型参数值。在每一轮训练后,考察模型在样本验证集上的性能指标,例如:精确度Precision、召回率Recall和宏平均F1值;最后,保存在样本验证集上表现最好的模型,作为最终的文本信息抽取模型。
可以看出,本申请的文本信息抽取模型在架构上可以看做是基于casrel模型的改进,在融合了实体类别信息的基础上将casrel模型中硬参数共享修改为分层共享。具体地,新增了实体类别识别任务,并基于各条样本中的头实体和对应的头实体类别进行融合特征表示,将实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享,提升了模型训练的收敛速度。
参图3,介绍本申请文本信息抽取方法的一实施例,其中,本实施例中提到的文本信息抽取模型可以为上述任意一实施例中训练得到的文本信息抽取模型。在本实施例中,该方法包括:
S201、基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别。
需要说明的是,对于目标文本,本申请实施例中可以是对其进行第一固定长度的裁剪和在第二固定长度滑窗内进行第一固定长度裁剪的样本预处理,处理后的目标文本包括长度为的多条样本;并且可以同样是将这些样本转化为语义特征表示,以作为文本信息抽取模型的输入。这里为了使得目标文本符合模型输入的各种操作,可以部分或者全部地参考本申请文本信息抽取模型的训练方法的一个或多个实施例,在此不再赘述。
本步骤中利用文本信息抽取模型对实体-实体类别矩阵解码。示范性地,得到的矩阵大小为,其中,为基于目标文本输入的样本长度,为设定实体类别。对于实体类别,可以抽取对应的大小为的两行概率,分别代表实体类型为的实体开头和结尾的概率分布。对于其中的每一行,可以取其中概率大于设定阈值的作为实体的开头位置和尾位置,并得到头集合。
S202、基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集。
本步骤中利用文本信息抽取模型对头实体位置矩阵进行解码。示范性地,得到的矩阵大小为,其中,为基于目标文本输入的样本长度。矩阵的每一行分别代表头实体的开头和结尾的概率分布。对于其中的每一行,可以取其中概率大于设定阈值的作为头实体的开头和结尾位置,可以得到本次解码下的头集合。
S203、以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合。
本步骤中,对头实体集合中得到的每一个头实体和其对应的实体类别输入文本信息抽取模型进行推理,得到头实体对应的尾实体位置-关系类型矩阵,矩阵大小为,其中,为基于目标文本输入的样本长度,为设定关系的数量。对于每一个关系类型,可以抽取对应的大小为的两行概率,分别代表关系类型为的尾实体开头和结尾的概率分布。对于其中的每一行,取其中概率大于阈值的作为实体的开始头位置和尾位置,可以得到本次解码下的头集合。
类似地,可以对本次解码下的头集合head和尾集合tail按照“就近”的原则进行组合,可以得到当前样本中关系类型为的尾实体集合。对每一个关系类型按上述操作解码后,可以得到每一条样本D的尾实体-关系集合,其中。
S204、基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系。
基于步骤S201至步骤S203的解码结果,可以将头实体-头实体实体类别-关系-尾实体-尾实体实体类别通过推理进行关联。并且,如上所述,本申请文本信息抽取的结果可以为六元组,也即对于每一个头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系,还可以分别标注对应的语句ID。
本申请的实施例中,为了增强文本信息抽取的可靠性和完整性,还提出了利用后处理的方式,对上述文本信息抽取模型的抽取结果进行补充的方法。
①词典补充
具体地,遍历目标文本以获得存在于预设词典中的实体,并判断获得的实体是否满足第一预设规则,若是,则将获得的实体添加进头实体集合,并基于获得的实体抽取对应的尾实体和关系。
由于部分实体在原始语料中可能出现的次数较少,也即原始语料可能存在分布不均衡的问题,导致此类实体无法被很好地学习,模型对此类实体的抽取效果也会相对较差。基于此,本实施例提出了利用预设词典对这类实体进行补充抽取。
预设词典可以通过遍历原始语料获得,也可以使用领域内已有的词典。示范性地,对于实体类型为的实体,存在词典,对于词典中的每一个实体,遍历目标语料,若在目标语料中出现,则去判断该实体是否满足第一预设规则,若满足,则将该实体加入到头实体集合中,再通过规则模板去抽取其引出的尾实体与关系。
②跨句关系的规则补充
具体地,基于第二预设规则确定头实体集合中的时间类头实体,在所述时间类头实体所属语句的前一语句中寻找时间类尾实体,并基于第三预设规则,确定该时间类头实体和时间类尾实体之间的关系。
在本申请的实施例中,已经提出了对目标文本进行预处理等操作,以减少实体和关系信息的丢失,然而这本身无法完全避免,并且模型对长关系的识别也可能仍然存在局限性,特别是在跨句的关系识别中,上述的问题可能相对更为明显。
为了应对以上挑战,本实施例中,针对跨句关系识别中主要的信息丢失类别:“时间”类尾实体和其它头实体之间,提出利用规则进行补充的可能。
示范性地,假设一段文本“2021年12月31日”、“今天我去了医院做B超检查”。这其中,“今天”是在后文本中的时间类头实体,和其对应的尾实体“2021年12月31日”实际上存在于在前的文本中。此时,由于文本信息模型的抽取的六元组中包括语句ID,因此,可以基于语句ID确定语句的前后关系,从而通过“今天”的时间类头实体寻找到前一语句中的“2021年12月31日”的时间类尾实体,两者之间的关系为“日期”。
③词典拆分
具体地,遍历实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;并以预设词典中匹配到的最长实体为拆分单元,对该待拆分实体进行拆分。
在本申请提供的文本信息抽取模型中,通过预测目标文本中的头集合和尾集合,从而组合得到实体集合。这类指针网络的算法可以解决实体嵌套等问题,但可能也会使模型在一定程度上过于关注头和尾的特征表示。虽然本申请的实施例中通过加入LSTM等时序性的特征编码层,可以建模到前后语境信息,但这类问题仍然可能是不可避免的。
示范性地,文本信息抽取模型可能会抽取出一个错误实体“糖尿病2型和原发性高血压病”,从模型的抽取原理出发,其中的头尾词却可以组成正确的“糖尿病”实体。
为了应对该挑战,本实施例中采用最大正向匹配算法和词典去解决。还是以错误实体“糖尿病2型和原发性高血压病”为例,预设词典中对应有“糖尿病2型”、“原发性高血压病”两个对应的最长词,通过匹配可以将其拆分为“糖尿病2型”、“原发性高血压病”两个正确的实体。
参图5,介绍本申请文本信息抽取模型的训练装置的一实施例。在本实施例中,该文本信息抽取模型的训练装置包括获取模块301、第一识别模块302、第二识别模块303、融合模块304、第三识别模块305以及训练模块306。
获取模块301,用于获取样本训练集中各条样本的语义特征表示;第一识别模块302,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;第二识别模块303,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;融合模块304,用于基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;第三识别模块305,用于基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;训练模块306,用于基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
一实施例中,文本信息抽取模型的训练装置还包括预处理模块307,用于利用词典将原始语料映射为序列化的符号表示文本;对所述符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集;在第二固定长度滑窗中,对所述符号表示文本进行所述第一固定长度的裁剪,以获得第二子样本集,其中,所述第二固定长度大于第一固定长度;将所述第一子样本集和第二子样本集组合为样本集,其中,所述样本集中的样本为第一固定长度的符号表示文本。
一实施例中,预处理模块307还用于利用预训练后的词向量模型,将所述样本集中的各条样本映射为向量化表示;对所述向量化表示的各条样本进行编码与解码,以获得所述样本集中各条样本的语义特征表示;确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样本的语义特征表示。
一实施例中,训练模块306用于对所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数,其中,所述尾实体和关系识别任务损失函数的权重与设定实体的长度相关联;基于所述综合损失函数,对所述文本信息抽取模型进行训练。
一实施例中,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布为实体类别识别任务,识别所述各条样本中的词为头实体的开头和结尾的概率分布为头实体识别任务,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布为尾实体和关系识别任务;其中,
所述实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享。
一实施例中,基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示的计算方法为:
参图6,介绍本申请文本信息抽取装置的一实施例。在本实施例中,该文本信息抽取装置包括第一抽取模块401、第二抽取模块402、第三抽取模块403以及确定模块404。
第一抽取模块401,用于基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;第二抽取模块402,用于基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;第三抽取模块403,用于以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;确定模块404,用于基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;其中,文本信息抽取模型基于本申请实施例提供的模型训练的方法训练获得。
一实施例中,文本信息抽取装置还包括第一补充模块405,用于遍历目标文本以获得存在于预设词典中的实体;判断获得的所述实体是否满足第一预设规则;若是,则将获得的所述实体添加进所述头实体集合,并基于获得的所述实体抽取对应的尾实体和关系。
一实施例中,文本信息抽取装置还包括第二补充模块406,用于基于第二预设规则确定所述头实体集合中的时间类头实体;在所述时间类头实体所属语句的前一语句中寻找时间类尾实体;基于第三预设规则,确定所述时间类头实体和时间类尾实体之间的关系。
一实施例中,文本信息抽取装置还包括第三补充模块407,用于遍历所述实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;以所述预设词典中匹配到的最长实体为拆分单元,对所述待拆分实体进行拆分。
如上参照图1至图4,对根据本说明书实施例文本信息抽取模型的训练方法和文本信息抽取方法进行了描述。在以上对方法实施例的描述中所提及的细节,同样适用于本说明书实施例的文本信息抽取模型的训练装置和文本信息抽取装置。上面的文本信息抽取模型的训练装置和文本信息抽取装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图7示出了根据本说明书的实施例的电子设备的硬件结构图。如图7所示,电子设备50可以包括至少一个处理器51、存储器52(例如非易失性存储器)、内存53和通信接口54,并且至少一个处理器51、存储器52、内存53和通信接口54经由内部总线55连接在一起。至少一个处理器51执行在存储器52中存储或编码的至少一个计算机可读指令。
应该理解,在存储器52中存储的计算机可执行指令当执行时使得至少一个处理器51进行本说明书的各个实施例中以上结合图1至图4描述的各种操作和功能。
在本说明书的实施例中,电子设备50可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
根据一个实施例,提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-图4描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本说明书的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理客户实现,或者,有些单元可能分由多个物理客户实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所对应的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
Claims (14)
1.一种文本信息抽取模型的训练方法,其特征在于,所述方法包括:
获取样本训练集中各条样本的语义特征表示;
基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
2.根据权利要求1所述的文本信息抽取模型的训练方法,其特征在于,所述方法还包括:
利用词典将原始语料映射为序列化的符号表示文本;
对所述符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集;
在第二固定长度滑窗中,对所述符号表示文本进行所述第一固定长度的裁剪,以获得第二子样本集,其中,所述第二固定长度大于第一固定长度;
将所述第一子样本集和第二子样本集组合为样本集,其中,所述样本集中的样本为第一固定长度的符号表示文本。
3.根据权利要求2所述的文本信息抽取模型的训练方法,其特征在于,获取样本训练集中各条样本的语义特征表示,具体包括:
利用预训练后的词向量模型,将所述样本集中的各条样本映射为向量化表示;
对所述向量化表示的各条样本进行编码与解码,以获得所述样本集中各条样本的语义特征表示;
确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样本的语义特征表示。
4.根据权利要求1所述的文本信息抽取模型的训练方法,其特征在于,基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,具体包括:
对所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数,其中,所述尾实体和关系识别任务损失函数的权重与设定实体的长度相关联;
基于所述综合损失函数,对所述文本信息抽取模型进行训练。
5.根据权利要求1所述的文本信息抽取模型的训练方法,其特征在于,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布为实体类别识别任务,识别所述各条样本中的词为头实体的开头和结尾的概率分布为头实体识别任务,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布为尾实体和关系识别任务;其中,
所述实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享。
7.一种文本信息抽取方法,其特征在于,所述方法包括:
基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于权利要求1至6任一项所述的方法训练获得。
8.根据权利要求7所述的文本信息抽取方法,其特征在于,所述方法还包括:
遍历目标文本以获得存在于预设词典中的实体;
判断获得的所述实体是否满足第一预设规则;若是,
则将获得的所述实体添加进所述头实体集合,并基于获得的所述实体抽取对应的尾实体和关系。
9.根据权利要求7所述的文本信息抽取方法,其特征在于,所述方法还包括:
基于第二预设规则确定所述头实体集合中的时间类头实体;
在所述时间类头实体所属语句的前一语句中寻找时间类尾实体;
基于第三预设规则,确定所述时间类头实体和时间类尾实体之间的关系。
10.根据权利要求7所述的文本信息抽取方法,其特征在于,所述方法还包括:
遍历所述实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;
以所述预设词典中匹配到的最长实体为拆分单元,对所述待拆分实体进行拆分。
11.一种文本信息抽取模型的训练装置,其特征在于,所述训练装置包括:
获取模块,用于获取样本训练集中各条样本的语义特征表示;
第一识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
第二识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
融合模块,用于基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
第三识别模块,用于基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
训练模块,用于基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
12.一种文本信息抽取装置,其特征在于,所述文本信息抽取装置包括:
第一抽取模块,用于基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
第二抽取模块,用于基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
第三抽取模块,用于以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
确定模块,用于基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于权利要求1至6任一项所述的方法训练获得。
13.一种电子设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至6任一项所述的文本信息抽取模型的训练方法或者如权利要求7至10任一项所述的文本信息抽取方法。
14.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1至6任一项所述的文本信息抽取模型的训练方法或者如权利要求7至10任一项所述的文本信息抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192280.1A CN115270801B (zh) | 2022-09-28 | 2022-09-28 | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192280.1A CN115270801B (zh) | 2022-09-28 | 2022-09-28 | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270801A true CN115270801A (zh) | 2022-11-01 |
CN115270801B CN115270801B (zh) | 2022-12-30 |
Family
ID=83756296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211192280.1A Active CN115270801B (zh) | 2022-09-28 | 2022-09-28 | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270801B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020135337A1 (zh) * | 2018-12-29 | 2020-07-02 | 新华三大数据技术有限公司 | 实体语义关系分类 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
WO2021190236A1 (zh) * | 2020-03-23 | 2021-09-30 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
WO2021208703A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 问题解析方法、装置、电子设备及存储介质 |
CN113705237A (zh) * | 2021-08-02 | 2021-11-26 | 清华大学 | 融合关系短语知识的关系抽取方法、装置和电子设备 |
US20210406706A1 (en) * | 2020-06-30 | 2021-12-30 | Siemens Aktiengesellschaft | Method and apparatus for performing entity linking |
US20220067278A1 (en) * | 2020-08-25 | 2022-03-03 | Beijing Wodong Tianjun Information Technology Co., Ltd. | System for entity and evidence-guided relation prediction and method of using the same |
CN114841151A (zh) * | 2022-07-04 | 2022-08-02 | 武汉纺织大学 | 基于分解-重组策略的医学文本实体关系联合抽取方法 |
-
2022
- 2022-09-28 CN CN202211192280.1A patent/CN115270801B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020135337A1 (zh) * | 2018-12-29 | 2020-07-02 | 新华三大数据技术有限公司 | 实体语义关系分类 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
WO2021190236A1 (zh) * | 2020-03-23 | 2021-09-30 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
US20210406706A1 (en) * | 2020-06-30 | 2021-12-30 | Siemens Aktiengesellschaft | Method and apparatus for performing entity linking |
US20220067278A1 (en) * | 2020-08-25 | 2022-03-03 | Beijing Wodong Tianjun Information Technology Co., Ltd. | System for entity and evidence-guided relation prediction and method of using the same |
WO2021208703A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 问题解析方法、装置、电子设备及存储介质 |
CN113705237A (zh) * | 2021-08-02 | 2021-11-26 | 清华大学 | 融合关系短语知识的关系抽取方法、装置和电子设备 |
CN114841151A (zh) * | 2022-07-04 | 2022-08-02 | 武汉纺织大学 | 基于分解-重组策略的医学文本实体关系联合抽取方法 |
Non-Patent Citations (2)
Title |
---|
LIU MEIZHEN 等: "Knowledge graph attention mechanism for distant supervision neural relation extraction", 《KNOWLEDGE-BASED SYSTEMS》 * |
吴小雪等: "预训练语言模型在中文电子病历命名实体识别上的应用", 《电子质量》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115270801B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN112464656B (zh) | 关键词抽取方法、装置、电子设备和存储介质 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN111651996A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN115840808B (zh) | 科技项目咨询方法、装置、服务器及计算机可读存储介质 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113806548A (zh) | 基于深度学习模型的信访要素抽取方法及抽取系统 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN112035629B (zh) | 基于符号化知识与神经网络的问答模型的实现方法 | |
CN113486174A (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN112329442A (zh) | 面向异构法律数据的多任务阅读系统及方法 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN111753546A (zh) | 文书信息抽取方法、装置、计算机设备及存储介质 | |
CN115270801B (zh) | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 | |
CN114783446B (zh) | 一种基于对比预测编码的语音识别方法及系统 | |
CN113626603B (zh) | 文本分类的方法和装置 | |
CN113705194B (zh) | 简称抽取方法及电子设备 | |
CN115630652A (zh) | 客服会话情感分析系统、方法及计算机系统 | |
CN114722817B (zh) | 事件处理方法及装置 | |
CN114706943A (zh) | 意图识别的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |