CN115270801A - 文本信息抽取模型的训练方法、文本信息抽取方法和应用 - Google Patents

文本信息抽取模型的训练方法、文本信息抽取方法和应用 Download PDF

Info

Publication number
CN115270801A
CN115270801A CN202211192280.1A CN202211192280A CN115270801A CN 115270801 A CN115270801 A CN 115270801A CN 202211192280 A CN202211192280 A CN 202211192280A CN 115270801 A CN115270801 A CN 115270801A
Authority
CN
China
Prior art keywords
entity
sample
text information
head
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211192280.1A
Other languages
English (en)
Other versions
CN115270801B (zh
Inventor
唐小雅
王永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Taimei Medical Technology Co Ltd
Original Assignee
Zhejiang Taimei Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Taimei Medical Technology Co Ltd filed Critical Zhejiang Taimei Medical Technology Co Ltd
Priority to CN202211192280.1A priority Critical patent/CN115270801B/zh
Publication of CN115270801A publication Critical patent/CN115270801A/zh
Application granted granted Critical
Publication of CN115270801B publication Critical patent/CN115270801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本信息抽取模型的训练方法、文本信息抽取方法和应用,用于解决现有技术中文本信息抽取不准确的问题,其中该训练方法包括:获取样本训练集中各条样本的语义特征表示;基于各条样本的语义特征表示,构建实体类别识别任务损失函数;基于各条样本的语义特征表示,构建头实体识别任务损失函数;基于各条样本中的头实体和对应的头实体类别,获得融合特征表示;基于融合特征表示,构建尾实体和关系识别任务损失函数;基于实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对文本信息抽取模型进行训练,确定文本信息抽取模型的模型参数。

Description

文本信息抽取模型的训练方法、文本信息抽取方法和应用
技术领域
本申请属于计算机数据处理技术领域,具体涉及一种文本信息抽取模型的训练方法和装置、文本信息抽取方法和装置、以及电子设备和存储介质。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在自然语言处理的多种场景下,会涉及对文本的结构化处理。例如,当抽取文本中的实体关系时,会召回三元组的结构化数据,该三元组中包含主体(subject)、关系(relationship)以及客体(object)。许多情况下,大段文本中往往包含着许多结构化表格数据中未填写的有用信息或已填写信息的补充信息,现有技术的方法在这样的应用场景下通常不能准确且全面地进行信息的抽取。
公开于该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本申请的目的在于提供一种文本信息抽取模型的训练方法,其用于解决现有技术中文本信息抽取准确率不高的问题。
为实现上述目的,本申请提供了一种文本信息抽取模型的训练方法,所述方法包括:
获取样本训练集中各条样本的语义特征表示;
基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
一实施例中,所述方法还包括:
利用词典将原始语料映射为序列化的符号表示文本;
对所述符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集;
在第二固定长度滑窗中,对所述符号表示文本进行所述第一固定长度的裁剪,以获得第二子样本集,其中,所述第二固定长度大于第一固定长度;
将所述第一子样本集和第二子样本集组合为样本集,其中,所述样本集中的样本为第一固定长度的符号表示文本。
一实施例中,获取样本训练集中各条样本的语义特征表示,具体包括:
利用预训练后的词向量模型,将所述样本集中的各条样本映射为向量化表示;
对所述向量化表示的各条样本进行编码与解码,以获得所述样本集中各条样本的语义特征表示;
确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样本的语义特征表示。
一实施例中,基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,具体包括:
对所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数,其中,所述尾实体和关系识别任务损失函数的权重与设定实体的长度相关联;
基于所述综合损失函数,对所述文本信息抽取模型进行训练。
一实施例中,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布为实体类别识别任务,识别所述各条样本中的词为头实体的开头和结尾的概率分布为头实体识别任务,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布为尾实体和关系识别任务;其中,
所述实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享。
一实施例中,基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示的计算方法为:
Figure 104692DEST_PATH_IMAGE001
其中,
Figure 926017DEST_PATH_IMAGE002
为第k个头实体的头、尾位置词特征表示的平均向量,
Figure 416036DEST_PATH_IMAGE003
为第k个头实体的实体类别的向量化表示,
Figure 119550DEST_PATH_IMAGE004
表示将
Figure 399221DEST_PATH_IMAGE002
Figure 75053DEST_PATH_IMAGE003
进行维度拼接,
Figure 532710DEST_PATH_IMAGE005
为权重,
Figure 254679DEST_PATH_IMAGE006
为偏置。
本申请还提供一种文本信息抽取方法,所述方法包括:
基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于如上所述的方法训练获得。
一实施例中,所述方法还包括:
遍历目标文本以获得存在于预设词典中的实体;
判断获得的所述实体是否满足第一预设规则;若是,
则将获得的所述实体添加进所述头实体集合,并基于获得的所述实体抽取对应的尾实体和关系。
一实施例中,所述方法还包括:
基于第二预设规则确定所述头实体集合中的时间类头实体;
在所述时间类头实体所属语句的前一语句中寻找时间类尾实体;
基于第三预设规则,确定所述时间类头实体和时间类尾实体之间的关系。
一实施例中,所述方法还包括:
遍历所述实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;
以所述预设词典中匹配到的最长实体为拆分单元,对所述待拆分实体进行拆分。
本申请还提供一种文本信息抽取模型的训练装置,所述训练装置包括:
获取模块,用于获取样本训练集中各条样本的语义特征表示;
第一识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
第二识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
融合模块,用于基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
第三识别模块,用于基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
训练模块,用于基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
本申请还提供一种文本信息抽取装置,所述文本信息抽取装置包括:
第一抽取模块,用于基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
第二抽取模块,用于基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
第三抽取模块,用于以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
确定模块,用于基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于如上所述的方法训练获得。
本申请还提供一种电子设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的文本信息抽取模型的训练方法或文本信息抽取方法。
本申请还提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的文本信息抽取模型的训练方法或文本信息抽取方法。
与现有技术相比,根据本申请的文本信息抽取模型的训练方法,通过将各条样本中的头实体和对应的头实体类别融合为融合特征表示,在头实体类别的维度对信息进行了利用,利用头实体类别信息引导后续的尾实体和关系识别,提高了训练出的模型文本信息抽取的准确率。
在另一个方面,对原始语料进行了固定长度裁剪和在滑窗内裁剪的操作,减少了实体信息和跨句关系信息丢失的可能。
在另一个方面,在构建综合损失函数时,考虑了特定应用场景下长实体的识别,将尾实体和关系识别任务损失函数的权重设定为与设定实体的长度相关联,增强对长实体的训练识别效果。
在另一个方面,将文本信息抽取模型中各级联的实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数设置为分层共享,加快模型的训练和收敛速度。
在另一个方面,在利用文本信息抽取模型进行信息抽取时,提出了利用后处理的方式,对模型的抽取结果进行补充的方法,减少了因为原始语料分布不均衡导致一些低频实体无法被很好地学习、时间类跨句关系容易丢失、模型过于关注头尾特征表示导致学习到错误实体等问题。
附图说明
图1是本申请文本信息抽取模型训练方法和文本信息抽取方法的实施环境图;
图2是根据本申请一实施例文本信息抽取模型训练方法的流程图;
图3是根据本申请一实施例文本信息抽取模型训练方法和文本信息抽取方法的流程走向图;
图4是根据本申请一实施例文本信息抽取方法的流程图;
图5根据本申请一实施例文本信息抽取模型训练装置的模块图;
图6根据本申请一实施例文本信息抽取装置的模块图;
图7是根据本申请一实施例电子设备的硬件结构图。
具体实施方式
以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请,本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了方便理解,下面首先对本申请实施例中涉及的名词进行说明。
六元组:由语句ID、头实体、头实体实体类别、关系、尾实体、尾实体实体类别构成的六元组。其中,头实体和尾实体均可以为特定领域的实体。以医学领域为例,头实体可以为医学症状,关系可以为医学症状的性质、部位、时间等属性,尾实体则是关系所指示属性对应的实体。在一个示意性的例子中,六元组可以为(语句1,急性淋巴细胞白血病,疾病,分型,L3,分型种类)。本申请实施例提供的方法,即用于首先训练可以从特定领域的文本中,抽取出包含特定领域实体的实体类型和实体间关系的六元组的模型;并基于训练好的模型进行文本信息抽取。
人工标注:指训练神经网络模型前,通过人工对训练数据集中的训练样本进行真实值(ground-truth)标注的过程。人工标注得到的标注标签作为模型训练过程中对模型输出结果的监督,相应的,模型训练的过程即通过调整模型参数,使模型输出结果趋向于标注标签的过程。本申请实施例中涉及的人工标注过程包括对样本文本中的实体和关系等进行标注。
损失函数(loss function):又被称为代价函数(cost function),是一种用于评价神经网络模型的预测值与真实值之间差异程度的函数,损失函数越小,表明神经网络模型的性能越好,模型的训练过程即通过调整模型参数,最小化损失函数的过程。对于不同的神经网络模型,所采用的损失函数也不同,常见的损失函数包括0-1损失函数、绝对值损失函数、对数损失函数、指数损失函数、感知损失函数、交叉熵损失函数等等。
本申请实施例提供的文本信息抽取模型的训练方法和文本信息的抽取方法,可用于医学领域长样本实体的抽取过程,例如在严重不良事件描述中需要抽取出文本长度大于20的“影像检查结果”、“体征”等。示范性的应用场景中,开发人员可以首先对部分医学领域的文本语料进行人工标注,从而利用人工标注的文本语料训练文本信息抽取模型,该文本信息抽取模型即用于基于输入文本输出六元组。训练完成的文本信息抽取模型部署在计算机设备上后,计算机设备将未标注文本语料输入文本信息抽取模型,得到文本信息抽取模型输出的六元组。
参图1,示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端和服务器。其中,终端与服务器之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端可以是用于提供文本语料的电子设备,该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中,以终端为医护人员使用的计算机为例进行说明。
终端获取到文本语料后,将文本语料发送至服务器,由服务器从文本语料中提取文本信息。如图1所示,医护人员通过终端录入对患者的症状描述后,终端将症状描述作为医学领域的文本语料发送至服务器。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本实施例中,服务器中设置有文本信息抽取模型,用于从特定领域文本中提取出包含语句ID、头实体、头实体实体类别、关系、尾实体、尾实体实体类别的实体关系六元组。可选的,该文本信息抽取模型预先根据人工标注的文本在该服务器中训练得到。
示意性的,如图1所示,服务器接收到终端发送的文本语料后,将文本语料中的医学文本输入文本信息抽取模型,得到文本信息抽取模型抽取的六元组。
当然,服务器除了从终端处获取文本语料外,还可以从网络中抓取文本语料,或者,从语料库中获取文本语料,本实施例对此不作限定。
在其它可能的实施方式中,文本信息抽取模型也可以部署在终端侧,由终端从文本中提取出六元组,并可以将六元组上报至服务器(避免服务器直接获取原始文本语料)。
参图2,介绍本申请文本信息抽取模型的训练方法的一实施例。在本实施例中,该方法包括:
S101、获取样本训练集中各条样本的语义特征表示。
配合参图3,样本训练集可以是从样本集中随机挑选出的部分样本,示范性地,一个样本集可以是根据模型的训练、测试、验证的需要被划分为样本训练集、样本测试集、样本验证集。
以医学领域的严重不良事件描述文本为例,研究人员对收集的原始语料进行初步的清洗,包括去除特殊符号、划分为段落,并针对性地设定实体与关系的结构体系,从而对清洗后的原始语料进行上述的人工标注。
研究人员还可以利用计算设备辅助原始语料的清洗。例如,在划分段落过程中,可以预设一个标准文本字符间距和标准文本行间距。当计算设备检测到两个字符的间距大于该标准文本字符间距时,可以认为这两个字符分属于两个段落文本;又或者,计算设备检测到两个文本行的间距大于该标准文本行间距时,可以认为这两个文本行分属于两个段落文本。当然,段落文本的划分还可以同时结合文本字符间距和文本行间距的信息,以增强段落划分的可靠性。
示范性地,在对收集到的严重不良事件原始语料进行初步清洗后,得到了共5196条数据,其中大部分为段落(由多个句子组成),会存在跨句子的实体关系。根据实际业务场景需求,设定了31种实体类型和23种关系类型,实体类型包括不良事件、现疾病、既往疾病、检查项名称、时间等,关系类型包括开始时间、检查项结果、不良事件CTCAE、不良事件严重性标准等,对数据进行人工标注后,得到数据集
Figure 947828DEST_PATH_IMAGE007
数据集
Figure 619112DEST_PATH_IMAGE008
可以进一步地通过词典映射为序列化的符号文本表示,这里的词典可以是通过遍历原始语料获得,或者是直接使用已公开的现有词典。示范性地,可以采用字符级分词,即每一个字符当作一个词,对应地,上述的词典可以是字符级词典。
为了满足模型的输入需要,本实施例中进一步将得到的符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集。
示范性地,设定第一固定长度为
Figure 106725DEST_PATH_IMAGE009
,可以对于符号表示文本中长度大于
Figure 112727DEST_PATH_IMAGE009
的文本进行裁剪,同时对长度小于
Figure 609568DEST_PATH_IMAGE009
的文本进行无意义序号表示的填充,以得到长度均为
Figure 135358DEST_PATH_IMAGE009
的序列化的符号表示文本。
在一些场景下,由于数据集的样本平均长度较长,只对长样本进行裁剪可能会导致实体信息和一些跨句关系的丢失。因此,本实施例中,还进一步在第二固定长度的滑窗中,对符号表示文本进行第一固定长度的裁剪,以获得第二子样本集。
示范性地,设定第二固定长度w=40,且w>
Figure 59452DEST_PATH_IMAGE009
。一个长度大于
Figure 287171DEST_PATH_IMAGE009
的文本的真实长度为
Figure 587702DEST_PATH_IMAGE010
,可以裁剪得到
Figure 245297DEST_PATH_IMAGE011
的多个文本。
第一子样本集和第二子样本集组合得到最终的样本集,此时,样本集中的样本为第一固定长度的符号表示文本,样本集可以表示为
Figure 668188DEST_PATH_IMAGE012
,样本集中的每一条样本可以表示为
Figure 258570DEST_PATH_IMAGE013
为了满足模型的输入需要,本实施例中还利用预训练后的词向量模型,将样本集中的各条样本映射为向量化表示。
将样本映射为向量化表示的过程可以是对样本进行编码的过程。其中,当样本为英文时,对样本编码得到各个英文单词对应的词向量;当样本为中文时,对样本编码得到各个中文汉字对应的词向量。样本集的向量化表示可以表示为
Figure 972579DEST_PATH_IMAGE014
),样本集中每一条样本的向量化表示可以表示为
Figure 597595DEST_PATH_IMAGE015
示范性地,利用词向量模型对样本映射为向量化表示可以是利用如glove、Word2Vec、RoBerta、BERT等模型,词向量的维度可以例如是300维,也即每一条样本
Figure 253704DEST_PATH_IMAGE016
为维度为300的向量表示。
接着,对向量化表示的各条样本进行编码和解码,以获得样本集中各条样本的语义特征表示,并确定预设比例的样本集中各条样本的语义特征表示为样本训练集中各条样本的语义特征表示。
语义特征表示可以是包括每个词的前后语境信息。示范性地,还是以词向量维度为300维为例,可以使用输出维度为600的双向LSTM(LongShort-Term Memory,长短期记忆神经网络)对其进行编码与解码,得到样本集中各条样本的语义特征表示
Figure 65803DEST_PATH_IMAGE017
,其中
Figure 583503DEST_PATH_IMAGE018
,其大小为1*
Figure 797446DEST_PATH_IMAGE019
*1200,为前向LTSM与后向LSTM的输出拼接表示。
LSTM模型使用参数共享的遗忘门、输入门和输出门控制信息的丢弃、遗忘和输出,可以对所需要的历史信息传入,不需要的历史信息丢弃,并且可以同时处理长期和短期信息依赖。一些替换的实施例中,还可以利用GRU(Gated Recurrent Unit,门控循环神经网络)模型实现类似的效果,GRU模型属于LSTM的一种变体,将遗忘门和输入门合成一个更新门,同样混合了神经元(Cell)的状态和隐状态,相对于LSTM更简单。
示范性地,可以将样本集中各样本的语义特征表示按照8:1:1的比例划分,以分别供文本信息抽取模型的训练、测试、验证使用。
S102、基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数。
在本申请的实施例中,文本信息抽取模型中可以包括级联的解码器,级联的解码器可以包括实体类别标注器、头实体标注器、和特定关系尾实体标注器。本申请以下的实施例中,将对这样的模型框架构建和各级解码器的功能作进一步的解释。
具体地,实体类别标注器可以通过以下的公式计算各条样本中的词取得设定实体类别的开头和结尾的概率分布。
Figure 358878DEST_PATH_IMAGE020
(1)
Figure 189431DEST_PATH_IMAGE021
(2)
其中,
Figure 245242DEST_PATH_IMAGE022
Figure 579272DEST_PATH_IMAGE023
大小分别为
Figure 311604DEST_PATH_IMAGE024
Figure 363874DEST_PATH_IMAGE025
Figure 426639DEST_PATH_IMAGE026
Figure 739809DEST_PATH_IMAGE027
为经过双向LSTM后的特征向量表示,
Figure 518409DEST_PATH_IMAGE022
Figure 198920DEST_PATH_IMAGE023
分别表示样本中第
Figure 783485DEST_PATH_IMAGE028
个词取得实体类别
Figure 967473DEST_PATH_IMAGE029
的开头与结尾位置的概率,通过sigmoid激活函数
Figure 916974DEST_PATH_IMAGE030
Figure 68470DEST_PATH_IMAGE022
Figure 128830DEST_PATH_IMAGE023
的概率大于设定阈值则取值为1、否则取值为0;
Figure 167324DEST_PATH_IMAGE031
Figure 881202DEST_PATH_IMAGE032
为权重(也叫连接系数),
Figure 129781DEST_PATH_IMAGE033
Figure 869198DEST_PATH_IMAGE034
为偏置,
Figure 152412DEST_PATH_IMAGE031
Figure 568350DEST_PATH_IMAGE032
Figure 304225DEST_PATH_IMAGE033
Figure 847332DEST_PATH_IMAGE034
均为模型中可以训练的参数。
可以看出,公式(1)和(2)可以用于二分类,通过输入层
Figure 250632DEST_PATH_IMAGE027
的输入,sigmoid激活函数
Figure 837471DEST_PATH_IMAGE030
将隐藏层神经元输出映射到(0,1)的区间。
示范性地,对于一个实体“急性淋巴细胞白血病”,对应实体类别“现疾病”,计算得到其中“急”对应的
Figure 60642DEST_PATH_IMAGE035
=1,
Figure 141862DEST_PATH_IMAGE036
=1,则可以确认“急”为“现疾病”实体类别的开头,“病”为“现疾病”实体类别的结尾。
训练集中的一条样本
Figure 461985DEST_PATH_IMAGE037
的实体类别识别任务损失函数可以表示为:
Figure 360670DEST_PATH_IMAGE038
(3)
其中,
Figure 946504DEST_PATH_IMAGE039
表示在当前样本
Figure 690469DEST_PATH_IMAGE040
拥有正确entity_type实体类型的概率,即其实体类型entity_type属于预设的头实体-关系-尾实体的三元组集合
Figure 927415DEST_PATH_IMAGE041
相对应的正确实体类别;
Figure 731423DEST_PATH_IMAGE042
表示在当前样本
Figure 70132DEST_PATH_IMAGE040
的实体类型entity_type不属于预设的实体-关系-尾实体的三元组集合
Figure 617788DEST_PATH_IMAGE041
的概率,即该实体entity的实体类型entity_type被预测错,此时其实体应当都为“null”,即
Figure 709240DEST_PATH_IMAGE022
Figure 949729DEST_PATH_IMAGE023
的概率应当都为0,设定“null”实体集合为
Figure 244575DEST_PATH_IMAGE043
Figure 923818DEST_PATH_IMAGE044
为待训练参数。
公式(3)中右半部分的似然函数可以进一步表示为:
Figure 745144DEST_PATH_IMAGE045
Figure 31900DEST_PATH_IMAGE046
(4)
其中,
Figure 938676DEST_PATH_IMAGE047
为样本的长度,如果满足Z,则I{z} = 1,否则I{Z}=0;
Figure 218347DEST_PATH_IMAGE048
表示类别t属于以设定实体类别开头和结尾,
Figure 159759DEST_PATH_IMAGE049
表示样本中的token_i的属于设定实体类别的概率,其取值映射到(0,1)的区间。
S103、基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数。
具体地,头实体标注器可以通过以下的公式计算各条样本中的词为头实体的开头和结尾的概率分布。
Figure 617416DEST_PATH_IMAGE050
(5)
Figure 11488DEST_PATH_IMAGE051
(6)
其中,
Figure 829271DEST_PATH_IMAGE052
Figure 426520DEST_PATH_IMAGE053
大小分别为
Figure 179712DEST_PATH_IMAGE024
Figure 185714DEST_PATH_IMAGE025
Figure 682554DEST_PATH_IMAGE026
Figure 473924DEST_PATH_IMAGE027
为经过双向LSTM后的特征向量表示,
Figure 132439DEST_PATH_IMAGE052
Figure 828999DEST_PATH_IMAGE053
分别表示样本中第
Figure 739317DEST_PATH_IMAGE028
个词为头实体的开头与结尾位置的概率,通过sigmoid激活函数
Figure 509827DEST_PATH_IMAGE030
Figure 729456DEST_PATH_IMAGE052
Figure 585417DEST_PATH_IMAGE053
的概率大于设定阈值则取值为1、否则取值为0;
Figure 299426DEST_PATH_IMAGE054
Figure 658863DEST_PATH_IMAGE055
为权重(也叫连接系数),
Figure 49393DEST_PATH_IMAGE056
Figure 127070DEST_PATH_IMAGE057
为偏置,
Figure 644771DEST_PATH_IMAGE054
Figure 452190DEST_PATH_IMAGE055
Figure 888987DEST_PATH_IMAGE056
Figure 329327DEST_PATH_IMAGE057
均为模型中可以训练的参数。
样本训练集中一条样本
Figure 509773DEST_PATH_IMAGE037
的头实体识别任务损失函数可以表示为:
Figure 234015DEST_PATH_IMAGE058
=
Figure 841714DEST_PATH_IMAGE059
(7)
其中,
Figure 769350DEST_PATH_IMAGE047
为样本的长度,如果满足Z,则I{z} = 1,否则I{Z}=0;
Figure 487907DEST_PATH_IMAGE060
表示实体t属于头实体subject的开头和结尾,D为样本训练集,
Figure 66656DEST_PATH_IMAGE041
为预设的实体-关系-尾实体的三元组集合,Dj为训练集中的一条样本,
Figure 923885DEST_PATH_IMAGE049
表示样本中的token_i的属于头实体的概率,其取值映射到(0,1)的区间,
Figure 463450DEST_PATH_IMAGE061
为待训练参数。
S104、基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示。
示范性地,以实体类别为“检查项名称”的头实体为例,其后的关系和尾实体应当是局限在一定的集合中,例如,可以是“检查项结果数字”;对应地,“不良事件名称”类型的实体应当不是与“检查项名称”的头实体对应的尾实体。基于本申请提出的该思想,本实施例提出对实体类别信息的利用,将其融合在头实体的语义特征表示中,以共同引导在后的尾实体-关系矩阵的识别;同时,在模型中加入融合层fuse-layer加快网络的收敛。
本实施例中,通过步骤S103的实体类别识别任务以及步骤S104的头实体识别任务,实体类别标注器和头实体标注器可以分别将各条样本中的词的概率分布映射到对应的(0,1)区间,从而确定各条样本中的头实体和对应的实体类别。
获得的融合特征表示的计算方法为:
Figure 110332DEST_PATH_IMAGE062
(8)
其中,
Figure 418954DEST_PATH_IMAGE063
为第k个头实体的头、尾位置词特征表示的平均向量,
Figure 243822DEST_PATH_IMAGE064
为第k个头实体的实体类别的向量化表示,
Figure 270683DEST_PATH_IMAGE065
表示将
Figure 721256DEST_PATH_IMAGE063
Figure 884384DEST_PATH_IMAGE064
进行维度拼接,
Figure 880153DEST_PATH_IMAGE066
为权重,
Figure 722207DEST_PATH_IMAGE067
为偏置。
S105、基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数。
具体地,特定关系尾实体标注器可以通过以下的公式计算各条样本中的词取得设定关系类别的开头和结尾的概率分布。
Figure 586258DEST_PATH_IMAGE068
(9)
Figure 479259DEST_PATH_IMAGE069
(10)
其中,
Figure 36142DEST_PATH_IMAGE070
Figure 896651DEST_PATH_IMAGE071
大小分别为
Figure 564393DEST_PATH_IMAGE072
Figure 577479DEST_PATH_IMAGE073
Figure 305264DEST_PATH_IMAGE074
Figure 653068DEST_PATH_IMAGE027
为融合特征表示经过双向LSTM后的特征向量表示,
Figure 937550DEST_PATH_IMAGE075
Figure 929777DEST_PATH_IMAGE076
分别表示样本中第
Figure 953097DEST_PATH_IMAGE028
个词取得关系类别j的开头与结尾位置的概率,通过sigmoid激活函数
Figure 397985DEST_PATH_IMAGE030
Figure 548474DEST_PATH_IMAGE075
Figure 660787DEST_PATH_IMAGE076
的概率大于设定阈值则取值为1、否则取值为0;
Figure 589429DEST_PATH_IMAGE077
Figure 787192DEST_PATH_IMAGE078
为权重(也叫连接系数),
Figure 210214DEST_PATH_IMAGE079
Figure 177033DEST_PATH_IMAGE080
为偏置,
Figure 745417DEST_PATH_IMAGE077
Figure 305843DEST_PATH_IMAGE078
Figure 657190DEST_PATH_IMAGE079
Figure 603149DEST_PATH_IMAGE080
均为模型中可以训练的参数。
训练集中一条样本
Figure 14539DEST_PATH_IMAGE081
的尾实体和关系识别任务损失函数可以表示为:
Figure 808400DEST_PATH_IMAGE082
(11)
其中,
Figure 25755DEST_PATH_IMAGE083
表示训练集样本
Figure 967166DEST_PATH_IMAGE084
中出现的尾实体object,其尾实体和关系
Figure 159244DEST_PATH_IMAGE085
属于预设的实体-关系-尾实体的三元组集合
Figure 553316DEST_PATH_IMAGE041
、且头实体为S的概率;
Figure 371099DEST_PATH_IMAGE086
表示样本
Figure 167017DEST_PATH_IMAGE084
中出现的尾实体object,其尾实体和关系
Figure 61155DEST_PATH_IMAGE087
不属于预设的实体-关系-尾实体的三元组集合
Figure 942523DEST_PATH_IMAGE041
的概率,此时其尾实体应当都为“null”,即
Figure 298418DEST_PATH_IMAGE075
Figure 948842DEST_PATH_IMAGE076
的概率应当都为0,设定“null”实体集合为
Figure 748302DEST_PATH_IMAGE043
Figure 116967DEST_PATH_IMAGE088
为待训练参数。
公式(11)中右半部分的似然函数可以进一步表示为:
Figure 479815DEST_PATH_IMAGE089
Figure 781483DEST_PATH_IMAGE090
(12)
其中,
Figure 955107DEST_PATH_IMAGE047
为样本的长度,如果满足Z,则I{z} = 1,否则I{Z}=0;
Figure 935701DEST_PATH_IMAGE091
表示关系t属于以设定尾实体-关系开头和结尾,
Figure 774344DEST_PATH_IMAGE049
表示样本中的token_i的属于设定关系类别的概率,其取值映射到(0,1)的区间。
S106、基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
本实施例中,可以对实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数;并基于综合损失函数,对文本信息抽取模型进行训练。
以医学领域中包括长实体(例如严重不良事件)的场景为例,为了加强长实体的训练效果,本实施例中将尾实体和关系识别任务损失函数的权重设置为与设定实体的长度相关联。
示范性地,训练集中一条样本
Figure 274727DEST_PATH_IMAGE081
的综合损失函数可以表示为:
Figure 540623DEST_PATH_IMAGE092
+
Figure 946197DEST_PATH_IMAGE093
+ 2*
Figure 463897DEST_PATH_IMAGE094
(13)
整个训练集D的综合损失函数可以表示为:
Figure 943420DEST_PATH_IMAGE095
(14)
本实施例中,可以按照固定轮数及批大小,每次随机选定样本训练集中部分样本作为输入,并可以对综合损失函数使用Adam算法将梯度回传并计算更新后的模型参数值。在每一轮训练后,考察模型在样本验证集上的性能指标,例如:精确度Precision、召回率Recall和宏平均F1值;最后,保存在样本验证集上表现最好的模型,作为最终的文本信息抽取模型。
可以看出,本申请的文本信息抽取模型在架构上可以看做是基于casrel模型的改进,在融合了实体类别信息的基础上将casrel模型中硬参数共享修改为分层共享。具体地,新增了实体类别识别任务,并基于各条样本中的头实体和对应的头实体类别进行融合特征表示,将实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享,提升了模型训练的收敛速度。
参图3,介绍本申请文本信息抽取方法的一实施例,其中,本实施例中提到的文本信息抽取模型可以为上述任意一实施例中训练得到的文本信息抽取模型。在本实施例中,该方法包括:
S201、基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别。
需要说明的是,对于目标文本,本申请实施例中可以是对其进行第一固定长度的裁剪和在第二固定长度滑窗内进行第一固定长度裁剪的样本预处理,处理后的目标文本包括长度为
Figure 504851DEST_PATH_IMAGE009
的多条样本;并且可以同样是将这些样本转化为语义特征表示,以作为文本信息抽取模型的输入。这里为了使得目标文本符合模型输入的各种操作,可以部分或者全部地参考本申请文本信息抽取模型的训练方法的一个或多个实施例,在此不再赘述。
本步骤中利用文本信息抽取模型对实体-实体类别矩阵解码。示范性地,得到的矩阵大小为
Figure 69825DEST_PATH_IMAGE096
,其中,
Figure 860057DEST_PATH_IMAGE009
为基于目标文本输入的样本长度,
Figure 459666DEST_PATH_IMAGE097
为设定实体类别。对于实体类别
Figure 191998DEST_PATH_IMAGE098
,可以抽取对应的大小为
Figure 244268DEST_PATH_IMAGE099
的两行概率,分别代表实体类型为
Figure 838192DEST_PATH_IMAGE098
的实体开头和结尾的概率分布。对于其中的每一行,可以取其中概率大于设定阈值的作为实体的开头位置和尾位置,并得到头集合
Figure 557886DEST_PATH_IMAGE100
接着,可以对头集合head和尾集合tail按照“就近”的原则进行组合,得到当前样本中实体类型
Figure 195541DEST_PATH_IMAGE098
的实体集合
Figure 686DEST_PATH_IMAGE101
。当对每一个实体类型
Figure 398300DEST_PATH_IMAGE098
按上述操作解码后,可以得到每一条样本D的实体集合
Figure 706922DEST_PATH_IMAGE102
,其中
Figure 984319DEST_PATH_IMAGE103
示范性地,对于实体类型“现疾病”,对应有头实体集合
Figure 620968DEST_PATH_IMAGE104
,尾实体集合
Figure 946907DEST_PATH_IMAGE105
,按照就近原则组合后,获得的实体集合
Figure 234669DEST_PATH_IMAGE106
S202、基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集。
本步骤中利用文本信息抽取模型对头实体位置矩阵进行解码。示范性地,得到的矩阵大小为
Figure 355072DEST_PATH_IMAGE107
,其中,
Figure 744596DEST_PATH_IMAGE009
为基于目标文本输入的样本长度。矩阵的每一行分别代表头实体的开头和结尾的概率分布。对于其中的每一行,可以取其中概率大于设定阈值的作为头实体的开头和结尾位置,可以得到本次解码下的头集合
Figure 608647DEST_PATH_IMAGE100
类似地,可以对本次解码下的头集合head和尾集合tail按照“就近”的原则进行组合,得到当前样本中的头实体集合
Figure 16494DEST_PATH_IMAGE108
,其中每一个subject必须在步骤S201解码出的
Figure 307798DEST_PATH_IMAGE109
中。
示范性地,本次解码中,对应有头实体集合
Figure 184619DEST_PATH_IMAGE110
,尾实体集合
Figure 586781DEST_PATH_IMAGE111
,按照就近原则组合后,获得的头实体集合
Figure 583556DEST_PATH_IMAGE112
S203、以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合。
本步骤中,对头实体集合
Figure 311340DEST_PATH_IMAGE113
中得到的每一个头实体
Figure 144298DEST_PATH_IMAGE114
和其对应的实体类别
Figure 615731DEST_PATH_IMAGE115
输入文本信息抽取模型进行推理,得到头实体
Figure 732592DEST_PATH_IMAGE114
对应的尾实体位置-关系类型矩阵,矩阵大小为
Figure 365698DEST_PATH_IMAGE116
,其中,
Figure 217111DEST_PATH_IMAGE009
为基于目标文本输入的样本长度,
Figure 226655DEST_PATH_IMAGE117
为设定关系的数量。对于每一个关系类型
Figure 198022DEST_PATH_IMAGE118
,可以抽取对应的大小为
Figure 267609DEST_PATH_IMAGE107
的两行概率,分别代表关系类型为
Figure 75159DEST_PATH_IMAGE118
的尾实体开头和结尾的概率分布。对于其中的每一行,取其中概率大于阈值的作为实体的开始头位置和尾位置,可以得到本次解码下的头集合
Figure 888395DEST_PATH_IMAGE100
类似地,可以对本次解码下的头集合head和尾集合tail按照“就近”的原则进行组合,可以得到当前样本中关系类型为
Figure 979847DEST_PATH_IMAGE118
的尾实体集合
Figure 954757DEST_PATH_IMAGE119
。对每一个关系类型按上述操作解码后,可以得到每一条样本D的尾实体-关系集合
Figure 706726DEST_PATH_IMAGE120
,其中
Figure 182706DEST_PATH_IMAGE121
示范性地,本次解码中,对于头实体“核磁共振”(实体类型为“检查项名称”)、关系类型“检查项结果”,对应有头实体集合
Figure 269611DEST_PATH_IMAGE122
,按照就近原则组合后,获得的尾实体-关系集合
Figure 290788DEST_PATH_IMAGE123
S204、基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系。
基于步骤S201至步骤S203的解码结果,可以将头实体-头实体实体类别-关系-尾实体-尾实体实体类别通过推理进行关联。并且,如上所述,本申请文本信息抽取的结果可以为六元组,也即对于每一个头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系,还可以分别标注对应的语句ID。
本申请的实施例中,为了增强文本信息抽取的可靠性和完整性,还提出了利用后处理的方式,对上述文本信息抽取模型的抽取结果进行补充的方法。
①词典补充
具体地,遍历目标文本以获得存在于预设词典中的实体,并判断获得的实体是否满足第一预设规则,若是,则将获得的实体添加进头实体集合,并基于获得的实体抽取对应的尾实体和关系。
由于部分实体在原始语料中可能出现的次数较少,也即原始语料可能存在分布不均衡的问题,导致此类实体无法被很好地学习,模型对此类实体的抽取效果也会相对较差。基于此,本实施例提出了利用预设词典对这类实体进行补充抽取。
预设词典可以通过遍历原始语料获得,也可以使用领域内已有的词典。示范性地,对于实体类型为
Figure 197564DEST_PATH_IMAGE115
的实体,存在词典
Figure 477236DEST_PATH_IMAGE124
,对于词典中的每一个实体
Figure 231696DEST_PATH_IMAGE125
,遍历目标语料,若在目标语料中出现,则去判断该实体是否满足第一预设规则
Figure 813987DEST_PATH_IMAGE126
,若满足,则将该实体加入到头实体集合中,再通过规则模板去抽取其引出的尾实体与关系。
②跨句关系的规则补充
具体地,基于第二预设规则确定头实体集合中的时间类头实体,在所述时间类头实体所属语句的前一语句中寻找时间类尾实体,并基于第三预设规则,确定该时间类头实体和时间类尾实体之间的关系。
在本申请的实施例中,已经提出了对目标文本进行预处理等操作,以减少实体和关系信息的丢失,然而这本身无法完全避免,并且模型对长关系的识别也可能仍然存在局限性,特别是在跨句的关系识别中,上述的问题可能相对更为明显。
为了应对以上挑战,本实施例中,针对跨句关系识别中主要的信息丢失类别:“时间”类尾实体和其它头实体之间,提出利用规则进行补充的可能。
示范性地,假设一段文本“2021年12月31日”、“今天我去了医院做B超检查”。这其中,“今天”是在后文本中的时间类头实体,和其对应的尾实体“2021年12月31日”实际上存在于在前的文本中。此时,由于文本信息模型的抽取的六元组中包括语句ID,因此,可以基于语句ID确定语句的前后关系,从而通过“今天”的时间类头实体寻找到前一语句中的“2021年12月31日”的时间类尾实体,两者之间的关系为“日期”。
③词典拆分
具体地,遍历实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;并以预设词典中匹配到的最长实体为拆分单元,对该待拆分实体进行拆分。
在本申请提供的文本信息抽取模型中,通过预测目标文本中的头集合和尾集合,从而组合得到实体集合。这类指针网络的算法可以解决实体嵌套等问题,但可能也会使模型在一定程度上过于关注头和尾的特征表示。虽然本申请的实施例中通过加入LSTM等时序性的特征编码层,可以建模到前后语境信息,但这类问题仍然可能是不可避免的。
示范性地,文本信息抽取模型可能会抽取出一个错误实体“糖尿病2型和原发性高血压病”,从模型的抽取原理出发,其中的头尾词却可以组成正确的“糖尿病”实体。
为了应对该挑战,本实施例中采用最大正向匹配算法和词典去解决。还是以错误实体“糖尿病2型和原发性高血压病”为例,预设词典中对应有“糖尿病2型”、“原发性高血压病”两个对应的最长词,通过匹配可以将其拆分为“糖尿病2型”、“原发性高血压病”两个正确的实体。
参图5,介绍本申请文本信息抽取模型的训练装置的一实施例。在本实施例中,该文本信息抽取模型的训练装置包括获取模块301、第一识别模块302、第二识别模块303、融合模块304、第三识别模块305以及训练模块306。
获取模块301,用于获取样本训练集中各条样本的语义特征表示;第一识别模块302,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;第二识别模块303,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;融合模块304,用于基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;第三识别模块305,用于基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;训练模块306,用于基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
一实施例中,文本信息抽取模型的训练装置还包括预处理模块307,用于利用词典将原始语料映射为序列化的符号表示文本;对所述符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集;在第二固定长度滑窗中,对所述符号表示文本进行所述第一固定长度的裁剪,以获得第二子样本集,其中,所述第二固定长度大于第一固定长度;将所述第一子样本集和第二子样本集组合为样本集,其中,所述样本集中的样本为第一固定长度的符号表示文本。
一实施例中,预处理模块307还用于利用预训练后的词向量模型,将所述样本集中的各条样本映射为向量化表示;对所述向量化表示的各条样本进行编码与解码,以获得所述样本集中各条样本的语义特征表示;确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样本的语义特征表示。
一实施例中,训练模块306用于对所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数,其中,所述尾实体和关系识别任务损失函数的权重与设定实体的长度相关联;基于所述综合损失函数,对所述文本信息抽取模型进行训练。
一实施例中,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布为实体类别识别任务,识别所述各条样本中的词为头实体的开头和结尾的概率分布为头实体识别任务,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布为尾实体和关系识别任务;其中,
所述实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享。
一实施例中,基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示的计算方法为:
Figure 332693DEST_PATH_IMAGE001
其中,
Figure 291422DEST_PATH_IMAGE002
为第k个头实体的头、尾位置词特征表示的平均向量,
Figure 962706DEST_PATH_IMAGE003
为第k个头实体的实体类别的向量化表示,
Figure 715898DEST_PATH_IMAGE004
表示将
Figure 456321DEST_PATH_IMAGE002
Figure 953161DEST_PATH_IMAGE003
进行维度拼接,
Figure 478952DEST_PATH_IMAGE005
为权重,
Figure 403046DEST_PATH_IMAGE006
为偏置。
参图6,介绍本申请文本信息抽取装置的一实施例。在本实施例中,该文本信息抽取装置包括第一抽取模块401、第二抽取模块402、第三抽取模块403以及确定模块404。
第一抽取模块401,用于基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;第二抽取模块402,用于基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;第三抽取模块403,用于以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;确定模块404,用于基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;其中,文本信息抽取模型基于本申请实施例提供的模型训练的方法训练获得。
一实施例中,文本信息抽取装置还包括第一补充模块405,用于遍历目标文本以获得存在于预设词典中的实体;判断获得的所述实体是否满足第一预设规则;若是,则将获得的所述实体添加进所述头实体集合,并基于获得的所述实体抽取对应的尾实体和关系。
一实施例中,文本信息抽取装置还包括第二补充模块406,用于基于第二预设规则确定所述头实体集合中的时间类头实体;在所述时间类头实体所属语句的前一语句中寻找时间类尾实体;基于第三预设规则,确定所述时间类头实体和时间类尾实体之间的关系。
一实施例中,文本信息抽取装置还包括第三补充模块407,用于遍历所述实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;以所述预设词典中匹配到的最长实体为拆分单元,对所述待拆分实体进行拆分。
如上参照图1至图4,对根据本说明书实施例文本信息抽取模型的训练方法和文本信息抽取方法进行了描述。在以上对方法实施例的描述中所提及的细节,同样适用于本说明书实施例的文本信息抽取模型的训练装置和文本信息抽取装置。上面的文本信息抽取模型的训练装置和文本信息抽取装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图7示出了根据本说明书的实施例的电子设备的硬件结构图。如图7所示,电子设备50可以包括至少一个处理器51、存储器52(例如非易失性存储器)、内存53和通信接口54,并且至少一个处理器51、存储器52、内存53和通信接口54经由内部总线55连接在一起。至少一个处理器51执行在存储器52中存储或编码的至少一个计算机可读指令。
应该理解,在存储器52中存储的计算机可执行指令当执行时使得至少一个处理器51进行本说明书的各个实施例中以上结合图1至图4描述的各种操作和功能。
在本说明书的实施例中,电子设备50可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
根据一个实施例,提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-图4描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本说明书的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理客户实现,或者,有些单元可能分由多个物理客户实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所对应的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (14)

1.一种文本信息抽取模型的训练方法,其特征在于,所述方法包括:
获取样本训练集中各条样本的语义特征表示;
基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
2.根据权利要求1所述的文本信息抽取模型的训练方法,其特征在于,所述方法还包括:
利用词典将原始语料映射为序列化的符号表示文本;
对所述符号表示文本进行第一固定长度的裁剪和填充,以获得第一子样本集;
在第二固定长度滑窗中,对所述符号表示文本进行所述第一固定长度的裁剪,以获得第二子样本集,其中,所述第二固定长度大于第一固定长度;
将所述第一子样本集和第二子样本集组合为样本集,其中,所述样本集中的样本为第一固定长度的符号表示文本。
3.根据权利要求2所述的文本信息抽取模型的训练方法,其特征在于,获取样本训练集中各条样本的语义特征表示,具体包括:
利用预训练后的词向量模型,将所述样本集中的各条样本映射为向量化表示;
对所述向量化表示的各条样本进行编码与解码,以获得所述样本集中各条样本的语义特征表示;
确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样本的语义特征表示。
4.根据权利要求1所述的文本信息抽取模型的训练方法,其特征在于,基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,具体包括:
对所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和,得到综合损失函数,其中,所述尾实体和关系识别任务损失函数的权重与设定实体的长度相关联;
基于所述综合损失函数,对所述文本信息抽取模型进行训练。
5.根据权利要求1所述的文本信息抽取模型的训练方法,其特征在于,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布为实体类别识别任务,识别所述各条样本中的词为头实体的开头和结尾的概率分布为头实体识别任务,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布为尾实体和关系识别任务;其中,
所述实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为分层共享。
6.根据权利要求1所述的文本信息抽取模型的训练方法,其特征在于,基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示的计算方法为:
Figure 794805DEST_PATH_IMAGE001
其中,
Figure 31751DEST_PATH_IMAGE002
为第k个头实体的头、尾位置词特征表示的平均向量,
Figure 101338DEST_PATH_IMAGE003
为第k个头实体的实体类别的向量化表示,
Figure 112150DEST_PATH_IMAGE004
表示将
Figure 50020DEST_PATH_IMAGE002
Figure 751259DEST_PATH_IMAGE003
进行维度拼接,
Figure 867114DEST_PATH_IMAGE005
为权重,
Figure 286594DEST_PATH_IMAGE006
为偏置。
7.一种文本信息抽取方法,其特征在于,所述方法包括:
基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于权利要求1至6任一项所述的方法训练获得。
8.根据权利要求7所述的文本信息抽取方法,其特征在于,所述方法还包括:
遍历目标文本以获得存在于预设词典中的实体;
判断获得的所述实体是否满足第一预设规则;若是,
则将获得的所述实体添加进所述头实体集合,并基于获得的所述实体抽取对应的尾实体和关系。
9.根据权利要求7所述的文本信息抽取方法,其特征在于,所述方法还包括:
基于第二预设规则确定所述头实体集合中的时间类头实体;
在所述时间类头实体所属语句的前一语句中寻找时间类尾实体;
基于第三预设规则,确定所述时间类头实体和时间类尾实体之间的关系。
10.根据权利要求7所述的文本信息抽取方法,其特征在于,所述方法还包括:
遍历所述实体集合以确定待拆分实体,其中,所述待拆分实体包括预设词典中的至少两个实体;
以所述预设词典中匹配到的最长实体为拆分单元,对所述待拆分实体进行拆分。
11.一种文本信息抽取模型的训练装置,其特征在于,所述训练装置包括:
获取模块,用于获取样本训练集中各条样本的语义特征表示;
第一识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布,并构建实体类别识别任务损失函数;
第二识别模块,用于基于所述各条样本的语义特征表示,识别所述各条样本中的词为头实体的开头和结尾的概率分布,并构建头实体识别任务损失函数;
融合模块,用于基于所述各条样本中的头实体和对应的头实体类别,获得融合特征表示;
第三识别模块,用于基于所述融合特征表示,识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布,并构建尾实体和关系识别任务损失函数;
训练模块,用于基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数,对所述文本信息抽取模型进行训练,确定所述文本信息抽取模型的模型参数。
12.一种文本信息抽取装置,其特征在于,所述文本信息抽取装置包括:
第一抽取模块,用于基于文本信息抽取模型抽取目标文本中的实体集合,其中,所述实体集合中的各实体对应设定实体类别;
第二抽取模块,用于基于所述文本信息抽取模型抽取所述目标文本中的头实体集合,其中,所述头实体集合为所述实体集合的子集;
第三抽取模块,用于以所述头实体集合以及其中头实体对应的设定实体类别为输入,基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合;
确定模块,用于基于所述实体集合、头实体集合、以及尾实体和关系集合,确定所述目标文本中的头实体-头实体实体类别-关系-尾实体-尾实体实体类别的对应关系;
其中,所述文本信息抽取模型基于权利要求1至6任一项所述的方法训练获得。
13.一种电子设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至6任一项所述的文本信息抽取模型的训练方法或者如权利要求7至10任一项所述的文本信息抽取方法。
14.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1至6任一项所述的文本信息抽取模型的训练方法或者如权利要求7至10任一项所述的文本信息抽取方法。
CN202211192280.1A 2022-09-28 2022-09-28 文本信息抽取模型的训练方法、文本信息抽取方法和应用 Active CN115270801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211192280.1A CN115270801B (zh) 2022-09-28 2022-09-28 文本信息抽取模型的训练方法、文本信息抽取方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211192280.1A CN115270801B (zh) 2022-09-28 2022-09-28 文本信息抽取模型的训练方法、文本信息抽取方法和应用

Publications (2)

Publication Number Publication Date
CN115270801A true CN115270801A (zh) 2022-11-01
CN115270801B CN115270801B (zh) 2022-12-30

Family

ID=83756296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211192280.1A Active CN115270801B (zh) 2022-09-28 2022-09-28 文本信息抽取模型的训练方法、文本信息抽取方法和应用

Country Status (1)

Country Link
CN (1) CN115270801B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020135337A1 (zh) * 2018-12-29 2020-07-02 新华三大数据技术有限公司 实体语义关系分类
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
WO2021208703A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 问题解析方法、装置、电子设备及存储介质
CN113705237A (zh) * 2021-08-02 2021-11-26 清华大学 融合关系短语知识的关系抽取方法、装置和电子设备
US20210406706A1 (en) * 2020-06-30 2021-12-30 Siemens Aktiengesellschaft Method and apparatus for performing entity linking
US20220067278A1 (en) * 2020-08-25 2022-03-03 Beijing Wodong Tianjun Information Technology Co., Ltd. System for entity and evidence-guided relation prediction and method of using the same
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020135337A1 (zh) * 2018-12-29 2020-07-02 新华三大数据技术有限公司 实体语义关系分类
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
US20210406706A1 (en) * 2020-06-30 2021-12-30 Siemens Aktiengesellschaft Method and apparatus for performing entity linking
US20220067278A1 (en) * 2020-08-25 2022-03-03 Beijing Wodong Tianjun Information Technology Co., Ltd. System for entity and evidence-guided relation prediction and method of using the same
WO2021208703A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 问题解析方法、装置、电子设备及存储介质
CN113705237A (zh) * 2021-08-02 2021-11-26 清华大学 融合关系短语知识的关系抽取方法、装置和电子设备
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU MEIZHEN 等: "Knowledge graph attention mechanism for distant supervision neural relation extraction", 《KNOWLEDGE-BASED SYSTEMS》 *
吴小雪等: "预训练语言模型在中文电子病历命名实体识别上的应用", 《电子质量》 *

Also Published As

Publication number Publication date
CN115270801B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN112464656B (zh) 关键词抽取方法、装置、电子设备和存储介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN111651996A (zh) 摘要生成方法、装置、电子设备及存储介质
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN115840808B (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN112329442A (zh) 面向异构法律数据的多任务阅读系统及方法
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用
CN111753546A (zh) 文书信息抽取方法、装置、计算机设备及存储介质
CN115270801B (zh) 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN114783446B (zh) 一种基于对比预测编码的语音识别方法及系统
CN113626603B (zh) 文本分类的方法和装置
CN113705194B (zh) 简称抽取方法及电子设备
CN115630652A (zh) 客服会话情感分析系统、方法及计算机系统
CN114722817B (zh) 事件处理方法及装置
CN114706943A (zh) 意图识别的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant