CN112784601B - 关键信息提取方法、装置、电子设备和存储介质 - Google Patents

关键信息提取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112784601B
CN112784601B CN202110148747.1A CN202110148747A CN112784601B CN 112784601 B CN112784601 B CN 112784601B CN 202110148747 A CN202110148747 A CN 202110148747A CN 112784601 B CN112784601 B CN 112784601B
Authority
CN
China
Prior art keywords
key information
clause
vector
layer
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110148747.1A
Other languages
English (en)
Other versions
CN112784601A (zh
Inventor
伍俊妍
邱凯锋
余晓霞
何志超
任丽军
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Runze Antai Beijing Technology Co ltd
Sun Yat Sen Memorial Hospital Sun Yat Sen University
Original Assignee
Runze Antai Beijing Technology Co ltd
Sun Yat Sen Memorial Hospital Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runze Antai Beijing Technology Co ltd, Sun Yat Sen Memorial Hospital Sun Yat Sen University filed Critical Runze Antai Beijing Technology Co ltd
Priority to CN202110148747.1A priority Critical patent/CN112784601B/zh
Publication of CN112784601A publication Critical patent/CN112784601A/zh
Application granted granted Critical
Publication of CN112784601B publication Critical patent/CN112784601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种关键信息提取方法、装置、电子设备和存储介质,其中方法包括:对待处理的医学文献进行分句,得到所述医学文献中的各个分句;将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的。本发明提供的关键信息提取方法、装置、电子设备和存储介质,提高了语义提取的准确性,进而提高了关键信息提取的准确性。

Description

关键信息提取方法、装置、电子设备和存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种关键信息提取方法、装置、电子设备和存储介质。
背景技术
近年来,循证医学在辅助医疗决策和医学研究的过程中得到了广泛应用。当前的临床医疗实践已经进展为循证医学模式,循证医学是解决临床问题的最佳方法。抓住循证医学的核心就是不断地发现问题和解决问题,以科学实践获得的证据作为依据和指导成为了现代医学的新模式。其中,这些证据来自于严格的流行病学调查和统计学分析,为最新、最快、可信度最高的全球所共享的研究结论。而系统评价作为文献证据金字塔的顶端,可以为临床医生提供最佳效应估计,并方便临床决策。系统评价的研究步骤包括文献检索与筛选、数据提取、定量合并等关键环节。获取当前诊疗的最佳证据,也就是提取目标文献的特征信息与关键信息是上述环节中最耗费时间与精力的一环。而随着医学的发展,发表论文的数量越来越多,循证医学面临的挑战也更大。
对于单篇文献,主要的信息往往存在于一组重要的关键句中,这些关键句能将文中的主要信息(如研究对象、干预措施、疗效等)鲜明的表示出来。正是基于这种认知,在信息检索和信息抽取等领域中,识别与筛选文本中的关键句是特别重要的一个步骤,可以协助研究者提高科研效率,助力高质量系统评价的制作,使医疗相关人员在现有的最佳科学研究证据基础上做出最优的医疗决策。其中,筛选关键句是根据一定的目的要求,通过计算机技术辨别并提取包含文中主要信息的句子。
然而,对于医学文献的关键信息抽取,现有技术中传统的统计方法和词袋模型等,不仅没有考虑时序问题,还易忽略句子本身的内容,将文中包含主要内容的关键句排除;而基于循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short-TermMemory,LSTM)等的序列模型,虽然解决了时序问题,且一定程度上捕捉到上下文的信息,但其每次进行语义提取时,仅考虑一个方向,其无法捕捉到各个分词真正意义上的上下文信息。而无法捉到真正意义上的上下文信息,对医学文献关键信息抽取的准确率有很大的影响,导致关键信息提取的准确性欠佳。
发明内容
本发明提供一种关键信息提取方法、装置、电子设备和存储介质,用以解决现有技术中关键信息提取的准确性欠佳的缺陷,提高关键信息提取的准确性。
本发明提供一种关键信息提取方法,包括:
对待处理的医学文献进行分句,得到所述医学文献中的各个分句;
将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;
其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的。
根据本发明提供的一种关键信息提取方法,所述将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果,具体包括:
将任一分句输入至所述关键信息提取模型的输入向量编码层,得到所述输入向量编码层输出的所述任一分句的输入向量;
将所述输入向量输入至所述关键信息提取模型的语义提取层,得到所述语义提取层输出的所述任一分句中各个分词的上下文语义向量;其中,所述语义提取层是基于MobileBert模型构建得到的;
将所述任一分句中各个分词的上下文语义向量输入至所述关键信息提取模型的句向量提取层,得到所述句向量提取层输出的所述任一分句的句向量;
将所述任一分句的句向量输入至所述关键信息提取模型的分类层,得到所述分类层输出的所述任一分句的关键信息分类结果。
根据本发明提供的一种关键信息提取方法,所述将所述任一分句中各个分词的上下文语义向量输入至所述关键信息提取模型的句向量提取层,得到所述句向量提取层输出的所述任一分句的句向量,具体包括:
将所述任一分句中各个分词的上下文语义向量输入至所述句向量提取层的均值池化层,得到所述均值池化层输出的所述任一分句的均值池化向量;
将所述任一分句中各个分词的上下文语义向量输入至所述句向量提取层的最大值池化层,得到所述最大值池化层输出的所述任一分句的最大值池化向量;
将所述任一分句的均值池化向量和最大值池化向量输入至所述句向量提取层的融合层,得到所述融合层输出的所述任一分句的句向量。
根据本发明提供的一种关键信息提取方法,所述关键信息提取模型的损失函数是基于所述关键信息提取模型输出的样本分句为关键信息的概率和调制指数确定的;其中,所述调制指数用于抑制简单样本分句的损失和放大困难样本分句的损失。
根据本发明提供的一种关键信息提取方法,所述关键信息提取模型的损失函数为:
Figure BDA0002931280230000041
其中,y为样本分句的样本标签,当所述样本分句为关键信息时,所述样本标签为1,否则所述样本标签为0;y*为所述关键信息提取模型输出的所述样本分句为关键信息的概率;α为调制指数。
根据本发明提供的一种关键信息提取方法,所述将各个分句输入至关键信息提取模型中,之前还包括:
对各个分句进行格式处理,并对格式处理后的各个分句中的未登录词进行切分,使得切分后的元素存在于词表中。
根据本发明提供的一种关键信息提取方法,所述对各个分句进行格式处理,具体包括:
将各个分句中的数字替换为预设符号。
本发明还提供一种关键信息提取装置,包括:
分句单元,用于对待处理的医学文献进行分句,得到所述医学文献中的各个分句;
关键信息分类单元,用于将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;
其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述关键信息提取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述关键信息提取方法的步骤。
本发明提供的关键信息提取方法、装置、电子设备和存储介质,利用关键信息提取模型提取任一分句中各个分词的上下文语义向量,并基于该分句中各个分词的上下文语义向量,对该分句进行关键信息分类,其中,任一分词的上下文语义向量是同时基于该分词的上文信息和下文信息提取得到的,提高了语义提取的准确性,进而提高了关键信息提取的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的关键信息提取方法的流程示意图;
图2为本发明提供的未登录词切分方法的示意图;
图3为本发明提供的关键信息提取方法的流程示意图;
图4为本发明提供的关键信息提取装置的结构示意图;
图5为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的关键信息提取方法的流程示意图,如图1所示,该方法包括:
步骤110,对待处理的医学文献进行分句,得到医学文献中的各个分句;
步骤120,将各个分句输入至关键信息提取模型中,得到关键信息提取模型输出的各个分句的关键信息分类结果;
其中,关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于该分句中各个分词的上下文语义向量,对该分句进行关键信息分类;任一分词的上下文语义向量是同时基于该分词的上文信息和下文信息提取得到的。
具体地,待处理的医学文献为需要提取关键信息的医学文献,例如专业的医学论文或指南共识等。由于医学文献的主要内容大多以关键句的形式出现,因此可以首先对待处理的医学文献进行分句处理,从而对各个分句进行分析。其中,可以以标点符号为分割符,将待处理的非结构化医学文献转化为以句子为单元的结构数据,然后以各分句为单元进行关键信息的分类。
随后,将各个分句输入至关键信息提取模型中,利用关键信息提取模型对每个分句的语义进行分析,判断各个分句是否为该医学文献的关键信息,从而得到各个分句的关键信息分类结果。其中,关键信息分类结果可以包括各个分句是否属于关键信息的概率,还可以包括各个分句属于关键信息的概率,本发明实施例对此不作具体限定。
此处,关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于该分句中各个分词的上下文语义向量,对该分句进行关键信息分类;任一分词的上下文语义向量是同时基于该分词的上文信息和下文信息提取得到的。
其中,各个分词的上下文语义向量用于表征该分词在所属分句中的语义信息。考虑到一个分词的真实含义可能同时受到其上文语境和下文语境的影响,而现有的序列模型,例如RNN、LSTM等,在对某一分词进行语义编码时,通常只考虑一个方向,例如从前往后或从后往前,因此编码时仅考虑了一个方向的语境和语义,即上文语境或下文语境对该分词的影响。即使利用双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM),其也仅是将两个单方向的LSTM网络进行了结合,每次编码时仍仅考虑了上文语境或下文语境对该分词的影响。因此,为了提高上下文语义向量的语义表征能力,可以同时结合任一分词的上文信息和下文信息对该分词的语义进行表征。即,同时结合该分词的上文语境和下文语境,提取该分词真正的上下文语义信息,以提高语义提取的准确性,进而提高关键信息提取的准确性。
在执行步骤120之前,还可以预先训练得到关键信息提取模型,具体可以通过如下方式训练得到关键信息提取模型:首先,收集大量样本医学文献并进行分句,得到各个样本分句。然后,对各个样本分句进行关键信息标注,得到各个样本分句的样本标签。随即,基于样分句及其样本标签训练初始模型,从而得到关键信息提取模型。
本发明实施例提供的方法,利用关键信息提取模型提取任一分句中各个分词的上下文语义向量,并基于该分句中各个分词的上下文语义向量,对该分句进行关键信息分类,其中,任一分词的上下文语义向量是同时基于该分词的上文信息和下文信息提取得到的,提高了语义提取的准确性,进而提高了关键信息提取的准确性。
基于上述任一实施例,步骤120具体包括:
将任一分句输入至关键信息提取模型的输入向量编码层,得到输入向量编码层输出的该分句的输入向量;
将输入向量输入至关键信息提取模型的语义提取层,得到语义提取层输出的该分句中各个分词的上下文语义向量;其中,语义提取层是基于MobileBert模型构建得到的;
将该分句中各个分词的上下文语义向量输入至关键信息提取模型的句向量提取层,得到句向量提取层输出的该分句的句向量;
将该分句的句向量输入至关键信息提取模型的分类层,得到分类层输出的该分句的关键信息分类结果。
具体地,输入向量编码层用于对输入模型的分句进行向量化处理。其中,可以提取该分句中各个分词的词向量Token Embedding,此处,第一个分词为[CLS],用于之后的分类任务;还可以提取所属句向量Segment Embedding,其中包含各个分词的所属句信息,此处由于各个分词均属于同一个分句,因此该向量中各元素为0;还可以提取各个分词的位置嵌入向量Position Embedding,其中包含各个分词的位置信息。然后,将Token Embedding、Segment Embedding与Position Embedding相加,得到该分句的输入向量。
语义提取层用于提取该分句中各个分词的上下文语义向量。该语义提取层的输出可以为N*512的二维矩阵,N为分句的长度,512为每个分词的上下文语义向量的向量维度。其中,语义提取层可以基于MobileBert模型构建得到。此处,考虑到BidirectionalEncoder Representation from Transformers(BERT)模型结构通过自注意力机制,可以同时结合各分词的上文语境和下文语境进行语义信息的提取,从而得以捕捉到真正意义上的上下文信息,因此可以用于医学文献的语义提取。另外,从模型训练成本方面考虑,本发明实施例考虑使用BERT模型的变形MobileBert模型构建语义提取层,以降低整个关键信息提取模型的参数量和推理时间,从而提高关键信息提取模型的训练效率和预测效率。此外,由于此处输入是单个分句,而分句的长度通常在64以下,整个分句表达的语义有限,因此,为了进一步减少模型参数量和推理时间,本发明实施例对MobileBert模型进行了裁剪,将其前6块(block)作为关键信息提取模型的语义提取层。
句向量提取层用于对各个分词的上下文语义向量进行融合,得到可以用于表征分句整体语义的句向量。
分类层用于对该分句的句向量进行语义分析,确定该分句是否为关键信息。此处,分类层可以包含两个全连接层和一个输出层。其中,第一个全连接层对该分句的句向量做线性变换,激活函数为relu,例如可以将1024维的句向量转换为256维特征。第二个全连接层可以对256维特征做线性变换,激活函数为sigmoid,将256维特征转换为一个介于0到1之间的值。输出层则根据第二个全连接层输出的值进行关键信息的判断。此处,通常做法是判断上述值是否大于0.5,若大于该分句则为关键信息,否则不是关键信息。然而,在具体的分类任务中,0.5通常不是最佳的分类边界。因此,本发明实施例通过在试验集上进行调试,找到模型的最佳分类边界为0.39。若第二个全连接层输出的值大于0.39,则判断该分句为关键信息。
基于上述任一实施例,将该分句中各个分词的上下文语义向量输入至关键信息提取模型的句向量提取层,得到句向量提取层输出的该分句的句向量,具体包括:
将该分句中各个分词的上下文语义向量输入至句向量提取层的均值池化层,得到均值池化层输出的该分句的均值池化向量;
将该分句中各个分词的上下文语义向量输入至句向量提取层的最大值池化层,得到最大值池化层输出的该分句的最大值池化向量;
将该分句的均值池化向量和最大值池化向量输入至句向量提取层的融合层,得到融合层输出的该分句的句向量。
具体地,现有技术中通常直接将token[CLS]对应的上下文语义向量作为句向量,用以表示句子的语义。然而,该方法提取的句向量的语义表达能力有限,难以应用于医学文献的关键信息提取。因此,本发明实施例分别利用均值池化层和最大值池化层,沿着句子长度的维度对各个分词的上下文语义向量进行均值池化和最大值池化,并利用融合层将池化后得到的均值池化向量和最大值池化向量进行拼接,得到该分句的句向量。利用上述方法得到的句向量中包含了更多的语义信息,有助于提高关键信息提取的准确性。
需要说明的是,本发明实施例不对均值池化和最大值池化的执行顺序做具体限定,均值池化可以在最大值池化之前或之后执行,也可以与最大值池化同步执行。
基于上述任一实施例,关键信息提取模型的损失函数是基于关键信息提取模型输出的样本分句为关键信息的概率和调制指数确定的;其中,调制指数用于抑制简单样本分句的损失和放大困难样本分句的损失。
具体地,在利用关键信息提取模型进行实际的关键信息提取之前,可以为其设置一个损失函数,利用该损失函数不断调整关键信息提取模型中的各个参数,直至损失函数收敛,得到训练好的关键信息提取模型。
考虑到医学文献中真正包含核心内容的关键句较少且较难识别,存在样本数量不均衡的问题,且样本中存在一些困难样本(Hard Example),同时存在大量的简单样本(EasyExample)。其中,困难样本是指特征不明显,不易识别的样本,而简单样本则是易于识别的样本。对于简单样本而言,虽然该类样本容易被分类器分辨,损失较小,但是由于其数量大,这些简单样本的损失累积起来之后,依然大于困难样本的损失,导致模型在训练过程中难以学到困难样本的特征,对于困难样本的识别准确性较低。因此,在设计损失函数时,在关键信息提取模型输出的样本分句为关键信息的概率基础上,可以设置一个调制指数,用于抑制简单样本分句的损失,并相应放大困难样本分句的损失,以克服样本识别的难易程度不同导致分类效果差的问题。
基于上述任一实施例,关键信息提取模型的损失函数为:
Figure BDA0002931280230000111
其中,y为样本分句的样本标签,当样本分句为关键信息时,样本标签为1,否则样本标签为0;y*为关键信息提取模型输出的样本分句为关键信息的概率;α为调制指数。
具体地,可以为关键信息提取模型设置如下损失函数:
Figure BDA0002931280230000112
其中,y为预先标注的样本分句的样本标签,当样本分句为关键信息时,样本标签为1,否则样本标签为0;y*为关键信息提取模型输出的样本分句为关键信息的概率;α为调制指数。
可以看出,对于简单样本分句,关键信息提取模型计算出的概率会比较接近该样本分句的样本标签,根据上式计算得到的损失较小;反之,对于困难样本分句,关键信息提取模型计算出的概率可能与该样本分句的样本标签的差距较大,根据上式计算得到的损失较大。因此,上述损失函数可以抑制简单样本分句的损失,并相应放大困难样本分句的损失。
基于上述任一实施例,步骤120之前还包括:
对各个分句进行格式处理,并对格式处理后的各个分句中的未登录词进行切分,使得切分后的元素存在于词表中。
具体地,为了使分句中的每个字/词都具有正确的表义,并且解决未登录词的问题,本发明实施例在对各个分句进行格式处理后,对各个分句中的未登录词进行了Subword粒度的切分,使得切分后的元素存在于词表中,以提高后续语义信息提取的准确性。其中,未登录词是指词表中不存在的词。本发明提出了BiotToken(Biomedical TextTokenization)方法。图2为本发明实施例提供的未登录词切分方法的示意图,如图2所示,以nonclinical study为例,其中nonclinical在词表中不存在,被标记为未登录词,因此可以将它分解成non-clinic-al这些词表中存在的词,其中non的意思是非,clinic是一个名词,al表示形容词;而study在词表中存在,因此对其不做处理。
基于上述任一实施例,对各个分句进行格式处理,具体包括:
将各个分句中的数字替换为预设符号。
具体地,医学文献中存在大量不同的数字,但数字对于判断分句是否为关键信息是无用的,且让模型准确地预测数字也是不现实的,因此,本发明实施例将各个文具中的数字全部被替换为一个预设符号,以在进行关键信息提取时消除数字带来的干扰。
基于上述任一实施例,图3为本发明实施例提供的关键信息提取方法的流程示意图,如图3所示,该方法包括:
首先,构建数据集。以标点符号为分割符,将输入的医学文献转化为以句子为单元的结构数据,然后以句子为单元进行人工标注,将其分为关键信息和非关键信息。人工标注好数据后,需对其进行数据预处理,将各个句子中的数字全部被替换为一个指定的符号。另外,为解决未登录词问题,本发明实施例提出BiotToken(Biomedical Text Tokenization)方法,对句子中的未登录词做Subword粒度的切分。
然后,构建关键信息提取模型。具体的模型网络结构如下:
输入向量编码层:将输入分句转换为输入向量。
语义提取层:从输入向量中获取各个分词的上下文语义向量。
句向量提取层:将语义提取层输出的向量序列转换为一个句向量,以表示句子的语义。
全连接层:包含两个全连接层,对句向量做线性变换,将句向量转换为一个介于0到1之间的值。
输出层:根据分类边界,确定分句的关键信息分类结果。其中,若全连接层输出的值大于0.39,则确定该分句为关键信息。
最后,可以对关键信息提取模型进行结果评估。本发明实施例采用的模型评估指标为准确率(Accuracy)和F-Measure。Accuracy表示对于给定的数据集,模型正确分类的样本数与总样本数之比。F-Measure的公式如下:
Figure BDA0002931280230000131
精确率P表示所有被预测正样本中,正确样本所占的比例。召回率R表示所有正样本中,被预测为正样本所占的比例。一般情况下,精确率与召回率相互制约,因此使用F-Measure对模型进行综合评估,F-Measure越高,性能越好。
下面对本发明提供的关键信息提取装置进行描述,下文描述的关键信息提取装置与上文描述的关键信息提取方法可相互对应参照。
基于上述任一实施例,图4为本发明实施例提供的关键信息提取装置的结构示意图,如图4所示,该装置包括:分句单元410和关键信息分类单元420。
其中,分句单元410用于对待处理的医学文献进行分句,得到医学文献中的各个分句;
关键信息分类单元420用于将各个分句输入至关键信息提取模型中,得到关键信息提取模型输出的各个分句的关键信息分类结果;
其中,关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于该分句中各个分词的上下文语义向量,对该分句进行关键信息分类;任一分词的上下文语义向量是同时基于该分词的上文信息和下文信息提取得到的。
本发明实施例提供的装置,利用关键信息提取模型提取任一分句中各个分词的上下文语义向量,并基于该分句中各个分词的上下文语义向量,对该分句进行关键信息分类,其中,任一分词的上下文语义向量是同时基于该分词的上文信息和下文信息提取得到的,提高了语义提取的准确性,进而提高了关键信息提取的准确性。
基于上述任一实施例,关键信息分类单元420具体包括:
输入向量编码单元,用于将任一分句输入至关键信息提取模型的输入向量编码层,得到输入向量编码层输出的该分句的输入向量;
语义提取单元,用于将输入向量输入至关键信息提取模型的语义提取层,得到语义提取层输出的该分句中各个分词的上下文语义向量;其中,语义提取层是基于MobileBert模型构建得到的;
句向量提取单元,用于将该分句中各个分词的上下文语义向量输入至关键信息提取模型的句向量提取层,得到句向量提取层输出的该分句的句向量;
分类单元,用于将该分句的句向量输入至关键信息提取模型的分类层,得到分类层输出的该分句的关键信息分类结果。
基于上述任一实施例,句向量提取单元具体用于:
将该分句中各个分词的上下文语义向量输入至句向量提取层的均值池化层,得到均值池化层输出的该分句的均值池化向量;
将该分句中各个分词的上下文语义向量输入至句向量提取层的最大值池化层,得到最大值池化层输出的该分句的最大值池化向量;
将该分句的均值池化向量和最大值池化向量输入至句向量提取层的融合层,得到融合层输出的该分句的句向量。
基于上述任一实施例,关键信息提取模型的损失函数是基于关键信息提取模型输出的样本分句为关键信息的概率和调制指数确定的;其中,调制指数用于抑制简单样本分句的损失和放大困难样本分句的损失。
基于上述任一实施例,关键信息提取模型的损失函数为:
Figure BDA0002931280230000141
其中,y为样本分句的样本标签,当样本分句为关键信息时,样本标签为1,否则样本标签为0;y*为关键信息提取模型输出的样本分句为关键信息的概率;α为调制指数。
基于上述任一实施例,该装置还包括:
未登录词切分单元,用于对各个分句进行格式处理,并对格式处理后的各个分句中的未登录词进行切分,使得切分后的元素存在于词表中。
基于上述任一实施例,对各个分句进行格式处理,具体包括:
将各个分句中的数字替换为预设符号。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行关键信息提取方法,该方法包括:对待处理的医学文献进行分句,得到所述医学文献中的各个分句;将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的关键信息提取方法,该方法包括:对待处理的医学文献进行分句,得到所述医学文献中的各个分句;将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的关键信息提取方法,该方法包括:对待处理的医学文献进行分句,得到所述医学文献中的各个分句;将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种关键信息提取方法,其特征在于,包括:
对待处理的医学文献进行分句,得到所述医学文献中的各个分句;
将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;
其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的;
所述将各个分句输入至关键信息提取模型中,之前还包括:
对各个分句进行格式处理,并对格式处理后的各个分句中的未登录词进行切分,使得切分后的元素存在于词表中;
所述将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果,具体包括:
将任一分句输入至所述关键信息提取模型的输入向量编码层,得到所述输入向量编码层输出的所述任一分句的输入向量;
将所述输入向量输入至所述关键信息提取模型的语义提取层,得到所述语义提取层输出的所述任一分句中各个分词的上下文语义向量;其中,所述语义提取层是基于MobileBert模型的前6块构建得到的;
将所述任一分句中各个分词的上下文语义向量输入至所述关键信息提取模型的句向量提取层,得到所述句向量提取层输出的所述任一分句的句向量;
将所述任一分句的句向量输入至所述关键信息提取模型的分类层,得到所述分类层输出的所述任一分句的关键信息分类结果;
所述将所述任一分句中各个分词的上下文语义向量输入至所述关键信息提取模型的句向量提取层,得到所述句向量提取层输出的所述任一分句的句向量,具体包括:
将所述任一分句中各个分词的上下文语义向量输入至所述句向量提取层的均值池化层,得到所述均值池化层输出的所述任一分句的均值池化向量;
将所述任一分句中各个分词的上下文语义向量输入至所述句向量提取层的最大值池化层,得到所述最大值池化层输出的所述任一分句的最大值池化向量;
将所述任一分句的均值池化向量和最大值池化向量输入至所述句向量提取层的融合层,得到所述融合层输出的所述任一分句的句向量。
2.根据权利要求1所述的关键信息提取方法,其特征在于,所述关键信息提取模型的损失函数是基于所述关键信息提取模型输出的样本分句为关键信息的概率和调制指数确定的;其中,所述调制指数用于抑制简单样本分句的损失和放大困难样本分句的损失。
3.根据权利要求2所述的关键信息提取方法,其特征在于,所述关键信息提取模型的损失函数为:
Figure QLYQS_1
其中,y为样本分句的样本标签,当所述样本分句为关键信息时,所述样本标签为1,否则所述样本标签为0;
Figure QLYQS_2
为所述关键信息提取模型输出的所述样本分句为关键信息的概率;/>
Figure QLYQS_3
为调制指数。
4.根据权利要求1至2任一项所述的关键信息提取方法,其特征在于,所述对各个分句进行格式处理,具体包括:
将各个分句中的数字替换为预设符号。
5.一种关键信息提取装置,其特征在于,包括:
分句单元,用于对待处理的医学文献进行分句,得到所述医学文献中的各个分句;
关键信息分类单元,用于将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果;
其中,所述关键信息提取模型用于提取任一分句中各个分词的上下文语义向量,并基于所述任一分句中各个分词的上下文语义向量,对所述任一分句进行关键信息分类;任一分词的上下文语义向量是同时基于所述任一分词的上文信息和下文信息提取得到的;
所述将各个分句输入至关键信息提取模型中,之前还包括:
对各个分句进行格式处理,并对格式处理后的各个分句中的未登录词进行切分,使得切分后的元素存在于词表中;
所述将各个分句输入至关键信息提取模型中,得到所述关键信息提取模型输出的各个分句的关键信息分类结果,具体包括:
将任一分句输入至所述关键信息提取模型的输入向量编码层,得到所述输入向量编码层输出的所述任一分句的输入向量;
将所述输入向量输入至所述关键信息提取模型的语义提取层,得到所述语义提取层输出的所述任一分句中各个分词的上下文语义向量;其中,所述语义提取层是基于MobileBert模型的前6块构建得到的;
将所述任一分句中各个分词的上下文语义向量输入至所述关键信息提取模型的句向量提取层,得到所述句向量提取层输出的所述任一分句的句向量;
将所述任一分句的句向量输入至所述关键信息提取模型的分类层,得到所述分类层输出的所述任一分句的关键信息分类结果;
所述将所述任一分句中各个分词的上下文语义向量输入至所述关键信息提取模型的句向量提取层,得到所述句向量提取层输出的所述任一分句的句向量,具体包括:
将所述任一分句中各个分词的上下文语义向量输入至所述句向量提取层的均值池化层,得到所述均值池化层输出的所述任一分句的均值池化向量;
将所述任一分句中各个分词的上下文语义向量输入至所述句向量提取层的最大值池化层,得到所述最大值池化层输出的所述任一分句的最大值池化向量;
将所述任一分句的均值池化向量和最大值池化向量输入至所述句向量提取层的融合层,得到所述融合层输出的所述任一分句的句向量。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述关键信息提取方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述关键信息提取方法的步骤。
CN202110148747.1A 2021-02-03 2021-02-03 关键信息提取方法、装置、电子设备和存储介质 Active CN112784601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110148747.1A CN112784601B (zh) 2021-02-03 2021-02-03 关键信息提取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110148747.1A CN112784601B (zh) 2021-02-03 2021-02-03 关键信息提取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112784601A CN112784601A (zh) 2021-05-11
CN112784601B true CN112784601B (zh) 2023-06-27

Family

ID=75760682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110148747.1A Active CN112784601B (zh) 2021-02-03 2021-02-03 关键信息提取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112784601B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048729A (zh) * 2021-10-19 2022-02-15 中山大学孙逸仙纪念医院 医学文献评价方法、电子设备、存储介质和程序产品
CN115358213A (zh) * 2022-10-20 2022-11-18 阿里巴巴(中国)有限公司 模型数据处理及模型预训练方法、电子设备及存储介质
CN116934468B (zh) * 2023-09-15 2023-12-22 成都运荔枝科技有限公司 一种基于语义识别的授信客户分级方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399477A (zh) * 2019-06-20 2019-11-01 全球能源互联网研究院有限公司 一种文献摘要提取方法、设备及可存储介质
CN110852064B (zh) * 2019-10-31 2021-10-26 腾讯科技(深圳)有限公司 关键句提取方法及装置
CN111708878B (zh) * 2020-08-20 2020-11-24 科大讯飞(苏州)科技有限公司 一种体育文本摘要提取方法、装置、存储介质及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112784601A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN114530223B (zh) 一种基于nlp的心血管疾病病历结构化系统
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109766544B (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN106095753B (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN112800766A (zh) 基于主动学习的中文医疗实体识别标注方法及系统
CN106844349A (zh) 基于协同训练的垃圾评论识别方法
Kapoor et al. Hldc: Hindi legal documents corpus
Jiang et al. Impact of OCR quality on BERT embeddings in the domain classification of book excerpts
CN114417836A (zh) 一种基于深度学习的中文电子病历文本语义分割方法
CN113297851B (zh) 一种针对易混淆运动损伤实体词的识别方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN112634878A (zh) 语音识别后处理方法和系统及相关设备
Lin et al. Contrastive representation enhancement and learning for handwritten mathematical expression recognition
CN115859978A (zh) 基于Roberta部首增强适配器的命名实体识别模型及方法
CN115114437A (zh) 基于bert和双分支网络的胃镜文本分类系统
CN114218954A (zh) 病历文本中疾病实体和症状实体阴阳性的判别方法及装置
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN113836892A (zh) 样本量数据提取方法、装置、电子设备及存储介质
Rao et al. Language Detection Using Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant