CN111507089B - 基于深度学习模型的文献分类方法、装置和计算机设备 - Google Patents

基于深度学习模型的文献分类方法、装置和计算机设备 Download PDF

Info

Publication number
CN111507089B
CN111507089B CN202010519585.3A CN202010519585A CN111507089B CN 111507089 B CN111507089 B CN 111507089B CN 202010519585 A CN202010519585 A CN 202010519585A CN 111507089 B CN111507089 B CN 111507089B
Authority
CN
China
Prior art keywords
layer
clause
label
sequence
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010519585.3A
Other languages
English (en)
Other versions
CN111507089A (zh
Inventor
张圣
顾大中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010519585.3A priority Critical patent/CN111507089B/zh
Publication of CN111507089A publication Critical patent/CN111507089A/zh
Priority to PCT/CN2020/118942 priority patent/WO2021139274A1/zh
Application granted granted Critical
Publication of CN111507089B publication Critical patent/CN111507089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及医疗领域,揭示了基于深度学习模型的文献分类方法,深度学习模型包括第一BiLSTM层、衔接在第一BiLSTM层之后的Attention层、衔接在Attention层之后的第二BiLSTM层以及衔接在第二BiLSTM层之后的CRF层,方法包括:获取指定文献的摘要内容的每个分句,依次通过第一BiLSTM层和Attention层处理后分别对应的表征向量;按照各分句在指定文献的摘要内容的自然排布次序,依次排列各分句分别对应的表征向量,形成指定文献的摘要内容的表征向量序列;将表征向量序列输入至第二BiLSTM层,得到表征向量序列对应的第二隐藏向量序列;将第二隐藏向量序列经过CRF层,得到指定文献摘要内容的每个分句分别对应的预测标签序列;根据预测标签序列对指定文献进行分类,提高模型对文献筛选分类的精准效果。

Description

基于深度学习模型的文献分类方法、装置和计算机设备
技术领域
本申请涉及到医疗领域,特别是涉及到基于深度学习模型的文献分类方法、装置和计算机设备。
背景技术
医疗工作者在进行医学研究以及病例研究诊断时,会参考大量相关的医学文献,以辅助研究和诊断。医学工作者在搜索相关医学文献时,希望能快速、准确定位到与当前搜索条件最接近的文献,并快速了解文献的研究目的、研究方法、研究结果、研究结论等。但现有医学文献的标签数据集的数量非常少且质量不高,不利于文献筛选模型的训练。而且现有文献筛选模型结构简单,仅孤立地分析每一句话的向量特征,仅能通过浅层的句子表示进行分类识别,分类不精准,不能满足医学工作者快速、精准筛选到相关文献的要求。
发明内容
本申请的主要目的为提供基于深度学习模型的文献分类方法,旨在解决现有不能满足医学工作者快速、精准筛选到相关文献的要求的技术问题。
本申请提出一种基于深度学习模型的文献分类方法,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,方法包括:
获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;
按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;
将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;
将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;
根据所述预测标签序列对所述指定文献进行分类。
优选地,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,所述获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤,包括:
将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;
将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;
将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;
将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;
根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
优选地,所述获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤之前,包括:
获取指定数据库中各样本文献的Pubmed标签;
根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签,其中,所述第一样本为所述指定数据库中的任一摘要样本;
判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序;
若是,则将所述第一样本添加至训练集,否则舍弃所述第一样本;
利用所述训练集训练所述深度学习模型,以确定所述深度学习模型中的各参量。
优选地,所述根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签的步骤,包括:
判断所述第一样本中携带的指定标签名称,是否包含于所述标准类标签的所有标签名称中,其中,所述指定标签名称为所述第一样本中包括的所有标签名称中的任一标签名称;
若否,则分别获取所述指定标签名称与所述标准类标签中的各标签名称的向量距离;
判断是否存在所述向量距离小于预设阈值的第一标签名称,其中,所述第一标签名称为所述标准类标签中所有标签名称中的任一标签名称;
若是,则将所述指定标签名称归并为所述第一标签名称,否则删除所述第一样本;
按照所述指定标签名称归并为所述第一标签名称的过程,将所述第一样本中携带的Pubmed标签,分别对应映射为所述标准类标签。
优选地,所述判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序的步骤,包括:
判断所述第一样本的内容类别是否属于临床试验研究类别;
若不属于临床试验研究类别,则调取通过统计所述指定数据库中所有文献中的标签排序,得到的最大概率的第一排序;
判断所述第一样本对应的标准类标签的排序,是否符合所述第一排序的排列趋势;
若符合所述第一排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
优选地,所述判断所述第一样本的内容类别是否属于临床试验研究类别的步骤之后,包括:
若属于临床试验研究类别,则调取通过统计所述指定数据库中所有所述临床试验研究类别的文献的标签排序,得到的最大概率的第二排序;
判断所述第一样本对应的标准类标签的排序,是否符合所述第二排序的排列趋势;
若符合所述第二排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
本申请还提供了一种基于深度学习模型的文献分类装置,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,装置包括:
第一获取模块,用于获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;
形成模块,用于按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;
第一得到模块,用于将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;
第二得到模块,用于将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;
分类模块,用于根据所述预测标签序列对所述指定文献进行分类。
优选地,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,所述第一获取模块包括:
分词单元,用于将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;
转化单元,用于将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;
输入单元,用于将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;
计算单元,用于将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;
第一获取单元,用于根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过设计基于层次RNN的网络模型,网络模型为包括BiLSTM层和Attention层的网络结构,学习表征句子信息的表征向量,然后针对所有分句的句子序列,再次使用BiLSTM层学习句子序列,并通过CRF层得到句子序列对应的预测标签序列,然后进行有效分类,有效利用了每个分句的表征向量更深层的语义信息,以及分句间的深层语义信息,提高模型对文献筛选分类的精准效果。
附图说明
图1本申请一实施例的基于深度学习模型的文献分类方法流程示意图;
图2本申请一实施例的基于深度学习模型的文献分类装置结构示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的基于深度学习模型的文献分类方法,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,方法包括:
S1:获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;
S2:按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;
S3:将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;
S4:将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;
S5:根据所述预测标签序列对所述指定文献进行分类。
本申请的深度学习模型结构包括第一BiLSTM(Bi-directional Long Short-TermMemory,双向LSTM)层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF(ConditionalRandomFields,条件随机场)层。上述BiLSTM层是由前向LSTM与后向LSTM组合而成,可获取相邻的上下词的词义信息,以及相邻的上下分句之间的上下文语义信息。
本申请的分句表示,通过Wordembedding→BiLSTM→Attention,得到当前分句的表征向量S。通过BiLSTM-Attention可以更好的学习分句的表征向量,BiLSTM可以很好的学习每个单词表征在分句中的前向以及后向的语义,即单词序列上下文语义。Attention操作可以综合句子中学习到的所有单词表征的语义,使学习到的每个分句的表征向量更深层的语义信息。然后将学习到各分句的句子序列对应的表征向量序列(s1,…,sn)→BiLSTM→CRF层。通过各分句的句子序列对应的表征向量序列,再次经过BiLSTM层之后通过CRF层,可以学习到句子序列的前向以及后向的语义,即句子序列上下文语义,也就是学习到整个摘要的语义、各分句间的语义关联信息,从而使得各分句的表征向量对应的语义更丰富。
本申请通过把分句看成词序列,通过第一BiLSTM层获取分句对应的词序列,并将摘要内容看成各分句对应的句子序列,并输入到第二BiLSTM层,获取摘要内容中各分句间的语义关联信息,以提升获取的标签类型的准确性,提高分类的精准性。本申请的句子表示语义通过衔接第一BiLSTM层和第二BiLSTM层的Attention层,通过Attention机制学习得到,使得通过BiLSTM层和Attention层的协同作用,深度挖掘了分句的深层信息以及分句间的语义关联信息,从而提高了模型分类效果。将摘要内容中所有分句的表征向量序列s1,s2…,sm,输入到后续的第二BiLSTM层,得到对应的隐藏向量h1`,h2`,…,hm`;最后经过CRF层,输出摘要内容中所有分句的预测标签序列y1,y2,…,ym;然后根据预测标签序列y1,y2,…,ym,实现对文献的分类和精准筛选定位。本申请通过设计基于层次RNN的网络模型,网络模型为包括BiLSTM层和Attention层的网络结构,学习表征句子信息的表征向量,然后针对所有分句的句子序列,再次使用BiLSTM层学习句子序列,并通过CRF层得到句子序列对应的预测标签序列,然后进行有效分类,有效利用了每个分句的表征向量更深层的语义信息,以及分句间的深层语义信息,提高模型对文献筛选分类的精准效果。
进一步地,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,所述获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤S1,包括:
S11:将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;
S12:将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;
S13:将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;
S14:将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;
S15:根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
本申请通过对摘要内容中的各分句进行分词处理后,输入TokenEmbedding层,以得到每个分词分别对应的词向量,上述词向量携带了分词的语义信息。举例地,第一分句对应的词向量序列为e1,e2,…,en,通过将词向量序列e1,e2,…,en,输入第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列h1,h2,…,hn。上述第一隐藏向量序列中的每个隐藏向量都携带了部分的句子信息。然后将第一隐藏向量序列中的每个隐藏向量输入到Attention层进行Attention计算,得到分句的表征向量。上述Attention层进行Attention计算过程如下:通过公式
Figure BDA0002531478840000081
Figure BDA0002531478840000082
i=1,…,n,计算i分词对应的权重分值;然后通过公式s=∑iαihi,i=1,…,n,计算i分词所在分句的表征向量,即通过与改分句中其他所有的源单词的权重分值的加权和,得到分句的表征向量S,其中,h表示上下文信息的隐藏向量。
进一步地,所述获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤S1之前,包括:
S101:获取指定数据库中各样本文献的Pubmed标签;
S102:根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签,其中,所述第一样本为所述指定数据库中的任一摘要样本;
S103:判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序;
S104:若是,则将所述第一样本添加至训练集,否则舍弃所述第一样本;
S105:利用所述训练集训练所述深度学习模型,以确定所述深度学习模型中的各参量。
本申请的训练集基于Pubmed对应的指定数据库中的文献形成,上述指定数据库中约有5%的医学文献自带了Pubmed标签。Pubmed是美国国家医学图书馆提供的免费信息检索系统,主要提供生物医学方面的论文检索。上述Pubmed标签是指Pubmed检索系统中的文献的摘要内容中,对不同段落或不同分句进行的标签标注,以表示该段落或该分句叙述的主要内容。但是Pubmed标签中存在标准不一、名称不同等缺陷,无法直接用于模型训练,需要进行归一化调整和优化,以免影响模型的训练效果。举例地,对于研究目的AIMS这一标签,存在Objective、Aim、BackgroundandObjective等不同标签标注名称,针对上述不同的标签标注名称,需要进行归并映射到标准类标签,提高训练集的质量。本申请通过最大概率的排序,对样本进行筛选,以过滤掉错误的标签数据,进一步提高训练集的质量。上述的最大概率的排序通过统计分析上述指定数据库中大部分的文献得到。本申请对于针对整个段落的标签标注,进行了向各分句匹配标注的操作。比如,研究方法对应的段落,其标签标注为“Method”,而研究方法对应的段落共由三个分句组成,则每个分句分别对应标注“Method”,以便于本申请通过句子序列对应的标签类型进行有效分类的技术方案相匹配。
进一步地,所述根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签的步骤S102,包括:
S1021:判断所述第一样本中携带的指定标签名称,是否包含于所述标准类标签的所有标签名称中,其中,所述指定标签名称为所述第一样本中包括的所有标签名称中的任一标签名称;
S1022:若否,则分别获取所述指定标签名称与所述标准类标签中的各标签名称的向量距离;
S1023:判断是否存在所述向量距离小于预设阈值的第一标签名称,其中,所述第一标签名称为所述标准类标签中所有标签名称中的任一标签名称;
S1024:若是,则将所述指定标签名称归并为所述第一标签名称,否则删除所述第一样本;
S1025:按照所述指定标签名称归并为所述第一标签名称的过程,将所述第一样本中携带的Pubmed标签,分别对应映射为所述标准类标签。
本申请在对于研究目的“AIMS”这一标签标注,存在Objective、Aim、BackgroundandObjective等不同标签名称的情况下的归并过程,通过向量距离最近的原则,选择归并后的标准类标签,实现不同的标签名称的自动准确归并到标准类标签,以统一所有样本中的标签标注,并使用最大概率的排布,过滤掉噪音数据,有效的提高了训练样本的标签标注的质量,减少了专家标注和审核的过程,节省了大量的人力,实现了基于PubMed中少量带有标签的文献,自动构建高质量的标签数据集,作为模型的训练集,提高模型训练效果。本申请的训练集对应的数据领域不限于医学领域,当训练集为法律、建筑等其他领域的带有标签的数据集时,对于文献分类的深度学习模型也适用于其他领域,原理相类似,不赘述。
进一步地,所述判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序的步骤S103,包括:
S1031:判断所述第一样本的内容类别是否属于临床试验研究类别;
S1032:若不属于临床试验研究类别,则调取通过统计所述指定数据库中所有文献中的标签排序,得到的最大概率的第一排序;
S1033:判断所述第一样本对应的标准类标签的排序,是否符合所述第一排序的排列趋势;
S1034:若符合所述第一排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
本申请自动构建的训练集有两类,根据医学文献的具体内容类别不同而不同。上述内容类别可通过识别文本关键字中是否包括“临床试验”或“临床”等临床试验研究类别特有的关键字,若包括则判定为临床试验研究类别,否则归属于一般医学文献。标准类标签一个是针对一般医学文献都适用的AMRCN五类别的标准类标签,以及适用于临床试验研究类别的医学文献的AMPIORCN八类别的标准类标签。对于医学文献的摘要内容的结构化的标签标注,标签标注之间的排列顺序是有依赖关系的。即使完全不考虑文章的文本内容,文章语句标签标注的顺序也服从一定的概率分布,而不是随机的。比如,文章开头几句话的标签标注一般是“Aim”,文章的最后几句话的标签标注一般是“Conclusion”。这种语句标签之间的概率分布,即上述的最大概率的排序,可以用来噪音标签数据的过滤。对于包括AMRCN五类别的医疗文献,其标签标注的最大概率的标签顺序是A→M→R→C→N。上述A表示(Aim,研究目的)、上述M表示(Method,研究方法)、上述R表示(Result,研究结果)、上述C表示(Conclusion,研究结论)、上述N表示(nothing to do with something,文章内容无关标签,比如致谢作者机构信息等)。上述符合最大概率的标签顺序,指排列趋势一致,而不仅仅限定为完全相同。一篇摘要内容的真实标签标注不一定包含所有的标准类标签,只要求存在的标签标注符合最大概率的标签顺序即可。比如五分类的标准类标签,最大概率的标签顺序为A→M→R→C→N。若一篇摘要只包含A、C、N三个标签标注,三个标签标注的顺序符合A→M(没有则忽略)→R(没有则忽略)→C→N即可。本申请自动构建了适应于所有医学文献的AMRCN五分类的标签数据集,数据规模达20万。
进一步地,所述判断所述第一样本的内容类别是否属于临床试验研究类别的步骤S1031之后,包括:
S1035:若属于临床试验研究类别,则调取通过统计所述指定数据库中所有所述临床试验研究类别的文献的标签排序,得到的最大概率的第二排序;
S1033:判断所述第一样本对应的标准类标签的排序,是否符合所述第二排序的排列趋势;
S1034:若符合所述第二排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
本申请中,临床试验研究类别的文献的摘要内容的结构化标签数据,包括AMPIORCN八个类别的标签标注,其中包括标签标注P(Participant,参与者)、标签标注I(Intervention,干预条件)、标签标注O(Outcome,结果),也统计出上述八个类别的标签标注的依赖顺序。临床试验研究类别的文献,一般会先讲参与医学实验的Participant,再讲临床试验的Intervention,然后讲临床试验的Outcome。通过统计分析得出上述AMPIORCN八个类别的标签标注的最大概率的标签顺序是A→M→P→I→O→R→C→N。通过对临床试验研究类别的医学文献的进行自动筛选处理,构建了适用于临床试验研究类别的文献的AMPIORCN八类别标签标注的数据集,数据规模达5万。本申请通过标签数据的构建中使用的最大概率的标签排序,过滤掉噪音标签数据样例。比如一篇医学文献,对摘要内容进行分句后,如果有N个分句,每个分句都有对应的标签标注,则该摘要内容的标签标注是(Label_1,…,Label_n),Label_n表示该摘要内容第n句话的标签标注。通过判断(Label_1,…,Label_n)标签排序,是否符合最大概率的标签排序,如果符合则保留该摘要内容对应的数据样本;反之则说明该数据样本是噪音标签数据,需删除该数据样本。
参照图2,本申请一实施例的基于深度学习模型的文献分类装置,本申请一实施例的基于深度学习模型的文献分类方法,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,装置包括:
第一获取模块1,用于获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;
形成模块2,用于按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;
第一得到模块3,用于将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;
第二得到模块4,用于将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;
分类模块5,用于根据所述预测标签序列对所述指定文献进行分类。
本申请的深度学习模型结构包括第一BiLSTM(Bi-directional Long Short-TermMemory,双向LSTM)层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF(ConditionalRandomFields,条件随机场)层。上述BiLSTM层是由前向LSTM与后向LSTM组合而成,可获取相邻的上下词的词义信息,以及相邻的上下分句之间的上下文语义信息。
本申请的分句表示,通过Wordembedding→BiLSTM→Attention,得到当前分句的表征向量S。通过BiLSTM-Attention可以更好的学习分句的表征向量,BiLSTM可以很好的学习每个单词表征在分句中的前向以及后向的语义,即单词序列上下文语义。Attention操作可以综合句子中学习到的所有单词表征的语义,使学习到的每个分句的表征向量更深层的语义信息。然后将学习到各分句的句子序列对应的表征向量序列(s1,…,sn)→BiLSTM→CRF层。通过各分句的句子序列对应的表征向量序列,再次经过BiLSTM层之后通过CRF层,可以学习到句子序列的前向以及后向的语义,即句子序列上下文语义,也就是学习到整个摘要的语义、各分句间的语义关联信息,从而使得各分句的表征向量对应的语义更丰富。
本申请通过把分句看成词序列,通过第一BiLSTM层获取分句对应的词序列,并将摘要内容看成各分句对应的句子序列,并输入到第二BiLSTM层,获取摘要内容中各分句间的语义关联信息,以提升获取的标签类型的准确性,提高分类的精准性。本申请的句子表示语义通过衔接第一BiLSTM层和第二BiLSTM层的Attention层,通过Attention机制学习得到,使得通过BiLSTM层和Attention层的协同作用,深度挖掘了分句的深层信息以及分句间的语义关联信息,从而提高了模型分类效果。将摘要内容中所有分句的表征向量序列s1,s2…,sm,输入到后续的第二BiLSTM层,得到对应的隐藏向量h1`,h2`,…,hm`;最后经过CRF层,输出摘要内容中所有分句的预测标签序列y1,y2,…,ym;然后根据预测标签序列y1,y2,…,ym,实现对文献的分类和精准筛选定位。本申请通过设计基于层次RNN的网络模型,网络模型为包括BiLSTM层和Attention层的网络结构,学习表征句子信息的表征向量,然后针对所有分句的句子序列,再次使用BiLSTM层学习句子序列,并通过CRF层得到句子序列对应的预测标签序列,然后进行有效分类,有效利用了每个分句的表征向量更深层的语义信息,以及分句间的深层语义信息,提高模型对文献筛选分类的精准效果。
进一步地,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,所述第一获取模块1,包括:
分词单元,用于将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;
转化单元,用于将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;
输入单元,用于将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;
计算单元,用于将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;
第一获取单元,用于根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
本申请通过对摘要内容中的各分句进行分词处理后,输入TokenEmbedding层,以得到每个分词分别对应的词向量,上述词向量携带了分词的语义信息。举例地,第一分句对应的词向量序列为e1,e2,…,en,通过将词向量序列e1,e2,…,en,输入第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列h1,h2,…,hn。上述第一隐藏向量序列中的每个隐藏向量都携带了部分的句子信息。然后将第一隐藏向量序列中的每个隐藏向量输入到Attention层进行Attention计算,得到分句的表征向量。上述Attention层进行Attention计算过程如下:通过公式
Figure BDA0002531478840000141
Figure BDA0002531478840000142
i=1,…,n,计算i分词对应的权重分值;然后通过公式s=∑iαihi,i=1,…,n,计算i分词所在分句的表征向量,即通过与改分句中其他所有的源单词的权重分值的加权和,得到分句的表征向量S,其中,h表示上下文信息的隐藏向量。
进一步地,基于深度学习模型的文献分类装置,包括:
第二获取模块,用于获取指定数据库中各样本文献的Pubmed标签;
映射模块,用于根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签,其中,所述第一样本为所述指定数据库中的任一摘要样本;
判断模块,用于判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序;
添加模块,用于若符合最大概率的标签顺序,则将所述第一样本添加至训练集,否则舍弃所述第一样本;
训练模块,用于利用所述训练集训练所述深度学习模型,以确定所述深度学习模型中的各参量。
本申请的训练集基于Pubmed对应的指定数据库中的文献形成,上述指定数据库中约有5%的医学文献自带了Pubmed标签。Pubmed是美国国家医学图书馆提供的免费信息检索系统,主要提供生物医学方面的论文检索。上述Pubmed标签是指Pubmed检索系统中的文献的摘要内容中,对不同段落或不同分句进行的标签标注,以表示该段落或该分句叙述的主要内容。但是Pubmed标签中存在标准不一、名称不同等缺陷,无法直接用于模型训练,需要进行归一化调整和优化,以免影响模型的训练效果。举例地,对于研究目的AIMS这一标签,存在Objective、Aim、BackgroundandObjective等不同标签标注名称,针对上述不同的标签标注名称,需要进行归并映射到标准类标签,提高训练集的质量。本申请通过最大概率的排序,对样本进行筛选,以过滤掉错误的标签数据,进一步提高训练集的质量。上述的最大概率的排序通过统计分析上述指定数据库中大部分的文献得到。本申请对于针对整个段落的标签标注,进行了向各分句匹配标注的操作。比如,研究方法对应的段落,其标签标注为“Method”,而研究方法对应的段落共由三个分句组成,则每个分句分别对应标注“Method”,以便于本申请通过句子序列对应的标签类型进行有效分类的技术方案相匹配。
进一步地,映射模块包括:
第一判断单元,用于判断所述第一样本中携带的指定标签名称,是否包含于所述标准类标签的所有标签名称中,其中,所述指定标签名称为所述第一样本中包括的所有标签名称中的任一标签名称;
第二获取单元,用于若未包含于所述标准类标签的所有标签名称中,则分别获取所述指定标签名称与所述标准类标签中的各标签名称的向量距离;
第二判断单元,用于判断是否存在所述向量距离小于预设阈值的第一标签名称,其中,所述第一标签名称为所述标准类标签中所有标签名称中的任一标签名称;
归并单元,用于若存在所述向量距离小于预设阈值的第一标签名称,则将所述指定标签名称归并为所述第一标签名称,否则删除所述第一样本;
映射单元,用于按照所述指定标签名称归并为所述第一标签名称的过程,将所述第一样本中携带的Pubmed标签,分别对应映射为所述标准类标签。
本申请在对于研究目的“AIMS”这一标签标注,存在Objective、Aim、BackgroundandObjective等不同标签名称的情况下的归并过程,通过向量距离最近的原则,选择归并后的标准类标签,实现不同的标签名称的自动准确归并到标准类标签,以统一所有样本中的标签标注,并使用最大概率的排布,过滤掉噪音数据,有效的提高了训练样本的标签标注的质量,减少了专家标注和审核的过程,节省了大量的人力,实现了基于PubMed中少量带有标签的文献,自动构建高质量的标签数据集,作为模型的训练集,提高模型训练效果。本申请的训练集对应的数据领域不限于医学领域,当训练集为法律、建筑等其他领域的带有标签的数据集时,对于文献分类的深度学习模型也适用于其他领域,原理相类似,不赘述。
进一步地,判断模块包括:
第三判断单元,用于判断所述第一样本的内容类别是否属于临床试验研究类别;
第一调取单元,用于若不属于临床试验研究类别,则调取通过统计所述指定数据库中所有文献中的标签排序,得到的最大概率的第一排序;
第四判断单元,用于判断所述第一样本对应的标准类标签的排序,是否符合所述第一排序的排列趋势;
第一判定单元,用于若符合所述第一排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
本申请自动构建的训练集有两类,根据医学文献的具体内容类别不同而不同。上述内容类别可通过识别文本关键字中是否包括“临床试验”或“临床”等临床试验研究类别特有的关键字,若包括则判定为临床试验研究类别,否则归属于一般医学文献。标准类标签一个是针对一般医学文献都适用的AMRCN五类别的标准类标签,以及适用于临床试验研究类别的医学文献的AMPIORCN八类别的标准类标签。对于医学文献的摘要内容的结构化的标签标注,标签标注之间的排列顺序是有依赖关系的。即使完全不考虑文章的文本内容,文章语句标签标注的顺序也服从一定的概率分布,而不是随机的。比如,文章开头几句话的标签标注一般是“Aim”,文章的最后几句话的标签标注一般是“Conclusion”。这种语句标签之间的概率分布,即上述的最大概率的排序,可以用来噪音标签数据的过滤。对于包括AMRCN五类别的医疗文献,其标签标注的最大概率的标签顺序是A→M→R→C→N。上述A表示(Aim,研究目的)、上述M表示(Method,研究方法)、上述R表示(Result,研究结果)、上述C表示(Conclusion,研究结论)、上述N表示(nothing to do with something,文章内容无关标签,比如致谢作者机构信息等)。上述符合最大概率的标签顺序,指排列趋势一致,而不仅仅限定为完全相同。一篇摘要内容的真实标签标注不一定包含所有的标准类标签,只要求存在的标签标注符合最大概率的标签顺序即可。比如五分类的标准类标签,最大概率的标签顺序为A→M→R→C→N。若一篇摘要只包含A、C、N三个标签标注,三个标签标注的顺序符合A→M(没有则忽略)→R(没有则忽略)→C→N即可。本申请自动构建了适应于所有医学文献的AMRCN五分类的标签数据集,数据规模达20万。
进一步地,判断模块包括:
第二调取单元,用于若属于临床试验研究类别,则调取通过统计所述指定数据库中所有所述临床试验研究类别的文献的标签排序,得到的最大概率的第二排序;
第五判断单元,用于判断所述第一样本对应的标准类标签的排序,是否符合所述第二排序的排列趋势;
第二判定单元,用于若符合所述第二排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
本申请中,临床试验研究类别的文献的摘要内容的结构化标签数据,包括AMPIORCN八个类别的标签标注,其中包括标签标注P(Participant,参与者)、标签标注I(Intervention,干预条件)、标签标注O(Outcome,结果),也统计出上述八个类别的标签标注的依赖顺序。临床试验研究类别的文献,一般会先讲参与医学实验的Participant,再讲临床试验的Intervention,然后讲临床试验的Outcome。通过统计分析得出上述AMPIORCN八个类别的标签标注的最大概率的标签顺序是A→M→P→I→O→R→C→N。通过对临床试验研究类别的医学文献的进行自动筛选处理,构建了适用于临床试验研究类别的文献的AMPIORCN八类别标签标注的数据集,数据规模达5万。本申请通过标签数据的构建中使用的最大概率的标签排序,过滤掉噪音标签数据样例。比如一篇医学文献,对摘要内容进行分句后,如果有N个分句,每个分句都有对应的标签标注,则该摘要内容的标签标注是(Label_1,…,Label_n),Label_n表示该摘要内容第n句话的标签标注。通过判断(Label_1,…,Label_n)标签排序,是否符合最大概率的标签排序,如果符合则保留该摘要内容对应的数据样本;反之则说明该数据样本是噪音标签数据,需删除该数据样本。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于深度学习模型的文献分类过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于深度学习模型的文献分类方法。
上述处理器执行上述基于深度学习模型的文献分类方法,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,方法包括:获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;根据所述预测标签序列对所述指定文献进行分类。
上述计算机设备,通过设计基于层次RNN的网络模型,网络模型为包括BiLSTM层和Attention层的网络结构,学习表征句子信息的表征向量,然后针对所有分句的句子序列,再次使用BiLSTM层学习句子序列,并通过CRF层得到句子序列对应的预测标签序列,然后进行有效分类,有效利用了每个分句的表征向量更深层的语义信息,以及分句间的深层语义信息,提高模型对文献筛选分类的精准效果。
在一个实施例中,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,上述处理器获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤,包括:将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
在一个实施例中,上述处理器获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤之前,包括:获取指定数据库中各样本文献的Pubmed标签;根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签,其中,所述第一样本为所述指定数据库中的任一摘要样本;判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序;若是,则将所述第一样本添加至训练集,否则舍弃所述第一样本;利用所述训练集训练所述深度学习模型,以确定所述深度学习模型中的各参量。
在一个实施例中,上述处理器根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签的步骤,包括:判断所述第一样本中携带的指定标签名称,是否包含于所述标准类标签的所有标签名称中,其中,所述指定标签名称为所述第一样本中包括的所有标签名称中的任一标签名称;若否,则分别获取所述指定标签名称与所述标准类标签中的各标签名称的向量距离;判断是否存在所述向量距离小于预设阈值的第一标签名称,其中,所述第一标签名称为所述标准类标签中所有标签名称中的任一标签名称;若是,则将所述指定标签名称归并为所述第一标签名称,否则删除所述第一样本;按照所述指定标签名称归并为所述第一标签名称的过程,将所述第一样本中携带的Pubmed标签,分别对应映射为所述标准类标签。
在一个实施例中,上述处理器判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序的步骤,包括:判断所述第一样本的内容类别是否属于临床试验研究类别;若不属于临床试验研究类别,则调取通过统计所述指定数据库中所有文献中的标签排序,得到的最大概率的第一排序;判断所述第一样本对应的标准类标签的排序,是否符合所述第一排序的排列趋势;若符合所述第一排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
在一个实施例中,上述处理器判断所述第一样本的内容类别是否属于临床试验研究类别的步骤之后,包括:若属于临床试验研究类别,则调取通过统计所述指定数据库中所有所述临床试验研究类别的文献的标签排序,得到的最大概率的第二排序;判断所述第一样本对应的标准类标签的排序,是否符合所述第二排序的排列趋势;若符合所述第二排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于深度学习模型的文献分类方法,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,方法包括:获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;根据所述预测标签序列对所述指定文献进行分类。
上述计算机可读存储介质,通过设计基于层次RNN的网络模型,网络模型为包括BiLSTM层和Attention层的网络结构,学习表征句子信息的表征向量,然后针对所有分句的句子序列,再次使用BiLSTM层学习句子序列,并通过CRF层得到句子序列对应的预测标签序列,然后进行有效分类,有效利用了每个分句的表征向量更深层的语义信息,以及分句间的深层语义信息,提高模型对文献筛选分类的精准效果。
在一个实施例中,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,上述处理器获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤,包括:将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
在一个实施例中,上述处理器获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤之前,包括:获取指定数据库中各样本文献的Pubmed标签;根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签,其中,所述第一样本为所述指定数据库中的任一摘要样本;判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序;若是,则将所述第一样本添加至训练集,否则舍弃所述第一样本;利用所述训练集训练所述深度学习模型,以确定所述深度学习模型中的各参量。
在一个实施例中,上述处理器根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签的步骤,包括:判断所述第一样本中携带的指定标签名称,是否包含于所述标准类标签的所有标签名称中,其中,所述指定标签名称为所述第一样本中包括的所有标签名称中的任一标签名称;若否,则分别获取所述指定标签名称与所述标准类标签中的各标签名称的向量距离;判断是否存在所述向量距离小于预设阈值的第一标签名称,其中,所述第一标签名称为所述标准类标签中所有标签名称中的任一标签名称;若是,则将所述指定标签名称归并为所述第一标签名称,否则删除所述第一样本;按照所述指定标签名称归并为所述第一标签名称的过程,将所述第一样本中携带的Pubmed标签,分别对应映射为所述标准类标签。
在一个实施例中,上述处理器判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序的步骤,包括:判断所述第一样本的内容类别是否属于临床试验研究类别;若不属于临床试验研究类别,则调取通过统计所述指定数据库中所有文献中的标签排序,得到的最大概率的第一排序;判断所述第一样本对应的标准类标签的排序,是否符合所述第一排序的排列趋势;若符合所述第一排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
在一个实施例中,上述处理器判断所述第一样本的内容类别是否属于临床试验研究类别的步骤之后,包括:若属于临床试验研究类别,则调取通过统计所述指定数据库中所有所述临床试验研究类别的文献的标签排序,得到的最大概率的第二排序;判断所述第一样本对应的标准类标签的排序,是否符合所述第二排序的排列趋势;若符合所述第二排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种基于深度学习模型的文献分类方法,其特征在于,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,方法包括:
获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;
按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;
将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;
将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;
根据所述预测标签序列对所述指定文献进行分类;
所述Attention层进行Attention计算过程如下:通过公式
Figure FDA0003705794950000011
Figure FDA0003705794950000012
计算i分词对应的权重分值;然后通过公式s=∑iαihi,i=1,…,n,计算i分词所在分句的表征向量,即通过与改分句中其他所有的源单词的权重分值的加权和,得到分句的表征向量S,其中,h表示上下文信息的隐藏向量;
所述获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤之前,包括:
获取指定数据库中各样本文献的Pubmed标签;
根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签,其中,所述第一样本为所述指定数据库中的任一摘要样本;
判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序;
若是,则将所述第一样本添加至训练集,否则舍弃所述第一样本;
利用所述训练集训练所述深度学习模型,以确定所述深度学习模型中的各参量。
2.根据权利要求1所述的基于深度学习模型的文献分类方法,其特征在于,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,所述获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量的步骤,包括:
将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;
将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;
将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;
将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;
根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
3.根据权利要求1所述的基于深度学习模型的文献分类方法,其特征在于,所述根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签的步骤,包括:
判断所述第一样本中携带的指定标签名称,是否包含于所述标准类标签的所有标签名称中,其中,所述指定标签名称为所述第一样本中包括的所有标签名称中的任一标签名称;
若否,则分别获取所述指定标签名称与所述标准类标签中的各标签名称的向量距离;
判断是否存在所述向量距离小于预设阈值的第一标签名称,其中,所述第一标签名称为所述标准类标签中所有标签名称中的任一标签名称;
若是,则将所述指定标签名称归并为所述第一标签名称,否则删除所述第一样本;
按照所述指定标签名称归并为所述第一标签名称的过程,将所述第一样本中携带的Pubmed标签,分别对应映射为所述标准类标签。
4.根据权利要求1所述的基于深度学习模型的文献分类方法,其特征在于,所述判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序的步骤,包括:
判断所述第一样本的内容类别是否属于临床试验研究类别;
若不属于临床试验研究类别,则调取通过统计所述指定数据库中所有文献中的标签排序,得到的最大概率的第一排序;
判断所述第一样本对应的标准类标签的排序,是否符合所述第一排序的排列趋势;
若符合所述第一排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
5.根据权利要求4所述的基于深度学习模型的文献分类方法,其特征在于,所述判断所述第一样本的内容类别是否属于临床试验研究类别的步骤之后,包括:
若属于临床试验研究类别,则调取通过统计所述指定数据库中所有所述临床试验研究类别的文献的标签排序,得到的最大概率的第二排序;
判断所述第一样本对应的标准类标签的排序,是否符合所述第二排序的排列趋势;
若符合所述第二排序的排列趋势,则判定所述第一样本对应的标准类标签的排序,符合最大概率的标签顺序,否则不符合。
6.一种基于深度学习模型的文献分类装置,其特征在于,所述深度学习模型包括第一BiLSTM层、衔接在所述第一BiLSTM层之后的Attention层、衔接在所述Attention层之后的第二BiLSTM层以及衔接在所述第二BiLSTM层之后的CRF层,装置包括:
第一获取模块,用于获取指定文献的摘要内容的每个分句,依次通过所述第一BiLSTM层和所述Attention层处理后分别对应的表征向量;
形成模块,用于按照各所述分句在所述指定文献的摘要内容的自然排布次序,依次排列各所述分句分别对应的表征向量,形成所述指定文献的摘要内容的表征向量序列;
第一得到模块,用于将所述表征向量序列输入至第二BiLSTM层,得到所述表征向量序列对应的第二隐藏向量序列;
第二得到模块,用于将所述第二隐藏向量序列经过CRF层,得到所述指定文献摘要内容的每个分句分别对应的预测标签序列;
分类模块,用于根据所述预测标签序列对所述指定文献进行分类;
所述Attention层进行Attention计算过程如下:通过公式
Figure FDA0003705794950000041
Figure FDA0003705794950000042
计算i分词对应的权重分值;然后通过公式s=∑iαihi,i=1,…,n,计算i分词所在分句的表征向量,即通过与改分句中其他所有的源单词的权重分值的加权和,得到分句的表征向量S,其中,h表示上下文信息的隐藏向量;
第二获取模块,用于获取指定数据库中各样本文献的Pubmed标签;
映射模块,用于根据第一样本中携带的Pubmed标签,映射得到所述第一样本对应的标准类标签,其中,所述第一样本为所述指定数据库中的任一摘要样本;
判断模块,用于判断所述第一样本对应的标准类标签的排序,是否符合最大概率的标签顺序;
添加模块,用于若符合最大概率的标签顺序,则将所述第一样本添加至训练集,否则舍弃所述第一样本;
训练模块,用于利用所述训练集训练所述深度学习模型,以确定所述深度学习模型中的各参量。
7.根据权利要求6所述的基于深度学习模型的文献分类装置,其特征在于,所述深度学习模型还包括衔接在所述第一BiLSTM层之前的TokenEmbedding层,所述第一获取模块包括:
分词单元,用于将第一分句进行分词处理,得到所述第一分句对应的分词序列,其中,所述第一分句包含于所述指定文献摘要内容的所有分句中;
转化单元,用于将所述分词序列输入所述TokenEmbedding层,转化为各分词分别对应的词向量,并形成所述第一分句对应的词向量序列;
输入单元,用于将所述第一分句对应的词向量序列输入所述第一BiLSTM层,得到所述词向量序列对应的第一隐藏向量序列,其中,所述第一隐藏向量序列中各隐藏向量的排布次序与所述第一分句各分词的排布次序相同,各隐藏向量携带句子信息,所述句子信息包括所述第一分句与第二分句的语义关联关系,第二分句为所述指定文献的摘要内容中与所述第一分句相邻排布的分句;
计算单元,用于将所述第一隐藏向量序列输入所述Attention层进行Attention计算,得到所述第一分句对应的表征向量;
第一获取单元,用于根据所述第一分句对应的表征向量的获得过程,获取所述指定文献的摘要内容中各分句分别对应的表征向量。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5 中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5 中任一项所述的方法的步骤。
CN202010519585.3A 2020-06-09 2020-06-09 基于深度学习模型的文献分类方法、装置和计算机设备 Active CN111507089B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010519585.3A CN111507089B (zh) 2020-06-09 2020-06-09 基于深度学习模型的文献分类方法、装置和计算机设备
PCT/CN2020/118942 WO2021139274A1 (zh) 2020-06-09 2020-09-29 基于深度学习模型的文献分类方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519585.3A CN111507089B (zh) 2020-06-09 2020-06-09 基于深度学习模型的文献分类方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111507089A CN111507089A (zh) 2020-08-07
CN111507089B true CN111507089B (zh) 2022-09-09

Family

ID=71878805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519585.3A Active CN111507089B (zh) 2020-06-09 2020-06-09 基于深度学习模型的文献分类方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN111507089B (zh)
WO (1) WO2021139274A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507089B (zh) * 2020-06-09 2022-09-09 平安科技(深圳)有限公司 基于深度学习模型的文献分类方法、装置和计算机设备
CN112307190B (zh) * 2020-10-31 2023-07-25 平安科技(深圳)有限公司 医学文献排序方法、装置、电子设备及存储介质
CN112507117B (zh) * 2020-12-16 2024-02-13 中国南方电网有限责任公司 一种基于深度学习的检修意见自动分类方法及系统
CN112989790B (zh) * 2021-03-17 2023-02-28 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210037A (zh) * 2019-06-12 2019-09-06 四川大学 面向循证医学领域的类别检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108595497B (zh) * 2018-03-16 2019-09-27 北京达佳互联信息技术有限公司 数据筛选方法、装置及终端
US11055557B2 (en) * 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
US10678830B2 (en) * 2018-05-31 2020-06-09 Fmr Llc Automated computer text classification and routing using artificial intelligence transfer learning
CN108960316B (zh) * 2018-06-27 2020-10-30 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
CN110459282B (zh) * 2019-07-11 2021-03-09 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN111177296B (zh) * 2019-12-30 2022-12-06 科大讯飞股份有限公司 信息推荐方法、装置、电子设备及计算机存储介质
CN111242083B (zh) * 2020-01-21 2024-01-26 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质
CN111507089B (zh) * 2020-06-09 2022-09-09 平安科技(深圳)有限公司 基于深度学习模型的文献分类方法、装置和计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210037A (zh) * 2019-06-12 2019-09-06 四川大学 面向循证医学领域的类别检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
注意力机制的BiLSTM模型在招聘信息分类中的应用;吕飞亚等;《计算机系统应用》;20200415;第29卷(第04期);第242-247页 *

Also Published As

Publication number Publication date
WO2021139274A1 (zh) 2021-07-15
CN111507089A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111507089B (zh) 基于深度学习模型的文献分类方法、装置和计算机设备
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN112817561B (zh) 软件需求文档的事务类功能点结构化抽取方法及系统
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN110209743B (zh) 知识管理系统及方法
CN115098706A (zh) 一种网络信息提取方法及装置
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN114298314A (zh) 一种基于电子病历的多粒度因果关系推理方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
AU2018226420B2 (en) Voice assisted intelligent searching in mobile documents
US10504145B2 (en) Automated classification of network-accessible content based on events
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
CN112347252A (zh) 一种基于cnn文本分类模型的可解释性分析方法
CN109992647A (zh) 一种内容搜索方法及装置
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN113780006A (zh) 医学语义匹配模型的训练方法、医学知识匹配方法及装置
CN112686042A (zh) 基于主题驱动的专利推荐方法、系统、设备及存储介质
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40033523

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant