CN113836292A - 生物医学文献摘要的结构化方法、系统、设备及介质 - Google Patents
生物医学文献摘要的结构化方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113836292A CN113836292A CN202111081575.7A CN202111081575A CN113836292A CN 113836292 A CN113836292 A CN 113836292A CN 202111081575 A CN202111081575 A CN 202111081575A CN 113836292 A CN113836292 A CN 113836292A
- Authority
- CN
- China
- Prior art keywords
- biomedical
- abstract
- literature
- structured
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 10
- 241000393496 Electra Species 0.000 claims description 5
- 238000011160 research Methods 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供生物医学文献摘要的结构化方法,包括:根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。本发明的生物医学文献摘要的结构化方法,能够保证对生物医学文献摘要的全部内容进行结构化,使得生物医学文献摘要的内容更加规范化,有效提高生物医学研究工作者的科研效率和创新效率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种生物医学文献摘要的结构化方法、系统、设备、非暂态计算机可读存储介质、以及计算机程序产品。
背景技术
大数据时代的到来为生物医学研究提供了海量的文献来源,面对呈指数形式增长的生物医学文献,生物医学研究工作者收集、筛选、分析文献的难度也越来越大。摘要作为一篇文章的概述,拥有与文献同等量的主要信息,成为人们从海量文本信息中快捷获取知识的重要部分。
摘要是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。其基本要素包括研究目的、方法、结果和结论四个部分。在不同场景下,生物医学研究所关注的摘要的部分并不相同,例如在循证医学研究的场景下,获取随机对照试验的临床文献,生物医学研究工作者只需要关注摘要的方法部分,即可快速判断对应的文献类型,进而选择合适的文献进行生物医学研究。但是目前的生物医学文献的摘要存在各部分书写不明确、书写不规范、表达不清晰的问题,为生物医学研究工作者快捷获取知识设置了巨大的阻碍。
由此开发了对文献摘要的结构化技术,传统的文献摘要结构化方法会利用特定的规则字典对摘要进行判定,对于非完全结构化或比较复杂的文献摘要而言,该方法只可以判定摘要的部分结构化,而剩余的部分无法判定,导致无法真正实现文献摘要的结构化。因此,亟需一种更完善的生物医学文献摘要结构化方法。
发明内容
本发明提供一种生物医学文献摘要的结构化方法,能够保证对生物医学文献摘要的全部内容进行结构化,使得生物医学文献摘要的内容更加规范化,有利于生物医学研究工作者通过快速获取生物医学结构化文献摘要的内容来准确判断是否需要阅读该生物医学文献,有效提高生物医学研究工作者的科研效率和创新效率。
本发明提供一种生物医学文献摘要的结构化方法,包括:
根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
根据本发明提供的一种生物医学文献摘要的结构化方法,所述根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,基于生物医学目的规则字典的判别、生物医学方法规则字典的判别、生物医学结果规则字典的判别、以及生物医学结论规则字典的判别,形成生物医学文献摘要分类流程。
根据本发明提供的一种生物医学文献摘要的结构化方法,所述根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分,具体流程为:
判别生物医学文献摘要是否通过生物医学目的规则字典的判别,若是,则进入生物医学方法规则字典判别,若否,则将所述生物医学文献摘要归类为完全非结构化文献摘要;
判别生物医学文献摘要是否通过生物医学方法规则字典的判别,若是,则进入生物医学结果规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结果规则字典的判别,若是,则进入生物医学结论规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别和生物医学方法规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结论规则字典的判别,若是,则将所述生物医学文献摘要归类为完全结构化文献摘要,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别、生物医学方法规则字典、和生物医学结果规则字典判别的部分为已结构化部分,其余部分为待结构化部分。
根据本发明提供的一种生物医学文献摘要的结构化方法,所述利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要,包括:
对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行分句和标记;
利用生物医学文献摘要结构化模型分别计算每个句子对应生物医学目的类别、生物医学方法类别、生物医学结果类别、和生物医学结论类别的概率;
根据句子对应概率最大的类别为该句子所属类别,得到生物医学结构化文献摘要。
根据本发明提供的一种生物医学文献摘要的结构化方法,所述利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要,包括:
利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要的生物医学文献摘要的待结构化部分进行结构化后,将其与该生物医学文献摘要的已结构化部分进行合并,得到生物医学结构化文献摘要;
利用生物医学文献摘要结构化模型对分类为完全非结构化文献摘要的生物医学文献摘要进行结构化后,直接得到生物医学结构化文献摘要。
根据本发明提供的一种生物医学文献摘要的结构化方法,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到,包括:
获取摘要文本数据;
采用ELECTRA模型框架,结合摘要文本数据进行训练,得到生物医学文献摘要结构化模型。
本发明还提供一种生物医学文献摘要的结构化系统,包括:
生物医学文献摘要分类模块,用于根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
生物医学文献摘要结构化模块,用于利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于动态知识图谱的托攻击检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述生物医学文献摘要的结构化方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述生物医学文献摘要的结构化方法的步骤。
本发明提供的生物医学文献摘要的结构化方法,先根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,再利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要的生物医学文献摘要的待结构化部分或分类为完全非结构化文献摘要的生物医学文献摘要进行结构化,继而得到生物医学结构化文献摘要。本发明提供的生物医学文献摘要的结构化方法,能够保证对生物医学文献摘要的全部内容进行结构化,使得生物医学文献摘要的内容更加规范化,有利于生物医学研究工作者通过快速获取生物医学结构化文献摘要的内容来准确判断是否需要阅读该生物医学文献,有效提高生物医学研究工作者的科研效率和创新效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的生物医学文献摘要的结构化方法的流程示意图;
图2是本发明提供的生物医学文献摘要的结构化方法的生物医学文献摘要分类流程的流程示意图;
图3是本发明提供的生物医学文献摘要的结构化系统的模块示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的生物医学文献摘要的结构化方法、系统、设备、非暂态计算机可读存储介质、以及计算机程序产品。
本发明的生物医学文献摘要的结构化方法,如图1所示,包括:
S1:根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分。
具体地,所述根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,基于生物医学目的规则字典的判别、生物医学方法规则字典的判别、生物医学结果规则字典的判别、以及生物医学结论规则字典的判别,形成生物医学文献摘要分类流程。
可以通过以下方式获得生物医学目的规则字典、生物医学方法规则字典、生物医学结果规则字典、以及生物医学结论规则字典:
先从中文数据网站收集所有生物医学文献,然后从中随机抽取10000篇,或更多篇,抽取的次数和所抽取的生物医学文献的篇量可以根据实际情况调整。
再整理若干生物医学文献中关于生物医学目的、生物医学方法、生物医学结果、和生物医学结论的关键词。
然后根据关键词,分别构建生物医学目的规则字典、生物医学方法规则字典、生物医学结果规则字典、和生物医学结论规则字典。
再者,在构建生物医学目的规则字典、生物医学方法规则字典、生物医学结果规则字典、和生物医学结论规则字典时,可以再次从先前收集的生物医学文献中抽取10000篇,以检验和扩充生物医学规则字典。
进一步地,如图2所示,基于生物医学目的规则字典的判别、生物医学方法规则字典的判别、生物医学结果规则字典的判别、以及生物医学结论规则字典的判别所形成的生物医学文献摘要分类流程具体为:
判别生物医学文献摘要是否通过生物医学目的规则字典的判别,若是,则进入生物医学方法规则字典判别,若否,则将所述生物医学文献摘要归类为完全非结构化文献摘要;
判别生物医学文献摘要是否通过生物医学方法规则字典的判别,若是,则进入生物医学结果规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结果规则字典的判别,若是,则进入生物医学结论规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别和生物医学方法规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结论规则字典的判别,若是,则将所述生物医学文献摘要归类为完全结构化文献摘要,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别、生物医学方法规则字典、和生物医学结果规则字典判别的部分为已结构化部分,其余部分为待结构化部分。
对生物医学文献摘要进行多层级的规则判别,能够更加准确地将生物医学文献摘要归类,便于后续步骤的进行。
另外,生物医学目的规则字典判别、生物医学方法规则字典判别、生物医学结果规则字典判别、和生物医学结论规则字典判别的判别顺序可以根据实际使用情况进行调整。
S2:利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要,其中所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
具体地,摘要文本数据可以从分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要中选取。
S2包括:
S201:对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行分句和标记。
S202:利用生物医学文献摘要结构化模型分别计算被分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要中每个句子对应生物医学目的类别、生物医学方法类别、生物医学结果类别、和生物医学结论类别的概率。
S203:根据句子对应概率最大的类别为该句子所属类别,得到生物医学结构化文献摘要。
具体地,对分类为部分结构化文献摘要的生物医学文献摘要的待结构化部分进行结构化后,将其与该生物医学文献摘要的已结构化部分进行合并,得到生物医学结构化文献摘要;对分类为完全非结构化文献摘要的生物医学文献摘要进行结构化后,直接得到生物医学结构化文献摘要。
通过本发明提供的生物医学文献摘要的结构化方法所得的生物医学结构化文献摘要包括生物医学目的、生物医学方法、生物医学结果、和生物医学结论四个部分,且优选将其按照统一顺序进行排列,以提高所得的生物医学结构化文献摘要的规范性。
另外,在执行S1和S2之前,可以预先训练得到生物医学文献摘要分类模型和生物医学文献摘要结构化模型。具体地,可以预先通过以下方式训练得到生物医学文献摘要结构化模型:
获取摘要文本数据;
采用ELECTRA模型框架,结合摘要文本数据进行训练,得到生物医学文献摘要结构化模型。
优选地,在训练过程中可以加入EMA指标(权重滑动平均指标),以改善训练过程的稳定性,提高训练所得的生物医学文献摘要结构化模型的鲁棒性。
优选地,在评估生物医学文献摘要结构化模型的效果时,,可以采用计算Macro-F1Score来进行评估,计算Macro-F1 Score前需要先计算F1 Score。
具体地,计算Macro-F1 Score的公式为:
计算F1 Score的公式为:
其中Macro F1表示Macro-F1 Score的值,n表示类别的数量(本申请在模型的训练过程中包括四个类别:生物医学目的类别、生物医学方法类别、生物医学结果类别、和生物医学结论类别),F1表示F1 Score的值,R表示召回率,P表示精确率。
计算所得的Macro-F1 Score的值越高,训练所得的生物医学文献摘要结构化模型的性能越好。
当利用生物医学文献摘要结构化模型分别计算生物医学文献摘要中每个句子对应生物医学目的类别、生物医学方法类别、生物医学结果类别、和生物医学结论类别的概率时,会采用ELECTRA模型框架中的最后四层的平均值作为句向量,再将句向量输入到第一全连接层中,以对句向量进行特征变换,具体是将768维的句向量转换为256维的句向量,然后再将256维的句向量输入到第二全连接层中,结合softmax激活函数,将256维的句向量转换为介于0-1的值,以得到子部分对应生物医学目的类别、生物医学方法类别、生物医学结果类别、和生物医学结论类别的概率。
再根据句子对应概率最大的类别为该句子所属类别,得到生物医学结构化文献摘要。
例如,分类为部分结构化文献摘要的生物医学文献摘要中的待结构化部分包括五个句子,对其进行分句,将这五个句子输入到生物医学文献摘要结构化模型中,生物医学文献摘要结构化模型对其中一个句子进行计算,计算得到句子对应生物医学目的类别的概率为0.7,对应生物医学方法类别的概率为0.2,对应生物医学结果类别的概率为0.05,对应生物医学结论类别的概率为0.05。那么生物医学文献摘要结构化模型对该句子的结构化结果为该子部分属于生物医学目的类别。以此类推,得到五个句子分别属于的类别,再将其按照统一顺序进行排列,得到生物医学结构化文献摘要。
本发明提供的生物医学文献摘要的结构化方法,先将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,再利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要的生物医学文献摘要的待结构化部分或分类为完全非结构化文献摘要的生物医学文献摘要进行结构化,继而得到生物医学结构化文献摘要。本发明提供的生物医学文献摘要的结构化方法,能够保证对生物医学文献摘要的全部内容进行结构化,使得生物医学文献摘要的内容更加规范化,有利于生物医学研究工作者通过快速获取生物医学结构化文献摘要的内容来准确判断是否需要阅读该生物医学文献,有效提高生物医学研究工作者的科研效率和创新效率。
下面对本发明提供的生物医学文献摘要的结构化系统、设备、非暂态计算机可读存储介质、及计算机程序产品进行描述,下文描述的生物医学文献摘要的结构化系统、设备、非暂态计算机可读存储介质、及计算机程序产品与上文描述的生物医学文献摘要的结构化方法可相互对应参照。
本发明提供一种生物医学文献摘要的结构化系统,如图3所示,包括:
生物医学文献摘要分类模块310,用于根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,其中所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
生物医学文献摘要结构化模块320,用于利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
进一步地,所述生物医学文献摘要分类模块310中的根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,基于生物医学目的规则字典的判别、生物医学方法规则字典的判别、生物医学结果规则字典的判别、以及生物医学结论规则字典的判别,形成生物医学文献摘要分类流程。
进一步地,所述生物医学文献摘要分类流程为:
判别生物医学文献摘要是否通过生物医学目的规则字典的判别,若是,则进入生物医学方法规则字典判别,若否,则将所述生物医学文献摘要归类为完全非结构化文献摘要;
判别生物医学文献摘要是否通过生物医学方法规则字典的判别,若是,则进入生物医学结果规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结果规则字典的判别,若是,则进入生物医学结论规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别和生物医学方法规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结论规则字典的判别,若是,则将所述生物医学文献摘要归类为完全结构化文献摘要,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别、生物医学方法规则字典、和生物医学结果规则字典判别的部分为已结构化部分,其余部分为待结构化部分。
进一步地,所述生物医学文献摘要结构化模块320,包括:
分句和标记模块,用于对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行分句和标记;
类别概率计算模块,用于利用生物医学文献摘要结构化模型分别计算每个句子对应生物医学目的类别、生物医学方法类别、生物医学结果类别、和生物医学结论类别的概率;
结构化文献摘要获得模块,用于根据句子对应概率最大的类别为该句子所属类别,得到生物医学结构化文献摘要。
进一步地,所述生物医学文献摘要结构化模块320包括:
合并模块,用于利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要的生物医学文献摘要的待结构化部分进行结构化后,将其与该生物医学文献摘要的已结构化部分进行合并,得到生物医学结构化文献摘要;
直接得到模块,用于利用生物医学文献摘要结构化模型对分类为完全非结构化文献摘要的生物医学文献摘要进行结构化后,直接得到生物医学结构化文献摘要。
进一步地,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到,包括:
获取摘要文本数据;
采用ELECTRA模型框架,结合摘要文本数据进行训练,得到生物医学文献摘要结构化模型。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行生物医学文献摘要的结构化方法,该方法包括:
根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的生物医学文献摘要的结构化方法,该方法包括:
根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的生物医学文献摘要的结构化方法,该方法包括:
根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种生物医学文献摘要的结构化方法,其特征在于,包括:
根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
2.根据权利要求1所述的生物医学文献摘要的结构化方法,其特征在于,所述根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,基于生物医学目的规则字典的判别、生物医学方法规则字典的判别、生物医学结果规则字典的判别、以及生物医学结论规则字典的判别,形成生物医学文献摘要分类流程。
3.根据权利要求2所述的生物医学文献摘要的结构化方法,其特征在于,所述生物医学文献摘要分类流程为:
判别生物医学文献摘要是否通过生物医学目的规则字典的判别,若是,则进入生物医学方法规则字典判别,若否,则将所述生物医学文献摘要归类为完全非结构化文献摘要;
判别生物医学文献摘要是否通过生物医学方法规则字典的判别,若是,则进入生物医学结果规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结果规则字典的判别,若是,则进入生物医学结论规则字典判别,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别和生物医学方法规则字典判别的部分为已结构化部分,其余部分为待结构化部分;
判别生物医学文献摘要是否通过生物医学结论规则字典的判别,若是,则将所述生物医学文献摘要归类为完全结构化文献摘要,若否,则将所述生物医学文献摘要归类为部分结构化文献摘要,其中所述生物医学文献中通过生物医学目的规则字典判别、生物医学方法规则字典、和生物医学结果规则字典判别的部分为已结构化部分,其余部分为待结构化部分。
4.根据权利要求3所述的生物医学文献摘要的结构化方法,其特征在于,所述利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要,包括:
对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行分句和标记;
利用生物医学文献摘要结构化模型分别计算每个句子对应生物医学目的类别、生物医学方法类别、生物医学结果类别、和生物医学结论类别的概率;
根据句子对应概率最大的类别为该句子所属类别,得到生物医学结构化文献摘要。
5.根据权利要求1-4任一项所述的生物医学文献摘要的结构化方法,其特征在于,所述利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要,包括:
利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要的生物医学文献摘要的待结构化部分进行结构化后,将其与该生物医学文献摘要的已结构化部分进行合并,得到生物医学结构化文献摘要;
利用生物医学文献摘要结构化模型对分类为完全非结构化文献摘要的生物医学文献摘要进行结构化后,直接得到生物医学结构化文献摘要。
6.根据权利要求1-4任一项所述的生物医学文献摘要的结构化方法,其特征在于,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到,包括:
获取摘要文本数据;
采用ELECTRA模型框架,结合摘要文本数据进行训练,得到生物医学文献摘要结构化模型。
7.一种生物医学文献摘要的结构化系统,其特征在于,包括:
生物医学文献摘要分类模块,用于根据预设分类规则将生物医学文献摘要分类为完全结构化文献摘要、部分结构化文献摘要、或完全非结构化文献摘要,所述部分结构化文献摘要中包括待结构化部分和已结构化部分;
生物医学文献摘要结构化模块,用于利用生物医学文献摘要结构化模型对分类为部分结构化文献摘要或完全非结构化文献摘要的生物医学文献摘要进行结构化,得到生物医学结构化文献摘要;
其中,所述生物医学文献摘要结构化模型基于摘要文本数据训练得到。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述生物医学文献摘要的结构化方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述生物医学文献摘要的结构化方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述生物医学文献摘要的结构化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081575.7A CN113836292B (zh) | 2021-09-15 | 2021-09-15 | 生物医学文献摘要的结构化方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081575.7A CN113836292B (zh) | 2021-09-15 | 2021-09-15 | 生物医学文献摘要的结构化方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836292A true CN113836292A (zh) | 2021-12-24 |
CN113836292B CN113836292B (zh) | 2024-01-09 |
Family
ID=78959506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111081575.7A Active CN113836292B (zh) | 2021-09-15 | 2021-09-15 | 生物医学文献摘要的结构化方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836292B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254572A1 (en) * | 2007-01-05 | 2009-10-08 | Redlich Ron M | Digital information infrastructure and method |
CN102622411A (zh) * | 2012-02-17 | 2012-08-01 | 清华大学 | 一种结构化摘要的生成方法 |
CN105630916A (zh) * | 2015-12-21 | 2016-06-01 | 浙江工业大学 | 一种大数据环境下非结构化表格文档数据抽取与组织方法 |
US20180113867A1 (en) * | 2016-10-25 | 2018-04-26 | International Business Machines Corporation | Natural language processing review and override based on confidence analysis |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN109918672A (zh) * | 2019-03-13 | 2019-06-21 | 东华大学 | 一种基于树结构的甲状腺超声报告的结构化处理方法 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN110555103A (zh) * | 2019-07-22 | 2019-12-10 | 中国人民解放军总医院 | 生物医学实体展示平台的构建方法、装置和计算机设备 |
US20190378179A1 (en) * | 2018-06-12 | 2019-12-12 | Exxonmobil Upstream Research Company | Method and System for Generating Contradiction Scores for Petroleum Geoscience Entities within Text using Associative Topic Sentiment Analysis. |
CN112016279A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 电子病历结构化方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-15 CN CN202111081575.7A patent/CN113836292B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254572A1 (en) * | 2007-01-05 | 2009-10-08 | Redlich Ron M | Digital information infrastructure and method |
CN102622411A (zh) * | 2012-02-17 | 2012-08-01 | 清华大学 | 一种结构化摘要的生成方法 |
CN105630916A (zh) * | 2015-12-21 | 2016-06-01 | 浙江工业大学 | 一种大数据环境下非结构化表格文档数据抽取与组织方法 |
US20180113867A1 (en) * | 2016-10-25 | 2018-04-26 | International Business Machines Corporation | Natural language processing review and override based on confidence analysis |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
US20190378179A1 (en) * | 2018-06-12 | 2019-12-12 | Exxonmobil Upstream Research Company | Method and System for Generating Contradiction Scores for Petroleum Geoscience Entities within Text using Associative Topic Sentiment Analysis. |
CN109918672A (zh) * | 2019-03-13 | 2019-06-21 | 东华大学 | 一种基于树结构的甲状腺超声报告的结构化处理方法 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN110555103A (zh) * | 2019-07-22 | 2019-12-10 | 中国人民解放军总医院 | 生物医学实体展示平台的构建方法、装置和计算机设备 |
CN112016279A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 电子病历结构化方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
JOE TEKLI: "An Overview on XML Semantic Disambiguation from Unstructured Text to Semi-Structured Data: Background, Applications, and Ongoing Challenges", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》, vol. 28, no. 6, pages 1383 - 1407, XP011608038, DOI: 10.1109/TKDE.2016.2525768 * |
杨涛: "面向医学大数据的实验室检查结果结构化、标准化研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 2, pages 054 - 107 * |
Also Published As
Publication number | Publication date |
---|---|
CN113836292B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
CN107291723B (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN107122340B (zh) | 一种基于同义词分析的科技项目申报书的相似度检测方法 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
US20100306204A1 (en) | Detecting duplicate documents using classification | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN111831824A (zh) | 一种舆情正负面分类方法 | |
CN104361059B (zh) | 一种基于多示例学习的有害信息识别和网页分类方法 | |
CN105612515A (zh) | 矛盾表现收集装置以及用于其的计算机程序 | |
CN111666350A (zh) | 一种基于bert模型的医疗文本关系抽取的方法 | |
CN106446124A (zh) | 一种基于网络关系图的网站分类方法 | |
Pratiwi et al. | Implementation of rumor detection on twitter using the svm classification method | |
CN111460803B (zh) | 基于工业物联网设备Web管理页面的设备识别方法 | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN115758183A (zh) | 日志异常检测模型的训练方法及装置 | |
Dung | Natural language understanding | |
CN109753646B (zh) | 一种文章属性识别方法以及电子设备 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN117216687A (zh) | 一种基于集成学习的大语言模型生成文本检测方法 | |
CN105808602A (zh) | 一种垃圾信息的检测方法及装置 | |
CN111538893A (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN108021595A (zh) | 检验知识库三元组的方法及装置 | |
CN113836292A (zh) | 生物医学文献摘要的结构化方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |