CN112732946B

CN112732946B - 一种医学文献的模块化数据分析和数据库建立方法

Info

Publication number: CN112732946B
Application number: CN201910967424.8A
Authority: CN
Inventors: 闾磊; 胡一可; 薛恒; 樊淼淼; 黄甫毅
Original assignee: Sichuan Yishu Technology Co ltd
Current assignee: Sichuan Yishu Technology Co ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2023-04-18
Anticipated expiration: 2039-10-12
Also published as: CN112732946A

Abstract

本发明属于医学文献数据分析和智能处理技术领域，公开了医学文献的模块化数据分析和数据库建立方法,包括对目标医学文献建立外部特征索引，录入标题、DOI号等文献基本信息，为作本发明将要从该文献挖掘的结构化信息的目录；建立文献内容分析模块，基于医学文献的基本特征和逻辑要求，针对各个模块开发独立的结构化录入构架；通过各模块中相互独立的语料知识库，识别文献的各个信息模块，并进行信息提取，将关键信息分别录入对应结构化模块，通过如人工的方法，对读取结果校验和算法优化，并通过对计算机模型进行训练，建立人工智能处理方法；是一种对指定的医学文献全文内关键信息进行模块化分析归集、同时建立模块化数据库的方法。

Description

一种医学文献的模块化数据分析和数据库建立方法

技术领域

本发明属于医学文献数据分析和智能处理技术领域，具体涉及一种医学文献的模块化数据分析和数据库建立方法。

背景技术

医学文献是医学研究者和医务工作人员追踪和学习医学研究进展的最重要的信息来源。而随着现代生物医学各研究领域的长足发展，新研究成果的发表数量，正在爆发式的增长，医学研究者和医务工作者需要每天阅读大量的专业文献，才能跟上现代医学研究的发展速度，这就造成了海量医学文献的阅读要求，与医务工作者有限的学习时间之间的矛盾。

为了解决这一问题，现有技术中（包括在线数据库运用、专利技术文献等）具有一些致力于对文献检索进行优化，缩短检索时间，提高检索精度的技术方案出现，医务工作者可以通过在线数据库高级检索方式，缩小检索范围，提高阅读效率，现有技术中，如公开号为CN102024027A，名称为“一种医学数据库的建立方法”的中国发明专利文献，则公开了一种在获取文献全文后，进一步通过增加注释和加权评分，提高检索效率的技术方案，但是，在各个医学领域信息激增的今天，这些检索优化的方案，由于涉及大量的关键信息录入和学习，在实际运用中并不能很好的降低医务工作者需阅读大量文献内容的实际困难。

而在对文献的数据挖掘上，现目前应用的比较广泛的是MedRank排序方法、基于MEDLINE数据库来构建疾病和药物的关系网；而现有技术中，如公开号为CN106708959A，名称为“一种基于医学文献数据库的组合药物识别与排序方法”的中国发明专利文献，则更进一步通过识别数据库相关信息，对药物进行排序，提供相关研究趋势；而公开号为CN106844671A，名称为“医学文献智能处理方法及系统”的中国发明专利文献，则是试图通过人工智能，读取并分析经过结构化的二级文献信息，根据关键信息，判断其作为循证医学证据的级别。但显而易见，对文献关键词的抽取和关联，只能提供某一研究领域的大致发展趋势，对急需了解这一领域具体研究思路，治疗方案，治疗禁忌以及不良反应等信息的医务工作者而言，并未降低其阅读文献内容的工作强度。

目前对于医学文献内容的汇总和分析，更多的是通过文献综述和荟萃分析的方法，但是通过这些分析方法，不同研究者所得出的结果差异巨大，给出的分析结果也无法从研究细节出发，解释各项研究结果不一致的矛盾，并未解决医务工作者在甄别同质性研究优缺点时，所要承受的大量文献阅读的负担，为了找到对应的内容，读者任然需要对整篇文献进行阅读。

发明内容

本发明的目的在于针对现有技术的不足，提出一种对指定的医学文献全文内关键信息进行模块化挖掘、同时建立模块化数据库的方法和系统，通过不同文献模块间的差异比较，解释研究结果之间的差异并提供详尽的参考治疗方案，增强医务工作者对同质性研究开展过程中细节差异的把控能力，提高对同质性研究方案和结果的甄别效率。

本发明公开的一种医学文献的模块化数据分析和数据库建立方法，其特征在于，包括以下步骤：

特征索引建立步骤，通过网络爬虫对整篇医学文献的数据进行抓取，获得医学文献中的文献标题、发表期刊、时间和/或DOI号中的一种或多种作为索引目录；

结构化步骤，基于医学研究中对医学文献的基本特征和逻辑要求，对医学文献进行模块化分割，按照试验基本信息、研究背景、试验纳入排除标准、基线、统计方法、治疗方案、研究结果、亚组分析和不良反应的分类标准建立若干结构化信息模块；各结构化信息模块根据现代医学文献普遍结构，设计各自独立的结构化特征，为文献中不同结构的信息录入存储提供适宜结构；

结构化录入步骤，通过所述特征索引建立步骤建立的索引目录调取医学文献的内容进行信息提取和识别，通过关键词匹配的方法将医学文献的内容按照所述结构化步骤中的结构化信息模块进行分类归集，将医学文献中匹配到的内容对应录入至所述结构化信息模块中，建立成信息结构化且带有索引目录的结构化文献库；即，使用者在找寻相关文献内容的时候，可以根据医学分类在对应的结构化信息模块中直接针对性的检索到对应的信息内容并调取到其对应文献的信息和数据，有选择的针对有使用价值的内容进行阅读。

检验优化步骤，读取结构化录入步骤的结构化文献库，分析和校验结构化录入的准确性和完整性，并通过调整、修改和/或补充的方式对关键词进行优化，以及对所述结构化录入步骤中的信息提取和识别过程进行训练。

所述特征索引建立步骤中，是通过python网络爬虫工具从网络医学文献数据库中将指定的医学文献整篇下载，并根据设定的索引关键词对整篇医学文献的内容进行抓取获得索引目录。

所述结构化步骤中，每个结构化信息模块中均储存有对应其分类标准的关键词库，所述关键词库是在已有的常规医学特征词词库和预设特征词词库的基础上，通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理，把样本语料中不同类型的医学专用词类型分为若干个不同的簇建立的。

具体的，所述常规医学专用词词库和预设特征词词库中的每一个特征词均有用于特征量化的数字编码，通过k-means聚类算法对经过特征量化的特征词进行聚类计算；

所述特征词的数字编码构成样本数量为N的多维样本数据集，

即，

选取K个特征词（这里的计算过程都是取用特征词对应的数字编码）计算其质心（c₁，c₂，…，c_k），并通过TF-IDF权重计算的方式得到所述K个特征词的向量，所述K个特征词的向量与质心的欧式距离分为K个不同类别的簇（a₁，a₂，…a_k），

其中质心，m_i所表示的是簇a_i中数据点的个数；

由于质心有自己的数字编码，所述k-means聚类算法的聚类目标，其中为特征词的向量x_j与质心c_j的欧式距离；

重复若干次迭代计算对质心进行调整，即选择更合适的点作为质心，直至质心趋于稳定，这样一来，我们就可以通过这种方式对其他词进行编码和处理，形成了基本知识库。

所述结构化步骤中，通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理之前还包括关键词扩展处理过程，具体包括采用Skip-Gram训练模型对常规医学特征词词库和预设特征词词库中的特征词进行分析和处理，过滤掉非必要词汇（如连词，助词等非专业、技术词汇），并通过迭代分词对每个特征词扩展关联词。

所述Skip-Gram训练模型包括输入层、投影层、和输出层；所述扩展关联词是通过输入层输入当前词a_n，然后通过投影层投影预测所述当前词a_n可能关联的关联词并通过输出层输出关联词（a_n-2，a_n-1，a_n+1，a_n+2），根据每个关联词与当前词的向量关系建立矩阵，并通过欧式距离来判断与当前词的关系情况，建立霍夫曼树；霍夫曼树又称最优二叉树，是一种带权路径长度最短的二叉树，既把关联度最高，最相近的叶子节点放到离根节点（中心词）最近的节点位置，从上往下依次根据欧式距离完成霍夫曼二叉树的排列。

所述Skip-Gram训练模型训练目标最大化为

其中，

n为窗口的大小，即输入的当前词的前后词的长度，如设置为5，就表示前后5个词，n的值越大，前后词就会越多，结果就容易更精确；

T为训练文本大小，a_t则表示第t个词的向量；P(a_t+j|a_t)为第t个词出现的概率。

所述检验优化步骤中，是抽选若干结构化录入的结构，通过人工比对的方式进行分析和校验、以及优化关键词的。

与现有技术相比，本发明的技术方案提供的医学文献的模块化数据挖掘和数据库建立方法建立不同的结构化文献信息挖掘模块，实用性和可行性强：一方面，该方案可以显著降低人工文献阅读时间和难度；另一方面，对基于医学研究基本特征和逻辑要求的文献模块化分割，显著降低了知识库和数据结构化建立的复杂度以及计算机自然语言识别能力的要求，并提高了文献信息提取准确性。为广大医务工作者提供直接的、完善的医学文献信息，解决医务工作者学习时间有限的矛盾；同时建立模块化数据库，通过不同文献模块间的差异比较，解释研究结果之间的差异并提供详尽的参考治疗方案，增强医务工作者对同质性研究开展过程中细节差异的把控能力，提高对同质性研究方案和结果的甄别效率。

使用者可以通过本方法，以任意结构化词条内关键词，对文献进行检索，提取符合检索条件的文献集，并可以根据具体研究目的，将文献集中任意模块信息导出，对差异信息进行标记，提取有效信息。例如，对特定疾病研究的文献集，比较“试验纳入排除标准”或“治疗方案和研究结果”模块差异，则可以提取疾病治疗方案的适用人群或不同方案的疗效差异等信息；对于治疗方案为检索词的文献集，则可以在其他模块中提取该治疗方案的适用人群、研究进展、不良反应等多种信息，通过医学文献模块化数据库的应用，可以在降低文献阅读强度的前提下，显著提高同质性医学文献的检索和差异比较效率，增强对治疗方案实施细节的把控能力。同时，本发明提供的文献证据级别标签，可以直接为使用者提供临床决策支持。

附图说明

本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚，附图中：

图1是本发明一种优选方案的逻辑示意图；

图2是本发明Skip-Gram训练模型投影关系示意图；

图3是本发明结构化步骤中建立霍夫曼树一种优选方案的示意图。

具体实施方式

下面通过几个具体的实施例来进一步说明实现本发明目的技术方案，需要说明的是，本发明要求保护的技术方案包括但不限于以下实施例。

作为本发明一种具体的实施方案，本实施例公开的一种医学文献的模块化数据分析和数据库建立方法，包括：

对目标医学文献建立外部特征索引，录入标题、DOI号等文献基本信息，为作本发明将要从该文献挖掘的结构化信息的目录；

建立文献内容分析模块，基于医学文献的基本特征和逻辑要求，针对各个模块开发独立的结构化录入构架；

通过各模块中相互独立的语料知识库，识别文献的各个信息模块，并进行信息提取，将关键信息分别录入对应结构化模块。

通过如人工的方法，对读取结果校验和算法优化，并通过对计算机模型进行训练，建立人工智能处理方法。

其中：

对医学文献模块化数据库建立方法的步骤包括：

基于挖掘的文献全文信息，对各模块内结构化信息建立索引，构成模块化数据库；

实现文献模块内结构化信息的检索功能，为治疗方案的选择提供直接证据；

为数据库收录文献建立证据级别标签，并进行人工校验，为治疗决策提供支持。

医学文献全文信息挖掘系统的具体的方案实施：

第一步,通过研究方向关键词，通过python爬虫工具对在线数据库进行搜索抓取，获得目标文献，对获取文献进行外部特征，包括标题，发表期刊、时间、DOI号等信息建立索引，以便作为目录，在建立结构化解读的文献库后，与文献内部模块化信息相互调取。

第二步，文献内容分析模块的建立，是基于医学研究中，文献的基本特征和逻辑要求，对医学文献进行模块化分割，分为试验基本信息、研究背景、试验纳入排除标准、基线、统计方法、治疗方案、研究结果、亚组分析和不良反应等模块；各模块根据现代医学文献普遍结构，设计各自独立的结构化特征，为文献中不同结构的信息录入存储提供适宜结构。

第三步，我们通过各模块中独立知识库内的特征词库，识别文献的各个信息模块，分析模块内语意，提取有意义信息，录入上一述步骤中建立的对应结构化模块。

例如，“研究结果”作为医学文献最重要的信息，根据其数据结构特征，我们将其数据结构建立为：观察终点类型，治疗组，观察结果，统计结果以及组间比较统计结果，其中基于临床研究特定，还需设定各观察终点内部，可以对应多个治疗组以及其观察结果和统计结果。通过上述上述第三步方法提取的“研究结果”信息，可以一一对应录入此结构化模块，读者可以直观的获得该研究文献中不同治疗组的治疗结果。

们在预设的中英文对照的研究结果知识库中，建立有“观察终点类型”特征词，包括但不仅限于OS/PFS/DFS/TTP/ORR/手术切除率/R0切除率/局部复发率/病理缓解率/毒性/DCR/DOR/TTF/QoL/MTD等；“治疗组”特征词，囊括现行的临床治疗方案名称；“统计和组间比较结果”特征词，如风险比（HR）、置信区间（CI）以及显著性（pvalue）等。

有了这些预设的特征词，我们再通过k-means聚类算法进一步建立基本知识库，k-means聚类算法是对于既定的多维数据集，样本数量为N，即

把它K个不同的类别的簇（a₁，a₂，…a_k），其质心是（c₁，c₂，…，c_k），这当中的，m_i所表示的是簇a_i中数据点的个数。这样一来，聚类目标公式就是，这当中的就是x_j与c_j的欧式距离了。

我们在已有的常规特征词词库和预设特征词的基础上，通过k-means聚类算法对部分样本语料信息进行处理，把样本语料中不同类型的医学专用词类型分为K个不同的簇，再通过以上方法进行计算，就可以把文献中的一些重要语料信息经过比对归入相应的集合，再对分类后的集合词库进行进一步处理。对于研究结果和上述第二步中其他部分，如治疗方案，纳入排除标准等共K个模块等，就可以分为K个不同的簇，每个簇之下又有不同的特征属性，如研究结果就包括但不仅限于OS/PFS/DFS/TTP/ORR/手术切除率/R0切除率等，每个属性表示一个数据点个数。属性之间的特征向量相互关联，通过d_ij(x_j-c_i)计算其欧式距离，聚类目标则是所有点欧式距离的集合，这样便于建立一些常用医学术语词的编码。通过这样的方式完成基本知识库的建立。

这里依然以“研究结果”为例，基本知识库建立以后，由于医学文献研究结果正是以各种观察终点进行描述，通过对“观察终点类型”关键词的识别匹配，本发明即可定位医学文献中描述研究结果的部分，同时通过“治疗组”关键词识别，即可确定治疗组数量和类型，从而确定第二步中“研究结果”模块最终形态；在确定文献对应模块位置和模块最终形态后，结合后一种关键词，通过定位部分语句的自然语言识别和语意分析，以及三类关键词在语句内部的相对位置，即可提取每个观察终点类型中，每个治疗组的观察和统计有效数据，并区分统计结果和组间比较的统计结果。

具体来说，我们通过分词工具和知识库，对英文文献中如“研究结果”这一特征模块进行分词，可以对常用词性进行分析和处理，然后对部分不重要词（如连词，助词等）进行过滤，所采用到的训练模型是Skip-Gram模型，通过它来完成迭代分词，如图2，Skip-Gram模型主要分为输入层（input），投影（projection）和输出层（output），通过中心词（当前词）a_n的输入，来预测其可能关联的关联词，如（a_n-2，a_n-1，a_n+1，a_n+2）等关联词。关联词是通过之前的迭代扩展进来的，并且根据每个词与中心词的密切关系程度建立矩阵，根据欧式距离来判断与中心词的关系情况，如图3，建立霍夫曼树。霍夫曼树又称最优二叉树，是一种带权路径长度最短的二叉树，既把关联度最高，最相近的叶子节点放到离根节点（中心词）最近的节点位置，从上往下依次根据欧式距离完成霍夫曼二叉树的排列。

Skip-Gram模型的核心参数主要包括2个，一个是输出词向量的维数d，还有一个就是n，就是前后词的长度，也就是句子中当前词与目标词之间的欧式距离。n的值越大，前后词就会越多，结果就容易更精确。它的训练目标最大化是：

其中，n就是窗口的大小，而T表示训练文本大小，a_t则表示第t个词的向量。

例如，在“研究结果”模块，我们确定了primaryendpoint（主要观察终点）为中心词，通过训练模型就很容易关联出medianOS(中位总生存时间)和CI（置信区间）等词来进行比对，形成霍夫曼树，通过树来寻找每个叶子节点。n值设置越大，关联词就会越多，但是相关性就会降低。因此本发明设置n=5比较适合。同时又根据每篇文献内容的不同，在训练之后可以修正相应的关联词出现概率。在找到每个匹配的关联词信息以后，需要自动把对应的数值如12.2（month），95%CI等信息读入系统中进行结构化处理，以形成数据信息的量化模型，便于对之后新来文献信息的分析和统计。

基本知识库中，每个词都有各自独立的编码，新来词的编码则通过它与已编码词之间的关系（即矩阵中的欧式距离）来建立新的编码，同时与训练得出的概率值进行比较，确认编码信息是否准确，形成迭代，最终可以在每次输入信息时判断时形成二维矩阵，进行卷积神经网络的输入，提供新的分词训练模式，进行下一次的迭代分词。

可以看出，通过这样建立不同的结构化文献信息挖掘模块，实用性和可行性强：一方面，该方案可以显著降低人工文献阅读时间和难度；另一方面，对基于医学研究基本特征和逻辑要求的文献模块化分割，显著降低了知识库和数据结构化建立的复杂度以及计算机自然语言识别能力的要求，并提高了文献信息提取准确性。

由于之前采用的Skip-Gram模型比较适合于短文本，而由于医学文献内容比较多样，而且不同文献的信息差异并不小，所以必须通过人工校验来进一步对此进行进一步的完善。同时，由于Skip-Gram模型在词性，词组合等方面缺少丰富信息的融合，导致词向量的语义表示不能满足我们的要求。所以必须采用人工校验，进行重新优化，进一步提高机器识别和读取能力。

由于文献中有些语句的内容非常复杂，句子中可能出现多个否定词（如neither，nor）进行多重否定，因此对句子中的词性要进行很好的分析。

同时，由于长句中存在很多项指标同时出现，既有百分比又有范围值，如（95%CI，10.6-14.2），还存在一些比较级术语，通过Skip-Gram模型就很难对其进行分解。这样，所以，必须通过人工校验，根据之前的k-means聚类形成的词库信息和规则，完成对特殊长句的处理，对不同层次，不同词性的信息进行进一步的聚类分析，才能完整提取文献中的关键信息，进行进一步的编码处理，让编码信息更为准确。

Claims

1.一种医学文献的模块化数据分析和数据库建立方法，其特征在于，包括以下步骤：

结构化步骤，基于医学研究中对医学文献的基本特征和逻辑要求，对医学文献进行模块化分割，按照试验基本信息、研究背景、试验纳入排除标准、基线、统计方法、治疗方案、研究结果、亚组分析和不良反应的分类标准建立若干结构化信息模块；所述结构化步骤中，每个结构化信息模块中均储存有对应其分类标准的关键词库，所述关键词库是在已有的常规医学特征词词库和预设特征词词库的基础上，通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理，把样本语料中不同类型的医学专用词类型分为若干个不同的簇建立的，通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理之前还包括关键词扩展处理过程，具体包括采用Skip-Gram训练模型对常规医学特征词词库和预设特征词词库中的特征词进行分析和处理，过滤掉非必要词汇，并通过迭代分词对每个特征词扩展关联词，所述Skip-Gram训练模型包括输入层、投影层、和输出层；所述扩展关联词是通过输入层输入当前词a_n，然后通过投影层投影预测与所述当前词a_n关联的关联词并通过输出层输出关联词（a_n-2，a_n-1，a_n+1，a_n+2），根据每个关联词与当前词的向量关系建立矩阵，并通过欧式距离来判断与当前词的关系情况，建立霍夫曼树；

结构化录入步骤，通过所述特征索引建立步骤建立的索引目录调取医学文献的内容进行信息提取和识别，通过关键词匹配的方法将医学文献的内容按照所述结构化步骤中的结构化信息模块进行分类归集，将医学文献中匹配到的内容对应录入至所述结构化信息模块中，建立成信息结构化且带有索引目录的结构化文献库；

2.如权利要求1所述的一种医学文献的模块化数据分析和数据库建立方法，其特征在于：所述常规医学专用词词库和预设特征词词库中的每一个特征词均有用于特征量化的数字编码，通过k-means聚类算法对经过特征量化的特征词进行聚类计算；

所述特征词的数字编码构成样本数量为N的多维样本数据集，

即，

选取K个特征词计算其质心（c₁，c₂，…，c_k），并通过TF-IDF权重计算的方式得到所述K个特征词的向量，所述K个特征词的向量与质心的欧式距离分为K个不同类别的簇（a₁，a₂，…a_k），

其中质心，m_i所表示的是簇a_i中数据点的个数；重复若干次迭代计算对质心进行调整；

所述k-means聚类算法的聚类目标，其中为特征词的向量x_j与质心c_j的欧式距离。

3.如权利要求1所述的一种医学文献的模块化数据分析和数据库建立方法，其特征在于：所述Skip-Gram训练模型训练目标最大化为

其中，n为窗口的大小，即输入的当前词的前后词的数量长度；T为训练文本大小；a_t则表示第t个词的向量；P(a_t+j|a_t)为第t个词出现的概率。

4.如权利要求1所述的一种医学文献的模块化数据分析和数据库建立方法，其特征在于：所述检验优化步骤中，是抽选若干结构化录入的结构，通过人工比对的方式进行分析和校验、以及优化关键词的。