CN109359300A

CN109359300A - 基于深度学习的医学文献中关键词筛选方法及装置

Info

Publication number: CN109359300A
Application number: CN201811188051.6A
Authority: CN
Inventors: 赵荣生; 宋再伟; 林巧楠; 周旻
Original assignee: Beijing Nuodao Cognitive Medical Technology Co ltd; Peking University Third Hospital
Current assignee: Beijing Nuodao Cognitive Medical Technology Co ltd; Peking University Third Hospital
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-02-19
Also published as: WO2020074017A1

Abstract

本发明实施例公开一种基于深度学习的医学文献中关键词筛选方法及装置，能提高医学文献中关键词筛选的准确度。方法包括：S1、对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm‑CRF模型中，得到所述待处理的医学文献中的关键词。

Description

基于深度学习的医学文献中关键词筛选方法及装置

技术领域

本发明实施例涉及计算机领域，具体涉及一种基于深度学习的医学文献中关键词筛选方法及装置。

背景技术

关键词抽取是指根据一定的目的要求，依靠计算机技术从报告、文献中选择反映主题内容的单词或者术语。从而为文献提供一个简短的概括，使读者能够在短时间内了解文献的重要信息与核心内容，由于关键词十分精炼，故可以利用关键词以很小的计算代价进行文本相似性的度量。因此在文献检索、自动文摘、文本分类、文本聚类等方面有着重要的应用。

现有的关键词提取方法主要分为3类：(1)基于统计特征的方法，根据词语出现的频率或者位置确定候选词的权重，筛选出权重较大者作为关键词。该方法虽然操作简单，但是会忽略掉在文中分布较小、位置较偏但是对于文章具有关键意义的词语；(2)基于词语网络的方法，根据一定的规则将文档映射成词语网络，利用该网络计算词语的关键度。该方法主要利用高频词的共现关系构建词语网络，同样不能提取出对文档重要但频率不高的词语；(3)基于语义的方法，从语义角度判断词语的重要性，提取出关键词。但是目前该方法仅仅采用同义词与近义词匹配，然而表达同一主题的关键词，大多不是同义词或近义词，使同主题的词语大部分未能得到语义关联，导致该方法不能发挥应有作用。

发明内容

针对现有技术存在的不足和缺陷，本发明实施例提供一种基于深度学习的医学文献中关键词筛选方法及装置。

一方面，本发明实施例提出一种基于深度学习的医学文献中关键词筛选方法，包括：

S1、对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；

S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键词。

另一方面，本发明实施例提出一种基于深度学习的医学文献中关键词筛选装置，包括：

生成单元，用于对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；

输入单元，用于将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键词。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

本发明实施例提供的基于深度学习的医学文献中关键词筛选方法及装置，利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词，因构建的Bilstm-CRF模型能够结合上下文语义，捕捉到文献的局部相关性，从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。

附图说明

图1为本发明基于深度学习的医学文献中关键词筛选方法一实施例的流程示意图；

图2为本发明基于深度学习的医学文献中关键词筛选装置一实施例的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

参看图1，本实施例公开一种基于深度学习的医学文献中关键词筛选方法，包括：

本发明实施例提供的基于深度学习的医学文献中关键词筛选方法，利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词，因构建的Bilstm-CRF模型能够结合上下文语义，捕捉到文献的局部相关性，从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。

在前述方法实施例的基础上，所述Bilstm-CRF模型的第二层是双向LSTM层，第三层是线性层，第四层是CRF层。

本实施例中，在使用Bilstm-CRF模型进行关键词筛选之前，需要对Bilstm-CRF模型进行构建，并使用训练数据对Bilstm-CRF模型进行训练。具体地，Bilstm-CRF模型训练过程如下：

(1)将训练样本中分句的各分词组成的词向量序列(x₁,x₂,...,x_{max_len})作为双向LSTM各个时间步的输入。

(2)模型的第二层是双向LSTM层，用来自动提取词语特征。将正向LSTM输出的隐状态序列与反向LSTM输出的进行按位拼接，得到完整的隐状态序列：

其中

(3)紧接着接入一个线性层，将隐状态向量的每一元素从2n维映射成k维，其中k＝4表示分词类别数。设输出矩阵为P＝(p₁,p₂,...,p_{max_len})，p_i的每一维p_ij表示分词x_i分类到第j类标签的打分值。

(4)模型的第四层是CRF层，该层有一个(k+2)*(k+2)大小的状态转移矩阵A，A_ij表示从第i个标签到第j个标签的转移得分，该矩阵的含义是标注分句中某一分词标签时，需要考虑之前已标注的标签值。如果一个分句的目标值序列为y＝(y₁,y₂,...,y_{max_len})，那么模型对于分句x的标签等于y的打分为：

模型的对数似然函数定义为：

式中，Y_x为因变量的集合，表示所有标签项。

(5)通过多轮迭代训练与参数调整，找到使目标函数最大化的最优参数与状态转移概率。

当然，在训练模型之前，需要针对训练样本数据生成分句的词向量矩阵，过程如下：

(1)将分句的各个分词根据在文献中出现的顺序进行id编码，编码的起始值为1，终止值为文献的词汇量大小N。

(2)将所有分句中包含最多分词的个数记录为max_len，之后将id编码的分句进行填0扩充，使其长度达到max_len，其中0码数为(max_len-分词数)。

(3)随机初始化词向量矩阵，矩阵的每一行表示为词向量，从上到下依次对应编码为0～N的分词，矩阵的列数为词向量的长度n＝300。

(4)查找分句中每个id编码的分词对应的词向量，若训练样本数为m，则构建一个[m,max_len,300]大小的三维矩阵作为模型的输入。

需要说明的是，在训练模型时，需要针对训练数据进行模型输出构建，具体方法为：依据PICO指标矩阵，给分句中的所有分词打上标签。若分词出现在指标矩阵中，按照对应关系，将标签值设置为P或I-C或O；若分词未出现在指标矩阵中，则标签值为N。将标签序列整体作为模型的目标值。

本发明构建的模型能够结合分词的上下文语义，并依据标签集的内在联系，通过计算状态转移概率来限制不合理标签序列的输出。

在前述方法实施例的基础上，所述对待处理的医学文献进行分句，对分句进行分词，包括：

依据标点符号对所述待处理的医学文献进行分句，基于分词算法与医学词库对分句进行分词。

本实施例中，对分词过程举例说明如下：

对于例句：目的评价亚甲基四氢叶酸还原酶基因多态性在甲氨喋呤治疗急性淋巴细胞白血病过程中毒副反应的相关性。方法通过计算机检索国内外相关数据库:EMBASE,CNKI,维普中文科技期刊数据库以及万方数据库,…，首先依据标点符号对其进行分句，分句结果为：

(1)目的评价亚甲基四氢叶酸还原酶基因多态性在甲氨喋呤治疗急性淋巴细胞白血病过程中毒副反应的相关性；

(2)方法通过计算机检索国内外相关数据库:EMBASE,CNKI,维普中文科技期刊数据库以及万方数据库。

然后利用分词算法对分句进行分词，分词结果为：

1)['目的','评价','亚','甲基','四氢叶酸','还原酶','基因','多态性','在','甲氨喋呤','治疗','急性','淋巴','细胞','白血病','过程','中','毒副','反应','的','相关性']；

2)['方法','通过','计算机','检索','国内外','相关','数据库','EMBASE','CNKI','维普','中文','科技','期刊','数据库','以及','万方','数据库']。

最后结合医学词库对部分分词进行合并，则对于第一个分句(1)的分词1)，需要将“亚”、“甲基”、“四氢叶酸”和“还原酶”合并成一个完整的医学名词“亚甲基四氢叶酸还原酶”，需要将“淋巴”和“细胞”合并成一个完整的医学名词“淋巴细胞”，需要将“毒副”和“反应”合并成一个完整的医学名词“毒副反应”。合并结果为：

a)['目的','评价','亚甲基四氢叶酸还原酶','基因','多态性','在','甲氨喋呤','治疗','急性','淋巴细胞','白血病','过程','中','毒副反应','的','相关性']；

b)['方法','通过','计算机','检索','国内外','相关','数据库','EMBASE','CNKI','维普','中文','科技','期刊','数据库','以及','万方','数据库']。

在前述方法实施例的基础上，所述通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵，包括：

按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码，并对标识编码后的分句分词进行填零扩充，使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等；

基于填零扩充的结果生成所述词向量矩阵。

本实施例中生成测试数据词向量矩阵的过程同前述训练模型时生成训练样本词向量矩阵的过程一致，此处不再赘述。

本实施例中，生成分句的词向量矩阵时，首先将分句的各个分词根据在文献中出现的顺序进行标识编码(id编码)，编码的起始值为1，终止值为文献的词汇量大小。然后将所有分句中包含最多分词的个数记录为max_sentence_len，之后将id编码的分句进行填0扩充，使其长度达到max_sentence_len，即得到分句的词向量，其中词向量中0的数量等于max_sentence_len-分词数。

参看图2，本实施例公开一种基于深度学习的医学文献中关键词筛选装置，包括：

生成单元1，用于对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；

输入单元2，用于将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键词。

具体地，所述生成单元1对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；所述输入单元2将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键词。

本发明实施例提供的基于深度学习的医学文献中关键词筛选装置，利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词，因构建的Bilstm-CRF模型能够结合上下文语义，捕捉到文献的局部相关性，从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。

在前述装置实施例的基础上，所述Bilstm-CRF模型的第二层是双向LSTM层，第三层是线性层，第四层是CRF层。

在前述装置实施例的基础上，所述生成单元，具体用于：

基于填零扩充的结果生成所述词向量矩阵。

本实施例的基于深度学习的医学文献中关键词筛选装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图3示出了本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键句。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键句。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度学习的医学文献中关键句筛选方法，其特征在于，包括：

S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键句。

2.根据权利要求1所述的方法，其特征在于，所述Bilstm-CRF模型的第二层是双向LSTM层，第三层是线性层，第四层是CRF层。

3.根据权利要求2所述的方法，其特征在于，所述对待处理的医学文献进行分句，对分句进行分词，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵，包括：

基于填零扩充的结果生成所述词向量矩阵。

5.一种基于深度学习的医学文献中关键句筛选装置，其特征在于，包括：

输入单元，用于将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键句。

6.根据权利要求5所述的装置，其特征在于，所述Bilstm-CRF模型的第二层是双向LSTM层，第三层是线性层，第四层是CRF层。

7.根据权利要求6所述的装置，其特征在于，所述生成单元，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述生成单元，具体用于：

基于填零扩充的结果生成所述词向量矩阵。

9.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。