CN111581960B

CN111581960B - 一种获取医学文本语义相似度的方法

Info

Publication number: CN111581960B
Application number: CN202010373966.5A
Authority: CN
Inventors: 李美晶; 周显赫; 杨昕皓; 高婧贤
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2023-09-29
Anticipated expiration: 2040-05-06
Also published as: CN111581960A

Abstract

本发明公开了一种获取医学文本语义相似度的方法，包括获取医学文本集合；对于所述医学文本集合进行预处理；计算基于医学文本之间三种不同特征的相似度；用回归模型学习基于不同特征的三种相似度在医学文本之间最终的相似度的权重，再用线性模型结合所述的三种相似度计算出最终的相似度。本发明考虑了医学文本的多个特征对语义相似度的影响，从而使得语义相似度计算的准确率更高。

Description

一种获取医学文本语义相似度的方法

技术领域

本发明涉及自然语言处理技术，特别涉及一种获取医学文本的语义相似度的方法。

背景技术

文本相似性对于许多信息检索(IR)任务都是有益且必不可少的。文本相似性用于某些应用程序中，例如网络搜索，子主题挖掘，词义消歧(WSD)，相关性反馈，文本分类。在医学方面，生物医学研究人员在提出新的科学假设和发现新知识时，医学文章之间的语义文本相似性是必不可少的，传统的词汇相似度度量，例如用TF-IDF(词频-逆文档频率)算法对文本进行选词，进而计算文本的相似度。但这种传统的方法无法计算出超出平凡水平的相似度。而且，它们只能捕获文本相似性，而不能捕获语义。

MeSH(Medical Subject Heading)是一个词汇表，由NLM(国家医学图书馆)控制以索引MEDLINE文本。MEDLINE文本数据库中的每篇文章人工标注了若干个MeSH主题词，这若干个MeSH主题词代表了该篇文本的大致内容。因此，MeSH主题词可以作为描述文本的MeSH特征。在计算医学文本的相似度时，通过提取文本的MeSH特征能很好地捕获文本的语义。

现有技术关于文本语义相似度的计算方法有以下几种：第一种是基于词语共现的统计方法，该方法主要通过句中词频进行统计，如TF-IDF、Jaccard SimilarityCoefficient方法及Metzler基于overlap的改进方法等；这些方法实现简单、高效，但完全忽略了句子的词法及语义信息。第二种是基于词法和语义信息的方法，该方法考虑了语义相关要素，但构建相对复杂，如基于本体的语义相似度计算等。第三种是基于神经网络的语料库的训练特征提取法，近年来也得到大力发展，如基于Word2Vec的句子语义相似度计算研究等，其依赖于语料库的质量和数量，注重特征提取。在医学文本方面可以运行以上方法进行语义相似度的计算，但是现有技术只是考虑一种特征对相似度的影响，这样不能准确地表示一篇医学文章，从而对医学文章之间相似度计算的准确性也有所影响。因此，急需研发一种结合各种特征来更准确地获取医学文本语义相似度的方法。

发明内容

本发明的目的在于提供一种获取医学文本的语义相似度的方法，获取医学文本集合，对医学文本进行预处理，计算基于医学文本的三种不同特征的相似度，通过回归模型获取各个特征相似度所占权重，通过线性方法计算出医学文本的语义相似度，本发明考虑了医学文本的多个特征对语义相似度的影响，从而使得语义相似度计算的准确率更高。

为了达到上述目的，本发明通过以下技术方案实现：

一种获取医学文本语义相似度的方法，包含以下步骤：

S1、获取医学文本集合；

S2、对医学文本进行预处理；

S3、分别计算基于医学文本之间三种不同特征的相似度，得到三种相似度；三种不同特征的相似度分别为基于所述医学文本MeSH特征的相似度、基于所述医学文本WordEmbedding特征的相似度和基于所述医学文本内容特征的相似度；

S4、利用回归模型学习所述三种相似度分别在医学文本之间最终的相似度的权重，再通过线性模型结合所述三种相似度得出最终的相似度。

优选地，所述步骤S1中，获取的医学文本是来自MEDLINE数据库的文本；获取医学文本包含以下步骤：步骤S1.1：从MEDLINE数据库中提取医学文档数据；步骤S1.2：从提取的医学文档数据中提取出摘要部分和MeSH主题词注释，并将摘要部分和MeSH主题词注释整合成一个文本，得到对应的医学文本。

优选地，所述步骤S2中，对医学文本进行预处理的方法包含以下步骤：步骤S2.1：提取出医学文本中的所有的MeSH主题词，得到MeSH主题词集合MS；步骤S2.2：将医学文本的摘要部分进行分词处理，再将分词处理得到的若干词汇的集合进行停用词过滤，过滤停用词后得到一个词汇集WS；步骤S2.3：将所述词汇集WS中的每个词语分别处理成原型形式。

优选地，所述步骤S3中，计算基于所述医学文本MeSH特征的相似度Sim_MeSH的步骤如下：

步骤S3.1.1：计算树节点之间的相似度；其中，设n和n’为任意一MeSH主题词中的两个节点，利用公式(1)计算节点n和n’之间的相似度：

步骤S3.1.2：计算MeSH主题词之间的相似度；其中，设M和M’为两个不同的MeSH主题词，利用公式(2)计算主题词M和主题词M’之间的相似度：

其中，主题词M对主题词M'的相似度＝主题词M的所有节点对主题词M'的相似度之和；

主题词M的一个节点对主题词M'的相似度＝该节点与主题词M'所有节点之间相似度的最大值；

主题词M'对主题词M的相似度＝主题词M'的所有节点对主题词M的相似度之和；

主题词M'的一个节点对主题词M的相似度＝该节点与主题词M所有节点之间相似度的最大值；

步骤S3.1.3：计算基于医学文本MeSH特征的相似度；其中，计算完所有的MeSH主题词两两之间的相似度后，再根据从医学文本中提取的MeSH主题词集合MS，利用公式(3)计算基于医学文本MeSH特征的相似度Sim_MeSH：

其中，文本S对文本S'的相似度＝文本S的所有主题词对文本S'的相似度之和；

文本S的一个主题词对文本S'的相似度＝该主题词与文本S'所有主题词之间相似度的最大值；

文本S'对文本S的相似度＝文本S'的所有主题词对文本S的相似度之和；

文本S'的一个主题词对文本S的相似度＝该主题词与文本S所有主题词之间相似度的最大值。

优选地，所述步骤S3中，计算基于医学文本Word Embedding特征的相似度Sim_Em的步骤如下：

步骤S3.2.1：训练词向量模型，并从训练好的词向量模型中分别提取各MeSH主题词词向量的值；

步骤S3.2.2：计算医学文本向量AVD，如下公式(4)：

步骤S3.2.3：计算基于医学文本Word Embedding特征的相似度Sim_Em，如下公式(5)：

Sim_Em＝cos(AVD_s,AVD_s') (5)。

其中，AVD_s为医学文本S的文本向量，AVD_s’为另一医学文本S’的文本向量。

优选地，所述词向量模型为Word2Vec模型。

优选地，所述步骤S3中，计算基于医学文本内容特征的相似度Sim_Con的步骤如下：

步骤S3.3.1：利用TF-IDF方法将预处理时得到的WS集合进行选词，并分别生成任意的两个医学文本S和S’的TF-IDF向量Ts和Ts’；

步骤S3.3.2：计算基于医学文本S和S’的内容特征的相似度Sim_Con，如下公式(6)：

Sim_Con＝cos(T_S,T_S') (6)。

优选地，所述回归模型为ElasticNet正则化模型。

优选地，所述步骤S4中进一步包含以下步骤：

步骤S4.1：运用ElasticNet正则化模型学习三个权重w₁，w₂和w₃；

步骤S4.2：利用公式(7)计算医学文本之间的语义相似度Sim：

Sim＝w₁×Sim_MeSH+w₂×Sim_Em+w₃×Sim_Con (7)。

与现有技术相比，本发明的有益效果在于：本发明提出的医学文本语义相似度，通过获取医学文本集合，对所述医学文本进行不同特征的提取，从而结合不同的特征来进行所述医学文本的语义相似度的计算，本发明考虑了医学文本的多个特征对语义相似度的影响，从而使得语义相似度计算的准确率更高。

附图说明

图1为本发明的医学文本语义相似度的计算方法的流程示意图；

图2为本发明的医学文本预处理的流程示意图；

图3为本发明的计算三种特征相似度示意图；

图4为本发明的医学文本最终相似度计算的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图4结合所示，本发明提供一种获取医学文本的语义相似度的方法，该方法包含以下步骤：

S1、获取医学文本集合；示例地，获取的医学文本是来自MEDLINE数据库的文本。

S2、对获取的医学文本集合进行预处理操作。其中，预处理操作具体为：首先提取医学文本的MeSH特征，将每篇医学文本提取的MeSH主题词生成一个MeSH主题词集合；其次，将医学文本集合中每篇文本进行分词处理，形成一个词语集合，并过滤停用词；最后将形成的词语集合中的每个词语分别处理成它的原型形式。

S3、计算基于所述医学文本之间三种不同特征的相似度；其中，三种不同特征分别为医学文本的MeSH特征、医学文本的Word Embedding特征和医学文本的内容特征。

S4、利用回归模型学习所述基于不同特征的三种相似度在医学文本之间最终的相似度的权重，之后再用线性模型结合所述的三种相似度计算出最终的相似度。其中，所述回归模型为ElasticNet模型。

可选地，所述步骤S1中，获取医学文本的过程如下：

步骤S1.1：从MEDLINE数据库中提取医学文档数据；

步骤S1.2：从提取的医学文档数据中提取摘要部分和它的MeSH主题词注释，并将它们(即摘要部分和MeSH主题词注释)整合成一个文本，即得到医学文本。

如图2所示为对医学文本进行预处理的流程示意图，为了更方便地描述本发明实施例的基本原理，用D表示一篇医学文本；所述步骤S2中，对医学文本进行预处理的方法包含以下：

步骤S2.1：将医学文本D中的所有的MeSH主题词提取出来得到一个MeSH集合MS。

步骤S2.2：将医学文本D的摘要部分进行分词处理，即将摘要部分处理成若干词汇的集合，再将分词处理得到的若干词汇的集合进行停用词过滤，过滤停用词后得到一个词汇集WS。其中，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，通常为语气助词、副词、介词、连接词等。

步骤S2.3：将词汇集WS中的词语处理成它们原型形式，即动词原型、名词单数等。

例如：这是获取到的医学文本，其中包括文章的摘要和MeSH主题词：

摘要部分：

'Fengzao'is an early-ripening bud mutant of'Kyoho',which maturesnearly 30 days earlier than'Kyoho'.To gain a better understanding of theregulatory role of miRNAs in early-ripening of grape berry,high-throughputsequencing approach and quantitative RT-PCR validation were employed toidentify miRNAs at the genome-wide level and profile the expression patternsof the miRNAs during berry development in'Kyho'and'Fengzao',respectively.RESULTS:Nine independent small RNA libraries were constructedand sequenced in two varieties from key berry development stages.A total of108 known miRNAs and 61 novel miRNAs were identified.Among that,159 miRNAsidentified in'Fengzao'all completely expressed in'Kyoho'and there were 10miRNAs specifically expressed in'Kyoho'.

MeSH主题词：

"Fruit"；

"Gene Expression Regulation,Developmental"；

"Gene Expression Regulation,Plant"；

"Genome,Plant"；

"High-Throughput Nucleotide Sequencing"；

"MicroRNAs"；

"RNA,Plant"；

"Sequence Analysis,RNA"；

"Vitis".

那么预处理后得到一个MeSH集合MS：

{"Fruit",

"Gene Expression Regulation,Developmental",

"Gene Expression Regulation,Plant",

"Genome,Plant",

"High-Throughput Nucleotide Sequencing",

"MicroRNAs",

"RNA,Plant",

"Sequence Analysis,RNA",

"Vitis"}

得到一个词汇集WS：

{fengzao early-ripening bud mutant kyoho matures earlier kyoho gainbetter understanding regulatory role mirnas early-ripening grape berry,high-throughput sequencing approach quantitative rt-pcr validation employedidentify mirnas the genome-wide level and profile expression patterns themirnas berry development in kyhofengzao respectivelyresults nine independentsmall rna libraries constructed sequenced two varieties key berry developmentstages total known mirnas novel mirnas identified mirnas identified fengzaocompletely expressed kyoho mirnas specifically expressed kyoho}。

图3示出三种不同特征的内容，设S和S’为两篇医学文本；所述步骤S3中，进一步包含以下步骤：

(一)步骤S3.1、计算基于医学文本MeSH特征的相似度Sim_MeSH；

其中，MeSH主题词由一组描述项组成，这些描述项按层次结构称为MeSH树，其中更一般的项出现在靠近根的节点上，而更特殊的项出现在靠近叶的节点上。尽管MeSH主题词的结构是一个层次树，但MeSH主题词可以同时出现在不同的子树中。MeSH主题词都由一个树节点或多个树节点表示，每篇医学文本又包含多个MeSH主题词，因此需要先计算树节点之间的相似度，然后计算MeSH主题词之间的相似度，进而计算医学文本之间的相似度。基于上述可知，由于提取的MeSH特征都是基于本体的层次结构，计算基于所述医学文本的MeSH特征时有两种计算方法，一种是基于MeSH层次结构的路径长度，另一种是基于MeSH的信息内容；每个MeSH主题词在MeSH的层次结构种可能有多个节点，那么可以计算基于所述MeSH层次结构的路径长度条件下两个节点之间的相似度。因此，所述步骤S3.1进一步包含以下步骤：

(1)步骤S3.1.1、计算树节点之间的相似度；设n和n’为一个MeSH主题词中的两个节点，根据MeSH树结构，利用下述公式(1)计算节点n和n’之间的相似度：

(2)步骤S3.1.2、计算MeSH主题词之间的相似度；设M和M’为两个不同的MeSH主题词，利用下述公式(2)计算主题词M和主题词M’之间的相似度：

主题词M的一个节点对主题词M'的相似度＝该节点与主题词M'所有节点之间相似度的最大值。

同理，主题词M'对主题词M的相似度＝主题词M'的所有节点对主题词M的相似度之和；

主题词M'的一个节点对主题词M的相似度＝该节点与主题词M所有节点之间相似度的最大值。

(3)步骤S3.1.3、计算基于医学文本MeSH特征的相似度；在计算完所有的MeSH主题词两两之间的相似度后，再根据之前从医学文本中提取的MeSH集合MS，利用公式(3)计算基于医学文本MeSH特征的相似度Sim_MeSH：

同理，文本S'对文本S的相似度＝文本S'的所有主题词对文本S的相似度之和；

文本S'的一个主题词对文本S的相似度＝该主题词与文本S所有主题词之间相似度的最大值；

根据上述公式，可以计算医学文本S和S’基于MeSH特征的相似度。例如：计算医学文本S1和S2的基于MeSH特征的相似度，假设文本S1和文本S2分别包含的MeSH主题词为：

{Humanities，Proviruses}；

{Motion Pictures，Capsid}

对于S1的主题词：

Humanities：K01；

Proviruses：B04.725；

对于S2的主题词：

Motion Pictures：J01.897.280.500.598、K01.093.545、L01.178.590.500、L01.178.820.090.598；

Capsid：A21.249.500.250、B04.950.500.250；

先计算两篇文本中主题词两两之间的相似度：

Humanities与Motion Pictures的相似度；

Humanities与Capsid的相似度；

Proviruses与Motion Pictures的相似度；

Proviruses与Capsid的相似度。

计算Humanities与Motion Pictures的相似度详细为：

Humanities有1个节点，Motion Pictures有4个节点，根据步骤3.1.1中的公式计算：

节点K01与J01.897.280.500.598的相似度；

节点K01与K01.093.545的相似度；

节点K01与L01.178.590.500的相似度；

节点K01与L01.178.820.090.598的相似度；

其中，节点K01与J01.897.280.500.598的最近公共父节点为空，根据步骤S3.1.1中的公式(1)，它们之间的相似度为0，同样的道理，计算其他3个节点之间相似度分别为0.500、0、0，再由步骤S3.1.2中的公式(2)计算Humanities对Motion Pictures的相似度为0.500，同理，计算出其他3个主题词之间的相似度分别为0、0、0.333，最后根据步骤S3.1.3中的公式(3)计算出文本S1和文本S2基于MeSH特征的相似度为0.417。

(二)步骤S3.2、计算基于医学文本Word Embedding特征的相似度Sim_Em；

其中，Word Embedding将每个单词表示为高维向量，嵌入空间可用于提取词的语义信息。因此，可以采用MeSH主题词嵌入模型来捕获MeSH主题词词级语义，通过词级语义构造文本级语义，从而计算基于Word Embedding特征的相似度。Word2Vec模型是Google在2013年推出的嵌入模型，这里的嵌入模型选择Word2Vec模型。

所述步骤S3.2进一步包含以下步骤：

(1)步骤S3.2.1：训练词向量模型，并从训练好的词向量模型中分别提取各主题词的词向量的值。具体地，训练MeSH主题词的Word2Vec模型，即嵌入模型中含有MeSH主题词的词嵌入的Word2Vec模型；由于本发明是计算医学文本的语义相似度的方法，所以本发明采用两个语料库来训练Word2Vec模型以增加准确性，这两个语料库分别是Wiki语料库和MEDLINE语料库，训练方法用python工具包gensim中的方法。

(2)步骤S3.2.2：计算文本向量；设AVD为一篇医学文本的文本向量，则文本向量AVD可以由公式(4)计算得到：

(3)步骤S3.2.3：计算基于医学文本Word Embedding特征的相似度；设AVD_S为医学文本S的文本向量，AVD_S’为医学文本S’的文本向量，则用公式(5)计算基于医学文本WordEmbedding特征的相似度Sim_Em：

Sim_Em＝cos(AVD_s,AVD_s') (5)

例如：医学文本S1和S2的MeSH主题词分别为：

{Humanities，Proviruses}

{Motion Pictures，Capsid}

从训练好的词向量模型中分别提取这些主题词的词向量的值，分别为：

Humanities：0.29738284,0.42321224,…,0.23564464；

Proviruses：0.11223211,0.33322273,…,0.45367126；

Motion Pictures：0.43562452,0.12343265,…,0.34523413；

Capsid：0.89583736,0.38637824,…,0.29288337。

然后根据步骤S3.2.2中公式(4)计算文本向量AVD1，AVD2，分别为：

AVD1：0.20480712,0.37821723,…,0.34465751；

AVD2：0.66573052,0.25905421,…,0.31905851；

最后根据步骤S3.2.3中的公式(5)计算文本S1和S2基于Word Embedding特征的相似度为0.564。

(三)步骤S3.3、计算基于医学文本内容特征的相似度Sim_Con；

其中，内容特征是根据文本的具体内容来作为文本的特征，这里用到步骤S2.2得到的词汇集WS，再通过现有的方法TF-IDF来计算基于医学文本内容特征的相似度Sim_Con。

所述步骤S3.3进一步包含以下步骤：

(1)步骤S3.3.1：用TF-IDF方法将预处理时得到的WS集合进行选词，并生成医学文本S和S’的特征向量(即TF-IDF向量)Ts和Ts’；

(2)步骤S3.3.2：计算基于医学文本内容特征的相似度；运用余弦相似度公式(6)计算基于医学文本S和S’的内容特征的相似度Sim_Con：

Sim_Con＝cos(T_S,T_S') (6)。

图4示出计算医学文本语义最终语义相似度的流程示意图；所述步骤S4中，利用ElasticNet回归模型来计算每个相似度的权重。ElasticNet正则化模型是一种监督性的特征选择和重要性估计技术，用于计算每个相似性度量的重要性。其中，提取的特征可能包含一些嘈杂的特征。这些功能可能不会有助于预测模型的准确性，也可能会降低模型的准确性。因此采用监督性的特征选择技术ElasticNet来估计每个度量的重要性。其中，ElasticNet是一种正则化回归方法，该方法线性地组合了lasso和ridge方法的l₁和l₂罚分。ElasticNet回归可以通过lasso和ridge回归的组合来定义。

所述步骤S4中进一步包含以下步骤：

(1)步骤S4.1：运用ElasticNet正则化模型进行权重学习，得到三个权重w₁，w₂和w₃；

(2)步骤S4.2：最后利用公式(7)来计算医学文本之间的语义相似度Sim：

Sim＝w₁×Sim_MeSH+w₂×Sim_Em+w₃×Sim_Con (7)。

本发明通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。当然，也可以用硬件。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种获取医学文本语义相似度的方法，其特征在于，包含以下步骤：

S1、获取医学文本集合；

S2、对医学文本进行预处理；

S4、利用回归模型学习所述三种相似度分别在医学文本之间最终的相似度的权重，再通过线性模型结合所述三种相似度得出最终的相似度；

所述步骤S1中，获取的医学文本是来自MEDLINE数据库的文本；

获取医学文本包含以下步骤：

步骤S1.1：从MEDLINE数据库中提取医学文档数据；

步骤S1.2：从提取的医学文档数据中提取出摘要部分和MeSH主题词注释，并将摘要部分和MeSH主题词注释整合成一个文本，得到对应的医学文本；

所述步骤S2中，对医学文本进行预处理的方法包含以下步骤：

步骤S2.1：提取出医学文本中的所有的MeSH主题词，得到MeSH主题词集合MS；

步骤S2.2：将医学文本的摘要部分进行分词处理，再将分词处理得到的若干词汇的集合进行停用词过滤，过滤停用词后得到一个词汇集WS；

步骤S2.3：将所述词汇集WS中的每个词语分别处理成原型形式；

所述步骤S3中，计算基于所述医学文本MeSH特征的相似度Sim_MeSH的步骤如下：

2.如权利要求1所述的获取医学文本语义相似度的方法，其特征在于，所述步骤S3中，计算基于医学文本Word Embedding特征的相似度Sim_Em的步骤如下：

步骤S3.2.2：计算医学文本向量AVD，如下公式(4)：

Sim_Em＝cos(AVD_s,AVD_s') (5)

3.如权利要求2所述的获取医学文本语义相似度的方法，其特征在于，所述词向量模型为Word2Vec模型。

4.如权利要求2所述的获取医学文本语义相似度的方法，其特征在于，所述步骤S3中，计算基于医学文本内容特征的相似度Sim_Con的步骤如下：步骤S3.3.1：利用TF-IDF方法将预处理时得到的WS集合进行选词，并分别生成任意的两个医学文本S和S’的TF-IDF向量Ts和Ts’；

Sim_Con＝cos(T_S,T_S') (6)。

5.如权利要求4所述的获取医学文本语义相似度的方法，其特征在于，所述回归模型为ElasticNet正则化模型。

6.如权利要求5所述的获取医学文本语义相似度的方法，其特征在于，所述步骤S4中进一步包含以下步骤：

步骤S4.2：利用公式(7)计算医学文本之间的语义相似度Sim：

Sim＝w₁×Sim_MeSH+w₂×Sim_Em+w₃×Sim_Con (7)。