CN110287337A

CN110287337A - 基于深度学习和知识图谱获取医学同义词的系统及方法

Info

Publication number: CN110287337A
Application number: CN201910530633.6A
Authority: CN
Inventors: 高敏; 李国强; 孙炜
Original assignee: Why Science And Technology (shanghai) Co Ltd; Shanghai Jiaotong University
Current assignee: Why Science And Technology (shanghai) Co Ltd; Shanghai Jiaotong University
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-27

Abstract

一种基于深度学习和知识图谱获取医学同义词的系统及方法，包括：知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块，知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息，词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块，相似度计算模块根据知识图谱信息和医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块，公共元素统计模块通过统计公共元素的方式从中选出最终同义词。本发明利用知识图谱更加准确的定位到同义词，从而获取的同义词准确度有很大的提升。

Description

基于深度学习和知识图谱获取医学同义词的系统及方法

技术领域

本发明涉及的是一种语义识别领域的技术，具体是一种基于深度学习和知识图谱获取医学同义词的系统及方法。

背景技术

随着人工智能技术在医疗领域越来越广泛的应用，越来越多的产品使用人机交互的方式来帮助病人进行病情分析，从而提高医生的诊断效率和准确度。主要为获取病人的主诉信息，并对主诉信息进行语义分析，选择合适的流程进行问诊，并得出结论。这其中，对主诉信息的理解主要表现为病人主诉信息中所涉及的医学实体和内部数据库中的标准医学实体的匹配，即寻找医学同义词，这是当前技术的一个主要难点。

对于获取同义词问题，现有方法主要是采用word2vec模型和计算余弦相似度，但是word2vec模型是基于上下文相似的词所表达的词义也是相似的这种假设，所以最后得到的相似度只能说明这两个单词在语料中的上下文的相似程度，并不是这两个词的语义相似度。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于深度学习和知识图谱获取医学同义词的系统及方法，利用主诉中的相关信息在知识图谱中更加准确的定位到同义词，从而获取的同义词准确度有很大的提升。

本发明是通过以下技术方案实现的：

本发明涉及一种基于深度学习和知识图谱获取医学同义词的系统，包括：知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块，其中：知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息，词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块，相似度计算模块根据医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块，公共元素统计模块通过统计公共元素的方式从中选出最终同义词。

附图说明

图1为本发明流程示意图；

图2为实施例深层双向语言模型示意图；

图3为实施例从候选词中选择同义词示意图。

具体实施方式

如图3所示，本实施例包括以下步骤：

步骤101，获取医学数据：各大医学网站和移动客户端进行爬虫和下载医学论文、医学书籍、医学词典、电子病历、医学标准术语集(例如medDRA，ICD-10)等。

所述的爬虫是指：按照一定的规则，自动地抓取万维网信息的程序或者脚本。

步骤102，数据预处理：利用所获得的医学词典和标准术语集构建分词词典和停用词表，结合分词技术和命名实体识别技术(ner)对医学文本进行准确分词。

所述的分词技术采用但不限于基于Python的中文分词组件”Jieba”得以实现，其具体如：https://github.com/fxsjy/jieba中记载的方法。

所述的命名实体识别技术采用但不限于《Chinese NER Using Lattice LSTM》(Zhang，Yue，Yang，Jie，ACL 2018)中记载的方法实现。

步骤103，构建医学知识图谱：利用从医学文本中所提取的医学实体和关系构建医学知识图谱。

步骤104，获得中心词和特征词：当获得输入信息时，通过命名实体识别技术对输入文本进行分析并识别出若干个医学实体，当某个医学实体不存在于内部数据库时，定义该实体为中心词A，同时将其他医学实体定义为特征词(C₁，C₂，C₃，…C_m)。

所述的内部数据库是指：通过整合ICD-10，medDRA，SNOMED中的标准医学术语构造的数据集。

步骤105，利用百度百科、维基百科等大量通用文本，训练通用词向量模型并保留通用词向量模型中的参数，再利用医学语料集对通用词向量模型的参数进行微调，获得医学实体的词向量信息。

所述的通用词向量模型如图2所示，为深层双向语言模型，在学习每个词对应的词向量时，会利用该词上下文中其他所有词对应的语义信息，不仅可以获得句子上下文更远距离的语言信息，还真正考虑到左右两侧的上下文信息，预训练模型数据规模大，即使医学数据不充足的情况下也可以获得很好的性能；该深层双向语言模型包括：输入层1051、中间层1052、1053，以及输出层1054，其中：中间层为12层变形(Transformer)模型，每个词的输入由词向量、分割向量、位置向量组成，训练每一个词的词向量时都充分的利用了上下文的语义信息。

所述的变形模型，为《Attention Is All You Need》(Ashish Vaswani，NoamShazeer，Niki Parmar，Jakob Uszkoreit，Llion Jones，Aidan N.Gomez，Lukasz Kaiser，Illia Polosukhin12Jun 2017)中记载的基于注意力机制的网络结构。

所述的医学语料集通过爬虫方式得到。

所述的通用词向量模型的参数优选为：Transformer模型的层数为12，Transformer模型的内部维度为768，heads的数量为12。

所述的微调是指：利用通用词向量模型的参数作为初始化参数，并在同一模型中输入医学语料集进行训练。

例如：取自用户输入的词A对应的词向量为w₁＝(x₁，x₂，x₃，x₄，x₅，…，x_n-2，x_n-1，x_n)，词B对应的词向量为w₁′＝(x′₁，x′₂，x′₃，x′₄，x′₅，…x′_n-2，x′_n-1，x′_n)。

步骤106，根据字符编辑距离、拼音编辑距离和公共部首生成A,B两词之间的特征向量w₂＝(y₁，y₂，y₃)，其中字符编辑距离拼音编辑距离拼音编辑距离指的是将词A,B转化为对应的拼音，然后对拼音计算编辑距离，公共部首公共部首指的是例如词A为糖尿病，B为乳腺癌，其中对应的“糖”，“乳”部首不相同，“尿”，“腺”部首不相同，“病”，“癌”部首相同，则分子部首相同的个数为1，分母A,B的最大长度为3。

步骤107，将医学实体A,B的词向量和特征向量拼接后计算A和B之间的相似度，具体为：将步骤105，106获得的词向量w₁和特征向量w₂进行拼接，组成α＝(y₁，y₂，y₃，x₁，x₂，x₃，x₄，x₅，…，x_n-2，x_n-1，x_n)，β＝(1，1，1，x′₁，x′₂，x′₃，x′₄，x′₅，…x′_n-2，x′_n-1，x′_n)，其中α为中心词A拼接后的向量，β为内部数据库中标准医学实体B拼接后的向量，需要对A和所有的B分别计算余弦相似度，从而在内部数据库中获得与A相似度较高的前三个医学词汇(A₁，A₂，A₃)。

所述的余弦相似度其中：*表示两个向量每一维度对应元素相乘的总和，||表示向量各维度的平方和然后开根号，i的取值范围是[1，n]，n表示向量的总维度，α、β为拼接后的向量。

通过以上方法，对中心词A，特征词(C₁，C₂，C₃，…C_m)分别获得三个相似词，(A₁，A₂，A₃)，(C₁₁，C₁₂，C₁₃)，(C₂₁，C₂₂，C₂₃)，(C₃₁，C₃₂，C₃₃)，…，(C_m1，C_m2，C_m3)，最终获得3*(m+1)个医学词汇，其中前3个是中心词的相似词，剩下的为特征词的相似词。

步骤108，如图3所示，结合知识图谱，获得同义词，具体步骤包括：

步骤1081，根据步骤103得到知识图谱；

步骤1082，在知识图谱中找到医学词汇A₁所在的子图；

步骤1083，以A₁为中心，找到与A₁相连的所有节点；

步骤1084，将步骤1083找到的所有节点存放在数组中，即节点数组D；

步骤1085，采集m个特征词并从词向量模型中获得m个特征词的词向量；

步骤1086，通过计算特征向量和词向量拼接后的向量余弦相似度在内部数据库中分别获得每个特征词对应的3个相似词；

步骤1087，将步骤1085和步骤1086获得的(3+1)*m个特征词{(C₁，C₂，C₃，…C_m)，(C₁₁，C₁₂，C₁₃)，(C₂₁，C₂₂，C₂₃)，(C₃₁，C₃₂，C₃₃)，…，(C_m1，C_m2，C_m3)}进行排列组合，得到4^m种组合方式，使得每一种组合方式都包括每个特征词中的一种情况；

步骤1088，依次选择所有的特征词组合；

所述的组合方式包括：当m为2，特征词则变为{(C₁，C₁₁，C₁₂，C₁₃)，(C₂，C₂₁，C₂₂，C₂₃)}，组合方式即为(C₁，C₂)，(C₁₁，C₂)，(C₁₂，C₂)，(C₁₃，C₂)，(C₁，C₂₁)，(C₁，C₂₂)，(C₁，C₂₃)，(C₁₁，C₂₁)，(C₁₁，C₂₂)，(C₁₁，C₂₃)，(C₁₂，C₂₁)，(C₁₂，C₂₂)，(C₁₂，C₂₃)，(C₁₃，C₂₁)，(C₁₃C₂₂)，(C₁₃，C₂₃)；

步骤1089，将选择的组合方式和节点数组D进行比较，统计公共元素；

所述的比较是指：比较两个数组中是否有相同的元素；

所述的公共元素是指：一个元素同时出现在步骤1088中的特征词组合和节点数组D中，即为公共元素。

步骤10810，记录不同的特征词组合和节点数组D公共元素的个数，取公共元素的平均值，对医学词汇A₂，A₃重复步骤1082～步骤10810执行相同操作；

步骤10811以A₁，A₂，A₃中公共元素的平均值最大的一个医学词汇作为最终同义词。

本实施例利用主诉中的相关信息在知识图谱中更加准确的定位到同义词，从而获取的同义词准确度有很大的提升。

经过具体实际实验，在Linux操作系统，32G内存的环境下，以L＝12，H＝768，A＝12参数运行上述方法，能够得到的实验数据是：本模型的准确度为0.85，Spearman系数为0.76，Pearson系数为0.74，在同一测试集下word2vec准确度为0.76，Spearman系数为0.54，Pearson系数为0.60。与现有技术相比，本方法的性能指标提升在于：利用了深层双向语言模型训练词向量，并在知识图谱上对候选相似词进行筛选。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于深度学习和知识图谱获取医学同义词的系统，其特征在于，包括：知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块，其中：知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息，词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块，相似度计算模块根据医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块，公共元素统计模块通过统计公共元素的方式从中选出最终同义词。

2.根据权利要求1所述的系统，其特征是，所述的知识图谱信息，通过医学词典和标准术语集构建分词词典和停用词表，结合分词技术和命名实体识别技术对医学文本进行准确分词提取的医学实体和关系构建得到。

3.根据权利要求1所述的系统，其特征是，所述的医学实体的词向量信息，通过命名实体识别技术对输入文本进行分析并识别出若干个医学实体，当某个医学实体不存在于标准医学数据集时，定义该实体为中心词A，同时将其他医学实体定义为特征词(C₁，C₂，C₃，…C_m)；然后利用通用文本训练通用词向量模型并保留通用词向量模型中的参数；最后利用医学语料集对通用词向量模型的参数进行微调，获得医学实体的词向量信息。

4.根据权利要求3所述的系统，其特征是，所述的通用词向量模型为深层双向语言模型，该模型利用该词上下文中其他所有词对应的语义信息获得句子上下文更远距离的语言信息，该深层双向语言模型包括：输入层、中间层以及输出层，其中：中间层为12层Transformer模型，每个词的输入由词向量、分割向量、位置向量组成。

5.根据权利要求3所述的系统，其特征是，所述的微调是指：利用通用词向量模型的参数作为初始化参数，并在同一模型中输入医学语料集进行训练。

6.根据权利要求1所述的系统，其特征是，所述的相似度，通过将两个医学实体的词向量和特征向量拼接得到新的向量后计算两者之间的余弦相似度，其中：

余弦相似度其中：*表示两个向量每一维度对应元素相乘的总和，||表示向量各维度的平方和然后开根号，i的取值范围是[1，n]，n表示向量的总维度，其中：中心词A的拼接后的向量

α＝(y₁，y₂，y₃，x₁，x₂，x₃，x₄，x₅，…，x_n-2，x_n-1，x_n)，内部数据库中的标准医学实体的新的向量β＝(1，1，1，x′₁，x′₂，x′₃，x′₄，x′₅，…x′_n-2，x′_n-1，x′_n)；

特征向量w₂＝(y₁，y₂，y₃)，字符编辑距离拼音编辑距离公共部首距离其中：中心词A对应的词向量为w₁＝(x₁，x₂，x₃，x₄，x₅，…，x_n-2，x_n-1，x_n)，内部数据库中的标准医学实体词B对应的词向量为w′₁＝(x′₁，x′₂，x′₃，x′₄，x′₅，…，x′_n-2，x′_n-1，x′_n)。

7.根据权利要求1所述的系统，其特征是，所述的候选同义词，即词向量和特征向量拼接后的向量计算余弦相似度获得的相似度最高的前三个医学词汇(A₁，A₂，A₃)作为候选同义词。

8.根据权利要求1所述的系统，其特征是，所述的最终同义词，通过将用户输入中的中心词A在内部数据库中获得与其相似度最高的前三个医学词汇(A₁，A₂，A₃)作为候选同义词，并分别将这三个候选同义词所在子图中的其他节点和特征词的组合统计公共元素，公共元素平均值最大的候选同义词作为最终同义词；

所述的公共元素，即特征词的排列组合和医学词汇的节点数组的交集。

9.一种基于深度学习和知识图谱获取医学同义词的方法，其特征在于，基于上述任一权利要求所述系统实现。