CN112800244B

CN112800244B - 一种中医药及民族医药知识图谱的构建方法

Info

Publication number: CN112800244B
Application number: CN202110173750.9A
Authority: CN
Inventors: 郑世超; 温川飙; 张艺; 萧文科; 甘彦雄; 杨超; 高园
Original assignee: Chengdu University of Traditional Chinese Medicine
Current assignee: Chengdu University of Traditional Chinese Medicine
Priority date: 2021-02-06
Filing date: 2021-02-06
Publication date: 2022-12-27
Anticipated expiration: 2041-02-06
Also published as: CN112800244A

Abstract

本发明涉及知识图谱领域，特别是一种中医药及民族医药知识图谱的构建方法。本发明通过录入医学数据并将其转化为词向量，再对所述词向量进行实体标注和自动注释后，将标注注释完成后的所述词向量输入到中医药及民族医药数据库，通过知识图谱信息抽取，从而获取中医药及民族医药知识图谱模型，即利用自然语言处理技术，将非结构化数据转换为结构化数据，便于数据被计算机识别，提高数据的利用率和准确率，方便统计数据发现新的规律，从而整合少数民族医药资源，评价少数民族地区医药资源水平，精准实现少数民族医药资源挖掘。

Description

一种中医药及民族医药知识图谱的构建方法

技术领域

本发明涉及知识图谱领域，特别是一种中医药及民族医药知识图谱的构建方法。

背景技术

中医和西医的文本有极大的区别，中医存在许多概念模糊的内容，继承了中医古语的语言习惯，导致中医语言描述语义晦涩难懂，非中医专业技术人员很难准确地标注语料。同时，中医语言描述存在很多见的一词多义、一义多词，生僻字、古体字等问题，导致中医的标注数据到目前为止非常罕有，也给相关的算法研究带来了巨大的困难。而少数民族医药古籍除了包含中医部分，还有更多民族特色的文献，这类文献文字晦涩，表达方式各有不同，在整合上需要基于语义理解构建功能强大的知识网络进行语义分析，从而得到详实可用的知识图谱。

基于语义理解构建知识网络，即在语义理解的基础上，进一步挖掘语义关系形成的网络关系，基于一定规则人工构建得出。目前绝大多数该方向的研究都是基于本体(Ontology)实现的，所构建出来的网络属于语义网络。语义网络具有简单、丰富、易读等特点而被广泛使用，著名的一体化医学语言系统(Unified Medical Language System，UMLS)就是基于语义网络而设计的框架。但在实际运用中，由于少数民族医药词汇表达特殊性强，相同症状具有不同的描述方法，使用现有Skip-gram算法训练出来的词向量网络中，医药词汇几乎聚集在了一起，形成了孤岛，无法体现词汇之间的关联性，不能实际应用。

而其他词向量模型也有应用在医药领域的，但其整合效率低。Minarro-Gimenez等通过Word2vec模型获取语言学上的一些规律信息，但该规律信息只有不到50％的准确率。Minarro-Gimenez等利用美国国家药物文件参考术语(NDF-RT，National Drug File-Reference Terminology)来评价Word2vec的效果，得到的准确率同样不高。所以如今需要一种能够运用在中医药及民族医药领域且准确率高的知识图谱构建方法。

发明内容

本发明的目的在于克服现有技术中所存在的没有应用于中医药及民族医药领域的知识图谱构建方法，且将现有算法应用到中医药领域的准确率过低，提供一种中医药及民族医药知识图谱的构建方法。

为了实现上述发明目的，本发明提供了以下技术方案：

一种中医药及民族医药知识图谱的构建方法，包括以下步骤：

S1：录入医学文本数据集并对其进行预处理，获取医学文本并存入文本数据集；

S2：将所述文本数据集中的所述医学文本转换为词向量，并将所述词向量输入到CBOW模型中进行更新处理；

S3：对所述词向量进行实体标注，并通过双向长短时记忆神经网络技术构建自适应层次注意网络，对所述实体标注的类别进行自动注释；其中，所述类别包括症状、疾病以及药物；

S4：将标注注释完成后的所述词向量输入到中医药及民族医药数据库，并根据所述中医药及民族医药数据库进行知识图谱信息抽取，输出中医药及民族医药知识图谱模型。

本发明通过录入医学数据并将其转化为词向量，再对所述词向量进行实体标注和自动注释后，将标注注释完成后的所述词向量输入到中医药及民族医药数据库，通过知识图谱信息抽取，从而获取中医药及民族医药知识图谱模型，即利用自然语言处理技术，将非结构化数据转换为结构化数据，便于数据被计算机识别，提高数据的利用率和准确率，方便统计数据发现新的规律，从而整合少数民族医药资源，评价少数民族地区医药资源水平，精准实现少数民族医药资源挖掘。

作为本发明的优选方案，所述步骤S1包括以下流程：

S11：录入医学文本数据集；其中，所述医学文本数据集包括多个数据列，每个所述数据列包括多条含有医学文本的标准数据；

S12：对所述医学文本数据集进行清洗，去除脏数据；

S13：通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词，获取医学文本并存入文本数据集。本发明通过对所述医学文本数据集进行清洗和分词，去除了信息不全、文字乱码等脏数据，也使所述医学文本数据集内的文本信息更加准确规范，便于后续的处理。

作为本发明的优选方案，所述步骤S12包括：

S121：在所述医学文本数据集中选择需要的数据列；

S122：遍历所述数据列，对列名相同或含义指向相同的数据列进行重命名；

S123：遍历所述数据列中的所述标准数据，删除与所述标准数据的相同含义的重复数据；

S124：遍历所述医学文本数据集，获取所述数据列的空白数据，并发送至工作人员补充缺失值。

作为本发明的优选方案，所述步骤S13还包括根据停用词表过滤无效、无实质意义或者干扰词汇，提高分词的准确性和针对性。

作为本发明的优选方案，所述步骤S2包括：

S21：通过独热码将所述文本数据集中的所述医学文本转换为词汇编码；

S22：通过Word2Vec模型将所述词汇编码转换为词向量；

S23：将所述词向量输入到CBOW模型中进行更新处理。本发明采用Word2Vec模型将独热编码后的所述词汇编码转换为词向量，并通过CBOW模型对所述词向量进行嵌入降维处理，形成维数较低的实数域空间的连续向量，从而解决维数灾难的问题。

作为本发明的优选方案，所述步骤S23包括：

S231：将所述词向量输入到CBOW模型，并对所述词向量进行累加求和操作，其计算式为：

其中，ω为所述词汇编码，X_ω为所述词向量的累加和值，V(Coentext(ω)_i)为所述医学文本数据集第i个所述词向量，2c为所述词向量的总数；

S232：根据公式

对所述词向量反向迭代和更新；其中，V(ω)为所述词汇编码ω的词向量，lω为所述词汇编码ω对应的联立路径中节点的个数，

为所述词汇编码ω的哈夫曼编码，

为所述词汇编码ω对应的联立路径中非叶子节点个数。

作为本发明的优选方案，所述步骤S3中所述实体标注动作采用基于熵扩展术语抽取技术，令检索关键词对应的所述词向量为S，其他所述词向量为x，其计算式为：

Entrop(S)＝-∑_x∈XP(x_S|S)log₂P(x_S|S)；

其中，

为所述关键词S出现时，x作为其相邻词向量的条件概率；X为所述关键词S周围出现的词向量集合；x_S为S周围出现的所述词向量x与S共同出现时的字符串组合。

作为本发明的优选方案，所述步骤S4中进行知识图谱信息抽取后，通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。本发明通过对所述词向量进行实体的标注和自动注释，然后将所述词向量关联到知识图谱，从而能够通过关联关系以及知识图谱获取实体对应信息，理解实体背后的知识，最后理解实体之间的关系，包括实体的属性、侧面等，从而实现了语义消歧、可计算推理和泛化解释的效果。

作为本发明的优选方案，所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据，且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。

一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

与现有技术相比，本发明的有益效果：

1.本发明通过录入医学数据并将其转化为词向量，再对所述词向量进行实体标注和自动注释后，将标注注释完成后的所述词向量输入到中医药及民族医药数据库，通过知识图谱信息抽取，从而获取中医药及民族医药知识图谱模型，即利用自然语言处理技术，将非结构化数据转换为结构化数据，便于数据被计算机识别，提高数据的利用率和准确率，方便统计数据发现新的规律，从而整合少数民族医药资源，评价少数民族地区医药资源水平，精准实现少数民族医药资源挖掘。

2.本发明通过对所述医学文本数据集进行清洗和分词，去除了信息不全、文字乱码等脏数据，也使所述医学文本数据集内的文本信息更加准确规范，便于后续的处理。

3.本发明采用Word2Vec模型将独热编码后的所述词汇编码转换为词向量，并通过CBOW模型对所述词向量进行嵌入降维处理，形成维数较低的实数域空间的连续向量，从而解决维数灾难的问题。

4.本发明通过对所述词向量进行实体的标注和自动注释，然后将所述词向量关联到知识图谱，从而能够通过关联关系以及知识图谱获取实体对应信息，理解实体背后的知识，最后理解实体之间的关系，包括实体的属性、侧面等，从而实现了语义消歧、可计算推理和泛化解释的效果。

附图说明

图1为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的流程示意图；

图2为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的CBOW模型运作示意图；

图3为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的中医药及民族医药知识图谱效果示意图；

图4为本发明实施例2所述的一种利用了实施例1所述的中医药及民族医药知识图谱的构建方法的一种电子设备。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

如图1所示，一种中医药及民族医药知识图谱的构建方法，包括以下步骤：

S1：录入医学文本数据集并对其进行预处理，获取医学文本并存入文本数据集。

S11：录入医学文本数据集；其中，所述医学文本数据集包括多个数据列，每个所述数据列包括多条含有医学文本信息的标准数据；所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据，且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。所述民族医药文献数据包括彝族的《毕摩经书》、藏族的《四部药典》等资料。

S12：对所述医学文本数据集进行清洗，信息不全、文字乱码等脏数据。

S121：在所述医学文本数据集中选择需要的数据列，为避免干扰对其他不参与分析的数据列进行隐藏处理。

S122：遍历所述数据列，对列名相同或含义指向相同的数据列进行重命名，用于避免干扰分析结果。

S123：由于各民族语言不同，分析值可能会是相同含义的不同语法，遍历所述数据列中的所述标准数据，删除与所述标准数据的相同含义的重复数据，仅保留一条标准数据，进行结果的分析。

S124：遍历所述医学文本数据集，获取所述数据列的空白数据，并发送至工作人员补充缺失值，保证分析的正常进行。

S125：根据ISO/TO提出的中药标准，规范所述医学文本数据集的术语。西南少数民族医药文献数据会存在不同民族，不同地域，不同时间的文献数据，这类数据会存在相同含义的事物具有不同的描述，本步骤为了让结果得到更广泛的应用。

S13：通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词，获取医学文本并存入文本数据集。同时，运用停用词表过滤无效、无实质意义或者干扰词汇，提高分词的准确性和针对性。

S2：将所述文本数据集中的所述医学文本转换为词向量，并将所述词向量输入到CBOW模型中进行更新处理。

S21：通过独热码(One-hot编码，用“位(bit)”来表示一种状态)将所述文本数据集中的所述医学文本转换为词汇编码。

S22：通过Word2Vec模型将所述词汇编码转换为词向量。

S23：将所述词向量输入到CBOW(Continuous Bagof-Words)模型中进行更新处理。

其中，如图2所示，所述CBOW模型包括输入层、投射层以及输出层，设词汇编码ω在所述医学文本数据集的出现位置为Coentext(ω)，则每个词汇编码ω的词向量为V(Coentext(ω))，选择所述词汇编码ω前后2个词所对应的词向量作为输入，每个词向量具有相同的维度m。通过CBOW模型遍历所述医学文本数据集，将每个词语假设为已知的词向量，通过求和和反向迭代的方式更新词向量。其算法关键步骤如下：

通过输入层将所述词向量输入所述CBOW模型。由所述投射层对所有词向量做累加求和操作：

其中，ω为所述词汇编码，X_ω为所述词向量的累加和值，V(Coentext(ω)_i)为所述医学文本数据集第i个所述词向量，2c为所述词向量的总数。

对所述词向量进行节点分类，约定到二叉树左边为负类，分到右边为正类，通过sigmoid函数计算所述累加和被分到正类的概率为：

所述输出层基于哈夫曼(Huffman)二叉树和独热码编码原则，联立路径p^ω内ω-1个分支的概率乘积和式(1)，构建条件概率公式和条件概率的对数似然函数为：

其中，p^ω为联立路径；j指词向量序号；

指为二叉树各分支的概率，lω为所述词汇编码ω对应的联立路径中节点的个数，

为所述词汇编码ω的哈夫曼编码，

为所述词汇编码ω对应的联立路径中非叶子节点个数。

联立负类概率为：

条件概率的对数似然函数恒等式为：

根据上式(6)可知，条件概率对数似然函数与花括号内的函数成正比关系，设ξ(ω,j)为花括号内函数，故需最优化ξ(ω,j)，则可得对数似然函数的最优解：

由梯度上升算法知，最优化函数需求解函数在其参数上的方向梯度，ξ(ω,j)有两个参量

和X_ω，依次求解如下：

即：

输出层得到映射层的累加向量X_ω后，基于式(1)、(8)和(9)之间的关系，更新词ω的词向量V(ω)，即每次更新参数累加向量X_ω时，V(ω)也伴随更新，故输出层的输出量为：

S3：对所述词向量进行实体标注，并通过双向长短时记忆神经网络技术(Bi-directional Long Short-TermMemory,BiLSTM)构建自适应层次注意网络，对所述实体标注的类别(包括症状、疾病、药物等)进行自动注释；其中所述实体标注动作采用基于熵扩展术语抽取技术，令检索的所述词向量的关键词为S，其他所述词向量为x，其计算式为：

Entrop(S)＝-∑_x∈XP(x_S|S)log₂P(x_S|S)；

其中，

为所述关键词S出现时，x作为其相邻词向量的条件概率，采用极大似然估计计算；X为所述关键词S周围出现的词向量集合；x_S为S周围出现的所述词向量x与S共同出现时的字符串组合。当Entrop(S)值越小，说明关键词S周围出现的词语越稳定，S越可能是一个包含关键词S的关键词。

所述步骤S4中进行知识图谱信息抽取后，通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。在Gephi软件中进行可视化数据效果如图3所示。

实施例2

如图4所示，一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述实施例所述的一种中医药及民族医药知识图谱的构建方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口，用于输入输出数据；电源用于为电子设备提供电能。

本领域技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。