CN112800244B - 一种中医药及民族医药知识图谱的构建方法 - Google Patents

一种中医药及民族医药知识图谱的构建方法 Download PDF

Info

Publication number
CN112800244B
CN112800244B CN202110173750.9A CN202110173750A CN112800244B CN 112800244 B CN112800244 B CN 112800244B CN 202110173750 A CN202110173750 A CN 202110173750A CN 112800244 B CN112800244 B CN 112800244B
Authority
CN
China
Prior art keywords
traditional chinese
data set
medical text
word
chinese medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110173750.9A
Other languages
English (en)
Other versions
CN112800244A (zh
Inventor
郑世超
温川飙
张艺
萧文科
甘彦雄
杨超
高园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Traditional Chinese Medicine
Original Assignee
Chengdu University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Traditional Chinese Medicine filed Critical Chengdu University of Traditional Chinese Medicine
Priority to CN202110173750.9A priority Critical patent/CN112800244B/zh
Publication of CN112800244A publication Critical patent/CN112800244A/zh
Application granted granted Critical
Publication of CN112800244B publication Critical patent/CN112800244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及知识图谱领域,特别是一种中医药及民族医药知识图谱的构建方法。本发明通过录入医学数据并将其转化为词向量,再对所述词向量进行实体标注和自动注释后,将标注注释完成后的所述词向量输入到中医药及民族医药数据库,通过知识图谱信息抽取,从而获取中医药及民族医药知识图谱模型,即利用自然语言处理技术,将非结构化数据转换为结构化数据,便于数据被计算机识别,提高数据的利用率和准确率,方便统计数据发现新的规律,从而整合少数民族医药资源,评价少数民族地区医药资源水平,精准实现少数民族医药资源挖掘。

Description

一种中医药及民族医药知识图谱的构建方法
技术领域
本发明涉及知识图谱领域,特别是一种中医药及民族医药知识图谱的构建方法。
背景技术
中医和西医的文本有极大的区别,中医存在许多概念模糊的内容,继承了中医古语的语言习惯,导致中医语言描述语义晦涩难懂,非中医专业技术人员很难准确地标注语料。同时,中医语言描述存在很多见的一词多义、一义多词,生僻字、古体字等问题,导致中医的标注数据到目前为止非常罕有,也给相关的算法研究带来了巨大的困难。而少数民族医药古籍除了包含中医部分,还有更多民族特色的文献,这类文献文字晦涩,表达方式各有不同,在整合上需要基于语义理解构建功能强大的知识网络进行语义分析,从而得到详实可用的知识图谱。
基于语义理解构建知识网络,即在语义理解的基础上,进一步挖掘语义关系形成的网络关系,基于一定规则人工构建得出。目前绝大多数该方向的研究都是基于本体(Ontology)实现的,所构建出来的网络属于语义网络。语义网络具有简单、丰富、易读等特点而被广泛使用,著名的一体化医学语言系统(Unified Medical Language System,UMLS)就是基于语义网络而设计的框架。但在实际运用中,由于少数民族医药词汇表达特殊性强,相同症状具有不同的描述方法,使用现有Skip-gram算法训练出来的词向量网络中,医药词汇几乎聚集在了一起,形成了孤岛,无法体现词汇之间的关联性,不能实际应用。
而其他词向量模型也有应用在医药领域的,但其整合效率低。Minarro-Gimenez等通过Word2vec模型获取语言学上的一些规律信息,但该规律信息只有不到50%的准确率。Minarro-Gimenez等利用美国国家药物文件参考术语(NDF-RT,National Drug File-Reference Terminology)来评价Word2vec的效果,得到的准确率同样不高。所以如今需要一种能够运用在中医药及民族医药领域且准确率高的知识图谱构建方法。
发明内容
本发明的目的在于克服现有技术中所存在的没有应用于中医药及民族医药领域的知识图谱构建方法,且将现有算法应用到中医药领域的准确率过低,提供一种中医药及民族医药知识图谱的构建方法。
为了实现上述发明目的,本发明提供了以下技术方案:
一种中医药及民族医药知识图谱的构建方法,包括以下步骤:
S1:录入医学文本数据集并对其进行预处理,获取医学文本并存入文本数据集;
S2:将所述文本数据集中的所述医学文本转换为词向量,并将所述词向量输入到CBOW模型中进行更新处理;
S3:对所述词向量进行实体标注,并通过双向长短时记忆神经网络技术构建自适应层次注意网络,对所述实体标注的类别进行自动注释;其中,所述类别包括症状、疾病以及药物;
S4:将标注注释完成后的所述词向量输入到中医药及民族医药数据库,并根据所述中医药及民族医药数据库进行知识图谱信息抽取,输出中医药及民族医药知识图谱模型。
本发明通过录入医学数据并将其转化为词向量,再对所述词向量进行实体标注和自动注释后,将标注注释完成后的所述词向量输入到中医药及民族医药数据库,通过知识图谱信息抽取,从而获取中医药及民族医药知识图谱模型,即利用自然语言处理技术,将非结构化数据转换为结构化数据,便于数据被计算机识别,提高数据的利用率和准确率,方便统计数据发现新的规律,从而整合少数民族医药资源,评价少数民族地区医药资源水平,精准实现少数民族医药资源挖掘。
作为本发明的优选方案,所述步骤S1包括以下流程:
S11:录入医学文本数据集;其中,所述医学文本数据集包括多个数据列,每个所述数据列包括多条含有医学文本的标准数据;
S12:对所述医学文本数据集进行清洗,去除脏数据;
S13:通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词,获取医学文本并存入文本数据集。本发明通过对所述医学文本数据集进行清洗和分词,去除了信息不全、文字乱码等脏数据,也使所述医学文本数据集内的文本信息更加准确规范,便于后续的处理。
作为本发明的优选方案,所述步骤S12包括:
S121:在所述医学文本数据集中选择需要的数据列;
S122:遍历所述数据列,对列名相同或含义指向相同的数据列进行重命名;
S123:遍历所述数据列中的所述标准数据,删除与所述标准数据的相同含义的重复数据;
S124:遍历所述医学文本数据集,获取所述数据列的空白数据,并发送至工作人员补充缺失值。
作为本发明的优选方案,所述步骤S13还包括根据停用词表过滤无效、无实质意义或者干扰词汇,提高分词的准确性和针对性。
作为本发明的优选方案,所述步骤S2包括:
S21:通过独热码将所述文本数据集中的所述医学文本转换为词汇编码;
S22:通过Word2Vec模型将所述词汇编码转换为词向量;
S23:将所述词向量输入到CBOW模型中进行更新处理。本发明采用Word2Vec模型将独热编码后的所述词汇编码转换为词向量,并通过CBOW模型对所述词向量进行嵌入降维处理,形成维数较低的实数域空间的连续向量,从而解决维数灾难的问题。
作为本发明的优选方案,所述步骤S23包括:
S231:将所述词向量输入到CBOW模型,并对所述词向量进行累加求和操作,其计算式为:
Figure GDA0003939753430000041
其中,ω为所述词汇编码,Xω为所述词向量的累加和值,V(Coentext(ω)i)为所述医学文本数据集第i个所述词向量,2c为所述词向量的总数;
S232:根据公式
Figure GDA0003939753430000042
对所述词向量反向迭代和更新;其中,V(ω)为所述词汇编码ω的词向量,lω为所述词汇编码ω对应的联立路径中节点的个数,
Figure GDA0003939753430000043
为所述词汇编码ω的哈夫曼编码,
Figure GDA0003939753430000044
为所述词汇编码ω对应的联立路径中非叶子节点个数。
作为本发明的优选方案,所述步骤S3中所述实体标注动作采用基于熵扩展术语抽取技术,令检索关键词对应的所述词向量为S,其他所述词向量为x,其计算式为:
Entrop(S)=-∑x∈XP(xS|S)log2P(xS|S);
其中,
Figure GDA0003939753430000051
为所述关键词S出现时,x作为其相邻词向量的条件概率;X为所述关键词S周围出现的词向量集合;xS为S周围出现的所述词向量x与S共同出现时的字符串组合。
作为本发明的优选方案,所述步骤S4中进行知识图谱信息抽取后,通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。本发明通过对所述词向量进行实体的标注和自动注释,然后将所述词向量关联到知识图谱,从而能够通过关联关系以及知识图谱获取实体对应信息,理解实体背后的知识,最后理解实体之间的关系,包括实体的属性、侧面等,从而实现了语义消歧、可计算推理和泛化解释的效果。
作为本发明的优选方案,所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据,且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。
一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果:
1.本发明通过录入医学数据并将其转化为词向量,再对所述词向量进行实体标注和自动注释后,将标注注释完成后的所述词向量输入到中医药及民族医药数据库,通过知识图谱信息抽取,从而获取中医药及民族医药知识图谱模型,即利用自然语言处理技术,将非结构化数据转换为结构化数据,便于数据被计算机识别,提高数据的利用率和准确率,方便统计数据发现新的规律,从而整合少数民族医药资源,评价少数民族地区医药资源水平,精准实现少数民族医药资源挖掘。
2.本发明通过对所述医学文本数据集进行清洗和分词,去除了信息不全、文字乱码等脏数据,也使所述医学文本数据集内的文本信息更加准确规范,便于后续的处理。
3.本发明采用Word2Vec模型将独热编码后的所述词汇编码转换为词向量,并通过CBOW模型对所述词向量进行嵌入降维处理,形成维数较低的实数域空间的连续向量,从而解决维数灾难的问题。
4.本发明通过对所述词向量进行实体的标注和自动注释,然后将所述词向量关联到知识图谱,从而能够通过关联关系以及知识图谱获取实体对应信息,理解实体背后的知识,最后理解实体之间的关系,包括实体的属性、侧面等,从而实现了语义消歧、可计算推理和泛化解释的效果。
附图说明
图1为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的流程示意图;
图2为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的CBOW模型运作示意图;
图3为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的中医药及民族医药知识图谱效果示意图;
图4为本发明实施例2所述的一种利用了实施例1所述的中医药及民族医药知识图谱的构建方法的一种电子设备。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
如图1所示,一种中医药及民族医药知识图谱的构建方法,包括以下步骤:
S1:录入医学文本数据集并对其进行预处理,获取医学文本并存入文本数据集。
S11:录入医学文本数据集;其中,所述医学文本数据集包括多个数据列,每个所述数据列包括多条含有医学文本信息的标准数据;所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据,且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。所述民族医药文献数据包括彝族的《毕摩经书》、藏族的《四部药典》等资料。
S12:对所述医学文本数据集进行清洗,信息不全、文字乱码等脏数据。
S121:在所述医学文本数据集中选择需要的数据列,为避免干扰对其他不参与分析的数据列进行隐藏处理。
S122:遍历所述数据列,对列名相同或含义指向相同的数据列进行重命名,用于避免干扰分析结果。
S123:由于各民族语言不同,分析值可能会是相同含义的不同语法,遍历所述数据列中的所述标准数据,删除与所述标准数据的相同含义的重复数据,仅保留一条标准数据,进行结果的分析。
S124:遍历所述医学文本数据集,获取所述数据列的空白数据,并发送至工作人员补充缺失值,保证分析的正常进行。
S125:根据ISO/TO提出的中药标准,规范所述医学文本数据集的术语。西南少数民族医药文献数据会存在不同民族,不同地域,不同时间的文献数据,这类数据会存在相同含义的事物具有不同的描述,本步骤为了让结果得到更广泛的应用。
S13:通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词,获取医学文本并存入文本数据集。同时,运用停用词表过滤无效、无实质意义或者干扰词汇,提高分词的准确性和针对性。
S2:将所述文本数据集中的所述医学文本转换为词向量,并将所述词向量输入到CBOW模型中进行更新处理。
S21:通过独热码(One-hot编码,用“位(bit)”来表示一种状态)将所述文本数据集中的所述医学文本转换为词汇编码。
S22:通过Word2Vec模型将所述词汇编码转换为词向量。
S23:将所述词向量输入到CBOW(Continuous Bagof-Words)模型中进行更新处理。
其中,如图2所示,所述CBOW模型包括输入层、投射层以及输出层,设词汇编码ω在所述医学文本数据集的出现位置为Coentext(ω),则每个词汇编码ω的词向量为V(Coentext(ω)),选择所述词汇编码ω前后2个词所对应的词向量作为输入,每个词向量具有相同的维度m。通过CBOW模型遍历所述医学文本数据集,将每个词语假设为已知的词向量,通过求和和反向迭代的方式更新词向量。其算法关键步骤如下:
通过输入层将所述词向量输入所述CBOW模型。由所述投射层对所有词向量做累加求和操作:
Figure GDA0003939753430000081
其中,ω为所述词汇编码,Xω为所述词向量的累加和值,V(Coentext(ω)i)为所述医学文本数据集第i个所述词向量,2c为所述词向量的总数。
对所述词向量进行节点分类,约定到二叉树左边为负类,分到右边为正类,通过sigmoid函数计算所述累加和被分到正类的概率为:
Figure GDA0003939753430000091
所述输出层基于哈夫曼(Huffman)二叉树和独热码编码原则,联立路径pω内ω-1个分支的概率乘积和式(1),构建条件概率公式和条件概率的对数似然函数为:
Figure GDA0003939753430000092
Figure GDA0003939753430000093
其中,pω为联立路径;j指词向量序号;
Figure GDA0003939753430000094
指为二叉树各分支的概率,lω为所述词汇编码ω对应的联立路径中节点的个数,
Figure GDA0003939753430000095
为所述词汇编码ω的哈夫曼编码,
Figure GDA0003939753430000096
为所述词汇编码ω对应的联立路径中非叶子节点个数。
联立负类概率为:
Figure GDA0003939753430000097
条件概率的对数似然函数恒等式为:
Figure GDA0003939753430000098
根据上式(6)可知,条件概率对数似然函数与花括号内的函数成正比关系,设ξ(ω,j)为花括号内函数,故需最优化ξ(ω,j),则可得对数似然函数的最优解:
Figure GDA0003939753430000101
由梯度上升算法知,最优化函数需求解函数在其参数上的方向梯度,ξ(ω,j)有两个参量
Figure GDA0003939753430000102
和Xω,依次求解如下:
Figure GDA0003939753430000103
即:
Figure GDA0003939753430000104
输出层得到映射层的累加向量Xω后,基于式(1)、(8)和(9)之间的关系,更新词ω的词向量V(ω),即每次更新参数累加向量Xω时,V(ω)也伴随更新,故输出层的输出量为:
Figure GDA0003939753430000105
S3:对所述词向量进行实体标注,并通过双向长短时记忆神经网络技术(Bi-directional Long Short-TermMemory,BiLSTM)构建自适应层次注意网络,对所述实体标注的类别(包括症状、疾病、药物等)进行自动注释;其中所述实体标注动作采用基于熵扩展术语抽取技术,令检索的所述词向量的关键词为S,其他所述词向量为x,其计算式为:
Entrop(S)=-∑x∈XP(xS|S)log2P(xS|S);
其中,
Figure GDA0003939753430000106
为所述关键词S出现时,x作为其相邻词向量的条件概率,采用极大似然估计计算;X为所述关键词S周围出现的词向量集合;xS为S周围出现的所述词向量x与S共同出现时的字符串组合。当Entrop(S)值越小,说明关键词S周围出现的词语越稳定,S越可能是一个包含关键词S的关键词。
S4:将标注注释完成后的所述词向量输入到中医药及民族医药数据库,并根据所述中医药及民族医药数据库进行知识图谱信息抽取,输出中医药及民族医药知识图谱模型。
所述步骤S4中进行知识图谱信息抽取后,通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。在Gephi软件中进行可视化数据效果如图3所示。
实施例2
如图4所示,一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的一种中医药及民族医药知识图谱的构建方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源用于为电子设备提供电能。
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种中医药及民族医药知识图谱的构建方法,其特征在于,包括以下步骤:
S1:录入医学文本数据集并对其进行预处理,获取医学文本并存入文本数据集;
S2:将所述文本数据集中的所述医学文本转换为词向量,并将所述词向量输入到CBOW模型中进行更新处理;
S3:对所述词向量进行实体标注,并通过双向长短时记忆神经网络技术构建自适应层次注意网络,对所述实体标注的类别进行自动注释;其中,所述类别包括症状、疾病以及药物;
所述实体标注动作采用基于熵扩展术语抽取技术,令检索关键词对应的所述词向量为S,其他所述词向量为x,其计算式为:
Entrop(S)=-∑x∈XP(xS|S)log2P(xS|S);
其中,
Figure FDA0003939753420000011
为所述关键词S出现时,x作为其相邻词向量的条件概率;X为所述关键词S周围出现的词向量集合;xS为S周围出现的所述词向量x与S共同出现时的字符串组合;
S4:将标注注释完成后的所述词向量输入到中医药及民族医药数据库,并根据所述中医药及民族医药数据库进行知识图谱信息抽取,通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。
2.根据权利要求1所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S1包括以下流程:
S11:录入医学文本数据集;其中,所述医学文本数据集包括多个数据列,每个所述数据列包括多条含有医学文本的标准数据;
S12:对所述医学文本数据集进行清洗,去除脏数据;
S13:通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词,获取医学文本并存入文本数据集。
3.根据权利要求2所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S12包括:
S121:在所述医学文本数据集中选择需要的数据列;
S122:遍历所述数据列,对列名相同或含义指向相同的数据列进行重命名;
S123:遍历所述数据列中的所述标准数据,删除与所述标准数据的相同含义的重复数据;
S124:遍历所述医学文本数据集,获取所述数据列的空白数据,并发送至工作人员补充缺失值。
4.根据权利要求2所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S13还包括根据停用词表过滤无效、无实质意义或者干扰词汇,提高分词的准确性和针对性。
5.根据权利要求1所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S2包括:
S21:通过独热码将所述文本数据集中的所述医学文本转换为词汇编码;
S22:通过Word2Vec模型将所述词汇编码转换为词向量;
S23:将所述词向量输入到CBOW模型中进行更新处理。
6.根据权利要求5所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S23包括:
S231:将所述词向量输入到CBOW模型,并对所述词向量进行累加求和操作,其计算式为:
Figure FDA0003939753420000031
其中,ω为所述词汇编码,Xω为所述词向量的累加和值,V(Coentext(ω)i)为所述医学文本数据集第i个所述词向量,2c为所述词向量的总数;
S232:根据公式
Figure FDA0003939753420000032
对所述词向量反向迭代和更新;其中,V(ω)为所述词汇编码ω的词向量,lω为所述词汇编码ω对应的联立路径中节点的个数,
Figure FDA0003939753420000033
为所述词汇编码ω的哈夫曼编码,
Figure FDA0003939753420000034
为所述词汇编码ω对应的联立路径中非叶子节点个数。
7.根据权利要求1所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据,且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。
8.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
CN202110173750.9A 2021-02-06 2021-02-06 一种中医药及民族医药知识图谱的构建方法 Active CN112800244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110173750.9A CN112800244B (zh) 2021-02-06 2021-02-06 一种中医药及民族医药知识图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110173750.9A CN112800244B (zh) 2021-02-06 2021-02-06 一种中医药及民族医药知识图谱的构建方法

Publications (2)

Publication Number Publication Date
CN112800244A CN112800244A (zh) 2021-05-14
CN112800244B true CN112800244B (zh) 2022-12-27

Family

ID=75814823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110173750.9A Active CN112800244B (zh) 2021-02-06 2021-02-06 一种中医药及民族医药知识图谱的构建方法

Country Status (1)

Country Link
CN (1) CN112800244B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155962A (zh) * 2022-02-10 2022-03-08 北京妙医佳健康科技集团有限公司 一种数据清洗方法和利用知识图谱构建疾病诊断方法
CN117807191B (zh) * 2024-02-29 2024-05-24 船舶信息研究中心(中国船舶集团有限公司第七一四研究所) 一种基于知识图谱的非结构化数据检索方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统
CN111143574A (zh) * 2019-12-05 2020-05-12 大连民族大学 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN111324691A (zh) * 2020-01-06 2020-06-23 大连民族大学 一种基于知识图谱的少数民族领域智能问答方法
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN112307756A (zh) * 2020-09-30 2021-02-02 浙江汉德瑞智能科技有限公司 基于Bi-LSTM和字词融合的汉语分词方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11783917B2 (en) * 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统
CN111143574A (zh) * 2019-12-05 2020-05-12 大连民族大学 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN111324691A (zh) * 2020-01-06 2020-06-23 大连民族大学 一种基于知识图谱的少数民族领域智能问答方法
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN112307756A (zh) * 2020-09-30 2021-02-02 浙江汉德瑞智能科技有限公司 基于Bi-LSTM和字词融合的汉语分词方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chinese word segmentation Based on Contextual Entropy;Huang J H等;《Proceedings of the 17th Pacific Asia Conference on language, Information and Computation》;20031031;第152-158页 *
Different Data Mining Approaches Based Medical Text Data;Xiao Wenke等;《Journal of Healthcare Engineering》;20211206;第2021卷;E054-30 *
基于BiLSTM的中文电子病历知识图谱构建及实现;李永苗;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;20200815;第1285167-1285167页 *
基于改进互信息和邻接熵的微博新词发现方法;夭荣朋等;《计算机应用》;20161010;第36卷(第10期);第2772-2776页 *

Also Published As

Publication number Publication date
CN112800244A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Gong et al. Natural language inference over interaction space
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
US10169454B2 (en) Unsupervised ontology-based graph extraction from texts
CN111709243B (zh) 一种基于深度学习的知识抽取方法与装置
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
TWI738270B (zh) 將文句短語映射至知識分類表之方法及系統
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
Peng et al. TL-NER: A transfer learning model for Chinese named entity recognition
CN112154509A (zh) 具有用于文本注释的演变领域特异性词典特征的机器学习模型
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN112052668A (zh) 地址文本识别模型的训练方法、地址的预测方法及装置
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
Wang et al. Structural block driven enhanced convolutional neural representation for relation extraction
Chen et al. Bilinear joint learning of word and entity embeddings for entity linking
Sun et al. Probabilistic Chinese word segmentation with non-local information and stochastic training
Repke et al. Extraction and representation of financial entities from text
Akdemir et al. A review on deep learning applications with semantics
Huang et al. Disease named entity recognition by machine learning using semantic type of metathesaurus
Rao et al. Enhancing multi-document summarization using concepts
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
Song et al. Incorporating lexicon for named entity recognition of traditional Chinese medicine books
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Zhang et al. Constructing covid-19 knowledge graph from a large corpus of scientific articles
Yanling et al. Research on entity recognition and knowledge graph construction based on TCM medical records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant