CN112800244B - 一种中医药及民族医药知识图谱的构建方法 - Google Patents
一种中医药及民族医药知识图谱的构建方法 Download PDFInfo
- Publication number
- CN112800244B CN112800244B CN202110173750.9A CN202110173750A CN112800244B CN 112800244 B CN112800244 B CN 112800244B CN 202110173750 A CN202110173750 A CN 202110173750A CN 112800244 B CN112800244 B CN 112800244B
- Authority
- CN
- China
- Prior art keywords
- traditional chinese
- data set
- medical text
- word
- chinese medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims description 26
- 239000013598 vector Substances 0.000 claims abstract description 81
- 229940079593 drug Drugs 0.000 claims abstract description 10
- 229940126680 traditional chinese medicines Drugs 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及知识图谱领域,特别是一种中医药及民族医药知识图谱的构建方法。本发明通过录入医学数据并将其转化为词向量,再对所述词向量进行实体标注和自动注释后,将标注注释完成后的所述词向量输入到中医药及民族医药数据库,通过知识图谱信息抽取,从而获取中医药及民族医药知识图谱模型,即利用自然语言处理技术,将非结构化数据转换为结构化数据,便于数据被计算机识别,提高数据的利用率和准确率,方便统计数据发现新的规律,从而整合少数民族医药资源,评价少数民族地区医药资源水平,精准实现少数民族医药资源挖掘。
Description
技术领域
本发明涉及知识图谱领域,特别是一种中医药及民族医药知识图谱的构建方法。
背景技术
中医和西医的文本有极大的区别,中医存在许多概念模糊的内容,继承了中医古语的语言习惯,导致中医语言描述语义晦涩难懂,非中医专业技术人员很难准确地标注语料。同时,中医语言描述存在很多见的一词多义、一义多词,生僻字、古体字等问题,导致中医的标注数据到目前为止非常罕有,也给相关的算法研究带来了巨大的困难。而少数民族医药古籍除了包含中医部分,还有更多民族特色的文献,这类文献文字晦涩,表达方式各有不同,在整合上需要基于语义理解构建功能强大的知识网络进行语义分析,从而得到详实可用的知识图谱。
基于语义理解构建知识网络,即在语义理解的基础上,进一步挖掘语义关系形成的网络关系,基于一定规则人工构建得出。目前绝大多数该方向的研究都是基于本体(Ontology)实现的,所构建出来的网络属于语义网络。语义网络具有简单、丰富、易读等特点而被广泛使用,著名的一体化医学语言系统(Unified Medical Language System,UMLS)就是基于语义网络而设计的框架。但在实际运用中,由于少数民族医药词汇表达特殊性强,相同症状具有不同的描述方法,使用现有Skip-gram算法训练出来的词向量网络中,医药词汇几乎聚集在了一起,形成了孤岛,无法体现词汇之间的关联性,不能实际应用。
而其他词向量模型也有应用在医药领域的,但其整合效率低。Minarro-Gimenez等通过Word2vec模型获取语言学上的一些规律信息,但该规律信息只有不到50%的准确率。Minarro-Gimenez等利用美国国家药物文件参考术语(NDF-RT,National Drug File-Reference Terminology)来评价Word2vec的效果,得到的准确率同样不高。所以如今需要一种能够运用在中医药及民族医药领域且准确率高的知识图谱构建方法。
发明内容
本发明的目的在于克服现有技术中所存在的没有应用于中医药及民族医药领域的知识图谱构建方法,且将现有算法应用到中医药领域的准确率过低,提供一种中医药及民族医药知识图谱的构建方法。
为了实现上述发明目的,本发明提供了以下技术方案:
一种中医药及民族医药知识图谱的构建方法,包括以下步骤:
S1:录入医学文本数据集并对其进行预处理,获取医学文本并存入文本数据集;
S2:将所述文本数据集中的所述医学文本转换为词向量,并将所述词向量输入到CBOW模型中进行更新处理;
S3:对所述词向量进行实体标注,并通过双向长短时记忆神经网络技术构建自适应层次注意网络,对所述实体标注的类别进行自动注释;其中,所述类别包括症状、疾病以及药物;
S4:将标注注释完成后的所述词向量输入到中医药及民族医药数据库,并根据所述中医药及民族医药数据库进行知识图谱信息抽取,输出中医药及民族医药知识图谱模型。
本发明通过录入医学数据并将其转化为词向量,再对所述词向量进行实体标注和自动注释后,将标注注释完成后的所述词向量输入到中医药及民族医药数据库,通过知识图谱信息抽取,从而获取中医药及民族医药知识图谱模型,即利用自然语言处理技术,将非结构化数据转换为结构化数据,便于数据被计算机识别,提高数据的利用率和准确率,方便统计数据发现新的规律,从而整合少数民族医药资源,评价少数民族地区医药资源水平,精准实现少数民族医药资源挖掘。
作为本发明的优选方案,所述步骤S1包括以下流程:
S11:录入医学文本数据集;其中,所述医学文本数据集包括多个数据列,每个所述数据列包括多条含有医学文本的标准数据;
S12:对所述医学文本数据集进行清洗,去除脏数据;
S13:通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词,获取医学文本并存入文本数据集。本发明通过对所述医学文本数据集进行清洗和分词,去除了信息不全、文字乱码等脏数据,也使所述医学文本数据集内的文本信息更加准确规范,便于后续的处理。
作为本发明的优选方案,所述步骤S12包括:
S121:在所述医学文本数据集中选择需要的数据列;
S122:遍历所述数据列,对列名相同或含义指向相同的数据列进行重命名;
S123:遍历所述数据列中的所述标准数据,删除与所述标准数据的相同含义的重复数据;
S124:遍历所述医学文本数据集,获取所述数据列的空白数据,并发送至工作人员补充缺失值。
作为本发明的优选方案,所述步骤S13还包括根据停用词表过滤无效、无实质意义或者干扰词汇,提高分词的准确性和针对性。
作为本发明的优选方案,所述步骤S2包括:
S21:通过独热码将所述文本数据集中的所述医学文本转换为词汇编码;
S22:通过Word2Vec模型将所述词汇编码转换为词向量;
S23:将所述词向量输入到CBOW模型中进行更新处理。本发明采用Word2Vec模型将独热编码后的所述词汇编码转换为词向量,并通过CBOW模型对所述词向量进行嵌入降维处理,形成维数较低的实数域空间的连续向量,从而解决维数灾难的问题。
作为本发明的优选方案,所述步骤S23包括:
S231:将所述词向量输入到CBOW模型,并对所述词向量进行累加求和操作,其计算式为:
S232:根据公式对所述词向量反向迭代和更新;其中,V(ω)为所述词汇编码ω的词向量,lω为所述词汇编码ω对应的联立路径中节点的个数,为所述词汇编码ω的哈夫曼编码,为所述词汇编码ω对应的联立路径中非叶子节点个数。
作为本发明的优选方案,所述步骤S3中所述实体标注动作采用基于熵扩展术语抽取技术,令检索关键词对应的所述词向量为S,其他所述词向量为x,其计算式为:
Entrop(S)=-∑x∈XP(xS|S)log2P(xS|S);
作为本发明的优选方案,所述步骤S4中进行知识图谱信息抽取后,通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。本发明通过对所述词向量进行实体的标注和自动注释,然后将所述词向量关联到知识图谱,从而能够通过关联关系以及知识图谱获取实体对应信息,理解实体背后的知识,最后理解实体之间的关系,包括实体的属性、侧面等,从而实现了语义消歧、可计算推理和泛化解释的效果。
作为本发明的优选方案,所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据,且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。
一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果:
1.本发明通过录入医学数据并将其转化为词向量,再对所述词向量进行实体标注和自动注释后,将标注注释完成后的所述词向量输入到中医药及民族医药数据库,通过知识图谱信息抽取,从而获取中医药及民族医药知识图谱模型,即利用自然语言处理技术,将非结构化数据转换为结构化数据,便于数据被计算机识别,提高数据的利用率和准确率,方便统计数据发现新的规律,从而整合少数民族医药资源,评价少数民族地区医药资源水平,精准实现少数民族医药资源挖掘。
2.本发明通过对所述医学文本数据集进行清洗和分词,去除了信息不全、文字乱码等脏数据,也使所述医学文本数据集内的文本信息更加准确规范,便于后续的处理。
3.本发明采用Word2Vec模型将独热编码后的所述词汇编码转换为词向量,并通过CBOW模型对所述词向量进行嵌入降维处理,形成维数较低的实数域空间的连续向量,从而解决维数灾难的问题。
4.本发明通过对所述词向量进行实体的标注和自动注释,然后将所述词向量关联到知识图谱,从而能够通过关联关系以及知识图谱获取实体对应信息,理解实体背后的知识,最后理解实体之间的关系,包括实体的属性、侧面等,从而实现了语义消歧、可计算推理和泛化解释的效果。
附图说明
图1为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的流程示意图;
图2为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的CBOW模型运作示意图;
图3为本发明实施例1所述的一种中医药及民族医药知识图谱的构建方法的中医药及民族医药知识图谱效果示意图;
图4为本发明实施例2所述的一种利用了实施例1所述的中医药及民族医药知识图谱的构建方法的一种电子设备。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
如图1所示,一种中医药及民族医药知识图谱的构建方法,包括以下步骤:
S1:录入医学文本数据集并对其进行预处理,获取医学文本并存入文本数据集。
S11:录入医学文本数据集;其中,所述医学文本数据集包括多个数据列,每个所述数据列包括多条含有医学文本信息的标准数据;所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据,且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。所述民族医药文献数据包括彝族的《毕摩经书》、藏族的《四部药典》等资料。
S12:对所述医学文本数据集进行清洗,信息不全、文字乱码等脏数据。
S121:在所述医学文本数据集中选择需要的数据列,为避免干扰对其他不参与分析的数据列进行隐藏处理。
S122:遍历所述数据列,对列名相同或含义指向相同的数据列进行重命名,用于避免干扰分析结果。
S123:由于各民族语言不同,分析值可能会是相同含义的不同语法,遍历所述数据列中的所述标准数据,删除与所述标准数据的相同含义的重复数据,仅保留一条标准数据,进行结果的分析。
S124:遍历所述医学文本数据集,获取所述数据列的空白数据,并发送至工作人员补充缺失值,保证分析的正常进行。
S125:根据ISO/TO提出的中药标准,规范所述医学文本数据集的术语。西南少数民族医药文献数据会存在不同民族,不同地域,不同时间的文献数据,这类数据会存在相同含义的事物具有不同的描述,本步骤为了让结果得到更广泛的应用。
S13:通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词,获取医学文本并存入文本数据集。同时,运用停用词表过滤无效、无实质意义或者干扰词汇,提高分词的准确性和针对性。
S2:将所述文本数据集中的所述医学文本转换为词向量,并将所述词向量输入到CBOW模型中进行更新处理。
S21:通过独热码(One-hot编码,用“位(bit)”来表示一种状态)将所述文本数据集中的所述医学文本转换为词汇编码。
S22:通过Word2Vec模型将所述词汇编码转换为词向量。
S23:将所述词向量输入到CBOW(Continuous Bagof-Words)模型中进行更新处理。
其中,如图2所示,所述CBOW模型包括输入层、投射层以及输出层,设词汇编码ω在所述医学文本数据集的出现位置为Coentext(ω),则每个词汇编码ω的词向量为V(Coentext(ω)),选择所述词汇编码ω前后2个词所对应的词向量作为输入,每个词向量具有相同的维度m。通过CBOW模型遍历所述医学文本数据集,将每个词语假设为已知的词向量,通过求和和反向迭代的方式更新词向量。其算法关键步骤如下:
通过输入层将所述词向量输入所述CBOW模型。由所述投射层对所有词向量做累加求和操作:
其中,ω为所述词汇编码,Xω为所述词向量的累加和值,V(Coentext(ω)i)为所述医学文本数据集第i个所述词向量,2c为所述词向量的总数。
对所述词向量进行节点分类,约定到二叉树左边为负类,分到右边为正类,通过sigmoid函数计算所述累加和被分到正类的概率为:
所述输出层基于哈夫曼(Huffman)二叉树和独热码编码原则,联立路径pω内ω-1个分支的概率乘积和式(1),构建条件概率公式和条件概率的对数似然函数为:
联立负类概率为:
条件概率的对数似然函数恒等式为:
根据上式(6)可知,条件概率对数似然函数与花括号内的函数成正比关系,设ξ(ω,j)为花括号内函数,故需最优化ξ(ω,j),则可得对数似然函数的最优解:
输出层得到映射层的累加向量Xω后,基于式(1)、(8)和(9)之间的关系,更新词ω的词向量V(ω),即每次更新参数累加向量Xω时,V(ω)也伴随更新,故输出层的输出量为:
S3:对所述词向量进行实体标注,并通过双向长短时记忆神经网络技术(Bi-directional Long Short-TermMemory,BiLSTM)构建自适应层次注意网络,对所述实体标注的类别(包括症状、疾病、药物等)进行自动注释;其中所述实体标注动作采用基于熵扩展术语抽取技术,令检索的所述词向量的关键词为S,其他所述词向量为x,其计算式为:
Entrop(S)=-∑x∈XP(xS|S)log2P(xS|S);
其中,为所述关键词S出现时,x作为其相邻词向量的条件概率,采用极大似然估计计算;X为所述关键词S周围出现的词向量集合;xS为S周围出现的所述词向量x与S共同出现时的字符串组合。当Entrop(S)值越小,说明关键词S周围出现的词语越稳定,S越可能是一个包含关键词S的关键词。
S4:将标注注释完成后的所述词向量输入到中医药及民族医药数据库,并根据所述中医药及民族医药数据库进行知识图谱信息抽取,输出中医药及民族医药知识图谱模型。
所述步骤S4中进行知识图谱信息抽取后,通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。在Gephi软件中进行可视化数据效果如图3所示。
实施例2
如图4所示,一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的一种中医药及民族医药知识图谱的构建方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源用于为电子设备提供电能。
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种中医药及民族医药知识图谱的构建方法,其特征在于,包括以下步骤:
S1:录入医学文本数据集并对其进行预处理,获取医学文本并存入文本数据集;
S2:将所述文本数据集中的所述医学文本转换为词向量,并将所述词向量输入到CBOW模型中进行更新处理;
S3:对所述词向量进行实体标注,并通过双向长短时记忆神经网络技术构建自适应层次注意网络,对所述实体标注的类别进行自动注释;其中,所述类别包括症状、疾病以及药物;
所述实体标注动作采用基于熵扩展术语抽取技术,令检索关键词对应的所述词向量为S,其他所述词向量为x,其计算式为:
Entrop(S)=-∑x∈XP(xS|S)log2P(xS|S);
S4:将标注注释完成后的所述词向量输入到中医药及民族医药数据库,并根据所述中医药及民族医药数据库进行知识图谱信息抽取,通过Fruchterman Reingold算法构建并输出中医药及民族医药知识图谱模型。
2.根据权利要求1所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S1包括以下流程:
S11:录入医学文本数据集;其中,所述医学文本数据集包括多个数据列,每个所述数据列包括多条含有医学文本的标准数据;
S12:对所述医学文本数据集进行清洗,去除脏数据;
S13:通过NLPIR-ICTCLAS汉语分词系统对所述医学文本数据集进行分词,获取医学文本并存入文本数据集。
3.根据权利要求2所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S12包括:
S121:在所述医学文本数据集中选择需要的数据列;
S122:遍历所述数据列,对列名相同或含义指向相同的数据列进行重命名;
S123:遍历所述数据列中的所述标准数据,删除与所述标准数据的相同含义的重复数据;
S124:遍历所述医学文本数据集,获取所述数据列的空白数据,并发送至工作人员补充缺失值。
4.根据权利要求2所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S13还包括根据停用词表过滤无效、无实质意义或者干扰词汇,提高分词的准确性和针对性。
5.根据权利要求1所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述步骤S2包括:
S21:通过独热码将所述文本数据集中的所述医学文本转换为词汇编码;
S22:通过Word2Vec模型将所述词汇编码转换为词向量;
S23:将所述词向量输入到CBOW模型中进行更新处理。
7.根据权利要求1所述的一种中医药及民族医药知识图谱的构建方法,其特征在于,所述医学文本数据集包括中文医学主题词表以及中医药及民族医药文献数据,且所述医学文本数据集符合卫生信息交换标准、ISO/TS 23030国际标准以及ISO 18668-2:2017国际标准。
8.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110173750.9A CN112800244B (zh) | 2021-02-06 | 2021-02-06 | 一种中医药及民族医药知识图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110173750.9A CN112800244B (zh) | 2021-02-06 | 2021-02-06 | 一种中医药及民族医药知识图谱的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800244A CN112800244A (zh) | 2021-05-14 |
CN112800244B true CN112800244B (zh) | 2022-12-27 |
Family
ID=75814823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110173750.9A Active CN112800244B (zh) | 2021-02-06 | 2021-02-06 | 一种中医药及民族医药知识图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800244B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155962A (zh) * | 2022-02-10 | 2022-03-08 | 北京妙医佳健康科技集团有限公司 | 一种数据清洗方法和利用知识图谱构建疾病诊断方法 |
CN117807191B (zh) * | 2024-02-29 | 2024-05-24 | 船舶信息研究中心(中国船舶集团有限公司第七一四研究所) | 一种基于知识图谱的非结构化数据检索方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN109669994A (zh) * | 2018-12-21 | 2019-04-23 | 吉林大学 | 一种健康知识图谱的构建方法及系统 |
CN111143574A (zh) * | 2019-12-05 | 2020-05-12 | 大连民族大学 | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 |
CN111324691A (zh) * | 2020-01-06 | 2020-06-23 | 大连民族大学 | 一种基于知识图谱的少数民族领域智能问答方法 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN112307756A (zh) * | 2020-09-30 | 2021-02-02 | 浙江汉德瑞智能科技有限公司 | 基于Bi-LSTM和字词融合的汉语分词方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11783917B2 (en) * | 2019-03-21 | 2023-10-10 | Illumina, Inc. | Artificial intelligence-based base calling |
-
2021
- 2021-02-06 CN CN202110173750.9A patent/CN112800244B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN109669994A (zh) * | 2018-12-21 | 2019-04-23 | 吉林大学 | 一种健康知识图谱的构建方法及系统 |
CN111143574A (zh) * | 2019-12-05 | 2020-05-12 | 大连民族大学 | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 |
CN111324691A (zh) * | 2020-01-06 | 2020-06-23 | 大连民族大学 | 一种基于知识图谱的少数民族领域智能问答方法 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN112307756A (zh) * | 2020-09-30 | 2021-02-02 | 浙江汉德瑞智能科技有限公司 | 基于Bi-LSTM和字词融合的汉语分词方法 |
Non-Patent Citations (4)
Title |
---|
Chinese word segmentation Based on Contextual Entropy;Huang J H等;《Proceedings of the 17th Pacific Asia Conference on language, Information and Computation》;20031031;第152-158页 * |
Different Data Mining Approaches Based Medical Text Data;Xiao Wenke等;《Journal of Healthcare Engineering》;20211206;第2021卷;E054-30 * |
基于BiLSTM的中文电子病历知识图谱构建及实现;李永苗;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;20200815;第1285167-1285167页 * |
基于改进互信息和邻接熵的微博新词发现方法;夭荣朋等;《计算机应用》;20161010;第36卷(第10期);第2772-2776页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800244A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gong et al. | Natural language inference over interaction space | |
Arora et al. | Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis | |
US10169454B2 (en) | Unsupervised ontology-based graph extraction from texts | |
CN111709243B (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
TWI738270B (zh) | 將文句短語映射至知識分類表之方法及系統 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
Peng et al. | TL-NER: A transfer learning model for Chinese named entity recognition | |
CN112154509A (zh) | 具有用于文本注释的演变领域特异性词典特征的机器学习模型 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN112052668A (zh) | 地址文本识别模型的训练方法、地址的预测方法及装置 | |
Zhang et al. | A multi-feature fusion model for Chinese relation extraction with entity sense | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
Wang et al. | Structural block driven enhanced convolutional neural representation for relation extraction | |
Chen et al. | Bilinear joint learning of word and entity embeddings for entity linking | |
Sun et al. | Probabilistic Chinese word segmentation with non-local information and stochastic training | |
Repke et al. | Extraction and representation of financial entities from text | |
Akdemir et al. | A review on deep learning applications with semantics | |
Huang et al. | Disease named entity recognition by machine learning using semantic type of metathesaurus | |
Rao et al. | Enhancing multi-document summarization using concepts | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
Song et al. | Incorporating lexicon for named entity recognition of traditional Chinese medicine books | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Zhang et al. | Constructing covid-19 knowledge graph from a large corpus of scientific articles | |
Yanling et al. | Research on entity recognition and knowledge graph construction based on TCM medical records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |