CN117271796B - 一种中医典籍知识库反馈修正方法及系统 - Google Patents
一种中医典籍知识库反馈修正方法及系统 Download PDFInfo
- Publication number
- CN117271796B CN117271796B CN202311218698.XA CN202311218698A CN117271796B CN 117271796 B CN117271796 B CN 117271796B CN 202311218698 A CN202311218698 A CN 202311218698A CN 117271796 B CN117271796 B CN 117271796B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- sample
- words
- classics
- chinese medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 128
- 238000012937 correction Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 97
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 23
- 201000010099 disease Diseases 0.000 claims abstract description 11
- 208000024891 symptom Diseases 0.000 claims description 67
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000013519 translation Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 8
- 208000035475 disorder Diseases 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 206010013789 Dry throat Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medicines Containing Plant Substances (AREA)
Abstract
本发明提供了一种中医典籍知识库反馈修正方法及系统,涉及数据处理技术领域,包括:获取基于多本中医典籍构建的中医知识库,包括多个典籍词和多个知识词的映射关系,构建中医典籍词袋,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,获取多个知识词向量簇,训练中医典籍识别器,对多个典籍词进行识别,并进行聚类,获取多个典籍词向量簇,计算获取多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈。本发明解决了传统的中医典籍知识库存在对于中医典籍中部分词的理解不准,导致知识库的准确率较低、质量较差的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种中医典籍知识库反馈修正方法及系统。
背景技术
由于中医典籍数量众多且内容复杂,在传统的中医典籍知识库中,存在一些常见情况和问题,一方面,中医典籍包括众多古籍、方剂书籍和医案等,这些典籍的内容形式和表达方式各不相同,并且由于语义复杂,这些知识的挖掘、整理非常困难;另一方面,由于中医典籍的历史悠久,并且缺乏知识转化、应用的手段,这些知识应用于临床实践的作用也非常有限;同时,一些传统中医典籍的描述方式可能与现代医学的标准不一致,其中的信息可能存在着错误、冗余、模糊或缺失。这导致传统的中医典籍知识库存在一定的局限性。因此,需要一种中医典籍知识库反馈修正方法,来对知识库进行修正,提高知识库的准确性、完整性和知识组织效果。
发明内容
本申请通过提供了一种中医典籍知识库反馈修正方法及系统,旨在解决传统的中医典籍知识库存在对于中医典籍中部分词的理解不准,导致知识库的准确率较低、质量较差的技术问题。
鉴于上述问题,本申请提供了一种中医典籍知识库反馈修正方法及系统。
本申请公开的第一个方面,提供了一种中医典籍知识库反馈修正方法,所述方法包括:获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;基于所述中医知识库,构建中医典籍词袋;按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈。
本申请公开的另一个方面,提供了一种中医典籍知识库反馈修正系统,所述系统用于上述方法,所述系统包括:知识库获取模块,所述知识库获取模块用于获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;典籍词袋构建模块,所述典籍词袋构建模块用于基于所述中医知识库,构建中医典籍词袋;第一聚类模块,所述第一聚类模块用于按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;第二聚类模块,所述第二聚类模块用于训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;匹配度计算模块,所述匹配度计算模块用于根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;反馈模块,所述反馈模块用于根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过基于多本中医典籍构建的中医知识库,并结合多个典籍词和知识词的映射关系,可以对知识库进行修正和补充,提高知识库的准确性和完整性;通过按照多个样本病症和症状集的索引关系对知识词进行聚类,可以获得多个样本病症的多个知识聚类结果,同时,基于典籍词袋和典籍识别器的训练,可以对典籍词进行识别和聚类,得到多个样本病症的多个典籍词向量簇,这样可以改善知识聚类的粒度和一致性,使得相关的知识词能够被聚集在一起;通过使用数量匹配度和向量匹配度计算,结合典籍词向量簇和知识词向量簇,可以获得多个匹配度来衡量样本与知识库中的不同聚类结果之间的匹配程度;根据多个匹配度,进行决策获取对知识聚类结果内的知识词进行修正的修正等级,并进行反馈,这样可以指导对知识聚类结果进行修正操作,提高知识库的质量和准确度。综上所述,该中医典籍知识库反馈修正方法提升了中医典籍知识库的准确性、完整性、粒度和一致性,进而达到提高知识库质量的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供了一种中医典籍知识库反馈修正方法流程示意图;
图2为本申请实施例提供了一种中医典籍知识库反馈修正系统结构示意图。
附图标记说明:知识库获取模块10,典籍词袋构建模块20,第一聚类模块30,第二聚类模块40,匹配度计算模块50,反馈模块60。
具体实施方式
本申请实施例通过提供一种中医典籍知识库反馈修正方法,解决了传统的中医典籍知识库存在对于中医典籍中部分词的理解不准,导致知识库的准确率较低、质量较差的技术问题。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种中医典籍知识库反馈修正方法,所述方法包括:
获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;
收集多本中医典籍的文本数据,这些典籍为医疗学者自己阅读中医典籍,包括古代医书、经典著作等。对收集到的典籍文本进行预处理,例如去除标点符号、停用词等,以准备后续的分析和处理。使用自然语言处理技术,如分词等方法,从典籍文本中提取出典籍词和知识词,其中,典籍词是典籍中特定的术语、词语,知识词是将典籍中的内容理解转化为现代词。根据典籍词和知识词的提取结果,建立它们之间的映射关系,映射关系指示了典籍词和知识词之间的对应关系。基于多个典籍词和多个知识词的映射关系,获取基于多本中医典籍构建的中医知识库,这个知识库将作为后续步骤中的基础,用于进一步分析、聚类和修正中医知识。
基于所述中医知识库,构建中医典籍词袋;
进一步而言,基于所述中医知识库,构建中医典籍词袋,包括:
根据所述多个典籍词和多个知识词的数量,构建N位寄存器,N为多个典籍词和多个知识词的数量;
基于所述N位寄存器,对所述多个知识词分配获得多个词向量;
根据多个词向量,构建所述中医典籍词袋。
所述中医知识库内包括多个典籍词和多个知识词的映射关系,通过对中医知识库进行统计和分析,确定其中典籍词和知识词的数量N,创建一个包含N个位寄存器的数据结构,将每个典籍词和知识词与对应的寄存器进行关联,确保每个典籍词和知识词都有唯一的标识符与之对应,这样的寄存器结构用于后续步骤中对知识词进行分配、索引操作。
遍历多个知识词,对于每个知识词,根据其关联的寄存器,获取相应的寄存器索引,根据寄存器索引,从N位寄存器中获得对应的位值,这些位值作为向量表示,例如,可以使用二进制编码、独热编码的表示方法,重复上述步骤,为每个知识词获得相应的词向量,并将它们组成一个词向量集合,每个词向量与对应的知识词相关联,这些词向量代表了中医知识库中的典籍词和知识词。
基于收集到的多个词向量,构建中医典籍词袋,词袋是一个用于存储词向量的数据结构,可以采用列表、矩阵等形式,将每个词向量添加到词袋中,确保每个词向量都与其对应的典籍词或知识词相关联,重复该步骤,直到所有的词向量都添加进了词袋,获取所述中医典籍词袋,这样的词袋用于后续的分析、检索、文本分类或其他相关任务,以实现对中医知识库中的典籍词和知识词的有效处理和利用。
按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;
准备多个样本病症和对应的样本症状集,例如,对于感冒这个病症,可能有发烧、喉咙干等多个样本症状,建立样本病症和样本症状集之间的索引关系,也就是将样本病症与其对应的样本症状集进行对应。
根据索引关系,将多个知识词进行聚类,使用聚类算法,如k-means算法,将具有相似特征或含义的知识词归为同一类别,形成多个知识聚类结果。基于中医典籍词袋中的多个词向量,将每个知识聚类结果中的知识词映射为对应的向量,构建对应的知识词向量簇。
训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;
收集更多的、准确的典籍翻译数据,例如经过专业人员翻译的中医典籍文本,使用收集到的典籍翻译数据,训练中医典籍识别器,可以使用监督学习方法,例如基于深度学习,训练该识别器来准确地识别中医典籍中的词语。
使用训练好的典籍词识别器,对当前知识库中的文本进行典籍词的识别,将识别出的典籍词提取出来,并与相应的样本病症和症状集进行关联。
根据多个样本病症和多个样本症状集的索引关系,对识别出的典籍词进行聚类,使用聚类算法,如k-means,将具有相似特征或含义的典籍词归为同一类别,并使用中医典籍词袋将每个典籍词映射为对应的向量,形成多个样本病症的多个典籍词向量簇。
进一步而言,包括:
基于预设时间范围内的中医知识库调用数据,获取所述多个样本病症的知识词的调用次数;
基于多个调用次数,分配对多个样本病症对应的典籍识别分支进行训练的多个训练资源,每个训练资源内包括典籍识别通道的训练数量;
基于中医典籍翻译数据,按照所述多个样本病症,划分获取多个样本典籍词集合和多个样本知识词集合;
分别采用所述多个样本典籍词集合和多个样本知识词集合作为训练数据,按照多个训练资源,训练获取多个典籍识别分支,获得所述中医典籍识别器;
采用所述中医典籍识别器,对所述多个典籍词进行识别,获得多个识别结果集,选择每个识别结果集内出现频率最大的知识词,获得多个标准知识词;
对多个标准知识词进行聚类,结合中医典籍词袋,获得多个典籍词向量簇。
确定预设时间范围,即要统计的调用数据所涵盖的时间段,如按年、按月进行定义。调取中医知识库的调用数据,这些调用数据记录了每个知识词被查询、访问的次数。通过病症名称、病症关键字等限制条件,从所有的调用数据中筛选出所关注的多个样本病症对应的调用数据,对于每个样本病症,统计其知识词在预设时间范围内的调用次数。
将多个样本病症的知识词调用次数进行从高到低排列,这样可以找出调用次数较多的知识词,表示与样本病症相关度较高的典籍词。根据调用次数排序的结果,为每个样本病症分配相应数量的训练资源,例如使用线性方式将调用次数映射为训练数量,较高的调用次数意味着该样本病症对应的典籍识别分支更重要,因此需要更多的训练资源。将每个样本病症的训练资源分配给对应的典籍识别分支,确保每个典籍识别分支都有足够的训练数量来捕捉与样本病症相关的知识。
这样可以重点关注调用次数较高的知识词和与之相关的典籍识别分支,以提高典籍识别器在不同样本病症上的准确性和表现。
收集更多的、准确的典籍翻译数据,例如经过专业人员翻译的中医典籍文本,获取每个样本病症的特点和所关注的知识领域,基于样本病症的需求,从中医典籍翻译数据中提取与之相关的典籍词,例如使用关键字搜索、专业术语提取或其他文本处理技术,来划分样本典籍词集合。
同样地,根据样本病症的需求,从中医典籍翻译数据中提取与之相关的知识词,包括病症的描述、症状特征、治疗方法等,使用相应的技术从文本中提取并划分样本知识词集合。
将提取的典籍词和知识词整理为多个样本典籍词集合和多个样本知识词集合,使得每个集合都与对应的样本病症相关联。这些集合用于后续步骤中的训练、建模操作,以充分利用中医典籍翻译数据中与样本病症相关的信息。
将多个样本典籍词集合和多个样本知识词集合作为训练数据,为每个样本病症分配相应数量的训练资源,根据前述步骤中分配的训练资源数量,将其分配给各个典籍识别分支。
使用每个样本典籍词集合和样本知识词集合,按照相应的训练资源,训练获得多个典籍识别分支,每个分支可以是一个独立的模型,用于识别和处理对应样本病症的典籍文本。将训练得到的多个典籍识别分支整合,形成中医典籍识别器,这个识别器可以同时处理多个样本病症的典籍文本,并提供相应的识别和分析功能。
使用获得的中医典籍识别器,将待识别的多个典籍词输入识别器进行识别操作,针对每个典籍词,在中医典籍识别器中获得一个识别结果集,这个结果集包含了与典籍词相关的知识词列表。对于每个识别结果集,统计其中每个知识词的出现频率,即计算每个知识词在结果集中的出现次数,从每个识别结果集中选择出现频率最大的知识词作为标准知识词,以此确定每个典籍词对应的最重要或最常见的知识词。汇总每个典籍词所选择的标准知识词,形成包含多个标准知识词的集合,这些标准知识词代表了根据中医典籍识别器的识别结果所确定的每个典籍词的主要关联知识词,作为与相应典籍词最相关的知识词信息。
使用适当的聚类算法,如k-means,将多个标准知识词投射到词向量空间,并进行聚类分析,将标准知识词分成多个簇,每个簇代表具有相似语义特征的典籍词,根据聚类结果,将同一簇中的典籍词归为一个典籍词向量簇,这些典籍词向量簇由具有相似语义特征的标准知识词组成。这样可以将具有相似语义特征的典籍词进行归类和组织,以便后续步骤中的进一步分析和应用。
进一步而言,包括:
按照所述多个训练资源内的训练数量,分别构建多个典籍识别分支,每个典籍识别分支内包括对应训练数量的典籍识别通道;
采用多个样本典籍词集合和多个样本知识词集合内的第一样本典籍词集合和第一样本知识词集合,按照第一训练次数,对第一典籍识别分支内的第一典籍识别通道进行训练,并测试获得第一准确率;
根据第一准确率和准确率阈值的偏差,在偏差对照表内进行匹配,获得第二训练次数,对第一典籍识别分支内的第二典籍识别通道进行训练,并测试获得第二准确率;
继续训练获得第一典籍识别分支内全部的典籍识别通道,获得第一典籍识别分支;
继续训练获得全部的典籍识别分支,获得所述中医典籍识别器。
采用所述多个样本典籍词集合和多个样本知识词集合作为训练数据,根据每个训练资源的数量,将它们按比例地分配给不同的典籍识别分支,每个典籍识别分支代表了一个单独的训练实例,负责处理相应训练资源数量的样本典籍词集合和样本知识词集合。在每个典籍识别分支内设置对应训练数量的典籍识别通道,每个典籍识别通道可以是一个独立的神经网络,用于处理和识别特定数量的典籍词。使用分配给每个典籍识别分支的训练资源进行相应的训练,并根据训练数据的反馈进行优化调整,获取多个典籍识别分支。
从多个样本典籍词集合和多个样本知识词集合中,选择第一样本典籍词集合和第一样本知识词集合,作为训练和测试的数据集,基于机器学习算法,使用第一样本典籍词集合和第一样本知识词集合,按照第一训练次数对第一典籍识别分支内的第一典籍识别通道进行训练,在训练完成后,使用测试集对第一典籍识别通道进行测试,以评估其准确率,测试集是与训练集不重叠的样本典籍词集合和知识词集合。根据测试结果,获得第一典籍识别通道的第一准确率,以评估第一通道的初步性能。
创建一个偏差对照表,其中列出了不同的准确率偏差值,以及对应的训练次数。通过计算第一准确率与准确率阈值之间的差值,获得准确率偏差值,将计算得到的准确率偏差与偏差对照表进行匹配,找到最接近的匹配项,以确定第二训练次数。使用第一样本典籍词集合和第一样本知识词集合,按照第二训练次数,对第一典籍识别分支内的第二典籍识别通道进行训练,在训练完成后,使用测试集对第二典籍识别通道进行测试,获得第二准确率。
这种方法可以根据当前准确率与预期准确率之间的差异,自动确定下一次训练的次数,并逐步优化模型性能。
使用第一样本典籍词集合和第一样本知识词集合,按照前述操作过程,在第一典籍识别分支内逐个训练每个典籍识别通道,当所有典籍识别通道都完成训练后,获得第一典籍识别分支,该分支包含了针对第一样本典籍词集合和第一样本知识词集合进行训练的全部典籍识别通道。
使用相应的样本典籍词集合和知识词集合,按照之前确定的训练方法,在每个典籍识别分支内逐个训练典籍识别通道,重复进行训练和优化过程,直到所有的典籍识别通道都完成训练,获得全部的典籍识别分支,每个分支代表着一个独立的训练实例,包含了对应样本典籍词集合和知识词集合的典籍识别通道。将所有的典籍识别分支组合在一起,形成所述中医典籍识别器,该识别器能够处理不同样本典籍词集合和知识词集合的中医典籍识别任务。
根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;
针对每个样本病症,计算其所关联的典籍词向量簇中包含的典籍词与知识词向量簇中包含的知识词的数量匹配度,例如通过比较两者集合的交集大小,来衡量数量匹配度,反映了典籍词和知识词的共现情况;
进一步计算其典籍词向量簇和知识词向量簇之间的向量匹配度,例如使用余弦相似度方法,来比较两个向量簇之间的相似程度,向量匹配度考虑了典籍词和知识词的语义相似性。
根据具体需求,给予数量匹配度和向量匹配度不同的权重,并使用加权平均方式,将数量匹配度和向量匹配度结合起来,计算得到最终的匹配度得分,该匹配度可以用于评估典籍词与知识词之间的关联程度,帮助进一步优化中医知识库的内容和质量。
进一步而言,包括:
根据多个知识词向量簇和多个典籍词向量簇内词向量的数量,按照所述多个样本病症的对应关系,计算词向量数量的偏差,获得多个数量匹配度;
计算获取多个知识词向量簇和多个典籍词向量簇的多个向量匹配度;
根据多个向量匹配度和多个数量匹配度,加权计算获得多个匹配度。
根据实际情况,明确每个样本病症与典籍词向量簇以及知识词向量簇之间的对应关系。计算词向量数量的偏差可以以典籍词或以知识词为准,计算偏差百分比,示例性的,以典籍词为准,对于每个样本病症,通过计算典籍词向量簇数量与知识词向量簇数量的差值,并将差值计算结果除以典籍词向量簇数量,将计算结果转化为百分比的形式,获取数量偏差百分比。根据计算得到的词向量数量的偏差百分比,获得多个数量匹配度,其中,偏差越小表示数量匹配度越高,从而评估典籍识别任务中典籍词向量簇和知识词向量簇之间的数量匹配程度。
对于每个样本病症,统计知识词向量簇与典籍词向量簇内相同词向量的比例,获取其向量匹配度,相同词向量的比例越高说明向量匹配度越高,重复上述步骤,计算出对应的多个向量匹配度,这样可以评估它们的相似性,并为典籍识别提供更全面的匹配度信息。
为向量匹配度和数量匹配度分别设置适当的权重,对于每个样本病症,使用相应的权重对向量匹配度和数量匹配度进行加权计算,得到加权匹配度,重复上述步骤,对每个样本病症计算加权匹配度,得到多个匹配度。这样可以综合考虑向量相似性和词向量数量对于典籍识别的贡献,并为每个样本病症提供全面的匹配度评估。
进一步而言,包括:
以所述多个典籍词向量簇为基准,统计多个知识词向量簇与所述多个典籍词向量簇内相同词向量的比例,获得多个匹配词向量比率;
将多个匹配词向量比率作为多个向量匹配度。
对于每个样本病症,以典籍词向量簇为基准,在每个知识词向量簇中统计与典籍词向量簇内相同词向量的数量,计算多个匹配词向量比率,即知识词向量簇中与典籍词向量簇内相同词向量的数量与典籍词向量簇内词向量总数之间的比例。
将每个样本病症的匹配词向量比率作为对应的向量匹配度,获取多个向量匹配度。这些匹配词向量比率可以视为表示知识词向量簇与典籍词向量簇之间匹配程度的指标。
根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈。
定义不同的修正等级,例如高、中、低,来指示对知识词的修正程度,基于预先设定的阈值,将匹配度得分映射到相应的修正等级。根据决策得到的修正等级,对知识聚类结果内的知识词进行修正,修正包括删除不准确的知识词、添加缺失的知识词、修改错误的知识词等操作,以便对中医知识库进行更新和改进。这样可以帮助提高中医知识库的准确性和完整性,使其更符合实际需求和专业标准。
进一步而言,包括:
基于中医典籍知识库的修正数据记录,获取多个样本匹配度;
基于每个样本匹配度与多个样本匹配度的均值的比值,评估获取多个样本修正等级;
采用多个样本匹配度作为决策输入,采用多个样本修正等级作为决策输出,基于决策树,构建反馈修正分类器;
采用所述反馈修正分类器,对所述多个匹配度进行决策分类,获得多个修正等级。
收集中医典籍知识库的修正数据记录,这些记录包含对知识库中的知识聚类结果进行修正的标注信息。对于每个样本,将其与中医典籍知识库中的知识聚类结果进行匹配度计算,并将其转化为数值化的表示形式,获取多个样本匹配度,以此表示样本与中医典籍知识库中的不同知识聚类结果之间的匹配程度。
对于多个样本匹配度,计算它们的平均值作为多个样本匹配度的均值,对于每个样本的匹配度,将其匹配度与多个样本匹配度的均值进行比值计算,根据计算结果的大小,评估每个样本的修正等级,例如定义不同阈值来划分不同的修正等级,如高、中、低等级,用于指导对知识聚类结果内的知识词进行修正。
准备包含多个样本的匹配度和对应修正等级的训练数据集,每个样本的匹配度作为输入特征向量,每个样本的修正等级作为输出标签,基于训练数据集,使用决策树算法构建反馈修正分类器,决策树是一种监督学习算法,通过不断划分数据集并生成决策规则来进行分类。
在决策树构建过程中,根据特征的重要性或信息增益等指标选择最佳的特征进行节点划分,特征选择的目标是使得节点划分后的子集尽可能纯净,即同一类别的样本尽量聚集在一起。根据选定的特征和节点划分方式,递归地生成决策树的内部节点和叶子节点,其中,决策树的每个内部节点代表一个特征,每个叶子节点代表一个修正等级。
对于新的样本数据,根据其匹配度在决策树上进行分类,根据决策树的判断路径,找到对应的叶子节点,并将该叶子节点的修正等级作为预测结果。这样可以根据样本的匹配度来预测其对应的修正等级,从而指导对知识聚类结果内的知识词进行修正。
将根据所述多个典籍词向量簇和多个知识词向量簇计算得到的多个匹配度作为输入数据,输入到已构建的反馈修正分类器中,根据决策树模型的规则和特征选择,针对每个输入的匹配度,获得对应的修正等级,例如高、中、低等级。这样可以根据匹配度值,快速判断其修正等级,并用于指导对知识聚类结果中的知识词进行修正。
综上所述,本申请实施例所提供的一种中医典籍知识库反馈修正方法及系统具有如下技术效果:
1.通过基于多本中医典籍构建的中医知识库,并结合多个典籍词和知识词的映射关系,可以对知识库进行修正和补充,提高知识库的准确性和完整性;
2.通过按照多个样本病症和症状集的索引关系对知识词进行聚类,可以获得多个样本病症的多个知识聚类结果,同时,基于典籍词袋和典籍识别器的训练,可以对典籍词进行识别和聚类,得到多个样本病症的多个典籍词向量簇,这样可以改善知识聚类的粒度和一致性,使得相关的知识词能够被聚集在一起;
3.通过使用数量匹配度和向量匹配度计算,结合典籍词向量簇和知识词向量簇,可以获得多个匹配度来衡量样本与知识库中的不同聚类结果之间的匹配程度;
4.根据多个匹配度,进行决策获取对知识聚类结果内的知识词进行修正的修正等级,并进行反馈,这样可以指导对知识聚类结果进行修正操作,提高知识库的质量和准确度。
综上所述,该中医典籍知识库反馈修正方法提升了中医典籍知识库的准确性、完整性、粒度和一致性,进而达到提高知识库质量的技术效果。
实施例二
基于与前述实施例中一种中医典籍知识库反馈修正方法相同的发明构思,如图2所示,本申请提供了一种中医典籍知识库反馈修正系统,所述系统包括:
知识库获取模块10,所述知识库获取模块10用于获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;
典籍词袋构建模块20,所述典籍词袋构建模块20用于基于所述中医知识库,构建中医典籍词袋;
第一聚类模块30,所述第一聚类模块30用于按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;
第二聚类模块40,所述第二聚类模块40用于训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;
匹配度计算模块50,所述匹配度计算模块50用于根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;
反馈模块60,所述反馈模块60用于根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈。
进一步而言,所述系统还包括中医典籍词袋构建模块,以执行如下操作步骤:
根据所述多个典籍词和多个知识词的数量,构建N位寄存器,N为多个典籍词和多个知识词的数量;
基于所述N位寄存器,对所述多个知识词分配获得多个词向量;
根据多个词向量,构建所述中医典籍词袋。
进一步而言,所述系统还包括典籍词向量簇获取模块,以执行如下操作步骤:
基于预设时间范围内的中医知识库调用数据,获取所述多个样本病症的知识词的调用次数;
基于多个调用次数,分配对多个样本病症对应的典籍识别分支进行训练的多个训练资源,每个训练资源内包括典籍识别通道的训练数量;
基于中医典籍翻译数据,按照所述多个样本病症,划分获取多个样本典籍词集合和多个样本知识词集合;
分别采用所述多个样本典籍词集合和多个样本知识词集合作为训练数据,按照多个训练资源,训练获取多个典籍识别分支,获得所述中医典籍识别器;
采用所述中医典籍识别器,对所述多个典籍词进行识别,获得多个识别结果集,选择每个识别结果集内出现频率最大的知识词,获得多个标准知识词;
对多个标准知识词进行聚类,结合中医典籍词袋,获得多个典籍词向量簇。
进一步而言,所述系统还包括中医典籍识别器获取模块,以执行如下操作步骤:
按照所述多个训练资源内的训练数量,分别构建多个典籍识别分支,每个典籍识别分支内包括对应训练数量的典籍识别通道;
采用多个样本典籍词集合和多个样本知识词集合内的第一样本典籍词集合和第一样本知识词集合,按照第一训练次数,对第一典籍识别分支内的第一典籍识别通道进行训练,并测试获得第一准确率;
根据第一准确率和准确率阈值的偏差,在偏差对照表内进行匹配,获得第二训练次数,对第一典籍识别分支内的第二典籍识别通道进行训练,并测试获得第二准确率;
继续训练获得第一典籍识别分支内全部的典籍识别通道,获得第一典籍识别分支;
继续训练获得全部的典籍识别分支,获得所述中医典籍识别器。
进一步而言,所述系统还包括匹配获取模块,以执行如下操作步骤:
根据多个知识词向量簇和多个典籍词向量簇内词向量的数量,按照所述多个样本病症的对应关系,计算词向量数量的偏差,获得多个数量匹配度;
计算获取多个知识词向量簇和多个典籍词向量簇的多个向量匹配度;
根据多个向量匹配度和多个数量匹配度,加权计算获得多个匹配度。
进一步而言,所述系统还包括向量匹配度获取模块,以执行如下操作步骤:
以所述多个典籍词向量簇为基准,统计多个知识词向量簇与所述多个典籍词向量簇内相同词向量的比例,获得多个匹配词向量比率;
将多个匹配词向量频率作为多个向量匹配度。
进一步而言,所述系统还包括修正等级获取模块,以执行如下操作步骤:
基于中医典籍知识库的修正数据记录,获取多个样本匹配度;
基于每个样本匹配度与多个样本匹配度的均值的比值,评估获取多个样本修正等级;
采用多个样本匹配度作为决策输入,采用多个样本修正等级作为决策输出,基于决策树,构建反馈修正分类器;
采用所述反馈修正分类器,对所述多个匹配度进行决策分类,获得多个修正等级。
本说明书通过前述对一种中医典籍知识库反馈修正方法的详细描述,本领域技术人员可以清楚得知道本实施例中一种中医典籍知识库反馈修正方法及系统,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种中医典籍知识库反馈修正方法,其特征在于,所述方法包括:
获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;
基于所述中医知识库,构建中医典籍词袋;
按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;
训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;
根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;
根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈;
其中,训练中医典籍识别器,具体步骤包括:
基于预设时间范围内的中医知识库调用数据,获取所述多个样本病症的知识词的调用次数;
基于多个调用次数,分配对多个样本病症对应的典籍识别分支进行训练的多个训练资源,每个训练资源内包括典籍识别通道的训练数量;
基于中医典籍翻译数据,按照所述多个样本病症,划分获取多个样本典籍词集合和多个样本知识词集合;
分别采用所述多个样本典籍词集合和多个样本知识词集合作为训练数据,按照多个训练资源,训练获取多个典籍识别分支,获得所述中医典籍识别器;
采用所述中医典籍识别器,对所述多个典籍词进行识别,获得多个识别结果集,选择每个识别结果集内出现频率最大的知识词,获得多个标准知识词;
对多个标准知识词进行聚类,结合中医典籍词袋,获得多个典籍词向量簇;
根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈,具体步骤包括:
基于中医典籍知识库的修正数据记录,获取多个样本匹配度;
基于每个样本匹配度与多个样本匹配度的均值的比值,评估获取多个样本修正等级;
采用多个样本匹配度作为决策输入,采用多个样本修正等级作为决策输出,基于决策树,构建反馈修正分类器;
采用所述反馈修正分类器,对所述多个匹配度进行决策分类,获得多个修正等级。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
根据所述多个典籍词和多个知识词的数量,构建N位寄存器,N为多个典籍词和多个知识词的数量;
基于所述N位寄存器,对所述多个知识词分配获得多个词向量;
根据多个词向量,构建所述中医典籍词袋。
3.根据权利要求1所述的方法,其特征在于,所述方法包括:
按照所述多个训练资源内的训练数量,分别构建多个典籍识别分支,每个典籍识别分支内包括对应训练数量的典籍识别通道;
采用多个样本典籍词集合和多个样本知识词集合内的第一样本典籍词集合和第一样本知识词集合,按照第一训练次数,对第一典籍识别分支内的第一典籍识别通道进行训练,并测试获得第一准确率;
根据第一准确率和准确率阈值的偏差,在偏差对照表内进行匹配,获得第二训练次数,对第一典籍识别分支内的第二典籍识别通道进行训练,并测试获得第二准确率;
继续训练获得第一典籍识别分支内全部的典籍识别通道,获得第一典籍识别分支;
继续训练获得全部的典籍识别分支,获得所述中医典籍识别器。
4.根据权利要求1所述的方法,其特征在于,所述方法包括:
根据多个知识词向量簇和多个典籍词向量簇内词向量的数量,按照所述多个样本病症的对应关系,计算词向量数量的偏差,获得多个数量匹配度;
计算获取多个知识词向量簇和多个典籍词向量簇的多个向量匹配度;
根据多个向量匹配度和多个数量匹配度,加权计算获得多个匹配度。
5.根据权利要求4所述的方法,其特征在于,所述方法包括:
以所述多个典籍词向量簇为基准,统计多个知识词向量簇与所述多个典籍词向量簇内相同词向量的比例,获得多个匹配词向量比率;
将多个匹配词向量频率作为多个向量匹配度。
6.一种中医典籍知识库反馈修正系统,其特征在于,用于实施权利要求1-5任一项所述的一种中医典籍知识库反馈修正方法,包括:
知识库获取模块,所述知识库获取模块用于获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;
典籍词袋构建模块,所述典籍词袋构建模块用于基于所述中医知识库,构建中医典籍词袋;
第一聚类模块,所述第一聚类模块用于按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;
第二聚类模块,所述第二聚类模块用于训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;
匹配度计算模块,所述匹配度计算模块用于根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;
反馈模块,所述反馈模块用于根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218698.XA CN117271796B (zh) | 2023-09-20 | 2023-09-20 | 一种中医典籍知识库反馈修正方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218698.XA CN117271796B (zh) | 2023-09-20 | 2023-09-20 | 一种中医典籍知识库反馈修正方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271796A CN117271796A (zh) | 2023-12-22 |
CN117271796B true CN117271796B (zh) | 2024-03-15 |
Family
ID=89211731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311218698.XA Active CN117271796B (zh) | 2023-09-20 | 2023-09-20 | 一种中医典籍知识库反馈修正方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271796B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
CN115510242A (zh) * | 2022-10-04 | 2022-12-23 | 河南科技大学 | 一种中医文本实体关系联合抽取方法 |
WO2023272530A1 (en) * | 2021-06-29 | 2023-01-05 | Siemens Aktiengesellschaft | Method, device and storage medium for knowledge recommendation |
CN116340544A (zh) * | 2023-04-03 | 2023-06-27 | 浙江大学 | 一种基于知识图谱的中医药古籍可视分析方法与系统 |
-
2023
- 2023-09-20 CN CN202311218698.XA patent/CN117271796B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
WO2023272530A1 (en) * | 2021-06-29 | 2023-01-05 | Siemens Aktiengesellschaft | Method, device and storage medium for knowledge recommendation |
CN115510242A (zh) * | 2022-10-04 | 2022-12-23 | 河南科技大学 | 一种中医文本实体关系联合抽取方法 |
CN116340544A (zh) * | 2023-04-03 | 2023-06-27 | 浙江大学 | 一种基于知识图谱的中医药古籍可视分析方法与系统 |
Non-Patent Citations (1)
Title |
---|
从宋代校正医书局管窥我国古代的编辑出版事业;刘润兰;张波;;世界中西医结合杂志;20200928(09);第47-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117271796A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11500818B2 (en) | Method and system for large scale data curation | |
US10332007B2 (en) | Computer-implemented system and method for generating document training sets | |
CN112163077B (zh) | 一种面向领域问答的知识图谱构建方法 | |
US20220237230A1 (en) | System and method for automated file reporting | |
US20040181526A1 (en) | Robust system for interactively learning a record similarity measurement | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
US7571159B2 (en) | System and method for building decision tree classifiers using bitmap techniques | |
CN110347701A (zh) | 一种面向实体检索查询的目标类型标识方法 | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
CN114298314A (zh) | 一种基于电子病历的多粒度因果关系推理方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN116610592B (zh) | 基于自然语言处理技术的可定制软件测试评价方法及系统 | |
CN117271796B (zh) | 一种中医典籍知识库反馈修正方法及系统 | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及系统 | |
CN113722421B (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN112668284B (zh) | 一种法律文书分段方法及系统 | |
CN117672440A (zh) | 基于神经网络的电子病历文本信息抽取方法及系统 | |
JP2002269120A (ja) | 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体 | |
CN117763116B (zh) | 一种面向用户问答的知识文本抽取方法及系统 | |
CN116932487B (zh) | 一种基于数据段落划分的量化式数据分析方法及系统 | |
CN118350368B (zh) | 一种基于nlp技术的大语言模型的多文档摘编方法 | |
US20230419044A1 (en) | Tagging for subject matter or learning schema | |
CN114678091A (zh) | 一种住院病人信息管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |