CN113555086A - 基于机器学习的辩证分析方法、装置、设备及介质 - Google Patents

基于机器学习的辩证分析方法、装置、设备及介质 Download PDF

Info

Publication number
CN113555086A
CN113555086A CN202110845246.9A CN202110845246A CN113555086A CN 113555086 A CN113555086 A CN 113555086A CN 202110845246 A CN202110845246 A CN 202110845246A CN 113555086 A CN113555086 A CN 113555086A
Authority
CN
China
Prior art keywords
syndrome
vector
patient
symptom
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110845246.9A
Other languages
English (en)
Other versions
CN113555086B (zh
Inventor
吴信朝
王龙
孔令格
周宸
陈远旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110845246.9A priority Critical patent/CN113555086B/zh
Publication of CN113555086A publication Critical patent/CN113555086A/zh
Application granted granted Critical
Publication of CN113555086B publication Critical patent/CN113555086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/90ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Alternative & Traditional Medicine (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及一种基于机器学习的辩证分析方法、装置、设备及介质。该基于机器学习的辩证分析方法包括获取患者信息以及证型库中的多个目标证型;分别对所述患者信息以及每一所述目标证型进行向量化处理,得到第一患者向量以及第一证型向量;通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。该方法有效保证智能辩证的客观性以及准确性,且有效克服不同专家编写规则所来带来的主观性倾向问题,达到统一评测的目的。

Description

基于机器学习的辩证分析方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于机器学习的辩证分析方法、装置、设备及介质。
背景技术
在中医领域,“证”是疾病周期或发展过程中的某个阶段特征(或症状)反应和概括。在中医“辨病”过程中,“辨证”即为该过程中的一个关键环节。
随着人工智能技术的兴起,越来越多的医疗辅助系统基于人工智能技术开发多种可以支持疾病辅助诊断、健康管理、远程会诊等辅助功能。当前,基于人工智能的中医辩证主要是根据专家经验,设置对应的辩证规则,即设置加权求和公式以及不同症状对应的参数对照表,以根据患者提供的实际症状,通过患者提供的症状,查找参数对照表得到对应的数值,再根据设置的加权求和公式计算结果,根据结果和候选“证”对应的数值进行对比,以得出症位和症素,最后基于症位和症素达到“辨证”的目的。
而上述基于辩证规则实现智能辩证存在如下问题:1)根据数值比较判断病位和病素过于武断,不够平滑,且与实际情况出入较大,导致辨证结果的准确性无法保证;2)不同特征因子(如症状、“证”)对应的数值是由专家根据经验定义的,主观性较强,导致无法制定统一的评价标准以衡量系统的好坏。
发明内容
本发明实施例提供一种基于机器学习的辩证分析方法、装置、设备及介质,以解决目前基于辩证规则实现智能辩证的准确性无法保证的问题。
一种基于机器学习的辩证分析方法,包括:
获取患者信息以及证型库中的多个证型;
分别对所述患者信息以及每一所述证型进行向量化处理,得到第一患者向量以及第一证型向量;
通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;
将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
一种基于机器学习的辩证分析装置,包括:
信息获取模块,用于获取患者信息以及证型库中的多个证型;
向量化处理模块,用于分别对所述患者信息以及每一所述证型进行向量化处理,得到第一患者向量以及第一证型向量;
特征提取模块,用于通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;
辩证模块,用于将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于机器学习的辩证分析方法的步骤。
一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于机器学习的辩证分析方法的步骤。
上述基于机器学习的辩证分析方法、装置、设备及介质中,通过获取患者信息以及证型库中的多个证型,以分别对所述患者信息以及每一所述证型进行向量化处理,得到第一患者向量以及第一证型向量,然后通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征,与传统基于预设规则确定症状以及证型特征相比,可有效保证特征提取的客观性以及准确性,最后,将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,自动输出辩证结果,可有效解决传统基于预设规则辩证中的“非黑即白”的问题,无需投入大量人力花费时间编写规则,且能够辅助中医专家从数量较多的知识库中筛选出数量较少的目标证型,减轻人工负担;同时,可有效克服不同专家编写规则所来带来的主观性倾向问题,达到统一评测的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于机器学习的辩证分析方法的一应用环境示意图;
图2是本发明一实施例中基于机器学习的辩证分析方法的一流程图;
图3是本发明一实施例中基于机器学习的辩证分析方法的一流程图;
图4是图3中步骤S301的一具体流程图;
图5是图2中步骤S202的一具体流程图;
图6是图2中步骤S202的一具体流程图;
图7是本发明一实施例中基于机器学习的辩证分析方法的一流程图;
图8是本发明一实施例中基于机器学习的辩证分析装置的一示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该基于机器学习的辩证分析方法可应用一种医疗辅助系统,以通过针对患者信息进行智能分析辩证的方式,避免传统智能分析辩证中的主观倾向的问题,从而准确辅助医生诊疗。在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一实施例中,如图2所示,提供一种基于机器学习的辩证分析方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:获取患者信息以及证型库中的多个目标证型。
其中,患者信息包括但不限于患者对应的患者症状集(可包括一个或多个症状)、性别信息以及年龄信息等。对于患者的症状信息可通过“望闻问切”得到。证型库根据症状字典(包括768个症状)、病位证素字典(包括30个病位证素)以及病性证素字典(包括病性证素33个)构成,其存储的数据结构为按照证型为基本单元进行存储,即该证型库中包括但不限于多个证型,不同证型均对应一证型症状集、病位证素集以及病性证素集。症状是指患者身体异样的描述,例如:“恶寒”、“咳嗽”、“微热”等。病位证素是指疾病发生的脏象部位,例如:“心”、”脾”、“肝”等。病性证素用于多角度描述疾病的性质,例如:“气虚”、“阴虚”、“阳虚”等。
可以理解地是,该目标证型可指证型库中的全量数据或者证型库中与患者的症状信息的症状匹配的候选证型。
S202:分别对患者信息以及每一目标证型进行向量化处理,得到第一患者向量以及第一证型向量。
其中,由于此时患者信息以及目标证型以非数值型表达,而后续的模型输入需要数值型数据,故需要分别对患者信息以及目标证型转换为对应的向量表示,以得到患者信息对应的第一患者向量以及目标证型对应的第一证型向量。其中,第一患者向量是指实际辩证过程中,目标患者对应的患者信息的向量化表示。该第一患者向量包括但不限于性别、年龄、症状以及与待匹配的证型对应的症状集之间的症状重合率等维度。第一证型向量是指证型库中目标目标证型的向量化表示。该第一证型向量包括但不限于症状、病位证素以及病性证素等维度。
可以理解地是,1)首先,服务器针对患者信息进行向量化,然后从证型库中随机选取或按照证型库中的存储顺序选取的目标证型,然后对目标证型进行向量化处理,得到第一患者向量以及第一证型向量;2)执行步骤S203-S204。3)然后重复执行步骤1)-2)直至全部目标证型匹配结束。
具体地,针对患者信息的向量化处理可包括:1)对患者信息中的每一症状进行特征编码,得到每一症状对应的分量,例如将患者的不同症状转换为对应的词向量表示或者通过one-hot编码的方式进行特征编码,此处不做限定;2)将患者症状集对应的多个分量相加,得到症状向量,即E(Symptoms set)=E(Symptom_1)+E(Symptom_2)+……+E(Symptom_n);其中,E(Symptoms set)指症状向量,E(Symptom_n)指不同症状对应的分量,n表示症状的数量。3)分别对所述年龄以及所述性别进行离散特征编码,得到年龄向量以及性别向量,例如对于性别向量可按照如下方式进行离散编码,E(男)=0、E(女)=1;对于年龄来说可将年龄离散化为10个类别,对应嵌入矩阵(embedding table)为“10*N”,矩阵的每行代表一个年龄段,例如:第0行代表0-10岁,第1行代表10-20岁,其中的列维度N表示年龄向量的长度。4)计算患者对应的症状信息与每次匹配的目标证型对应的症状集的症状重合率E(overlap_rate);5)拼接所述症状向量(E(Symptoms set))、年龄向量(E(age))、性别向量(E(gender))以及症状重合率,以得到患者向量(E(user feature)),即E(user feature)=contact(E(age)、E(gender)、E(Symptoms set)、E(overlap_rate))。
针对目标证型的向量化处理中,对于症状维度的向量化表示与患者信息中的症状向量化表示相同,此处不再赘述。同理,针对病位证素以及病性证素的向量化处理与症状维度的向量化处理类似,可表示为E(病位证素)=E(病位证素_1)+E(病位证素_2)+……+E(病位证素_m);其中,m为证型对应的病位证素个数;E(病性证素)=E(病性证素_1)+E(病性证素_2)+……+E(病性证素_K),K为证型对应的病性证素个数。最后,拼接证型症状对应的向量E(证型症状)、病症位素对应的向量E(病位证素)以及病性位素对应的向量E(病性证素),以得到最终的第一证型向量,即E(disease feature)=contact(E(病位证素),E(病性证素),E(病症))。
进一步地,不同目标证型对应的向量化表示的转换可预先处理,以保证实际辩证过程中的辩证效率,或在实际辩证过程中实时处理,此处不做限定。
S203:通过预先训练好的第一目标模型提取第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一第一证型向量对应的第二特征。
其中,该第一目标模型是指预先训练好的用于提取患者向量对应的患者特征的编码器。该第一特征是指第一患者向量对应的患者特征。该第一目标模型对应一训练好的模型参数W,通过将W与得到的第一患者向量相乘,即可得到第一特征。第二目标模型是指预先训练好的用于提取证型向量对应的证型特征的编码器。该第二特征是指第一证型向量对应的证型特征。该第二目标模型对应一训练好的模型参数W’,通过将W’与得到的第一证型向量相乘,即可得到第二特征。
S204:将第一特征与每一第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
具体地,通过将第一特征与每一第二特征进行特征相似度计算,得到第一特征与每一第二特征的特征相似度,该特征相似度可为余弦相似度,此处不做限定。最后根据得到的多个特征相似度,可通过将其与预设相似度阈值比较,将大于预设相似度阈值的多个第二特征对应的证型作为辩证结果输出;或者,将多个特征相似度按照从大到小的顺序排序,取排在前N位的第二特征对应的证型作为辩证结果输出;或者将多个特征相似度中最大的特征相似度所对应的证型作为辩证结果输出。
本实施例中,通过获取患者信息以及证型库中的多个目标证型,以分别对所述患者信息以及每一所述目标证型进行向量化处理,得到第一患者向量以及第一证型向量,然后通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征,与传统基于预设规则确定症状以及证型特征相比,可有效保证特征提取的客观性以及准确性,最后,将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,自动输出辩证结果,可有效解决传统基于预设规则辩证中的“非黑即白”的问题,无需投入大量人力花费时间编写规则,且能够辅助中医专家从数量较多的知识库中筛选出数量较少的目标证型,减轻人工负担;同时,可有效克服不同专家编写规则所来带来的主观性倾向问题,达到统一评测的目的。
在一实施例中,所述患者信息包括患者症状集;所述证型库中存储有多个原始证型,每一原始证型均对应一证型症状集;步骤S201,即获取证型库中的多个目标证型具体为:基于所述患者症状集,对每一所述原始证型对应的证型症状集进行关键字匹配,以从所述证型库中筛选出多个目标证型。
具体地,为进一步保证智能辩证的效率,可通过将患者信息中的多条症状与证型库中不同原始证型对应的症状集进行关键字匹配,以召回一部分原始证型作为目标证型,从而将证型库中的全量数据进行筛选过滤,使后续的处理基于目标证型进行计算,无需针对全量数据进行计算,大大减少数据处理量。
示例性地,针对症状的关键字匹配,可按照匹配的症状数量是否大于匹配阈值F进行评价,F可设置为大于等于1的任意正整数,此处不做限定。
在一实施例中,如图3所示,步骤S203之前,即在通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征的步骤之前,还包括如下步骤:
S301:计算患者症状集与证型症状集的症状重合率。
S302:拼接第一患者向量以及症状重合率,以根据得到的拼接向量更新第一患者向量。
其中,为进一步使模型学习到患者信息与证型之间的关联关系,本实施例红中在训练模型时通过计算患者症状集与证型症状集的症状重合率,使得患者向量中引入症状重合率这一特征维度,提高模型的准确性。其中,对于第一患者向量以及症状重合率的拼接可通过contact函数进行拼接。例如原第一患者向量为(10001,11144,0)症状重合率为0.6,此处拼接后得到的第一患者向量即为一四维向量(10001,11144,0,0.6)。
本实施例中,通过计算患者症状集与证型症状集的症状重合率,并拼接第一患者向量以及症状重合率,以根据得到的拼接向量更新第一患者向量,以引入模型的衍生特征,从而使模型学习到患者与证型之间的隐藏特征,提高模型的准确性。
在一实施例中,患者数据包括患者症状集;证型数据包括证型症状集;如图4所示,步骤S301中,即计算患者症状集与证型症状集的症状重合率,具体包括如下步骤:
S401:对患者症状集与证型症状集取交集。
S402:基于交集的集合长度与证型症状集的集合长度,计算症状重合率。
具体地,通过如下公式表示步骤S401-S402中计算症状重合率的过程,Overlap_rate=len(User_Set∩Base_Set)/len(Base_Set)其中,Overlap_rate表示症状重合率;User_set表示患者症状集;Base_set表示证型症状集;len()表示集合长度,len()方法可返回对象长度,此处的对象可为交集或证型症状集。可以理解地是,该集合长度即为集合中的元素个数。
在一实施例中,所述患者信息包括患者症状集、年龄信息以及性别信息;如图5所示,步骤S202中,即对所述患者信息进行向量化处理,得到第一患者向量,具体包括如下步骤:
S501:对患者症状集中的每一患者症状进行特征编码,得到每一患者症状对应的第一分量。
具体地,可采用包括但不限于将患者症状集中的不同患者症状转换为对应的词向量表示、通过one-hot编码的方式或其他可实现的特征编码方式对每一患者症状进行特征编码,以得到每一所述患者症状对应的第一分量。
S502:将患者症状集对应的多个第一分量相加,得到第一症状向量。
具体地,通过将多个不同患者症状的第一分量相加,即E(Symptoms set)=E(Symptom_1)+E(Symptom_2)+……+E(Symptom_n),以得到第一症状向量。其中,E(Symptomsset)指症状向量,E(Symptom_n)指第n个患者症状对应的第一分量,n表示患者症状的数量。
S503:分别对年龄信息以及性别信息进行离散特征编码,得到年龄向量以及性别向量。
示例性地,对于性别向量可按照如下方式进行离散特征编码,E(男)=0、E(女)=1;对于年龄来说可将年龄离散化为10个类别,对应嵌入矩阵(embedding table)的尺寸大小为10*N,矩阵中每以行代表一个年龄段,例如:第0行代表0-10岁,第1行代表10-20岁,其中的列维度N表示年龄向量的长度,例如4。
S504:拼接第一症状向量、年龄向量以及性别向量,得到第一患者向量。
具体地,通过contact函数拼接所述第一症状向量(E(Symptoms set))、年龄向量(E(age))以及性别向量(E(gender)),以得到所述第一患者向量(E(user feature)),即E(user feature)=contact(E(age)、E(gender)、E(Symptoms set))。
例如第一症状向量为10001,年龄向量为1144,性别向量为0,此处拼接后得到的第一患者向量即为一三维向量(10001,111440,0)。
在一实施例中,所述证型对应证型症状集、病位证素集以及病性证素集;如图6所示,步骤S202中,即对每一目标证型进行向量化处理,得到第一证型向量,具体包括如下步骤:
S601:对证型症状集中的每一证型症状进行特征编码,得到每一证型症状对应的第二分量。
具体地,可采用包括但不限于将证型症状集中的不同证型症状转换为对应的词向量表示、通过one-hot编码的方式或其他可实现的特征编码方式对每一证型症状进行特征编码,以得到每一证型症状对应的第二分量。
S602:将证型症状集对应的多个第二分量相加,得到第二症状向量。
具体地,通过将证型症状集对应的多个第二分量相加,即E(Symptoms set’)=E(Symptom_1’)+E(Symptom_2’)+……+E(Symptom_J’);其中,E(Symptoms set’)指第二症状向量,E(Symptom_J’)指第J个证型症状对应的第二分量,J表示证型症状的数量。
S603:对病位证素集中的每一病位证素进行特征编码,得到每一病位证素对应的病位证素分量。
具体地,针对病位证素以及病性证素的向量化处理与症状维度的向量化处理类似,即可采用包括但不限于将病位证素集中的每一病位证素转换为对应的词向量表示、通过one-hot编码的方式或其他可实现的特征编码方式对每一病位证素进行特征编码,以得到每一病位证素对应的病位证素分量。
S604:将病位证素集对应的多个病位证素分量相加,得到病位证素向量。
具体地,通过将多个不同病位证素的病位证素分量相加,即E(病位证素)=E(病位证素_1)+E(病位证素_2)+……+E(病位证素_m),以得到病位证素向量。其中,E(病位证素_m)表示第m个病位证素对应的病位证素分量,m为证型对应的病位证素个数。
S605:对病性证素集中的每一病性证素进行特征编码,得到每一病性证素对应的病性证素分量。
具体地,针对病位证素以及病性证素的向量化处理与症状维度的向量化处理类似,即可采用包括但不限于将病性证素集中的每一病性证素转换为对应的词向量表示、通过one-hot编码的方式或其他可实现的特征编码方式对每一病性证素进行特征编码,以得到每一病性证素分量对应的病性证素分量。
S606:将病性证素集对应的多个病性证素分量相加,得到病性证素向量。
具体地,通过将多个不同病性证素的病性证素分量相加,即E(病性证素)=E(病性证素_1)+E(病性证素_2)+……+E(病性证素_K),以得到病位证素向量。其中,病性证素_K表示第K个病性证素对应的病性证素分量,K为证型对应的病性证素个数。
S607:拼接第二症状向量、病位证素向量以及病性证素向量,得到第一证型向量。
具体地,通过contact函数拼接证型症状对应的向量E(证型症状)、病症位素对应的向量E(病位证素)以及病性位素对应的向量E(病性证素),以得到最终的第一证型向量,即E(disease feature)=contact(E(病位证素),E(病性证素),E(证型症状))。例如第一症状向量为11111,病位证素向量为40011,病性证素向量为12333,此处拼接后得到的第一证型向量即为一三维向量(11111,40011,12333)。
在一实施例中,如图7所示,该基于机器学习的辩证分析方法还包括如下步骤:
S701:获取训练样本;其中,训练样本包括患者数据、证型数据以及对应的标注数据。
其中,训练样本包括患者数据、证型数据以及对应的标注数据(例如lable:1表示真、-1表示假)。具体地,通过将患者、证型及两者之间的对应标注关系作为选练样本的结构描述,以通过该训练样本训练智能辩证模型。
可以理解地是,该智能辩证模型中包括两个特征提取器即第一原始模型以及第二原始模型,通过训练样本训练这两个特征提取器,可得到训练好的智能辩证模型。需要说明的是,针对这两个特征提取器的训练是在同一网络结构中基于同一训练样本进行全局训练,而不是单独训练的两个部分。
S702:分别对患者数据以及证型数据进行向量化处理,得到第二患者向量以及第二证型向量。
其中,第二患者向量是指模型训练过程中,训练样本中患者数据的向量化表示。第二证型向量是指模型训练过程中,训练样本中证型数据的向量化表示。
具体地,针对患者数据以及证型数据进行向量化处理,得到第二患者向量以及第二证型向量的处理过程与步骤S202的向量化处理过程一致,为避免重复,此处不再赘述。
S703:通过第一原始模型提取第二患者向量的第一训练特征;以及,通过第二原始模型提取第二证型向量的第二训练特征。
其中,第一原始模型是指待训练的用于提取患者向量对应的患者特征的编码器。该第一原始模型对应一待训练的模型参数W,通过将W与得到的第二患者向量相乘,即可得到第一训练特征。第二原始模型是指待训练的用于提取证型向量对应的证型特征的编码器。该第二原始模型对应一待训练的模型参数W’,通过将W’与得到的第二证型向量相乘,即可得到第二训练特征。
本实施例中,W为134*N的权重矩阵,W’为138*N的权重矩阵,本轮训练的输入的第二患者向量为N*134(包括向量长度为128的症状列、向量长度为1的性别列、向量长度为4的年龄列以及向量长度为1的症状重合率列)大小的矩阵;第二证型向量为N*138大小的矩阵(包括向量长度为128的症状列、向量长度为5的病性证素列、向量长度为5的病性证素列),其中,N表示样本数量,如128。
S704:计算第一训练特征以及第二训练特征的特征相似度。
具体地,可通过余弦相似度或欧氏距离计算方式,以计算第一训练特征以及第二训练特征的特征相似度。
S705:基于特征相似度以及标注数据,计算模型损失。
本实施例中,可通过如下损失公式计算模型损失:
loss=(y1-yp1)2+(y2-yp2)2+......(yn-ypn)2,其中,ypn表示本轮训练中的第n个特征相似度;yn表示标注数据,loss表示模型损失,n表示批处理量。
S706:根据模型损失,更新第一原始模型以及第二原始模型,并重复执行步骤S701-S706,直至模型收敛,以得到训练好的第一目标模型以及第二目标模型。
其中,模型收敛条件但不限于累计训练次数达到上限和/或loss小于预设损失阈值,此处不做限定。具体地,可按照如下更新公式根据模型损失,更新第一原始模型以及第二原始模型中的模型参数,△w=d(loss)/d(w),w=w+△w;其中,△w表示模型参数的更新量;d()表示求导。
可以理解地是,在模型迭代训练过程中,当模型损失loss小于预设损失阈值和/或累计训练次数达到上限,即满足模型收敛条件,则停止模型训练,得到得到训练好的第一目标模型以及第二目标模型。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于机器学习的辩证分析装置,该基于机器学习的辩证分析装置与上述实施例中基于机器学习的辩证分析方法一一对应。如图8所示,该基于机器学习的辩证分析装置包括信息获取模块10、向量化处理模块20、特征提取模块30和辩证模块40。各功能模块详细说明如下:
信息获取模块10,用于获取患者信息以及证型库中的多个证型;
向量化处理模块20,用于分别对所述患者信息以及每一所述证型进行向量化处理,得到第一患者向量以及第一证型向量;
特征提取模块30,用于通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;
辩证模块40,用于将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
具体地,所述患者信息包括患者症状集;所述证型对应一证型症状集;信息获取模块具体为基于所述患者症状集,对每一所述证型症状集中的证型症状进行关键字匹配,以从所述证型库中筛选出多个目标证型。
具体地,所述患者信息包括患者症状集;所述目标证型对应一证型症状集;该基于机器学习的辩证分析装置还包括症状重合率计算模块和向量拼接模块。
症状重合率计算模块,用于计算所述患者症状集与所述证型症状集的症状重合率;
向量拼接模块,用于拼接所述第一患者向量以及所述症状重合率,以根据得到的拼接向量更新所述第一患者向量。
具体地,症状重合率计算模块包括取交集单元和症状重合率计算单元。
取交集单元,用于对所述患者症状集与所述证型症状集取交集;
症状重合率计算单元,用于基于所述交集的集合长度与所述证型症状集的集合长度,计算所述症状重合率。
具体地,所述患者信息包括患者症状集、年龄信息以及性别信息;向量化处理模块包括患者症状编码单元、第一分量相加单元、离散编码单元以及拼接单元。
患者症状编码单元,用于对患者症状集中的每一患者症状进行特征编码,得到每一患者症状对应的第一分量;
第一分量相加单元,用于将患者症状集对应的多个第一分量相加,得到第一症状向量;
离散编码单元,用于分别对所述年龄信息以及所述性别信息进行离散特征编码,得到年龄向量以及性别向量;
拼接单元,用于拼接所述第一症状向量、所述年龄向量以及所述性别向量,得到所述第一患者向量。
具体地,所述目标证型对应证型症状集、病位证素集以及病性证素集;向量化处理模块包括证型症状编码单元、第二分量相加单元、病位证素编码单元、病位证素分量相加单元、病性证素编码单元、病性证素分量相加单元以及拼接单元。
证型症状编码单元,用于对证型症状集中的每一证型症状进行特征编码,得到每一证型症状对应的第二分量;
第二分量相加单元,用于将证型症状集对应的多个第二分量相加,得到第二症状向量;
病位证素编码单元,用于对病位证素集中的每一病位证素进行特征编码,得到每一病位证素对应的病位证素分量;
病位证素分量相加单元,用于将病位证素集对应的多个病位证素分量相加,得到病位证素向量;
病性证素编码单元,用于对病性证素集中的每一病性证素进行特征编码,得到每一病性证素对应的病性证素分量;
病性证素分量相加单元,用于将病性证素集对应的多个病性证素分量相加,得到病性证素向量;
拼接单元,用于拼接所述第二症状向量、所述病位证素向量以及所述病性证素向量,得到所述第一证型向量。
具体地,该基于机器学习的辩证分析装置还包括训练样本获取模块、向量化处理模块、特征提取模块、特征相似度计算模块、模型损失计算模块以及模型更新优化模块。
训练样本获取模块,用于获取训练样本;其中,所述训练样本包括患者数据、证型数据以及对应的标注数据;
向量化处理模块,用于分别对所述患者数据以及所述证型数据进行向量化处理,得到第二患者向量以及第二证型向量;
特征提取模块,用于通过第一原始模型提取所述第二患者向量的第一训练特征;以及,通过第二原始模型提取所述第二证型向量的第二训练特征;
特征相似度计算模块,用于计算所述第一训练特征以及所述第二训练特征的特征相似度;
模型损失计算模块,用于基于所述特征相似度以及所述标注数据,计算模型损失;
模型更新优化模块,用于根据所述模型损失,更新所述第一原始模型以及所述第二原始模型,并重复执行所述获取训练的步骤,直至满足模型收敛条件,得到训练好的第一目标模型以及第二目标模型。
关于基于机器学习的辩证分析装置的具体限定可以参见上文中对于基于机器学习的辩证分析方法的限定,在此不再赘述。上述基于机器学习的辩证分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于机器学习的辩证分析方法过程中生成或获取的数据,如第一目标模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的辩证分析方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如下步骤:
获取患者信息以及证型库中的多个目标证型;
分别对所述患者信息以及每一所述目标证型进行向量化处理,得到第一患者向量以及第一证型向量;
通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;
将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
或者,处理器执行计算机程序时实现基于机器学习的辩证分析装置这一实施例中的各模块/单元的功能,例如图8所示的各模块/单元的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
获取患者信息以及证型库中的多个目标证型;
分别对所述患者信息以及每一所述目标证型进行向量化处理,得到第一患者向量以及第一证型向量;
通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;
将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
或者,该计算机程序被处理器执行时实现上述基于机器学习的辩证分析装置这一实施例中的各模块/单元的功能,例如图8所示的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习的辩证分析方法,其特征在于,包括:
获取患者信息以及证型库中的多个目标证型;
分别对所述患者信息以及每一所述目标证型进行向量化处理,得到第一患者向量以及第一证型向量;
通过预先训练好的第一目标模型提取所述第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;
将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
2.如权利要求1所述基于机器学习的辩证分析方法,其特征在于,所述患者信息包括患者症状集;所述证型库中存储有多个原始证型,每一原始证型均对应一证型症状集;所述获取证型库中的多个目标证型,包括:
基于所述患者症状集,对每一所述原始证型对应的证型症状集进行关键字匹配,以从所述证型库中筛选出多个目标证型。
3.如权利要求1所述基于机器学习的辩证分析方法,其特征在于,所述患者信息包括患者症状集;所述目标证型对应一证型症状集;在所述通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征的步骤之前,所述基于机器学习的辩证分析方法还包括:
计算所述患者症状集与所述证型症状集的症状重合率;
拼接所述第一患者向量以及所述症状重合率,以根据得到的拼接向量更新所述第一患者向量。
4.如权利要求3所述基于机器学习的辩证分析方法,其特征在于,所述计算所述患者症状集与所述证型症状集的症状重合率,包括:
对所述患者症状集与所述证型症状集取交集;
基于所述交集的集合长度与所述证型症状集的集合长度,计算所述症状重合率。
5.如权利要求1所述基于机器学习的辩证分析方法,其特征在于,所述患者信息包括患者症状集、年龄信息以及性别信息;所述对所述患者信息进行向量化处理,得到第一患者向量,包括:
对所述患者症状集中的每一患者症状进行特征编码,得到每一患者症状对应的第一分量;
将所述患者症状集对应的多个所述第一分量相加,得到第一症状向量;
分别对所述年龄信息以及所述性别信息进行离散特征编码,得到年龄向量以及性别向量;
拼接所述第一症状向量、所述年龄向量以及所述性别向量,得到所述第一患者向量。
6.如权利要求1所述基于机器学习的辩证分析方法,其特征在于,所述目标证型对应证型症状集、病位证素集以及病性证素集;所述对每一所述目标证型进行向量化处理,得到第一证型向量,包括:
对所述证型症状集中的每一证型症状进行特征编码,得到每一所述证型症状对应的第二分量;
将证型症状集对应的多个所述第二分量相加,得到第二症状向量;
对所述病位证素集中的每一病位证素进行特征编码,得到每一所述病位证素对应的病位证素分量;
将所述病位证素集对应的多个所述病位证素分量相加,得到病位证素向量;
对所述病性证素集中的每一病性证素进行特征编码,得到每一所述病性证素对应的病性证素分量;
将所述病性证素集对应的多个所述病性证素分量相加,得到病性证素向量;
拼接所述第二症状向量、所述病位证素向量以及所述病性证素向量,得到所述第一证型向量。
7.如权利要求1所述基于机器学习的辩证分析方法,其特征在于,在所述获取患者信息以及证型库中的多个目标证型的步骤之前,所述基于机器学习的辩证分析方法还包括:
获取训练样本;其中,所述训练样本包括患者数据、证型数据以及对应的标注数据;
分别对所述患者数据以及所述证型数据进行向量化处理,得到第二患者向量以及第二证型向量;
通过第一原始模型提取所述第二患者向量的第一训练特征;以及,通过第二原始模型提取所述第二证型向量的第二训练特征;
计算所述第一训练特征以及所述第二训练特征的特征相似度;
基于所述特征相似度以及所述标注数据,计算模型损失;
根据所述模型损失,更新所述第一原始模型以及所述第二原始模型,并重复执行所述获取训练样本的步骤,直至模型收敛,以得到训练好的第一目标模型以及第二目标模型。
8.一种基于机器学习的辩证分析装置,其特征在于,包括:
信息获取模块,用于获取患者信息以及证型库中的多个证型;
向量化处理模块,用于分别对所述患者信息以及每一所述证型进行向量化处理,得到第一患者向量以及第一证型向量;
特征提取模块,用于通过预先训练好的第一目标模型提取所第一患者向量对应的第一特征;以及,通过预先训练好的第二目标模型提取每一所述第一证型向量对应的第二特征;
辩证模块,用于将所述第一特征与每一所述第二特征进行特征相似度计算,以根据得到的特征相似度,输出辩证结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于机器学习的辩证分析方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于机器学习的辩证分析方法的步骤。
CN202110845246.9A 2021-07-26 2021-07-26 基于机器学习的辩证分析方法、装置、设备及介质 Active CN113555086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110845246.9A CN113555086B (zh) 2021-07-26 2021-07-26 基于机器学习的辩证分析方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110845246.9A CN113555086B (zh) 2021-07-26 2021-07-26 基于机器学习的辩证分析方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113555086A true CN113555086A (zh) 2021-10-26
CN113555086B CN113555086B (zh) 2024-05-10

Family

ID=78132806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110845246.9A Active CN113555086B (zh) 2021-07-26 2021-07-26 基于机器学习的辩证分析方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113555086B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154514A (zh) * 2022-02-07 2022-03-08 北京三子健康科技有限公司 一种中医证型识别方法及系统
CN116628560A (zh) * 2023-07-24 2023-08-22 四川互慧软件有限公司 基于聚类算法的蛇伤病例数据识别方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016438A (zh) * 2017-04-14 2017-08-04 温川飙 一种基于中医辨证人工神经网络算法模型的系统
CN107122583A (zh) * 2017-03-10 2017-09-01 深圳大学 一种中医证素的辨证方法及装置
CN108986911A (zh) * 2018-07-06 2018-12-11 成都中医药大学 一种中医辩证论治数据处理方法
CN109920535A (zh) * 2019-02-28 2019-06-21 彭明德 一种移动中医辨证分析方法及装置
CN110115563A (zh) * 2019-05-22 2019-08-13 成都中医药大学 一种中医证型预测系统
CN111210024A (zh) * 2020-01-14 2020-05-29 深圳供电局有限公司 模型训练方法、装置、计算机设备和存储介质
CN111834012A (zh) * 2020-07-14 2020-10-27 中国中医科学院中医药信息研究所 基于深度学习和注意力机制的中医证候诊断方法及装置
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122583A (zh) * 2017-03-10 2017-09-01 深圳大学 一种中医证素的辨证方法及装置
CN107016438A (zh) * 2017-04-14 2017-08-04 温川飙 一种基于中医辨证人工神经网络算法模型的系统
CN108986911A (zh) * 2018-07-06 2018-12-11 成都中医药大学 一种中医辩证论治数据处理方法
CN109920535A (zh) * 2019-02-28 2019-06-21 彭明德 一种移动中医辨证分析方法及装置
CN110115563A (zh) * 2019-05-22 2019-08-13 成都中医药大学 一种中医证型预测系统
CN111210024A (zh) * 2020-01-14 2020-05-29 深圳供电局有限公司 模型训练方法、装置、计算机设备和存储介质
CN111834012A (zh) * 2020-07-14 2020-10-27 中国中医科学院中医药信息研究所 基于深度学习和注意力机制的中医证候诊断方法及装置
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154514A (zh) * 2022-02-07 2022-03-08 北京三子健康科技有限公司 一种中医证型识别方法及系统
CN116628560A (zh) * 2023-07-24 2023-08-22 四川互慧软件有限公司 基于聚类算法的蛇伤病例数据识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN113555086B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
CN109063742B (zh) 蝴蝶识别网络构建方法、装置、计算机设备及存储介质
CN112037912B (zh) 基于医疗知识图谱的分诊模型训练方法、装置及设备
CN108427707B (zh) 人机问答方法、装置、计算机设备和存储介质
CN112199375A (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN113157863B (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN113555086A (zh) 基于机器学习的辩证分析方法、装置、设备及介质
CN111832581B (zh) 肺部特征识别方法、装置、计算机设备及存储介质
WO2021114620A1 (zh) 病历质控方法、装置、计算机设备和存储介质
CN112016295A (zh) 症状数据处理方法、装置、计算机设备及存储介质
WO2020052183A1 (zh) 商标侵权的识别方法、装置、计算机设备和存储介质
CN113705685B (zh) 疾病特征识别模型训练、疾病特征识别方法、装置及设备
CN113536856A (zh) 图像识别方法和系统、数据处理方法
CN112749723A (zh) 样本标注方法、装置、计算机设备和存储介质
CN112397197A (zh) 基于人工智能的问诊数据处理方法及装置
CN109710924B (zh) 文本模型训练方法、文本识别方法、装置、设备及介质
CN113688955A (zh) 文本识别方法、装置、设备及介质
CN113836192A (zh) 平行语料的挖掘方法、装置、计算机设备及存储介质
CN113159053A (zh) 图像识别方法、装置及计算设备
Omara et al. A field-based recommender system for crop disease detection using machine learning
CN116955646A (zh) 知识图谱的生成方法和装置、存储介质及电子设备
CN111625858A (zh) 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN116484224A (zh) 一种多模态预训练模型的训练方法、装置、介质及设备
CN115345166A (zh) 医疗文本的疾病诊断名识别方法、装置、设备及存储介质
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant