CN112015917A - 基于知识图谱的数据处理方法、装置及计算机设备 - Google Patents

基于知识图谱的数据处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN112015917A
CN112015917A CN202010927440.7A CN202010927440A CN112015917A CN 112015917 A CN112015917 A CN 112015917A CN 202010927440 A CN202010927440 A CN 202010927440A CN 112015917 A CN112015917 A CN 112015917A
Authority
CN
China
Prior art keywords
symptom
target
determining
inquiry
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010927440.7A
Other languages
English (en)
Inventor
林桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010927440.7A priority Critical patent/CN112015917A/zh
Publication of CN112015917A publication Critical patent/CN112015917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种基于知识图谱的数据处理方法、装置及计算机设备,涉及人工智能技术领域,可以解决目前预问诊产品难以解决用户口语到专业术语的匹配问题。其中方法包括:接收用户上传的症状描述信息;利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定待问诊的目标分诊科室;根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项;向所述用户推荐所述问诊项,以便基于所述目标症状以及用户对所述问诊项的选填内容生成预问诊信息。

Description

基于知识图谱的数据处理方法、装置及计算机设备
技术领域
本申请涉及人工智能技术领域,尤其涉及到一种基于知识图谱的数据处理方法、装置及计算机设备。
背景技术
在人工智能和互联网的融合时代,优化问诊流程,提高就医效率是解决当下看病慢、看病难、医患关系紧张的必要途径。现有的优化方法中预问诊是目前成本低且较有效的。
现有预问诊产品在功能上略偏向于用户自诊,即产品通过与用户进行多轮交互,用户通过多次点选应用推荐的相关症状、选填症状属性、并确认后续症状等操作,算法判断用户可能患有的疾病并将结果最终呈现给医生。然而预问诊产品核心功能并非进行疾病诊断,详实准确地记录患者症状、病史等信息以节省医生问诊阶段冗余的询问过程,提高医患沟通效率方为产品本质。如果侧重于疾病诊断,一方面偏离预问诊的核心应用,另一方面,由于疾病诊断需要多方面信息,用户不可避免地需要与应用进行长时间的交互,效率较低。
由于现有产品对于症状识别主要依赖于规则,灵活性欠缺。预问诊产品受众主要为无专业医学背景的普通用户,输入以口语化症状为主,难以直接映射到标准症状,效果较差;此外,用户往往无法对专业医学术语进行准确描述,现有方法仍然无法很好的解决用户口语到专业术语匹配问题,亟待解决。
发明内容
有鉴于此,本申请提供了一种基于知识图谱的数据处理方法、装置及计算机设备,主要解决目前预问诊产品难以解决用户口语到专业术语的匹配问题。
根据本申请的一个方面,提供了一种基于知识图谱的数据处理方法,该方法包括:
接收用户上传的症状描述信息;
利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定待问诊的目标分诊科室;
根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项;
向所述用户推荐所述问诊项,以便基于所述目标症状以及用户对所述问诊项的选填内容生成预问诊信息。
优选地,在利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定目标分诊科室之前,具体包括:
基于Bert的症状识别算法训练症状识别模型,以使所述症状识别模型符合第一预设训练标准;
利用TF-IDF算法提取所述症状描述信息的特征向量,并基于机器学习算法和所述特征向量训练主诉分诊模型,以使所述主诉分诊模型符合第二预设训练标准。
优选地,所述利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,具体包括:
将所述症状描述信息上传至所述症状识别模型,获取所述症状描述信息对应的症状实体;
基于实体链接技术确定所述症状实体对应医疗知识图谱中的标准症状,并将确定出的所述标准症状定义为目标症状;
所述利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定待问诊的目标分诊科室,具体包括:
将所述症状描述信息上传至所述主诉分诊模型,识别所述症状描述信息对应的目标特征向量;
根据所述主诉分诊模型确定所述目标特征向量对应各个预设科室的评定分值;
将对应所述评定分值最大的预设科室确定为待问诊的目标分诊科室。
优选地,所述根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项,具体包括:
确定所述目标症状对应的症状属性,并在所述医疗知识图谱中筛选出与所述症状属性匹配的第一关联数据;
根据所述第一关联数据确定第一问诊项。
优选地,所述根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项,具体包括:
根据所述医疗知识图谱中药品与疾病的第一对应关系和/或药品与适应症的第二对应关系,确定所述目标症状对应的第二关联数据;
依据所述第二关联数据确定第二问诊项。
优选地,所述根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项,具体包括:
根据所述医疗知识图谱中疾病与处理方案间的第三对应关系,确定与所述目标症状匹配的第三关联数据;
根据所述第三关联数据确定第三问诊项。
优选地,所述向所述用户推荐所述问诊项,以便基于所述标准症状以及用户对所述问诊项的选填内容生成预问诊信息,具体包括:
输出所述第一问诊项、所述第二问诊项、以及所述第三问诊项,并确定用户填入内容的目标问诊项;
基于所述用户对各个所述目标问诊项的录入内容,以及所述目标症状生成关于所述用户的预问诊信息。
根据本申请的另一个方面,提供了一种基于知识图谱的数据处理装置,该装置包括:
接收模块,用于接收用户上传的症状描述信息;
识别模块,用于利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定待问诊的目标分诊科室;
确定模块,用于根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项;
生成模块,用于向所述用户推荐所述问诊项,以便基于所述目标症状以及用户对所述问诊项的选填内容生成预问诊信息。
优选地,本装置还包括:
训练模块,用于基于Bert的症状识别算法训练症状识别模型,以使所述症状识别模型符合第一预设训练标准;
训练模块,用于利用TF-IDF算法提取所述症状描述信息的特征向量,并基于机器学习算法和所述特征向量训练主诉分诊模型,以使所述主诉分诊模型符合第二预设训练标准。
优选地,识别模块,具体用于:
将所述症状描述信息上传至所述症状识别模型,获取所述症状描述信息对应的症状实体;
基于实体链接技术确定所述症状实体对应医疗知识图谱中的标准症状,并将确定出的所述标准症状定义为目标症状;
将所述症状描述信息上传至所述主诉分诊模型,识别所述症状描述信息对应的目标特征向量;
根据所述主诉分诊模型确定所述目标特征向量对应各个预设科室的评定分值;
将对应所述评定分值最大的预设科室确定为待问诊的目标分诊科室。
优选地,确定模块,具体用于:
确定所述目标症状对应的症状属性,并在所述医疗知识图谱中筛选出与所述症状属性匹配的第一关联数据;
根据所述第一关联数据确定第一问诊项。
优选地,确定模块,具体用于:
根据所述医疗知识图谱中药品与疾病的第一对应关系和/或药品与适应症的第二对应关系,确定所述目标症状对应的第二关联数据;
依据所述第二关联数据确定第二问诊项。
优选地,确定模块,具体用于:
根据所述医疗知识图谱中疾病与处理方案间的第三对应关系,确定与所述目标症状匹配的第三关联数据;
根据所述第三关联数据确定第三问诊项。
优选地,生成模块,具体用于:
输出所述第一问诊项、所述第二问诊项、以及所述第三问诊项,并确定用户填入内容的目标问诊项;
基于所述用户对各个所述目标问诊项的录入内容,以及所述目标症状生成关于所述用户的预问诊信息。
根据本申请的另一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于知识图谱的数据处理方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于知识图谱的数据处理方法。
借由上述技术方案,本申请提供的一种基于知识图谱的数据处理方法、装置及计算机设备,与目前预问诊产品相比,本申请可在接收到用户上传的症状描述信息后,利用符合第一预设训练标准的症状识别模型识别症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状;利用符合第二预设训练标准的主诉分诊模型识别症状描述信息,确定待问诊的目标分诊科室;之后根据医疗知识图谱提取目标症状以及目标分诊科室的关联信息,并基于关联信息确定对应的问诊项;最后向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。在本申请中,依托于健全的医疗知识图谱,能够对口语化症状进行精准识别,从而能够准确捕获到用户的症状输入信息。此外,依据医疗知识图谱还可以准确推荐出用药史、治疗史、相关症状属性供用户确认,避免用户因主动输入造成的可能错误。由于不以诊断疾病为目的,也能避免冗长的用户对话,整体使用体验友好,高效。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于知识图谱的数据处理方法的流程示意图;
图2示出了本申请实施例提供的另一种基于知识图谱的数据处理方法的流程示意图;
图3示出了本申请实施例提供的一种基于知识图谱的数据处理装置的结构示意图;
图4示出了本申请实施例提供的另一种基于知识图谱的数据处理装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前预问诊产品难以解决用户口语到专业术语的匹配问题,本申请实施例提供了一种基于知识图谱的数据处理方法,如图1所示,该方法包括:
101、接收用户上传的症状描述信息。
对于本申请的执行主体可为预问诊系统,用于接收用户上传的症状描述信息,并对症状描述信息进行识别,确定对应的目标症状以及目标分诊科室;基于医疗知识图谱提取出目标症状以及目标分诊科室的关联信息,进而利用关联信息确定对应的问诊项;向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。由于本预问诊系统不以诊断疾病为目的,故可避免冗长的用户对话,使整体使用体验友好,高效。
102、利用符合第一预设训练标准的症状识别模型识别症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别症状描述信息,确定待问诊的目标分诊科室。
其中,第一预设训练标准和第二预设训练标准不同,第一预设训练标准对应症状识别模型针对症状实体的识别精度应该大于第一预设阈值,第二预设训练标准对应主诉分诊模型针对分诊科室的识别精度应该大于第二预设阈值。在具体的应用场景中,第一预设阈值和第二预设阈值均应为大于0且小于1的分数值,分别表示症状识别模型和主诉分诊模型可投入实际应用的最小精度值。当训练得到的识别精度大于对应的预设阈值且越接近于1,代表模型训练的精度越高,第一预设阈值和第二预设阈值的具体数值可根据实际应用需求进行设定。医疗知识图谱是一款通过知识图谱技术关联医疗领域多维度数据库,为用户提供海量专业医学知识的产品。可对应现有医疗领域内集成多个维度的核心医学术语、医学术语以及医学关系的知识图谱,通过医疗知识图谱,可实现医疗生态圈内全方位知识数据的聚合,覆盖疾病,药品,检查,检验,手术,基因,科室等核心医学概念,为临床路径中各个角色提供基于精准医学知识的个性化解决方案。
对于本实施例,在具体的应用场景中,可预先训练症状识别模型,使其符合第一预设训练标准,还可预先训练主诉分诊模型,使其符合第二预设训练标准。之后基于训练好的症状识别模型识别出症状描述信息与医疗知识图谱中标准症状匹配的目标症状,并基于训练好的主诉分诊模型基于症状描述信息确定用于诊断目标症状的目标分诊科室。
103、根据医疗知识图谱提取目标症状以及目标分诊科室的关联信息,并基于关联信息确定对应的问诊项。
对于本实施例,在具体的应用场景中,当提取出目标症状以及目标分诊科室后,还可利用医疗知识图谱中的医学关系,提取出与目标症状以及目标分诊科室相关联的信息,进而基于关联信息可自动动生成相关的问诊项供用户确认,避免用户因主动输入造成的可能错误,从而也避免预问诊产品的问诊项过于流程化、规则化,从而使预问诊灵活性欠佳的问题。
104、向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。
对于本实施例,在具体的应用场景中,在收集到用户针对问诊项的内容后,进而可基于用户填入内容的问诊项以及识别出的目标症状,生成关于该用户的预问诊信息,以便将预问诊信息呈现给医师。由于各个问诊项均与用户的目标症状相关,故可保证预问诊信息的精确性以及有效性。
通过本实施例中基于知识图谱的数据处理方法,可在接收到用户上传的症状描述信息后,利用符合第一预设训练标准的症状识别模型识别症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状;利用符合第二预设训练标准的主诉分诊模型识别症状描述信息,确定待问诊的目标分诊科室;之后根据医疗知识图谱提取目标症状以及目标分诊科室的关联信息,并基于关联信息确定对应的问诊项;最后向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。在本申请中,依托于健全的医疗知识图谱,能够对口语化症状进行精准识别,从而能够准确捕获到用户的症状输入信息。此外,依据医疗知识图谱还可以准确推荐出用药史、治疗史、相关症状属性供用户确认,避免用户因主动输入造成的可能错误。由于不以诊断疾病为目的,也能避免冗长的用户对话,整体使用体验友好,高效。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于知识图谱的数据处理方法,如图2所示,该方法包括:
201、接收用户上传的症状描述信息。
其中,症状描述信息可对应用户输入的文字信息或对应录入的语音信息,由于在具体的应用场景中,预问诊产品受众主要为无专业医学背景的普通用户,输入以口语化症状为主,故接收到的症状描述信息,往往具有大量的语气助词、形容词等,且症状描述词也无法与医疗知识图谱中的标准症状相匹配。故需要通过执行下述实施例步骤202-206,基于症状描述信息确定目标症状以及目标分诊科室,并基于匹配的问诊项,获取相关联信息,进而生成较为规范且准确的预问诊信息,方便医生进行症状分析。
202、基于BERT的症状识别算法训练症状识别模型,以使症状识别模型符合第一预设训练标准。
其中,BERT是一个用Transformers作为特征抽取器的深度双向预训练语言理解模型。在BERT在预训练过程中,可充分学习丰富的语言学方面的信息。症状识别即命名实体识别,其本质属于序列化标注任务,通过微调模型,能在基线任务中表现优秀,相比于传统命名实体识别的BiLSTM+CRF模型,就是用BERT模型代替了原来的词嵌入部分,利用BERT来进行语义编码,BiLSTM+CRF进行解码,该算法能较好地识别口语化症状。
203、利用TF-IDF算法提取症状描述信息的特征向量,并基于机器学习算法和特征向量训练主诉分诊模型,以使主诉分诊模型符合第二预设训练标准。
对于本实施例,在具体的应用场景中,可利用TF-IDF算法对症状描述信息进行向量化处理,将处理得到的特征向量作为主诉分诊模型的输入特征;主诉分诊模型可对应现有的开源模型,如xgboost模型,在训练时,可将训练数据按训练集、开发集、测试集切分为8:1:1,训练过程中,喂入症状描述信息的特征向量,模型进行特征选择,节点分裂,最终经过softmax层输出。模型主要参数可为:'max_depth':6,'eta':0.5,'num_class':32,即最大树深为6,学习率0.5,输出类别为32,即32个国标一级科室。本分诊方案核心之处在于:1)数据,拥有大量线上问诊的真实数据;2)与传统分诊算法,即症状提取->疾病推理->科室推荐三步才可完成相比,本方案仅用一次模型预测即可,将疾病推理过程简化为文本序列分类,为应用和理念上的创新,带来的实际效果是高效且不牺牲精确性。
204、利用符合第一预设训练标准的症状识别模型识别症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别症状描述信息,确定待问诊的目标分诊科室。
对于本实施例,在具体的应用场景中,当利用症状识别模型确定目标症状时,实施例步骤204具体可以包括:将症状描述信息上传至症状识别模型,获取症状描述信息对应的症状实体;基于实体链接技术确定症状实体对应医疗知识图谱中的标准症状,并将确定出的标准症状定义为目标症状。
例如,用户上传的症状描述信息为:“头很痛怎么办”,在本实施例中,可利用预训练好的症状识别模型对该语句进行字符级别编码,分别形成字向量作为输入。核心模型使用经典的双向LSTM+CRF架构,其中BiLSTM主要对语句进行encode操作,值得一提的是,双向LSTM效果比单向LSTM或GRU更好,由于对语句进行前后遍历,更能捕获语义特征,起到特征提取的作用。然后将其输入CRF层进行解码操作,计算序列中每个字的标签,其中,“头很痛”三个字的标签可分别为B,I,I,其中B为Begin,名词短语的开始;I为Intermediate即名词短语的中间;该句的其他字标签均为O,即Other,非名词短语。因此“头很痛”为名词短语,在此为症状实体。
相应的,当利用主诉分诊模型确定目标分诊科室时,实施例步骤204具体可以包括:将症状描述信息上传至主诉分诊模型,识别症状描述信息对应的目标特征向量;根据主诉分诊模型确定目标特征向量对应各个预设科室的评定分值;将对应评定分值最大的预设科室确定为待问诊的目标分诊科室。
其中,预设科室的数量可根据实际用用需求进行设定,例如根据32个国标一级科室,可设置32个独立的预设科室。
205、根据医疗知识图谱提取目标症状以及目标分诊科室的关联信息,并基于关联信息确定对应的问诊项。
对于本实施例,在具体的应用场景中,实施例步骤205具体可以包括:
1)确定目标症状对应的症状属性,并在医疗知识图谱中筛选出与症状属性匹配的第一关联数据;根据第一关联数据确定第一问诊项。、其中,第一关联数据可为与症状属性匹配的关联症状,进一步可确定第一问诊项为:是否同时存在该关联症状。
对于本实施实例,确定与症状属性匹配的关联症状,是为了使症状信息更为明显,方便医师根据问诊信息能够获得更多的信息,进而能够准确确定出病因,并制备相应的治疗方案。
2)根据医疗知识图谱中药品与疾病的第一对应关系和/或药品与适应症的第二对应关系,确定目标症状对应的第二关联数据;依据第二关联数据确定第二问诊项。
其中,第二关联数据可包括用于缓解目标症状的第一药品以及容易加重目标症状的第二药品。相应的,第二问诊项可为:用药史中是否包含第一药品和/或第二药品。
对于本实施例,在具体的应用场景中,还可根据医疗知识图谱中药品与疾病的第一对应关系和/或药品与适应症的第二对应关系,确定可缓解目标症状的第一药品以及容易加重目标症状的第二药品,并输出对应的第二问诊项,以供用户确认,从而避免用户因遗忘或输错药品使用情况这一关键信息。
3)根据医疗知识图谱中疾病与处理方案间的第三对应关系,确定与目标症状匹配的第三关联数据;根据第三关联数据确定第三问诊项。
其中,第三关联数据可为与目标症状匹配的目标治疗方案,相应的,第三问诊项可为:治疗史中是否包含该目标治疗方案。
对于本实施例,为了使医师能够更加全面的了解用户的病症,并基于治疗史确定更为有效的治疗方案,在本申请中,还可根据医疗知识图谱中疾病与治疗方案间的第三对应关系,确定与目标症状匹配的治疗方案;确定治疗史中是否包含该治疗方案的第第三问诊项,以供用户确认选填。
206、向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。
对于本实施例,在具体的应用场景中,实施例步骤206具体可以包括:输出第一问诊项、第二问诊项、以及第三问诊项,并确定用户填入内容的目标问诊项;基于用户对各个目标问诊项的录入内容,以及目标症状生成关于用户的预问诊信息。
通过上述基于知识图谱的数据处理方法,可在接收到用户上传的症状描述信息后,利用符合第一预设训练标准的症状识别模型识别症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状;利用符合第二预设训练标准的主诉分诊模型识别症状描述信息,确定待问诊的目标分诊科室;之后根据医疗知识图谱提取目标症状以及目标分诊科室的关联信息,并基于关联信息确定对应的问诊项;最后向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。在本申请中,依托于健全的医疗知识图谱,能够对口语化症状进行精准识别,从而能够准确捕获到用户的症状输入信息。此外,依据医疗知识图谱还可以准确推荐出用药史、治疗史、相关症状属性供用户确认,避免用户因主动输入造成的可能错误。由于不以诊断疾病为目的,也能避免冗长的用户对话,整体使用体验友好,高效。
进一步的,作为图1和图2所示方法的具体体现,本申请实施例提供了一种基于知识图谱的数据处理装置,如图3所示,该装置包括:接收模块31、识别模块32、确定模块33、生成模块34。
接收模块31,可用于接收用户上传的症状描述信息;
识别模块32,可用于利用符合第一预设训练标准的症状识别模型识别症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别症状描述信息,确定待问诊的目标分诊科室;
确定模块33,可用于根据医疗知识图谱提取目标症状以及目标分诊科室的关联信息,并基于关联信息确定对应的问诊项;
生成模块34,可用于向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。
在具体的应用场景中,为了训练得到符合第一预设训练标准的症状识别模型以及符合第二预设训练标准的主诉分诊模型,如图4所示,本装置还包括:训练模块35;
训练模块35,可用于基于Bert的症状识别算法训练症状识别模型,以使症状识别模型符合第一预设训练标准;
训练模块35,可用于利用TF-IDF算法提取症状描述信息的特征向量,并基于机器学习算法和特征向量训练主诉分诊模型,以使主诉分诊模型符合第二预设训练标准。
相应的,为了确定得到与医疗知识图谱中标准症状匹配的目标症状,识别模块32,具体可用于将症状描述信息上传至症状识别模型,获取症状描述信息对应的症状实体;基于实体链接技术确定症状实体对应医疗知识图谱中的标准症状,并将确定出的标准症状定义为目标症状;
在具体的应用场景中,为了确定得到待问诊的目标分诊科室,识别模块32,具体可用于将症状描述信息上传至主诉分诊模型,识别症状描述信息对应的目标特征向量;根据主诉分诊模型确定目标特征向量对应各个预设科室的评定分值;将对应评定分值最大的预设科室确定为待问诊的目标分诊科室。
相应的,为了根据提取出的目标症状以及目标分诊科室的关联信息,确定对应的第一问诊项,确定模块33,具体可用于确定目标症状对应的症状属性,并在医疗知识图谱中筛选出与症状属性匹配的第一关联数据;根据第一关联数据确定第一问诊项。
在具体的应用场景中,为了根据提取出的目标症状以及目标分诊科室的关联信息,确定对应的第二问诊项和第三问诊项,确定模块33,具体可用于根据医疗知识图谱中药品与疾病的第一对应关系和/或药品与适应症的第二对应关系,确定目标症状对应第二关联数据;依据第二关联数据确定第二问诊项。
相应的,为了根据提取出的目标症状以及目标分诊科室的关联信息,确定对应的第四问诊项,确定模块33,具体可用于根据医疗知识图谱中疾病与处理方案间的第三对应关系,确定与目标症状匹配的第三关联数据;根据第三关联数据确定第三问诊项。
在具体的应用场景中,为了基于标准症状以及用户对问诊项的选填内容生成预问诊信息,生成模块34,具体可用于输出第一问诊项、第二问诊项、以及第三问诊项,并确定用户填入内容的目标问诊项;基于用户对各个目标问诊项的录入内容,以及目标症状生成关于用户的预问诊信息。
需要说明的是,本实施例提供的一种基于知识图谱的数据处理装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的基于知识图谱的数据处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的基于知识图谱的数据处理方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是基于知识图谱的数据处理实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可在接收到用户上传的症状描述信息后,利用符合第一预设训练标准的症状识别模型识别症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状;利用符合第二预设训练标准的主诉分诊模型识别症状描述信息,确定待问诊的目标分诊科室;之后根据医疗知识图谱提取目标症状以及目标分诊科室的关联信息,并基于关联信息确定对应的问诊项;最后向用户推荐问诊项,以便基于目标症状以及用户对问诊项的选填内容生成预问诊信息。在本申请中,依托于健全的医疗知识图谱,能够对口语化症状进行精准识别,从而能够准确捕获到用户的症状输入信息。此外,依据医疗知识图谱还可以准确推荐出用药史、治疗史、相关症状属性供用户确认,避免用户因主动输入造成的可能错误。由于不以诊断疾病为目的,也能避免冗长的用户对话,整体使用体验友好,高效。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于知识图谱的数据处理方法,其特征在于,包括:
接收用户上传的症状描述信息;
利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定待问诊的目标分诊科室;
根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项;
向所述用户推荐所述问诊项,以便基于所述目标症状以及用户对所述问诊项的选填内容生成预问诊信息。
2.根据权利要求1所述的方法,其特征在于,在利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定目标分诊科室之前,具体包括:
基于Bert的症状识别算法训练症状识别模型,以使所述症状识别模型符合第一预设训练标准;
利用TF-IDF算法提取所述症状描述信息的特征向量,并基于机器学习算法和所述特征向量训练主诉分诊模型,以使所述主诉分诊模型符合第二预设训练标准。
3.根据权利要求2所述的方法,其特征在于,所述利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,具体包括:
将所述症状描述信息上传至所述症状识别模型,获取所述症状描述信息对应的症状实体;
基于实体链接技术确定所述症状实体对应医疗知识图谱中的标准症状,并将确定出的所述标准症状定义为目标症状;
所述利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定待问诊的目标分诊科室,具体包括:
将所述症状描述信息上传至所述主诉分诊模型,识别所述症状描述信息对应的目标特征向量;
根据所述主诉分诊模型确定所述目标特征向量对应各个预设科室的评定分值;
将对应所述评定分值最大的预设科室确定为待问诊的目标分诊科室。
4.根据权利要求3所述的方法,其特征在于,所述根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项,具体包括:
确定所述目标症状对应的症状属性,并在所述医疗知识图谱中筛选出与所述症状属性匹配的第一关联数据;
根据所述第一关联数据确定第一问诊项。
5.根据权利要求4所述的方法,其特征在于,所述根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项,具体包括:
根据所述医疗知识图谱中药品与疾病的第一对应关系和/或药品与适应症的第二对应关系,确定所述目标症状对应的第二关联数据;
依据所述第二关联数据确定第二问诊项。
6.根据权利要求5所述的方法,其特征在于,所述根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项,具体包括:
根据所述医疗知识图谱中疾病与处理方案间的第三对应关系,确定与所述目标症状匹配的第三关联数据;
根据所述第三关联数据确定第三问诊项。
7.根据权利要求6所述的方法,其特征在于,所述向所述用户推荐所述问诊项,以便基于所述标准症状以及用户对所述问诊项的选填内容生成预问诊信息,具体包括:
输出所述第一问诊项、所述第二问诊项、以及所述第三问诊项,并确定用户填入内容的目标问诊项;
基于所述用户对各个所述目标问诊项的录入内容,以及所述目标症状生成关于所述用户的预问诊信息。
8.一种基于知识图谱的数据处理装置,其特征在于,包括:
接收模块,用于接收用户上传的症状描述信息;
识别模块,用于利用符合第一预设训练标准的症状识别模型识别所述症状描述信息,确定与医疗知识图谱中标准症状匹配的目标症状,利用符合第二预设训练标准的主诉分诊模型识别所述症状描述信息,确定待问诊的目标分诊科室;
确定模块,用于根据所述医疗知识图谱提取所述目标症状以及所述目标分诊科室的关联信息,并基于所述关联信息确定对应的问诊项;
生成模块,用于向所述用户推荐所述问诊项,以便基于所述目标症状以及用户对所述问诊项的选填内容生成预问诊信息。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于知识图谱的数据处理方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于知识图谱的数据处理方法。
CN202010927440.7A 2020-09-07 2020-09-07 基于知识图谱的数据处理方法、装置及计算机设备 Pending CN112015917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010927440.7A CN112015917A (zh) 2020-09-07 2020-09-07 基于知识图谱的数据处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010927440.7A CN112015917A (zh) 2020-09-07 2020-09-07 基于知识图谱的数据处理方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN112015917A true CN112015917A (zh) 2020-12-01

Family

ID=73516965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010927440.7A Pending CN112015917A (zh) 2020-09-07 2020-09-07 基于知识图谱的数据处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN112015917A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349435A (zh) * 2020-12-08 2021-02-09 微医云(杭州)控股有限公司 一种在线问诊方法、装置、服务器、介质和系统
CN112700862A (zh) * 2020-12-25 2021-04-23 上海钛米机器人股份有限公司 目标科室的确定方法、装置、电子设备及存储介质
CN112837772A (zh) * 2021-01-28 2021-05-25 安徽科大讯飞医疗信息技术有限公司 一种预问诊病历生成方法及装置
CN113077895A (zh) * 2021-04-27 2021-07-06 上海德衡数据科技有限公司 基于软件定义的智能化hie平台的构建方法及电子设备
CN113223735A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 基于对话表征的分诊方法、装置、设备及存储介质
CN113380358A (zh) * 2021-06-01 2021-09-10 上海德衡数据科技有限公司 基于物联网的医疗信息交互的方法、装置及设备
CN113707285A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 科室分诊方法、系统、设备以及存储介质
CN113722504A (zh) * 2021-08-27 2021-11-30 上海钛米机器人股份有限公司 预问诊信息生成方法及装置
CN113782165A (zh) * 2021-04-02 2021-12-10 北京京东拓先科技有限公司 分诊方法及装置、计算机可存储介质
CN114822830A (zh) * 2022-06-27 2022-07-29 安徽讯飞医疗股份有限公司 问诊交互方法及相关装置、电子设备、存储介质
CN115101192A (zh) * 2022-06-22 2022-09-23 脉景(杭州)健康管理有限公司 基于方剂的症状推荐方法、装置、设备及存储介质
WO2022267678A1 (zh) * 2021-06-23 2022-12-29 康键信息技术(深圳)有限公司 视频问诊方法、装置、设备及存储介质
CN115719640A (zh) * 2022-11-02 2023-02-28 联仁健康医疗大数据科技股份有限公司 中医主次症状识别系统、装置、电子设备及其存储介质
CN117198547A (zh) * 2023-09-01 2023-12-08 湖北中医药大学 中医临床科研知识智能提取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164616A (zh) * 2013-02-02 2013-06-19 杭州卓健信息科技有限公司 一种智能导诊系统和方法
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
CN110675944A (zh) * 2019-09-20 2020-01-10 京东方科技集团股份有限公司 分诊方法及装置、计算机设备及介质
CN111599488A (zh) * 2020-05-19 2020-08-28 万达信息股份有限公司 一种智能问诊实现方法、系统和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164616A (zh) * 2013-02-02 2013-06-19 杭州卓健信息科技有限公司 一种智能导诊系统和方法
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110675944A (zh) * 2019-09-20 2020-01-10 京东方科技集团股份有限公司 分诊方法及装置、计算机设备及介质
CN111599488A (zh) * 2020-05-19 2020-08-28 万达信息股份有限公司 一种智能问诊实现方法、系统和存储介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349435A (zh) * 2020-12-08 2021-02-09 微医云(杭州)控股有限公司 一种在线问诊方法、装置、服务器、介质和系统
CN112700862A (zh) * 2020-12-25 2021-04-23 上海钛米机器人股份有限公司 目标科室的确定方法、装置、电子设备及存储介质
CN112700862B (zh) * 2020-12-25 2024-04-16 上海钛米机器人股份有限公司 目标科室的确定方法、装置、电子设备及存储介质
CN112837772A (zh) * 2021-01-28 2021-05-25 安徽科大讯飞医疗信息技术有限公司 一种预问诊病历生成方法及装置
CN113782165A (zh) * 2021-04-02 2021-12-10 北京京东拓先科技有限公司 分诊方法及装置、计算机可存储介质
CN113077895A (zh) * 2021-04-27 2021-07-06 上海德衡数据科技有限公司 基于软件定义的智能化hie平台的构建方法及电子设备
CN113077895B (zh) * 2021-04-27 2022-10-28 上海德衡数据科技有限公司 基于软件定义的智能化hie平台的构建方法及电子设备
CN113223735A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 基于对话表征的分诊方法、装置、设备及存储介质
CN113380358A (zh) * 2021-06-01 2021-09-10 上海德衡数据科技有限公司 基于物联网的医疗信息交互的方法、装置及设备
WO2022267678A1 (zh) * 2021-06-23 2022-12-29 康键信息技术(深圳)有限公司 视频问诊方法、装置、设备及存储介质
CN113722504A (zh) * 2021-08-27 2021-11-30 上海钛米机器人股份有限公司 预问诊信息生成方法及装置
CN113707285A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 科室分诊方法、系统、设备以及存储介质
CN115101192A (zh) * 2022-06-22 2022-09-23 脉景(杭州)健康管理有限公司 基于方剂的症状推荐方法、装置、设备及存储介质
CN115101192B (zh) * 2022-06-22 2023-09-01 脉景(杭州)健康管理有限公司 基于方剂的症状推荐方法、装置、设备及存储介质
CN114822830A (zh) * 2022-06-27 2022-07-29 安徽讯飞医疗股份有限公司 问诊交互方法及相关装置、电子设备、存储介质
CN115719640A (zh) * 2022-11-02 2023-02-28 联仁健康医疗大数据科技股份有限公司 中医主次症状识别系统、装置、电子设备及其存储介质
CN115719640B (zh) * 2022-11-02 2023-08-08 联仁健康医疗大数据科技股份有限公司 中医主次症状识别系统、装置、电子设备及其存储介质
CN117198547A (zh) * 2023-09-01 2023-12-08 湖北中医药大学 中医临床科研知识智能提取方法及系统
CN117198547B (zh) * 2023-09-01 2024-04-30 湖北中医药大学 中医临床科研知识智能提取方法及系统

Similar Documents

Publication Publication Date Title
CN112015917A (zh) 基于知识图谱的数据处理方法、装置及计算机设备
CN112242187B (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
CN109564589B (zh) 使用手动用户反馈进行实体识别和链接系统和方法
CN111125309A (zh) 自然语言处理方法、装置及计算设备、存储介质
CN111785368A (zh) 基于医疗知识图谱的分诊方法、装置、设备及存储介质
CN108491486B (zh) 模拟病人问诊对话方法、装置、终端设备及存储介质
CN109637674B (zh) 自动获取健康医疗问题答案的方法、系统、介质和设备
US10832012B2 (en) Method executed in translation system and including generation of translated text and generation of parallel translation data
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN111666477A (zh) 一种数据处理方法、装置、智能设备及介质
CN112100406A (zh) 数据处理方法、装置、设备以及介质
CN116860987A (zh) 基于生成式大语言模型的领域知识图谱构建方法和系统
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN111651579A (zh) 信息查询方法、装置、计算机设备和存储介质
CN111339745A (zh) 一种随访报告生成方法、设备、电子设备和存储介质
CN112749277B (zh) 医学数据的处理方法、装置及存储介质
CN113724830A (zh) 基于人工智能的用药风险检测方法及相关设备
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN117149982A (zh) 基于人工智能的问答处理方法、装置、设备及存储介质
CN116860935A (zh) 基于提示词问答交互的内容管理方法、装置、设备及介质
CN115985506A (zh) 一种信息提取方法及装置、存储介质、计算机设备
CN113241198B (zh) 用户数据处理方法、装置、设备及存储介质
CN114238639A (zh) 一种医学术语标准化框架的构建方法、装置、电子设备
CN113889281A (zh) 一种中文医疗智能实体识别方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination