CN113793668A - 基于人工智能的症状标准化方法、装置、电子设备及介质 - Google Patents

基于人工智能的症状标准化方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113793668A
CN113793668A CN202111094999.7A CN202111094999A CN113793668A CN 113793668 A CN113793668 A CN 113793668A CN 202111094999 A CN202111094999 A CN 202111094999A CN 113793668 A CN113793668 A CN 113793668A
Authority
CN
China
Prior art keywords
symptom
symptoms
similarity
candidate
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111094999.7A
Other languages
English (en)
Inventor
金晓辉
阮晓雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111094999.7A priority Critical patent/CN113793668A/zh
Publication of CN113793668A publication Critical patent/CN113793668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于人工智能的症状标准化方法、装置、电子设备及介质,通过使用预设的医学词库对口语化症状进行处理,得到处理后的症状,并获取所述处理后的症状对应的多个候选症状;采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度并采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;接着根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;最后对所述目标症状进行标准化处理得到标准症状。本发明应用于医疗领域,实现了医疗文本的标准化。

Description

基于人工智能的症状标准化方法、装置、电子设备及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的症状标准化方法、装置、电子设备及介质。
背景技术
随着数字医疗技术的兴起,医疗平台可以支持疾病辅助诊断、健康管理、远程会诊等功能,患者若有一些简单的疾病想要咨询或由于时间和空间的限制无法到卫生机构就诊,就可以采用在线问诊的方式进行咨询了解、获取治疗方案以及购药。
发明人在实现本发明的过程中发现,虽然疾病的诊断存在一定的规律性,可以结合患者对自身症状的描述,采用数据挖掘、人工智能的方法基于问诊对话内容进行初步诊断,但是由于患者对自身症状的描述存在口语化且内容多样化的问题,口语化的症状描述无法直接应用于疾病判断。现有技术中可以采用一些简单的规则进行症状的归一化,但无法根据患者变化多样的口语化描述实现症状识别,即无法将患者的口语化的表达映射到统一规范的症状名称上。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的症状标准化方法、装置、电子设备及介质,能够对口语化的症状进行标准化,从而辅助语义识别,提高问诊交互的效率。
本发明的第一方面提供一种基于人工智能的症状标准化方法,所述方法包括:
使用预设的医学词库对口语化症状进行处理,得到处理后的症状;
获取所述处理后的症状对应的多个候选症状;
采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度;
采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;
根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;
对所述目标症状进行标准化处理得到标准症状。
在一个可选的实施方式中,所述使用预设的医学词库对口语化症状进行处理,得到处理后的症状包括:
对所述口语化症状进行分词处理,得到多个分词;
根据预设同义词库中的词对所述多个分词进行同义词替换,得到多个替换词;
使用预设停用词库中的词对所述多个替换词进行停用词去除,得到多个关键词;
根据所述多个关键词得到处理后的症状。
在一个可选的实施方式中,所述获取所述处理后的症状对应的多个候选症状包括:
使用肢体部位词库的词定位所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状;或者
使用命名实体识别模型识别所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状。
在一个可选的实施方式中,所述采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度包括:
采用所述第一模型提取所述处理后的症状的第一词频信息;
采用所述第一模型提取每个所述候选症状的第二词频信息;
计算所述第一词频信息与所述第二词频信息之间的编辑距离;
将所述编辑距离确定为所述处理后的症状与对应的所述候选症状的第一相似度。
在一个可选的实施方式中,所述采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度包括:
采用所述第二模型提取所述处理后的症状的第一语句向量;
采用所述第二模型提取每个所述候选症状的第二语句向量;
根据所述第一语句向量和所述第二语句向量之间的余弦角;
将所述余弦角确定为所述处理后的症状与对应的所述候选症状的第二相似度。
在一个可选的实施方式中,所述根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状包括:
根据所述第一相似度和对应的所述第二相似度计算得到综合相似度;
将多个所述综合相似度中的最大综合相似度确定为目标综合相似度;
确定所述目标综合相似度对应的候选症状为目标症状。
在一个可选的实施方式中,所述对所述目标症状进行标准化处理得到标准症状包括:
采用否定词库识别所述目标症状中的否定词;
计算所述否定词的数量;
根据所述数量对所述目标症状进行取反处理;
对进行取反处理后的目标症状中的数值进行分类处理,得到数值类别;
根据所述数值类别对应的标签及进行取反处理后的目标症状得到标准症状。
本发明的第二方面提供一种基于人工智能的症状标准化装置,所述装置包括:
处理模块,用于使用预设的医学词库对口语化症状进行处理,得到处理后的症状;
获取模块,用于获取所述处理后的症状对应的多个候选症状;
第一计算模块,用于采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度;
第二计算模块,用于采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;
筛选模块,用于根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;
标准化模块,用于对所述目标症状进行标准化处理得到标准症状。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述基于人工智能的症状标准化方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的症状标准化方法。
综上所述,本发明所述的基于人工智能的症状标准化方法、装置、电子设备及介质,通过使用预设的医学词库对口语化症状进行处理,得到处理后的症状,并获取所述处理后的症状对应的多个候选症状;采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度并采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;接着根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;最后对所述目标症状进行标准化处理得到标准症状。本发明应用于医疗领域,实现了医疗文本的标准化。即将口语化症状转变为标准化或者规范化的医学标准症状。采用本发明,无需患者和医生改变语言习惯,具有广泛的应用前景。
附图说明
图1是本发明实施例一提供的基于人工智能的症状标准化方法的流程图。
图2是本发明实施例二提供的基于人工智能的症状标准化装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的基于人工智能的症状标准化方法由电子设备执行,相应地,基于人工智能的症状标准化装置运行于电子设备中。
本发明实施例可以基于人工智能技术对症状进行标准化处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
实施例一
图1是本发明实施例一提供的基于人工智能的症状标准化方法的流程图。所述基于人工智能的症状标准化方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,使用预设的医学词库对口语化症状进行处理,得到处理后的症状。
电子设备中预先安装有与用户交互的交互平台,所述交互平台可以是医疗平台。用户在与电子设备交互的过程中,将预想的症状信息输入并提供至电子设备,电子设备针对用户输入的口语化症状进行相应处理,然而不同的用户根据自身不同的理解与习惯,电子设备为对信息的统一管理需将不同用户输入的口语化症状进行标准化处理或者归一化处理。
口语化症状归一化是指将口语化的表达映射到统一规范的症状名称上。如:患者对自己的症状描述为“干活喘”、“走路气紧”、“走路喘不过气”等均映射到标准症状“动则喘甚”。又如,患者对自己的症状描述为“小腹烧灼发热”、“小腹两侧比较烧”、“小肚子耻骨一带火辣辣的痛”等均映射到标准症状“小腹灼热”。
在一种可能的实施方式中,电子设备还可以在使用预设的医学词库对口语化症状进行处理之前,对口语化症状中的字符进行纠错处理。纠错处理的过程为现有技术,本发明在此不再详细阐述。通过对口语化症状进行纠错处理,得到正确的症状描述,有助于提高对症状的标注化处理的质量。
在一个可能的实施方式中,所述使用预设的医学词库对口语化症状进行处理,得到处理后的症状包括:
对所述口语化症状进行分词处理,得到多个分词;
根据预设同义词库中的词对所述多个分词进行同义词替换,得到多个替换词;
使用预设停用词库中的词对所述多个替换词进行停用词去除,得到多个关键词;
根据所述多个关键词得到处理后的症状。
电子设备接收用户输入的口语化症状并将该口语化症状映射至预先存储的一个或多个医学词库中,通过一个或多个医学词库对口语化症状进行处理,得到处理后的症状,并基于处理后的症状进行标注化,得到标注症状。医学词库可以包括:同义词库、停用词库等。其中,同义词库中存储有多个词及每个词对应的同义词之间的映射关系,停用词库中存储有多个无意义的停用词,例如,了,的,啊。
电子设备可以采用结巴分词工具对口语化症状进行分词处理,得到多个分词,分词可以为一个字,两个字,三个及以上的字组成的词。接着,电子设备将每个分词与同义词库中的每个词进行匹配,查询与每个分词对应的同义词,将分词替换为对应的同义词,例如将分词“小肚子”替换为同义词“小腹”。然后,电子设备再使用停用词库去除口语化症状中不表达任何含义的词汇,如“的”,“了”等。最后,电子设备将去除了停用词的多个同义词按照顺序进行排序,得到新的症状,即处理后的症状。
在其他实施方式中,电子设备在采用结巴分词工具对口语化症状进行分词处理,得到多个分词后,也可以先使用停用词库去除口语化症状中不表达任何含义的词汇,再使用同义词库对去除停用词的多个分词进行映射,得到多个同义词。
S12,获取所述处理后的症状对应的多个候选症状。
标准症状包括部位、类别及类别对应的症状,例如,部位包括头颅等,头颅包括:头痛类别,痿证类别,眩晕类别等。头痛对应的症状包括:头部胀痛,头痛隐隐等。
其中,多个候选症状为人工标注了的症状描述。一个处理后的症状可以对应多个候选症状,不同的候选症状虽然可能描述的都是同一个部位,但表达的类别却是相差较大的。
在一个可能的实施方式中,所述获取所述处理后的症状对应的多个候选症状包括:
使用肢体部位词库的词定位所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状;或者
使用命名实体识别模型识别所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状。
电子设备中可以预先存储肢体部位词库,用于存储表述人身体的多个职位部位的词。将处理后的症状的多个关键词分别与肢体部位词库进行匹配,从而定位出处理后的症状描述的是哪一个肢体部位的症状,进而匹配出该肢体部位相关的多个症状,作为处理后的症状的候选症状。示例性的,假设处理后的症状为:小腹有点疼痛,则通过肢体部位词库定位出肢体部位为:小腹,并获取与小腹对应的多个候选症状:小腹不适、小腹痛。
电子设备也可以预先训练实体识别模型,用于识别医疗文本中的实体,将识别的实体作为处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状。实体识别模型的训练过程为现有技术,不再阐述。
S13,采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度。
其中,第一模型为预先采用人工标注的症状训练得到的机器学习模型,通过第一模型对处理后的症状进行处理,并对每个候选症状进行处理,最后计算处理后的症状与每个所述候选症状的第一相似度。
在一个可能的实施方式中,所述采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度包括:
采用所述第一模型提取所述处理后的症状的第一词频信息;
采用所述第一模型提取每个所述候选症状的第二词频信息;
计算所述第一词频信息与所述第二词频信息之间的编辑距离;
将所述编辑距离确定为所述处理后的症状与对应的所述候选症状的第一相似度。
该可选的实施方式中,第一模型可以为词频提取模型。将处理后的症状输入到词频提取模型中,通过词频提取模型输出第一词频信息;将候选症状输入到词频提取模型中,通过词频提取模型输出第二词频信息,再计算第一词频信息与第二词频信息之间的编辑距离,从而得到处理后的症状与候选症状的第一相似度。
编辑距离是描述由一个字符串转化成另一个字符串最少的操作次数,操作包括插入、删除、替换。
示例性的,将词频信息“eeba”转变成词频信息“abac”,需要经过如下操作:
删除词频信息eeba中的第一个e,得到词频信息eba;
替换词频信息eba中的e为a,得到词频信息aba;
在词频信息aba的末尾插入c,得到词频信息abac。
由此可见,将词频信息eeba转换为词频信息abac需经过三步操作(删除、替换、插入),则词频信息eeba与词频信息abac之间的编辑距离为3。
编辑距离越小,表明处理后的症状与候选症状之间越相似,处理后的症状与候选症状之间的第一相似度越大。编辑距离越大,表明处理后的症状与候选症状之间越不相似,处理后的症状与候选症状之间的第一相似度越小。
该可选的实施方式,通过计算处理后的症状与候选症状之间的编辑距离,由于编辑距离基于文本自身的结构进行计算,因而计算得到的第一相似度能够准确的表达处理后的症状与候选症状在结构上的差异。
S14,采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度。
其中,第二模型为预先采用人工标注的症状训练得到的机器学习模型,通过第二模型对处理后的症状进行处理,并对每个候选症状进行处理,最后计算处理后的症状与每个所述候选症状的第二相似度。
在一个可能的实施方式中,所述采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度包括:
采用所述第二模型提取所述处理后的症状的第一语句向量;
采用所述第二模型提取每个所述候选症状的第二语句向量;
根据所述第一语句向量和所述第二语句向量之间的余弦角;
将所述余弦角确定为所述处理后的症状与对应的所述候选症状的第二相似度。
该可选的实施方式中,第二模型可以为BERT模型。将处理后的症状输入到BERT模型中,通过BERT模型输出第一语句向量;将候选症状输入到BERT模型中,通过BERT模型输出第二语句向量,再计算第一语句向量与第二语句向量之间的余弦角,从而得到处理后的症状与候选症状的第二相似度。
BERT模型主要使用谷歌开源的中文预训练模型,模型训练预测的过程中同时使用了词频信息与词序信息,训练过程采用人工标注的5.1万条症状归一化数据进行微调。
该可选的实施方式,通过BERT模型提取处理后的症状的第一语句向量及提取候选症状的第二语句向量,并基于第一语句向量和第二语句向量计算处理后的症状与候选症状之间的第二相似度,由于BERT模型能够准确的提取出文本的语义信息,因而计算得到的第二相似度能够准确的表达处理后的症状与候选症状在语义上的差异。
S15,根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状。
第一相似度表达的是处理后的症状与候选症状在结构上的差异,第二相似度表达的是处理后的症状与候选症状在语义上的差异,因而结合第一相似度和第二相似度能够更加准确的从多个候选症状中确定出与处理后的症状表达最为一致的目标症状。
在一个可能的实施方式中,所述根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状包括:
根据所述第一相似度和对应的所述第二相似度计算得到综合相似度;
将多个所述综合相似度中的最大综合相似度确定为目标综合相似度;
确定所述目标综合相似度对应的候选症状为目标症状。
该可选的实施方式中,电子设备可以将第一相似度按照从大到小进行排序,并获取排序在前K1个的第一相似度,作为第一目标相似度,同时将第二相似度按照从大到小进行排序,并获取排序在前K2个的第二相似度,作为第二目标相似度;然后,计算每个第一目标相似度与每个第一目标相似度的和,得到综合相似度。其中,K1和K2均为大于零且小于候选症状的总量的整数。
电子设备还可以预先为第一目标相似度设置第一权重,为第二目标相似度设置第二权重,根据第一目标相似度及第一权重、第二目标相似度及第二权重进行加权求和,得到综合相似度。
根据综合相似度确定的目标症状,不仅在结构上与处理后的症状相似,而且在语义上与处理后的症状相似,即目标症状与处理后的症状具有最高的相似度。
S16,对所述目标症状进行标准化处理得到标准症状。
虽然确定的目标症状为标准的且与口语化症状具有最一致的表达的症状,但目标症状中可能存在一个或多个否定词,导致后续对目标症状的语义理解会存在错误的现象,因而需要对目标症状进行标准化处理,得到标准症状。
在一个可能的实施方式中,所述对所述目标症状进行标准化处理得到标准症状包括:
采用否定词库识别所述目标症状中的否定词;
计算所述否定词的数量;
根据所述数量对所述目标症状进行取反处理;
对进行取反处理后的目标症状中的数值进行分类处理,得到数值类别;
根据所述数值类别对应的标签及进行取反处理后的目标症状得到标准症状。
其中,否定词库中包括“无”、“没有”、“不”等具有否定意义的词。
若目标症状中出现一个否定词,如“睡觉不踏实”,与“睡觉踏实”在词频和词序上都容易被识别成同一个意思,但实际上这是两个完全不同的症状表述,则表明确定的目标症状是有误的,不正确的,需要将目标症状对应的第二相似度进行取反处理,得到新的第二相似度,再基于第一相似度和新的第二相似度,从多个候选症状中重新筛选出目标症状。
若目标症状中出现两个否定词,如“睡觉没有不踏实”,与“睡觉踏实”在词频和词序上都容易被识别成不同的意思,但实际上这是两个完全一致的症状表述,则去掉目标症状中的两个双重否定。
此外,目标症状中还会出现数值类(包括数字和频次等)的字符,如“发热”、“低热”、“高热”都是对于发烧类的症状的描述,主要区别在于温度上的不同,则采用预先设置的规则对数值进行分类处理,得到数值类别。示例性的,假设目标症状中出现37.3-38摄氏度,则得到数值类别为低热,假设目标症状中出现39摄氏度,则得到数值类别为高热,其余发烧类别则为发热。
该可选的实施方式,通过识别目标症状中的否定词,并根据否定词的数量对目标症状进行取反处理,能够避免筛选出错误的目标症状,使得目标症状的确定更加准确,且对于正确的目标症状中包含有双重否定时,对目标症状进行取反,起到了精简目标症状的作用,有助于后续的语义识别;通过对目标症状中的数值进行分类处理,得到数值类别,并根据数值类别对应的标签及进行取反处理后的目标症状得到标准症状,能够更进一步对口语化症状的边界的区分,提高标准化处理的精准度。
口语化症状表述在经过标准化后更具有结构性,便于下游任务调取使用,如标准化后的症状能够辅助进行疾病预测、体质判定等工作。若不采用标准化,由于医疗场景下的症状词一般都较为晦涩,用户难以准确使用症状名词。
在一个可能的实施方式中,为了获得更好的效果,还可以接收用户对口语化症状的标准化处理得到的标准症状的反馈信息,例如,用户判断口语化症状标准化的结果明显错误或不符合用户预想,用户可以发送反馈信息。在工作人员进行人工审定口语化症状的标准化后症状错误的情况下,判断所述口语化症状的标准化后症状异常。在设定的所述口语化症状的标准化后症状异常的情况下,接收管理员上传的人工标注的标准化症状词。
本发明所述的基于人工智能的症状标准化方法,通过使用预设的医学词库对口语化症状进行处理,得到处理后的症状,并获取所述处理后的症状对应的多个候选症状;采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度并采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;接着根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;最后对所述目标症状进行标准化处理得到标准症状。本发明应用于医疗领域,实现了医疗文本的标准化。即将口语化症状转变为标准化或者规范化的医学标准症状。采用本发明,无需患者和医生改变语言习惯,具有广泛的应用前景。
实施例二
图2是本发明实施例二提供的基于人工智能的症状标准化装置的结构图。
在一些实施例中,所述基于人工智能的症状标准化装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的症状标准化装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的症状标准化的功能。
本实施例中,所述基于人工智能的症状标准化装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:处理模块201、获取模块202、第一计算模块203、第二计算模块204、筛选模块205及标准化模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述处理模块201,用于使用预设的医学词库对口语化症状进行处理,得到处理后的症状。
电子设备中预先安装有与用户交互的交互平台,所述交互平台可以是医疗平台。用户在与电子设备交互的过程中,将预想的症状信息输入并提供至电子设备,电子设备针对用户输入的口语化症状进行相应处理,然而不同的用户根据自身不同的理解与习惯,电子设备为对信息的统一管理需将不同用户输入的口语化症状进行标准化处理或者归一化处理。
口语化症状归一化是指将口语化的表达映射到统一规范的症状名称上。如:患者对自己的症状描述为“干活喘”、“走路气紧”、“走路喘不过气”等均映射到标准症状“动则喘甚”。又如,患者对自己的症状描述为“小腹烧灼发热”、“小腹两侧比较烧”、“小肚子耻骨一带火辣辣的痛”等均映射到标准症状“小腹灼热”。
在一种可能的实施方式中,电子设备还可以在使用预设的医学词库对口语化症状进行处理之前,对口语化症状中的字符进行纠错处理。纠错处理的过程为现有技术,本发明在此不再详细阐述。通过对口语化症状进行纠错处理,得到正确的症状描述,有助于提高对症状的标注化处理的质量。
在一个可能的实施方式中,所述处理模块201使用预设的医学词库对口语化症状进行处理,得到处理后的症状包括:
对所述口语化症状进行分词处理,得到多个分词;
根据预设同义词库中的词对所述多个分词进行同义词替换,得到多个替换词;
使用预设停用词库中的词对所述多个替换词进行停用词去除,得到多个关键词;
根据所述多个关键词得到处理后的症状。
电子设备接收用户输入的口语化症状并将该口语化症状映射至预先存储的一个或多个医学词库中,通过一个或多个医学词库对口语化症状进行处理,得到处理后的症状,并基于处理后的症状进行标注化,得到标注症状。医学词库可以包括:同义词库、停用词库等。其中,同义词库中存储有多个词及每个词对应的同义词之间的映射关系,停用词库中存储有多个无意义的停用词,例如,了,的,啊。
电子设备可以采用结巴分词工具对口语化症状进行分词处理,得到多个分词,分词可以为一个字,两个字,三个及以上的字组成的词。接着,电子设备将每个分词与同义词库中的每个词进行匹配,查询与每个分词对应的同义词,将分词替换为对应的同义词,例如将分词“小肚子”替换为同义词“小腹”。然后,电子设备再使用停用词库去除口语化症状中不表达任何含义的词汇,如“的”,“了”等。最后,电子设备将去除了停用词的多个同义词按照顺序进行排序,得到新的症状,即处理后的症状。
在其他实施方式中,电子设备在采用结巴分词工具对口语化症状进行分词处理,得到多个分词后,也可以先使用停用词库去除口语化症状中不表达任何含义的词汇,再使用同义词库对去除停用词的多个分词进行映射,得到多个同义词。
所述获取模块202,用于获取所述处理后的症状对应的多个候选症状。
标准症状包括部位、类别及类别对应的症状,例如,部位包括头颅等,头颅包括:头痛类别,痿证类别,眩晕类别等。头痛对应的症状包括:头部胀痛,头痛隐隐等。
其中,多个候选症状为人工标注了的症状描述。一个处理后的症状可以对应多个候选症状,不同的候选症状虽然可能描述的都是同一个部位,但表达的类别却是相差较大的。
在一个可能的实施方式中,所述获取模块202获取所述处理后的症状对应的多个候选症状包括:
使用肢体部位词库的词定位所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状;或者
使用命名实体识别模型识别所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状。
电子设备中可以预先存储肢体部位词库,用于存储表述人身体的多个职位部位的词。将处理后的症状的多个关键词分别与肢体部位词库进行匹配,从而定位出处理后的症状描述的是哪一个肢体部位的症状,进而匹配出该肢体部位相关的多个症状,作为处理后的症状的候选症状。示例性的,假设处理后的症状为:小腹有点疼痛,则通过肢体部位词库定位出肢体部位为:小腹,并获取与小腹对应的多个候选症状:小腹不适、小腹痛。
电子设备也可以预先训练实体识别模型,用于识别医疗文本中的实体,将识别的实体作为处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状。实体识别模型的训练过程为现有技术,不再阐述。
所述第一计算模块203,用于采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度。
其中,第一模型为预先采用人工标注的症状训练得到的机器学习模型,通过第一模型对处理后的症状进行处理,并对每个候选症状进行处理,最后计算处理后的症状与每个所述候选症状的第一相似度。
在一个可能的实施方式中,所述第一计算模块203采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度包括:
采用所述第一模型提取所述处理后的症状的第一词频信息;
采用所述第一模型提取每个所述候选症状的第二词频信息;
计算所述第一词频信息与所述第二词频信息之间的编辑距离;
将所述编辑距离确定为所述处理后的症状与对应的所述候选症状的第一相似度。
该可选的实施方式中,第一模型可以为词频提取模型。将处理后的症状输入到词频提取模型中,通过词频提取模型输出第一词频信息;将候选症状输入到词频提取模型中,通过词频提取模型输出第二词频信息,再计算第一词频信息与第二词频信息之间的编辑距离,从而得到处理后的症状与候选症状的第一相似度。
编辑距离是描述由一个字符串转化成另一个字符串最少的操作次数,操作包括插入、删除、替换。
示例性的,将词频信息“eeba”转变成词频信息“abac”,需要经过如下操作:
删除词频信息eeba中的第一个e,得到词频信息eba;
替换词频信息eba中的e为a,得到词频信息aba;
在词频信息aba的末尾插入c,得到词频信息abac。
由此可见,将词频信息eeba转换为词频信息abac需经过三步操作(删除、替换、插入),则词频信息eeba与词频信息abac之间的编辑距离为3。
编辑距离越小,表明处理后的症状与候选症状之间越相似,处理后的症状与候选症状之间的第一相似度越大。编辑距离越大,表明处理后的症状与候选症状之间越不相似,处理后的症状与候选症状之间的第一相似度越小。
该可选的实施方式,通过计算处理后的症状与候选症状之间的编辑距离,由于编辑距离基于文本自身的结构进行计算,因而计算得到的第一相似度能够准确的表达处理后的症状与候选症状在结构上的差异。
所述第二计算模块204,用于采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度。
其中,第二模型为预先采用人工标注的症状训练得到的机器学习模型,通过第二模型对处理后的症状进行处理,并对每个候选症状进行处理,最后计算处理后的症状与每个所述候选症状的第二相似度。
在一个可能的实施方式中,所述第二计算模块204采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度包括:
采用所述第二模型提取所述处理后的症状的第一语句向量;
采用所述第二模型提取每个所述候选症状的第二语句向量;
根据所述第一语句向量和所述第二语句向量之间的余弦角;
将所述余弦角确定为所述处理后的症状与对应的所述候选症状的第二相似度。
该可选的实施方式中,第二模型可以为BERT模型。将处理后的症状输入到BERT模型中,通过BERT模型输出第一语句向量;将候选症状输入到BERT模型中,通过BERT模型输出第二语句向量,再计算第一语句向量与第二语句向量之间的余弦角,从而得到处理后的症状与候选症状的第二相似度。
BERT模型主要使用谷歌开源的中文预训练模型,模型训练预测的过程中同时使用了词频信息与词序信息,训练过程采用人工标注的5.1万条症状归一化数据进行微调。
该可选的实施方式,通过BERT模型提取处理后的症状的第一语句向量及提取候选症状的第二语句向量,并基于第一语句向量和第二语句向量计算处理后的症状与候选症状之间的第二相似度,由于BERT模型能够准确的提取出文本的语义信息,因而计算得到的第二相似度能够准确的表达处理后的症状与候选症状在语义上的差异。
所述筛选模块205,用于根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状。
第一相似度表达的是处理后的症状与候选症状在结构上的差异,第二相似度表达的是处理后的症状与候选症状在语义上的差异,因而结合第一相似度和第二相似度能够更加准确的从多个候选症状中确定出与处理后的症状表达最为一致的目标症状。
在一个可能的实施方式中,所述筛选模块205根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状包括:
根据所述第一相似度和对应的所述第二相似度计算得到综合相似度;
将多个所述综合相似度中的最大综合相似度确定为目标综合相似度;
确定所述目标综合相似度对应的候选症状为目标症状。
该可选的实施方式中,电子设备可以将第一相似度按照从大到小进行排序,并获取排序在前K1个的第一相似度,作为第一目标相似度,同时将第二相似度按照从大到小进行排序,并获取排序在前K2个的第二相似度,作为第二目标相似度;然后,计算每个第一目标相似度与每个第一目标相似度的和,得到综合相似度。其中,K1和K2均为大于零且小于候选症状的总量的整数。
电子设备还可以预先为第一目标相似度设置第一权重,为第二目标相似度设置第二权重,根据第一目标相似度及第一权重、第二目标相似度及第二权重进行加权求和,得到综合相似度。
根据综合相似度确定的目标症状,不仅在结构上与处理后的症状相似,而且在语义上与处理后的症状相似,即目标症状与处理后的症状具有最高的相似度。
所述标准化模块206,对所述目标症状进行标准化处理得到标准症状。
虽然确定的目标症状为标准的且与口语化症状具有最一致的表达的症状,但目标症状中可能存在一个或多个否定词,导致后续对目标症状的语义理解会存在错误的现象,因而需要对目标症状进行标准化处理,得到标准症状。
在一个可能的实施方式中,所述标准化模块206对所述目标症状进行标准化处理得到标准症状包括:
采用否定词库识别所述目标症状中的否定词;
计算所述否定词的数量;
根据所述数量对所述目标症状进行取反处理;
对进行取反处理后的目标症状中的数值进行分类处理,得到数值类别;
根据所述数值类别对应的标签及进行取反处理后的目标症状得到标准症状。
其中,否定词库中包括“无”、“没有”、“不”等具有否定意义的词。
若目标症状中出现一个否定词,如“睡觉不踏实”,与“睡觉踏实”在词频和词序上都容易被识别成同一个意思,但实际上这是两个完全不同的症状表述,则表明确定的目标症状是有误的,不正确的,需要将目标症状对应的第二相似度进行取反处理,得到新的第二相似度,再基于第一相似度和新的第二相似度,从多个候选症状中重新筛选出目标症状。
若目标症状中出现两个否定词,如“睡觉没有不踏实”,与“睡觉踏实”在词频和词序上都容易被识别成不同的意思,但实际上这是两个完全一致的症状表述,则去掉目标症状中的两个双重否定。
此外,目标症状中还会出现数值类(包括数字和频次等)的字符,如“发热”、“低热”、“高热”都是对于发烧类的症状的描述,主要区别在于温度上的不同,则采用预先设置的规则对数值进行分类处理,得到数值类别。示例性的,假设目标症状中出现37.3-38摄氏度,则得到数值类别为低热,假设目标症状中出现39摄氏度,则得到数值类别为高热,其余发烧类别则为发热。
该可选的实施方式,通过识别目标症状中的否定词,并根据否定词的数量对目标症状进行取反处理,能够避免筛选出错误的目标症状,使得目标症状的确定更加准确,且对于正确的目标症状中包含有双重否定时,对目标症状进行取反,起到了精简目标症状的作用,有助于后续的语义识别;通过对目标症状中的数值进行分类处理,得到数值类别,并根据数值类别对应的标签及进行取反处理后的目标症状得到标准症状,能够更进一步对口语化症状的边界的区分,提高标准化处理的精准度。
口语化症状表述在经过标准化后更具有结构性,便于下游任务调取使用,如标准化后的症状能够辅助进行疾病预测、体质判定等工作。若不采用标准化,由于医疗场景下的症状词一般都较为晦涩,用户难以准确使用症状名词。
在一个可能的实施方式中,为了获得更好的效果,还可以接收用户对口语化症状的标准化处理得到的标准症状的反馈信息,例如,用户判断口语化症状标准化的结果明显错误或不符合用户预想,用户可以发送反馈信息。在工作人员进行人工审定口语化症状的标准化后症状错误的情况下,判断所述口语化症状的标准化后症状异常。在设定的所述口语化症状的标准化后症状异常的情况下,接收管理员上传的人工标注的标准化症状词。
本发明所述的基于人工智能的症状标准化装置,通过使用预设的医学词库对口语化症状进行处理,得到处理后的症状,并获取所述处理后的症状对应的多个候选症状;采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度并采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;接着根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;最后对所述目标症状进行标准化处理得到标准症状。本发明应用于医疗领域,实现了医疗文本的标准化。即将口语化症状转变为标准化或者规范化的医学标准症状。采用本发明,无需患者和医生改变语言习惯,具有广泛的应用前景。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于人工智能的症状标准化方法实施例中的步骤,例如图1所示的S11-S16:
S11,使用预设的医学词库对口语化症状进行处理,得到处理后的症状;
S12,获取所述处理后的症状对应的多个候选症状;
S13,采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度;
S14,采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;
S15,根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;
S16,对所述目标症状进行标准化处理得到标准症状。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-206:
所述处理模块201,用于使用预设的医学词库对口语化症状进行处理,得到处理后的症状;
所述获取模块202,用于获取所述处理后的症状对应的多个候选症状;
所述第一计算模块203,用于采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度;
所述第二计算模块204,用于采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;
所述筛选模块205,用于根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;
所述标准化模块206,用于对所述目标症状进行标准化处理得到标准症状。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的症状标准化方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的症状标准化方法的全部或者部分步骤;或者实现基于人工智能的症状标准化装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于人工智能的症状标准化方法,其特征在于,所述方法包括:
使用预设的医学词库对口语化症状进行处理,得到处理后的症状;
获取所述处理后的症状对应的多个候选症状;
采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度;
采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;
根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;
对所述目标症状进行标准化处理得到标准症状。
2.如权利要求1所述的基于人工智能的症状标准化方法,其特征在于,所述使用预设的医学词库对口语化症状进行处理,得到处理后的症状包括:
对所述口语化症状进行分词处理,得到多个分词;
根据预设同义词库中的词对所述多个分词进行同义词替换,得到多个替换词;
使用预设停用词库中的词对所述多个替换词进行停用词去除,得到多个关键词;
根据所述多个关键词得到处理后的症状。
3.如权利要求1所述的基于人工智能的症状标准化方法,其特征在于,所述获取所述处理后的症状对应的多个候选症状包括:
使用肢体部位词库的词定位所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状;或者
使用命名实体识别模型识别所述处理后的症状的肢体部位,并获取所述肢体部位对应的多个候选症状。
4.如权利要求1所述的基于人工智能的症状标准化方法,其特征在于,所述采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度包括:
采用所述第一模型提取所述处理后的症状的第一词频信息;
采用所述第一模型提取每个所述候选症状的第二词频信息;
计算所述第一词频信息与所述第二词频信息之间的编辑距离;
将所述编辑距离确定为所述处理后的症状与对应的所述候选症状的第一相似度。
5.如权利要求1所述的基于人工智能的症状标准化方法,其特征在于,所述采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度包括:
采用所述第二模型提取所述处理后的症状的第一语句向量;
采用所述第二模型提取每个所述候选症状的第二语句向量;
根据所述第一语句向量和所述第二语句向量之间的余弦角;
将所述余弦角确定为所述处理后的症状与对应的所述候选症状的第二相似度。
6.如权利要求5所述的基于人工智能的症状标准化方法,其特征在于,所述根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状包括:
根据所述第一相似度和对应的所述第二相似度计算得到综合相似度;
将多个所述综合相似度中的最大综合相似度确定为目标综合相似度;
确定所述目标综合相似度对应的候选症状为目标症状。
7.如权利要求1至6中任意一项所述的基于人工智能的症状标准化方法,其特征在于,所述对所述目标症状进行标准化处理得到标准症状包括:
采用否定词库识别所述目标症状中的否定词;
计算所述否定词的数量;
根据所述数量对所述目标症状进行取反处理;
对进行取反处理后的目标症状中的数值进行分类处理,得到数值类别;
根据所述数值类别对应的标签及进行取反处理后的目标症状得到标准症状。
8.一种基于人工智能的症状标准化装置,其特征在于,所述装置包括:
处理模块,用于使用预设的医学词库对口语化症状进行处理,得到处理后的症状;
获取模块,用于获取所述处理后的症状对应的多个候选症状;
第一计算模块,用于采用预先训练的第一模型计算所述处理后的症状与每个所述候选症状的第一相似度;
第二计算模块,用于采用预先训练的第二模型计算所述处理后的症状与每个所述候选症状的第二相似度;
筛选模块,用于根据所述第一相似度和所述第二相似度从所述多个候选症状中筛选出目标症状;
标准化模块,用于对所述目标症状进行标准化处理得到标准症状。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于人工智能的症状标准化方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于人工智能的症状标准化方法。
CN202111094999.7A 2021-09-17 2021-09-17 基于人工智能的症状标准化方法、装置、电子设备及介质 Pending CN113793668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111094999.7A CN113793668A (zh) 2021-09-17 2021-09-17 基于人工智能的症状标准化方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111094999.7A CN113793668A (zh) 2021-09-17 2021-09-17 基于人工智能的症状标准化方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN113793668A true CN113793668A (zh) 2021-12-14

Family

ID=78878884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111094999.7A Pending CN113793668A (zh) 2021-09-17 2021-09-17 基于人工智能的症状标准化方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113793668A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN109543179A (zh) * 2018-11-05 2019-03-29 北京康夫子科技有限公司 口语化症状归一化的方法及系统
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN110032728A (zh) * 2019-02-01 2019-07-19 阿里巴巴集团控股有限公司 疾病名称标准化的转换方法和装置
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111540461A (zh) * 2020-04-22 2020-08-14 山东凯鑫宏业生物科技有限公司 一种具有问题理解的智能医疗系统及其诊断方法
CN111785367A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 基于神经网络模型的分诊方法、装置和计算机设备
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN112347257A (zh) * 2020-11-11 2021-02-09 北京嘉和海森健康科技有限公司 一种患者症状口语化标准化方法和装置
US20210081502A1 (en) * 2019-09-13 2021-03-18 International Business Machines Corporation Normalization of medical terms with multi-lingual resources
CN112541056A (zh) * 2020-12-18 2021-03-23 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN109543179A (zh) * 2018-11-05 2019-03-29 北京康夫子科技有限公司 口语化症状归一化的方法及系统
CN110032728A (zh) * 2019-02-01 2019-07-19 阿里巴巴集团控股有限公司 疾病名称标准化的转换方法和装置
US20210081502A1 (en) * 2019-09-13 2021-03-18 International Business Machines Corporation Normalization of medical terms with multi-lingual resources
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111540461A (zh) * 2020-04-22 2020-08-14 山东凯鑫宏业生物科技有限公司 一种具有问题理解的智能医疗系统及其诊断方法
CN111785367A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 基于神经网络模型的分诊方法、装置和计算机设备
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN112347257A (zh) * 2020-11-11 2021-02-09 北京嘉和海森健康科技有限公司 一种患者症状口语化标准化方法和装置
CN112541056A (zh) * 2020-12-18 2021-03-23 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩红旗: "《语义指纹著者姓名消歧理论及应用》", 31 July 2018, 科学技术文献出版社, pages: 114 - 116 *

Similar Documents

Publication Publication Date Title
CN106874643B (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN109741806B (zh) 一种医学影像诊断报告辅助生成方法及其装置
Ball et al. TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research
CN109215754A (zh) 病历数据处理方法、装置、计算机设备和存储介质
CN112614578B (zh) 医生智能推荐方法、装置、电子设备及存储介质
CN112149409B (zh) 医疗词云生成方法、装置、计算机设备及存储介质
CN111048167A (zh) 一种层级式病例结构化方法及系统
CN113782125B (zh) 基于人工智能的诊所评分方法、装置、电子设备及介质
CN112634889B (zh) 基于人工智能的电子病例录入方法、装置、终端及介质
CN112885478A (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN113870974A (zh) 基于人工智能的风险预测方法、装置、电子设备及介质
CN115858886B (zh) 数据处理方法、装置、设备及可读存储介质
CN109299467A (zh) 医学文本识别方法及装置、语句识别模型训练方法及装置
Hsu et al. Multi-label classification of ICD coding using deep learning
CN116578704A (zh) 文本情感分类方法、装置、设备及计算机可读介质
CN113724830B (zh) 基于人工智能的用药风险检测方法及相关设备
CN107766400A (zh) 文本检索方法及系统
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
CN114020892A (zh) 基于人工智能的答案选取方法、装置、电子设备及介质
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
Comelli et al. An ontology-based retrieval system for mammographic reports
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
CN116860935A (zh) 基于提示词问答交互的内容管理方法、装置、设备及介质
CN106354715A (zh) 医疗词汇处理方法及装置
CN115658858A (zh) 基于人工智能的对话推荐方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination