CN112579750A - 相似病案的检索方法、装置、设备及存储介质 - Google Patents

相似病案的检索方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112579750A
CN112579750A CN202011380189.3A CN202011380189A CN112579750A CN 112579750 A CN112579750 A CN 112579750A CN 202011380189 A CN202011380189 A CN 202011380189A CN 112579750 A CN112579750 A CN 112579750A
Authority
CN
China
Prior art keywords
target
search
retrieval
candidate
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011380189.3A
Other languages
English (en)
Inventor
崔力娟
林荣逸
王丛
张楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Health Beijing Technology Co ltd
Original Assignee
Baidu Health Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Health Beijing Technology Co ltd filed Critical Baidu Health Beijing Technology Co ltd
Priority to CN202011380189.3A priority Critical patent/CN112579750A/zh
Publication of CN112579750A publication Critical patent/CN112579750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Abstract

本申请提出了一种相似病案的检索方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理和智能搜索技术领域,具体实现方案为:接收检索词;对检索词进行要素识别,以得到对应的要素和要素属性;对检索词进行意图识别,以得到检索意图;根据检索词、要素,以及检索意图进行检索,以得到候选检索内容;根据要素属性和所述检索意图,从候选检索内容中识别出目标题干和目标选项;以及根据目标题干和目标选项,进行检索得到目标相似病案。根据本申请能够提高相似病案检索效率和匹配准确度。

Description

相似病案的检索方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及自然语言处理和智能搜索技术领域。具体地,本申请提出一种相似病案的检索方法、装置、设备及存储介质。
背景技术
随着互联网行业的发展,智能搜索服务和自然语言处理被广泛用于医疗领域。自然语言处理包括自然语言理解和自然语言生成,是计算机科学领域与人工智能领域中的重要研究方向。在搜索场景下,用户根据医疗相关的关键词进行检索以得到相关的医疗内容,例如通过病症检索得到治疗或预防方法。
目前,用户根据医疗相关的关键词进行病案检索时,由于存在海量的医学数据,得到的检索结果往往不符合用户需求,导致难以准确获取需要的检索结果,病案检索效率低。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出了一种相似病案的检索方法、装置、设备及存储介质。
本申请第一方面实施例提出了一种相似病案的检索方法,包括:
接收检索词;
对所述检索词进行要素识别,以得到对应的要素和要素属性;
对所述检索词进行意图识别,以得到检索意图;
根据所述检索词、所述要素,以及所述检索意图进行检索,以得到候选检索内容;
根据所述要素属性和所述检索意图,从所述候选检索内容中识别出目标题干和目标选项;以及
根据所述目标题干和所述目标选项,进行检索得到目标相似病案。
本申请第二方面实施例提出了一种相似病案的检索装置,包括:
接收模块,用于接收检索词;
要素识别模块,用于对所述检索词进行要素识别,以得到对应的要素和要素属性;
意图识别模块,用于对所述检索词进行意图识别,以得到检索意图;
第一检索模块,用于根据所述检索词、所述要素,以及所述检索意图进行检索,以得到候选检索内容;
确定模块,用于根据所述要素属性和所述检索意图,从所述候选检索内容中识别出目标题干和目标选项;以及
第二检索模块,用于根据所述目标题干和所述目标选项,进行检索得到目标相似病案。
本申请第三方面实施例提出了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面实施例所述的相似病案的检索方法。
本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面实施例所述的相似病案的检索方法。
上述申请中的一个实施例具有如下优点或有益效果:由于采用了接收检索词,对检索词进行要素识别以得到对应的要素和要素属性,以及对检索词进行意图识别以得到检索意图。进而,根据检索词、要素、以及检索意图进行检索,以得到候选检索内容,根据要素属性和检索意图,从候选检索内容中识别出目标题干和目标选项,以及根据目标题干和目标选项,进行检索得到目标相似病案,能够提高相似病案检索效率,以及提高匹配准确度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种相似病案的检索方法的流程示意图;
图2为本申请实施例所提供的另一种相似病案的检索方法的流程示意图;
图3为本申请实施例所提供的另一种相似病案的检索方法的流程示意图;
图4为本申请实施例所提供的另一种相似病案的检索方法的流程示意图;
图5为本申请实施例所提供的一种相似病案的检索装置的结构示意图;
图6为本申请实施例所提供的另一种相似病案的检索装置的结构示意图;
图7示出了适于用来实现本申请实施例的示例性电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1为本申请实施例所提供的一种相似病案的检索方法的流程示意图,如图1所示,该方法包括:
步骤101,接收检索词。
本申请实施例的方法,可以应用于医疗问诊类的检索场景。本实施例中,为了实现相似病案的检索,可以接收检索词,以根据检索词得到相似病案。
其中,检索词可以是用户输入的,用户输入检索词的方式包括但不限于语音输入、输入法上屏等方式,用户可通过输入检索词进行医疗问诊,例如接收的检索词为“肚子有点疼”。
步骤102,对检索词进行要素识别,以得到对应的要素和要素属性。
本实施例中,要素属性可以是检索词中包含的内容,例如要素属性可以是肚子疼、肺癌手术等,要素用于指示要素属性的类别,例如要素可以包括手术、疾病、部位、症状、属性程度等。通过对检索词进行要素识别以获取检索词涉及的要素和与要素对应的要素属性,举例而言,对于检索词“肚子有点疼”,得到的要素-要素属性例如:症状-肚子疼,属性程度-有点。
其中,对检索词进行要素识别的实现方式可以有多种。
作为一种示例,预先训练神经网络模型,神经网络模型的输入为文本,输出为与文本对应的要素和要素属性。
作为另一种示例,通过规则匹配的方式对文本进行识别,以得到与文本对应的要素和要素属性。
步骤103,对检索词进行意图识别,以得到检索意图。
本实施例中,检索意图用于表示用户的检索需求,在接收检索词后,根据检索词进行意图识别得到与该检索词对应的检索意图,例如检索意图可包括问药、问价格、问相似病案等意图。
作为一种可能的实现方式,通过意图分类器对检索词进行意图识别,以得到检索意图。其中,收集历史搜索词,并对历史搜索词标注意图,将历史搜索词和标注的意图作为训练集,根据训练集训练意图分类器,意图分类器输入为检索词,输出为意图类别,意图分类器可通过神经网络实现。进而,当用户在线输入检索词时,通过预训练的意图分类器对检索词进行意图识别,以获取检索词对应的检索意图。
需要说明的是,上述获取检索意图的实现方式仅为一种示例,可根据需要通过基于词典模板的规则分类、基于日志匹配、基于分类模型等方式进行意图识别,此处不作具体限制。
步骤104,根据检索词、要素,以及检索意图进行检索,以得到候选检索内容。
本实施例中,根据检索词、要素、检索意图在海量数据中进行检索,以得到候选检索内容,候选检索内容包括但不限于文章、对话内容等,例如检索词为“肚子有点疼”,候选检索内容可包括对于肚子疼这一症状的问诊对话记录。
作为一种示例,基于倒排文本检索方式,根据检索词、要素、检索意图获取候选检索内容。
作为另一种示例,基于语义泛化的ANN(Approximate Nearest Neighbor,接近最近邻搜索)的检索方式,根据检索词、要素、检索意图获取候选检索内容。
由此,基于上述方式从海量数据中,获取和用户检索词相关的文章或者对话内容。
在本申请的一个实施例中,可以收集历史病案信息,历史病案信息包括但不限于问诊及问答数据,对历史病案信息进行离线处理以得到结构化数据,其中,结构化数据例如包括:初诊主诉、现病史(包括疾病、症状、体征等的阴阳性、持续时间等属性)、检验检查、既往病史以及家族史等。本实施例中,通过离线处理得到历史病案信息的结构化数据,在在线过程中,通过检索词、要素、检索意图在海量数据中进行检索,进而匹配得到检索结果中的结构化数据,将检索结果中的结构化数据作为候选检索内容。
步骤105,根据要素属性和检索意图,从候选检索内容中识别出目标题干和目标选项。
本实施例中,预先设置候选意图集合,候选意图集合之中包括预设的候选意图,候选意图的数量可以是一个或多个。如果检索意图与候选意图集合之中的候选意图相匹配,则触发根据要素属性从候选检索内容中识别出目标题干和目标选项。
举例而言,候选意图集合中包括检索相似病案意图,当识别到的检索意图为检索相似病案时,触发根据要素属性从候选检索内容中识别出目标题干和目标选项,否则,不触发上述根据要素属性从候选检索内容中识别出目标题干和目标选项的操作。
其中,目标题干可以用于描述一些症状产生的原因和场景,可包括与要素和要素属性对应的发生情况类型,目标选项描述与要素属性相关联的病例细分类型。目标题干的数量可以是一个或多个,每一目标题干可对应一个或多个目标选项。
举例而言,要素-要素属性为症状-头疼,根据预定义的集合确定对应的题干包括风寒头痛、糖尿病头痛、感冒头痛等,对于糖尿病头痛这一题干,选项为一级糖尿病、二级糖尿病。
步骤106,根据目标题干和目标选项,进行检索得到目标相似病案。
本实施例中,在确定目标题干和目标选项后,将目标题干和目标选项提供给用户,以供用户筛选。当用户选择其中的题干和选项后,根据用户选择的题干和选项对候选检索内容进行二次检索,以得到与检索词对应的目标相似病案。
本申请实施例的相似病案的检索方法,通过接收检索词,对检索词进行要素识别以得到对应的要素和要素属性,以及对检索词进行意图识别以得到检索意图。进而,根据检索词、要素、以及检索意图进行检索,以得到候选检索内容,根据要素属性和所述检索意图,从候选检索内容中识别出目标题干和目标选项,以及根据目标题干和目标选项,进行检索得到目标相似病案。根据本申请能够提高相似病案检索效率,针对用户的病案检索需求为用户提供引导,能够在海量数据中准确匹配到相似病案。
需要说明的是,前述对相似病案检索的说明是示例性的,本申请实施例的方法也可以用于其他档案类文件的检索。
基于上述实施例,本申请实施例的方法在对检索词进行要素识别时,可以实现对连续要素类型和非连续要素类型的识别。图2为本申请实施例所提供的另一种相似病案的检索方法的流程示意图,该方法中,上述步骤102包括:
步骤201,对检索词进行语义识别,并根据语义识别结果确定与检索词对应的要素分类。
其中,要素分类包括连续要素类型和非连续要素类型。连续要素类型的检索词例如“肺癌手术”,非连续要素类型的检索词例如“肚子疼,还肿”。
本实施例中,可通过相关自然语言处理技术对检索词进行语义识别,其中,输入可为检索词的每一字符、以及每一字符对应的位置特征,输出为语义识别结果。进而,根据语义识别结果确定检索词对应于连续要素类型还是非连续要素类型,并在确定要素分类后,采用与要素分类对应的识别方法,获取要素和要素属性,具体如下述步骤202、203,。
步骤202,当与检索词对应的要素分类是连续要素类型时,则将语义识别结果输入至预训练的第一人工智能模型之中,以得到第一人工智能模型输出的要素和要素属性。
本实施例中,获取第一训练样本数据,第一训练样本数据例如包括连续要素类型的样本文本、对应标注的要素和要素属性,根据第一训练样本数据预先训练第一人工智能模型。
其中,预训练的第一人工智能模型可以是基于神经网络实现的实体识别模型,实现方式包括但不限于:顺序连接的双向LSTM(Long Short-Term Memory,长短期记忆网络模型)和柔性最大值传输函数softmax逻辑回归模型,biGRU(Gate Recurrent Unit,门控循环单元)和柔性最大值传输函数softmax模型,预训练模型和柔性最大值传输函数softmax模型,预训练模型和CRF(Conditional Random Fields,条件随机场)模型,CRF模型。由此,能够解决词语嵌套的问题,例如对于肺癌手术,解析为手术-肺癌手术,疾病-肺癌,部位-肺。
步骤203,当与检索词对应的要素分类是非连续要素类型时,则采用规则匹配的方式识别得到要素和要素属性。
本实施例中,采用规则匹配的方式获取与非连续要素类型的检索词对应的要素和要素属性,例如,对于检索词“肚子疼,还肿”,得到的要素-要素属性为:症状-肚子疼,症状-肚子肿。
本实施例中,能够识别检索词的要素分类,根据要素分类选择神经网络模型或规则匹配的方式,实现了对连续要素类型和非连续要素类型的检索词的要素-要素属性识别,保证要素和要素属性识别的准确性,进一步提高相似病案检索的准确性。
在实际应用中,不同用户具有不同的表达习惯,用户输入的检索词具有口语化的特点以及表述差异较大,因此需要进行归一化处理。
在本申请的一个实施例中,在对检索词进行要素识别,得到对应的要素和要素属性之后,还包括:对对应的要素和要素属性进行实体归一化处理,以得到标准要素和标准要素属性;根据检索词、标准要素、以及检索意图检索得到候选检索内容;根据标准要素属性,从候选检索内容中识别出目标题干和目标选项。
其中,进行实体归一化处理的方式有多种。可选地,基于词典匹配的方式实现实体归一化处理,例如将肚子归一化为腹部。可选地,基于规则的方式实现实体归一化处理,例如“肚子有点疼”对应的要素-要素属性为“症状-肚子疼,属性程度-有点”,通过规则「去掉属性程度词」后进行「词典匹配」,得到“腹痛”。可选地,通过语义泛化的方式进行同义词的归一化,通过建立标准数据库,解析词槽成分和概念库计算相关性,得到与要素和要素属性最相似的标准要素和标准要素属性。可选地,对于时间、数值等通过正则表达式,转换为标准化格式。由此,通过要素和要素属性的归一化处理,进一步提高后续检索和识别出目标题干和目标选项的准确性。
下面对确定目标题干和目标选项进行说明。
图3为本申请实施例所提供的另一种相似病案的检索方法的流程示意图,如图3所示,该方法中,上述步骤105可包括:
步骤301,从候选检索内容之中识别出与要素属性匹配的属性内容。
本实施例中,候选检索内容可包括属性内容和非属性内容,属性内容例如包括伴随症状、时长、年龄、人群、疑似疾病等。
可选地,预先建立属性集合,属性集合中包括属性内容,根据预先建立的属性集合确定候选检索内容之中的属性内容,例如从候选检索内容中确定与伴随症状、年龄、人群等相关的内容,从而从中识别出与要素属性匹配的属性内容。作为一种示例,候选检索内容之中包括多个结构化数据片段,属性内容例如可以为与要素属性匹配的若干个结构化数据片段。
步骤302,对属性内容进行特征识别,以得到对应的属性特征。
本实施例中,对属性内容进行特征识别的实现方式包括但不限于基于候选内容属性的提取、基于搜索日志属性的提取、基于人工先验经验等方式,可以根据实际应用需要选择相应的方式提取属性特征。
步骤303,将属性内容和属性特征输入至预训练的第二人工智能模型,得到第二人工智能模型输出的至少一种目标题干。
本实施例中,预先训练第二人工智能模型,第二人工智能模型输入包括属性内容和属性特征,输出为至少一种目标题干。其中,输出的至少一种目标题干可以是顺序排列的,当输出的目标题干数量大于预设数量时,选择排序的前N个目标题干,可选地,第二人工智能模型可以根据第二训练样本数据训练得到,第二训练样本数据包括样本内容、样本特征和标注的至少一种题干。其中,第二人工智能模型包括但不限于神经网络模型、机器学习模型、规则,此处不作具体限制。
作为一种示例,检索词的要素属性为“头疼”,从候选检索内容之中识别出与该要素属性匹配的属性内容,例如头疼的伴随症状、疑似疾病等,进而根据属性内容和属性特征输入至第二人工智能模型,输出的目标题干包括风寒头痛、糖尿病头痛、感冒头痛等。
步骤304,对目标题干进行语义解析,以得到与目标题干对应的目标病例信息。
本实施例中,各目标题干分别对应目标病例信息,例如风寒头痛对应风寒头痛的病例信息,通过语义解析得到与目标题干对应的目标病例信息。
步骤305,确定与目标病例信息对应的选项,并将对应的选项作为目标选项。
其中,目标选项描述与要素属性相关联的病例细分类型。可选地,可以根据目标病例信息召回相关的选项。可选地,预先建立目标病例信息与选项的对应关系,根据对应关系确定与目标病例信息对应的选项并作为目标选项。
在本申请的一个实施例中,确定目标病例信息对应的选项,包括:确定与目标病例信息对应的多种候选选项;根据属性内容,确定每种候选选项与标准选项之间的共现概率,共现概率是候选选项与标准选项同时存在于属性内容当中的概率;根据共现概率,从多种候选选项之中选取出对应的选项。本实施例中,预先设置目标病例信息和多种候选选项的对应关系,标准选项可以根据实体确定,根据共现概率由高到低对多种候选选项进行排序,能够提供更相关的目标选项,进一步提高相似病案检索效率。
可选地,还可以通过提取以下特征,根据以下特征通过规则或机器学习的方式得到排序的选项,特征包括:候选内容选项出现的频次,相似检索词中选项出现的频次,输入信息中提示共现信息,知识图谱中实体间的关系,候选内容中实体与选项的共现次数。
可选地,对于得到的选项可能存在重复或者包含的关系的情况,通过实体的关系词典,对各选项进行归一和向上归一操作,实现对选项进行去重和打散。
本实施例中,通过从候选检索内容之中识别出与要素属性匹配的属性内容,根据属性内容和属性特征确定对应的至少一种目标题干,以及确定与目标病例信息对应的目标选项,通过目标选项描述与要素属性相关联的病例细分类型,由此,通过根据目标题干和目标选项进行二次检索,能够准确检索到相似病案,提高相似病案检索效率和匹配准确度。
下面结合离线和在线处理过程进行说明。
参照图4,其中,离线过程包括:
1)获取历史病案信息,历史病案信息包括问答及问诊数据,根据与训练的解析器提取历史病案信息对应的要素和要素属性。
2)对要素和要素属性进行实体归一化处理。
3)根据实体归一化处理后的内容生成结构化数据。
在线过程包括:
1)接收用户输入的检索词,根据检索词和上述解析器提取对应的主诉的要素和要素属性。
2)对要素和要素属性进行实体归一化处理。
3)对检索词进行意图识别,得到检索意图。
4)根据检索词、要素、检索意图对海量数据进行检索,得到候选检索内容。
5)生成题干;6)生成选项;7)根据题干和选项进行二次检索,以得到相似病案信息。
根据本申请实施例的方法,能够提高相似病案检索效率,以及提高匹配准确度,保证病案检索效果。
为了实现上述实施例,本申请还提出一种相似病案的检索装置。
图5为本申请实施例所提供的一种相似病案的检索装置的结构示意图,如图5所示,该装置包括:接收模块51,要素识别模块52,意图识别模块53,第一检索模块54,确定模块55,第二检索模块56。
其中,接收模块51,用于接收检索词。
要素识别模块52,用于对所述检索词进行要素识别,以得到对应的要素和要素属性。
意图识别模块53,用于对所述检索词进行意图识别,以得到检索意图。
第一检索模块54,用于根据所述检索词、所述要素,以及所述检索意图进行检索,以得到候选检索内容。
确定模块55,用于根据所述要素属性和所述检索意图,从所述候选检索内容中识别出目标题干和目标选项。
第二检索模块56,用于根据所述目标题干和所述目标选项,进行检索得到目标相似病案。
在本申请的一个实施例中,要素识别模块52包括:确定单元,用于对所述检索词进行语义识别,并根据语义识别结果确定与所述检索词对应的要素分类;获取单元,用于采用与所述要素分类对应的识别方法,获取所述要素和要素属性。
在本申请的一个实施例中,要素分类包括:连续要素类型,其中,获取单元具体用于:当与所述检索词对应的要素分类是所述连续要素类型时,则将所述语义识别结果输入至预训练的第一人工智能模型之中,以得到所述第一人工智能模型输出的所述要素和要素属性。
在本申请的一个实施例中,要素分类包括:非连续要素类型,其中,获取单元具体用于:当与所述检索词对应的要素分类是所述非连续要素类型时,则采用规则匹配的方式识别得到所述要素和要素属性。
图6为本申请实施例所提供的另一种相似病案的检索装置的结构示意图,图6所示的相似病案的检索装置包括:接收模块61,要素识别模块62,意图识别模块63,第一检索模块64,确定模块65,第二检索模块66,归一化模块67。
其中,归一化模块67,用于对所述对应的要素和要素属性进行实体归一化处理,以得到标准要素和标准要素属性。
第一检索模块64具体用于,根据所述检索词、所述标准要素,以及所述检索意图检索得到候选检索内容。
确定模块65具体用于,根据所述标准要素属性,从所述候选检索内容中识别出目标题干和目标选项。
在本申请的一个实施例中,确定模块65具体用于:如果所述检索意图与候选意图集合之中的候选意图相匹配,则触发根据所述要素属性从所述候选检索内容中识别出目标题干和目标选项。
在本申请的一个实施例中,确定模块65包括:题干确定单元,用于从所述候选检索内容之中识别出与所述要素属性匹配的属性内容;对所述属性内容进行特征识别,以得到对应的属性特征;以及将所述属性内容和所述属性特征输入至预训练的第二人工智能模型,得到所述第二人工智能模型输出的至少一种所述目标题干。
在本申请的一个实施例中,确定模块65还包括:选项确定单元,用于对所述目标题干进行语义解析,以得到与所述目标题干对应的目标病例信息;确定与所述目标病例信息对应的选项,并将所述对应的选项作为所述目标选项。
在本申请的一个实施例中,选项确定单元具体用于:确定与所述目标病例信息对应的多种候选选项;根据所述属性内容,确定每种所述候选选项与标准选项之间的共现概率,所述共现概率,是所述候选选项与所述标准选项同时存在于所述属性内容当中的概率;以及根据所述共现概率,从所述多种候选选项之中选取出所述对应的选项。
在本申请的一个实施例中,目标选项描述与所述要素属性相关联的病例细分类型。
在本申请的一个实施例中,预训练的第一人工智能模型是顺序连接的双向LSTM和柔性最大值传输函数softmax逻辑回归模型。
可以理解的是,本实施例中的接收模块61,要素识别模块62,意图识别模块63,第一检索模块64,确定模块65,第二检索模块66,与上述实施例中的接收模块51,要素识别模块52,意图识别模块53,第一检索模块54,确定模块55,第二检索模块56,可以具有相同的功能和结构。
前述实施例对相似病案的检索方法的解释说明同样适用于本实施例的相似病案的检索装置,此处不再赘述。
本申请实施例的相似病案的检索装置,通过接收检索词,对检索词进行要素识别以得到对应的要素和要素属性,以及对检索词进行意图识别以得到检索意图。进而,根据检索词、要素、以及检索意图进行检索,以得到候选检索内容,根据要素属性和所述检索意图,从候选检索内容中识别出目标题干和目标选项,以及根据目标题干和目标选项,进行检索得到目标相似病案。根据本申请能够提高相似病案检索效率和匹配准确度。
为了实现上述实施例,本申请还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的相似病案的检索方法。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是根据本申请实施例的相似病案的检索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的相似病案的检索方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的相似病案的检索方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的相似病案的检索方法对应的程序指令/模块(例如,附图5所示的接收模块51,要素识别模块52,意图识别模块53,第一检索模块54,确定模块55,第二检索模块56)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的相似病案的检索方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
相似病案的检索方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivateServer,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (22)

1.一种相似病案的检索方法,包括:
接收检索词;
对所述检索词进行要素识别,以得到对应的要素和要素属性;
对所述检索词进行意图识别,以得到检索意图;
根据所述检索词、所述要素,以及所述检索意图进行检索,以得到候选检索内容;
根据所述要素属性和所述检索意图,从所述候选检索内容中识别出目标题干和目标选项;以及
根据所述目标题干和所述目标选项,进行检索得到目标相似病案。
2.根据权利要求1所述的方法,其中,所述对所述检索词进行要素识别,以得到对应的要素和要素属性,包括:
对所述检索词进行语义识别,并根据语义识别结果确定与所述检索词对应的要素分类;
采用与所述要素分类对应的识别方法,获取所述要素和要素属性。
3.根据权利要求2所述的方法,所述要素分类包括:连续要素类型,其中,所述采用与所述要素分类对应的识别方法,获取所述要素和要素属性,包括:
当与所述检索词对应的要素分类是所述连续要素类型时,则将所述语义识别结果输入至预训练的第一人工智能模型之中,以得到所述第一人工智能模型输出的所述要素和要素属性。
4.根据权利要求2所述的方法,所述要素分类包括:非连续要素类型,其中,所述采用与所述要素分类对应的识别方法,获取所述要素和要素属性,包括:
当与所述检索词对应的要素分类是所述非连续要素类型时,则采用规则匹配的方式识别得到所述要素和要素属性。
5.根据权利要求1所述的方法,在所述对所述检索词进行要素识别,得到对应的要素和要素属性之后,还包括:
对所述对应的要素和要素属性进行实体归一化处理,以得到标准要素和标准要素属性;
其中,所述根据所述检索词、所述要素,以及所述检索意图进行检索,以得到候选检索内容,包括:
根据所述检索词、所述标准要素,以及所述检索意图检索得到候选检索内容;
则所述根据所述要素属性和所述检索意图,从所述候选检索内容中识别出目标题干和目标选项,包括:
根据所述标准要素属性,从所述候选检索内容中识别出目标题干和目标选项。
6.根据权利要求1所述的方法,其中,所述根据所述要素属性和所述检索意图,从所述候选检索内容中识别出目标题干和目标选项,包括:
响应于所述检索意图与候选意图集合之中的候选意图相匹配,触发根据所述要素属性从所述候选检索内容中识别出目标题干和目标选项。
7.根据权利要求6所述的方法,其中,根据所述要素属性从所述候选检索内容中识别出所述目标题干,包括:
从所述候选检索内容之中识别出与所述要素属性匹配的属性内容;
对所述属性内容进行特征识别,以得到对应的属性特征;以及
将所述属性内容和所述属性特征输入至预训练的第二人工智能模型,得到所述第二人工智能模型输出的至少一种所述目标题干。
8.根据权利要求7所述的方法,其中,根据所述要素属性从所述候选检索内容中识别出所述目标选项,包括:
对所述目标题干进行语义解析,以得到与所述目标题干对应的目标病例信息;
确定与所述目标病例信息对应的选项,并将所述对应的选项作为所述目标选项。
9.根据权利要求8所述的方法,其中,所述确定与所述目标病例信息对应的选项,包括:
确定与所述目标病例信息对应的多种候选选项;
根据所述属性内容,确定每种所述候选选项与标准选项之间的共现概率,所述共现概率,是所述候选选项与所述标准选项同时存在于所述属性内容当中的概率;以及
根据所述共现概率,从所述多种候选选项之中选取出所述对应的选项。
10.根据权利要求8所述的方法,所述目标选项描述与所述要素属性相关联的病例细分类型。
11.一种相似病案的检索装置,包括:
接收模块,用于接收检索词;
要素识别模块,用于对所述检索词进行要素识别,以得到对应的要素和要素属性;
意图识别模块,用于对所述检索词进行意图识别,以得到检索意图;
第一检索模块,用于根据所述检索词、所述要素,以及所述检索意图进行检索,以得到候选检索内容;
确定模块,用于根据所述要素属性和所述检索意图,从所述候选检索内容中识别出目标题干和目标选项;以及
第二检索模块,用于根据所述目标题干和所述目标选项,进行检索得到目标相似病案。
12.如权利要求11所述的装置,其中,所述要素识别模块包括:
确定单元,用于对所述检索词进行语义识别,并根据语义识别结果确定与所述检索词对应的要素分类;
获取单元,用于采用与所述要素分类对应的识别方法,获取所述要素和要素属性。
13.如权利要求12所述的装置,所述要素分类包括:连续要素类型,其中,所述获取单元具体用于:
当与所述检索词对应的要素分类是所述连续要素类型时,则将所述语义识别结果输入至预训练的第一人工智能模型之中,以得到所述第一人工智能模型输出的所述要素和要素属性。
14.如权利要求12所述的装置,所述要素分类包括:非连续要素类型,其中,所述获取单元具体用于:
当与所述检索词对应的要素分类是所述非连续要素类型时,则采用规则匹配的方式识别得到所述要素和要素属性。
15.如权利要求11所述的装置,还包括:
归一化模块,用于对所述对应的要素和要素属性进行实体归一化处理,以得到标准要素和标准要素属性;
所述第一检索模块具体用于,根据所述检索词、所述标准要素,以及所述检索意图检索得到候选检索内容;
所述确定模块具体用于,根据所述标准要素属性,从所述候选检索内容中识别出目标题干和目标选项。
16.如权利要求11所述的装置,其中,所述确定模块具体用于:
响应于所述检索意图与候选意图集合之中的候选意图相匹配,触发根据所述要素属性从所述候选检索内容中识别出目标题干和目标选项。
17.如权利要求16所述的装置,其中,所述确定模块包括:
题干确定单元,用于从所述候选检索内容之中识别出与所述要素属性匹配的属性内容;
对所述属性内容进行特征识别,以得到对应的属性特征;以及
将所述属性内容和所述属性特征输入至预训练的第二人工智能模型,得到所述第二人工智能模型输出的至少一种所述目标题干。
18.如权利要求17所述的装置,其中,所述确定模块还包括:
选项确定单元,用于对所述目标题干进行语义解析,以得到与所述目标题干对应的目标病例信息;
确定与所述目标病例信息对应的选项,并将所述对应的选项作为所述目标选项。
19.如权利要求18所述的装置,其中,选项确定单元具体用于:
确定与所述目标病例信息对应的多种候选选项;
根据所述属性内容,确定每种所述候选选项与标准选项之间的共现概率,所述共现概率,是所述候选选项与所述标准选项同时存在于所述属性内容当中的概率;以及
根据所述共现概率,从所述多种候选选项之中选取出所述对应的选项。
20.根据权利要求18所述的装置,所述目标选项描述与所述要素属性相关联的病例细分类型。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的相似病案的检索方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的相似病案的检索方法。
CN202011380189.3A 2020-11-30 2020-11-30 相似病案的检索方法、装置、设备及存储介质 Pending CN112579750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011380189.3A CN112579750A (zh) 2020-11-30 2020-11-30 相似病案的检索方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011380189.3A CN112579750A (zh) 2020-11-30 2020-11-30 相似病案的检索方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112579750A true CN112579750A (zh) 2021-03-30

Family

ID=75127871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011380189.3A Pending CN112579750A (zh) 2020-11-30 2020-11-30 相似病案的检索方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112579750A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312521A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 内容检索方法、装置、电子设备和介质
CN113326438A (zh) * 2021-06-28 2021-08-31 北京百度网讯科技有限公司 信息查询方法、装置、电子设备以及存储介质
CN115719066A (zh) * 2022-11-18 2023-02-28 北京百度网讯科技有限公司 基于人工智能的搜索文本理解方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364234A (zh) * 2019-06-26 2019-10-22 浙江大学 电子病历智能存储分析检索系统及方法
CN110516047A (zh) * 2019-09-02 2019-11-29 湖南工业大学 基于包装领域的知识图谱的检索方法及检索系统
CN110517785A (zh) * 2019-08-28 2019-11-29 北京百度网讯科技有限公司 相似病例的查找方法、装置及设备
CN111368048A (zh) * 2020-02-26 2020-07-03 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN111428737A (zh) * 2020-04-01 2020-07-17 南方科技大学 眼科影像的实例检索方法、装置、服务器及存储介质
CN111460095A (zh) * 2020-03-17 2020-07-28 北京百度网讯科技有限公司 问答处理方法、装置、电子设备及存储介质
CN111506596A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 信息检索方法、装置、计算机设备和存储介质
CN111949759A (zh) * 2019-05-16 2020-11-17 北大医疗信息技术有限公司 病历文本相似度的检索方法、系统及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949759A (zh) * 2019-05-16 2020-11-17 北大医疗信息技术有限公司 病历文本相似度的检索方法、系统及计算机设备
CN110364234A (zh) * 2019-06-26 2019-10-22 浙江大学 电子病历智能存储分析检索系统及方法
CN110517785A (zh) * 2019-08-28 2019-11-29 北京百度网讯科技有限公司 相似病例的查找方法、装置及设备
CN110516047A (zh) * 2019-09-02 2019-11-29 湖南工业大学 基于包装领域的知识图谱的检索方法及检索系统
CN111368048A (zh) * 2020-02-26 2020-07-03 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN111460095A (zh) * 2020-03-17 2020-07-28 北京百度网讯科技有限公司 问答处理方法、装置、电子设备及存储介质
CN111428737A (zh) * 2020-04-01 2020-07-17 南方科技大学 眼科影像的实例检索方法、装置、服务器及存储介质
CN111506596A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 信息检索方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵洋;李万龙;白杰英;: "基于本体的电子病历检索系统研究", 计算机技术与发展, no. 03, pages 211 - 213 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312521A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 内容检索方法、装置、电子设备和介质
CN113312521B (zh) * 2021-06-15 2023-08-01 北京百度网讯科技有限公司 内容检索方法、装置、电子设备和介质
CN113326438A (zh) * 2021-06-28 2021-08-31 北京百度网讯科技有限公司 信息查询方法、装置、电子设备以及存储介质
CN115719066A (zh) * 2022-11-18 2023-02-28 北京百度网讯科技有限公司 基于人工智能的搜索文本理解方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN111967262A (zh) 实体标签的确定方法和装置
CN112579750A (zh) 相似病案的检索方法、装置、设备及存储介质
CN112256860A (zh) 客服对话内容的语义检索方法、系统、设备及存储介质
US11361002B2 (en) Method and apparatus for recognizing entity word, and storage medium
CN113345577B (zh) 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质
CN111274365A (zh) 基于语义理解的智能问诊方法、装置、存储介质及服务器
US20210183526A1 (en) Unsupervised taxonomy extraction from medical clinical trials
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN112530576A (zh) 一种线上医患匹配方法、装置、电子设备及存储介质
WO2022095892A1 (zh) 推送信息的生成方法、装置
CN112507091A (zh) 检索信息的方法、装置、设备以及存储介质
CN111326251A (zh) 一种问诊问题输出方法、装置以及电子设备
CN111539209A (zh) 用于实体分类的方法和装置
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN113722507B (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
CN110991183A (zh) 问题的谓词确定方法、装置、设备及存储介质
Bitto et al. Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN111523019B (zh) 用于输出信息的方法、装置、设备以及存储介质
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN112052402B (zh) 信息推荐方法、装置、电子设备及存储介质
CN114664421A (zh) 一种医患匹配方法、装置、电子设备、介质及产品
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
CN113326438A (zh) 信息查询方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination