CN112307172A - 一种语义解析设备、方法、终端及存储介质 - Google Patents

一种语义解析设备、方法、终端及存储介质 Download PDF

Info

Publication number
CN112307172A
CN112307172A CN202011200595.7A CN202011200595A CN112307172A CN 112307172 A CN112307172 A CN 112307172A CN 202011200595 A CN202011200595 A CN 202011200595A CN 112307172 A CN112307172 A CN 112307172A
Authority
CN
China
Prior art keywords
medical
search
module
entity
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011200595.7A
Other languages
English (en)
Other versions
CN112307172B (zh
Inventor
黎旭东
林桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011200595.7A priority Critical patent/CN112307172B/zh
Publication of CN112307172A publication Critical patent/CN112307172A/zh
Priority to PCT/CN2021/083525 priority patent/WO2021190653A1/zh
Application granted granted Critical
Publication of CN112307172B publication Critical patent/CN112307172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及医疗技术领域,公开了一种语义解析设备、方法、终端及存储介质,所述设备包括:联想提示模块将根据搜索关键词确定的搜索语句发送给搜索改写模块和语义识别模块;语义识别模块将识别得到的与搜索语句对应的意图数据发送给解析模块;搜索改写模块将对搜索语句进行预处理得到的搜索语句发送给医学实体识别模块;医学实体识别模块将识别得到的与预处理得到的搜索语句对应的医学相关实体发送给实体链接模块;实体链接模块将与医学相关实体的医学关键词对应的目标医学实体发送给解析模块;解析模块解析得到与意图数据和目标医学实体相关联的文本信息,以提高解析准确度。本发明涉及区块链技术,上述数据可存储于区块链中。

Description

一种语义解析设备、方法、终端及存储介质
技术领域
本发明涉及医疗技术领域,尤其涉及一种语义解析设备、方法、终端及存储介质。
背景技术
目前,医学领域的搜索相较于开放领域的搜索会更加带有专业性,开放领域的搜索往往并不能满足医疗领域的搜索需求。首先,医疗领域的用户群体大多为医生、医学研究生、医学博士、医学专家等,其使用的语句更具专业性;其次,医学学者输入的语句往往会存在中英文混杂,导致非专业领域人员无法断词断句;而后,医学学者输入的语句包含的语句并非浅层语句,并不是显而易见的,有时需要专业的医学知识分析才能知道具体意图;最后,由于输入习惯不同,也会导致医学学者输入的语句存在诸多差异。因此,如何更有效地实现在医学领域的搜索非常重要。
发明内容
本发明实施例提供了一种语义解析设备、方法、终端及存储介质,可以解析医学领域的搜索关键词,解析出与用户意图对应的医学文本信息,提高解析准确度。
第一方面,本发明实施例提供了一种语义解析设备,所述设备包括联想提示模块、搜索改写模块、医学实体识别模块、实体链接模块、语义识别模块和解析模块;
所述联想提示模块,用于获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句,以及将所述搜索语句分别发送给所述搜索改写模块和语义识别模块;
所述语义识别模块,用于对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据,并将所述意图数据发送给所述解析模块;
所述搜索改写模块,用于对所述搜索语句进行预处理,并将预处理得到的搜索语句发送给所述医学实体识别模块;
所述医学实体识别模块,用于对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,并将所述医学相关实体发送给所述实体链接模块,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
所述实体链接模块,用于从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体,以及将所述目标医学实体发送给所述解析模块;
所述解析模块,用于对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
进一步地,所述联想提示模块根据所述搜索关键词确定搜索语句时,具体用于:
根据预设的候选词推荐算法确定与所述搜索关键词关联的候选关键词列表;
获取用户对所述候选关键词列表的选取操作,并根据所述选取操作确定一个或多个候选关键词;
根据所述搜索关键词和所述一个或多个候选关键词确定搜索语句。
进一步地,所述实体链接模块包括候选搜索模块;所述实体链接模块从医疗知识图谱中获取与所述医学相关实体对应的医学关键词时,具体用于:
利用所述候选搜索模块将所述医学相关实体输入训练得到的医学命名实体识别模型,识别出与所述医学相关实体对应的医学关键词;
根据所述医学关键词从医疗知识图谱中获取与所述医学关键词对应的一个和多个医学候选关键词。
进一步地,所述实体链接模块包括相似度计算模块;所述实体链接模块确定与所述医学关键词对应的目标医学实体时,具体用于:
利用所述相似度计算模块计算各医学候选关键词与所述医学关键词之间的相似度;
根据所述计算得到的相似度,筛选出所述相似度大于预设阈值的目标候选关键词;
基于所述目标候选关键词和所述医学关键词确定对应的目标医学实体。
进一步地,所述所述语义识别模块对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据时,具体用于:
将所述搜索语句输入训练得到的语义识别模型;
利用所述语义识别模型对所述搜索语句进行识别,得到与所述搜索语句对应的意图数据。
进一步地,所述搜索改写模块对所述搜索语句进行预处理时,具体用于:
检测所述搜索语句中是否存在错别字;
当检测结果为所述搜索语句中存在错别字时,利用预设的纠错算法对所述搜索语句中的错别字进行纠错处理。
进一步地,所述搜索改写模块对所述搜索语句进行预处理时,具体用于:
当检测到所述搜索语句中存在繁体字时,利用预设的简繁转换算法将所述搜索语句中的繁体字转换为简体字;或者,
当检测到所述搜索语句中存在简体字时,利用预设的简繁转换算法将所述搜索语句中的简体字转换为繁体字。
第二方面,本发明实施例提供了一种语义解析方法,所述方法包括:
获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;
对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;
对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;
对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
第三方面,本发明实施例提供了一种终端,所述终端包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述程序指令,当所述程序指令被执行时,用于执行以下操作:
获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;
对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;
对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;
对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第二方面的方法。
本发明实施例,可以获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。通过这种方式可以解析医学领域的搜索关键词,解析出与用户意图对应的医学文本信息,提高解析准确度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语义解析设备的框架示意图;
图2是本发明实施例提供的一种语义解析方法的流程图;
图3是本发明实施例提供的一种语义解析设备的示意框图;
图4是本发明实施例提供的一种终端的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语义解析方法可以应用于一种语义解析设备,在某些实施例中,所述语义解析设备设置于终端中。在某些实施例中,所述语义解析设备包括联想提示模块、搜索改写模块、医学实体识别模块、实体链接模块、语义识别模块和解析模块;在某些实施例中,所述实体链接模块包括候选搜索模块和相似度计算模块。在某些实施例中,所述终端包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。
下面结合附图1对本发明实施例提供的语义解析设备进行示意性说明。
请参见图1,图1是本发明实施例提供的一种语义解析设备的框架示意图。所述语义解析设备包括:联想提示模块11、搜索改写模块12、医学实体识别模块13、实体链接模块14、语义识别模块15和解析模块16。在某些实施例中,所述实体链接模块14包括候选搜索模块141和相似度计算模块142。在某些实施例中,所述语义解析设备还包括医疗知识图谱17。
本发明实施例中,通过所述联想提示模块11获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句,以及将所述搜索语句分别发送给所述搜索改写模块12和语义识别模块15;以使得所述语义识别模块15对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据,并将所述意图数据发送给所述解析模块16。通过所述搜索改写模块12对所述搜索语句进行预处理,并将预处理得到的搜索语句发送给所述医学实体识别模块13;以使得所述医学实体识别模块13对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,并将所述医学相关实体发送给所述实体链接模块14;以使得所述实体链接模块14利用所述候选搜索模块141将所述医学相关实体输入训练得到的医学命名实体识别模型,识别出与所述医学相关实体对应的医学关键词,并根据所述医学关键词从医疗知识图谱17中获取与所述医学关键词对应的一个和多个医学候选关键词;利用所述相似度计算模块142计算各医学候选关键词与所述医学关键词之间的相似度,并根据所述计算得到的相似度,筛选出所述相似度大于预设阈值的目标候选关键词,以及基于所述目标候选关键词和所述医学关键词确定对应的目标医学实体,从而将所述目标医学实体发送给所述解析模块16;以使得所述解析模块16对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。通过这种方式可以解析医学领域的搜索关键词,解析出与用户意图对应的医学文本信息,提高解析准确度。
下面结合附图2对本发明实施例提供的语义解析方法进行示意性说明。
请参见图2,图2是本发明实施例提供的一种语义解析方法的示意流程图,如图2所示,该方法可以由语义解析设备执行,所述语义解析设备设置于终端中,具体解释如前所述,此处不再赘述。具体地,本发明实施例的所述方法包括如下步骤。
S201:获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句。
本发明实施例中,语义解析设备可以获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句。
在一个实施例中,语义解析设备在根据所述搜索关键词确定搜索语句时,可以根据预设的候选词推荐算法确定与所述搜索关键词关联的候选关键词列表,并获取用户对所述候选关键词列表的选取操作,根据所述选取操作确定一个或多个候选关键词,以及根据所述搜索关键词和所述一个或多个候选关键词确定搜索语句。
在具体实施例中,语义解析设备中包括联想提示模块,可以通过所述联想提示模块获取用户输入的搜索关键词,并利用候选词推荐算法根据用户输入的搜索关键词,从医疗知识图谱中获取与所述搜索关键词关联的多个候选关键词,组成候选关键词列表,以供用户从所述候选关键词列表中选取一个或多个候选关键词;当获取到用户从所述候选关键词列表选取的一个或多个候选关键词时,可以根据所述搜索关键词和所述一个或多个候选关键词确定搜索语句。
S202:对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据。
本发明实施例中,语义解析设备可以对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据。
在一个实施例中,语义解析设备在对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据时,可以将所述搜索语句输入训练得到的语义识别模型,并利用所述语义识别模型对所述搜索语句进行识别,得到与所述搜索语句对应的意图数据。
在一个实施例中,所述语义识别模型可以是基于深度学习算法,根据大量的用户搜索记录以及用户的真实意图语料,训练得到的医疗领域的语义识别模型,将整个搜索语句输入到所述语义识别模型,可以识别出真实的用户搜索的意图数据。
例如,假设用户输入的搜索关键词为“糖尿病”和“治疗”,如果确定是搜索语句为“治疗糖尿病”,则可以将整个搜索语句“治疗糖尿病”输入到语义识别模型,识别出真实的用户搜索的意图数据为治疗糖尿病的相关内容信息。
通过识别出用户搜索的意图数据,有助于解析出与用户搜索的意图数据对应的文本信息,提高解析准确率。
S203:对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体。
本发明实施例中,语义解析设备可以对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体。在某些实施例中,所述预处理包括纠错处理、大小写转换处理、简繁转换处理中的一种或多种。
在一个实施例中,所述语义解析设备包括搜索改写模块,所述语义解析设备可以利用所述搜索改写模块对所述搜索语句进行预处理,其中,所述搜索改写模块中包括纠错算法、大小写转换算法、简繁转换算法等。
在一个实施例中,语义解析设备在对所述搜索语句进行预处理时,可以检测所述搜索语句中是否存在错别字,当检测结果为所述搜索语句中存在错别字时,利用预设的纠错算法对所述搜索语句中的错别字进行纠错处理。
例如,假设搜索语句为“唐尿病治疗”,则可以检测到搜索语句中存在错别字“唐”,并利用预设的纠错算法对所述搜索语句中的错别字“唐”进行纠错处理,得到纠正后的“糖”。
在一个实施例中,语义解析设备在对所述搜索语句进行预处理时,当检测到所述搜索语句中存在繁体字时,可以利用预设的简繁转换算法将所述搜索语句中的繁体字转换为简体字;在另一个实施例中,当检测到所述搜索语句中存在简体字时,可以利用预设的简繁转换算法将所述搜索语句中的简体字转换为繁体字。
在某些实施例中,所述简体字包括但不限于汉子的简体字、英文缩写字等;所述简繁转换算法中包括简体字与繁体字之间的映射关系,所述映射关系包括但不限于汉子的简体字与繁体字之间的映射关系,和/或英文缩写与中文的映射关系等。例如,假设搜索语句中存在英文缩写“crt”,则可以利用预设的简繁转换算法将所述搜索语句中的英文缩写“crt”转换为对应的中文“心脏再同步治疗”。
在一个实施例中,语义解析设备在对所述搜索语句进行预处理时,可以检测所述搜索语句中是否存在大写字体,如果检测结果为存在大写字体,则可以利用预设的大小写转换算法对所述搜索语句中存在的大写字体转换为小写字体。
例如,假设搜索语句为“收缩压160mmHg”,则语义解析设备可以检测到该搜索语句中包括大写字体“H”,因此可以利用所述大小写转换算法对所述搜索语句中存在的大写字体“H”转换为小写字体“h”。
在另一个实施例中,语义解析设备在对所述搜索语句进行预处理时,可以检测所述搜索语句中是否存在小写字体,如果检测结果为存在小写字体,则可以利用所述大小写转换算法对所述搜索语句中存在的小写字体转换为大写字体。
例如,假设搜索语句为“血糖值8mmol/l”,则语义解析设备可以检测到该搜索语句中包括小写字体,因此可以利用所述大小写转换算法对所述搜索语句中存在的小写字体“mmol/l”转换为大写字体“MMOL/L”。
通过这种方式可以避免输入错别字,提高搜索结果的质量,进一步的纠正、归一化搜索语句,提高整个解析的准确度。
S204:从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体。
本发明实施例中,语义解析设备可以从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体。在具体实施例中,语义解析设备中包括实体链接模块,语义解析设备可以利用实体链接模块从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体,其中,所述实体链接模块中包括候选搜索模块和相似度计算模块。
在一个实施例中,语义解析设备在从医疗知识图谱中获取与所述医学相关实体对应的医学关键词时,可以将所述医学相关实体输入训练得到的医学命名实体识别模型,识别出与所述医学相关实体对应的医学关键词,并根据所述医学关键词从医疗知识图谱中获取与所述医学关键词对应的一个和多个医学候选关键词。在具体实施例中,语义解析设备可以利用候选搜索模块将所述医学相关实体输入训练得到的医学命名实体识别模型,识别出与所述医学相关实体对应的医学关键词,并根据所述医学关键词从医疗知识图谱中获取与所述医学关键词对应的一个和多个医学候选关键词。
在一个实施例中,语义解析设备在确定与所述医学关键词对应的目标医学实体时,可以计算各医学候选关键词与所述医学关键词之间的相似度,并根据所述计算得到的相似度,筛选出所述相似度大于预设阈值的目标候选关键词,以及基于所述目标候选关键词和所述医学关键词确定对应的目标医学实体。在具体实施例中,语义解析设备可以利用相似度计算模块计算各医学候选关键词与所述医学关键词之间的相似度,其中,所述相似度计算模块中包括相似度计算算法。在某些实施例中,所述相似度算法包括但不限于如编辑距离、向量相似度、TF\IDF计算等等。
S205:对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
本发明实施例中,语义解析设备可以对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。在具体实施例中,所述语义解析设备包括解析模块,语义解析设备可以通过解析模块对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
本发明实施例中,语义解析设备可以获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。通过这种方式可以解析医学领域的搜索关键词,解析出与用户意图对应的医学文本信息,提高解析准确度。
本发明实施例还提供了一种语义解析设备,该语义解析设备用于执行前述任一项所述的方法的模块。具体地,参见图3,图3是本发明实施例提供的一种语义解析设备的示意框图。本实施例的语义解析设备包括:联想提示模块301、搜索改写模块302、医学实体识别模块303、实体链接模块304、语义识别模块305和解析模块306。
所述联想提示模块301,用于获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句,以及将所述搜索语句分别发送给所述搜索改写模块302和语义识别模块305;
所述语义识别模块305,用于对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据,并将所述意图数据发送给所述解析模块306;
所述搜索改写模块302,用于对所述搜索语句进行预处理,并将预处理得到的搜索语句发送给所述医学实体识别模块303;
所述医学实体识别模块303,用于对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,并将所述医学相关实体发送给所述实体链接模块304,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
所述实体链接模块304,用于从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体,以及将所述目标医学实体发送给所述解析模块306;
所述解析模块306,用于对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
进一步地,所述联想提示模块301根据所述搜索关键词确定搜索语句时,具体用于:
根据预设的候选词推荐算法确定与所述搜索关键词关联的候选关键词列表;
获取用户对所述候选关键词列表的选取操作,并根据所述选取操作确定一个或多个候选关键词;
根据所述搜索关键词和所述一个或多个候选关键词确定搜索语句。
进一步地,所述实体链接模块304包括候选搜索模块3041;所述实体链接模块304从医疗知识图谱中获取与所述医学相关实体对应的医学关键词时,具体用于:
利用所述候选搜索模块3041将所述医学相关实体输入训练得到的医学命名实体识别模型,识别出与所述医学相关实体对应的医学关键词;
根据所述医学关键词从医疗知识图谱中获取与所述医学关键词对应的一个和多个医学候选关键词。
进一步地,所述实体链接模块304包括相似度计算模块3042;所述实体链接模块304确定与所述医学关键词对应的目标医学实体时,具体用于:
利用所述相似度计算模块3042计算各医学候选关键词与所述医学关键词之间的相似度;
根据所述计算得到的相似度,筛选出所述相似度大于预设阈值的目标候选关键词;
基于所述目标候选关键词和所述医学关键词确定对应的目标医学实体。
进一步地,所述所述语义识别模块305对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据时,具体用于:
将所述搜索语句输入训练得到的语义识别模型;
利用所述语义识别模型对所述搜索语句进行识别,得到与所述搜索语句对应的意图数据。
进一步地,所述搜索改写模块302对所述搜索语句进行预处理时,具体用于:
检测所述搜索语句中是否存在错别字;
当检测结果为所述搜索语句中存在错别字时,利用预设的纠错算法对所述搜索语句中的错别字进行纠错处理。
进一步地,所述搜索改写模块302对所述搜索语句进行预处理时,具体用于:
当检测到所述搜索语句中存在繁体字时,利用预设的简繁转换算法将所述搜索语句中的繁体字转换为简体字;或者,
当检测到所述搜索语句中存在简体字时,利用预设的简繁转换算法将所述搜索语句中的简体字转换为繁体字。
本发明实施例中,语义解析设备可以获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。通过这种方式可以解析医学领域的搜索关键词,解析出与用户意图对应的医学文本信息,提高解析准确度。
参见图4,图4是本发明实施例提供的一种终端的示意框图。如图4所示的本发明实施例中的终端可以包括:一个或多个处理器401和存储器402。存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。其中,处理器401被配置用于调用所述程序指令执行:
获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;
对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;
对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;
对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
进一步地,所述处理器401根据所述搜索关键词确定搜索语句时,具体用于:
根据预设的候选词推荐算法确定与所述搜索关键词关联的候选关键词列表;
获取用户对所述候选关键词列表的选取操作,并根据所述选取操作确定一个或多个候选关键词;
根据所述搜索关键词和所述一个或多个候选关键词确定搜索语句。
进一步地,所述处理器401从医疗知识图谱中获取与所述医学相关实体对应的医学关键词时,具体用于:
将所述医学相关实体输入训练得到的医学命名实体识别模型,识别出与所述医学相关实体对应的医学关键词;
根据所述医学关键词从医疗知识图谱中获取与所述医学关键词对应的一个和多个医学候选关键词。
进一步地,所述处理器401确定与所述医学关键词对应的目标医学实体时,具体用于:
计算各医学候选关键词与所述医学关键词之间的相似度;
根据所述计算得到的相似度,筛选出所述相似度大于预设阈值的目标候选关键词;
基于所述目标候选关键词和所述医学关键词确定对应的目标医学实体。
进一步地,所述处理器401对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据时,具体用于:
将所述搜索语句输入训练得到的语义识别模型;
利用所述语义识别模型对所述搜索语句进行识别,得到与所述搜索语句对应的意图数据。
进一步地,所述处理器401对所述搜索语句进行预处理时,具体用于:
检测所述搜索语句中是否存在错别字;
当检测结果为所述搜索语句中存在错别字时,利用预设的纠错算法对所述搜索语句中的错别字进行纠错处理。
进一步地,所述处理器401对所述搜索语句进行预处理时,具体用于:
当检测到所述搜索语句中存在繁体字时,利用预设的简繁转换算法将所述搜索语句中的繁体字转换为简体字;或者,
当检测到所述搜索语句中存在简体字时,利用预设的简繁转换算法将所述搜索语句中的简体字转换为繁体字。
本发明实施例中,终端可以获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。通过这种方式可以解析医学领域的搜索关键词,解析出与用户意图对应的医学文本信息,提高解析准确度。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图2所对应实施例中描述的语义解析方法,也可实现本发明图3所对应实施例的语义解析设备,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的语义解析设备的内部存储单元,例如语义解析设备的硬盘或内存。所述计算机可读存储介质也可以是所述语义解析设备的外部存储设备,例如所述语义解析设备上配备的插接式硬盘,智能存储卡(SmarSMedia Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述语义解析设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述语义解析设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述风险概率还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种语义解析设备,其特征在于,所述设备包括联想提示模块、搜索改写模块、医学实体识别模块、实体链接模块、语义识别模块和解析模块;
所述联想提示模块,用于获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句,以及将所述搜索语句分别发送给所述搜索改写模块和语义识别模块;
所述语义识别模块,用于对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据,并将所述意图数据发送给所述解析模块;
所述搜索改写模块,用于对所述搜索语句进行预处理,并将预处理得到的搜索语句发送给所述医学实体识别模块;
所述医学实体识别模块,用于对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,并将所述医学相关实体发送给所述实体链接模块,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
所述实体链接模块,用于从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体,以及将所述目标医学实体发送给所述解析模块;
所述解析模块,用于对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
2.根据权利要求1所述的设备,其特征在于,所述联想提示模块根据所述搜索关键词确定搜索语句时,具体用于:
根据预设的候选词推荐算法确定与所述搜索关键词关联的候选关键词列表;
获取用户对所述候选关键词列表的选取操作,并根据所述选取操作确定一个或多个候选关键词;
根据所述搜索关键词和所述一个或多个候选关键词确定搜索语句。
3.根据权利要求1所述的设备,其特征在于,所述实体链接模块包括候选搜索模块;所述实体链接模块从医疗知识图谱中获取与所述医学相关实体对应的医学关键词时,具体用于:
利用所述候选搜索模块将所述医学相关实体输入训练得到的医学命名实体识别模型,识别出与所述医学相关实体对应的医学关键词;
根据所述医学关键词从医疗知识图谱中获取与所述医学关键词对应的一个和多个医学候选关键词。
4.根据权利要求3所述的设备,其特征在于,所述实体链接模块包括相似度计算模块;所述实体链接模块确定与所述医学关键词对应的目标医学实体时,具体用于:
利用所述相似度计算模块计算各医学候选关键词与所述医学关键词之间的相似度;
根据所述计算得到的相似度,筛选出所述相似度大于预设阈值的目标候选关键词;
基于所述目标候选关键词和所述医学关键词确定对应的目标医学实体。
5.根据权利要求1所述的设备,其特征在于,所述所述语义识别模块对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据时,具体用于:
将所述搜索语句输入训练得到的语义识别模型;
利用所述语义识别模型对所述搜索语句进行识别,得到与所述搜索语句对应的意图数据。
6.根据权利要求1所述的设备,其特征在于,所述搜索改写模块对所述搜索语句进行预处理时,具体用于:
检测所述搜索语句中是否存在错别字;
当检测结果为所述搜索语句中存在错别字时,利用预设的纠错算法对所述搜索语句中的错别字进行纠错处理。
7.根据权利要求1所述的设备,其特征在于,所述搜索改写模块对所述搜索语句进行预处理时,具体用于:
当检测到所述搜索语句中存在繁体字时,利用预设的简繁转换算法将所述搜索语句中的繁体字转换为简体字;或者,
当检测到所述搜索语句中存在简体字时,利用预设的简繁转换算法将所述搜索语句中的简体字转换为繁体字。
8.一种语义解析方法,其特征在于,所述方法包括:
获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;
对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;
对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;
对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
9.一种终端,其特征在于,所述终端包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述程序指令,当所述程序指令被执行时,用于执行以下操作:
获取用户输入的搜索关键词,并根据所述搜索关键词确定搜索语句;
对所述搜索语句进行语义识别,得到与所述搜索语句对应的意图数据;
对所述搜索语句进行预处理,并对所述预处理得到的搜索语句进行识别,得到与所述预处理得到的搜索语句对应的医学相关实体,其中,所述医学相关实体包括中文、英文、中英文混合中的一种或多种实体;
从医疗知识图谱中获取与所述医学相关实体对应的医学关键词,并确定与所述医学关键词对应的目标医学实体;
对所述意图数据和所述目标医学实体进行解析,得到与所述意图数据和所述目标医学实体相关联的文本信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求8所述的方法。
CN202011200595.7A 2020-10-31 2020-10-31 一种语义解析设备、方法、终端及存储介质 Active CN112307172B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011200595.7A CN112307172B (zh) 2020-10-31 2020-10-31 一种语义解析设备、方法、终端及存储介质
PCT/CN2021/083525 WO2021190653A1 (zh) 2020-10-31 2021-03-29 一种语义解析设备、方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011200595.7A CN112307172B (zh) 2020-10-31 2020-10-31 一种语义解析设备、方法、终端及存储介质

Publications (2)

Publication Number Publication Date
CN112307172A true CN112307172A (zh) 2021-02-02
CN112307172B CN112307172B (zh) 2023-08-01

Family

ID=74333318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011200595.7A Active CN112307172B (zh) 2020-10-31 2020-10-31 一种语义解析设备、方法、终端及存储介质

Country Status (2)

Country Link
CN (1) CN112307172B (zh)
WO (1) WO2021190653A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021190653A1 (zh) * 2020-10-31 2021-09-30 平安科技(深圳)有限公司 一种语义解析设备、方法、终端及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201955B (zh) * 2021-11-29 2024-06-25 北京国瑞数智技术有限公司 互联网流量平台监测方法和系统
CN117851614B (zh) * 2024-03-04 2024-05-14 创意信息技术股份有限公司 一种用于海量数据的搜索方法、装置、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107957991A (zh) * 2017-12-05 2018-04-24 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN110516260A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 实体推荐方法、装置、存储介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729319B (zh) * 2017-10-18 2021-03-09 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111368049B (zh) * 2020-02-26 2024-04-26 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN111639498A (zh) * 2020-04-21 2020-09-08 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN112307172B (zh) * 2020-10-31 2023-08-01 平安科技(深圳)有限公司 一种语义解析设备、方法、终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107957991A (zh) * 2017-12-05 2018-04-24 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN110516260A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 实体推荐方法、装置、存储介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021190653A1 (zh) * 2020-10-31 2021-09-30 平安科技(深圳)有限公司 一种语义解析设备、方法、终端及存储介质

Also Published As

Publication number Publication date
CN112307172B (zh) 2023-08-01
WO2021190653A1 (zh) 2021-09-30

Similar Documents

Publication Publication Date Title
CN112307172B (zh) 一种语义解析设备、方法、终端及存储介质
US10275576B2 (en) Automatic medical coding system and method
RU2589727C2 (ru) Предложение релевантных терминов во время ввода текста
CN110909137A (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN113707300B (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
US20040002848A1 (en) Example based machine translation system
Carchiolo et al. Medical prescription classification: a NLP-based approach
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN115081440B (zh) 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN111178064B (zh) 基于字段分词处理的信息推送方法、装置和计算机设备
US10055400B2 (en) Multilingual analogy detection and resolution
US20220075964A1 (en) Hybrid translation system using a general-purpose neural network machine translator
CN116741333B (zh) 一种医药营销管理系统
US20240112765A1 (en) Method and system for clinical trials matching
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN113889281B (zh) 一种中文医疗智能实体识别方法、装置及计算机设备
CN113688242A (zh) 一种通过网络搜索结果的文本分类来分类医学术语的方法
CN114068028A (zh) 医疗问诊数据处理方法及装置、可读存储介质及电子设备
Butala et al. Natural language parser for physician’s handwritten prescription
CN113435194B (zh) 词汇切分方法、装置、终端设备及存储介质
CN114300125A (zh) 基于历史诊断数据进行诊断提示的方法、系统及存储介质
CN118153520A (zh) 对诊断文本的标准编码方法、装置以及电子设备
CN114036952A (zh) 实体识别方法、装置、计算机设备及存储介质
CN117457130A (zh) 一种文本处理方法、装置、设备及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant