CN110413734B - 一种医疗服务的智能搜索系统及方法 - Google Patents
一种医疗服务的智能搜索系统及方法 Download PDFInfo
- Publication number
- CN110413734B CN110413734B CN201910676143.7A CN201910676143A CN110413734B CN 110413734 B CN110413734 B CN 110413734B CN 201910676143 A CN201910676143 A CN 201910676143A CN 110413734 B CN110413734 B CN 110413734B
- Authority
- CN
- China
- Prior art keywords
- medical
- entity
- target
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本发明公开了一种医疗服务的智能搜索系统及方法;其方法包括:获取用户输入的查询信息;并对其进行实体抽取,获得目标实体词;将目标实体词在关系型数据库中进行查找;若未查找到,则将目标实体词在ES数据库中进行分词检索;并将检索到的目标实体词所在的医疗子库作为目标医疗子库;若查找到,则将目标实体词所在的表设为目标医疗表;在ES数据库中,将目标实体词在除了目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将检索到目标实体词的医疗子库及目标医疗表对应的医疗子库作为目标医疗子库;获取并展示目标实体词在目标医疗子库中索引到的医疗信息。本发明可帮助用户精准定位到相关的诊疗资源,提升就医体验和医疗效率。
Description
技术领域
本发明涉及信息搜索领域,尤其涉及一种医疗服务的智能搜索系统及方法。
背景技术
目前各个预约挂号平台在对医疗资源进行搜索时,多采取传统的索引式检索形式,基于关系型数据库中关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求,尤其是对于大段文本的检索,索引式检索不仅速度慢而且无法对患者的输入进行分词。
基于Lucene和ElasticSearch(以下简称ES)的全文检索技术能以内容根据词的意义进行分词,然后分别创建索引,从而实现自然语言检索的效果,但由于医疗行业存在大量专业名词,传统的分词会产生分词过度的问题,即不应该被分开的词汇被分词然后检索,也会造成检索的不准确。
发明内容
为解决上述技术问题,本发明提供一种医疗服务的智能搜索系统及方法,具体的,本发明的技术方案如下:
一方面,本发明公开了一种医疗服务的智能搜索系统,包括关系型数据库、ES数据库,以及医学专有名词词典;所述医疗服务的智能搜索系统进一步包括:信息输入模块,用于获取用户输入的查询信息;实体抽取模块,用于通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;第一数据搜索模块,用于将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;第二数据搜索模块,用于当在所述关系型数据库中未搜索到所述目标实体词时,则将所述实体词在ES数据库中进行分词检索;并通过控制处理模块将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;所述控制处理模块,用于当在所述关系型数据库中搜索到所述目标实体词时,将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;并在ES数据库中通过所述第二数据搜索模块,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;所述控制处理模块还将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;信息提取模块,用于获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;信息展示模块,用于向所述用户展示所述索引到的相应的医疗信息。
优选地,所述医疗服务的智能搜索系统还包括:停用词库,所述停用词库中包含无效词汇;及去噪模块,用于根据所述停用词库,去除所述查询信息中的无效词汇。
优选地,所述医疗服务的智能搜索系统还包括:相关实体获取模块,用于获取与所述目标实体词相关的相关实体词;所述第一数据搜索模块,还用于在所述关系型数据库中查找所述相关实体词,并通过所述控制处理模块将所述相关实体词所在的医疗表作为目标医疗表;所述第二数据搜索模块,还用于在ES数据库中,根据所述相关实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将查找到所述相关实体词所在的医疗子库作为目标医疗子库;所述信息提取模块,还用于获取所述相关实体词在所述目标医疗子库中索引到的医疗信息;并通过所述信息展示模块将所述相关实体词对应的医疗信息作为相关推荐信息展示给用户。
优选地,所述相关实体获取模块包括以下任意一项或多项:同义词典及同义查找子模块;所述同义查找子模块,用于通过所述同义词典获取与所述目标实体词语义相同的同义实体词,并将所述同义实体词作为相关实体词;同音词典及同音查找子模块,所述同音查找子模块,用于通过所述同音词典获取与所述目标实体词语音相同的同音实体词,并将所述同音实体词作为相关实体词;上下位词典及上下位实体查找子模块,所述上下位实体查找子模块用于通过所述上下位词典获取所述目标实体词的上位实体词或下位实体词,并将所述实体词的上位实体词或下位实体词作为相关实体词;同级关联词典及同级实体查找子模块,所述同级实体查找子模块,用于通过同级关联词典中的医疗知识关联图谱,获取与所述目标实体词相关的同级实体词,并将所述同级实体词作为相关实体词。
优选地,所述同义查找子模块包括:同义词获取单元,用于在所述同义词典中查找与所述目标实体词语义相同的同义实体词,并将查找到的所述同义实体词作为目标实体词;目标字段获取单元,用于当未查找到所述同义实体词时,通过编辑距离算法在所述关系型数据库中获取与所述目标实体词的语义相似度高于预设相似度的目标字段,并将所述目标字段作为相关实体词。
另一方面,本发明还公开了一种医疗服务的智能搜索方法,包括:获取用户输入的查询信息;通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;若在所述关系型数据库中未搜索到所述目标实体词,则将所述目标实体词在ES数据库中进行分词检索;并将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;若在所述关系型数据库中搜索到所述目标实体词,则将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;在ES数据库中,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;向所述用户展示所述索引到的相应的医疗信息。
优选地,在接收到用户输入的查询信息之后,对所述查询信息进行实体抽取,获得目标实体词之前还包括:通过停用词库去除所述查询信息中的无效词汇。
优选地,在通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取之后还包括:获取与所述实体抽取模块目标实体词相关的相关实体词;在所述关系型数据库中查找所述相关实体词,并将所述相关实体词所在的医疗表作为目标医疗表;在ES数据库中,根据所述相关实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将查找到所述相关实体词所在的医疗子库作为目标医疗子库;获取所述相关实体词在所述目标医疗子库中索引到的医疗信息;将所述相关实体词对应的医疗信息作为相关推荐信息展示给用户。
优选地,所述获取与所述目标实体词相关的相关实体词具体包括以下任意一项或多项:通过同义词典获取与所述目标实体词语义相同的同义实体词,并将所述同义实体词作为相关实体词;通过同音词典获取与所述目标实体词语音相同的同音实体词,并将所述同音实体词作为相关实体词;通过上下位词典获取所述目标实体词的上位实体词或下位实体词,并将所述实体词的上位实体词或下位实体词作为相关实体词;通过同级关联词典中的医疗知识关联图谱,获取与所述目标实体词相关的同级实体词,并将所述同级实体词作为相关实体词。
优选地,所述医疗服务的智能搜索方法还包括:当通过同义词典未查找到与所述目标实体词语义相同的同义实体词时,通过编辑距离算法在所述关系型数据库中获取相关实体词;所述相关实体词与所述目标实体词的语义相似度高于预设相似度。
本发明至少包括以下一项技术效果:
(1)本发明的智能搜索系统将传统的索引式检索形式(关系型数据库)与ES全文检索形式结合起来,既解决了传统的索引式检索速度慢与检索质量不高的现象,又解决了ES全文检索在专有名词上分词过度的问题。该智能搜索系统可服务于挂号平台或APP,提供专业的医疗信息搜索引擎,独创的索引式关键词检索与全文检索相结合的智能检索形式,帮助用户精准定位到相关的诊疗资源,提升就医体验和医疗效率。
(2)本发明的智能搜索系统,可在获取用户输入的查询信息之后,利用停用词库,去除查询信息中的无效词汇,从而缩小搜索范围,提高搜索速度。
(3)本发明的智能搜索系统,还可获取与用户输入的查询信息相关的诊疗信息,从而给予用户相关内容推荐;解决了患者“知症不知病、知病不知医”的现状,将医院药物信息、医院信息、疾病信息等通过本发明的“医疗服务的智能搜索系统”广泛传播,并且提供从“寻医”到挂号,从“问药”到查看近期该药物处方医院的一条龙智能服务。
(4)本发明的智能搜索系统中内置有同义词典、同音词典、上下位词典、同级关联词典等等,可根据实际情况灵活选用内置的各词典获取相关实体信息,进而获取相关诊疗信息。该智能搜索系统推荐的内容全面、灵活性高。
(5)本发明的智能搜索系统,对于未找到与用户输入的查询信息中的实体语义相同的同义实体词时,还可利用编辑距离算法从关系型数据库中获取相似度高的目标字段,进而索引到相关诊疗信息,推荐给用户,提高了用户体验度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明医疗服务的智能搜索系统的实施例的框图;
图2为关系型数据库的医疗表与ES数据库中的医疗子库示意图;
图3为本发明医疗服务的智能搜索系统的另一实施例的框图;
图4为本发明医疗服务的智能搜索方法的实施例的流程图;
图5为本发明医疗服务的智能搜索方法的另一实施例的流程图;
图6为本发明医疗服务的智能搜索方法的另一实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
图1示出了本发明公开的一种医疗服务的智能搜索系统的一个实施例,包括关系型数据库10、ES数据库20,以及医学专有名词词典30;
具体的,本实施例中,如图2所示,关系型数据库10中存储有各类医疗表,比如,将医院名称、医院别称作为医院表A,医生姓名作为医生表B,科室名称作为科室表C,疾病名称、疾病别称、疾病简称作为疾病表D,药品通用名及药品商品名作为药品表E等,该关系型数据库10中各类医疗表中只含有各类实体名称,但是没有详细信息,其中医院表A、医生表B、科室表C相互之间可以关联。
ES数据库20中则分类存储有详细的诊疗信息;ES数据库20中按照类别分为很多医疗子库:医生库b、医院库a、科室库c、疾病库d、药品库e等等。ES数据库20中的医疗子库和关系型数据库10中的表一一对应,例如:关系型数据库10中的医生表B存储医生姓名---ES数据库20中的医生库b(医疗子库)存储医生年龄、性别、简介、擅长疾病等文本信息;关系型数据库10中的疾病表D存储疾病名称及别称---ES数据库20中d疾病库存储症状、病因、临床表现、治疗及预后等文本信息。
关系型数据库10中医疗表内的具体实体可索引到ES数据库20中对应的医疗子库中的具体诊疗信息。比如,搜索到关系型数据库10的医生表B中的医生王明,则可直接索引获取到ES数据库20中医生库b里存储的王明的详细信息。此外,ES数据库20可进行分词检索,而在关系型数据库10内则无法再分词检索。
医学专有名词词典30:内含医学专有名词、专业术语等,在分词或实体摘取时,结合该医学专有名词词典30,从而可以确保医疗行业的医学专有名词不会被分开。
所述医疗服务的智能搜索系统,如图1所示,进一步包括:
信息输入模块100,用于获取用户输入的查询信息;
具体的,如用户输入“XXX(姓名)是否在XX医院,我最近总是失眠”,那么,便可获取到查询信息:“XXX(姓名)是否在XX医院,我最近总是失眠”。用户输入查询信息的形式可以是语音输入、文字输入等;如果是语音输入,则信息输入模块100还需将输入的语音信息转换为相应的文字信息。
实体抽取模块200,用于通过命名实体识别算法、结合医学专有名词词典30对所述查询信息进行实体抽取,获得目标实体词;
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。具体应用到医疗领域,结合医学专有名词词典30,确定实体类别可包括:人名类、地名类、医院名称类、症状类、药品类、疾病类、医学术语类等。
当前命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法、神经网络的方法等。本申请不限定具体的命名实体识别的技术方法形式,上述命名实体识别的技术方法为现有技术,此处不再赘述,本申请采用上述任一现有方法实现实体抽取均可。
具体的,通过命名实体识别算法摘取出输入信息中包含的人名、地名、机构名等、结合医学专有名词词典30摘除出输入信息中包含的专业术语,比如疾病名称、药品名称、医学术语等。
第一数据搜索模块300,用于将所述目标实体词在关系型数据库10中进行搜索,判断是否可在所述关系型数据库10存储的各医疗表中搜索到所述目标实体词;
具体的,在对用户输入的查询信息进行实体抽取之后,先在关系型数据库10中通过第一数据搜索模块300搜索抽取的目标实体词,看看该抽取出的实体词是否在关系型数据库10中搜索得到。比如,如果目标实体词是“王明”,第一数据搜索模块300在关系型数据库10中进行搜索,搜索到该关系型数据库10中的医生表中包含“王明”(医生姓名),则可判断出该目标实体词“王明”可在该关系型数据库10的医生表中搜索到。
第二数据搜索模块400,用于当在所述关系型数据库10中未搜索到所述目标实体词时,则将所述实体词在ES数据库20中进行分词检索;并通过控制处理模块500将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;
具体的,如果在关系型数据库10中没有搜索到抽取出的目标实体词,则会再在ES数据库20中进行分词检索。比如,提取到的目标实体词为症状类实体:失眠多梦、盗汗。该目标实体词在关系型数据库10中未检索到该目标实体词后,便会通过第二数据搜索模块400在ES数据库20中进行分词检索,例如,先将该目标实体词分词为:失眠、多梦、盗汗这三个词,然后再根据分词后的结果在ES数据库20中进行检索。比如,通过检索,如果在ES数据库20的疾病库中有检索到某疾病对应这些症状;那么便可将该疾病库作为目标医疗子库;
所述控制处理模块500,用于当在所述关系型数据库10中搜索到所述目标实体词时,将所述目标实体词所在的表设为目标医疗表;所述关系型数据库10中的医疗表与所述ES数据库20中的医疗子库一一对应;并在ES数据库20中通过所述第二数据搜索模块400,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;所述控制处理模块500还将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;
具体的,承前所述,如果抽取的目标实体词在关系型数据库10中搜索到了目标实体词,那么闲将该目标实体词所在的表设为目标医疗表,比如,前面所述的在关系型数据数据库的“医生表”中搜索到目标实体词“王明”;那么控制处理模块500便会将“医生表”作为目标医疗表;关系型数据库10中的各医疗表与ES数据库20中的各医疗子库一一对应,比如关系型数据库10中的“医生表”对应ES数据库20中的“医生库”;“医生库”中包含了“医生表”中各个医生的详细个人信息。在关系型数据库10的“医生表”中检索到目标实体词“王明”后,便会再在ES数据库20中进行不分词检索,值得注意的是,由于“医生表”与“医生库”相对应,因此,只会在ES数据库20中除了“医生库”以外的其它库中搜索“王明”。如果在其它库中也搜索到“王明”的信息,那么搜索到该信息所在的医疗子库以及“医生库”(也属于一个医疗子库)均被作为目标医疗子库;当然,如果在其它医疗子库中没有搜索到该信息,则只将“医生库”作为目标医疗子库。同样的,如果目标实体词在关系型数据库10的各类医疗表中未搜索到,而后在ES数据库20进行分词检索时,如果在医疗子库A中有检索到目标实体词的信息,那么便将该医疗子库A作为目标医疗子库。
信息提取模块600,用于获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;
具体的,通过上述第一数据搜索模块300、第二数据搜索模块400的搜索结果,便可通过信息提取模块600提取到目标实体词在目标医疗子库中索引到的医疗信息。比如,搜索到数据关系型数据库10中“医生表”的“王明”,便可直接索引到ES数据库20的“医生库”中的“王明”医生的具体信息。而在ES数据库20中进行搜索,如果有搜索到相应的目标实体词,则亦可直接索引获取到目标医疗子库中的对应的具体医疗信息。
信息展示模块700,用于向所述用户展示所述索引到的相应的医疗信息。
具体的,获取到这些索引的医疗信息后,再将搜索到的医疗信息展示给用户。
较佳的,可以利用大数据分析,统计这些被索引到的医疗信息的访问次数,按照访问次数的高低顺序排列搜索结果。
此外,还可以按照医疗信息的类别进行区分,然后再展示给用户。比如,将搜索到的医疗信息分为:医生类、医院类、症状类、综合类等。其中,综合类可展示相关度高的医疗信息。
本发明将传统的索引式检索形式(关系型数据库)与ES全文检索形式结合起来,既解决了传统的索引式检索速度慢与检索质量不高的现象,又解决了ES全文检索在专有名词上分词过度的问题。该智能搜索系统可服务于挂号平台或APP,提供专业的医疗信息搜索引擎,独创的索引式关键词检索与全文检索相结合的智能检索形式,帮助用户精准定位到相关的诊疗资源,提升就医体验和医疗效率。
本发明搜索系统的另一实施例,如图3所示,在上述实施例的基础上,所述医疗服务的智能搜索系统还包括:停用词库40,所述停用词库40中包含无效词汇;及去噪模块800,用于根据所述停用词库40,去除所述查询信息中的无效词汇。
具体的,去噪模块800利用停用词库40,可以将自然语言中“无效词汇”摘取出来,“无效词汇”包括常见的主语词、语气助词、副词、介词、连词等,如“我、你、他、好像、有点、最近、很……”等。获取到用户输入的查询信息后,第一步便是将用户输入的无效词汇摘取出来;从而缩小搜索范围;如用户输入“我最近头很晕”,经过停用词摘取后会去掉“我”“最近”“很”,留下“头晕”的关键词。
本发明搜索系统的另一实施例,如图2所示,在上述任一实施例的基础上,所述医疗服务的智能搜索系统还包括:
相关实体获取模块900,用于获取与所述实体抽取模块200抽取的目标实体词相关的相关实体词;
具体的,相关实体获取模块900用于获取与目标实体词相关的相关实体词,然后可采用同样的方法,再在关系型数据库10、ES数据库20中进行该相关实体词的检索,从而可以获得与用户输入的查询信息相关的医疗信息,在给予用户查询结果(目标实体词搜索到的医疗信息)的同时,还可以给予用户相关内容的推荐(相关述题词搜索到的医疗信息)。
所述第一数据搜索模块300,还用于在所述关系型数据库10中查找所述相关实体词,并通过所述控制处理模块500将所述相关实体词所在的医疗表作为目标医疗表;
所述第二数据搜索模块400,还用于在ES数据库20中,根据所述相关实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将查找到所述相关实体词所在的医疗子库作为目标医疗子库;
所述信息提取模块600,还用于获取所述相关实体词在所述目标医疗子库中索引到的医疗信息;并通过所述信息展示模块700将所述相关实体词对应的医疗信息作为相关推荐信息展示给用户。
本发明搜索系统的另一实施例,如图3所示,在上一实施例的基础上,对相关实体获取模块900进行了详细阐述,具体的,所述相关实体获取模块900包括以下任意一项或多项:
(1)同义词典50及同义查找子模块910;所述同义查找子模块910,用于通过所述同义词典50获取与所述目标实体词语义相同的同义实体词,并将所述同义实体词作为相关实体词;
同义词典50:内含语义相同的实体词;同义查找子模块910根据抽取的目标实体词,利用同义词典50可查找到语义相同的同义实体词,从而使得后续检索的信息更加全面准确。
(2)近义词典及近义查找子模块,所近义查找子模块,用于通过所述近义词典获取与所述目标实体词语义相近的近义实体词,并将所述近义实体词作为相关实体词;
近义词典:内含语义相近的实体词;近义查找子模块根据抽取的目标实体词,利用近义词典可查找到语义相近的近义实体词,从而使得后续检索的信息更加全面准确。
(3)同音词典60及同音查找子模块920,所述同音查找子模块920,用于通过所述同音词典60获取与所述目标实体词语音相同的同音实体词,并将所述同音实体词作为相关实体词;
同音词典60:内含读音相同的实体词;具体的,同音查找子模块920利用该同音词典60,可获取到与所述目标实体词语音相同的同音实体词。例如“二甲双胍”和“二价双胍”,其中的“甲”和“价”同音。
(4)上下位词典70及上下位实体查找子模块930,所述上下位实体查找子模块930用于通过所述上下位词典70获取所述目标实体词的上位实体词或下位实体词,并将所述实体词的上位实体词或下位实体词作为相关实体词;
上下位词典70包括多个层级,类似决策树结构:上位词——下位词1、下位词2……;下位词1.1、下位词1.2、下位词2.1……等。上下位词典70中包含上下位关系的实体词,比如,上位词:上呼吸道感染,其对应的下位词有:普通感冒、病毒性咽炎、喉炎、疱疹性咽峡炎、咽结膜热、细菌性咽-扁桃体炎。
(5)同级关联词典80及同级实体查找子模块940,所述同级实体查找子模块940,用于通过同级关联词典80中的医疗知识关联图谱,获取与所述目标实体词相关的同级实体词,并将所述同级实体词作为相关实体词。
同级关联词典80是可以认为是知识网络,里面包含了医疗知识关联图谱。比如:疾病---可以看该病的医生---医生所在科室---科室所在医院----可以治疗该疾病的药物---该疾病的症状等。如此,用户如果不知道挂什么科室,只需要输入相关的疾病或症状,便可告知需要挂什么科,甚至,推荐挂哪个医生的号等。
通过上述的各类词典,使得在进行检索的同时给予用户相关内容推荐;解决了患者“知症不知病、知病不知医”的现状,将医院药物信息、医院信息、疾病信息等通过“该智能医疗服务搜索系统”广泛传播,并且提供从“寻医”到挂号,从“问药”到查看近期该药物处方医院的一条龙智能服务。
较佳的,上述实施例中,所述同义查找子模块包括:
同义词获取单元,用于在所述同义词典中查找与所述目标实体词语义相同的同义实体词,并将查找到的所述同义实体词作为目标实体词;
目标字段获取单元,用于当未查找到所述同义实体词时,通过编辑距离算法在所述关系型数据库中获取与所述目标实体词的语义相似度高于预设相似度的目标字段,并将所述目标字段作为相关实体词。
编辑距离(Edit Distance):又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
具体的,如果抽取到目标实体后,在同义词典中找不到同义的实体词,那么便会将该目标实体词与关系型数据库中各表内的所有字段通过编辑距离算法检测相似度,再根据检测到的相似度较大的词(大于预设的相似度)索引到对应的ES数据库中的目标医疗子库中对应的详细信息,最后将根据实体词查找到的信息和根据相似度较大的词检索到的详细信息都推荐展示给用户。
本发明搜索系统的另一实施例,在上述任一实施例的基础上,还包括:
字符统计模块,用于统计所述用户输入的查询信息的字符数;
主题词典及主题词提取模块;所述主题词提取模块,用于当统计出所述查询信息的字符数大于预设字符数时,通过所述主题词典,将每段查询信息通过TF-IDF算法提取主题词,并将所述主体词作为目标实体词。
主题词是指能概括地表现主题的词语。本实施例中,主题词典是应用在搜索多篇大段文本时候,将每一篇中的文本通过TF-IDF算法提取主题词,以用于检索。较佳的,本实施例中的主题词典可采用国内出版的医学方面的《医学主题词注释字顺表》(西医)和《中医药主题词表》。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
基于相同的技术构思,本发明还公开了一种医疗服务的智能搜索方法,该方法可应用与本发明的医疗服务的智能搜索系统。具体的,在搜索之前,需先建立好数据库及各类专用词典。具体的,本实施例中建立有:关系型数据库和ES数据库;其中:关系型数据库中存储有各类医疗表,比如,将医院名称、医院别称作为医院表,医生姓名作为医生表,科室名称作为科室表,疾病名称、疾病别称、疾病简称作为疾病表,药品通用名及药品商品名作为药品表等,该关系型数据库中各类医疗表中只含有各类实体名称,但是没有详细信息,其中医院表、医生表、科室表相互之间可以关联。
ES数据库中则分类存储有详细的诊疗信息;ES数据库中按照类别分为很多医疗子库:医生库、医院库、科室库、疾病库、药品库等等。ES数据库中的医疗子库和关系型数据库中的表一一对应,例如:关系型数据库中的医生表存储医生姓名---ES数据库中的医生库(医疗子库)存储医生年龄、性别、简介、擅长疾病等文本信息;关系型数据库中的疾病表存储疾病名称及别称---ES数据库中的疾病库存储症状、病因、临床表现、治疗及预后等文本信息。关系型数据库中医疗表内的具体实体可索引到ES数据库中对应的医疗子库中的具体诊疗信息。
医学专有名词词典:内含医学专有名词、专业术语等,在分词或实体摘取时,结合该医学专有名词词典,从而可以确保医疗行业的医学专有名词不会被分开。
本发明的医疗服务的智能搜索方法的一个实施例如图4所示,包括:
S101,获取用户输入的查询信息;
S102,通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;
具体的,命名实体识别算法可参见前面系统实施例的具体介绍,此次不再赘述。本步骤中通过命名实体识别算法摘取出输入信息中包含的人名、地名、机构名、结合医学专有名词词典摘除出输入信息中包含的专业术语,比如疾病名称、药品名称、医学术语等。
S103,将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;若是,进入步骤S105;否则,进入步骤S104;
S104,若在所述关系型数据库中未搜索到所述目标实体词,则将所述目标实体词在ES数据库中进行分词检索;并将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;进入步骤S107;
S105,若在所述关系型数据库中搜索到所述目标实体词,则将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;
S106,在ES数据库中,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;
S107,获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;
S108,向所述用户展示所述索引到的相应的医疗信息。
具体的,如果通过实体抽取,获得目标实体词(即实体抽取出的实体词)为“上海儿童医院”,那么便会在“关系型数据库”中进行搜索,搜索到该数据库中的“医院表”中包含“上海儿童医院”,且根据该医院表中搜索到的“上海儿童医院”可直接索引到ES数据库中的医院子库里关于“上海儿童医院”的详细信息。由于该搜索可能不全面,因此,不会仅将索引到的该医院信息向用户展示。具体的,由于关系型数据库中的“医院表”中含有“上海儿童医院”,因此,则可将该“医院表”视为“目标医疗表”,将“医院表”对应的“医院库”作为目标医疗子库。然后将“上海儿童医院”在ES数据库中除了“医院库”之外的其余医疗子库中进行搜索。比如,还在“医生库”中检索到相应的医生(该医生在上海儿童医院工作)的详细信息。那么该“医生库”也会作为“目标医疗子库”。最后根据“上海儿童医院”在“医院库”及“医生库”中索引到的具体信息,分类展示给用户。当然,如果目标实体词关系型数据库中未搜索到,则直接在ES数据库的所有医疗子库中进行检索,最后将检索到的信息分类展示给用户。
本发明将传统的索引式检索形式(关系型数据库)与ES全文检索形式结合起来,既解决了传统的索引式检索速度慢与检索质量不高的现象,又解决了ES全文检索在专有名词上分词过度的问题。该智能搜索系统可服务于挂号平台或APP,提供专业的医疗信息搜索引擎,独创的索引式关键词检索与全文检索相结合的智能检索形式,帮助用户精准定位到相关的诊疗资源,提升就医体验和医疗效率。
较佳的,在上述实施例的基础上,在接收到用户输入的查询信息之后,对所述查询信息进行实体抽取,获得目标实体词之前还包括:通过停用词库去除所述查询信息中的无效词汇。具体的,停用词库内含常见的无效词汇,通过该词库,可将用户输入中的无效词汇进行摘除;从而缩小搜索范围,加快搜索速度。
本发明方法的另一实施例,在上述任一实施例的基础上,增加了相关实体词的获取及检索步骤。具体的,如图5所示,包括:
S201,获取用户输入的查询信息;
S202,通过停用词库去除所述查询信息中的无效词汇;
S203,通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;
S204,将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;若是,进入步骤S105;否则,进入步骤S205;
S205,若在所述关系型数据库中未搜索到所述目标实体词,则将所述目标实体词在ES数据库中进行分词检索;并将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;进入步骤S208;
S206,若在所述关系型数据库中搜索到所述目标实体词,则将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;
S207,在ES数据库中,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;
S208,获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;
S209,获取与所述实体抽取模块目标实体词相关的相关实体词;
S210,在所述关系型数据库中查找所述相关实体词,并将所述相关实体词所在的医疗表作为目标医疗表;
S211,在ES数据库中,根据所述相关实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将查找到所述相关实体词所在的医疗子库作为目标医疗子库;
S212,获取所述相关实体词在所述目标医疗子库中索引到的医疗信息;
S213,向所述用户展示所述目标实体词索引到的相应的医疗信息,并将所述相关实体词索引到的医疗信息作为相关信息推荐给用户。
本实施例中,获取与目标实体词相关的相关实体词,然后可采用同样的方法,再在关系型数据库、ES数据库中进行该相关实体词的检索,从而可以获得与用户输入的查询信息相关的医疗信息,在给予用户查询结果(目标实体词搜索到的医疗信息)的同时,还可以给予用户相关内容的推荐(相关述题词搜索到的医疗信息)。
上述实施例中,步骤S209中,获取与所述实体抽取模块目标实体词相关的相关实体词的获取方式有多种,具体的,可根据需要采用以下任意一种或多种的组合:
(1)通过同义词典获取与所述目标实体词语义相同的同义实体词,并将所述同义实体词作为相关实体词。
同义词典:内含语义相同的实体词;利用同义词典可查找到与目标实体词语义相同的同义实体词,从而使得后续检索的信息更加全面准确。
(2)通过近义词典获取与所述目标实体词语义相近的近义实体词,并将所述近义实体词作为相关实体词。
近义词典:内含语义相近的实体词;利用近义词典可查找到与所述目标实体词语义相近的近义实体词,从而使得后续检索的信息更加全面准确。
(3)通过同音词典获取与所述目标实体词语音相同的同音实体词,并将所述同音实体词作为相关实体词。
同音词典:内含读音相同的实体词;具体的,同音查找子模块利用该同音词典,可获取到与所述目标实体词语音相同的同音实体词。例如“二甲双胍”和“二价双胍”,其中的“甲”和“价”同音。
(4)通过上下位词典获取所述目标实体词的上位实体词或下位实体词,并将所述实体词的上位实体词或下位实体词作为相关实体词。
上下位词典包括多个层级,类似决策树结构:上位词——下位词1、下位词2……;下位词1.1、下位词1.2、下位词2.1……等。上下位词典中包含上下位关系的实体词,比如,上位词:上呼吸道感染,其对应的下位词有:普通感冒、病毒性咽炎、喉炎、疱疹性咽峡炎、咽结膜热、细菌性咽-扁桃体炎。
(5)通过同级关联词典中的医疗知识关联图谱,获取与所述目标实体词相关的同级实体词,并将所述同级实体词作为相关实体词。
同级关联词典是可以认为是知识网络,里面包含了医疗知识关联图谱。比如:疾病---可以看该病的医生---医生所在科室---科室所在医院----可以治疗该疾病的药物---该疾病的症状等。如此,用户如果不知道挂什么科室,只需要输入相关的疾病或症状,便可告知需要挂什么科,甚至,推荐挂哪个医生的号等。
通过上述的各类词典,使得在进行检索的同时给予用户相关内容推荐;解决了患者“知症不知病、知病不知医”的现状,将医院药物信息、医院信息、疾病信息等通过“该智能医疗服务搜索系统”广泛传播,并且提供从“寻医”到挂号,从“问药”到查看近期该药物处方医院的一条龙智能服务。
本发明搜索方法的另一实施例,如图6所示,所述医疗服务的智能搜索方法还包括:
S301,获取用户输入的查询信息;
S302,通过停用词库去除所述查询信息中的无效词汇;
S303,通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;
S304,将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;若是,进入步骤S105;否则,进入步骤S305;
S305,若在所述关系型数据库中未搜索到所述目标实体词,则将所述目标实体词在ES数据库中进行分词检索;并将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;进入步骤S308;
S306,若在所述关系型数据库中搜索到所述目标实体词,则将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;
S307,在ES数据库中,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;
S308,获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;
S309,在同义词典中查找是否存在与所述目标实体词语义相同的同义实体词;若是,进入步骤S311,否则,进入步骤S310;
S310,通过编辑距离算法在所述关系型数据库中获取相关实体词;所述相关实体词与所述目标实体词的语义相似度高于预设相似度;
S311,在所述关系型数据库中查找所述相关实体词,并将所述相关实体词所在的医疗表作为目标医疗表;
S312,在ES数据库中,根据所述相关实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将查找到所述相关实体词所在的医疗子库作为目标医疗子库;
S313,获取所述相关实体词在所述目标医疗子库中索引到的医疗信息;
S314,向所述用户展示所述目标实体词索引到的相应的医疗信息,并将所述相关实体词索引到的医疗信息作为相关信息推荐给用户。
本实施例中,如果抽取到目标实体后,在同义词典中找不到同义的实体词,那么便会将该目标实体词与关系型数据库中各表内的所有字段通过编辑距离算法检测相似度,再根据检测到的相似度较大的词(大于预设的相似度)索引到对应的ES数据库中的目标医疗子库中对应的详细信息,最后将根据实体词查找到的信息和根据相似度较大的词检索到的详细信息都推荐展示给用户。
本发明方法的另一实施例,在上述任一实施例的基础上,对于输入信息的信息量大的情况进行了主题词提取,从而优化搜索流程,提高搜索的准确率和搜索速度。具体的,本实施例的医疗服务的智能搜索方法的流程包括:
S401,获取用户输入的查询信息;
S402,判断所述查询信息的字符数是否大于预设字符的字符数;若是,进入步骤S403;否则,进入步骤S404;
S403,根据主题词典,将每段查询信息通过TF-IDF算法提取主题词,并将所述主体词作为目标实体词;进入步骤S405;
主题词是指能概括地表现主题的词语。本实施例中,主题词典是应用在搜索多篇大段文本时候,将每一篇中的文本通过TF-IDF算法提取主题词,以用于检索。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
S404,通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;
S405,将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;若是,进入步骤S407;否则,进入步骤S406;
S406,若在所述关系型数据库中未搜索到所述目标实体词,则将所述目标实体词在ES数据库中进行分词检索;并将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;进入步骤S409;
S407,若在所述关系型数据库中搜索到所述目标实体词,则将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;
S408,在ES数据库中,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;
S409,获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;
S410,向所述用户展示所述索引到的相应的医疗信息。
本实施例中,对于用户搜索多篇大段文本时候,可利用主题词典,将每一篇中的文本通过TF-IDF算法提取主题词,以用于检索。
本发明的另一实施例,首先建立数据库:关系型数据库和ES数据库如图2所示,其中:将医院名称、医院别称、科室名称、医生姓名、疾病名称、疾病别称、药品通用名及药品商品名作为主字段,置于关系型数据库中并设为索引;具体的,将医院名称、医院别称作为医院表A,医生姓名作为医生表B,科室名称作为科室表C,疾病名称、疾病别称、疾病简称作为疾病表D,药品通用名及药品商品名作为药品表E。
将现有诊疗资源详情如医院级别、简介,科室介绍,医生介绍,药品说明书详情,疾病百科详情等信息至于ES库中创建分词索引;具体的,将诊疗资源详情存入ES数据库:将医院级别、简介等医院相关内容存入医院库a,科室介绍等科室相关内容存入科室库c,医生介绍等医生相关内容存入医生库b,药品说明书详情存入药品库d,疾病百科详情等信息存入疾病库e,并分别在ES库中创建分词索引。关系型数据库的医疗表与ES数据库中的医疗子库一一对应。
此外,还需要建立医学专有名词词典,确保医学专有名词不会被分词;传统的分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,是基于自然语言算法的;我们在命名实体识别算法基础上添加了医学专有名词词典的内容,确保医学专有词及医生名、医院名等词汇不会被分开。
建立停用词词典,将常见语气词、称呼词,形容词纳入停用词词典;包括常见的主语词、语气助词、副词、介词、连词等,如“我、你、他、好像、有点、最近、很……”等。
建立同义词库,内含医疗相关的同义词。
具体的,本实施例的医疗服务智能搜索系统可以APP的形式或终端的形式供用户查询。该医疗服务的智能搜索系统的搜索流程主要如下:
(1)先获取用户输入的查询信息;然后根据该查询信息,遍历停用词词典,将无效词汇摘出;缩小搜索范围;如用户输入“我最近头很晕”,经过停用词摘取后会去掉“我”“最近”“很”,留下“头晕”的关键词。
(2)基于命名实体识别算法,利用专有名词库,对用户输入内容进行实体摘取;如用户输入“XXX(姓名)是否在XX医院,我最近总是失眠”,则提取后结果是“xxx(姓名)”“XX医院”“失眠”;
(3)将摘取的实体词先在关系型数据库表中模糊查询;若在某个关系型数据表中有查询结果,则该词汇不再分词且不再在ES数据库中对应的医疗子库中进行查询,只在其他医疗子库中进行查询;若在关系型数据表中均无查询结果,则在ES数据库中的所有医疗子库中进行查询;举例说明:若用户输入某医生姓名“XXX”,在关系型数据库的医生表中可查询到精确匹配字段,该输入不再分词,且不再在ES数据库中的医生库中进行查询,但会在“疾病库”、“药品库”等其他医疗子库中查询;若用户输入“失眠多梦”,如果关系型数据库中无查询结果,则会在ES数据库中的所有医疗子库中进行全文检索。
(4)在实体识别之后,可以将摘取出来的实体的同义词提取出来。同义词库中没有的实体则通过编辑距离算法与关系型数据库的各医疗表中字段进行语义相似度分析。两者结合得到相关内容推荐并展示到搜索页面。
本实施例将传统的索引式检索形式与ES全文检索检索形式结合起来,既解决了传统的索引式检索速度慢与检索质量不高的现象又解决了ES全文检索在专有名词上分词过度的问题,同时独创的医学同义词词典及分词词典,在进行检索的同时给予用户相关内容推荐;解决了患者“知症不知病、知病不知医”的现状,将医院药物信息、医院信息、疾病信息等通过“医疗服务的智能搜索系统”广泛传播,并且提供从“寻医”到挂号,从“问药”到查看近期该药物处方医院的一条龙智能服务。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种医疗服务的智能搜索系统,其特征在于,包括关系型数据库、ES数据库,以及医学专有名词词典;所述医疗服务的智能搜索系统进一步包括:
信息输入模块,用于获取用户输入的查询信息;
实体抽取模块,用于通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;
第一数据搜索模块,用于将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;
第二数据搜索模块,用于当在所述关系型数据库中未搜索到所述目标实体词时,则将所述实体词在ES数据库中进行分词检索;并通过控制处理模块将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;
所述控制处理模块,用于当在所述关系型数据库中搜索到所述目标实体词时,将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;并在ES数据库中通过所述第二数据搜索模块,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;所述控制处理模块还将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;
信息提取模块,用于获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;
信息展示模块,用于向所述用户展示所述索引到的相应的医疗信息。
2.根据权利要求1所述的一种医疗服务的智能搜索系统,其特征在于,还包括:停用词库,所述停用词库中包含无效词汇;及:
去噪模块,用于根据所述停用词库,去除所述查询信息中的无效词汇。
3.根据权利要求1或2所述的一种医疗服务的智能搜索系统,其特征在于,还包括:
相关实体获取模块,用于获取与所述目标实体词相关的相关实体词;
所述第一数据搜索模块,还用于在所述关系型数据库中查找所述相关实体词,并通过所述控制处理模块将所述相关实体词所在的医疗表作为目标医疗表;
所述第二数据搜索模块,还用于在ES数据库中,根据所述相关实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将查找到所述相关实体词所在的医疗子库作为目标医疗子库;
所述信息提取模块,还用于获取所述相关实体词在所述目标医疗子库中索引到的医疗信息;并通过所述信息展示模块将所述相关实体词对应的医疗信息作为相关推荐信息展示给用户。
4.根据权利要求3所述的一种医疗服务的智能搜索系统,其特征在于,所述相关实体获取模块包括以下任意一项或多项:
同义词典及同义查找子模块;所述同义查找子模块,用于通过所述同义词典获取与所述目标实体词语义相同的同义实体词,并将所述同义实体词作为相关实体词;
同音词典及同音查找子模块,所述同音查找子模块,用于通过所述同音词典获取与所述目标实体词语音相同的同音实体词,并将所述同音实体词作为相关实体词;
上下位词典及上下位实体查找子模块,所述上下位实体查找子模块用于通过所述上下位词典获取所述目标实体词的上位实体词或下位实体词,并将所述实体词的上位实体词或下位实体词作为相关实体词;
同级关联词典及同级实体查找子模块,所述同级实体查找子模块,用于通过同级关联词典中的医疗知识关联图谱,获取与所述目标实体词相关的同级实体词,并将所述同级实体词作为相关实体词。
5.根据权利要求3所述的一种医疗服务的智能搜索系统,其特征在于,所述相关实体获取模块包括同义词典及同义查找子模块;其中:
所述同义查找子模块,用于通过所述同义词典获取与所述目标实体词语义相同的同义实体词,并将所述同义实体词作为相关实体词;
且所述同义查找子模块包括:
同义词获取单元,用于在所述同义词典中查找与所述目标实体词语义相同的同义实体词,并将查找到的所述同义实体词作为目标实体词;
目标字段获取单元,用于当未查找到所述同义实体词时,通过编辑距离算法在所述关系型数据库中获取与所述目标实体词的语义相似度高于预设相似度的目标字段,并将所述目标字段作为相关实体词。
6.一种医疗服务的智能搜索方法,其特征在于,包括:
获取用户输入的查询信息;
通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取,获得目标实体词;
将所述目标实体词在关系型数据库中进行搜索,判断是否可在所述关系型数据库存储的各医疗表中搜索到所述目标实体词;
若在所述关系型数据库中未搜索到所述目标实体词,则将所述目标实体词在ES数据库中进行分词检索;并将检索到的所述目标实体词所在的医疗子库作为目标医疗子库;
若在所述关系型数据库中搜索到所述目标实体词,则将所述目标实体词所在的表设为目标医疗表;所述关系型数据库中的医疗表与所述ES数据库中的医疗子库一一对应;
在ES数据库中,将所述目标实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将检索到所述目标实体词的医疗子库及所述目标医疗表对应的医疗子库作为目标医疗子库;
获取所述目标实体词在所述目标医疗子库中索引到的医疗信息;
向所述用户展示所述索引到的相应的医疗信息。
7.根据权利要求6所述的一种医疗服务的智能搜索方法,其特征在于,在接收到用户输入的查询信息之后,对所述查询信息进行实体抽取,获得目标实体词之前还包括:
通过停用词库去除所述查询信息中的无效词汇。
8.根据权利要求6或7所述的一种医疗服务的智能搜索方法,其特征在于,在通过命名实体识别算法、结合医学专有名词词典对所述查询信息进行实体抽取之后还包括:
获取与所述目标实体词相关的相关实体词;
在所述关系型数据库中查找所述相关实体词,并将所述相关实体词所在的医疗表作为目标医疗表;
在ES数据库中,根据所述相关实体词在除了所述目标医疗表对应的医疗子库之外的其它医疗子库中进行不分词检索;并将查找到所述相关实体词所在的医疗子库作为目标医疗子库;
获取所述相关实体词在所述目标医疗子库中索引到的医疗信息;
将所述相关实体词对应的医疗信息作为相关推荐信息展示给用户。
9.根据权利要求8所述的一种医疗服务的智能搜索方法,其特征在于,所述获取与所述目标实体词相关的相关实体词具体包括以下任意一项或多项:
通过同义词典获取与所述目标实体词语义相同的同义实体词,并将所述同义实体词作为相关实体词;
通过同音词典获取与所述目标实体词语音相同的同音实体词,并将所述同音实体词作为相关实体词;
通过上下位词典获取所述目标实体词的上位实体词或下位实体词,并将所述实体词的上位实体词或下位实体词作为相关实体词;
通过同级关联词典中的医疗知识关联图谱,获取与所述目标实体词相关的同级实体词,并将所述同级实体词作为相关实体词。
10.根据权利要求9所述的一种医疗服务的智能搜索方法,其特征在于,还包括:
当通过同义词典未查找到与所述目标实体词语义相同的同义实体词时,通过编辑距离算法在所述关系型数据库中获取相关实体词;所述相关实体词与所述目标实体词的语义相似度高于预设相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910676143.7A CN110413734B (zh) | 2019-07-25 | 2019-07-25 | 一种医疗服务的智能搜索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910676143.7A CN110413734B (zh) | 2019-07-25 | 2019-07-25 | 一种医疗服务的智能搜索系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413734A CN110413734A (zh) | 2019-11-05 |
CN110413734B true CN110413734B (zh) | 2023-02-17 |
Family
ID=68363111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910676143.7A Active CN110413734B (zh) | 2019-07-25 | 2019-07-25 | 一种医疗服务的智能搜索系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413734B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442869B (zh) * | 2019-08-01 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 一种医疗文本处理方法及其装置、设备和存储介质 |
CN111552780B (zh) * | 2020-04-29 | 2023-09-29 | 微医云(杭州)控股有限公司 | 医用场景的搜索处理方法、装置、存储介质及电子设备 |
CN111914154B (zh) * | 2020-07-29 | 2021-11-05 | 上海梅斯医药科技有限公司 | 一种智能搜索导向系统及方法 |
CN112115709B (zh) * | 2020-09-16 | 2021-06-04 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN112052261A (zh) * | 2020-09-29 | 2020-12-08 | 中国银行股份有限公司 | 一种基于es的银行外部数据管理方法、装置及设备 |
CN112434072B (zh) * | 2021-01-27 | 2021-04-30 | 浙江口碑网络技术有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN113380416A (zh) * | 2021-06-11 | 2021-09-10 | 山东健康医疗大数据有限公司 | 一种区域医疗数据快速检索方法 |
CN115186112B (zh) * | 2022-06-20 | 2023-08-04 | 中国中医科学院中医药信息研究所 | 一种基于辨证映射规则的医药数据检索方法及装置 |
CN116028598B (zh) * | 2023-03-30 | 2023-05-30 | 紫金诚征信有限公司 | 一种基于es的文件生成方法、装置及计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0876178A1 (en) * | 1996-01-16 | 1998-11-11 | Medtronic, Inc. | Compressed patient narrative storage in and full text reconstruction from implantable medical devices |
WO2007149623A2 (en) * | 2006-04-25 | 2007-12-27 | Infovell, Inc. | Full text query and search systems and method of use |
WO2014003543A1 (en) * | 2012-06-29 | 2014-01-03 | Sopheon N.V. | Method, system and computer program for generating a query representation of a document, and querying a document retrieval system using said query representation |
CN106708996A (zh) * | 2016-12-19 | 2017-05-24 | 北京天广汇通科技有限公司 | 用于对关系数据库进行全文搜索的方法及系统 |
CN107122443A (zh) * | 2017-04-24 | 2017-09-01 | 中国科学院软件研究所 | 一种基于Spark SQL的分布式全文检索系统及方法 |
WO2018015080A1 (en) * | 2016-07-19 | 2018-01-25 | Siemens Healthcare Gmbh | Medical image segmentation with a multi-task neural network system |
CN109299239A (zh) * | 2018-09-29 | 2019-02-01 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011018111A (ja) * | 2009-07-07 | 2011-01-27 | Konica Minolta Medical & Graphic Inc | 情報処理システム、およびプログラム |
-
2019
- 2019-07-25 CN CN201910676143.7A patent/CN110413734B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0876178A1 (en) * | 1996-01-16 | 1998-11-11 | Medtronic, Inc. | Compressed patient narrative storage in and full text reconstruction from implantable medical devices |
WO2007149623A2 (en) * | 2006-04-25 | 2007-12-27 | Infovell, Inc. | Full text query and search systems and method of use |
WO2014003543A1 (en) * | 2012-06-29 | 2014-01-03 | Sopheon N.V. | Method, system and computer program for generating a query representation of a document, and querying a document retrieval system using said query representation |
WO2018015080A1 (en) * | 2016-07-19 | 2018-01-25 | Siemens Healthcare Gmbh | Medical image segmentation with a multi-task neural network system |
CN106708996A (zh) * | 2016-12-19 | 2017-05-24 | 北京天广汇通科技有限公司 | 用于对关系数据库进行全文搜索的方法及系统 |
CN107122443A (zh) * | 2017-04-24 | 2017-09-01 | 中国科学院软件研究所 | 一种基于Spark SQL的分布式全文检索系统及方法 |
CN109299239A (zh) * | 2018-09-29 | 2019-02-01 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
Non-Patent Citations (1)
Title |
---|
医疗大数据搜索系统的建设与应用;郝梅等;《医疗卫生装备》;20190215;第40卷(第2期);第43-46、59页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110413734A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413734B (zh) | 一种医疗服务的智能搜索系统及方法 | |
CN107993724B (zh) | 一种医学智能问答数据处理的方法及装置 | |
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
US9881037B2 (en) | Method for systematic mass normalization of titles | |
CN112786194A (zh) | 基于人工智能的医学影像导诊导检系统、方法及设备 | |
US20190035506A1 (en) | Intelligent auxiliary diagnosis method, system and machine-readable medium thereof | |
CN111813957A (zh) | 基于知识图谱的医疗导诊方法和可读存储介质 | |
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
US20200020423A1 (en) | A method and system for matching subjects to clinical trials | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
Dorji et al. | Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary | |
Armentano et al. | NLP-based faceted search: Experience in the development of a science and technology search engine | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
KR20020072092A (ko) | 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템 | |
CN115186112B (zh) | 一种基于辨证映射规则的医药数据检索方法及装置 | |
US10318565B2 (en) | Method and system for searching phrase concepts in documents | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
US11269937B2 (en) | System and method of presenting information related to search query | |
CN110188169A (zh) | 一种基于简化标签的知识匹配方法、系统及设备 | |
Cossin et al. | Semi-automatic extraction of abbreviations and their senses from electronic health records | |
Valêncio et al. | Automatic knowledge extraction supported by semantic enrichment in medical records | |
Zhou et al. | Testing and Evaluating SNOMED CT Web Browsers' Textual Search Feature | |
Zhang | A knowledge graph based medical intelligent question answering system | |
Liu et al. | Conceptual Retrieval of Chinese Frequently Asked Healthcare Questions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |