CN111223533B - 一种医疗数据检索方法及系统 - Google Patents

一种医疗数据检索方法及系统 Download PDF

Info

Publication number
CN111223533B
CN111223533B CN201911349361.6A CN201911349361A CN111223533B CN 111223533 B CN111223533 B CN 111223533B CN 201911349361 A CN201911349361 A CN 201911349361A CN 111223533 B CN111223533 B CN 111223533B
Authority
CN
China
Prior art keywords
medical data
keyword
retrieval
search text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911349361.6A
Other languages
English (en)
Other versions
CN111223533A (zh
Inventor
陈汝林
黄志华
王浩
曹霖
聂国辉
梁结燕
万宗
熊定
陈庆山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen United Imaging Healthcare Data Service Co ltd
Original Assignee
Shenzhen United Imaging Healthcare Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen United Imaging Healthcare Data Service Co ltd filed Critical Shenzhen United Imaging Healthcare Data Service Co ltd
Priority to CN201911349361.6A priority Critical patent/CN111223533B/zh
Publication of CN111223533A publication Critical patent/CN111223533A/zh
Application granted granted Critical
Publication of CN111223533B publication Critical patent/CN111223533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种医疗数据检索方法及系统中,后端服务器根据自定义检索文本和预定义检索文本生成关键词检索条件和过滤条件后,将关键词检索条件发送给Solr服务器;接着Solr服务器根据关键词检索条件中的所有关键词进行数据查找,查找完成后先根据医疗数据的影响力进行初次降序排序,再运用倒排索引的的方式,根据优先权最高的关键词所出现的频率进行二次降序排序,由此得到的目标医疗数据集中排序靠前的医疗数据即为用户所需要的数据,从而提高了数据检索的精确度;接着后端服务器根据过滤条件过滤目标医疗数据集后,将已过滤的目标医疗数据集返回给客户端,因此进一步提高了数据检索的精确度;最后客户端对已过滤的目标医疗数据集进行展示。

Description

一种医疗数据检索方法及系统
技术领域
本发明涉及临床医疗技术领域,尤其涉及一种医疗数据检索方法及系统。
背景技术
临床医疗检索系统为医生进行临床就诊时提供了一定的便利,医生就诊时通过检索可得到相关的信息,以做出更好的临床决策。但现有的临床医疗检索系统在检索中文时,其数据库通常采用模糊查询的方式,由于模糊查询的方式较为低效,不仅使得查询速度较慢,且查询得到的数据存在不准确的问题。可见,现有的临床医疗检索系统还需改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种医疗数据检索方法及系统,旨在解决现有临床医疗系统存在数据检索不精确的问题。
第一方面,本发明提供了一种医疗数据检索方法,应用于一种包括客户端、后端服务器和Solr服务器的医疗数据检索系统,所述医疗数据检索方法包括:
所述客户端获取用户输入的自定义检索文本与预定义检索文本,并将所述自定义检索文本与预定义检索文本发送给所述后端服务器;其中,所述自定义检索文本包括至少一个关键词或至少一个关键词与至少一个屏蔽词,所述预定义检索文本包括就诊起始年龄、就诊终止年龄、性别、就诊起始时间、就诊终止时间或就诊科室中的一种或多种;
所述后端服务器在接收到所述自定义检索文本与预定义检索文本后,生成关键词检索条件和过滤条件,并将所述关键词检索条件发送给所述Solr服务器;
所述Solr服务器在接收到所述关键词检索条件后,根据所述关键词检索条件中的所有关键词进行数据查找,以获取若干个待处理医疗数据,接着先根据医疗数据的影响力进行初次降序排序,再根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集,并将所述目标医疗数据集返回给所述后端服务器;
所述后端服务器在接收到所述目标医疗数据集后,根据所述过滤条件对所述目标医疗数据集进行数据过滤,并将已过滤的目标医疗数据集返回给所述客户端;
所述客户端在接收到所述已过滤的目标医疗数据集后,进行数据展示。
进一步地,所述将所述自定义检索文本与预定义检索文本发送给所述后端服务器的步骤包括:
检测所述自定义检索文本是否为空文本,若所述自定义检索文本不为空文本,则将所述自定义检索文本与预定义检索文本发送给所述后端服务器。
进一步地,所述生成关键词检索条件和过滤条件的步骤包括:
获取所述自定义检索文本中的所有关键词或所有关键词与所有屏蔽词,并获取所述预定义检索文本中若干个数据筛选范围;
将所述所有关键词生成关键词检索条件,并将所述所有屏蔽词和所有数据筛选范围生成过滤条件。
进一步地,所述根据医疗数据的影响力进行初次降序排序的步骤具体包括:
分别根据每一个待处理医疗数据的入链数获取对应于当前待处理医疗数据的入链集合,再根据所述入链集合得到当前待处理医疗数据的影响力;
根据影响力对所有待处理医疗数据进行初次降序排序。
再进一步地,所述查找完成后根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集的步骤包括:
根据预设的关键词优先权表,获取所有关键词中优先权最高的关键词,并更新所述关键词优先权表;
分别将每一个待处理医疗数据进行分词后,统计每一个待处理医疗数据中所述优先权最高的关键词所出现的频率;
根据所述优先权最高的关键词所出现的频率,对所有待处理医疗数据进行二次降序排序,以获取所述目标医疗数据集。
再进一步地,所述更新所述关键词优先权表的步骤包括:
依次将每一个关键词与所述关键词优先权表中记录的关键词进行比对,若所述关键词优先权表有记录当前关键词,则增加当前关键词的权重;若所述关键词优先权表中没有记录当前关键词,则在所述关键词优先权表中增设当前关键词,并将当前关键词的权重设置为基础权重。
进一步地,所述将已过滤的目标医疗数据集返回给所述客户端的步骤之前还包括:
根据所述目标医疗数据集中的每一个医疗数据的数据属性,在预先设置的标签对应表中找到相对应的识别标签,为所述目标医疗数据集中的每一个医疗数据添加相对应的识别标签。
进一步地,所述进行数据展示的步骤包括:
根据所述自定义检索文本中的所有关键词,分别对已过滤的目标医疗数据集中每一个医疗数据中的关键词进行高亮,高亮完成后进行数据展示。
进一步地,所述医疗数据检索方法还包括:
预先将历史医疗数据导入到所述Solr服务器,并为每一个历史医疗数据标上出链数和入链数。
第二方面,本发明还提供了一种医疗数据检索系统,所述医疗数据检索系统包括客户端、后端服务器和与Solr服务器,其中,
所述客户端,用于获取用户输入的自定义检索文本与预定义检索文本,并将所述自定义检索文本与预定义检索文本发送给所述后端服务器;其中,所述自定义检索文本包括至少一个关键词或至少一个关键词与至少一个屏蔽词,所述预定义检索文本包括就诊起始年龄、就诊终止年龄、性别、就诊起始时间、就诊终止时间或就诊科室中的一种或多种;
所述后端服务器,用于在接收到所述自定义检索文本与预定义检索文本后,生成关键词检索条件和过滤条件,并将所述关键词检索条件发送给所述Solr服务器;
所述Solr服务器,用于在接收到所述关键词检索条件后,根据所述关键词检索条件中的所有关键词进行数据查找,以获取若干个待处理医疗数据,接着先根据医疗数据的影响力进行初次降序排序,再根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集,并将所述目标医疗数据集返回给所述后端服务器;
所述后端服务器,还用于在接收到所述目标医疗数据集后,根据所述过滤条件对所述目标医疗数据集进行数据过滤,并将已过滤的目标医疗数据集返回给所述客户端;
所述客户端,还用于在接收到所述已过滤的目标医疗数据集后,进行数据展示。
相较于现有技术,本发明提供的一种医疗数据检索方法及系统中,后端服务器根据自定义检索文本和预定义检索文本生成关键词检索条件和过滤条件后,将关键词检索条件发送给Solr服务器;接着Solr服务器根据关键词检索条件中的所有关键词进行数据查找,查找完成后先根据医疗数据的影响力进行初次降序排序,再运用倒排索引的的方式,根据优先权最高的关键词所出现的频率进行二次降序排序,由此得到的目标医疗数据集中排序靠前的医疗数据即为用户所需要的数据,从而提高了数据检索的精确度;接着后端服务器根据过滤条件过滤目标医疗数据集后,将已过滤的目标医疗数据集返回给客户端,因此进一步提高了数据检索的精确度;最后客户端对已过滤的目标医疗数据集进行展示。
附图说明
图1为本发明实施例1提供的一种医疗数据检索方法的流程图;
图2为本发明实施例2提供的一种医疗数据检索系统的结构图。
具体实施方式
本发明提供了一种医疗数据检索方法、存储介质及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供了一种医疗数据检索方法,请参阅图1,该方法应用于一种包括客户端、后端服务器和Solr服务器的医疗数据检索系统,该方法具体包括以下步骤:
S10、所述客户端获取用户输入的自定义检索文本与预定义检索文本,并将所述自定义检索文本与预定义检索文本发送给所述后端服务器。
具体来说,用户(主要为医护人员)在客户端输入自定义检索文本和预定义检索文本之后,客户端获取自定义检索文本和预定义检索文本,并将这两个文本生成一个数据请求文件,然后将该数据请求文件发送给后端服务器。
上述步骤S10中,自定义检索文本包括至少一个关键词或至少一个关键词与至少一个屏蔽词,所述预定义检索文本包括就诊起始年龄、就诊终止年龄、性别、就诊起始时间、就诊终止时间或就诊科室中的一种或多种。
具体来说,自定义检索文本包括用户自行输入的所要检索的关键词,可以为疾病名称或药品名称等,比如高血压、冠心丸;自定义检索文本还可以包括用户输入的屏蔽词,比如糖尿病。自定义检索文本主要包括至少一个关键词,或者还可以包括至少一个屏蔽词,比如,用户想检索心脏病和冠心丸的相关信息,但同时用户想得到的信息中不包括心脏病的信息,因此用户就可以输入两个关键词心脏病和冠心丸,同时输入一个屏蔽词糖尿病。
预定义检索文本是为用户提供的若干个附加检索条件,包括就诊起始年龄、就诊终止年龄、性别、就诊起始时间、就诊终止时间或就诊科室中的一种或多种。值得一提的是,预定义检索文本是通过发明人和医务科室人员进行多次沟通,且深入科研调查和研究了大量临床医疗数据分析得出来的文本。
如此,自定义检索文本和预定义检索文本的组合可以为用户提供精确的检索依据,从而提高了数据检索的精确性。
进一步地,步骤S10中的“将所述自定义检索文本与预定义检索文本发送给所述后端服务器”具体包括:
S11、检测所述自定义检索文本是否为空文本,若所述自定义检索文本不为空文本,则将所述自定义检索文本与预定义检索文本发送给所述后端服务器。
具体来说,客户端在获取了自定义检索文本与预定义检索文本之后,为了避免一些不必要的检索,需检测自定义检索文本是否不为空文本。若用户输入的自定义检索文本不为空文本,则说明用户此时是需要进行数据检索的,因此客户端将两个文本生成JSON格式的数据请求文件,再将该数据请求文件发送给后端服务器。
S20、所述后端服务器在接收到所述自定义检索文本与预定义检索文本后,生成关键词检索条件和过滤条件,并将所述关键词检索条件发送给所述Solr服务器。
进一步地,步骤S20中的“生成关键词检索条件和过滤条件”具体包括:
S21、获取所述自定义检索文本中的所有关键词或所有关键词与所有屏蔽词,并获取所述预定义检索文本中若干个数据筛选范围。
S22、将所述所有关键词生成关键词检索条件,并将所述所有屏蔽词和所有数据筛选范围生成过滤条件。
具体来说,后端服务器在接收到数据请求文件之后,对该数据请求文件进行JSON解析,以得到自定义检索文本与预定义检索文本。
自定义检索文本是用户自行输入的信息,也是用户最主要的检索依据,因此在得到自定义检索文本之后,获取该文本中所有的关键词生成关键词检索条件。
自定义检索文本中的所有屏蔽词为用户不想检索到的信息,因此将所有屏蔽词作为过滤条件的一个组成部分;预定义检索文本是用户选择的一些数据筛选范围,比如就诊年龄范围、就诊时间范围、就诊性别或就诊科室范围等,因此将其作为过滤条件的另一个组成部分。如此,将所有屏蔽词和所有数据筛选范围生成过滤条件,用于在Solr服务器返回数据之后进行过滤。
S30、所述Solr服务器在接收到所述关键词检索条件后,根据所述关键词检索条件中的所有关键词进行数据查找,以获取若干个待处理医疗数据,接着先根据医疗数据的影响力进行初次降序排序,再根据优先权最高的关键词所出现的频率进行降序排序,以获取目标医疗数据集,并将所述目标医疗数据集返回给所述后端服务器。
具体来说,在Solr服务器接收到后端服务器发送的关键词检索条件后,根据所有关键词进行数据的查找,得到若干个均包括所有关键词的待处理医疗数据,接着先根据医疗数据的影响力和优先权最高的关键词所出现的频率对所有待处理医疗数据进行两次降序排序,由此得到目标医疗数据集。在得到目标医疗数据集之后Solr服务器将该数据集返回给后端服务器。
进一步地,上述医疗数据检索方法还包括:
预先将历史医疗数据导入到所述Solr服务器,并为每一个历史医疗数据标上出链数和入链数。
具体来说,要进行数据检索,需要Solr服务器拥有大量的历史数据,即需要设置医疗数据库,因此可以将用户所在医院的历史医疗数据预先导入到Solr服务器中,也可以将其他途径的历史医疗数据导入到Solr服务器中,比如其他医院等。
并且在将历史医疗数据导入到Solr服务器之后,还需要为每一个历史医疗数据标上出链数和入链数。具体地,可以根据医疗知识库分别为每一个历史医疗数据标上出链数和入链数;也可以根据每一个历史医疗数据中的疾病诊断、临时用药、长期用药、检查报告、检验报告或病历文书中的内容以及关键字(比如心脏病、高血压等)进行计算,得到的计算结果即该历史医疗数据或医疗关键字的出链数和入链数,从而为每一个历史医疗数据标上出链数和入链数。此外,需要说明的是,为每一个历史医疗数据标上出链数和入链数的具体方式并不限制于上述两种方式。
进一步地,步骤S30中的“根据医疗数据的影响力进行初次降序排序”具体包括:
S31、分别根据每一个待处理医疗数据的入链接获取对应于当前待处理医疗数据的入链集合,再根据所述入链集合得到当前待处理医疗数据的影响力。
S32、根据影响力对所有待处理医疗数据进行初次降序排序。
具体来说,每一个待处理医疗数据都有其对应的出链数和入链数,出链代表用户查看该医疗数据时也查看了其他医疗数据,出链数代表用户查看其他医疗数据的数量;入链代表用户查看其他医疗数据时也查看了该医疗数据,入链数代表用户查看其他医疗数据的数量。举个例子,有4个医疗数据A、B、C和D,A有3个出链(B、C和D),A有2个入链(B和C),如此,用户在查看A时,也查看了B、C和D;用户在分别查看B和C时,均查看了A,因此,A的出链数为3,入链数为2。
需要说明的是,当用户使用本实施例所述的方法相对应的医疗检索系统进行检索,在得到若干个医疗数据之后进行的阅读操作,将更新医疗数据库中相对应的医疗数据的出入链标识,即更新其出链数和入链数。
因此,对一个待处理医疗数据来说,获取其影响力具体为:先根据入链数获取该医疗数据的所有入链医疗数据(即入链集合),接着根据以下公式计算得到该医疗数据的影响力,
上述公式中,u代表该医疗数据,PR(u)代表该医疗数据u的影响力,Bu代表该医疗数据所对应的入链集合,v为该入链集合中的任意医疗数据,PR(v)代表医疗数据v的影响力,L(v)代表医疗数据v的出链数。具体运算为入链集合中每一个医疗数据的影响力除以其出链数,再进行累加,即可得到该医疗数据u的影响力。
按照上述过程对每一个待处理医疗数据进行同样的处理,分别获得每一个待处理医疗数据的影响力,如此,根据影响力进行降序排序,排在前面的医疗数据即为用户所需要的数据,从而提高了数据检索的精确度。
进一步地,步骤S30中的“查找完成后根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集”具体包括:
S33、根据预设的关键词优先权表,获取所有关键词中优先权最高的关键词,并更新所述关键词优先权表。
具体来说,预先在Solr服务器中设置关键词优先权表,此表记录着若干个关键词与其对应的权重,权重表示该关键词已被检索过的次数。举个例子,某个关键词“高血压”,在关键词优先权表中记录着“高血压”的权重为34,则表示“高血压”已经被检索过了34次。由于权重表示该关键词已被检索过的次数,即说明这个关键词较为重要,因此后续降序排序就是依据关键词检索条件中权重最大的那个关键词,即优先权最高的关键词。为此,将每一个关键词和关键词优先权表进行比对,即可以得到优先权最高的关键词。
再进一步地,步骤S33中的“更新所述关键词优先权表”具体包括:
S331、依次将每一个关键词与所述关键词优先权表中记录的关键词进行比对,若所述关键词优先权表有记录当前关键词,则增加当前关键词的权重;若所述关键词优先权表中没有记录当前关键词,则在所述关键词优先权表中增设当前关键词,并将当前关键词的权重设置为基础权重。
具体来说,关键词优先权表记录着若干个关键词与其对应的权重,但是,关键词优先权表不一定都记录有关键词检索条件中每一个关键词与其对应的权重,因此,每进行一次数据检索,都需要进行更新关键词优先权表。具体的更新过程如下:
将关键词检索条件中每一个关键词依次与关键词优先权表进行对比,若关键词优先权表中有记录当前进行比对的关键词,则增加当前关键词的权重,本实施例中为当前关键词的权重加1;若关键词优先权表中没有记录当前进行比对的关键词,则在关键词优先权表中增设当前关键词,并且将其权重设置其基础权重(即初始值),本实施例中将基础权重设置为1。S33、分别将每一个待处理医疗数据进行分词后,统计每一个待处理医疗数据中所述优先权最高的关键词所出现的频率。
S34、分别将每一个待处理医疗数据进行分词后,统计每一个待处理医疗数据中所述优先权最高的关键词所出现的频率。
S35、根据所述优先权最高的关键词所出现的频率,对所有待处理医疗数据进行降序排序,以获取所述目标医疗数据集。
具体来说,Solr服务器在得到若干个待处理医疗数据后,可以将每一个待处理医疗数据当做字符串进行分词,主要去除掉待处理医疗数据中无用的介词和标点符号,比如“在”、“的”或“!”。接着,统计每一个分词后的待处理医疗数据中优先权最高的关键词所出现的频率,即该关键词出现的次数。比如,优先权最高的关键词在某一个待处理医疗数据中出现了两次,则该关键词出现的频率为2。
接着,根据优先权最高的关键词所出现的频率,对所有待处理医疗数据进行降序排序,即根据频率从大到小进行排序,排序后的所有待处理医疗数据即目标医疗数据集。
可以看出,目标医疗数据集中排序靠前的医疗数据即为用户所需要的数据,从而提高了数据检索的精确度。
S40、所述后端服务器在接收到所述目标医疗数据集后,根据所述过滤条件对所述目标医疗数据集进行数据过滤,并将已过滤的目标医疗数据集返回给所述客户端。
具体来说,在后端服务器接收到Solr服务器返回的目标医疗数据集之后,根据步骤S20生成的过滤条件,对目标医疗数据集进行数据过滤,即筛选出用户所需要的数据。具体的过滤过程为:一方面,根据所有屏蔽词,过滤掉目标医疗数据集中带有屏蔽词的医疗数据;另一方面,根据所有数据筛选范围,对目标医疗数据集进行若干次范围性过滤,比如,用户选择的就诊起始年龄为20岁,就诊终止年龄为30岁,即用户选择的就诊年龄范围为20-30岁,则过滤目标医疗数据集中就诊年龄不在此范围内的数据。如此即可得到已过滤的目标医疗数据集并将其返回给客户端。
可以看出,对目标医疗数据集进行二次过滤,使得目标医疗数据集中包括的所有医疗数据都是用户需要的数据,进一步提高了用户检索所得数据的精确度。
进一步地,步骤S40中的“将已过滤的目标医疗数据集返回给所述客户端”之前还包括:
S41、根据所述目标医疗数据集中的每一个医疗数据的数据属性,在预先设置的标签对应表中找到相对应的识别标签,为所述目标医疗数据集中的每一个医疗数据添加相对应的识别标签。
具体来说,由于目标医疗数据集中的医疗数据都不带有识别标签,若不做处理直接返回客户端进行展示,用户需要费很大的精力去进行识别。因此为了更好的将数据展示给用户,后端服务器需要对每一个医疗数据添加识别标签。具体地,在进行此步骤之前,需要预先设置一个标签对应表,该表中存储有若干个数据属性与识别标签的对应关系。目标医疗数据集中的每一条记录都带有数据属性,一般该数据属性都为英文,因此根据该数据属性,在预先设置的标签对应表中找到数据属性的对应识别标签,如此即可为目标医疗数据集中的每一个医疗数据添加相对应的识别标签。比如,某一个医疗数据的数据属性为“operationInfo”,在标签对应表中,该数据属性对应的识别标签为“手术信息”,如此即可为该记录添加识别标签“手术信息”。在本实施例中,识别标签包括诊断结果、诊断信息、手术信息、医嘱处方、检验报告、检查报告或病例文书等。
S50、所述客户端在接收到所述已过滤的目标医疗数据集后,进行数据展示。
进一步地,步骤S50具体包括:
S51、根据所述自定义检索文本中的所有关键词,分别对已过滤的目标医疗数据集中每一个医疗数据中的关键词进行高亮,高亮完成后进行数据展示。
具体来说,客户端在接收到后端服务器返回的已过滤的目标医疗数据集,由于此时的目标医疗数据集已经非常精确,但为了方便用户观看,需进行相应的处理。在本实施例中,根据预定义文本中的所有关键词,如此可对每一个医疗数据中的关键词进行高亮,并展示给用户查看。
综上所述,本发明提供的一种医疗数据检索方法中,后端服务器根据自定义检索文本和预定义检索文本生成关键词检索条件和过滤条件后,将关键词检索条件发送给Solr服务器;接着Solr服务器根据关键词检索条件中的所有关键词进行数据查找,查找完成后先根据医疗数据的影响力进行初次降序排序,再运用倒排索引的的方式,根据优先权最高的关键词所出现的频率进行二次降序排序,由此得到的目标医疗数据集中排序靠前的医疗数据即为用户所需要的数据,从而提高了数据检索的精确度;接着后端服务器根据过滤条件过滤目标医疗数据集后,将已过滤的目标医疗数据集返回给客户端,因此进一步提高了数据检索的精确度;最后客户端对已过滤的目标医疗数据集进行展示。
实施例2
本实施例还提供了一种医疗数据检索系统,请参阅图2,所述医疗数据检索系统包括客户端100、后端服务器200和与Solr服务器300,其中,
所述客户端,用于获取用户输入的自定义检索文本与预定义检索文本,并将所述自定义检索文本与预定义检索文本发送给所述后端服务器;其中,所述自定义检索文本包括至少一个关键词或至少一个关键词与至少一个屏蔽词,所述预定义检索文本包括就诊起始年龄、就诊终止年龄、性别、就诊起始时间、就诊终止时间或就诊科室中的一种或多种;
所述后端服务器,用于在接收到所述自定义检索文本与预定义检索文本后,生成关键词检索条件和过滤条件,并将所述关键词检索条件发送给所述Solr服务器;
所述Solr服务器,用于在接收到所述关键词检索条件后,根据所述关键词检索条件中的所有关键词进行数据查找,以获取若干个待处理医疗数据,接着先根据医疗数据的影响力进行初次降序排序,再根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集,并将所述目标医疗数据集返回给所述后端服务器;
所述后端服务器,还用于在接收到所述目标医疗数据集后,根据所述过滤条件对所述目标医疗数据集进行数据过滤,并将已过滤的目标医疗数据集返回给所述客户端;
所述客户端,还用于在接收到所述已过滤的目标医疗数据集后,进行数据展示。
本实施例中的系统与实施例1中的方法是基于同一发明构思下的两个方面,在前面已经对方法的具体实施过程作了详细的描述,所以本领域技术人员可根据前述描述清楚地了解本实施例中的系统的结构及实施过程,为了说明书的简洁,在此就不再赘述。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种医疗数据检索方法,应用于一种包括客户端、后端服务器和Solr服务器的医疗数据检索系统,其特征在于,所述医疗数据检索方法包括:
所述客户端获取用户输入的自定义检索文本与预定义检索文本,并将所述自定义检索文本与预定义检索文本发送给所述后端服务器;其中,所述自定义检索文本包括至少一个关键词或至少一个关键词与至少一个屏蔽词,所述预定义检索文本包括就诊起始年龄、就诊终止年龄、性别、就诊起始时间、就诊终止时间或就诊科室中的一种或多种;
所述后端服务器在接收到所述自定义检索文本与预定义检索文本后,生成关键词检索条件和过滤条件,并将所述关键词检索条件发送给所述Solr服务器;
所述Solr服务器在接收到所述关键词检索条件后,根据所述关键词检索条件中的所有关键词进行数据查找,以获取若干个待处理医疗数据,接着先根据医疗数据的影响力进行初次降序排序,再根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集,并将所述目标医疗数据集返回给所述后端服务器;
所述初次降序排序按照如下方式进行:分别根据每一个待处理医疗数据的入链数据的入链数获取对应于当前待处理医疗数据的入链集合,再根据所述入链集合得到当前待处理医疗数据的影响力;影响力的公式如下:
u代表该医疗数据,PR(u)代表该医疗数据u的影响力,Bu代表该医疗数据所对应的入链集合,v为该入链集合中的任意医疗数据,PR(v)代表医疗数据v的影响力,L(v)代表医疗数据v的出链数;根据影响力对所有待处理医疗数据进行初次降序排序;
所述后端服务器在接收到所述目标医疗数据集后,根据所述过滤条件对所述目标医疗数据集进行数据过滤,并将已过滤的目标医疗数据集返回给所述客户端;
所述客户端在接收到所述已过滤的目标医疗数据集后,进行数据展示。
2.根据权利要求1所述的医疗数据检索方法,其特征在于,所述将所述自定义检索文本与预定义检索文本发送给所述后端服务器的步骤包括:
检测所述自定义检索文本是否为空文本,若所述自定义检索文本不为空文本,则将所述自定义检索文本与预定义检索文本发送给所述后端服务器。
3.根据权利要求1所述的医疗数据检索方法,其特征在于,所述生成关键词检索条件和过滤条件的步骤包括:
获取所述自定义检索文本中的所有关键词或所有关键词与所有屏蔽词,并获取所述预定义检索文本中若干个数据筛选范围;
将所述所有关键词生成关键词检索条件,并将所述所有屏蔽词和所有数据筛选范围生成过滤条件。
4.根据权利要求1所述的医疗数据检索方法,其特征在于,所述根据医疗数据的影响力进行初次降序排序的步骤具体包括:
分别根据每一个待处理医疗数据的入链数获取对应于当前待处理医疗数据的入链集合,再根据所述入链集合得到当前待处理医疗数据的影响力;
根据影响力对所有待处理医疗数据进行初次降序排序。
5.根据权利要求4所述的医疗数据检索方法,其特征在于,所述查找完成后根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集的步骤包括:
根据预设的关键词优先权表,获取所有关键词中优先权最高的关键词,并更新所述关键词优先权表;
分别将每一个待处理医疗数据进行分词后,统计每一个待处理医疗数据中所述优先权最高的关键词所出现的频率;
根据所述优先权最高的关键词所出现的频率,对所有待处理医疗数据进行二次降序排序,以获取所述目标医疗数据集。
6.根据权利要求5所述的医疗数据检索方法,其特征在于,所述更新所述关键词优先权表的步骤包括:
依次将每一个关键词与所述关键词优先权表中记录的关键词进行比对,若所述关键词优先权表有记录当前关键词,则增加当前关键词的权重;若所述关键词优先权表中没有记录当前关键词,则在所述关键词优先权表中增设当前关键词,并将当前关键词的权重设置为基础权重。
7.根据权利要求1所述的医疗数据检索方法,其特征在于,所述将已过滤的目标医疗数据集返回给所述客户端的步骤之前还包括:
根据所述目标医疗数据集中的每一个医疗数据的数据属性,在预先设置的标签对应表中找到相对应的识别标签,为所述目标医疗数据集中的每一个医疗数据添加相对应的识别标签。
8.根据权利要求1所述的医疗数据检索方法,其特征在于,所述进行数据展示的步骤包括:
根据所述自定义检索文本中的所有关键词,分别对已过滤的目标医疗数据集中每一个医疗数据中的关键词进行高亮,高亮完成后进行数据展示。
9.根据权利要求1所述的医疗数据检索方法,其特征在于,所述医疗数据检索方法还包括:
预先将历史医疗数据导入到所述Solr服务器,并为每一个历史医疗数据标上出链数和入链数。
10.一种医疗数据检索系统,其特征在于,所述医疗数据检索系统包括客户端、后端服务器和与Solr服务器,其中,
所述客户端,用于获取用户输入的自定义检索文本与预定义检索文本,并将所述自定义检索文本与预定义检索文本发送给所述后端服务器;其中,所述自定义检索文本包括至少一个关键词或至少一个关键词与至少一个屏蔽词,所述预定义检索文本包括就诊起始年龄、就诊终止年龄、性别、就诊起始时间、就诊终止时间或就诊科室中的一种或多种;
所述后端服务器,用于在接收到所述自定义检索文本与预定义检索文本后,生成关键词检索条件和过滤条件,并将所述关键词检索条件发送给所述Solr服务器;
所述Solr服务器,用于在接收到所述关键词检索条件后,根据所述关键词检索条件中的所有关键词进行数据查找,以获取若干个待处理医疗数据,接着先根据医疗数据的影响力进行初次降序排序,再根据优先权最高的关键词所出现的频率进行二次降序排序,以获取目标医疗数据集,并将所述目标医疗数据集返回给所述后端服务器;
其中,所述初次降序排序按照如下方式进行:分别根据每一个待处理医疗数据的入链数据的入链数获取对应于当前待处理医疗数据的入链集合,再根据所述入链集合得到当前待处理医疗数据的影响力;影响力的公式如下:
u代表该医疗数据,PR(u)代表该医疗数据u的影响力,Bu代表该医疗数据所对应的入链集合,v为该入链集合中的任意医疗数据,PR(v)代表医疗数据v的影响力,L(v)代表医疗数据v的出链数;根据影响力对所有待处理医疗数据进行初次降序排序;
所述后端服务器,还用于在接收到所述目标医疗数据集后,根据所述过滤条件对所述目标医疗数据集进行数据过滤,并将已过滤的目标医疗数据集返回给所述客户端;
所述客户端,还用于在接收到所述已过滤的目标医疗数据集后,进行数据展示。
CN201911349361.6A 2019-12-24 2019-12-24 一种医疗数据检索方法及系统 Active CN111223533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911349361.6A CN111223533B (zh) 2019-12-24 2019-12-24 一种医疗数据检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911349361.6A CN111223533B (zh) 2019-12-24 2019-12-24 一种医疗数据检索方法及系统

Publications (2)

Publication Number Publication Date
CN111223533A CN111223533A (zh) 2020-06-02
CN111223533B true CN111223533B (zh) 2024-02-13

Family

ID=70827841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911349361.6A Active CN111223533B (zh) 2019-12-24 2019-12-24 一种医疗数据检索方法及系统

Country Status (1)

Country Link
CN (1) CN111223533B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116572B (zh) * 2022-08-27 2022-11-25 朔至美(南通)科技有限公司 一种基于人工智能的医疗数据管理系统及方法
WO2024092975A1 (zh) * 2022-11-03 2024-05-10 上海维小美网络科技有限公司 一种用于口腔诊疗信息的内部数据检索系统

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000065588A (ko) * 1999-04-07 2000-11-15 맹성현 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법
US6862586B1 (en) * 2000-02-11 2005-03-01 International Business Machines Corporation Searching databases that identifying group documents forming high-dimensional torus geometric k-means clustering, ranking, summarizing based on vector triplets
CN101000611A (zh) * 2006-08-29 2007-07-18 曾文均 利用互联网为公众提供和查询信息的方法
CN101807213A (zh) * 2010-05-11 2010-08-18 天津大学 一种网页的垂直搜索方法
CN102088419A (zh) * 2009-12-07 2011-06-08 倪加元 一种在社交网络中查找好友信息的方法和系统
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN102193923A (zh) * 2010-03-05 2011-09-21 杭州华三通信技术有限公司 一种基于计算机程序的专利信息获取方法和装置
CN102651022A (zh) * 2012-03-31 2012-08-29 奇智软件(北京)有限公司 一种搜索方法和装置
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN104346331A (zh) * 2013-07-23 2015-02-11 北大方正集团有限公司 Xml数据库的检索方法及系统
CN104361042A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种信息检索方法及装置
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN105808649A (zh) * 2016-02-27 2016-07-27 腾讯科技(深圳)有限公司 一种搜索结果排序方法及其设备
CN106294588A (zh) * 2016-07-28 2017-01-04 广东中标数据科技股份有限公司 快速搜索所要查询内容的方法及装置
CN106611000A (zh) * 2015-10-26 2017-05-03 北京神州泰岳软件股份有限公司 一种检索资源对象的方法、装置和系统
CN106980677A (zh) * 2017-03-30 2017-07-25 电子科技大学 面向行业的主题搜索方法
CN107391659A (zh) * 2017-07-18 2017-11-24 北京工业大学 一种基于信誉度的引文网络学术影响力评价排序方法
CN107992630A (zh) * 2017-12-26 2018-05-04 医渡云(北京)技术有限公司 医疗数据检索方法及装置、存储介质、电子设备
CN110069610A (zh) * 2019-03-16 2019-07-30 平安科技(深圳)有限公司 基于Solr的检索方法、装置、设备和存储介质
CN110109870A (zh) * 2018-01-24 2019-08-09 江苏友上科技实业有限公司 一种基于Solr的海量数据快速检索系统
CN110347920A (zh) * 2019-07-02 2019-10-18 北京纵横无双科技有限公司 一种健康信息的检索匹配方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258049A1 (en) * 2005-09-14 2011-10-20 Jorey Ramer Integrated Advertising System
US10324598B2 (en) * 2009-12-18 2019-06-18 Graphika, Inc. System and method for a search engine content filter
EP3061017A1 (en) * 2013-10-25 2016-08-31 Sysomos L.P. Systems and methods for determining influencers in a social data network
US20160203221A1 (en) * 2014-09-12 2016-07-14 Lithium Technologies, Inc. System and apparatus for an application agnostic user search engine

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000065588A (ko) * 1999-04-07 2000-11-15 맹성현 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법
US6862586B1 (en) * 2000-02-11 2005-03-01 International Business Machines Corporation Searching databases that identifying group documents forming high-dimensional torus geometric k-means clustering, ranking, summarizing based on vector triplets
CN101000611A (zh) * 2006-08-29 2007-07-18 曾文均 利用互联网为公众提供和查询信息的方法
CN102088419A (zh) * 2009-12-07 2011-06-08 倪加元 一种在社交网络中查找好友信息的方法和系统
CN102193923A (zh) * 2010-03-05 2011-09-21 杭州华三通信技术有限公司 一种基于计算机程序的专利信息获取方法和装置
CN101807213A (zh) * 2010-05-11 2010-08-18 天津大学 一种网页的垂直搜索方法
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN102651022A (zh) * 2012-03-31 2012-08-29 奇智软件(北京)有限公司 一种搜索方法和装置
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN104346331A (zh) * 2013-07-23 2015-02-11 北大方正集团有限公司 Xml数据库的检索方法及系统
CN104361042A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种信息检索方法及装置
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN106611000A (zh) * 2015-10-26 2017-05-03 北京神州泰岳软件股份有限公司 一种检索资源对象的方法、装置和系统
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN105808649A (zh) * 2016-02-27 2016-07-27 腾讯科技(深圳)有限公司 一种搜索结果排序方法及其设备
CN106294588A (zh) * 2016-07-28 2017-01-04 广东中标数据科技股份有限公司 快速搜索所要查询内容的方法及装置
CN106980677A (zh) * 2017-03-30 2017-07-25 电子科技大学 面向行业的主题搜索方法
CN107391659A (zh) * 2017-07-18 2017-11-24 北京工业大学 一种基于信誉度的引文网络学术影响力评价排序方法
CN107992630A (zh) * 2017-12-26 2018-05-04 医渡云(北京)技术有限公司 医疗数据检索方法及装置、存储介质、电子设备
CN110109870A (zh) * 2018-01-24 2019-08-09 江苏友上科技实业有限公司 一种基于Solr的海量数据快速检索系统
CN110069610A (zh) * 2019-03-16 2019-07-30 平安科技(深圳)有限公司 基于Solr的检索方法、装置、设备和存储介质
CN110347920A (zh) * 2019-07-02 2019-10-18 北京纵横无双科技有限公司 一种健康信息的检索匹配方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Estimating search engine index size variability: a 9-year longitudinal study;van den Bosch, A等;SCIENTOMETRICS;第107卷(第2期);第839-856页 *
文件搜索引擎数据采集策略的优化;胡亮;袁芳;齐芸芸;;计算机工程与设计(第03期);第189-190+194页 *

Also Published As

Publication number Publication date
CN111223533A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
US10025904B2 (en) Systems and methods for managing a master patient index including duplicate record detection
Whittemore et al. The integrative review: updated methodology
US11328128B2 (en) System and method for analysis and navigation of data
US10572461B2 (en) Systems and methods for managing a master patient index including duplicate record detection
US20140244625A1 (en) Sequence read archive interface
US20050015381A1 (en) Database management system
US11774264B2 (en) Method and system for providing information to a user relating to a point-of-interest
US8352416B2 (en) Diagnostic report search supporting apparatus and diagnostic report searching apparatus
CN106095738B (zh) 推荐表单片段
CN110866018B (zh) 一种基于标签及标识解析的汽摩行业数据录入及检索方法
CN111223533B (zh) 一种医疗数据检索方法及系统
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
US20110320222A1 (en) Systems and methods for valuation of tangible items
CN111143422A (zh) 数据检索方法、数据检索装置、存储介质及电子设备
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
CN113127736A (zh) 一种基于搜索历史记录的分类推荐方法及装置
JP2004348271A (ja) 治験データ出力装置、治験データ出力方法及び治験データ出力プログラム
JP2017134693A (ja) 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
JP6961148B1 (ja) 情報処理システム、及び情報処理方法
CN111143374B (zh) 一种数据辅助识别的方法、系统、计算设备及存储介质
CN111681776B (zh) 基于医药大数据的医药对象关系分析的方法及系统
JP2015106361A (ja) データ検索システムおよびデータ検索方法
CN111177236B (zh) 基于医养照护场景的量表生成方法、系统、设备及介质
KR20060114569A (ko) 특허정보시스템의 작동방법
JP2020009273A (ja) 検索システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant