CN110851506A - 临床大数据的搜索方法及装置、存储介质、服务器 - Google Patents
临床大数据的搜索方法及装置、存储介质、服务器 Download PDFInfo
- Publication number
- CN110851506A CN110851506A CN201810826049.0A CN201810826049A CN110851506A CN 110851506 A CN110851506 A CN 110851506A CN 201810826049 A CN201810826049 A CN 201810826049A CN 110851506 A CN110851506 A CN 110851506A
- Authority
- CN
- China
- Prior art keywords
- data
- data tables
- search
- searching
- same user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种临床大数据的搜索方法及装置、存储介质、服务器,所述临床大数据包含多个数据表,所述临床大数据的搜索方法包括:合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。通过本发明提供的技术方案,可以加快搜索速度,提高数据查询效率。
Description
技术领域
本发明涉及大数据搜索技术领域,具体地涉及一种临床大数据的搜索方法及装置、存储介质、服务器。
背景技术
全文搜索引擎是目前广泛应用的主流搜索引擎。其工作原理是计算机索引程序通过扫描数据库存储的文本中的每个词语,并对每个词语建立索引,指明该词语在所述文本中出现的次数和位置。当用户搜索时,可以根据事先建立的索引进行查找,并将查找结果反馈给用户。
现有的数据库(例如,关系型数据库)对全文搜索的支持不够完善,例如,对语义处理的支持不完善,往往导致搜索时间过长,降低搜索性能。即使简单的文本查询,也可能持续1至2分钟,甚至出现检索不到结果的情况。
对于医院系统而言,其中存储有大量以病人为中心的临床数据。如果海量临床数据基于现有的数据库存储,则采用全文搜索引擎搜索时,其搜索速度缓慢,搜索效率低下。
发明内容
本发明解决的技术问题是如何快速从临床大数据中得到搜索结果,以提高数据查询效率。
为解决上述技术问题,本发明实施例提供一种临床大数据的搜索方法,所述临床大数据包含多个数据表,所述临床大数据的搜索方法包括:合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。
可选的,所述将所述多个数据表中同一用户的数据表融合包括:对所述多个数据表中的数据进行分析,以确定属于同一用户的各个数据表;将属于同一用户的各个数据表融合。
可选的,所述对所述多个数据表中的数据进行分析,以确定属于同一用户的各个数据表包括:对所述多个数据表中的用户标识数据进行分析,如果不同的数据表中的用户标识数据关联至同一用户,则将所述不同的数据表确定为属于同一用户。
可选的,所述将属于同一用户的各个数据表融合包括:将属于同一用户的各个数据表融合,以得到原始宽表;对所述原始宽表进行过滤,去除重复的数据,以得到所述宽表。
可选的,所述临床大数据的搜索方法还包括:根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果时,判断所述检索表达式中的检索关键词是否包含在用于分词的分词词典中;如果所述检索关键词未包含于所述分词词典中,则将所述检索关键词的输入次数进行递增;如果所述检索关键词的输入次数达到预设阈值,则将所述检索关键词加入所述分词词典。
可选的,所述临床大数据的搜索方法还包括:对所述搜索结果进行统计,以得到统计结果;在呈现所述搜索结果时,以图表的形式一并呈现所述统计结果。
为解决上述技术问题,本发明实施例还提供一种临床大数据的搜索装置,所述临床大数据包含多个数据表,所述搜索装置包括:确定模块,适于合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;搜索模块,适于根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。
可选的,所述确定模块包括:分析子模块,对所述多个数据表中的数据进行分析,以确定属于同一用户的各个数据表;融合子模块,将属于同一用户的各个数据表融合。
可选的,所述分析子模块包括:分析单元,适于对所述多个数据表中的用户标识数据进行分析,如果不同数据表中的用户标识关联至同一用户,则将所述不同的数据表确定为属于同一用户。
可选的,所述融合子模块包括:融合单元,适于将属于同一用户的各个数据表融合,以得到原始宽表;清洗单元,适于对所述原始宽表进行过滤,去除重复的数据,以得到所述宽表。
可选的,所述临床大数据的搜索装置还包括:判断模块,适于根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果时,判断所述检索表达式中的检索关键词是否包含在用于分词的分词词典中;计算模块,如果所述检索关键词未包含于所述分词词典中,则所述计算模块适于将所述检索关键词的输入次数进行递增;加入模块,如果所述检索关键词的输入次数达到预设阈值,则所述加入模块适于将所述检索关键词加入所述分词词典。
可选的,所述临床大数据的搜索装置还包括:统计模块,对所述搜索结果进行统计,以得到统计结果;呈现模块,适于在呈现所述搜索结果时,以图表的形式一并呈现所述统计结果。
为解决上述技术问题,本发明实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述临床大数据的搜索方法的步骤。
为解决上述技术问题,本发明实施例还提供一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述临床大数据的搜索方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供一种临床大数据的搜索方法,所述临床大数据包含多个数据表,所述搜索方法包括:将所述多个数据表中同一用户的数据表融合,以得到单个宽表;根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。通过本发明实施例提供的技术方案,可以将属于同一用户的多个数据表融合,之后可以在单个宽表中搜索,搜索时无需查找多个不同的数据表,可以加快搜索速度,提高数据查询效率。
进一步,将属于同一用户的各个数据表融合,以得到原始宽表;对所述原始宽表进行过滤,去除重复的数据,以得到所述宽表。通过本发明实施例提供的技术方案,可以去掉重复的无用数据,既节省存储空间,又有利于加快搜索速度。
进一步,根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果时,判断所述检索表达式中的检索关键词是否包含在用于分词的分词词典中;如果所述检索关键词未包含于所述分词词典中,则将所述检索关键词的输入次数进行递增;如果所述检索关键词的输入次数达到预设阈值,则将所述检索关键词加入所述分词词典。通过本发明实施例提供的技术方案,可以快速发现新词语,并将所述新词语加入至所述分词词典中,能够为后续搜索节约时间成本,加快搜索速度。
进一步,对所述搜索结果进行统计,以得到统计结果;在呈现所述搜索结果时,以图表的形式一并呈现所述统计结果。通过本发明实施例提供的技术方案,可以将搜索结果的统计结果以图表形式呈现,可以使搜索结果的显示更加直观、清晰,进而提高用户体验。
附图说明
图1是本发明实施例的一种临床大数据的搜索方法的流程示意图;
图2是本发明实施例的又一种临床大数据的搜索方法的流程示意图;
图3是本发明实施例的再一种临床大数据的搜索方法的流程示意图;
图4是本发明实施例的一种临床大数据的搜索装置的结构示意图。
具体实施方式
本领域技术人员理解,如背景技术所言,现有搜索方法对海量数据搜索的支持力度较差,难以满足快速搜索的用户需求。
目前的全文搜索方法主要包括按字检索和按词检索。按字检索指的是,对于给定的检索内容,为每个字建立索引,并根据字的组合进行搜索。按词检索指的是,对于给定的检索内容,按照语义单位(即词语)建立索引,并基于语义单位进行搜索。
对于英文等文字,字与词是相同的,可以按照空白切分子或词语,按字检索与按词检索的处理方式没有区别。对于中文等文字,则需要根据语义分词确定词语,按字检索与按词检索的处理方式区别很大。一般而言,按词检索的技术难度偏大。
通常情况下,临床大数据往往采用关系型数据库存储。所述关系型数据库指的是建立在关系模型基础上的数据库,一般由多张可以互相联接的二维行列表格组成。其中,每行表格可以包含一条临床数据。每条临床数据可以包括病人的姓名、年龄、患病信息、化验项目、用药记录等。如果临床大数据存储在关系型数据库中,则搜索其中一条临床数据,意味着在关系型数据库中搜索,其搜索时间往往较长。
本发明实施例提供一种临床大数据的搜索方法,所述临床大数据包含多个数据表,所述搜索方法包括:合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。通过本发明实施例提供的技术方案,可以将属于同一用户的多个数据表融合,之后可以在所述宽表中搜索,搜索时无需查找多个不同的数据表,可以加快搜索速度,提高数据查询效率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种临床大数据的搜索方法的流程示意图。所述临床大数据包含多个数据表,每个数据表中包含多条临床数据。参考图1,所述搜索方法可以包括以下步骤:
步骤S101:合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;
步骤S102:根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。
具体而言,在步骤S101中,可以融合多个数据表中属于同一用户的数据表,以得到该用户的宽表。
更具体而言,数据表中可以包括用户标识数据。每一用户标识数据可以指向唯一的一个用户。不过,单个用户可以具有多种不同的用户标识数据,也即不同的用户标识数据可以属于同一用户。当不同的用户标识数据属于同一用户时,可以将不同的用户标识数据关联至同一用户。例如,用户可以和主索引一一对应,不同用户可以采用不同主索引表示,同一主索引可以对应同一用户的多个用户标识数据。同一主索引中,不同的用户标识数据属于同一用户。
本领域技术人员理解,通过主索引,可以将不同的用户标识数据关联至同一用户。其中,所述主索引可以采用身份证号码、手机号码或其他可以唯一标识该用户的字符表示。例如,主索引可以是从1开始的自然数,不同自然数表示不同用户。
作为一个非限制性的实施例,病人A就诊时可以采用医保卡挂号,该病人A的用户标识数据可以为医保卡号码。或者,该病人A就诊时也可以采用临时病历卡挂号,该病人A的用户标识数据可以为临时病历卡号码。又或者,该病人A就诊时也可以采用身份证挂号,该病人A的用户标识数据可以为身份证号码。通常情况下,尽管病人A的医保卡号码与病人A的临时病例卡号码不同,但是如果已知该病人A的身份证号码,且通过身份证号码可以表明采用医保卡和/或临时病例卡就诊的病人即为病人A,则可以为病人A建立主索引(例如,采用身份证号码作为主索引),以将不同用户标识数据关联至病人A。
作为又一个非限制性的实施例,病人A就诊时可以采用医保卡挂号,该病人A的用户标识数据可以为医保卡号码;或者,病人A也可以采用身份证挂号,此时病人A的用户标识数据为身份证号码。尽管医保卡号码与身份证号码不同,但假设可以确定采用医保卡挂号和采用身份证挂号的病人均为病人A,则可以为病人A建立主索引,以使不同用户标识数据关联至病人A。例如,以手机号作为主索引,为病人A建立主索引。
在为用户建立主索引之后,可以对各个数据表中的数据进行分析。例如,可以根据所述数据中包含的用户标识数据进行分析,确定关联至同一用户的各个用户标识数据所在的数据表。如果多个数据表中的用户标识数据关联至同一主索引,则可以确定所述多个数据表属于同一用户。
进一步,可以将属于同一用户的多个数据表进行融合,得到原始宽表。原始宽表可能包含多个重复数据,如果单纯地整合多张数据表,则可能形成笛卡尔积。优选地,可以对数据进行处理,例如,将所述原始宽表进行过滤,去除重复、无用的数据,以节省原始宽表的存储空间。
作为一个非限制性实施例,参考表1、表2和表3,在建立宽表之前,为用户A建立主索引IndexA。如果根据用户A的唯一标识信息(例如,身份证号码)可以确定表1、表2和表3均为用户A的数据表,则可以对属于用户A的3个数据表进行融合,得到用户A的原始宽表(例如,表4)。
表1
用户标识 | 姓名 | 性别 | 年龄 | 疾病 |
身份证号 | 用户A | 女 | 32 | 肺炎 |
表2
用户标识 | 姓名 | 性别 | 年龄 | 疾病 |
医保卡号 | 用户A | 女 | 32 | 咳嗽 |
表3
用户标识 | 姓名 | 性别 | 年龄 | 疾病 |
临时病历卡号 | 用户A | 女 | 32 | 高烧 |
表4
用户标识 | 姓名 | 性别 | 年龄 | 疾病 |
身份证号 | 用户A | 女 | 32 | 肺炎 |
医保卡号 | 用户A | 女 | 32 | 咳嗽 |
临时病历卡号 | 用户A | 女 | 32 | 高烧 |
之后,可以对原始宽表进行过滤,去除重复的数据以得到如表5所示的宽表,该宽表中,单个字段可以对应多个值(例如,主索引IndexA对应3种疾病(肺炎、咳嗽、高烧)。
表5
具体地,可以删除表1、表2和表3中表示用户A的各个标识数据,并采用主索引IndexA作为用户A的唯一用户标识;之后,可以滤除各个用户标识数据中的重复数据,例如删除多余的姓名、性别和年龄信息。当临床数据的数据量很大(例如,超过数亿条数据)时,可以极大地节约存储成本,并提高数据搜索效率。
本领域技术人员理解,具体实施时,表1至表5中的临床数据还可以包含病人住址信息、就诊日期以及疾病的具体诊断信息、化验信息、用药信息等等。其中,病人住址信息也可以合并后记录在所述宽表中。如果疾病信息相同,但是诊断信息、用药信息等不同,则可以表示疾病信息不是重复的数据,不可以合并,将保留相关数据。
在步骤S102中,可以响应于用户输入的检索表达式,在所述宽表中搜索,以得到搜索结果。
其中,所述检索表达式可以包括检索关键词和各种逻辑运算符,并可以根据检索系统规定的各种运算符将检索词之间的逻辑关系、位置关系,形成计算机可以识别和执行的检索命令式。需要说明的是,所述检索表达式也可以未包含逻辑运算符,仅包含检索词。
例如,所述检索表达式可以为“胰头癌and HbsAg”。又例如,所述检索表达式可以为“肺炎not高烧”。再例如,所述检索表达式可以为“血常规or糖尿病”。另例如,“(胰头癌and HbsAg)or(胰十二指肠切除术andca199>1200)”。还例如,“HbsAg and导管腺癌”。
作为一个变化实施例,参考图2,所述搜索方法可以包括以下步骤:
步骤S201:合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;
步骤S202:根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果;
步骤S203:根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果时,判断所述检索表达式中的检索关键词是否包含在用于分词的分词词典中;
步骤S204:如果所述检索关键词未包含于所述分词词典中,则将所述检索关键词的输入次数进行递增;
步骤S205:如果所述检索关键词的输入次数达到预设阈值,则将所述检索关键词加入所述分词词典。
具体而言,首先步骤S201,即合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;之后,执行步骤S202,即根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。所述步骤S201和步骤S202可以参照图1所示的步骤S101和步骤S102,这里不再赘述。
在步骤S203中,当用户输入检索表达式之后,可以根据输入的检索表达式,在所述宽表中进行搜索。在搜索时,可以确定所述检索表达式中的检索关键词。一旦确定检索关键词,就可以判断所述检索关键词是否出现在所述分词词典中。所述检索关键词可以是检索表达式中的检索词原词,也可以是对所述检索表达式中的检索词进行分词得到的分词词语。
通常情况下,可以根据分词词典进行分词。所述分词词典可以是行业标准词库。所述行业标准词库可以包括国际疾病分类与健康问题(International StatisticalClassification of Diseases and Related Health Problems 10th,简称ICD-10)、临床医学术语标准术语集(Systematized Nomenclature of Medicine-Clinical Terms,简称SNOMED-CT)、卫生信息交换标准(Health Level 7,简称HL7)等;本领域技术人员理解,所述分词词典还可以是通过人工的方式收集、整理得到的用户自定义的分词词典或适于医学分词的其他词典,这里不再赘述。
在步骤S204中,在对用户输入的检索表达式进行拉取整合分析时,可以确定所述检索关键词是否在现有的分词词典中出现。如果所述分词词典未包含所述检索关键词,则可以在用户输入该检索关键词之后,对该检索关键词的输入次数进行累加。或者,如果用户后续输入的检索词在分词后可以再次得到所述检索关键词,则可以对该检索关键词的输入次数进行累加。
进一步,在步骤S205中,如果该检索关键词的输入次数达到预设阈值(例如,预设阈值为10),则可以将该检索关键词作为新词汇加入分词词典中,既可以丰富分词词典的词汇量,又可以加快后续搜索速度,提高搜索效率。
作为又一个变化例,参考图3,所述搜索方法可以包括以下步骤:
步骤S301:合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;
步骤S302:根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果;
步骤S303:对所述搜索结果进行统计,以得到统计结果;
步骤S304:在呈现所述搜索结果时,以图表的形式一并呈现所述统计结果。
具体而言,首先执行步骤S301,即合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;其次执行步骤S302,即根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。所述步骤S301和步骤S302可以参照图1所示的步骤S101和步骤S102,这里不再赘述。
之后,在步骤S303中,可以对所述搜索结果进行统计,以得到统计结果。例如,可以统计搜索结果的数量,也可以统计不同条件下的搜索结果的数量比例等。
在步骤S304中,可以在呈现所述搜索结果时,一并呈现所述统计结果。所述统计结果可以采用图表形式呈现。
作为一个非限制性的实施例,所述搜索结果包括指定的性别、年龄下的各种检验项目(例如,血常规检验、尿常规检验、粪便常规检验),此时,可以对所述搜索结果进行统计,以分别确定血常规检验、尿常规检验、粪便常规检验的搜索结果数量。之后,可以对统计结果进行表格绘制,向用户直观展示搜索结果。
作为又一个非限制性的实施例,用户搜索血常规检验结果的数据,可以逐条显示血常规检验结果的相关搜索结果。此外,还可以对搜索结果进行统计,例如,统计白细胞>1200、白细胞≤1200的患者数量,之后,可以采用柱状图形式呈现所述统计结果,所述柱状图中可以包含患者的数量值。或者也可以统计白细胞>1200的每一患者的属性信息(例如,性别或者年龄段等)的搜索结果的各自占比,以饼图形式呈现。
本领域技术人员理解,还可以采用其他图表形式呈现所述统计结果,统计结果类别也不受本发明实施例限制。为简便,其他图表形式和/或统计结果类别等不再一一列举。
由上,采用本发明实施例提供的搜索方法,可以加快搜索速度,提高搜索效率。
图4是本发明实施例的一种临床大数据的搜索装置的结构示意图。参考图4,所述临床大数据的搜索装置3(以下简称为搜索装置3)可以用于实施上述图1至图3所示的搜索方法技术方案。
具体而言,所述临床大数据包含多个数据表,所述搜索装置3可以包括:确定模块31,适于合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;搜索模块32,适于根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。
作为一个非限制性实施例,所述确定模块31包括:分析子模块311,对所述多个数据表中的数据进行分析,以确定属于同一用户的各个数据表;融合子模块,将属于同一用户的各个数据表融合。
进一步,所述分析子模块311可以包括:分析单元3111,适于对所述多个数据表中的用户标识数据进行分析,如果不同数据表中的用户标识关联至同一用户,则将所述不同的数据表确定为属于同一用户。
进一步,所述融合子模块312可以包括:融合单元3121,适于将属于同一用户的各个数据表融合,以得到原始宽表;清洗单元3122,适于对所述原始宽表进行过滤,去除重复的数据,以得到所述宽表。
进一步,所述搜索装置3还可以包括:判断模块33,适于根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果时,判断所述检索表达式中的检索关键词是否包含在用于分词的分词词典中;计算模块34,如果所述检索关键词未包含于所述分词词典中,则所述计算模块34适于将所述检索关键词的输入次数进行递增;加入模块35,如果所述检索关键词的输入次数达到预设阈值,则所述加入模块35适于将所述检索关键词加入所述分词词典。
优选地,所述搜索装置3还可以包括:统计模块36,对所述搜索结果进行统计,以得到统计结果;呈现模块37,适于在呈现所述搜索结果时,以图表的形式一并呈现所述统计结果。
关于图4所示的搜索装置3的工作原理、工作方式的更多内容,可以一并参照上述图1至图3中的相关描述,这里不再赘述。
进一步地,本发明实施例还公开一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述图1至图3所示实施例中所述的临床大数据的搜索方法技术方案。优选地,所述存储介质可以包括计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。
进一步地,本发明实施例还公开一种服务器,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述图1至图3所示实施例中所述的临床大数据的搜索方法技术方案。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (14)
1.一种临床大数据的搜索方法,所述临床大数据包含多个数据表,其特征在于,包括:
合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;
根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。
2.根据权利要求1所述的搜索方法,其特征在于,所述将所述多个数据表中同一用户的数据表融合包括:
对所述多个数据表中的数据进行分析,以确定属于同一用户的各个数据表;将属于同一用户的各个数据表融合。
3.根据权利要求2所述的搜索方法,其特征在于,所述对所述多个数据表中的数据进行分析,以确定属于同一用户的各个数据表包括:
对所述多个数据表中的用户标识数据进行分析,如果不同的数据表中的用户标识数据关联至同一用户,则将所述不同的数据表确定为属于同一用户。
4.根据权利要求2所述的搜索方法,其特征在于,所述将属于同一用户的各个数据表融合包括:
将属于同一用户的各个数据表融合,以得到原始宽表;
对所述原始宽表进行过滤,去除重复的数据,以得到所述宽表。
5.根据权利要求1至4任一项所述的搜索方法,其特征在于,还包括:
根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果时,判断所述检索表达式中的检索关键词是否包含在用于分词的分词词典中;
如果所述检索关键词未包含于所述分词词典中,则将所述检索关键词的输入次数进行递增;
如果所述检索关键词的输入次数达到预设阈值,则将所述检索关键词加入所述分词词典。
6.根据权利要求1至4任一项所述的搜索方法,其特征在于,还包括:
对所述搜索结果进行统计,以得到统计结果;
在呈现所述搜索结果时,以图表的形式一并呈现所述统计结果。
7.一种临床大数据的搜索装置,所述临床大数据包含多个数据表,其特征在于,包括:
确定模块,适于合并所述多个数据表,并将所述多个数据表中同一用户的数据表融合,以得到单个宽表;
搜索模块,适于根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果。
8.根据权利要求7所述的搜索装置,其特征在于,所述确定模块包括:
分析子模块,对所述多个数据表中的数据进行分析,以确定属于同一用户的各个数据表;
融合子模块,将属于同一用户的各个数据表融合。
9.根据权利要求8所述的搜索装置,其特征在于,所述分析子模块包括:
分析单元,适于对所述多个数据表中的用户标识数据进行分析,如果不同的数据表中的用户标识关联至同一用户,则将所述不同的数据表确定为属于同一用户。
10.根据权利要求8所述的搜索装置,其特征在于,所述融合子模块包括:
融合单元,适于将属于同一用户的各个数据表融合,以得到原始宽表;
清洗单元,适于对所述原始宽表进行过滤,去除重复的数据,以得到所述宽表。
11.根据权利要求7至10任一项所述的搜索装置,其特征在于,还包括:
判断模块,适于根据输入的检索表达式在所述宽表中进行搜索以得到搜索结果时,判断所述检索表达式中的检索关键词是否包含在用于分词的分词词典中;
计算模块,如果所述检索关键词未包含于所述分词词典中,则所述计算模块适于将所述检索关键词的输入次数进行递增;
加入模块,如果所述检索关键词的输入次数达到预设阈值,则所述加入模块适于将所述检索关键词加入所述分词词典。
12.根据权利要求7至10任一项所述的搜索装置,其特征在于,还包括:
统计模块,对所述搜索结果进行统计,以得到统计结果;
呈现模块,适于在呈现所述搜索结果时,以图表的形式一并呈现所述统计结果。
13.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至6任一项所述的临床大数据的搜索方法的步骤。
14.一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至6中任一项所述的临床大数据的搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810826049.0A CN110851506B (zh) | 2018-07-25 | 2018-07-25 | 临床大数据的搜索方法及装置、存储介质、服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810826049.0A CN110851506B (zh) | 2018-07-25 | 2018-07-25 | 临床大数据的搜索方法及装置、存储介质、服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851506A true CN110851506A (zh) | 2020-02-28 |
CN110851506B CN110851506B (zh) | 2021-12-03 |
Family
ID=69594350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810826049.0A Active CN110851506B (zh) | 2018-07-25 | 2018-07-25 | 临床大数据的搜索方法及装置、存储介质、服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851506B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199393A (zh) * | 2020-09-18 | 2021-01-08 | 深圳希施玛数据科技有限公司 | 基于跨表查询的数据表生成方法、装置、设备及存储介质 |
CN113688256A (zh) * | 2021-10-27 | 2021-11-23 | 上海柯林布瑞信息技术有限公司 | 临床知识库的构建方法、装置 |
CN113903421A (zh) * | 2021-10-11 | 2022-01-07 | 上海柯林布瑞信息技术有限公司 | 一种医疗科研表单数据的快速处理方法和装置 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1211610A1 (en) * | 2000-11-29 | 2002-06-05 | Lafayette Software Inc. | Methods of organising data and processing queries in a database system |
US6496834B1 (en) * | 2000-12-22 | 2002-12-17 | Ncr Corporation | Method for performing clustering in very large databases |
US20040006555A1 (en) * | 2002-06-06 | 2004-01-08 | Kensaku Yamamoto | Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part |
US20040267765A1 (en) * | 2003-06-26 | 2004-12-30 | Microsoft Corporation | System and method for expressing and calculating a relationship between measures |
CN101021839A (zh) * | 2007-03-23 | 2007-08-22 | 北京润乾信息系统技术有限公司 | 非线性报表生成方法 |
CN102289467A (zh) * | 2011-07-22 | 2011-12-21 | 浙江百世技术有限公司 | 确定目标网点的方法和装置 |
CN102750356A (zh) * | 2012-06-11 | 2012-10-24 | 清华大学 | 一种键值库辅助索引的构建与管理方法 |
CN103488779A (zh) * | 2013-09-29 | 2014-01-01 | 方正国际软件有限公司 | 医患主索引系统和医患主索引平台 |
CN103500185A (zh) * | 2013-09-13 | 2014-01-08 | 北京奇虎科技有限公司 | 一种基于多平台数据生成数据表的方法和系统 |
CN103605715A (zh) * | 2013-11-14 | 2014-02-26 | 北京国双科技有限公司 | 用于多个数据源的数据整合处理方法和装置 |
CN104123390A (zh) * | 2014-08-07 | 2014-10-29 | 武汉中科麦特技术有限公司 | 一种本地数据库系统及其检索与更新方法 |
CN104699715A (zh) * | 2013-12-09 | 2015-06-10 | 北京大学第六医院 | 患者主索引平台系统构建方法 |
CN104993958A (zh) * | 2015-06-29 | 2015-10-21 | 北京京东尚科信息技术有限公司 | 一种用户主数据的生成方法及系统 |
CN105045848A (zh) * | 2015-06-30 | 2015-11-11 | 四川长虹电器股份有限公司 | 一种支持布尔表达式查询的数据库管理系统 |
CN106503274A (zh) * | 2016-12-22 | 2017-03-15 | 北京览群智数据科技有限责任公司 | 一种数据整合与搜索方法及服务器 |
CN106709652A (zh) * | 2016-12-27 | 2017-05-24 | 中国建设银行股份有限公司 | 一种员工业绩多维度计量系统和方法 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合系统、方法、电子设备及存储介质 |
KR20180046763A (ko) * | 2016-10-28 | 2018-05-09 | 주식회사 윈스 | 비용기반 최적화 기법을 통한 정규 표현식 탐색 성능 향상 장치 및 방법 |
-
2018
- 2018-07-25 CN CN201810826049.0A patent/CN110851506B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1211610A1 (en) * | 2000-11-29 | 2002-06-05 | Lafayette Software Inc. | Methods of organising data and processing queries in a database system |
US6496834B1 (en) * | 2000-12-22 | 2002-12-17 | Ncr Corporation | Method for performing clustering in very large databases |
US20040006555A1 (en) * | 2002-06-06 | 2004-01-08 | Kensaku Yamamoto | Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part |
US20040267765A1 (en) * | 2003-06-26 | 2004-12-30 | Microsoft Corporation | System and method for expressing and calculating a relationship between measures |
CN101021839A (zh) * | 2007-03-23 | 2007-08-22 | 北京润乾信息系统技术有限公司 | 非线性报表生成方法 |
CN102289467A (zh) * | 2011-07-22 | 2011-12-21 | 浙江百世技术有限公司 | 确定目标网点的方法和装置 |
CN102750356A (zh) * | 2012-06-11 | 2012-10-24 | 清华大学 | 一种键值库辅助索引的构建与管理方法 |
CN103500185A (zh) * | 2013-09-13 | 2014-01-08 | 北京奇虎科技有限公司 | 一种基于多平台数据生成数据表的方法和系统 |
CN103488779A (zh) * | 2013-09-29 | 2014-01-01 | 方正国际软件有限公司 | 医患主索引系统和医患主索引平台 |
CN103605715A (zh) * | 2013-11-14 | 2014-02-26 | 北京国双科技有限公司 | 用于多个数据源的数据整合处理方法和装置 |
CN104699715A (zh) * | 2013-12-09 | 2015-06-10 | 北京大学第六医院 | 患者主索引平台系统构建方法 |
CN104123390A (zh) * | 2014-08-07 | 2014-10-29 | 武汉中科麦特技术有限公司 | 一种本地数据库系统及其检索与更新方法 |
CN104993958A (zh) * | 2015-06-29 | 2015-10-21 | 北京京东尚科信息技术有限公司 | 一种用户主数据的生成方法及系统 |
CN105045848A (zh) * | 2015-06-30 | 2015-11-11 | 四川长虹电器股份有限公司 | 一种支持布尔表达式查询的数据库管理系统 |
KR20180046763A (ko) * | 2016-10-28 | 2018-05-09 | 주식회사 윈스 | 비용기반 최적화 기법을 통한 정규 표현식 탐색 성능 향상 장치 및 방법 |
CN106503274A (zh) * | 2016-12-22 | 2017-03-15 | 北京览群智数据科技有限责任公司 | 一种数据整合与搜索方法及服务器 |
CN106709652A (zh) * | 2016-12-27 | 2017-05-24 | 中国建设银行股份有限公司 | 一种员工业绩多维度计量系统和方法 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合系统、方法、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王娜: "医院PACS/RIS系统的建构与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199393A (zh) * | 2020-09-18 | 2021-01-08 | 深圳希施玛数据科技有限公司 | 基于跨表查询的数据表生成方法、装置、设备及存储介质 |
CN112199393B (zh) * | 2020-09-18 | 2024-05-10 | 深圳希施玛数据科技有限公司 | 基于跨表查询的数据表生成方法、装置、设备及存储介质 |
CN113903421A (zh) * | 2021-10-11 | 2022-01-07 | 上海柯林布瑞信息技术有限公司 | 一种医疗科研表单数据的快速处理方法和装置 |
CN113903421B (zh) * | 2021-10-11 | 2022-04-12 | 上海柯林布瑞信息技术有限公司 | 一种医疗科研表单数据的快速处理方法和装置 |
CN113688256A (zh) * | 2021-10-27 | 2021-11-23 | 上海柯林布瑞信息技术有限公司 | 临床知识库的构建方法、装置 |
CN113688256B (zh) * | 2021-10-27 | 2022-02-22 | 上海柯林布瑞信息技术有限公司 | 临床知识库的构建方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110851506B (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562732B (zh) | 电子病历的处理方法及系统 | |
CN106407443B (zh) | 一种结构化医疗数据生成方法及装置 | |
US7340466B2 (en) | Topic identification and use thereof in information retrieval systems | |
US9881037B2 (en) | Method for systematic mass normalization of titles | |
CN110851506B (zh) | 临床大数据的搜索方法及装置、存储介质、服务器 | |
KR101845897B1 (ko) | 의료 학술연구 지원 시스템 및 방법 | |
US20200075135A1 (en) | Trial planning support apparatus, trial planning support method, and storage medium | |
KR101577376B1 (ko) | 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법 | |
CN113345577A (zh) | 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质 | |
CN111091883B (zh) | 一种医疗文本处理方法、装置、存储介质及设备 | |
CN110955767A (zh) | 一种机器人对话系统中生成意图候选集列表集合的算法及装置 | |
CN112035757A (zh) | 医疗瀑布流推送方法、装置、设备及存储介质 | |
CN111061835B (zh) | 查询方法及装置、电子设备和计算机可读存储介质 | |
CN107943937B (zh) | 一种基于司法公开信息分析的债务人资产监控方法及系统 | |
CN111599487B (zh) | 一种基于关联分析的中药配伍辅助决策方法 | |
CN111984694A (zh) | 一种骨科搜索引擎系统 | |
Norman | Systematic review automation methods | |
CN111126034A (zh) | 医学变量关系的处理方法及装置、计算机介质和电子设备 | |
CN110853716A (zh) | 病历模板的创建方法及装置 | |
CN116450664A (zh) | 数据处理方法、装置、设备和存储介质 | |
US20220208313A1 (en) | Database reduction based on geographically clustered data to provide record selection for clinical trials | |
CN114186035A (zh) | 问题信息的获取方法、装置、电子设备及存储介质 | |
CN113972009A (zh) | 一种基于临床检验医学大数据的医学检验咨询系统 | |
US11269937B2 (en) | System and method of presenting information related to search query | |
KR102052823B1 (ko) | 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |