CN109215796B - 搜索方法、装置、计算机设备和存储介质 - Google Patents

搜索方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109215796B
CN109215796B CN201810923258.7A CN201810923258A CN109215796B CN 109215796 B CN109215796 B CN 109215796B CN 201810923258 A CN201810923258 A CN 201810923258A CN 109215796 B CN109215796 B CN 109215796B
Authority
CN
China
Prior art keywords
searched
corpus
semantic
sub
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810923258.7A
Other languages
English (en)
Other versions
CN109215796A (zh
Inventor
胡帆
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Medical Health Technology Service Co Ltd filed Critical Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority to CN201810923258.7A priority Critical patent/CN109215796B/zh
Publication of CN109215796A publication Critical patent/CN109215796A/zh
Priority to PCT/CN2019/096978 priority patent/WO2020034810A1/zh
Application granted granted Critical
Publication of CN109215796B publication Critical patent/CN109215796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请涉及自然语言处理技术,提供了一种搜索方法、装置、计算机设备和存储介质。所述方法包括:接收终端发送的搜索请求,搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;对当前待搜索医疗术语进行分词,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语;根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取匹配词对应的编码作为当前待搜索医疗术语对应的子编码;从语义网络中获取每一个子编码对应的关联编码,得到当前待搜索医疗术语对应的关联编码集合;根据目标语料对应的类型标识从关联编码集合中选取目标关联编码,获取目标关联编码对应的语料得到目标语料;将目标语料发送至终端。

Description

搜索方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种搜索方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,计算机可用于存储海量的医学数据。医疗工作者常常需要从海量的医学数据中搜索自己想要的数据,如搜索与某类疾病相关的数据,包括药品、检查项目、手术项目等等。传统技术中,由于各个医疗工作者的用语习惯的差异,通常搜索到的数据并不全面。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高医疗数据搜索全面性的搜索方法、装置、计算机设备和存储介质。
一种搜索方法,所述方法包括:接收终端发送的搜索请求,所述搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;对所述当前待搜索医疗术语进行分词,根据分词结果得到所述当前待搜索医疗术语对应的多个待搜索子词语;根据所述待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取所述匹配词对应的编码作为所述当前待搜索医疗术语对应的子编码;从所述语义网络中获取每一个子编码对应的关联编码,得到所述当前待搜索医疗术语对应的第一关联编码集合;根据所述目标语料对应的类型标识从所述第一关联编码集合中选取第一目标关联编码,获取所述第一目标关联编码对应的语料得到目标语料;将所述目标语料发送至所述终端。
在其中一个实施例中,所述语义网络的生成步骤包括:获取预设多个语义维度的语义树,每一个语义维度的所述语义树对应一个类型标识,每一个语义维度的所述语义树包含多个节点语料;根据所述类型标识及预设的编码规则对所述语义树对应的节点语料进行编码;计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率;将所述共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
在其中一个实施例中,所述将所述目标语料发送至所述终端之前,包括:获取所述子编码对应的类型标识;根据所述子编码对应的类型标识从所述关联编码集合中选取第二目标关联编码;从所述语义网络中获取与所述第二目标关联编码对应的关联编码,得到所述当前待搜索医疗术语对应的第二关联编码集合;根据所述目标语料对应的类型标识从所述第二关联编码集合中选取第三目标关联编码,获取所述第三目标关联编码对应的语料得到目标语料。
在其中一个实施例中,所述根据所述待搜索子词语从预先建立的语义网络中获取对应的匹配词,包括:根据所述待搜索子词语,遍历与所述待搜索子词语所属的语义维度对应的语义树;计算所述待搜索子词语与每个遍历的节点语料的匹配度;获取匹配度最大值对应的节点语料作为与所述待搜索子词语对应的匹配词。
在其中一个实施例中,所述根据分词结果得到所述当前待搜索医疗术语对应的多个待搜索子词语,包括:当分词结果中任意两个词语互为互斥词时,获取每一个互斥词对应的互斥权重,将权重较大的词语作为待搜索子词语。
一种搜索装置,所述装置包括:搜索请求接收模块,用于接收终端发送的搜索请求,所述搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;待搜索子词语获取模块,用于对所述当前待搜索医疗术语进行分词,根据分词结果得到所述当前待搜索医疗术语对应的多个待搜索子词语;子编码获取模块,用于根据所述待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取所述匹配词对应的编码作为所述当前待搜索医疗术语对应的子编码;关联编码获取模块,用于从所述语义网络中获取每一个子编码对应的关联编码,得到所述当前待搜索医疗术语对应的第一关联编码集合;第一目标语料获取模块,用于根据所述目标语料对应的类型标识从所述第一关联编码集合中选取第一目标关联编码,获取所述第一目标关联编码对应的语料得到目标语料;目标语料发送模块,用于将所述目标语料发送至所述终端。
在其中一个实施例中,所述装置还包括语义网络生成模块;所述语义网络生成模块用于获取预设多个语义维度的语义树,每一个语义维度的所述语义树对应一个类型标识,每一个语义维度的所述语义树包含多个节点语料;根据所述类型标识及预设的编码规则对所述语义树对应的节点语料进行编码;计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率;将所述共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
在其中一个实施例中,所述装置还包括第一目标语料获取模块;所述第二目标语料获取模块用于获取所述子编码对应的类型标识;根据所述子编码对应的类型标识从所述关联编码集合中选取第二目标关联编码;从所述语义网络中获取与所述第二目标关联编码对应的关联编码,得到所述当前待搜索医疗术语对应的第二关联编码集合;根据所述目标语料对应的类型标识从所述第二关联编码集合中选取第三目标关联编码,获取所述第三目标关联编码对应的语料得到目标语料。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述搜索方法所述的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述搜索方法所述的步骤。
上述搜索方法、装置、计算机设备和存储介质,通过接收终端发送的携带当前待搜索医疗术语及目标语料对应的类型标识的搜索请求,对搜索请求中携带的当前待搜索医疗术语进行分词以得到多个待搜索子词语,然后在从预先建立的语义网络中获取对应的匹配词,并获取匹配词对应的编码得到子编码,然后查找每一个子编码对应的关联编码,最后根据所述目标语料对应的类型标识从所述关联编码集合中选取目标关联编码,获取所述目标关联编码对应的语料得到目标语料,采用本申请的方法,对于同一术语的任意不同描述,服务器都可以通过分词、获取匹配词,并从语义网络中获取到所有关联的语料以得到目标语料,因此提高了医疗数据搜索的全面性。
附图说明
图1为一个实施例中搜索方法的应用场景图;
图2为一个实施例中搜索方法的流程示意图;
图3为一个实施例中语义网络生成的步骤流程示意图;
图4为一个实施例中搜索装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的搜索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102向服务器104发送携带当前待搜索医疗术语及目标语料对应的类型标识的搜索请求,服务器104接收到搜索请求后,对当前待搜索医疗术语进行分词以获取多个待搜索子词语,然后从预先建立的语义网络中获取待搜索子词语对应的匹配词以及匹配词的编码,接着从语义网络中查找获取到的每一个编码对应的关联编码,最后将获取到的关联编码中类型标识与目标语料相同的编码所对应的语料作为目标语料,最后将目标语料发送至终端102。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种搜索方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,接收终端发送的搜索请求,搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识。
其中,当前待搜索医疗术语指的是当前用于进行搜索的原始语料,包括但不限于疾病名称、解剖部位词语、疾病词语等等;目标语料指的是期望通过搜索得到的语料;类型标识用于唯一标识目标语料所属的语料维度。举例说明,当需要搜索某个疾病如“开放性小脑出血”相关的药品时,则“开放性小脑出血”为当前待搜索医疗术语,目标语料为药品类的语料。
在一个实施例中,终端可提供一个搜索界面,搜索界面上可包含输入框、下拉选择框等输入控件以及确认搜索控件。当用户在输入框中输入当前待搜索医疗术语,并在下拉选择框中选择一个或多个目标语料的类型,且终端检测到作用于确认搜索控件的点击操作时,获取目标语料的类型标识,然后根据目标语料的类型标识及当前待搜索医疗术语生成搜索请求,将搜索请求发送至服务器。
步骤S204,对当前待搜索医疗术语进行分词,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语。
其中,分词结果指的是分词得到的词序列,如对“开放性小脑出血”进行分词得到的分词结果为“开放性/小脑/出血”。
在本实施例中,得到分词结果后,从分词结果中选取具有明确含义的词,包括解剖部位相关的词,比如“小脑”、“食指”等;疾病相关的词,比如“骨折”、“出血”、“脱位”等;程度/类型相关的词,比如“粉碎性”、“开放性”、“慢性”等等。进一步,将从分词结果中选取的具有明确含义的词作为待搜索子词语,如当当前待搜索医疗术语为开放性小脑出血时,其分词结果中的三个词都可以作为该术语对应的待搜索子词语。
步骤S206,根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取匹配词对应的编码作为当前待搜索医疗术语对应的子编码。
具体地,语义网络(semantic network)是一种以网络格式表达医学知识构造的形式。本实施例中的语义网络包括多个语义维度的语料,如解剖部位语料、程度/类型语料、疾病语料、药品语料、检查项目语料、手术项目语料,其中,解剖部位语料指的是对人体解剖学中各个解剖部位的描述,如髋部、尾骨等;疾病语料指的是对疾病的具体医学描述,如骨折、出血、脱位等等;程度/类型语料指的是疾病所对应的严重程度的医学描述或者疾病所对应的类型的医学描述,例如,粉碎性、开放性、慢性、急性等等。
每一个维度的语料按照预设的规则进行编码,并在语义网络中用编码对语料进行标记。在本实施例的语义网络中,对于属于不同语义维度的任意两个语料,若其共现频率大于预设阈值,则说明这两个语料具有语义上的关联关系,对具有关联关系的两个语料对应的编码之间建立关联关系,则这两个编码互为关联编码,具有关联关系的两个编码在语义网络中通过网络中的一条“边”进行连接。在该语义网络中,可通过这些“边”查到任意一个编码的关联编码。匹配词指的是与待搜索子词语相匹配的词语。
在本实施例中,服务器获取到待搜索子词语,从预先建立的语义网络中查到与待搜索子词语相匹配的词作为待搜索子词语的匹配词,然后获取到该匹配词的编码作为当前待搜索医疗术语的子编码,这样,当前待搜索医疗术语将对应多个编码。
步骤S208,从语义网络中获取每一个子编码对应的关联编码,得到当前待搜索医疗术语对应的第一关联编码集合。
具体地,由于语义网络的各个编码之间事先已经建立了关联关系,因此,在获取到匹配词对应的编码作为子编码后,可从语义网络中查找每一个子编码对应的关联编码,所有的关联编码组合得到第一关联编码集合。
步骤S210,根据目标语料对应的类型标识从第一关联编码集合中选取第一目标关联编码,获取第一目标关联编码对应的语料得到目标语料。
具体地,由于语义网络中包含多个语义维度的语料,而目标语料只是其中某一个或某几个语义维度的语料,因此,需要根据目标语料对应的类型标识从第一关联编码集合中来选取目标关联编码。
在一个实施例中,在对各个语义维度的语料进行编码时,可在编码中带上该语义维度对应的类型标识,在获取到第一关联编码集合后,将各个关联编码分别与目标语料对应的类型标识进行比对,若比对成功,即某个关联编码中包含该类型标识时,则选取该关联编码作为目标关联编码。
在另一个实施例中,事先将各个语义维度的编码与该语义维度对应的类型标识建立映射关系,当获取到关联编码集合后,根据映射关系查找到各个关联编码对应的类型标识,将类型标识与目标语料对应的类型标识相同的关联编码作为目标关联编码。
进一步,服务器可根据目标关联编码获取到对应的语料,这些语料即为目标语料。
步骤S212,将目标语料发送至终端。
具体地,服务器将获取到的目标语料通过网络发送至终端。
上述搜索方法中,服务器在接收到携带当前待搜索医疗术语及目标语料对应的类型标识的搜索请求后,对搜索请求中携带的当前待搜索医疗术语进行分词以得到多个待搜索子词语,然后在从预先建立的语义网络中获取对应的匹配词,并获取匹配词对应的编码得到子编码,然后查找每一个子编码对应的关联编码,最后根据目标语料对应的类型标识从关联编码集合中选取目标关联编码,获取目标关联编码对应的语料得到目标语料,采用本申请的方法,对于同一术语的任意不同描述,服务器都可以通过分词、获取匹配词,并从语义网络中获取到所有关联的语料以得到目标语料,因此提高了医疗数据搜索的全面性。
在一个实施例中,如图3所示,上述方法还包括生成语义网络的步骤,具体包括:
步骤S302,获取预设多个语义维度的语义树,每一个语义维度的语义树对应一个类型标识,每一个语义维度的语义树包含多个节点语料。
具体地,可首先针对标准化的医学语料库中抽取各个预设维度的语料,按照每一个维度对应的语料之间的语义关系预先构建语义树。预设的语义维度包括但不限于解剖部位、程度、疾病、药品、检查项目、手术项目等等;类型标识用于唯一标识语义树所属的语义维度,可由预设位数的字母组成,如对于解剖部位,可标识为“JP”。如下表1所示,以针对部位“耳”的部分语义树进行举例:
表1
Figure BDA0001764768270000091
Figure BDA0001764768270000101
步骤S304,根据类型标识及预设的编码规则对语义树对应的节点语料进行编码。
具体地,可以由类型标识及数字按照预设的编码规则来组成节点语料对应的编码,如对于上表中的耳可编码为JP3,对于外耳,中耳,内耳分别编码为JP3.1、JP3.2、JP3.3,对于耳廓、外耳道、鼓膜分别编码为JP3.1.1、JP3.1.2、JP3.1.3,依次类推。
步骤S306,计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率。
具体地,对于每一个语义维度的语义树,计算其对应的每一个节点语料,与其他语义维度的语义树对应的节点语料之间的共现频率,其中,共现频率指的是两个语料在预设的上下文范围内共同出现的频率,共现频率越大,表示两个词语的关联程度越大。共现频率常常以共现矩阵的形式来表达,共现矩阵例如可以采用MapReduce模型实现的pairs算法或者stripes算法计算得到。
步骤S308,将共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
具体地,预设阈值可根据对语义网络中两个相互关联的节点语料之间关联程度的不同要求进行不同程度的设定。两个相互关联的节点语料之间关联程度要求越高,则预设阈值越大。
在本实施例中,对于共现频率大于预设阈值的两个节点语料,将其对应的编码通过一条边进行连接,即将两个节点语料对应的编码建立关联关系。当各个语义树对应的编码之间的关联关系建立好后,得到语义网络。在该语义网络中,通过任意一个编码进行搜索,可获取与之相关联的所有编码。
可以理解,由于编码与节点语料之间存在一一对应的映射关系,当编码之间建立关联关系后,编码对应的语料之间自然也有了关联关系。
在一个实施例中,上述方法还包括:获取子编码对应的类型标识;根据子编码对应的类型标识从关联编码集合中选取第二目标关联编码;从语义网络中获取与第二目标关联编码对应的关联编码,得到当前待搜索医疗术语对应的第二关联编码集合;根据目标语料对应的类型标识从第二关联编码集合中选取第三目标关联编码,获取第三目标关联编码对应的语料得到目标语料。
具体地,子编码对应的关联编码包括两类,一类是类型标识与目标语料对应的类型标识相同的编码,另一类是类型标识与目标语料对应的类型标识不相同的编码,在这一类编码中,包括了与子编码对应的类型标识相同的编码,这些编码对应的语料为与当前待搜索医疗术语语义相关的语料,可用于对当前待搜索医疗术语进行扩展搜索,进一步提升数据搜索的全面性。
在本实施例中,从关联编码集合中选取类型标识与子编码对应的类型标识相同的关联编码,然后以这些关联编码为基准,从语义网络中查找这些关联编码所对应的关联编码,此时得到的关联编码为扩展搜索得到的关联编码,从这些关联编码中再次选取类型标识与目标语料对应的类型标识相同的关联编码作为目标关联编码,获取这些目标关联编码对应的语料,将这些语料与步骤S210中得到的语料一起作为当前待搜索医疗术语对应的目标语料,以对目标语料的数量进行扩展,进一步提升医疗数据搜索的全面性。
在一个实施例中,步骤S206中,根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,包括:根据待搜索子词语,遍历与待搜索子词语所属的语义维度对应的语义树;计算待搜索子词语与每个遍历的节点语料的匹配度;获取匹配度最大值对应的节点语料作为与待搜索子词语对应的匹配词。
具体地,可以首先判断待搜索子词语所属的语义维度,然后遍历该语义维度对应的语义树,每遍历到一个节点语料时,计算该节点语料与待搜索子词语的匹配度,当语义树遍历完毕时,对所有的匹配度进行排序,获取匹配度最大值对应的节点语料作为待搜索子词语的匹配词。在一个实施例中,可通过词性标注来得到带搜索子词语所属的语义维度,具体来说,当某个词的词性标注结果为解剖部位,则该词所属的语义维度为解剖部位。
在一个实施例中,计算匹配度时,可采用word2vec分别得到待搜索子词语、节点语料的词向量,然后计算待搜索子词语、节点语料对应的词向量之间的向量距离或余弦夹角值,将向量距离或余弦夹角值作为匹配度。
在本实施例中,通过遍历待搜索子词语所属的语义维度对应的语义树来查找匹配词,相较于遍历整个语义网络,可以提高匹配词的获取效率,从而提高整体的搜索效率。
在一个实施例中,步骤S204中,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语,包括:当分词结果中任意两个词语互为互斥词时,获取每一个互斥词对应的互斥权重,将权重较大的词语作为待搜索子词语。
其中,互斥词指的是存在互斥关系的词,当两个词同时出现时,其中一个词的语义可以忽略时,这两个词存在互斥关系,互为互斥词。如,软组织损伤半骨折中,损伤与骨折为互斥词。
具体地,可预先建立一个互斥词典,并对每一对互斥词分别设定互斥权重。服务器可通过从互斥词典中进行查找,判断分词结果中是否存在互斥词,当存在互斥词,获取每一个互斥词对应的互斥权重,将互斥权重较大的词语作为待搜索子词语。如,软组织损伤半骨折中,若骨折的互斥权重大于损伤,则将骨折作为待搜索子词语。在一个实施例中,为提高互斥词判断的效率,可首先判断是否存在两个以上属于疾病语义维度的词语,若存在,则从互斥词典中,对这几个词语进行查找,判断是否为互斥词。
在本实施例中,通过判断互斥词,可提高搜索的精确性。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供一种搜索装置400,包括搜索请求接收模块402、待搜索子词语获取模块404、子编码获取模块406、关联编码获取模块408、第一目标语料获取模块410、目标语料发送模块412,其中,
搜索请求接收模块402用于接收终端发送的搜索请求,搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;
待搜索子词语获取模块404用于对当前待搜索医疗术语进行分词,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语;
子编码获取模块406用于根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取匹配词对应的编码作为当前待搜索医疗术语对应的子编码;
关联编码获取模块408用于从语义网络中获取每一个子编码对应的关联编码,得到当前待搜索医疗术语对应的第一关联编码集合;
第一目标语料获取模块410用于根据目标语料对应的类型标识从第一关联编码集合中选取第一目标关联编码,获取第一目标关联编码对应的语料得到目标语料;
目标语料发送模块412用于将目标语料发送至终端。
在一个实施例中,装置还包括语义网络生成模块;语义网络生成模块用于获取预设多个语义维度的语义树,每一个语义维度的语义树对应一个类型标识,每一个语义维度的语义树包含多个节点语料;根据类型标识及预设的编码规则对语义树对应的节点语料进行编码;计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率;将共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
在一个实施例中,装置还包括第一目标语料获取模块;第二目标语料获取模块用于获取子编码对应的类型标识;根据子编码对应的类型标识从关联编码集合中选取第二目标关联编码;从语义网络中获取与第二目标关联编码对应的关联编码,得到当前待搜索医疗术语对应的第二关联编码集合;根据目标语料对应的类型标识从第二关联编码集合中选取第三目标关联编码,获取第三目标关联编码对应的语料得到目标语料。
在一个实施例中,子编码获取模块406还用于根据待搜索子词语,遍历与待搜索子词语所属的语义维度对应的语义树;计算待搜索子词语与每个遍历的节点语料的匹配度;获取匹配度最大值对应的节点语料作为与待搜索子词语对应的匹配词。
在一个实施例中,待搜索子词语获取模块404还用于当分词结果中任意两个词语互为互斥词时,获取每一个互斥词对应的互斥权重,将权重较大的词语作为待搜索子词语。
关于搜索装置的具体限定可以参见上文中对于搜索方法的限定,在此不再赘述。上述搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种搜索方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收终端发送的搜索请求,搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;对当前待搜索医疗术语进行分词,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语;根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取匹配词对应的编码作为当前待搜索医疗术语对应的子编码;从语义网络中获取每一个子编码对应的关联编码,得到当前待搜索医疗术语对应的第一关联编码集合;根据目标语料对应的类型标识从第一关联编码集合中选取第一目标关联编码,获取第一目标关联编码对应的语料得到目标语料;将目标语料发送至终端。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设多个语义维度的语义树,每一个语义维度的语义树对应一个类型标识,每一个语义维度的语义树包含多个节点语料;根据类型标识及预设的编码规则对语义树对应的节点语料进行编码;计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率;将共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
在一个实施例中,将目标语料发送至终端之前,处理器执行计算机程序时还实现以下步骤:获取子编码对应的类型标识;根据子编码对应的类型标识从关联编码集合中选取第二目标关联编码;从语义网络中获取与第二目标关联编码对应的关联编码,得到当前待搜索医疗术语对应的第二关联编码集合;根据目标语料对应的类型标识从第二关联编码集合中选取第三目标关联编码,获取第三目标关联编码对应的语料得到目标语料。
在一个实施例中,根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,包括:根据待搜索子词语,遍历与待搜索子词语所属的语义维度对应的语义树;计算待搜索子词语与每个遍历的节点语料的匹配度;获取匹配度最大值对应的节点语料作为与待搜索子词语对应的匹配词。
在一个实施例中,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语,包括:当分词结果中任意两个词语互为互斥词时,获取每一个互斥词对应的互斥权重,将权重较大的词语作为待搜索子词语。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收终端发送的搜索请求,搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;对当前待搜索医疗术语进行分词,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语;根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取匹配词对应的编码作为当前待搜索医疗术语对应的子编码;从语义网络中获取每一个子编码对应的关联编码,得到当前待搜索医疗术语对应的第一关联编码集合;根据目标语料对应的类型标识从第一关联编码集合中选取第一目标关联编码,获取第一目标关联编码对应的语料得到目标语料;将目标语料发送至终端。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预设多个语义维度的语义树,每一个语义维度的语义树对应一个类型标识,每一个语义维度的语义树包含多个节点语料;根据类型标识及预设的编码规则对语义树对应的节点语料进行编码;计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率;将共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
在一个实施例中,将目标语料发送至终端之前,计算机程序被处理器执行时还实现以下步骤:获取子编码对应的类型标识;根据子编码对应的类型标识从关联编码集合中选取第二目标关联编码;从语义网络中获取与第二目标关联编码对应的关联编码,得到当前待搜索医疗术语对应的第二关联编码集合;根据目标语料对应的类型标识从第二关联编码集合中选取第三目标关联编码,获取第三目标关联编码对应的语料得到目标语料。
在一个实施例中,根据待搜索子词语从预先建立的语义网络中获取对应的匹配词,包括:根据待搜索子词语,遍历与待搜索子词语所属的语义维度对应的语义树;计算待搜索子词语与每个遍历的节点语料的匹配度;获取匹配度最大值对应的节点语料作为与待搜索子词语对应的匹配词。
在一个实施例中,根据分词结果得到当前待搜索医疗术语对应的多个待搜索子词语,包括:当分词结果中任意两个词语互为互斥词时,获取每一个互斥词对应的互斥权重,将权重较大的词语作为待搜索子词语。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种搜索方法,所述方法包括:
接收终端发送的搜索请求,所述搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;
对所述当前待搜索医疗术语进行分词,根据分词结果得到所述当前待搜索医疗术语对应的多个待搜索子词语;
根据所述待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取所述匹配词对应的编码作为所述当前待搜索医疗术语对应的子编码;
从所述语义网络中获取每一个子编码对应的关联编码,得到所述当前待搜索医疗术语对应的第一关联编码集合;
根据所述目标语料对应的类型标识从所述第一关联编码集合中选取第一目标关联编码,获取所述第一目标关联编码对应的语料得到目标语料;
获取所述子编码对应的类型标识;
根据所述子编码对应的类型标识从所述关联编码集合中选取第二目标关联编码;
从所述语义网络中获取与所述第二目标关联编码对应的关联编码,得到所述当前待搜索医疗术语对应的第二关联编码集合;
根据所述目标语料对应的类型标识从所述第二关联编码集合中选取第三目标关联编码,获取所述第三目标关联编码对应的语料得到目标语料;
将所得到的目标语料发送至所述终端。
2.根据权利要求1所述的方法,其特征在于,所述语义网络的生成步骤包括:
获取预设多个语义维度的语义树,每一个语义维度的所述语义树对应一个类型标识,每一个语义维度的所述语义树包含多个节点语料;
根据所述类型标识及预设的编码规则对所述语义树对应的节点语料进行编码;
计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率;
将所述共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待搜索子词语从预先建立的语义网络中获取对应的匹配词,包括:
根据所述待搜索子词语,遍历与所述待搜索子词语所属的语义维度对应的语义树;
计算所述待搜索子词语与每个遍历的节点语料的匹配度;
获取匹配度最大值对应的节点语料作为与所述待搜索子词语对应的匹配词。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据分词结果得到所述当前待搜索医疗术语对应的多个待搜索子词语,包括:
当分词结果中任意两个词语互为互斥词时,获取每一个互斥词对应的互斥权重,将权重较大的词语作为待搜索子词语。
5.一种搜索装置,其特征在于,所述装置包括:
搜索请求接收模块,用于接收终端发送的搜索请求,所述搜索请求中携带当前待搜索医疗术语及目标语料对应的类型标识;
待搜索子词语获取模块,用于对所述当前待搜索医疗术语进行分词,根据分词结果得到所述当前待搜索医疗术语对应的多个待搜索子词语;
子编码获取模块,用于根据所述待搜索子词语从预先建立的语义网络中获取对应的匹配词,并获取所述匹配词对应的编码作为所述当前待搜索医疗术语对应的子编码;
关联编码获取模块,用于从所述语义网络中获取每一个子编码对应的关联编码,得到所述当前待搜索医疗术语对应的第一关联编码集合;
第一目标语料获取模块,用于根据所述目标语料对应的类型标识从所述第一关联编码集合中选取第一目标关联编码,获取所述第一目标关联编码对应的语料得到目标语料;
第二目标语料获取模块,用于获取所述子编码对应的类型标识;根据所述子编码对应的类型标识从所述关联编码集合中选取第二目标关联编码;从所述语义网络中获取与所述第二目标关联编码对应的关联编码,得到所述当前待搜索医疗术语对应的第二关联编码集合;根据所述目标语料对应的类型标识从所述第二关联编码集合中选取第三目标关联编码,获取所述第三目标关联编码对应的语料得到目标语料;
目标语料发送模块,用于将所得到的目标语料发送至所述终端。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括语义网络生成模块;
所述语义网络生成模块用于获取预设多个语义维度的语义树,每一个语义维度的所述语义树对应一个类型标识,每一个语义维度的所述语义树包含多个节点语料;根据所述类型标识及预设的编码规则对所述语义树对应的节点语料进行编码;计算每一个维度的语义树对应的节点语料与其他维度的语义树对应的节点语料两两之间的共现频率;将所述共现频率大于预设阈值的两个节点语料对应的编码建立关联关系,生成语义网络。
7.根据权利要求5所述的装置,其特征在于,所述子编码获取模块还用于:
根据所述待搜索子词语,遍历与所述待搜索子词语所属的语义维度对应的语义树;
计算所述待搜索子词语与每个遍历的节点语料的匹配度;
获取匹配度最大值对应的节点语料作为与所述待搜索子词语对应的匹配词。
8.根据权利要求5所述的装置,其特征在于,所述待搜索子词语获取模块还用于:
当分词结果中任意两个词语互为互斥词时,获取每一个互斥词对应的互斥权重,将权重较大的词语作为待搜索子词语。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201810923258.7A 2018-08-14 2018-08-14 搜索方法、装置、计算机设备和存储介质 Active CN109215796B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810923258.7A CN109215796B (zh) 2018-08-14 2018-08-14 搜索方法、装置、计算机设备和存储介质
PCT/CN2019/096978 WO2020034810A1 (zh) 2018-08-14 2019-07-22 搜索方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810923258.7A CN109215796B (zh) 2018-08-14 2018-08-14 搜索方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109215796A CN109215796A (zh) 2019-01-15
CN109215796B true CN109215796B (zh) 2023-04-25

Family

ID=64988597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810923258.7A Active CN109215796B (zh) 2018-08-14 2018-08-14 搜索方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN109215796B (zh)
WO (1) WO2020034810A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215796B (zh) * 2018-08-14 2023-04-25 深圳平安医疗健康科技服务有限公司 搜索方法、装置、计算机设备和存储介质
CN110704578B (zh) * 2019-10-09 2022-08-09 北京秒针人工智能科技有限公司 关联关系确定方法、装置、电子设备及可读存储介质
CN111291137B (zh) * 2020-01-22 2023-05-09 奇安信科技集团股份有限公司 基于实体关系的搜索方法和系统
CN111339193B (zh) * 2020-02-21 2023-06-27 腾讯云计算(北京)有限责任公司 类别的编码方法及装置
CN111341458B (zh) * 2020-02-27 2020-11-03 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
CN111581337A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 医疗文本搜索方法、装置、计算机设备及存储介质
CN111552780B (zh) * 2020-04-29 2023-09-29 微医云(杭州)控股有限公司 医用场景的搜索处理方法、装置、存储介质及电子设备
CN111899822B (zh) * 2020-06-28 2024-01-30 广州万孚生物技术股份有限公司 医疗机构数据库构建方法、查询方法、装置、设备和介质
CN111985241B (zh) * 2020-09-03 2023-08-08 深圳平安智慧医健科技有限公司 医学信息查询方法、装置、电子设备及介质
CN112395408B (zh) * 2020-11-19 2023-11-07 平安科技(深圳)有限公司 停用词表生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089841A (zh) * 2006-06-14 2007-12-19 联想(北京)有限公司 基于知识编码的精确搜索方法和系统
JP2010117764A (ja) * 2008-11-11 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理系统及方法
JP2015022448A (ja) * 2013-07-17 2015-02-02 Kddi株式会社 言語体系の間で同義語句に対する特定の感情を推定するプログラム、装置及び方法
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043812A (zh) * 2009-10-13 2011-05-04 北京大学 一种医疗信息的检索方法及系统
US10929413B2 (en) * 2015-11-13 2021-02-23 Google Llc Suggestion-based differential diagnostics
CN107680689A (zh) * 2017-05-05 2018-02-09 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN108133756A (zh) * 2017-12-26 2018-06-08 医渡云(北京)技术有限公司 医疗数据搜索方法及装置、存储介质、电子设备
CN109215796B (zh) * 2018-08-14 2023-04-25 深圳平安医疗健康科技服务有限公司 搜索方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089841A (zh) * 2006-06-14 2007-12-19 联想(北京)有限公司 基于知识编码的精确搜索方法和系统
JP2010117764A (ja) * 2008-11-11 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体
JP2015022448A (ja) * 2013-07-17 2015-02-02 Kddi株式会社 言語体系の間で同義語句に対する特定の感情を推定するプログラム、装置及び方法
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理系统及方法
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中医医案文本挖掘的若干关键技术研究;袁锋;《中国博士学位论文全文数据库信息科技辑》;20170215(第02期);第51-55页 *

Also Published As

Publication number Publication date
WO2020034810A1 (zh) 2020-02-20
CN109215796A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109215796B (zh) 搜索方法、装置、计算机设备和存储介质
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111814447B (zh) 基于分词文本的电子病例查重方法、装置、计算机设备
US11544578B2 (en) Method, device and equipment for fusing different instances describing same entity
EP3252650B1 (en) Anonymization processing device, anonymization processing method, and program
US10430468B2 (en) Method and system for extracting sentences
EP3611631A1 (en) Method, apparatus and device for generating entity relationship data, and storage medium
CN106844341B (zh) 基于人工智能的新闻摘要提取方法及装置
CN110222709B (zh) 一种多标签智能打标方法及系统
CN111046186A (zh) 知识图谱的实体对齐方法、装置、设备及存储介质
WO2020052162A1 (zh) 疾病数据映射方法、装置、计算机设备和存储介质
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
US20190012300A1 (en) Rule matching method and device
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN110909168B (zh) 知识图谱的更新方法和装置、存储介质及电子装置
CN111695336A (zh) 疾病名称对码方法、装置、计算机设备及存储介质
CN111402973A (zh) 信息匹配分析方法、装置、计算机系统及可读存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111737406B (zh) 文本检索方法、装置及设备、文本检索模型的训练方法
CN112307190A (zh) 医学文献排序方法、装置、电子设备及存储介质
WO2020034808A1 (zh) 决策数据获取方法、装置、计算机设备和存储介质
KR101842274B1 (ko) 문장 추출 방법 및 시스템
JP5720536B2 (ja) 秘匿化データの検索のための情報処理方法及び装置
JP7043429B2 (ja) 医療テキスト中の医療エンティティを識別するための方法、装置およびコンピュータ読取可能な記憶媒体
CN111147474B (zh) 数据加密传输方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220523

Address after: 518048 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant