CN112035511A - 基于医学知识图谱的目标数据搜索方法及相关设备 - Google Patents
基于医学知识图谱的目标数据搜索方法及相关设备 Download PDFInfo
- Publication number
- CN112035511A CN112035511A CN202010897833.8A CN202010897833A CN112035511A CN 112035511 A CN112035511 A CN 112035511A CN 202010897833 A CN202010897833 A CN 202010897833A CN 112035511 A CN112035511 A CN 112035511A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- preset
- entity
- doctor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 238000012163 sequencing technique Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000005295 random walk Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 12
- 210000001015 abdomen Anatomy 0.000 description 10
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 238000012550 audit Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据技术领域,应用于智慧医疗领域中,提供一种基于医学知识图谱的目标数据搜索方法及相关设备,用于提高对于医生信息的检索准确度。基于医学知识图谱的目标数据搜索方法包括:对检索信息进行文本分析和命名实体识别得到目标实体;根据目标实体从预置的医学知识图谱中获取对应的目标序列数据,并生成目标序列数据的结构化查询语句;通过结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;从多个召回医生数据中获取多个匹配医生数据;按照科室相关度对多个匹配医生数据进行排序得到目标数据。此外,本发明还涉及区块链技术,医学知识图谱和预置医生数据可存储于区块链节点中。
Description
技术领域
本发明涉及知识关系分析领域,尤其涉及一种基于医学知识图谱的目标数据搜索方法及相关设备。
背景技术
随着计算机技术的发展,医学领域中的各类医学系统被广泛运用。在各类医学系统的运用中,检索是常用且关键的技术运用之一,例如:根据用户输入的需求信息进行检索和匹配获得医生信息。
现有的医学系统通常采用科室导航来帮助用户搜索需要的医生信息或者采用文本匹配的方式来帮助用户搜索需要的医生信息,但是,科室导航的方式,不能对关键词进行多维度的检索,且对于非医学专用词的关键词,无法根据关键词准确地检索到对应的医生信息;文本匹配的方式,虽然能够对关键词进行多维度的检索,但是对于口语化、短语化的关键词所检索到的医生信息与关键词匹配度低,从而造成了现有技术中,对于医生信息的检索准确度较低的情况。
发明内容
本发明的主要目的在于解决现有技术中,对于医生信息的检索准确度较低的问题。
本发明第一方面提供了一种基于医学知识图谱的目标数据搜索方法,包括:
获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体;
根据所述目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将所述多个初始序列数据与所述目标实体进行相似度匹配,得到与所述目标实体关联对应的目标序列数据,并通过预置的结构化接口生成所述目标序列数据的结构化查询语句;
通过所述结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;
根据预置的相似度策略,从所述多个召回医生数据中获取多个匹配医生数据;
计算所述检索信息与预置科室信息的科室相关度,并按照所述科室相关度从大到小的顺序,对所述多个匹配医生数据进行排序,得到目标数据。
可选的,在本发明第一方面的第一种实现方式中,所述获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体之前,还包括:
获取经过数据处理的待处理数据,并通过预置的命名实体识别模型,对所述待处理数据进行实体抽取,得到初始实体,所述待处理数据包括医疗机构内部数据和医疗知识数据;
通过预置的实体关系模板创建所述初始实体的对应关系,将创建对应关系的初始实体发送至预置终端,并接收所述预置终端发送的基于创建对应关系的初始实体的审核实体;
将所述审核实体填充至预置的知识图谱数据框架,得到医学知识图谱。
可选的,在本发明第一方面的第二种实现方式中,所述获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体,包括:
获取用户输入的检索信息,对所述检索信息依次进行字符识别和字符转换,得到转换后的检索信息;
对所述转换后的检索信息进行分词和词性过滤,得到目标分词;
通过预置的医学词典和中文语法结构信息,将所述目标分词进行拼接,得到待识别信息;
通过预置的基于Transformer的双向编码器表征模型和医学命名实体信息,对所述待识别信息进行命名实体提取,得到目标实体。
可选的,在本发明第一方面的第三种实现方式中,所述根据所述目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将所述多个初始序列数据与所述目标实体进行相似度匹配,得到与所述目标实体关联对应的目标序列数据,并通过预置的结构化接口生成所述目标序列数据的结构化查询语句,包括:
根据所述目标实体,对预置的医学知识图谱依次进行节点遍历和随机游走,得到多个初始序列数据;
计算所述多个初始序列数据分别与所述目标实体的相似度和编辑距离,根据所述相似度和所述编辑距离,对所述多个初始序列数据进行匹配,得到与所述目标实体关联对应的目标序列数据;
通过预置的结构化接口和结构化查询语句模板,将所述目标序列数据转换为结构化查询语句。
可选的,在本发明第一方面的第四种实现方式中,所述计算所述多个初始序列数据分别与所述目标实体的相似度和编辑距离,根据所述相似度和所述编辑距离,对所述多个初始序列数据进行匹配,得到与所述目标实体关联对应的目标序列数据,包括:
获取所述医学知识图谱中与所述目标实体对应的知识图谱实体;
通过预置的编辑距离算法,计算每个初始序列数据与所述目标实体之间的第一编辑距离,以及计算每个初始序列数据与所述知识图谱实体之间的第二编辑距离;
计算每个初始序列数据与所述目标实体的语义相似度和目标文本相似度;
计算所述语义相似度、所述目标文本相似度、所述第一编辑距离和所述第二编辑距离的加权值,得到每个初始序列数据的目标相似度,并将大于预置目标阈值的目标相似度对应的初始序列数据确定为目标序列数据。
可选的,在本发明第一方面的第五种实现方式中,所述根据预置的相似度策略,从所述多个召回医生数据中获取多个匹配医生数据,包括:
计算所述多个召回医生数据分别与所述检索信息之间的文本相似度,得到多个文本相似度;
按照所述多个文本相似度从大到小的顺序,对所述多个召回医生数据进行排序,得到多个排序医生数据;
判断所述多个文本相似度中是否存在大于预设相似度阈值的文本相似度;
若所述多个文本相似度中是否存在大于预设相似度阈值的文本相似度,则将大于预设相似度阈值的文本相似度对应的排序医生数据确定为匹配医生数据,得到多个匹配医生数据。
可选的,在本发明第一方面的第六种实现方式中,所述计算所述检索信息与预置科室信息的科室相关度,并按照所述科室相关度从大到小的顺序,对所述多个匹配医生数据进行排序,得到目标数据之后,还包括:
获取用户输入的基于所述目标数据的准确度分值,将小于预设准确度阈值的准确度分值对应的目标数据确定为更新数据;
根据所述更新数据和所述检索信息,对所述医学知识图谱中的实体关系进行优化,以及对所述预置数据库中的预置医学数据进行更新。
本发明第二方面提供了一种基于医学知识图谱的目标数据搜索装置,包括:
识别模块,用于获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体;
生成模块,用于根据所述目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将所述多个初始序列数据与所述目标实体进行相似度匹配,得到与所述目标实体关联对应的目标序列数据,并通过预置的结构化接口生成所述目标序列数据的结构化查询语句;
召回模块,用于通过所述结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;
匹配模块,用于根据预置的相似度策略,从所述多个召回医生数据中获取多个匹配医生数据;
排序模块,用于计算所述检索信息与预置科室信息的科室相关度,并按照所述科室相关度从大到小的顺序,对所述多个匹配医生数据进行排序,得到目标数据。
可选的,在本发明第二方面的第一种实现方式中,所述基于医学知识图谱的目标数据搜索装置,还包括:
实体抽取模块,用于获取经过数据处理的待处理数据,并通过预置的命名实体识别模型,对所述待处理数据进行实体抽取,得到初始实体,所述待处理数据包括医疗机构内部数据和医疗知识数据;
创建接收模块,用于通过预置的实体关系模板创建所述初始实体的对应关系,将创建对应关系的初始实体发送至预置终端,并接收所述预置终端发送的基于创建对应关系的初始实体的审核实体;
填充模块,用于将所述审核实体填充至预置的知识图谱数据框架,得到医学知识图谱。
可选的,在本发明第二方面的第二种实现方式中,所述识别模块具体用于:
获取用户输入的检索信息,对所述检索信息依次进行字符识别和字符转换,得到转换后的检索信息;
对所述转换后的检索信息进行分词和词性过滤,得到目标分词;
通过预置的医学词典和中文语法结构信息,将所述目标分词进行拼接,得到待识别信息;
通过预置的基于Transformer的双向编码器表征模型和医学命名实体信息,对所述待识别信息进行命名实体提取,得到目标实体。
可选的,在本发明第二方面的第三种实现方式中,所述生成模块包括:
遍历游走单元,用于根据所述目标实体,对预置的医学知识图谱依次进行节点遍历和随机游走,得到多个初始序列数据;
计算匹配单元,用于计算所述多个初始序列数据分别与所述目标实体的相似度和编辑距离,根据所述相似度和所述编辑距离,对所述多个初始序列数据进行匹配,得到与所述目标实体关联对应的目标序列数据;
转换单元,用于通过预置的结构化接口和结构化查询语句模板,将所述目标序列数据转换为结构化查询语句。
可选的,在本发明第二方面的第四种实现方式中,所述计算匹配单元具体用于:
获取所述医学知识图谱中与所述目标实体对应的知识图谱实体;
通过预置的编辑距离算法,计算每个初始序列数据与所述目标实体之间的第一编辑距离,以及计算每个初始序列数据与所述知识图谱实体之间的第二编辑距离;
计算每个初始序列数据与所述目标实体的语义相似度和目标文本相似度;
计算所述语义相似度、所述目标文本相似度、所述第一编辑距离和所述第二编辑距离的加权值,得到每个初始序列数据的目标相似度,并将大于预置目标阈值的目标相似度对应的初始序列数据确定为目标序列数据。
可选的,在本发明第二方面的第五种实现方式中,所述匹配模块具体用于:
计算所述多个召回医生数据分别与所述检索信息之间的文本相似度,得到多个文本相似度;
按照所述多个文本相似度从大到小的顺序,对所述多个召回医生数据进行排序,得到多个排序医生数据;
判断所述多个文本相似度中是否存在大于预设相似度阈值的文本相似度;
若所述多个文本相似度中是否存在大于预设相似度阈值的文本相似度,则将大于预设相似度阈值的文本相似度对应的排序医生数据确定为匹配医生数据,得到多个匹配医生数据。
可选的,在本发明第二方面的第六种实现方式中,所述基于医学知识图谱的目标数据搜索装置,还包括:
获取模块,用于获取用户输入的基于所述目标数据的准确度分值,将小于预设准确度阈值的准确度分值对应的目标数据确定为更新数据;
优化更新模块,用于根据所述更新数据和所述检索信息,对所述医学知识图谱中的实体关系进行优化,以及对所述预置数据库中的预置医学数据进行更新。
本发明第三方面提供了一种基于医学知识图谱的目标数据搜索设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于医学知识图谱的目标数据搜索设备执行上述的基于医学知识图谱的目标数据搜索方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于医学知识图谱的目标数据搜索方法。
本发明提供的技术方案中,获取用户输入的检索信息,对检索信息进行文本分析和命名实体识别,得到目标实体;根据目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将多个初始序列数据与目标实体进行相似度匹配,得到与目标实体关联对应的目标序列数据,并通过预置的结构化接口生成目标序列数据的结构化查询语句;通过结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;根据预置的相似度策略,从多个召回医生数据中获取多个匹配医生数据;计算检索信息与预置科室信息的科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据。本发明中,通过对检索信息进行文本分析和命名实体识别,采用医学知识图谱对目标实体进行上下文信息的扩充以及结构化的实体关联处理,解决了检索信息的非医学专用词性、多维度性、口语性和短语性的问题,提高了对于医生信息的检索准确度。
附图说明
图1为本发明实施例中基于医学知识图谱的目标数据搜索方法的一个实施例示意图;
图2为本发明实施例中基于医学知识图谱的目标数据搜索方法的另一个实施例示意图;
图3为本发明实施例中基于医学知识图谱的目标数据搜索装置的一个实施例示意图;
图4为本发明实施例中基于医学知识图谱的目标数据搜索装置的另一个实施例示意图;
图5为本发明实施例中基于医学知识图谱的目标数据搜索设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于医学知识图谱的目标数据搜索方法及相关设备,提高了对于医生信息的检索准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于医学知识图谱的目标数据搜索方法的一个实施例包括:
101、获取用户输入的检索信息,对检索信息进行文本分析和命名实体识别,得到目标实体。
可以理解的是,本发明的执行主体可以为基于医学知识图谱的目标数据搜索装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
其中,检索信息可为短语或长句,也可为音视频信息或文本信息,当检索信息为音视频信息时,服务器调用预置的转换接口或转换模型,通过转换接口或转换模型将音视频信息转换为文本信息。预置终端检测到用户检索界面输入检索信息时,将检索信息发送至服务器,服务器接收到检索信息后,对该检索信息中英文字母进行大小写转换,得到第一信息,对第一信息进行分词、词性过滤和词根去除等处理,得到第二信息,识别第二信息的命名实体,从而获得目标实体。
102、根据目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将多个初始序列数据与目标实体进行相似度匹配,得到与目标实体关联对应的目标序列数据,并通过预置的结构化接口生成目标序列数据的结构化查询语句。
其中,预置的医学知识图谱包括部位信息、疾病信息、病症信息、临床表现信息和科室信息,部位信息、疾病信息、病症信息和临床表现信息包含有学名和别名(俗称),例如:病症信息中百姓所说的“感冒”为别名(俗称),医学生的学名为“上呼吸道感染”。医学知识图谱中的结点为科室数据。通过预置的医学知识图谱对检索信息进行上下文的扩充,即将搜索信息中的疾病信息、症状信息和/或部位信息等转换为科室信息,将多维度、口语化和短语化的检索信息归一化为科室信息,解决了检索信息的非医学专用词性、多维度性、口语性和短语性的问题,提高了后续对医生数据进行匹配的准确性。服务器通过预置的结构化查询语言接口(即结构化接口),生成目标序列数据的结构化查询语句。
实体上下文关系可为图谱实体(即构建医学知识图谱的实体)在医学知识图谱中邻接的关系,也可为图谱实体(即构建医学知识图谱的实体)在医学知识图谱中存在的关系路径。基于实体上下文关系的检索即为在医学知识图谱中获取与目标实体对应的图谱实体,存在邻接的关系的其他图谱实体所在以及存在的关系路径的多个初始序列数据。通过计算多个初始序列数据分别与目标实体的相似度和编辑距离,将相似度和编辑距离的和值与预设阈值进行对比分析,从而得到与目标实体关联对应的目标序列数据,其中,可通过将多个初始序列数据分别与目标实体转换为向量,计算向量之间的余弦相似度,可通过将多个初始序列数据分别与目标实体转换为矩阵,计算矩阵之间的编辑距离。
服务器在对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据时,可根据目标实体和目标实体对应的优先级,对预置的医学知识图谱进行基于实体上下文关系的检索,得到与目标实体对应的科室信息(即目标序列数据),例如,目标实体为实体1(部位)和实体2(病症),目标实体对应的优先级为部位优先,然后到病症,则对预置的医学知识图谱进行基于实体上下文关系的检索,得到与实体1相同或相似度值大于预设阈值的目标节点,再根据实体2对与目标节点连接的序列节点进行基于实体上下文关系的检索,得到与实体2相同或相似度值大于预设阈值的多个序列节点,根据目标节点和多个序列节点得到多个序列数据,分别为序列数据1、序列数据2、序列数据3和序列数据4,将序列数据1、序列数据2、序列数据3和序列数据4中具备相同科室名的序列数据进行融合,得到目标序列数据,即序列数据1和序列数据2均对应一个科室名,则将序列数据1和序列数据2进行融合,得到目标序列数据1,序列数据3和序列数据4均为不同的科室名,则序列数据3和序列数据4分别为目标序列数据2和目标序列数据3。
103、通过结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据。
其中,预置医生数据包括医生的基本信息、所在的科室、擅长领域、就医经验和患者的就医评价等。服务器通过结构化查询语句,对预置数据库中的多个预置医生数据进行检索,得到多个初始医学数据,根据预置的召回配置信息,对多个初始医学数据进行读取,得到多个召回医生数据,例如,服务器通过结构化查询语句,对预置数据库中的多个预置医生数据进行检索,得到20个初始医学数据,预置的召回配置信息为最大召回数量为10个,则读取20个初始医学数据中的前10个初始医学数据,得到多个召回医生数据。
104、根据预置的相似度策略,从多个召回医生数据中获取多个匹配医生数据。
服务器获得多个召回医生数据后,计算多个召回医生数据分别与检索信息的文本相似度和语义相似度,得到多个召回文本相似度和多个召回语义相似度,计算每个召回文本相似度和对应的召回语义相似度的均值,得到多个综合相似度,按照多个综合相似度从大到小的顺序,对多个召回医生数据进行排序,得到多个匹配医生数据,或者将排序后的多个召回医生数据中排序为前预设位的召回医生数据作为多个匹配医生数据。
105、计算检索信息与预置科室信息的科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据。
其中,预置科室信息包括科室的就诊疾病信息和就诊者的就诊信息。服务器通过预置的相关性算法对检索信息与预置科室信息进行统计分析并计算其科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据,实现了与科室相关性越高,排序越前,便于用户选择的效果。其中,在计算科室相关度时,服务器还可获取用户的历史就诊数据,对历史就诊数据和预置科室信息进行统计分析得到统计参数,根据统计参数计算检索信息与预置科室信息的科室相关度。
本发明实施例中,通过对检索信息进行文本分析和命名实体识别,采用医学知识图谱对目标实体进行上下文信息的扩充以及结构化的实体关联处理,解决了检索信息的非医学专用词性、多维度性、口语性和短语性的问题,提高了对于医生信息的检索准确度。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
请参阅图2,本发明实施例中基于医学知识图谱的目标数据搜索方法的另一个实施例包括:
201、获取用户输入的检索信息,对检索信息进行文本分析和命名实体识别,得到目标实体。
具体地,服务器获取用户输入的检索信息,对检索信息依次进行字符识别和字符转换,得到转换后的检索信息;对转换后的检索信息进行分词和词性过滤,得到目标分词;通过预置的医学词典和中文语法结构信息,将目标分词进行拼接,得到待识别信息;通过预置的基于Transformer的双向编码器表征模型和医学命名实体信息,对待识别信息进行命名实体提取,得到目标实体。
例如,服务器得到用户输入的检索信息后,该检索信息为“我的肚子pain”,识别到pain对应的字符为英文字符,将其转换为“疼”的中文字符,得到转换后的检索信息“我的肚子疼”,对“我的肚子疼”进行分词,得到“我,的,肚,子,疼”,对“我,的,肚,子,疼”进行词性过滤,得到目标分词“肚,子,疼”,通过预置的医学词典和中文语法结构信息,将“肚,子,疼”进行拼接,得到待识别信息“肚子疼”,通过预置的基于Transformer的双向编码器表征模型和医学命名实体信息,对“肚子疼”进行命名实体提取,得到目标实体“部位(肚子)”。
具体地,服务器获取用户输入的检索信息,对检索信息进行文本分析和命名实体识别,得到目标实体之前,获取经过数据处理的待处理数据,并通过预置的命名实体识别模型,对待处理数据进行实体抽取,得到初始实体,待处理数据包括医疗机构内部数据和医疗知识数据;通过预置的实体关系模板创建初始实体的对应关系,将创建对应关系的初始实体发送至预置终端,并接收预置终端发送的基于创建对应关系的初始实体的审核实体;将审核实体填充至预置的知识图谱数据框架,得到医学知识图谱。
其中,命名实体识别(named entity recognition,NER)模型为基于Transformer的双向编码器表征(bidirectional encoder representations from transformers,BERT)模型训练的模型。医疗机构内部数据包括医疗机构内部使用的医疗系统所存储的数据和内部各位医生的信息等,例如:用户的问诊数据、医生所在的科室、医生的擅长领域和标准疾病库中的数据等。
服务器从医疗机构内容的医疗系统中提取医疗机构内部数据,服务器从网络平台上爬取医学论文数据、医疗词典数据和医疗知识百科,以及预置的存储医疗知识的数据库中提取医疗数据,得到医疗知识数据,对医疗机构内部数据和医疗知识数据进行数据清洗、数据变换和数据归约等数据处理,并对医疗机构内部数据中用户的问诊数据进行脱敏处理,从而得到经过数据处理的待处理数据。
预置的实体关系模板由相关的专家设定。创建对应关系的初始实体需发送预置终端,由预置终端对应的专家对其进行审核和确认,若审核和确认通过,则将创建对应关系的初始实体作为审核确认后的审核实体,若审核和确认不通过,则由预置终端对应的专家对其进行修正,得到审核实体,预置终端获得审核实体后,将审核实体发送至服务器。预置的知识图谱数据框架为由预置的知识图谱的数据模型构建的框架。
202、根据目标实体,对预置的医学知识图谱依次进行节点遍历和随机游走,得到多个初始序列数据。
服务器可通过对预置的医学知识图谱进行检索,得到与目标实体对应的目标节点,根据预置的随机游走算法,基于医学知识图谱中实体的路径关系和邻接关系,对医学知识图谱依次进行基于目标节点的节点遍历和随机游走,得到多个包含有目标节点的初始序列数据,其中,可将目标节点作为随机游走的起始点;也将目标节点作为随机游走的中间点,以中间点向两端随机游走。
服务器也可通过预置的随机游走算法,对预置的医学知识图谱进行随机游走,得到多个待遍历的序列数据,根据目标实体对多个待遍历的序列数据进行节点遍历,得到与目标实体对应的图谱实体,将包含有图谱实体的多个待遍历的序列数据确定为多个初始序列数据。
203、计算多个初始序列数据分别与目标实体的相似度和编辑距离,根据相似度和编辑距离,对多个初始序列数据进行匹配,得到与目标实体关联对应的目标序列数据。
具体地,服务器获取医学知识图谱中与目标实体对应的知识图谱实体;通过预置的编辑距离算法,计算每个初始序列数据与目标实体之间的第一编辑距离,以及计算每个初始序列数据与知识图谱实体之间的第二编辑距离;计算每个初始序列数据与目标实体的语义相似度和目标文本相似度;计算语义相似度、目标文本相似度、第一编辑距离和第二编辑距离的加权值,得到每个初始序列数据的目标相似度,并将大于预置目标阈值的目标相似度对应的初始序列数据确定为目标序列数据。
其中,预置的医学知识图谱包括疾病、症状信息和科室信息等,通过医学知识图谱将检索信息中的病状和疾病信息转换为科室信息。例如,目标实体为A,服务器获取医学知识图谱中与目标实体对应的知识图谱实体为M,多个初始序列数据分别为B、C、D和E,服务器生成B、C、D和E分别对应的矩阵1、矩阵2、矩阵3和矩阵4,通过预置的编辑距离算法,计算矩阵1、矩阵2、矩阵3和矩阵4分别与A的第一编辑距离,得到距离A1、A2、A3和A4,通过预置的编辑距离算法,计算矩阵1、矩阵2、矩阵3和矩阵4分别与M的第一编辑距离,得到距离M1、M2、M3和M4,将A1和M1的和值作为综合编辑距离1,将A2和M2的和值作为综合编辑距离2,将A3和M3的和值作为综合编辑距离3,将A4和M4的和值作为综合编辑距离4,计算A分别与B、C、D和E之间的语义相似度,得到Q1、Q2、Q3和Q4,计算A分别与B、C、D和E之间的目标文本相似度,得到W1、W2、W3和W4,计算Q1、W1和综合编辑距离1的加权值得到K1(0.68),计算Q2、W2和综合编辑距离2的加权值得到K2(0.84),计算Q3、W3和综合编辑距离3的加权值得到K3(0.75),计算Q4、W4和综合编辑距离4的加权值得到K4(0.9),预置目标阈值为0.7,则C、D和E为目标序列数据。
204、通过预置的结构化接口和结构化查询语句模板,将目标序列数据转换为结构化查询语句。
服务器调用预置的结构化接口,通过结构化接口根据预置的结构化查询语句模板中数据项,对目标序列数据进行数据分类得到分类数据,将分类数据对应地填充至预置的结构化查询语句模板的相应位置,从而获得目标序列数据对应的结构化查询语句。
服务器在通过预置的结构化查询语句模板,对目标序列数据进行结构化处理之前,可根据目标序列数据的内容,从预置数据库中匹配对应的结构化查询语句模板,例如,目标序列数据包括多个关系条件,则匹配嵌套查询类型的结构化查询语句模板。
205、通过结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据。
服务器通过结构化查询语句,检索预置数据库表中存储的行,得到召回的多个初始医学数据,计算召回的多个初始医学数据与目标序列数据的相似度,按照相似度值从大到小的顺序,对召回的多个初始医学数据进行排序,得到排序后的多个初始医学数据,根据预置的召回配置信息,对排序后的多个初始医学数据进行读取,得到多个召回医生数据。
206、根据预置的相似度策略,从多个召回医生数据中获取多个匹配医生数据。
具体地,服务器计算多个召回医生数据分别与检索信息之间的文本相似度,得到多个文本相似度;按照多个文本相似度从大到小的顺序,对多个召回医生数据进行排序,得到多个排序医生数据;判断多个文本相似度中是否存在大于预设相似度阈值的文本相似度;若多个文本相似度中是否存在大于预设相似度阈值的文本相似度,则将大于预设相似度阈值的文本相似度对应的排序医生数据确定为匹配医生数据,得到多个匹配医生数据。
例如,多个召回医生数据为H1、H2、H3和H4,计算H1、H2、H3和H4与所述检索信息之间的文本相似度,得到V1、V2、V3和V4,按照V1、V2、V3和V4从大到小的顺序对H1、H2、H3和H4进行排序,得到排序后的召回医生数据H3、H4、H1和H2,判断V1、V2、V3和V4是否大于预设相似度阈值,若V1、V2、V3均大于预设相似度阈值,V4小于或等于预设相似度阈值,则得到多个匹配医学数据为H3、H1和H2。
207、计算检索信息与预置科室信息的科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据。
其中,预置科室信息包括科室的就诊疾病信息和就诊者的就诊信息。服务器通过预置的相关性算法对检索信息与预置科室信息进行统计分析并计算其科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据,实现了与科室相关性越高,排序越前,便于用户选择的效果。其中,在计算科室相关度时,服务器还可获取用户的历史就诊数据,对历史就诊数据和预置科室信息进行统计分析得到统计参数,根据统计参数计算检索信息与预置科室信息的科室相关度。
具体地,服务器计算检索信息与预置科室信息的科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据之后,获取用户输入的基于目标数据的准确度分值,将小于预设准确度阈值的准确度分值对应的目标数据确定为更新数据;根据更新数据和检索信息,对医学知识图谱中的实体关系进行优化,以及对预置数据库中的预置医学数据进行更新。
例如,服务器将目标数据渲染在预置的显示页面上,用户根据就诊后的结果,再显示页面上输入对于目标数据的准确度评分(即准确度分值),如目标数据T1为9分,目标数据T2为5分,目标数据T3为7分,预设准确度阈值为8分,则目标数据T2和目标数据T3为目标数据,并获取用户对于目标数据进行选择预约和就诊后的就诊数据,根据该就诊数据、目标数据T2、目标数据T3和检索信息对医学知识图谱中的实体关系进行调整优化,创建该就诊数据、检索信息和预置医学数据中与就诊数据对应的医学数据之间的对应关系,并根据该对应关系更新预置医学数据的索引信息或标签信息等,从而提高对于医生信息的检索准确度。
本发明实施例中,通过对检索信息进行文本分析和命名实体识别,采用医学知识图谱对目标实体进行上下文信息的扩充以及结构化的实体关联处理,解决了检索信息的非医学专用词性、多维度性、口语性和短语性的问题,提高了对于医生信息的检索准确度。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
上面对本发明实施例中基于医学知识图谱的目标数据搜索方法进行了描述,下面对本发明实施例中基于医学知识图谱的目标数据搜索装置进行描述,请参阅图3,本发明实施例中基于医学知识图谱的目标数据搜索装置一个实施例包括:
识别模块301,用于获取用户输入的检索信息,对检索信息进行文本分析和命名实体识别,得到目标实体;
生成模块302,用于根据目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将多个初始序列数据与目标实体进行相似度匹配,得到与目标实体关联对应的目标序列数据,并通过预置的结构化接口生成目标序列数据的结构化查询语句;
召回模块303,用于通过结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;
匹配模块304,用于根据预置的相似度策略,从多个召回医生数据中获取多个匹配医生数据;
排序模块305,用于计算检索信息与预置科室信息的科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据。
上述基于医学知识图谱的目标数据搜索装置中各个模块的功能实现与上述基于医学知识图谱的目标数据搜索方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过对检索信息进行文本分析和命名实体识别,采用医学知识图谱对目标实体进行上下文信息的扩充以及结构化的实体关联处理,解决了检索信息的非医学专用词性、多维度性、口语性和短语性的问题,提高了对于医生信息的检索准确度。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
请参阅图4,本发明实施例中基于医学知识图谱的目标数据搜索装置的另一个实施例包括:
识别模块301,用于获取用户输入的检索信息,对检索信息进行文本分析和命名实体识别,得到目标实体;
生成模块302,用于根据目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将多个初始序列数据与目标实体进行相似度匹配,得到与目标实体关联对应的目标序列数据,并通过预置的结构化接口生成目标序列数据的结构化查询语句;
其中,生成模块302具体包括:
遍历游走单元3021,用于根据目标实体,对预置的医学知识图谱依次进行节点遍历和随机游走,得到多个初始序列数据;
计算匹配单元3022,用于计算多个初始序列数据分别与目标实体的相似度和编辑距离,根据相似度和编辑距离,对多个初始序列数据进行匹配,得到与目标实体关联对应的目标序列数据;
转换单元3023,用于通过预置的结构化接口和结构化查询语句模板,将目标序列数据转换为结构化查询语句;
召回模块303,用于通过结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;
匹配模块304,用于根据预置的相似度策略,从多个召回医生数据中获取多个匹配医生数据;
排序模块305,用于计算检索信息与预置科室信息的科室相关度,并按照科室相关度从大到小的顺序,对多个匹配医生数据进行排序,得到目标数据。
可选的,基于医学知识图谱的目标数据搜索装置,还包括:
实体抽取模块306,用于获取经过数据处理的待处理数据,并通过预置的命名实体识别模型,对待处理数据进行实体抽取,得到初始实体,待处理数据包括医疗机构内部数据和医疗知识数据;
创建接收模块307,用于通过预置的实体关系模板创建初始实体的对应关系,将创建对应关系的初始实体发送至预置终端,并接收预置终端发送的基于创建对应关系的初始实体的审核实体;
填充模块308,用于将审核实体填充至预置的知识图谱数据框架,得到医学知识图谱。
可选的,识别模块301还可以具体用于:
获取用户输入的检索信息,对检索信息依次进行字符识别和字符转换,得到转换后的检索信息;
对转换后的检索信息进行分词和词性过滤,得到目标分词;
通过预置的医学词典和中文语法结构信息,将目标分词进行拼接,得到待识别信息;
通过预置的基于Transformer的双向编码器表征模型和医学命名实体信息,对待识别信息进行命名实体提取,得到目标实体。
可选的,计算匹配单元3022还可以具体用于:
获取医学知识图谱中与目标实体对应的知识图谱实体;
通过预置的编辑距离算法,计算每个初始序列数据与目标实体之间的第一编辑距离,以及计算每个初始序列数据与知识图谱实体之间的第二编辑距离;
计算每个初始序列数据与目标实体的语义相似度和目标文本相似度;
计算语义相似度、目标文本相似度、第一编辑距离和第二编辑距离的加权值,得到每个初始序列数据的目标相似度,并将大于预置目标阈值的目标相似度对应的初始序列数据确定为目标序列数据。
可选的,匹配模块304还可以具体用于:
计算多个召回医生数据分别与检索信息之间的文本相似度,得到多个文本相似度;
按照多个文本相似度从大到小的顺序,对多个召回医生数据进行排序,得到多个排序医生数据;
判断多个文本相似度中是否存在大于预设相似度阈值的文本相似度;
若多个文本相似度中是否存在大于预设相似度阈值的文本相似度,则将大于预设相似度阈值的文本相似度对应的排序医生数据确定为匹配医生数据,得到多个匹配医生数据。
可选的,基于医学知识图谱的目标数据搜索装置,还包括:
获取模块309,用于获取用户输入的基于目标数据的准确度分值,将小于预设准确度阈值的准确度分值对应的目标数据确定为更新数据;
优化更新模块310,用于根据更新数据和检索信息,对医学知识图谱中的实体关系进行优化,以及对预置数据库中的预置医学数据进行更新。
上述基于医学知识图谱的目标数据搜索装置中各模块和各单元的功能实现与上述基于医学知识图谱的目标数据搜索方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过对检索信息进行文本分析和命名实体识别,采用医学知识图谱对目标实体进行上下文信息的扩充以及结构化的实体关联处理,解决了检索信息的非医学专用词性、多维度性、口语性和短语性的问题,提高了对于医生信息的检索准确度。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
上面图3和图4从模块化功能实体的角度对本发明实施例中的基于医学知识图谱的目标数据搜索装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于医学知识图谱的目标数据搜索设备进行详细描述。
图5是本发明实施例提供的一种基于医学知识图谱的目标数据搜索设备的结构示意图,该基于医学知识图谱的目标数据搜索设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于医学知识图谱的目标数据搜索设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在基于医学知识图谱的目标数据搜索设备500上执行存储介质530中的一系列指令操作。
基于医学知识图谱的目标数据搜索设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的基于医学知识图谱的目标数据搜索设备结构并不构成对基于医学知识图谱的目标数据搜索设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于医学知识图谱的目标数据搜索方法的步骤。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于医学知识图谱的目标数据搜索方法,其特征在于,所述基于医学知识图谱的目标数据搜索方法包括:
获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体;
根据所述目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将所述多个初始序列数据与所述目标实体进行相似度匹配,得到与所述目标实体关联对应的目标序列数据,并通过预置的结构化接口生成所述目标序列数据的结构化查询语句;
通过所述结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;
根据预置的相似度策略,从所述多个召回医生数据中获取多个匹配医生数据;
计算所述检索信息与预置科室信息的科室相关度,并按照所述科室相关度从大到小的顺序,对所述多个匹配医生数据进行排序,得到目标数据。
2.根据权利要求1所述的基于医学知识图谱的目标数据搜索方法,其特征在于,所述获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体之前,还包括:
获取经过数据处理的待处理数据,并通过预置的命名实体识别模型,对所述待处理数据进行实体抽取,得到初始实体,所述待处理数据包括医疗机构内部数据和医疗知识数据;
通过预置的实体关系模板创建所述初始实体的对应关系,将创建对应关系的初始实体发送至预置终端,并接收所述预置终端发送的基于创建对应关系的初始实体的审核实体;
将所述审核实体填充至预置的知识图谱数据框架,得到医学知识图谱。
3.根据权利要求2所述的基于医学知识图谱的目标数据搜索方法,其特征在于,所述获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体,包括:
获取用户输入的检索信息,对所述检索信息依次进行字符识别和字符转换,得到转换后的检索信息;
对所述转换后的检索信息进行分词和词性过滤,得到目标分词;
通过预置的医学词典和中文语法结构信息,将所述目标分词进行拼接,得到待识别信息;
通过预置的基于Transformer的双向编码器表征模型和医学命名实体信息,对所述待识别信息进行命名实体提取,得到目标实体。
4.根据权利要求1所述的基于医学知识图谱的目标数据搜索方法,其特征在于,所述根据所述目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将所述多个初始序列数据与所述目标实体进行相似度匹配,得到与所述目标实体关联对应的目标序列数据,并通过预置的结构化接口生成所述目标序列数据的结构化查询语句,包括:
根据所述目标实体,对预置的医学知识图谱依次进行节点遍历和随机游走,得到多个初始序列数据;
计算所述多个初始序列数据分别与所述目标实体的相似度和编辑距离,根据所述相似度和所述编辑距离,对所述多个初始序列数据进行匹配,得到与所述目标实体关联对应的目标序列数据;
通过预置的结构化接口和结构化查询语句模板,将所述目标序列数据转换为结构化查询语句。
5.根据权利要求4所述的基于医学知识图谱的目标数据搜索方法,其特征在于,所述计算所述多个初始序列数据分别与所述目标实体的相似度和编辑距离,根据所述相似度和所述编辑距离,对所述多个初始序列数据进行匹配,得到与所述目标实体关联对应的目标序列数据,包括:
获取所述医学知识图谱中与所述目标实体对应的知识图谱实体;
通过预置的编辑距离算法,计算每个初始序列数据与所述目标实体之间的第一编辑距离,以及计算每个初始序列数据与所述知识图谱实体之间的第二编辑距离;
计算每个初始序列数据与所述目标实体的语义相似度和目标文本相似度;
计算所述语义相似度、所述目标文本相似度、所述第一编辑距离和所述第二编辑距离的加权值,得到每个初始序列数据的目标相似度,并将大于预置目标阈值的目标相似度对应的初始序列数据确定为目标序列数据。
6.根据权利要求1所述的基于医学知识图谱的目标数据搜索方法,其特征在于,所述根据预置的相似度策略,从所述多个召回医生数据中获取多个匹配医生数据,包括:
计算所述多个召回医生数据分别与所述检索信息之间的文本相似度,得到多个文本相似度;
按照所述多个文本相似度从大到小的顺序,对所述多个召回医生数据进行排序,得到多个排序医生数据;
判断所述多个文本相似度中是否存在大于预设相似度阈值的文本相似度;
若所述多个文本相似度中是否存在大于预设相似度阈值的文本相似度,则将大于预设相似度阈值的文本相似度对应的排序医生数据确定为匹配医生数据,得到多个匹配医生数据。
7.根据权利要求1-6中任一项所述的基于医学知识图谱的目标数据搜索方法,其特征在于,所述计算所述检索信息与预置科室信息的科室相关度,并按照所述科室相关度从大到小的顺序,对所述多个匹配医生数据进行排序,得到目标数据之后,还包括:
获取用户输入的基于所述目标数据的准确度分值,将小于预设准确度阈值的准确度分值对应的目标数据确定为更新数据;
根据所述更新数据和所述检索信息,对所述医学知识图谱中的实体关系进行优化,以及对所述预置数据库中的预置医学数据进行更新。
8.一种基于医学知识图谱的目标数据搜索装置,其特征在于,所述基于医学知识图谱的目标数据搜索装置包括:
识别模块,用于获取用户输入的检索信息,对所述检索信息进行文本分析和命名实体识别,得到目标实体;
生成模块,用于根据所述目标实体,对预置的医学知识图谱进行基于实体上下文关系的检索,得到多个初始序列数据,将所述多个初始序列数据与所述目标实体进行相似度匹配,得到与所述目标实体关联对应的目标序列数据,并通过预置的结构化接口生成所述目标序列数据的结构化查询语句;
召回模块,用于通过所述结构化查询语句和预置的召回配置信息,对预置数据库中的多个预置医生数据进行召回,得到多个召回医生数据;
匹配模块,用于根据预置的相似度策略,从所述多个召回医生数据中获取多个匹配医生数据;
排序模块,用于计算所述检索信息与预置科室信息的科室相关度,并按照所述科室相关度从大到小的顺序,对所述多个匹配医生数据进行排序,得到目标数据。
9.一种基于医学知识图谱的目标数据搜索设备,其特征在于,所述基于医学知识图谱的目标数据搜索设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于医学知识图谱的目标数据搜索设备执行如权利要求1-7中任意一项所述的基于医学知识图谱的目标数据搜索方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述基于医学知识图谱的目标数据搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010897833.8A CN112035511A (zh) | 2020-08-31 | 2020-08-31 | 基于医学知识图谱的目标数据搜索方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010897833.8A CN112035511A (zh) | 2020-08-31 | 2020-08-31 | 基于医学知识图谱的目标数据搜索方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112035511A true CN112035511A (zh) | 2020-12-04 |
Family
ID=73587246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010897833.8A Pending CN112035511A (zh) | 2020-08-31 | 2020-08-31 | 基于医学知识图谱的目标数据搜索方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035511A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220904A (zh) * | 2021-05-20 | 2021-08-06 | 合肥工业大学 | 数据处理方法及数据处理装置、电子设备 |
CN113611408A (zh) * | 2021-08-20 | 2021-11-05 | 泰康保险集团股份有限公司 | 交互诊疗信息的方法、系统、设备和计算机可读介质 |
CN113658712A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 医患匹配方法、装置、设备及存储介质 |
CN114153995A (zh) * | 2022-02-09 | 2022-03-08 | 杭州太美星程医药科技有限公司 | 医学术语的处理方法、装置、计算机设备和存储介质 |
CN114400099A (zh) * | 2021-12-31 | 2022-04-26 | 北京华彬立成科技有限公司 | 疾病信息挖掘和检索方法、装置、电子设备和存储介质 |
CN114579709A (zh) * | 2022-03-15 | 2022-06-03 | 西南交通大学 | 一种基于知识图谱的智能问答意图识别方法 |
CN115358235A (zh) * | 2022-07-25 | 2022-11-18 | 北京大学 | 医学知识图谱的质控方法、装置、计算机设备和存储介质 |
CN115858759A (zh) * | 2023-02-27 | 2023-03-28 | 北京泽桥医疗科技股份有限公司 | 一种基于医学知识图谱的智能查询算法及管理系统 |
CN116842142A (zh) * | 2023-08-29 | 2023-10-03 | 南通康盛医疗器械有限公司 | 一种医疗器械智能化检索系统 |
CN117747096A (zh) * | 2024-02-21 | 2024-03-22 | 神州医疗科技股份有限公司 | 一种基于病理组学知识库的辅助诊疗系统及构建方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278222A1 (en) * | 2014-04-01 | 2015-10-01 | Healthgrades Operating Company, Inc. | Healthcare provider search based on experience |
CN106227880A (zh) * | 2016-08-01 | 2016-12-14 | 挂号网(杭州)科技有限公司 | 医生搜索推荐的实现方法 |
CN106447066A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的特征提取方法和装置 |
CN110134796A (zh) * | 2019-04-19 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质 |
US20190317994A1 (en) * | 2018-04-16 | 2019-10-17 | Tata Consultancy Services Limited | Deep learning techniques based multi-purpose conversational agents for processing natural language queries |
CN110442732A (zh) * | 2019-07-24 | 2019-11-12 | 万达信息股份有限公司 | 一种智能导医方法、系统及存储介质 |
CN111190968A (zh) * | 2019-12-16 | 2020-05-22 | 北京航天智造科技发展有限公司 | 基于知识图谱的数据预处理和内容推荐方法 |
CN111403011A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 挂号科室推送方法、装置、系统、电子设备及存储介质 |
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
-
2020
- 2020-08-31 CN CN202010897833.8A patent/CN112035511A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278222A1 (en) * | 2014-04-01 | 2015-10-01 | Healthgrades Operating Company, Inc. | Healthcare provider search based on experience |
CN106447066A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的特征提取方法和装置 |
CN106227880A (zh) * | 2016-08-01 | 2016-12-14 | 挂号网(杭州)科技有限公司 | 医生搜索推荐的实现方法 |
US20190317994A1 (en) * | 2018-04-16 | 2019-10-17 | Tata Consultancy Services Limited | Deep learning techniques based multi-purpose conversational agents for processing natural language queries |
CN110134796A (zh) * | 2019-04-19 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质 |
CN110442732A (zh) * | 2019-07-24 | 2019-11-12 | 万达信息股份有限公司 | 一种智能导医方法、系统及存储介质 |
CN111190968A (zh) * | 2019-12-16 | 2020-05-22 | 北京航天智造科技发展有限公司 | 基于知识图谱的数据预处理和内容推荐方法 |
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
CN111403011A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 挂号科室推送方法、装置、系统、电子设备及存储介质 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220904A (zh) * | 2021-05-20 | 2021-08-06 | 合肥工业大学 | 数据处理方法及数据处理装置、电子设备 |
CN113611408A (zh) * | 2021-08-20 | 2021-11-05 | 泰康保险集团股份有限公司 | 交互诊疗信息的方法、系统、设备和计算机可读介质 |
CN113658712A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 医患匹配方法、装置、设备及存储介质 |
CN114400099A (zh) * | 2021-12-31 | 2022-04-26 | 北京华彬立成科技有限公司 | 疾病信息挖掘和检索方法、装置、电子设备和存储介质 |
CN114153995A (zh) * | 2022-02-09 | 2022-03-08 | 杭州太美星程医药科技有限公司 | 医学术语的处理方法、装置、计算机设备和存储介质 |
CN114579709B (zh) * | 2022-03-15 | 2023-04-07 | 西南交通大学 | 一种基于知识图谱的智能问答意图识别方法 |
CN114579709A (zh) * | 2022-03-15 | 2022-06-03 | 西南交通大学 | 一种基于知识图谱的智能问答意图识别方法 |
CN115358235A (zh) * | 2022-07-25 | 2022-11-18 | 北京大学 | 医学知识图谱的质控方法、装置、计算机设备和存储介质 |
CN115358235B (zh) * | 2022-07-25 | 2023-05-30 | 北京大学 | 医学知识图谱的质控方法、装置、计算机设备和存储介质 |
CN115858759A (zh) * | 2023-02-27 | 2023-03-28 | 北京泽桥医疗科技股份有限公司 | 一种基于医学知识图谱的智能查询算法及管理系统 |
CN116842142A (zh) * | 2023-08-29 | 2023-10-03 | 南通康盛医疗器械有限公司 | 一种医疗器械智能化检索系统 |
CN116842142B (zh) * | 2023-08-29 | 2023-12-19 | 南通康盛医疗器械有限公司 | 一种医疗器械智能化检索系统 |
CN117747096A (zh) * | 2024-02-21 | 2024-03-22 | 神州医疗科技股份有限公司 | 一种基于病理组学知识库的辅助诊疗系统及构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035511A (zh) | 基于医学知识图谱的目标数据搜索方法及相关设备 | |
WO2020143184A1 (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
CN112037920A (zh) | 医疗知识图谱构建方法、装置、设备及存储介质 | |
CN111984851B (zh) | 医学资料搜索方法、装置、电子装置及存储介质 | |
WO2021114632A1 (zh) | 疾病名称标准化方法、装置、设备及存储介质 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN113011189A (zh) | 开放式实体关系的抽取方法、装置、设备及存储介质 | |
TW201841121A (zh) | 一種自動生成語義相近句子樣本的方法 | |
WO2023029513A1 (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN112860727B (zh) | 基于大数据查询引擎的数据查询方法、装置、设备及介质 | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
CN111695336A (zh) | 疾病名称对码方法、装置、计算机设备及存储介质 | |
CN111339269A (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN111611452A (zh) | 搜索文本的歧义识别方法、系统、设备及存储介质 | |
CN113221559A (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN110019474B (zh) | 异构数据库中的同义数据自动关联方法、装置及电子设备 | |
CN112486919A (zh) | 文档管理方法、系统及存储介质 | |
Prudhomme et al. | Automatic Integration of Spatial Data into the Semantic Web. | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN112131341A (zh) | 文本相似度计算方法、装置、电子设备和存储介质 | |
CN111859984A (zh) | 意图挖掘方法、装置、设备及存储介质 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN116911300A (zh) | 语言模型预训练方法、实体识别方法和装置 | |
CN113722460B (zh) | 指标数据入库方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201204 |