CN112559686A - 信息检索方法、装置及电子设备 - Google Patents
信息检索方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112559686A CN112559686A CN202011460471.2A CN202011460471A CN112559686A CN 112559686 A CN112559686 A CN 112559686A CN 202011460471 A CN202011460471 A CN 202011460471A CN 112559686 A CN112559686 A CN 112559686A
- Authority
- CN
- China
- Prior art keywords
- medical
- vector space
- semantic vector
- term
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000013598 vector Substances 0.000 claims abstract description 134
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 46
- 238000013145 classification model Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims 1
- 230000014509 gene expression Effects 0.000 abstract description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000003745 diagnosis Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 14
- 239000003814 drug Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000029058 respiratory gaseous exchange Effects 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000241 respiratory effect Effects 0.000 description 3
- 208000000059 Dyspnea Diseases 0.000 description 2
- 206010013975 Dyspnoeas Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 208000037062 Polyps Diseases 0.000 description 1
- 206010038687 Respiratory distress Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息检索方法、装置及电子设备,涉及自然语言处理、深度学习等人工智能技术领域。该方案为:接收待查询的医学查询词;获取所述医学查询词对应的候选科室;获取所述医学查询词的第一语义向量空间;基于所述候选科室和所述第一语义向量空间,获取所述医学查询词对应的至少一个目标医学术语。本申请可以在接收到待查询的医学查询词后,基于候选科室和第一语义向量空间,自动地获取与待查询的医学查询词对应的至少一个目标医学术语,以根据非标准化的查询词获取到匹配的标准化的术语,确保了目标医学术语的准确性,提高了信息检索过程中的效率和可靠性,同时规范了诊断过程中医学术语的表达。
Description
技术领域
本申请的实施例总体上涉及图像处理技术领域,并且更具体地涉及自然语言处理、深度学习等人工智能技术领域。
背景技术
在医疗领域,针对病人的疾病诊断,病人的病案首页往往需要明确疾病名称等医学术语,以便明确病人的疾病类型。然而,由于医生的水平和认知不同,且对于同一个医学术语通常会有多种形式的称呼。这样一来,势必导致医学术语信息检索过程效率极低,进而给医学术语的标准化带来难题,影响后续相关流程。因此,如何提高信息检索过程中的效率、准确性和可靠性,已成为了重要的研究方向之一。
发明内容
本申请提供了一种信息检索方法、装置及电子设备。
根据第一方面,提供了一种信息检索方法,包括:
接收待查询的医学查询词;
获取所述医学查询词对应的候选科室;
获取所述医学查询词的第一语义向量空间;
基于所述候选科室和所述第一语义向量空间,获取所述医学查询词对应的至少一个目标医学术语。
根据第二方面,提供了一种信息检索装置,包括:
接收模块,用于接收待查询的医学查询词;
第一获取模块,用于获取所述医学查询词对应的候选科室;
第二获取模块,用于获取所述医学查询词的第一语义向量空间;
第三获取模块,用于基于所述候选科室和所述第一语义向量空间,获取所述医学查询词对应的至少一个目标医学术语。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面所述的信息检索方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面所述的信息检索方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现本申请第一方面所述的信息检索方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是一种交互界面的示意图;
图3是根据本申请第二实施例的示意图;
图4是根据本申请第三实施例的示意图;
图5是根据本申请第四实施例的示意图;
图6是根据本申请第五实施例的示意图;
图7是根据本申请第六实施例的示意图;
图8是根据本申请第七实施例的示意图;
图9是用来实现本申请实施例的信息检索方法的信息检索装置的框图;
图10是用来实现本申请实施例的信息检索方法的信息检索装置的框图;
图11是用来实现本申请实施例的信息检索方法的信息检索装置的框图;
图12是用来实现本申请实施例的信息检索的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下对本申请的方案涉及的技术领域进行简要说明:
数据处理(DataProcessing),包括对数据的采集、存储、检索、加工、变化和传输等处理,旨从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的用户来说有价值、有意义的数据。
AI(Artificial Intelligence,人工智能),是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术,也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。
DL(Deep Learning,深度学习),是ML机器学习(Machine Learning,机器学习)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
NLP(Natural Language Processing,自然语言处理),是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
需要说明的是,现有技术中,医生往往需要基于自身经验,确定病人所患疾病的名称,并将其记录于病人病案的首页,即言,医生通常需要依赖自身经验,对目标医学术语进行确定。然而医生的水平和认知不同,且对于同一个医学术语通常会有多种形式的称呼。举例而言,针对病人甲呼吸不畅这一病症,医生甲确定的目标医学术语为上呼吸道阻塞,而医生乙确定的目标医学术语则为鼻腔息肉阻塞。这样一来,势必导致目标医学术语的确定准确率极低。
进一步地,在通过人工进行标准术语集合整理后,在后续使用过程中,需要通过关键词进行检索,以挑选符合要求的术语表达。然而,通过关键词检索的方式,非常不灵活,必须要包含完全相同的词才能召回,导致检索的召回率极低,且对于没有太多经验的医生,需要耗费较大精力学习标准术语的表达。
由此,本申请提出的信息检索方法,不再依赖医生的经验,而是通过接收待查询的医学查询词,自动地实现对应的至少一个目标医学术语的获取,确保了获取到的目标医学术语的准确性。
下面参考附图描述本申请实施例的信息检索方法、装置及电子设备。
图1是根据本申请第一实施例的示意图。其中,需要说明的是,本实施例的信息检索方法的执行主体为信息检索装置,信息检索装置具体可以为硬件设备,或者硬件设备中的软件等。其中,硬件设备例如终端设备、服务器等。
如图1所示,本实施例提出的信息检索方法,包括如下步骤:
S101、接收待查询的医学查询词。
其中,医学查询词,可以为任意医学表达的查询词。例如,可以为呼吸不畅、气喘等。
在本申请实施例中,用户可以通过多种方式发送待查询的医学查询词。作为一种可能的实现方式,用户可以通过于客户端的交互界面上执行多种操作,以实现对应的功能。可选地,客户端的交互界面上设置有输入以及发送待查询的医学查询词的控件,用户通过先后触发前述控件,能够实现输入并发送待查询的医学查询词的功能。相应地,可以接收客户端发送的待查询的医学查询词。
举例而言,如图2所示,待查询的医学查询词为呼吸不畅。此时,用户可以通过触发客户端的交互界面2-1上的输入控件2-2,输入待查询的医学查询词,即呼吸不畅,然后通过发送控件2-3发送待查询的医学查询词。相应地,可以接收待查询的医学查询词。
S102、获取医学查询词对应的候选科室。
其中,候选科室,可以为至少一个对应的科室。
举例而言,针对待查询的医学查询词“呼吸不畅”,可以获取到对应的候选科室包括以下4个科室:呼吸内科、耳鼻喉科、中医科以及神经内科。
需要说明的是,本申请中,对于获取医学查询词对应的候选科室的具体方式不作限定,可以根据实际情况进行选取。作为一种可能的实现方式,可以将待查询的医学查询词输入预先训练好的模型中,以将输出作为医学查询词对应的候选科室。
S103、获取医学查询词的第一语义向量空间。
本申请实施例中,可以将任意医学表达的医学查询词,映射至语义向量空间中,以语义向量空间进行表示,作为第一语义向量空间。
举例而言,针对待查询的医学查询词“呼吸不畅”,可以获取该医学查询词的第一语义向量空间为Lj。
需要说明的是,本申请中,对于获取医学查询词的第一语义向量空间的具体方式不作限定,可以根据实际情况进行选取。作为一种可能的实现方式,可以将待查询的医学查询词输入预先训练好的模型中,以将输出作为第一语义向量空间。
S104、基于候选科室和第一语义向量空间,获取医学查询词对应的至少一个目标医学术语。
其中,目标医学术语,可以为与医学查询词对应的至少一个标准医学表达的术语。
可选地,可以基于候选科室和第一语义向量空间,获取医学查询词对应的一个目标医学术语,并将其提供给医生等用户,以将该目标医学术语直接记录于病人病案的首页。
可选地,可以基于候选科室和第一语义向量空间,获取医学查询词对应的多个目标医学术语,并将其全部提供给医生等用户,以使用户可以对目标医学术语进行筛选,并将确定的其中一个目标医学术语记录于病人病案的首页。
根据本申请实施例的信息检索方法,可以在接收到待查询的医学查询词后,基于候选科室和第一语义向量空间,自动地获取与待查询的医学查询词对应的至少一个目标医学术语,以根据非标准化的查询词获取到匹配的标准化的术语,确保了目标医学术语的准确性,提高了信息检索过程中的效率和可靠性,同时规范了诊断过程中医学术语的表达。进一步地,通过获取医学查询词对应的候选科室,能够减小匹配运算量,并排除其他科室对目标医学术语确定造成的干扰,进一步提升了目标医学术语的准确性。
图3是根据本申请第二实施例的示意图。
如图3所示,在上述实施例的基础上,本申请提出的信息检索方法,具体包括以下步骤:
S301、接收待查询的医学查询词。
S302、获取医学查询词对应的候选科室。
可选地,可以将医学查询词输入目标科室分类模型中进行学习,以输出医学查询词对应的候选科室。
其中,目标科室分类模型为预先训练好的。
S303、获取医学查询词的第一语义向量空间。
该步骤S301~S303与上述实施例中的步骤S101~S103相同,此处不再赘述。
上述步骤S104中基于候选科室和第一语义向量空间,获取医学查询词对应的至少一个目标医学术语的具体过程,包括步骤S304~S306。
S304、基于候选科室,获取医学查询词对应的候选医学术语。
如图4所示,在上述实施例的基础上,上述步骤S304中基于候选科室,获取医学查询词对应的候选医学术语的具体过程,包括如下步骤:
S401、基于候选科室的标识,从医学术语集合中筛选与标识一致的医学术语。
其中,医学术语集合,指的是标准医学表达的术语的集合,该集合中每个医学术语均对应有一个标识。
可选地,可以基于候选科室的标识,遍历医学术语集合,并从中筛选出与标识一致的医学术语。
举例而言,基于候选科室的标识A,遍历医学术语集合,并从中筛选出与标识A一致的医学术语。
S402、将与标识一致的医学术语,作为候选医学术语。
举例而言,基于候选科室的标识A,遍历医学术语集合,并从中筛选出与标识A一致的医学术语为医学术语1~3,此种情况下,医学术语1~3可以作为候选医学术语。
S305、获取候选医学术语的第二语义向量空间。
本申请实施例中,可以将候选医学术语,映射至与第一语义向量空间维度相同的语义向量空间中,以语义向量空间进行表示,作为第二语义向量空间。
举例而言,针对医学术语1~3,可以获取候选医学术语的第二语义向量空间为Li。
S306、根据第一语义向量空间和第二语义向量空间,获取至少一个目标医学术语。
如图5所示,在上述实施例的基础上,上述步骤S306中根据第一语义向量空间和第二语义向量空间,获取至少一个目标医学术语的具体过程,包括如下步骤:
S501、获取第一语义向量空间与第二语义向量空间的语义相似度。
需要说明的是,本申请中对于获取第一语义向量空间与第二语义向量空间的语义相似度的具体方式不作限定,可以根据实际情况进行选取。
可选地,可以通过计算余弦距离或者欧式距离,获取第一语义向量空间与第二语义向量空间的语义相似度。
举例而言,针对待查询的医学查询词“呼吸不畅”,该医学查询词的第一语义向量空间为Lj,候选医学术语的第二语义向量空间Li,此种情况下,可以通过计算余弦距离,获取第一语义向量空间与第二语义向量空间的语义相似度。
需要说明的是,第一语义向量空间与第二语义向量空间的语义相似度处于[-1,1]之间。语义相似度的值越趋近于1,则说明两个向量的方向越接近;语义相似度的值越趋近于-1,则说明两个向量的方向越相反;语义相似度的值接近于0,则说明两个向量近乎于正交。
S502、根据语义相似度,获取医学查询词对应的至少一个目标医学术语。
可选地,可以获取语义相似度最高的一个候选医学术语,作为目标医学术语。
可选地,可以获取语义相似度大于预设相似度阈值的至少一个候选医学术语,作为目标医学术语。进一步地,可以按照降序等预设顺序进行排列,之后推荐给用户,供用户从至少一个候选医学术语中进行挑选。
根据本申请实施例的信息检索方法,可以通过获取候选医学术语的第二语义向量空间,并通过计算第一语义向量空间与第二语义向量空间的语义相似度,进而根据语义相似度,获取医学查询词对应的至少一个目标医学术语,进一步确保了目标医学术语的准确性,提高了信息检索过程中的效率和可靠性。
需要说明的是,本申请中,在接收到待查询的医学查询词之后,可以基于预先训练好的目标科室分类模型,根据待查询的医学查询词,获取医学查询词对应的候选科室,以在减小匹配运算量的同时,消除其他科室对候选科室的确定造成的干扰。进一步地,可以基于预先训练好的目标语义向量空间模型,根据待查询的医学查询词和候选医学术语,获取第一语义向量空间。
下面分别针对目标科室分类模型和目标语义向量空间模型的训练过程进行解释说明。
针对目标科室分类模型,可选地,可以基于ERNIE的分类模型进行Fine-tune(微调),得到训练好的目标科室分类模型,进而基于目标科室分类模型进行候选科室的获取。
如图6所示,在上述实施例的基础上,目标科室分类模型的训练过程,具体包括以下步骤:
S601、获取标准医学术语和标准医学术语的科室标签信息,作为科室分类模型的第一训练数据。
举例而言,可以基于目标科室分类模型的数据要求,将10万条标准医学术语进行科室的分类标注,以划分为171个不同的科室类别,且每类标准医学术语分别对应有一个科室标签信息。此种情况下,10万条标准医学术语和171个标准医学术语的科室标签信息,可以作为科室分类模型的第一训练数据。
S602、基于第一训练数据,对科室分类模型进行训练,以生成目标科室分类模型。
作为一种可能的实现方式,可以基于第一训练数据,将第一训练数据标准化为label\t data,并输入科室分类模型中进行训练,以生成目标科室分类模型。
可选地,可以获取第一训练数据对应的科室标签信息预测结果,并获取科室标签信息预测结果与标准医学术语的科室标签信息的差异,然后根据差异调整科室分类模型中的模型参数,直至差异符合预设的训练结束条件,将最后一次调整模型参数后的科室分类模型确定为训练好的目标科室分类模型。
针对目标语义向量空间模型,可选地,可以基于ERNIE的分类模型进行Fine-tune(微调),得到训练好的目标语义向量空间模型,进而基于目标语义向量空间模型进行语义空间向量的转化。
如图7所示,在上述实施例的基础上,目标科室分类模型的训练过程,具体包括以下步骤:
S701、获取标准医学术语和标准医学术语的标准语义向量空间,作为语义向量空间模型的第二训练数据。
举例而言,可以将收录的10万条标准医学术语的集合转化为标准医学术语的标准语义向量空间。此种情况下,10万条标准医学术语和转化得到的标准医学术语的标准语义向量空间,可以作为语义向量空间模型的第二训练数据。
S702、基于第二训练数据,对语义向量空间模型进行训练,以生成目标语义向量空间模型。
作为一种可能的实现方式,可以将第二训练数据输入语义向量空间模型中进行训练,以生成目标语义向量空间模型。
可选地,可以获取第二训练数据对应的语义向量空间预测结果,并获取语义向量空间预测结果与标准医学术语的标准语义向量空间的差异,然后根据差异调整语义向量空间模型中的模型参数,直至差异符合预设的训练结束条件,将最后一次调整模型参数后的语义向量空间模型确定为训练好的目标语义向量空间模型。
图8是根据本申请第七实施例的示意图。如图8所示,在上一实施例的基础上,本实施例提出的信息检索方法,包括如下步骤:
S801、接收待查询的医学查询词。
S802、获取医学查询词对应的候选科室。
S803、获取医学查询词的第一语义向量空间。
本申请实施例中,可以将医学查询词输入目标语义向量空间模型中进行学习,以输出第一语义向量空间。
S804、基于候选科室的标识,从医学术语集合中筛选与标识一致的医学术语。
S805、将与标识一致的医学术语,作为候选医学术语。
S806、获取候选医学术语的第二语义向量空间。
本申请实施例中,可以将候选医学术语输入目标语义向量空间模型中进行学习,以输出第二语义向量空间。
S807、获取第一语义向量空间与第二语义向量空间的语义相似度。
S808、根据语义相似度,获取医学查询词对应的至少一个目标医学术语。
需要说明的是,关于步骤S801~S808的介绍可参见上述实施例中的相关记载,此处不再赘述。
需要说明的是,本申请提出的信息检索方法,可以运用于多种场景中。
针对医生看诊应用场景,坐诊医生可以于办公系统交互界面上输入待查询的医学查询词,例如呼吸不畅。相应地,可以在接收到待查询的医学查询词后,基于训练好的目标科室分类模型,输出候选科室,例如呼吸内科、耳鼻喉科、中医科以及神经内科。并基于训练好的目标语义向量空间模型,输出第一语义向量空间。
进一步地,可以候选科室和第一语义向量空间,自动地获取多个目标医学术语,并将其对应的语义相似度进行倒序排列,然后将排名前3名的目标医学术语提供给医生。此种情况下,医生可以结合自身经验,从中选取一个目标医学术语记录于病人的病案上,提升了看诊效率。
针对医学类学生学习应用场景,学生可以于办公系统交互界面上输入任一不确定对应的标准化医学表达方式的医学查询词,例如呼吸不畅。相应地,可以在接收到待查询的医学查询词后,基于训练好的目标科室分类模型,输出候选科室,例如呼吸内科、耳鼻喉科、中医科以及神经内科。并基于训练好的目标语义向量空间模型,输出第一语义向量空间。
进一步地,可以候选科室和第一语义向量空间,自动地获取语义相似度最高的目标医学术语,并提供给学生。此种情况下,学生可以学习到该医学查询词对应的更加准确的目标医学术语,提升了学习效果。
综上所示,本申请中,基于接收到的非标准化的医学查询词,可以自动地获取到对应的标准化的医学术语,不仅确保了目标医学术语的准确性,提高了信息检索过程中的效率和可靠性,规范了诊断过程中医学术语的表达,同时,通过获取医学查询词对应的候选科室,能够减小匹配运算量,并排除其他科室对目标医学术语确定造成的干扰,提升了目标医学术语的准确性。进一步地,还可以便于后续的编码过程,并提升召回率。
与上述几种实施例提供的信息检索方法相对应,本申请的一个实施例还提供一种信息检索装置,由于本申请实施例提供的信息检索装置与上述几种实施例提供的信息检索方法相对应,因此在信息检索方法的实施方式也适用于本实施例提供的信息检索装置,在本实施例中不再详细描述。
图9是根据本申请一个实施例的信息检索装置的结构示意图。
如图9所示,该信息检索装置900,包括:接收模块910、第一获取模块920、第二获取模块930和第三获取模块940。其中:
接收模块910,用于接收待查询的医学查询词;
第一获取模块920,用于获取所述医学查询词对应的候选科室;
第二获取模块930,用于获取所述医学查询词的第一语义向量空间;
第三获取模块940,用于基于所述候选科室和所述第一语义向量空间,获取所述医学查询词对应的至少一个目标医学术语。
图10是根据本申请另一个实施例的信息检索装置的结构示意图。
如图10所示,该信息检索装置1000,包括:接收模块1010、第一获取模块1020、第二获取模块1030和第三获取模块1040。其中:
第三获取模块1040,包括:
第一获取子模块1041,用于基于所述候选科室,获取所述医学查询词对应的候选医学术语;
第二获取子模块1042,用于获取所述候选医学术语的第二语义向量空间;
第三获取子模块1043,用于根据所述第一语义向量空间和所述第二语义向量空间,获取所述至少一个目标医学术语。
其中,第三获取子模块1043,包括:
第一获取单元10431,用于获取所述第一语义向量空间与所述第二语义向量空间的语义相似度;
第二获取单元10432,用于根据所述语义相似度,获取所述医学查询词对应的所述至少一个目标医学术语。
其中,第一获取子模块1041,包括:
筛选单元10411,用于基于所述候选科室的标识,从医学术语集合中筛选与所述标识一致的医学术语;
确定单元10412,用于将与所述标识一致的医学术语,作为所述候选医学术语。
其中,第一获取模块1020,包括:
学习子模块1021,用于将所述医学查询词输入目标科室分类模型中进行学习,以输出所述医学查询词对应的所述候选科室。
需要说明的是,接收模块1010、第二获取模块1030与接收模块910、第二获取模块930具有相同功能和结构。
图11是根据本申请另一个实施例的信息检索装置的结构示意图。
如图11所示,该信息检索装置1100,包括:接收模块1110、第一获取模块1120、第二获取模块1130和第三获取模块1140,还包括:第一训练模块1150、学习模块1160和第二训练模块1170。
其中,第一训练模块1150,用于所述目标科室分类模型的训练,包括:
第四获取子模块1151,用于获取标准医学术语和所述标准医学术语的科室标签信息,作为科室分类模型的第一训练数据;
第一生成子模块1152,用于基于所述第一训练数据,对所述科室分类模型进行训练,以生成所述目标科室分类模型。
其中,学习模块1160,用于将所述医学查询词和所述候选医学术语分别输入目标语义向量空间模型中进行学习,以输出所述第一语义向量空间和所述第二语义向量空间。
其中,第二训练模块1170,用于所述目标语义向量空间模型的训练,包括:
第五获取子模块1171,用于获取标准医学术语和所述标准医学术语的标准语义向量空间,作为语义向量空间模型的第二训练数据;
第二生成子模块1172,用于基于所述第二训练数据,对所述语义向量空间模型进行训练,以生成所述目标语义向量空间模型。
需要说明的是,接收模块1110、第一获取模块1120、第二获取模块1130和第三获取模块1140与接收模块910、第一获取模块920、第二获取模块930和第三获取模块940具有相同功能和结构。
根据本申请实施例的信息检索装置,可以在接收到待查询的医学查询词后,基于候选科室和第一语义向量空间,自动地获取与待查询的医学查询词对应的至少一个目标医学术语,以根据非标准化的查询词获取到匹配的标准化的术语,确保了目标医学术语的准确性,提高了信息检索过程中的效率和可靠性,同时规范了诊断过程中医学术语的表达。进一步地,通过获取医学查询词对应的候选科室,能够减小匹配运算量,并排除其他科室对目标医学术语确定造成的干扰,进一步提升了目标医学术语的准确性。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图12所示,是根据本申请实施例的信息检索的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器1210、存储器1220,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1210为例。
存储器1220即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的信息检索方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的信息检索方法。
存储器1220作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息检索方法对应的程序指令/模块(例如,附图9所示的接收模块910、第一获取模块920、第二获取模块930和第三获取模块940)。处理器1210通过运行存储在存储器1220中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息检索方法。
存储器1220可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据定位电子设备的使用所创建的数据等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1220可选包括相对于处理器1210远程设置的存储器,这些远程存储器可以通过网络连接至定位电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
信息检索的电子设备还可以包括:输入装置1230和输出装置1240。处理器1210、存储器1220、输入装置1230和输出装置1240可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1230可接收输入的数字或字符信息,以及产生与定位电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1240可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网以及区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(“Virtual Private Server”,或简称“VPS”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请实施例的信息检索方法,可以在接收到待查询的医学查询词后,基于候选科室和第一语义向量空间,自动地获取与待查询的医学查询词对应的至少一个目标医学术语,以根据非标准化的查询词获取到匹配的标准化的术语,确保了目标医学术语的准确性,提高了信息检索过程中的效率和可靠性,同时规范了诊断过程中医学术语的表达。进一步地,通过获取医学查询词对应的候选科室,能够减小匹配运算量,并排除其他科室对目标医学术语确定造成的干扰,进一步提升了目标医学术语的准确性。
根据本申请的实施例,本申请还提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现本申请实施例的信息检索方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (19)
1.一种信息检索方法,包括:
接收待查询的医学查询词;
获取所述医学查询词对应的候选科室;
获取所述医学查询词的第一语义向量空间;
基于所述候选科室和所述第一语义向量空间,获取所述医学查询词对应的至少一个目标医学术语。
2.根据权利要求1所述的信息检索方法,其中,所述基于所述候选科室和所述第一语义向量空间,获取所述医学查询词对应的至少一个目标医学术语,包括:
基于所述候选科室,获取所述医学查询词对应的候选医学术语;
获取所述候选医学术语的第二语义向量空间;
根据所述第一语义向量空间和所述第二语义向量空间,获取所述至少一个目标医学术语。
3.根据权利要求2所述的信息检索方法,其中,所述根据所述第一语义向量空间和所述第二语义向量空间,获取所述至少一个目标医学术语,包括:
获取所述第一语义向量空间与所述第二语义向量空间的语义相似度;
根据所述语义相似度,获取所述医学查询词对应的所述至少一个目标医学术语。
4.根据权利要求1所述的信息检索方法,其中,所述基于所述候选科室,获取所述医学查询词对应的候选医学术语,包括:
基于所述候选科室的标识,从医学术语集合中筛选与所述标识一致的医学术语;
将与所述标识一致的医学术语,作为所述候选医学术语。
5.根据权利要求1所述的信息检索方法,其中,所述获取所述医学查询词对应的候选科室,包括:
将所述医学查询词输入目标科室分类模型中进行学习,以输出所述医学查询词对应的所述候选科室。
6.根据权利要求5所述的信息检索方法,其中,所述目标科室分类模型的训练过程包括:
获取标准医学术语和所述标准医学术语的科室标签信息,作为科室分类模型的第一训练数据;
基于所述第一训练数据,对所述科室分类模型进行训练,以生成所述目标科室分类模型。
7.根据权利要求2所述的信息检索方法,其中,所述方法还包括:
将所述医学查询词和所述候选医学术语分别输入目标语义向量空间模型中进行学习,以输出所述第一语义向量空间和所述第二语义向量空间。
8.根据权利要求7所述的信息检索方法,其中,所述目标语义向量空间模型的训练过程包括:
获取标准医学术语和所述标准医学术语的标准语义向量空间,作为语义向量空间模型的第二训练数据;
基于所述第二训练数据,对所述语义向量空间模型进行训练,以生成所述目标语义向量空间模型。
9.一种信息检索装置,包括:
接收模块,用于接收待查询的医学查询词;
第一获取模块,用于获取所述医学查询词对应的候选科室;
第二获取模块,用于获取所述医学查询词的第一语义向量空间;
第三获取模块,用于基于所述候选科室和所述第一语义向量空间,获取所述医学查询词对应的至少一个目标医学术语。
10.根据权利要求9所述的信息检索装置,其中,所述第三获取模块,包括:
第一获取子模块,用于基于所述候选科室,获取所述医学查询词对应的候选医学术语;
第二获取子模块,用于获取所述候选医学术语的第二语义向量空间;
第三获取子模块,用于根据所述第一语义向量空间和所述第二语义向量空间,获取所述至少一个目标医学术语。
11.根据权利要求10所述的信息检索装置,其中,所述第三获取子模块,包括:
第一获取单元,用于获取所述第一语义向量空间与所述第二语义向量空间的语义相似度;
第二获取单元,用于根据所述语义相似度,获取所述医学查询词对应的所述至少一个目标医学术语。
12.根据权利要求9所述的信息检索装置,其中,所述第一获取子模块,包括:
筛选单元,用于基于所述候选科室的标识,从医学术语集合中筛选与所述标识一致的医学术语;
确定单元,用于将与所述标识一致的医学术语,作为所述候选医学术语。
13.根据权利要求9所述的信息检索装置,其中,所述第一获取模块,包括:
学习子模块,用于将所述医学查询词输入目标科室分类模型中进行学习,以输出所述医学查询词对应的所述候选科室。
14.根据权利要求13所述的信息检索装置,其中,第一训练模块,用于所述目标科室分类模型的训练,包括:
第四获取子模块,用于获取标准医学术语和所述标准医学术语的科室标签信息,作为科室分类模型的第一训练数据;
第一生成子模块,用于基于所述第一训练数据,对所述科室分类模型进行训练,以生成所述目标科室分类模型。
15.根据权利要求10所述的信息检索装置,其中,所述装置还包括:
学习模块,用于将所述医学查询词和所述候选医学术语分别输入目标语义向量空间模型中进行学习,以输出所述第一语义向量空间和所述第二语义向量空间。
16.根据权利要求15所述的信息检索装置,其中,第二训练模块,用于所述目标语义向量空间模型的训练,包括:
第五获取子模块,用于获取标准医学术语和所述标准医学术语的标准语义向量空间,作为语义向量空间模型的第二训练数据;
第二生成子模块,用于基于所述第二训练数据,对所述语义向量空间模型进行训练,以生成所述目标语义向量空间模型。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的信息检索方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的信息检索方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的信息检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460471.2A CN112559686B (zh) | 2020-12-11 | 信息检索方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460471.2A CN112559686B (zh) | 2020-12-11 | 信息检索方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559686A true CN112559686A (zh) | 2021-03-26 |
CN112559686B CN112559686B (zh) | 2023-10-27 |
Family
ID=
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270179A (zh) * | 2021-05-25 | 2021-08-17 | 北京金山云网络技术有限公司 | 医技检查方法、装置、系统及电子设备 |
CN113360769A (zh) * | 2021-06-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备以及存储介质 |
CN113420541A (zh) * | 2021-07-16 | 2021-09-21 | 四川医枢科技有限责任公司 | 一种信息处理方法、装置、设备及存储介质 |
CN113420158A (zh) * | 2021-06-08 | 2021-09-21 | 深圳市网通兴技术发展有限公司 | 一种标准医疗术语录入方法及系统 |
CN116628171A (zh) * | 2023-07-24 | 2023-08-22 | 北京惠每云科技有限公司 | 一种基于预训练语言模型的病历检索方法和系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270179A (zh) * | 2021-05-25 | 2021-08-17 | 北京金山云网络技术有限公司 | 医技检查方法、装置、系统及电子设备 |
CN113420158A (zh) * | 2021-06-08 | 2021-09-21 | 深圳市网通兴技术发展有限公司 | 一种标准医疗术语录入方法及系统 |
CN113420158B (zh) * | 2021-06-08 | 2022-09-13 | 深圳市网通兴技术发展有限公司 | 一种标准医疗术语录入方法及系统 |
CN113360769A (zh) * | 2021-06-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备以及存储介质 |
CN113360769B (zh) * | 2021-06-28 | 2024-02-09 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备以及存储介质 |
CN113420541A (zh) * | 2021-07-16 | 2021-09-21 | 四川医枢科技有限责任公司 | 一种信息处理方法、装置、设备及存储介质 |
CN116628171A (zh) * | 2023-07-24 | 2023-08-22 | 北京惠每云科技有限公司 | 一种基于预训练语言模型的病历检索方法和系统 |
CN116628171B (zh) * | 2023-07-24 | 2023-10-20 | 北京惠每云科技有限公司 | 一种基于预训练语言模型的病历检索方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
CN111221984B (zh) | 多模态内容处理方法、装置、设备及存储介质 | |
CN111221983B (zh) | 时序知识图谱生成方法、装置、设备和介质 | |
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN112560479B (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
CN112216359B (zh) | 医疗数据校验方法、装置及电子设备 | |
CN111428507A (zh) | 实体链指方法、装置、设备以及存储介质 | |
CN112347769B (zh) | 实体识别模型的生成方法、装置、电子设备及存储介质 | |
CN111710412A (zh) | 诊断结果的校验方法、装置及电子设备 | |
CN111326251B (zh) | 一种问诊问题输出方法、装置以及电子设备 | |
CN112507090B (zh) | 用于输出信息的方法、装置、设备和存储介质 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN112560505A (zh) | 一种对话意图的识别方法、装置、电子设备及存储介质 | |
CN112287232A (zh) | 生成推荐信息的方法、装置 | |
CN112287121A (zh) | 推送信息的生成方法、装置 | |
CN111274397A (zh) | 建立实体关系检测模型的方法以及装置 | |
CN112508004A (zh) | 一种文字识别方法、装置、电子设备及存储介质 | |
CN112115697A (zh) | 用于确定目标文本的方法、装置、服务器以及存储介质 | |
CN111967599A (zh) | 用于训练模型的方法、装置、电子设备及可读存储介质 | |
CN111738015A (zh) | 文章情感极性分析方法、装置、电子设备及存储介质 | |
CN112559686B (zh) | 信息检索方法、装置及电子设备 | |
CN112559686A (zh) | 信息检索方法、装置及电子设备 | |
CN111753072B (zh) | 一种分诊的方法、装置、设备以及存储介质 | |
CN112509692B (zh) | 用于匹配医学表达的方法、装置、电子设备及存储介质 | |
CN113591908B (zh) | 事件指称匹配方法、模型训练方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |