CN112084781A - 一种标准术语确定方法、装置及存储介质 - Google Patents
一种标准术语确定方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112084781A CN112084781A CN202010945776.6A CN202010945776A CN112084781A CN 112084781 A CN112084781 A CN 112084781A CN 202010945776 A CN202010945776 A CN 202010945776A CN 112084781 A CN112084781 A CN 112084781A
- Authority
- CN
- China
- Prior art keywords
- terms
- entity
- processed
- term
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 16
- 230000002441 reversible effect Effects 0.000 claims description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 50
- 201000010099 disease Diseases 0.000 description 49
- 210000004072 lung Anatomy 0.000 description 27
- 230000008569 process Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 20
- 238000003759 clinical diagnosis Methods 0.000 description 18
- 201000011510 cancer Diseases 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 206010028980 Neoplasm Diseases 0.000 description 10
- 210000003484 anatomy Anatomy 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 208000000649 small cell carcinoma Diseases 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 206010003011 Appendicitis Diseases 0.000 description 4
- 206010035664 Pneumonia Diseases 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 4
- 230000008506 pathogenesis Effects 0.000 description 4
- 241000222120 Candida <Saccharomycetales> Species 0.000 description 3
- 241000222122 Candida albicans Species 0.000 description 3
- 206010007134 Candida infections Diseases 0.000 description 3
- 208000009956 adenocarcinoma Diseases 0.000 description 3
- 201000003984 candidiasis Diseases 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000004660 morphological change Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002685 pulmonary effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 208000019693 Lung disease Diseases 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010027205 Meningitis candida Diseases 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种标准术语确定方法、装置及存储介质,该方法包括:确定待处理文本中所包含的多个待处理术语和多个待处理术语所属的术语类型;基于多个待处理术语所属的术语类型,对多个待处理术语进行融合,得到多个融合术语;基于第一术语实体索引数据,查询多个融合术语对应的实体以及多个融合术语对应的实体所属的实体类型;基于多个融合术语对应的实体所属的实体类型,对多个融合术语对应的实体进行合并,得到候选实体;在预设知识图谱中,对候选实体进行路径搜索,得到目标实体类型对应的目标实体;基于第二术语实体索引数据查询目标实体对应的标准术语。本发明可以充分利用知识图谱中的实体之间的内在联系,提高标准术语确定的准确率。
Description
技术领域
本发明属于医疗技术领域,具体涉及一种标准术语确定方法、装置及存储介质。
背景技术
术语标准化是指将给定的术语映射到一套标准的术语集中。例如,在医疗技术领域,疾病术语标准化是指将临床诊断中的疾病,映射到一套标准的医学术语集中。现有的疾病术语标准化方法一般使用机器学习模型进行有监督训练,该方法主要包括以下两个步骤:1)疾病术语召回。使用文本相似度算法,从全体疾病术语中召回出与给定的临床诊断较为相近的若干疾病术语;2)疾病术语排序。使用排序模型,对召回的若干疾病术语进行排序。
但现有技术只考虑了临床诊断与疾病术语之间的文本相似度特征,没有充分利用它们之间内在的医学联系。例如,对于“癌”,无法召回出“恶性肿瘤”相关的术语,术语标准化的准确率较低。同时,机器学习模型依赖极易受到训练数据集质量、模型特征质量等的影响,术语标准化的稳定性和可控性较差。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种标准术语确定方法、装置及存储介质。
一方面,本发明提出了一种标准术语确定方法,所述方法包括:
获取待处理文本;
确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型;
基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语;
基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型;
基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体;
在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体;
基于第二术语实体索引数据查询所述目标实体对应的标准术语。
另一方面,本发明实施例提供了一种标准术语确定装置,所述装置包括:
待处理文本获取模块,用于获取待处理文本;
待处理术语获取模块,用于确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型;
融合模块,用于基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语;
实体查询模块,用于基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型;
实体合并模块,用于基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体;
目标实体获取模块,用于在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体;
标准术语获取模块,用于基于第二术语实体索引数据查询所述目标实体对应的标准术语。
另一方面,本发明提出了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的标准术语确定方法。
另一方面,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的标准术语确定方法。
本发明实施例提出的一种标准术语确定方法、装置及存储介质,基于知识图谱确定待处理文本(比如,给定的临床诊断)对应的标准术语,由于标准术语是在知识图谱上进行实体搜索而确定的,可以充分利用知识图谱中的实体之间的内在联系,提高标准术语确定的准确率;同时,由于知识图谱不依赖于训练数据和模型特征,其受训练数据集质量、模型特征质量的影响较小,可以提高目标术语确定的准确性和可控性;此外,对待处理术语进行融合、对融合术语对应的实体进行合并以及在知识图谱中对候选实体进行实体搜索等策略,使得标准术语的确定结果具有较强的可解释性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种标准术语确定方法的实施环境示意图。
图2是本发明实施例提供的一种标准术语确定方法的流程示意图。
图3是本发明实施例提供的确定待处理文本中所包含的多个待处理术语和多个待处理术语所属的术语类型的一种流程示意图。
图4是本发明实施例提供的基于多个待处理术语所属的术语类型,对多个待处理术语进行融合,得到多个融合术语的一种流程示意图。
图5是本发明实施例提供的基于第一术语实体索引数据,查询多个融合术语对应的实体以及多个融合术语对应的实体所属的实体类型的一种流程示意图。
图6是本发明实施例提供的解剖结构类型的部分子图及其反向图的一种示意图。
图7是本发明实施例提供的对于发病和发病过程实体“急性发作”和疾病实体“阑尾炎”之间的最短路径示意图。
图8是本发明实施例提供的“右肺中间叶”和“腺癌”之间的最短路径示意图。
图9是本发明实施例提供的“念珠菌”和“肺炎”之间的最短路径示意图。
图10是本发明实施例提供的基于第二术语实体索引数据查询目标实体对应的标准术语的一种流程示意图。
图11是本发明实施例提供的区块链系统的一个可选的结构示意图。
图12是本发明实施例提供的区块结构一个可选的示意图。
图13是本发明实施例提供的一种标准术语确定装置的结构示意图。
图14是本发明实施例提供的一种服务器结构示意图。
具体实施方式
随着人工智能(Artificial Intelligence,AI)的研究和进步,AI在多个领域展开研究和应用。AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
具体地,本发明实施例提供的方案涉及自然语言处理(Nature Languageprocessing,NLP)。NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融合语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
具体地,本发明实施例中的“在预设知识图谱中,对候选实体进行路径搜索,得到目标实体类型对应的目标实体”以及“获取预设知识图谱中的实体的名称信息”涉及NLP中的知识图谱技术。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
具体地,本发明实施例涉及云技术中的行业应用中的医疗技术领域。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本发明实施例提供的一种标准术语确定方法的实施环境示意图。如图1所示,该实施环境至少可以包括终端01和服务器02,终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接,本发明在此不做限制。比如,终端01通过有线或无线通信方式向服务器02上传待处理文本等,服务器02通过有线或无线通信方式向终端01反馈标准术语等。
具体地,终端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
具体地,终端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端01以及服务器02可以通过有线或无线通信方式进行直接或间接地连接,本发明在此不做限制。
需要说明的是,图1仅仅是一种示例。
图2是本发明实施例提供的一种标准术语确定方法的流程示意图。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S101.获取待处理文本。
本发明实施例中的待处理文本为不同技术领域中需要进行术语标准化的术语。该不同的领域包括但不限于医疗技术领域、互联网技术领域、金融技术领域等。
例如,在医疗技术领域,该待处理文本可以为医生在诊断过程中给定的临床诊断,由于“给定的临床诊断”可能是由于医生工作繁忙以及学习背景的不同,使用的简写、缩写、英文、连笔等不规划疾病术语,也有可能是包含错别字的疾病术语,因此,需要对其进行标准化。
S103.确定待处理文本中所包含的多个待处理术语和多个待处理术语所属的术语类型。
具体地,如图3所示,S103可以包括:
S10301.获取预设知识图谱中的实体的名称信息。
S10303.基于文本匹配算法,从待处理文本中抽取与名称信息相匹配的多个待处理术语。
S10305.将与多个待处理术语相匹配的名称信息所对应的实体类型,作为多个待处理术语所属的术语类型。
本发明实施例中,对于待处理文本,可以通过文本匹配算法,抽取其中包含的各种类型、各种粒度的术语。
需要说明的是,本发明实施例中的预设知识图谱可以为不同技术领域中的知识图谱。例如,在医疗技术领域,该预设知识图谱为医学知识图谱。
以下,以待处理文本为医疗技术领域“给定的临床诊断”,该预设知识图谱为医学知识图谱为例,对S103进行说明:
医学知识图谱是基于本体方式构建的,经过验证的,语义丰富的医学术语与术语间关系的集合。医学知识图谱是一种基于图的数据结构,由节点和边组成,每个节点表示一个实体,每条边为实体与实体之间的关系,“实体-关系-实体”构成的三元组,就是医学知识图谱的基本单位。医学知识图谱中的实体具有相应的属性,比如名字属性等。
如S10301所述,可以基于医学知识图谱中的所有实体的名字属性,获取所有实体的名称信息,将该名称信息作为模式文本。接着如S10303所述,可以使用文本匹配算法,将给定的临床诊断与该模式文本进行匹配,以从该给定的临床诊断中抽取出各种类型、各个粒度的多个待处理术语,其中,待处理术语的类型可以为相匹配的名称信息对应的实体所属的实体类型。
本发明实施例中的所使用到的文本匹配算法包括但不限于:AC自动机(Aho-Corasick automaton)、克努特—莫里斯—普拉特操作(The Knuth-Morris-PrattAlgorithm,KMP)、字典树(Trie)等。
具体地,AC自动机是多模匹配算法的一种。所谓多模匹配,是指在字符串匹配中,模式串有多个。由于AC自动机根据自动机匹配模式串,匹配过程简单,匹配复杂度较低,且其能够阻止模式匹配阶段的回溯,将时间复杂度优化到O(n),匹配效率较高,其中,O(n)是表征算法时间复杂度的一个函数,n为输入的字符串长度。因此,使用AC自动机进行文本匹配,能够降低待处理术语的复杂度,提高待处理术语获取的准确率和效率,进而提高后续标准术语确定的准确率和效率。
例如,对于临床诊断“左肺上叶非小细胞癌”,使用AC自动机的抽取结果可以如表1所示:
表1对临床诊断为“左肺上叶非小细胞癌”的术语抽取结果
待处理术语所属的术语类型 | 待处理术语 |
解剖结构 | 肺、左肺、肺上叶、左肺上叶 |
评价结果 | 小 |
方位 | 左 |
疾病 | 癌、小细胞癌 |
异常形态结构 | 癌、小细胞癌、非小细胞癌 |
细胞结构 | 细胞 |
S105.基于多个待处理术语所属的术语类型,对多个待处理术语进行融合,得到多个融合术语。
具体地,如图4所示,S105可以包括:
S10501.确定多个待处理术语对应的字符串以及相应的字符串长度。
S10503.当多个待处理术语属于同一术语类型时,基于多个待处理术语对应的字符串以及相应的字符串长度,对多个待处理术语进行融合,得到多个融合术语。
S10505.当多个待处理术语属于不同术语类型时,获取不同术语类型之间的关联信息,基于多个待处理术语的字符串、相应的字符串长度以及关联信息,对多个待处理术语进行融合,得到多个融合术语。
S10507.当多个待处理术语包括属于同一术语类型的待处理术语和属于不同术语类型的待处理术语时,基于属于同一术语类型的待处理术语的字符串以及相应的字符串长度,对属于同一术语类型的待处理术语进行融合,得到初始融合术语;获取不同术语类型之间的关联信息,基于目标待处理术语的字符串、相应的字符串长度以及关联信息,对目标待处理术语进行融合,得到多个融合术语,目标待处理术语包括初始融合术语和属于不同术语类型的待处理术语。
以下,以待处理文本为医疗技术领域中“给定的临床诊断”为例,对S105进行说明:
由于不同的待处理术语可能属于同一术语类型(如表1中的“癌”和“小细胞癌”所属的术语类型均为“疾病”),也可能属于不同术语类型(如表1中的“细胞”所属的术语类型为“细胞结构”,“肺”所属的术语类型为“解剖结构”),为了提高标准术语确定的准确率和效率,可以对S103中确定出的多个待处理术语,按照所属的术语类型进行合并,合并策略可以如下:
1)属于同一术语类型的不同粒度的多个待处理术语进行融合:
如S10501所述,首先获取各个待处理术语对应的字符串以及相应的字符串长度。
如S10503所述,对于属于同一术语类型的待处理术语的融合方式可以如下:
假设两个属于同一术语类型的待处理术语为t1和t2,其对应的字符串分别为:
tl=ala2...am
t2=b1b2...bn,
其中,a1、a2……am为t1中所包含的字符,m为t1的长度,b1、b2……bn为t2中所包含的字符,n为t2的长度。
若t2为t1的子串,即存在1<=i<=m-n+1,满足:
aiai+1...ai+n-1=b1b2...bn,
则将术语t2融合到中t1,等价于丢弃术语t2。
其中,“子串”是指:将某个字符串中任意个连续的字符组成的子序列称为该串的子串。
例如,待处理术语“肺”、“左肺”、“肺中叶”、“左肺中叶”所属的术语类型均为“解剖结构”,“肺”、“左肺”和“肺中叶”均属于“左肺中叶”的子串,则将融合后的融合术语为“左肺中叶”。
本发明实施例中采用待处理术语的字符串以及相应的字符串长度对属于同一术语类型的待处理数据进行融合的方式,在融合过程中仅需要考虑待处理术语的字符串,融合过程简单,成本较低;且由于字符串能够表征相应的待处理术语的基本含义,因此通过字符串来进行融合,融合准确率较高;此外,将属于同一术语类型的待处理数据进行融合,能够有效降低数据的处理数量,从而降低系统处理数据的负担,进而提高后续标准术语确定的效率。
2)属于不同术语类型的不同粒度的多个待处理术语进行融合:
如S10505所述,如果S103得到的多个待处理术语均属于不同术语类型,则对于属于不同术语类型的待处理术语的融合方式可以如下:
对于属于不同术语类型的待处理术语的融合,不仅要考虑相互融合的待处理术语的字符串以及相应的字符串长度,还要结合医学知识,充分考虑不同术语类型之间的关联信息,通过该关联关系确定不同术语类型之间是否能够融合,从而设计出不同的融合策略。
假设两个属于不同术语类型的待处理术语分别为t1和t2,t2为t1的子串,且t2所属的术语类型与t1所属的术语类型之间的关联关系满足相应的医学知识,则将术语t2融合到中t1,等价于丢弃术语t2。对属于不同术语类型的待处理术语进行融合的策略可以如表2所述:
表2对属于不同术语类型的待处理术语进行融合的策略
本发明实施例中,在对属于不同术语类型的待处理术语进行融合的时候,不仅考虑了待处理术语字符串,还结合医学知识,充分考虑不同术语类型之间的关联信息,通过该关联关系确定不同术语类型之间是否能够融合。例如,对于两个属于不同术语类型的待处理术语,虽然其中一个待处理术语的字符串是另一个待处理术语的字符串的子串,但结合医学知识发现,这两个术语类型的合并符合医学常识,则进行合并,否则,不进行合并,从而避免盲目对属于不术语类型的待处理术语进行合并,确保属于不同术语类型的待处理术语的融合的准确率和可信度,进而提高了后续标准术语确定准确率和可信度。
本发明实施例中,如S10507所述,如果S103得到的多个待处理术语既包括属于同一术语类型的待处理术语和属于不同术语类型的待处理术语时,可以先按照S10503的融合方式对属于同一术语类型的待处理术语进行融合,得到初始融合术语,由于该初始融合术语与属于不同术语类型的待处理术语属于不同的术语类型,因此,可以再按照S10505的融合方式对该初始融合术语和属于不同术语类型的待处理术语进行融合,得到融合术语。
在一些实施例中,S10507中也可以先融合属于不同术语类型的待处理术语,再融合属于同一术语类型的待处理术语,当然,对属于不同术语类型的待处理术语以及属于同一术语类型的待处理术语的融合过程,也可以并行进行。
通过S105的方法对表1中的待处理术语进行融合的结果可以如表3所示。
表3对表1中的待处理术语进行融合的结果
术语类型 | 融合术语 |
解剖结构 | 左肺上叶 |
疾病 | 癌、小细胞癌 |
异常形态结构 | 非小细胞癌 |
S107.基于第一术语实体索引数据,查询多个融合术语对应的实体以及多个融合术语对应的实体所属的实体类型。
具体地,如图5所示,S107可以包括:
S10701.将多个融合术语作为关键字,在第一术语实体索引数据中进行搜索,得到多个融合术语对应的实体标识信息、实体类型和实体名称等级信息;第一术语实体索引数据基于对预设知识图谱进行实体识别处理建立,第一术语实体索引数据包括实体标识信息、实体类型、实体名称等级信息以及术语之间的映射关系。
S10703.基于多个融合术语对应的实体标识信息,在预设知识图谱中查找多个融合术语对应的实体。
以下,以应用场景为医疗技术领域,预设知识图谱为医学知识图谱,实体为医学知识图谱中的医学实体为例,对S107进行说明:
本发明实施例中的第一术语实体索引数据可以为倒排索引,倒排索引也即反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个词在一个文档或者一组文档中的存储位置的映射。通过倒排索引,可以根据属性值快速获取记录的位置。
S107中可以基于该倒排索引,将S105得到的多个融合术语,分别链接到医学知识图谱中,获得对应的医学实体,其中,该倒排索引表征医学术语与医学实体之间的映射关系。
在链接之前,需要建立该倒排索引,即建立医学术语与医学实体之间的映射,映射的实现采用哈希表,该医学实体为医学知识图谱中的实体,该医学术语为医学实体的实体名称信息,其由医学实体的名字属性而确定。该倒排索引项的关键字为医学术语,值为(医学实体标识信息(identity document,id),医学实体类型,实体名称等级信息)三元组,该倒排索引的部分索引项可以如表4所示。其中,医学实体标识信息指的是医学实体结点的id,根据医学实体id,即可在图谱中得到该实体结点。其中,实体名称等级信息表征的是实体名称信息的标准等级。
在一些实施例中,该实体名称等级信息可以包括:
首选术语:标准等级较高的、在医疗领域中经常用到的术语。
待首选术语:标准等级略低于首选术语。
许用术语:标准等级较低、在医疗领域中不经常使用的术语,比如,别名等。
表4倒排索引的部分索引项
本发明实施例中,如S10701所述,可以将S105中得到的多个待处理术语作为倒排索引项关键字在该倒排索引中进行搜索,得到各个待处理术语对应的实体标识信息、实体类型和实体名称等级信息。如S10703所述,在得到各个待处理术语对应的实体标识信息之后,就可以链接到医学知识谱中,进而得到各个融合术语在该医学知识图谱中的实体节点。
在一个可行的实施例中,在倒排索引中进行搜索的时候,有可能会搜索到多个索引项值,多个索引项值的存在不仅会影响后续标准术语确定的准确率,还可能会增后续系统的数量处理负担,进而降低系统的处理速度。为了提高后续标准术语确定的准确率,可以选取实体名称等级信息最高的实体标识信息对应的实体,作为各个融合术语在该医学知识图谱中的实体节点。例如,在以表4中的“癌”作为索引项关键字进行搜索的时候,会得到两个索引项值((1252198,异常形态结构,首选术语)和(1252216,疾病,首选术语)),由于这两个值中的实体名称等级信息相同,则可以以这两个索引项值为基础,分别链接到对应的医学知识图谱,从而得到相应的实体节点。如果在以表4中的“癌”作为索引项关键字进行搜索的时候,得到的两个索引项值中的实体名称等级信息分别为首选术语和许用术语,则可以舍弃许用术语对应的索引项值,仅保留首选术语对应的索引项值。
由于倒排索引可以对数据进行压缩,检索速率较快,因此,不仅能够快速在知识图谱中查找多个融合术语对应的实体,还能够节约系统的资源占用率。
S109.基于多个融合术语对应的实体所属的实体类型,对多个融合术语对应的实体进行合并,得到候选实体。
具体地,S109可以包括:
当多个融合术语对应的实体属于同一实体类型时,在预设知识图谱上,搜索与多个融合术语对应的最近公共祖先,得到候选实体。
当多个融合术语对应的实体不属于同一实体类型时,预设知识图谱上,基于最短路径算法,搜索多个融合术语对应的实体之间的第一最短路径;将第一最短路径上的实体作为候选实体。
当多个融合术语包括属于同一实体的融合术语和属于不同类型的融合术语时,在预设知识图谱上,搜索与属于同一实体类型的实体对应的最近公共祖先,得到初始合并结果;基于最短路径算法,搜索初始合并结果和属于不同实体类型的实体之间的第二最短路径,将第二最短路径上的实体作为候选实体。
以下,以应用场景为医疗技术领域,实体为医学知识图谱中的医学实体为例,对S109进行说明:
首先需要各个融合术语对应的实体(即医学实体)所属的实体类型,并根据不同的实体类型使用不同的合并策略:
1)属于同一实体类型的医学实体合并:
在医学知识图谱中,同一类型的实体及其之间的关系构成了图谱的一个子图,该子图为有向无环图,且具有层级关系,上位实体具有更抽象的概念,如“肺结构”,下位实体具有更具体的概念,如“右肺中叶”。例如,解剖结构类型的部分子图及其反向图可以如图6所示,其中,实线表示正向边,虚线表示反向边。关系“R001”表示子类,即对于实体e1、e2(e1,R001,e2)表示e1是e2的子类。关系“R002”表示组成部分,即(e1,R002,e2)表示e1是e2的组成部分。
对于两个同一类型的实体,在该类型子图的反向图中,使用图论中的最近公共祖先算法(Lowest Common Ancestors,LCA),搜索其最近公共祖先,作为合并的实体,其中,最近公祖先指的是:对于有根树T的两个结点u、v,最近公共祖先LCA(T,u,v)表示一个结点x,满足x是u和v的祖先且x的深度尽可能大。因此,对于图6中的,解剖结构实体“右肺”、“肺中叶”,其在反向图中的最近公共祖先为实体“右肺中间叶”。
具体地,图论是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。
其中,反向图是指将医学知识图谱中的所有反向边(如图6中的虚线所示的边)均连接上所形成的图。由于在医学知识图谱中进行搜索的时候,仅走正向边(如图6中的实线所示的边)的时候,可能会存在搜到不到相关结果的情况,为了提高最近公共祖先搜索的准确率和效率,进而提高后续标准术语确定的准确率和效率,可以在搜索的时候,根据相应的医学知识,在正向边和反向边中同时进行搜索。
对于多个同一实体类型的实体,可以先计算其中两个实体的LCA,接着再计算将该LCA与另一个实体的LCA,依次类推,从而得到多个属于同一实体类型的实体的LCA,计算公式可以如下:
LCA(e1,e2,...,en)=LCA(e1,LCA(e2,LCA(...))),
其中,e1,e2……en为多个属于同一实体类型的实体。
通过上述方法对属于同一实体类型的医学实体进行合并的结果可以如表5所示。
表5对属于同一实体类型的医学实体进行合并的结果
本发明实施例中采用最近公共祖先算法对属于同一实体类型的实体进行合并的方式,其以医学知识图谱为基础,充分考虑了医学知识,从而提高候选实体确定的准确率,进而提高后续标准术语确定的准确率;同时,在进行最近公共祖先搜索的时候,使用的是医学知识图谱中的反向图(即结合医学知识,在正向边和反向边中进行搜索),避免由于搜索过程中仅搜索正向边而存在的搜到不到相关结果的情况,从而进一步提高最近公共祖先搜索的准确率和效率,进而提高后续标准术语确定的准确率和效率;此外,将属于同一实体类型的待实体进行合并,能够有效降低数据的处理数量,从而降低系统处理数据的负担,进而进一步提高后续标准术语确定的效率。
2)属于不同实体类型的医学实体合并:
对于两个不同实体类型的医学实体,在医学知识图谱及其反向图中,使用图论中的最短路径算法,搜索其最短路径上的实体。在搜索过程中,针对不同的医学实体类型,需要结合医学知识,设计不同的搜索策略。
具体地,最短路径算法是指:从某顶点出发,沿图的边到达另一顶点所经过的路径中,各边上权值之和最小的一条路径叫做最短路径。该最短路径算法包括但不限于:迪杰斯特拉算法(Dijkstra)、贝尔曼-福特算法(Bellman–Ford algorithm)、弗洛伊德算法(Floyd)等。
根据最短路径算法设计的部分搜索策略可以如表6所示:
表6不同实体类型的医学实体的搜索策略
例如,对于发病和发病过程实体“急性发作”和疾病实体“阑尾炎”,其搜索策略为(发病和发病过程)-[临床过程]-(疾病)-[子类]-(疾病),最短路径可以如图7所示,该最短路径中的实体为“急性阑尾炎”,其中关系“R005”表示临床过程,即对于实体e1、e2,(e1,R005,e2)表示e1的临床过程是e2。
对于多个不同实体类型的医学实体,则可以按照上述方法先搜索其中任意两个医学实体上的最短路径的实体,再搜索该最短路径上的实体与另外一个医学实体上的最短路径上的实体,以此类推,得到多个不同实体类型的医学实体合并后的候选实体。
本发明实施例中,在对属于不同实体类型的实体进行合并的时候,以医学知识图谱及其反向图为基础,使用图论中的最短路径算法,搜索相应的最短路径。由于以医学知识图谱及其反向图为基础能够充分考虑了医学知识,从而提高候选实体确定的准确率,进而提高后续标准术语确定的准确率;同时,在进行最近公共祖先搜索的时候,使用的是医学知识图谱中的反向图(即结合医学知识,在正向边和反向边中进行搜索),避免由于搜索过程中仅搜索正向边而存在的搜到不到相关结果的情况,从而进一步提高最短路径搜索的准确率和效率,进而提高后续标准术语确定的准确率和效率。
S1011.在预设知识图谱中,对候选实体进行路径搜索,得到目标实体类型对应的目标实体。
在一个可行的实施例中,在候选实体对应的实体类型包括目标实体类型时,则方法还包括:将候选实体作为目标实体。
以应用场景为医疗技术领域,实体为医学知识图谱中的医学实体为例,若在S109中,搜索到的最短路径上的实体所属的实体类型为疾病,表明此时已经搜索到了目标实体类型(即疾病类型),则可以直接将该疾病类型对应的疾实体作为该目标实体。例如,在表6中的“发病和发病过程”和“疾病”的最短路径搜索结果为:(发病和发病过程)-[临床过程]-(疾病)-[子类]-(疾病),该最短路径中的目标实体类型为“疾病”,则将“疾病”对应的疾病实体(即急性阑尾炎)作为目标实体。
在实体合并的时候,如果在搜索到目标实体类型(即疾病类型)的时候,就停止后续的搜索过程,一方面能够确保准确地获取到了目标实体类型对应的目标实体(即疾病类型对应的疾病实体),从而进一步提高后续标准术语确定的准确性,另一方面,由于节约了后续的搜索过程,有效降低了系统处理数据的数据,从而降低了系统负担,进而提高了标准术语确定的效率。
在另一个可行的实施例中,在候选实体为多个,候选实体对应的实体类型不包括目标实体类型时,则S1011可以包括:
基于最短路径算法,搜索多个候选实体之间的第三最短路径。
获取第三最短路径上的目标实体类型。
将第三最短路径上的目标实体类型所对应的实体,作为目标实体。
以应用场景为医疗技术领域,实体为医学知识图谱中的医学实体为例,若在S109中,搜索到的最短路径上的实体所属的实体类型均不是疾病类型,且所得到的候选实体的数量为多个时,可以继续对该多个候选实体进行最短路径搜索,并将该最短路径上的目标实体类型(即疾病类型)所对应的实体作为目标实体(即疾病实体)。
对于不同类型的候选实体,需要结合医学知识,设计不同的搜索策略。部分搜索策略可以如下:
1)若该候选实体对应的实体类型分别为解剖结构和异常形态结构,则搜索策略可以如下:
在医学知识图谱及其反向图中,使用图论中的最短路径算法,搜索其最短路径上的疾病实体。最短路径搜索策略可以为:(解剖结构)-[子类或组成部分]-(解剖结构)-[发生部位]-(疾病)-[形态学改变]-(异常形态结构)-[子类]-(异常形态结构)。例如,对于临床诊断“右肺中叶高分化腺癌”,合并后的候选实体为“右肺中间叶”(相应的实体类型为“解剖结构”)和“腺癌”(相应的实体类型为“异常形态结构”),最短路径可以如图8所示,其中关系“R003”表示发生部位,即对于实体e1、e2,(e1,R003,e2)表示e1的发生部位是e2。关系“R004”表示形态学改变,即对于实体e1、e2,(e1,R004,e2)表示e1的形态学改变是e2。从该最短路径中可以看出,位于该最短路径中的实体包括原发性恶性肿瘤性肿瘤、原发性恶性肿瘤和肺右叶原发性恶性肿瘤,但仅有“肺右叶原发性恶性肿瘤”的实体类型为疾病类型,因此搜索到的目标实体(即疾病实体)为“肺右中叶原发性恶性肿瘤”。
1)若该候选实体对应的实体类型分别为生物和疾病,则搜索策略可以如下:
该生物和疾病之间的最短路径搜索策略可以为:(生物)-[子类]-(生物)-[致病原因]-(疾病)-[发生部位]-(解剖结构)-[发生部位]-(疾病)。例如,对于临床诊断“念珠菌性肺炎”,合并后的候选实体为“念珠菌”(相应的实体类型为生物)和“肺炎”(相应的实体类型为疾病),最短路径可以如图9所示,其中关系“R012”表示致病原因,即对于实体e1、e2,(e1,R012,e2)表示e1的致病原因是e2。从该最短路径中可以看出,位于该最短路径中的实体包括“念珠菌科”和“肺念珠菌病”,但仅有“肺念珠菌病”的实体类型为疾病,因此搜索到的目标实体(即疾病实体)为“肺念珠菌病”。
本发明实施例中,通过再一次对候选实体进行最短路径搜索,以从该候选实体中确定出最优选的目标实体,从而进一步提高后续标准术语确定的准确率。
S1013.基于第二术语实体索引数据查询目标实体对应的标准术语。
具体地,如图10所示,S1013可以包括:
S101301.将目标实体的标识信息作为关键字,在第二术语实体索引数据中进行搜索,得到目标实体对应的多个候选实体名称信息和相应的实体名称等级信息;第二术语实体索引数据基于对预设知识图谱进行实体识别处理建立,第二术语实体索引数据包括实体名称信息、实体名称等级信息以及实体标识信息之间的映射关系。
S101303.将多个候选实体名称信息按照相应的实体名称等级信息进行逆序排序,将排序最前的候选实体名称信息作为标准术语。
以下,以应用场景为医疗技术领域,实体为医学知识图谱中的实体为例,对S1013进行说明:
本发明实施例中的第二术语实体索引数据可以为正排索引,正排索引,也称为前向索引,其是指以文档标识信息为关键字,搜索相应的词。
S1013中可以将S1011得到的目标实体的标识信息作为关键字,在该正排索引中进行查询,得到相应的标准术语,其中,该正排索引表征医学实体与医学术语之间的映射关系。
在查询之前,需要建立该正排索引,即建立医学实体与医学术语之间的映射,映射的实现采用哈希表,该医学实体为医学知识图谱中的实体,该医学术语为医学实体的实体名称信息,其由医学实体的名字属性而确定。该正排索引项的关键字为医学术语标识信息,值为(实体名称信息,实体名称等级信息),该正排索引的部分索引项可以如表7所示。其中,实体名称等级信息表征的是实体名称信息的标准等级。
在一些实施例中,该实体名称等级信息可以包括:
首选术语:标准等级较高的、在医疗领域中经常用到的术语。
待首选术语:标准等级略低于首选术语。
许用术语:标准等级较低、在医疗领域中不经常使用的术语,比如,别名等。
表7倒排索引的部分索引项
本发明实施例中,如S101301所述,可以获取S1011中得到的目标实体的标识信息,将该目标实体的标识信息作为正排索引项关键字在该正排索引中进行搜索,得到目标实体对应的多个候选实体名称信息和相应的实体名称等级信息。如S101303所述,在得到目标实体对应的多个候选实体名称信息和相应的实体名称等级信息之后,为了提高标准术语确定的准确率,可以选取等级信息最高的候选实体名称信息作为该标准术语。
例如,在以表6中的“1252216”作为索引项关键字进行搜索的时候,会得四个索引项值,其中,“癌”的等级信息最高,则将“癌”作为标准术语。
在一个可行的实施例中,S101中的待处理文本、S103中的待处理术语、S105中的融合术语、S109中的候选实体、S1011中的目标实体中的至少在一个可以存储于区块链系统中。参见图11,图11所示是本发明实施例提供的区块链系统的一个可选的结构示意图,多个节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在区块链系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
参见图11示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
参见图12,图12为本发明实施例提供的区块结构(Block Structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块。
本发明实施例提供的一种标准术语确定方法,具有如下有益于效果:
1)本发明实施例以知识图谱为基础,在知识图谱上,使用图论算法进行目标实体的搜索。一方面充分利用了知识图谱中的术语之间的联系,使得结果具有较高的准确率,以医疗技术领域为例,对于随机抽取的临床诊断数据,按照本发明实施例提供的方法获取到的标准术语的准确率可达到86%:另一方面,基于知识图谱与图论算法的实体合并与实体搜索策略,使得结果具有可解释性,避免机器学习的结果缺乏可解释性的缺陷,其中,机器学习模型的可解释性是指,是否可将模型的预测过程转化为具备逻辑关系的规则。
2)本发明实施例解决了机器学习方法容易产生的低级错误。以医疗技术领域为例,对于临床诊断“念珠菌性肺炎”,机器学习方法容易将“念珠菌性脑膜炎”、“念珠菌性甲周炎”等疾病术语排在更优先的位置,因为其与该临床诊断在文本上更相似。
3)本发明实施例可为机器学习方法提供训练数据增强的能力。
如图13所示,本发明实施例还提供了一种标准术语确定装置,该装置可以包括:
待处理文本获取模块201,可以用于获取待处理文本。
待处理术语获取模块203,可以用于确定待处理文本中所包含的多个待处理术语和多个待处理术语所属的术语类型。
具体地,待处理术语获取模块203可以包括:
名称信息获取单元,可以用于获取预设知识图谱中的实体的名称信息。
匹配单元,可以用于基于文本匹配算法,从待处理文本中抽取与名称信息相匹配的多个待处理术语。
术语类型确定单元,可以用于将与多个待处理术语相匹配的名称信息所对应的实体类型,作为多个待处理术语所属的术语类型。
融合模块205,可以用于基于多个待处理术语所属的术语类型,对多个待处理术语进行融合,得到多个融合术语。
具体地,融合模块205可以包括:
字符串确定单元,可以用于确定多个待处理术语对应的字符串以及相应的字符串长度。
第一融合术语确定单元,可以用于当多个待处理术语属于同一术语类型时,基于多个待处理术语对应的字符串以及相应的字符串长度,对多个待处理术语进行融合,得到多个融合术语。
第二融合术语确定单元,可以用于当多个待处理术语属于不同术语类型时,获取不同术语类型之间的关联信息,基于多个待处理术语的字符串、相应的字符串长度以及关联信息,对多个待处理术语进行融合,得到多个融合术语。
第三融合术语确定单元,可以用于当多个待处理术语包括属于同一术语类型的待处理术语和属于不同术语类型的待处理术语时,基于属于同一术语类型的待处理术语的字符串以及相应的字符串长度,对属于同一术语类型的待处理术语进行融合,得到初始融合术语;获取不同术语类型之间的关联信息,基于目标待处理术语的字符串、相应的字符串长度以及关联信息,对目标待处理术语进行融合,得到多个融合术语,目标待处理术语包括初始融合术语和属于不同术语类型的待处理术语。
实体查询模块207,可以用于基于第一术语实体索引数据,查询多个融合术语对应的实体以及多个融合术语对应的实体所属的实体类型。
具体地,实体查询模块207可以包括:
第一术语实体索引数据搜索单元,可以用于将多个融合术语作为关键字,在第一术语实体索引数据中进行搜索,得到多个融合术语对应的实体标识信息、实体类型和实体名称等级信息;第一术语实体索引数据基于对预设知识图谱进行实体识别处理建立,第一术语实体索引数据包括实体标识信息、实体类型、实体名称等级信息以及术语之间的映射关系。
实体查找单元,可以用于基于多个融合术语对应的实体标识信息,在预设知识图谱中查找多个融合术语对应的实体。
实体合并模块209,可以用于基于多个融合术语对应的实体所属的实体类型,对多个融合术语对应的实体进行合并,得到候选实体。
具体地,实体合并模块209可以包括:
第一候选实体确定单元,可以用于当多个融合术语对应的实体属于同一实体类型时,在预设知识图谱上,搜索与多个融合术语对应的最近公共祖先,得到候选实体。
第二候选实体确定单元,可以用于当多个融合术语对应的实体不属于同一实体类型时,预设知识图谱上,基于最短路径算法,搜索多个融合术语对应的实体之间的第一最短路径;将第一最短路径上的实体作为候选实体。
第三候选实体确定单元,可以用于当多个融合术语包括属于同一实体的融合术语和属于不同类型的融合术语时,在预设知识图谱上,搜索与属于同一实体类型的实体对应的最近公共祖先,得到初始合并结果;基于最短路径算法,搜索初始合并结果和属于不同实体类型的实体之间的第二最短路径,将第二最短路径上的实体作为候选实体。
目标实体获取模块2011,可以用于在预设知识图谱中,对候选实体进行路径搜索,得到目标实体类型对应的目标实体。
在候选实体为多个,候选实体对应的实体类型不包括目标实体类型时,目标实体获取模块2011可以包括:
第三最短路径确定单元,可以用于基于最短路径算法,搜索多个候选实体之间的第三最短路径。
目标实体类型确定单元,可以用于获取第三最短路径上的目标实体类型。
目标实体确定单元,可以用于将第三最短路径上的目标实体类型所对应的实体,作为目标实体。
标准术语获取模块2013,可以用于基于第二术语实体索引数据查询目标实体对应的标准术语。
具体地,标准术语获取模块2013可以包括:
第二术语实体索引数据搜索单元,可以用于将目标实体的标识信息作为关键字,在第二术语实体索引数据中进行搜索,得到目标实体对应的多个候选实体名称信息和相应的实体名称等级信息;第二术语实体索引数据基于对预设知识图谱进行实体识别处理建立,第二术语实体索引数据包括实体名称信息、实体名称等级信息以及实体标识信息之间的映射关系。
逆序排序单元,可以用于将多个候选实体名称信息按照相应的实体名称等级信息进行逆序排序,将排序最前的候选实体名称信息作为标准术语。
需要说明的是,本发明实施例提供的装置实施例与上述方法实施例基于相同的发明构思。
本发明实施例还提供了一种标准术语确定的电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的标准术语确方法。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中的标准术语确定方法相关的至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的标准术语确定方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的标准术语确定方法。
本发明实施例所提供的标准术语确定方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图14是本发明实施例提供的一种标准术语确定方法的服务器的硬件结构框图。如图14所示,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,CPU)310(处理器310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器330,一个或一个以上存储应用程序323或数据322的存储介质320(例如一个或一个以上海量存储设备)。其中,存储器330和存储介质320可以是短暂存储或持久存储。存储在存储介质320的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器310可以设置为与存储介质320通信,在服务器300上执行存储介质320中的一系列指令操作。服务器300还可以包括一个或一个以上电源360,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口340,和/或,一个或一个以上操作系统321,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器300的通信供应商提供的无线网络。在一个实例中,输入输出接口340包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口340可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图14所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器300还可包括比图14中所示更多或者更少的组件,或者具有与图14所示不同的配置。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种标准术语确定方法,其特征在于,所述方法包括:
获取待处理文本;
确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型;
基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语;
基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型;
基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体;
在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体;
基于第二术语实体索引数据,查询所述目标实体对应的标准术语。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型,包括:
获取所述预设知识图谱中的实体的名称信息;
基于文本匹配算法,从所述待处理文本中抽取与所述名称信息相匹配的多个待处理术语;
将与所述多个待处理术语相匹配的名称信息所对应的实体类型,作为所述多个待处理术语所属的术语类型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语,包括:
确定所述多个待处理术语对应的字符串以及相应的字符串长度;
当所述多个待处理术语属于同一术语类型时,基于所述多个待处理术语对应的字符串以及相应的字符串长度,对所述多个待处理术语进行融合,得到所述多个融合术语;
当所述多个待处理术语属于不同术语类型时,获取不同术语类型之间的关联信息,基于所述多个待处理术语的字符串、相应的字符串长度以及所述关联信息,对所述多个待处理术语进行融合,得到所述多个融合术语;
当所述多个待处理术语包括所述属于同一术语类型的待处理术语和所述属于不同术语类型的待处理术语时,基于所述属于同一术语类型的待处理术语的字符串以及相应的字符串长度,对所述属于同一术语类型的待处理术语进行融合,得到初始融合术语;获取不同术语类型之间的关联信息,基于目标待处理术语的字符串、相应的字符串长度以及所述关联信息,对所述目标待处理术语进行融合,得到所述多个融合术语,所述目标待处理术语包括所述初始融合术语和所述属于不同术语类型的待处理术语。
4.根据权利要求1所述的方法,其特征在于,所述基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型,包括:
将所述多个融合术语作为关键字,在所述第一术语实体索引数据中进行搜索,得到所述多个融合术语对应的实体标识信息、实体类型和实体名称等级信息;所述第一术语实体索引数据基于对所述预设知识图谱进行实体识别处理建立,所述第一术语实体索引数据包括实体标识信息、实体类型、实体名称等级信息以及术语之间的映射关系;
基于所述多个融合术语对应的实体标识信息,在所述预设知识图谱中查找所述多个融合术语对应的实体。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体,包括:
当所述多个融合术语对应的实体属于同一实体类型时,在所述预设知识图谱上,搜索与所述多个融合术语对应的最近公共祖先,得到所述候选实体;
当所述多个融合术语对应的实体不属于同一实体类型时,所述预设知识图谱上,基于最短路径算法,搜索所述多个融合术语对应的实体之间的第一最短路径;将所述第一最短路径上的实体作为所述候选实体;
当所述多个融合术语包括所述属于同一实体的融合术语和所述属于不同类型的融合术语时,在所述预设知识图谱上,搜索与所述属于同一实体类型的实体对应的最近公共祖先,得到初始合并结果;基于最短路径算法,搜索所述初始合并结果和所述属于不同实体类型的实体之间的第二最短路径,将所述第二最短路径上的实体作为所述候选实体。
6.根据权利要求5所述的方法,其特征在于,在所述候选实体对应的实体类型包括所述目标实体类型时,则所述方法还包括:
将所述候选实体作为所述目标实体。
7.根据权利要求5所述的方法,其特征在于,在所述候选实体为多个,所述候选实体对应的实体类型不包括所述目标实体类型时,则所述在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体,包括:
基于最短路径算法,搜索多个候选实体之间的第三最短路径;
获取所述第三最短路径上的目标实体类型;
将所述第三最短路径上的目标实体类型所对应的实体,作为所述目标实体。
8.根据权利要求1所述的方法,其特征在于,所述基于第二术语实体索引数据,查询所述目标实体对应的标准术语,包括:
将所述目标实体的标识信息作为关键字,在所述第二术语实体索引数据中进行搜索,得到所述目标实体对应的多个候选实体名称信息和相应的实体名称等级信息;所述第二术语实体索引数据基于对所述预设知识图谱进行实体识别处理建立,所述第二术语实体索引数据包括实体名称信息、实体名称等级信息以及实体标识信息之间的映射关系;
将所述多个候选实体名称信息按照相应的实体名称等级信息进行逆序排序,将排序最前的候选实体名称信息作为所述标准术语。
9.一种标准术语确定装置,其特征在于,所述装置包括:
待处理文本获取模块,用于获取待处理文本;
待处理术语获取模块,用于确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型;
融合模块,用于基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语;
实体查询模块,用于基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型;
实体合并模块,用于基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体;
目标实体获取模块,用于在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体;
标准术语获取模块,用于基于第二术语实体索引数据,查询所述目标实体对应的标准术语。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述1至8任一所述的标准术语确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010945776.6A CN112084781B (zh) | 2020-09-10 | 2020-09-10 | 一种标准术语确定方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010945776.6A CN112084781B (zh) | 2020-09-10 | 2020-09-10 | 一种标准术语确定方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084781A true CN112084781A (zh) | 2020-12-15 |
CN112084781B CN112084781B (zh) | 2024-04-12 |
Family
ID=73732498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010945776.6A Active CN112084781B (zh) | 2020-09-10 | 2020-09-10 | 一种标准术语确定方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084781B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095524A (zh) * | 2021-05-14 | 2021-07-09 | 中国电力科学研究院有限公司 | 电力设备检修工作单据智能生成方法、系统及存储介质 |
CN113657100A (zh) * | 2021-07-20 | 2021-11-16 | 北京百度网讯科技有限公司 | 实体识别方法、装置、电子设备及存储介质 |
CN113987113A (zh) * | 2021-06-25 | 2022-01-28 | 四川大学 | 一种多站点定名服务融合方法、装置、存储介质及服务器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609902A (zh) * | 2018-05-28 | 2019-12-24 | 华为技术有限公司 | 一种基于融合知识图谱的文本处理方法及装置 |
CN110807102A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
CN110837568A (zh) * | 2019-11-26 | 2020-02-25 | 精硕科技(北京)股份有限公司 | 实体对齐方法及装置、电子设备、存储介质 |
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
CN111191048A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于知识图谱的急诊问答系统构建方法 |
CN111221982A (zh) * | 2020-01-13 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
CN111311059A (zh) * | 2020-01-16 | 2020-06-19 | 成都大汇物联科技有限公司 | 基于知识图谱的水车室故障诊断方法 |
CN111339313A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种基于多模态融合的知识库构建方法 |
-
2020
- 2020-09-10 CN CN202010945776.6A patent/CN112084781B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609902A (zh) * | 2018-05-28 | 2019-12-24 | 华为技术有限公司 | 一种基于融合知识图谱的文本处理方法及装置 |
CN110807102A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
CN110837568A (zh) * | 2019-11-26 | 2020-02-25 | 精硕科技(北京)股份有限公司 | 实体对齐方法及装置、电子设备、存储介质 |
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
CN111191048A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于知识图谱的急诊问答系统构建方法 |
CN111221982A (zh) * | 2020-01-13 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
CN111311059A (zh) * | 2020-01-16 | 2020-06-19 | 成都大汇物联科技有限公司 | 基于知识图谱的水车室故障诊断方法 |
CN111339313A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种基于多模态融合的知识库构建方法 |
Non-Patent Citations (4)
Title |
---|
GAWRYCHOWSKI P.: "Simple and efficient LZW-compressed multiple pattern matching", 《JOURNAL OF DISCRETE ALGORITHMS》, vol. 25, pages 34 - 41, XP028668070, DOI: 10.1016/j.jda.2013.10.004 * |
ZHANG DONGXIANG 等: "A graph-theoretic fusion framework for unsupervised entity resolution", 《2018 IEEE 34TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING (ICDE)》, pages 713 - 724 * |
吴云超 等: "面向仿真推演的领域知识图谱构建技术", 《指挥信息系统与技术》, vol. 10, no. 03, pages 32 - 36 * |
吴玉颖: "医药知识图谱的构建与应用研究", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》, no. 08, pages 080 - 57 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095524A (zh) * | 2021-05-14 | 2021-07-09 | 中国电力科学研究院有限公司 | 电力设备检修工作单据智能生成方法、系统及存储介质 |
CN113987113A (zh) * | 2021-06-25 | 2022-01-28 | 四川大学 | 一种多站点定名服务融合方法、装置、存储介质及服务器 |
CN113987113B (zh) * | 2021-06-25 | 2023-09-22 | 四川大学 | 一种多站点定名服务融合方法、装置、存储介质及服务器 |
CN113657100A (zh) * | 2021-07-20 | 2021-11-16 | 北京百度网讯科技有限公司 | 实体识别方法、装置、电子设备及存储介质 |
EP4113357A1 (en) * | 2021-07-20 | 2023-01-04 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing entity, electronic device and storage medium |
CN113657100B (zh) * | 2021-07-20 | 2023-12-15 | 北京百度网讯科技有限公司 | 实体识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112084781B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pandarachalil et al. | Twitter sentiment analysis for large-scale data: an unsupervised approach | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
JP2022002075A (ja) | 情報推奨方法及び装置、並びに、電子機器、プログラム及びコンピュータ読み取り可能な記憶媒体 | |
CN112084781B (zh) | 一种标准术语确定方法、装置及存储介质 | |
Kumara et al. | Web service clustering using a hybrid term-similarity measure with ontology learning | |
CN110637316B (zh) | 用于预期对象识别的系统和方法 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN111680498B (zh) | 实体消歧方法、装置、存储介质及计算机设备 | |
CN112559709A (zh) | 基于知识图谱的问答方法、装置、终端以及存储介质 | |
Zhao et al. | An improved user identification method across social networks via tagging behaviors | |
Barbosa et al. | An approach to clustering and sequencing of textual requirements | |
Zhao et al. | Graph-based ontology analysis in the linked open data | |
CN113254649A (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
Forestiero et al. | Natural language processing approach for distributed health data management | |
Kenekayoro et al. | Clustering research group website homepages | |
Achichi et al. | A survey on web data linking. | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
Abramowicz et al. | Supporting topic map creation using data mining techniques | |
CN113111178B (zh) | 无监督的基于表示学习的同名作者消歧方法及装置 | |
CN111581162B (zh) | 一种基于本体的海量文献数据的聚类方法 | |
CN113656466A (zh) | 保单数据查询方法、装置、设备及存储介质 | |
US11373230B1 (en) | Probabilistic determination of compatible content | |
Luengo et al. | Data reduction for big data | |
Azondekon | Modeling the Complexity and Dynamics of the Malaria Research Collaboration Network in Benin, West Africa: papers indexed in the Web Of Science (1996—2016) | |
CN117725555B (zh) | 多源知识树的关联融合方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |