CN116127053A - 实体词消歧、知识图谱生成和知识推荐方法以及装置 - Google Patents
实体词消歧、知识图谱生成和知识推荐方法以及装置 Download PDFInfo
- Publication number
- CN116127053A CN116127053A CN202310176721.7A CN202310176721A CN116127053A CN 116127053 A CN116127053 A CN 116127053A CN 202310176721 A CN202310176721 A CN 202310176721A CN 116127053 A CN116127053 A CN 116127053A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- entity word
- words
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000001914 filtration Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 239000003814 drug Substances 0.000 description 26
- 238000010586 diagram Methods 0.000 description 21
- 229940079593 drug Drugs 0.000 description 16
- 238000012552 review Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 150000001875 compounds Chemical class 0.000 description 10
- 201000010099 disease Diseases 0.000 description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 9
- 238000007689 inspection Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 239000002552 dosage form Substances 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 206010011224 Cough Diseases 0.000 description 3
- 206010035664 Pneumonia Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 229940127554 medical product Drugs 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003168 generic drug Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- -1 manufacturer Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种实体词消歧方法,涉及人工智能技术领域,尤其涉及知识图谱、深度学习、自然语言处理技术领域。具体实现方案为:使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词;基于初始实体词与候选实体词之间的相似度,从多个候选实体词中确定至少一个候选实体词作为对照实体词;生成与初始实体词具有近似语义的同义实体词;以及根据对照实体词和同义实体词,确定目标实体词作为初始实体词除歧后的实体词。本公开还提供了一种知识图谱生成方法、知识推荐方法、装置、电子设备和存储介质。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及知识图谱、深度学习、自然语言处理技术领域。更具体地,本公开提供了一种实体词消歧方法、知识图谱生成方法、知识推荐方法、装置、电子设备和存储介质。
背景技术
近几年来,人工智能技术得到了越来越广泛的关注。人工智能不仅仅停留于理论阶段的研究,诸多企业将这一方法应用在实际的业务场景中,生成实际的落地产品。
发明内容
本公开提供了一种实体词消歧方法、知识图谱生成方法、知识推荐方法、装置、电子设备和存储介质。
根据第一方面,提供了一种实体词消歧方法,该方法包括:使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词;基于初始实体词与候选实体词之间的相似度,从多个候选实体词中确定至少一个候选实体词作为对照实体词;生成与初始实体词具有近似语义的同义实体词;以及根据对照实体词和同义实体词,确定目标实体词作为初始实体词除歧后的实体词。
根据第二方面,提供了一种知识图谱生成方法,该方法包括:获取多个初始实体词、多个初始实体词各自的属性以及多个初始实体词之间的关联关系;使用上述实体词消歧方法确定多个初始实体词各自的目标实体词;以及以多个目标实体词为知识实体,以多个目标实体词之间的关联关系为实体关系,将知识实体和实体关系添加到知识图谱中。
根据第三方面,提供了一种知识推荐方法,该方法包括:获取搜索实体词;使用上述实体词消歧方法确定所述搜索实体词的目标实体词;从知识图谱中确定与所述搜索实体词的目标实体词关联的知识实体和实体关系;根据与所述搜索实体词的目标实体词关联的知识实体和实体关系,生成知识推荐数据;以及输出所述知识推荐数据。
根据第四方面,提供了一种实体词消歧装置,该装置包括:检索模块,用于使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词;第一确定模块,用于基于所述初始实体词与所述候选实体词之间的相似度,从多个所述候选实体词中确定至少一个候选实体词作为对照实体词;第一生成模块,用于生成与所述初始实体词具有近似语义的同义实体词;以及第二确定模块,用于根据所述对照实体词和所述同义实体词,确定目标实体词作为所述初始实体词除歧后的实体词。
根据第五方面,提供了一种知识图谱生成装置,该装置包括:第一获取模块,用于获取多个初始实体词、所述多个初始实体词各自的属性以及所述多个初始实体词之间的关联关系;第四确定模块,用于使用上述实体词消歧装置确定所述多个初始实体词各自的目标实体词;以及添加模块,用于以所述多个目标实体词为知识实体,以所述多个目标实体词之间的关联关系为实体关系,将所述知识实体和所述实体关系添加到知识图谱中。
根据第六方面,提供了一种知识推荐装置,该装置包括:第二获取模块,用于获取搜索实体词;第五确定模块,用于使用上述实体词消歧装置确定所述搜索实体词的目标实体词;第六确定模块,用于从知识图谱中确定与所述搜索实体词的目标实体词关联的知识实体和实体关系;第二生成模块,用于根据与所述搜索实体词的目标实体词关联的知识实体和实体关系,生成知识推荐数据;以及输出模块,用于输出所述知识推荐数据。
根据第七方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据第九方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的可以应用实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一的示例性系统架构示意图;
图2是根据本公开的一个实施例的实体词消歧方法的流程图;
图3是根据本公开的一个实施例的构建术语空间检索平台的示意图;
图4是根据本公开的一个实施例的复核实体词的检索方法的示意图;
图5是根据本公开的一个实施例的多模型融合的实体词消歧方法的示意图;
图6是根据本公开的一个实施例的基于属性优先级的实体词消歧方法的示意图;
图7是根据本公开的另一个实施例的实体词消歧方法的示意图;
图8根据本公开的一个实施例的知识图谱生成方法的流程图
图9是根据本公开的一个实施例的知识推荐方法的流程图;
图10是根据本公开的一个实施例的实体词消歧装置的框图;
图11是根据本公开的一个实施例的知识图谱生成装置的框图;
图12是根据本公开的一个实施例的知识推荐装置的框图;
图13是根据本公开的一个实施例的实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
诸多人工智能相关的产品是以知识图谱作为数据基石的,知识图谱是由多个节点以及节点之间的关系构成的。知识图谱中各节点表示的实体的准确性以及各实体之间的关系的准确性直接影响用户使用产品的体验感。
例如,人工智能应用在医学领域可以得到各类医学产品,医学领域的知识图谱中的节点可以表示医学术语实体,各医学术语实体之间具有关联关系,该关联关系可以作为各实体之间的连接关系。
例如,知识图谱中的“肺炎”实体和“咳嗽”实体之间具有关联关系,该关联关系可以表示“临床表现”,“临床表现”也可以作为一个实体,通过“临床表现”实体可以将“肺炎”实体和“咳嗽”实体连接起来。
医学术语可以是从书籍、论文、指南等各种渠道的文本中抽取出来的。医学术语的准确性以及医学术语之间的关联关系的准确性直接影响医学产品的性能以及用户体验。然而,医学术语具有多样性,例如一词多义或者同义词等情况。
因此,通过对照标准的医学术语来对各个来源的医学术语进行消歧,使得同一术语归一化,是构建医学知识图谱以及实现各类医学产品的应用的必要环节。
类似地,除医学领域之外,各类以知识图谱为基础的应用领域、场景和产品中,都有实体对照消歧的需求。
目前,实体对照消歧的方法主要包括人工对照消歧方法、基于语义相似度的对照消歧方法以及基于文本应匹配的对照消歧方法。
人工对照消歧方法由专业人员通过阅读大量的文献,人工的查阅里面的实体是否为标准术语,或凭个人经验判断是否为标准术语。单纯的通过人工的方式进行对照,非常繁琐,耗时很久。例如在医学领域,医学人员经验有限,并不能擅长所有科室领域,所以会出现实体标注遗漏,未覆盖的情况,还有个别的标注错误问题,后期进行实体扩展时,同样会耗费大量人力,重复同样的问题。
基于例如word2vec等语义相似度的对照消歧方法,准确率并不是很高。并且仅适用于简单文本的环境。例如在医学领域,检验项目中的血常规和尿常规一字之差,就是完全不同的两个系统的检验。而药品的对照则需要将规格、剂型、材料、厂家、国药准字号等多个属性对照上,则为对照成功。基于语义相似度的对照消歧方法针对包含多个属性的实体并不适用。
基于文本应匹配的对照消歧方法可以检索一段文本段落中是否包含某个目标实体。但是难以检测包含复杂实体的情况。例如在医学领域,实体存在着多样性(如一词多义),很难做到完全精准的匹配,导致召回率并不高。
本公开提供了一种实体词消歧方法,使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词,基于初始实体词与候选实体词之间的相似度,从多个候选实体词中确定至少一个候选实体词作为对照实体词,基于初始实体词,生成同义实体词,其中同义实体词与初始实体词具有近似语义,以及根据对照实体词和同义实体词,确定目标实体词作为初始实体词除歧后的实体词,能够有效提高实体词消歧的准确率。
需要说明的是,本公开提供的实体词消歧方法的可以应用于医学领域,但是不局限于医学领域,还可以用于各类有实体对照消歧需求的应用领域、场景和产品中。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1是根据本公开一个实施例的可以应用实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105进行交互,以接收或发送消息等。终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机等等。
本公开实施例所提供的实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一一般可以由服务器105执行。相应地,本公开实施例所提供的实体词消歧装置、知识图谱生成装置以及知识推荐装置中的至少之一一般可以设置于服务器105中。本公开实施例所提供的实体词消歧方法、知识图谱生成方法以及知识推荐方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的实体词消歧装置、知识图谱生成装置以及知识推荐装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
图2是根据本公开的一个实施例的实体词消歧方法的流程图。
如图2所示,该实体词消歧方法200包括操作S210~操作S240。
在操作S210,使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词。
例如,初始实体词可以是从书籍、论文、指南等文档中的抽取出来的术语。标准实体词集合中包括多个标准实体词,每个标准实体词可以表示一个标准术语。例如标准术语是标准医学术语,那么该标准医学术语可以是由专业的医学相关人员提供的,也可以是由医学相关的权威部门制定的。
例如,标准实体词集合中可以包括大量的标准实体词(例如10万个),标准实体词集合可以存储于数据库中。通过使用初始实体词进行检索,可以从该标准实体词集合中获取与初始实体词相似度最高的n个(n为大于1的整数,例如n=100)标准实体词。
该检索过程可以称为粗排序过程,通过粗排序过程确定出的多个标准实体词可以作为候选实体词,本实施例基于候选实体词进行后续消歧操作。
在操作S220,基于初始实体词与候选实体词之间的相似度,从多个候选实体词中确定至少一个候选实体词作为对照实体词。
可以利用基于深度学习的文本匹配模型计算初始实体词与候选实体词之间的相似度。
例如,将初始实体词与多个(例如n个,n=100)候选实体词分别组成实体对,得到多个(例如100个)实体对。可以使用文本匹配模型计算每个实体对的相似度,以及根据多个实体对各自的相似度,从多个候选实体词中确定至少一个候选实体词作为对照实体词。示例性地,可以选取相似度最高的k(k为大于等于1的整数,例如k=1或者k=2)候选实体词作为对照实体词。
该利用基于深度学习的文本匹配模型计算相似度,并根据相似度从n个候选实体词中选取k个对照实体词的过程可以称为精准排序过程。该精准排序过程输出的对照实体词均来自标准实体词模型,即对照实体词均为标准实体词,因此,对照实体词可以用来表示初始实体词消歧后的实体词。
为了进一步提升消歧准确率,本实施例基于对照实体词进一步进行后续的消歧操作。
在操作S230,生成与初始实体词具有近似语义的同义实体词。
可以利用基于深度学习的文本生成模型生成与初始实体词具有近似语义的同义实体词。
例如,将初始实体词输入丈本生成模型,文本生成模型可以生成与初始实体词具有近似语义的同义实体词序列,该同义实体词序列可以是按照与初始实体词之间的语义相似度进行排序的。
为了提高容错率,可以使用N(N为大于1的整数,例如N=3)个并列的文本生成模型分别生成同义实体词序列。分别从每个同义实体词序列中选取出与初始实体词之间的语义相似度最高的同义实体词,得到N个同义实体词,组成同义实体词集合。
在操作S240,根据对照实体词和同义实体词,确定目标实体词作为初始实体词除歧后的实体词。
利用文本匹配模型确定的对照实体词是与初始实体词相似度较高的标准实体词,利用文本生成模型生成的同义实体词是与初始实体词具有相似语义的实体词。基于对照实体词和同义实体词二者可以共同确定目标实体词,该目标实体词可以作为初始实体词除歧后的实体词。
例如,对照实体词可以有多个(例如k个),同义实体词集合中也包括多个同义实体词,如果多个对照实体词和多个同义实体词中包含同一实体词,那么该同一个实体词的置信度更高,因此可以将属于同一实体词的对照实体词和同义实体词确定为目标实体词。
根据本公开的实施例,使用标准实体词集合对同义实体词集合进行过滤,得到属于标准实体词集合的同义实体词;将属于标准实体词集合的同义实体词与对照实体词进行融合,得到目标实体词。
由于对照实体词均来自标准实体词集合,但是生成的同义实体词不一定是标准术语,因此为了避免引入生成的非标准术语,使用标准实体词集合对同义词集合进行过滤,保留属于标准实体集合的同义实体词,将保留的实体词与对照实体词进行融合(例如组合),得到目标实体词,即能保证目标实体词均为标准实体词,也能够使得目标实体词更全面,进而提高初始实体词的消歧的准确率。
本公开的实施例通过从标准实体词集合中检索出多个标准实体词作为初始实体词的候选实体词,从多个候选实体词中精准确定至少一个对照实体词,生成与初始实体词具有近似语义同义实体词,根据对照实体词和同义实体词确定目标实体词,作为初始实体词除歧后的实体词,能够提高实体词消歧的准确率。
下面结合图3~图7对本公开提供的实体词消歧方法进行详细说明。
初始实体词可以包括多种类型的实体词,例如医学领域可以包括诊断、检验、检查、药物、体征、症状、临床表现、疾病等多种类型实体词(医学术语)。
基于实体词的类型,实体词可以是单一实体词或者复核实体词。单一实体词可以仅包含实体词本身,复核实体词除实体词本身还包括多个属性。例如,医学领域的疾病类型的实体词(如“肺炎”)和症状类型的实体词(如“咳漱”)均为单一实体词。药物类型的实体词为复核实体词,药物类型的实体词除药物名称外,还可以包括规格、剂型、生产厂家、国药准字号等属性。检验类型的实体词为也为复核实体词,检验类型的实体词除检验名称外,还可以包括检验项、标本等属性。
按照单一实体词、复核实体词以及实体词的类型,可以构建术语空间,该术语空间可以是将标准实体词集合基于单一实体词、复核实体词以及类型进行规范化存储得到的。为便于检索,可以构建术语空间检索平台。
图3是根据本公开的一个实施例的构建术语空间检索平台的示意图。
如图3所示的术语空间310为医学领域的术语空间。术语空间310中的实体词均为标准术语。术语空间310包括复合实体空间311和单一实体空间312。
术语空间310中的标准术语可以有多种来源,例如包括由专业的医学人员提供的医学术语词表、由医学相关的权威部门制定的医学术语指南、从药品说明书的电子文档中抽取出来的标准药品术语、从检验报告或检查报告的电子文档中抽取出来的标准检验术语或标准检查术语等等。
复合实体空间311中的实体词为复核实体词,例如药物类型的实体词、检查类型的实体词、检验类型的实体词等。药物类型的实体词包括国药准字号、厂家、规格等属性,检查类型的实体词包括检查类别等属性,检验类型的实体词包括检验项、标本等属性。
单一实体空间312中的实体词为单一实体词,例如疾病类型的实体词、症状类型的实体词、手术类型的实体词等。
针对术语空间,可以构建术语空间检索平台320。例如将术语空间中的每个实体词结构化为多元组形式,不同类型的实体词的元组形式不同。如疾病类型的实体词的多元组可以表示为<实体词名称、实体词类型、唯一标识id、序号>,药物类型的实体词的多元组可以表示为<国药准字号、通用药物名称、商品药物名称、产品药物名称、规格、剂型、包装材料、生产厂家、剂型单位等>。
接下来,可以基于ElasticSearch(简称ES,一种分布式全文检索引擎)和BM25(Best Match 25,一种用来评价搜索词和文档之间相关性的算法)算法,将结构化的多元组数据录入数据库,创建术语空间检索平台320。通过使用术语空间检索平台320进行ES检索可以检索到术语空间中的标准术语实体词。
本实施例按照单一实体词、复核实体词以及实体词的类型规范化存储术语空间,并构建术语空间检索平台,便于实体词的检索。
对于单一实体词,可以直接使用该单一实体词的名称进行检索,得到与该单一实体词对应的标准实体词子集合,该标准实体词子集合中的标准实体词可以作为该单一实体词的候选实体词。
然而,对于复核实体词,需要根据使用该复核实体词的多个属性各自检索到的标准实体词子集合进行综合筛选,来确定候选实体词。
图4是根据本公开的一个实施例的复核实体词的检索方法的示意图。
复核实体词的检索方法包括:针对每个属性,使用属性从标准实体词集合中检索出标准实体词子集合,标准实体词子集合中的标准实体词具有评估值,从标准实体词子集合中确定评估值大于阈值的至少一个标准实体词,作为与该属性对应的候选实体词;以及根据与至少一个属性各自对应的候选实体词,确定初始实体词的候选实体词。
如图4所示,复核实体词A包括属性A1、属性A2和属性A3。使用属性A1、属性A2和属性A3分别通过术语空间检索平台410进行检索,可以得到对应于属性A1的标准实体词子集合411、对应于属性A2的标准实体词子集合412和对应于属性A3的标准实体词子集合413。标准实体词子空间的标准实体词按照评估值进行排序,该评估值可以表示与对应属性的相似度。
标准实体词子集合411包括实体词B、实体词C、......,实体词B的评估值大于实体词C,且实体词B和实体词C的评估值均大于阈值(例如0.9),那么{实体词B、实体词C}作为对应于属性A1的候选实体词。
标准实体词子集合412包括实体词D、实体词E、......,实体词D的评估值大于实体词E,且实体词D的评估值大于阈值(例如0.9),那么对{实体词D}作为应于属性A2的候选实体词。
标准实体词子集合412包括实体词B、......,实体词B的评估值大于阈值(例如0.9),那么{实体词B}作为对应于属性A3的候选实体词。
各个候选实体词组成候选实体词集合420{实体词B、实体词C、实体词D、实体词B}。可以通过投票方式统计出候选实体词集合420中数量最多的候选实体词作为复核实体词A的候选实体词。
如图4所示,候选实体词集合420中数量最多的候选实体词为{实体词B},因此可以将{实体词B}作为复核实体词A的候选实体词430。
需要说明的是,如果标准实体词子集合411、412、413中均没有达到阈值条件的实体词,那么可以确定复核实体词A的对照结果为空,不返回复核实体词A的候选实体词。
本实施例按照属性分别进行检索,基于各属性的检索结果确定候选实体词,能够提高复合实体词的检索准确率。
本实施例提供一种多模型融合的实体词消歧方法。
图5是根据本公开的一个实施例的多模型融合的实体词消歧方法的示意图。
如图5所示,使用初始实体词501通过术语空间检索平台510进行检索,得到候选实体词502。候选实体词502输入文本匹配模型520,得到对照实体词503。初始实体词501输入文本生成模型530,生成同义实体词504。基于对照实体词503和同义实体词504可以确定目标实体词505。目标实体词505为初始实体词消歧后的实体词。
本实施例基于多模型(文本匹配模型520和文本生成模型530)融合的方法确定目标实体词505。文本匹配模型520和文本生成模型530可以均为Encoder-Decoder架构的自然语言处理模型。
文本匹配模型520的输入为初始实体词501与候选实体词502组成的实体对,经过相似度的计算以及精细排序后输出置信度最高的对照实体词503。文本生成模型530是一种自然语言生成模型,输入为初始实体词501,生成与初始实体词501具有相似语义的同义实体词504。将丈本匹配模型520的结果(对照实体词503)和文本生成模型530的结果(同义实体词504)进行融合,可以得到目标实体词505。
下面对文本匹配模型520进行详细说明。
文本匹配模型520的样本数据可以来自从书籍、论文中文档中抽取出的实体词(样本实体词),通过人工标注与该样本实体词对应的标准实体词,该通过人工为该样本实体词标注的标准实体词即为该样本实体词消歧后的实体词。样本实体词以及对应的标准实体词组成实体对,输入到文本匹配模型520,以该实体对的相似度最大为目标进行训练,得到经训练的文本匹配模型520。使用经训练的文本匹配模型520可以进行实体词匹配等相关任务。
在实体词匹配等相关任务有一定的数据积累后,可以利用文本匹配模型520的输出结果构建新的样本,以优化文本匹配模型520。例如,将文本匹配模型520的输出结果交给专家审核,根据专家审核结果构建新的正样本和负样本,使用新的正样本和负样本在下一轮迭代过程中重新训练模型。
正样本可以是文本匹配模型520匹配正确的实体对,负样本可以是文本匹配模型520匹配错误的实体对,且该负样本为强负例,使用强负例优化模型能够增加训练的难度,进而提升模型的匹配能力。此外,还可以构建弱负例,例如将不同类型的实体词组成实体对作为弱负例,弱负例可以增加样本的多样性。
利用文本匹配模型520的输出结果构建新的样本,一方面能够用来优化模型,提升模型精度,另一方面模型精度的提升能进一步减少专家的工作量,在经过多轮优化后,可以无需人工审核。能够极大地减少人工在实际审核任务中的注释时间,有效提高审核效率。
下面对文本生成模型530进行详细说明。
文本生成模型530可以复用文本匹配模型520的样本数据。例如,将样本实体词进行复制,构建包含两个相同样本实体词的实体对作为模型的输入,以与该样本实体词对应的标准实体词作为监督数据,进行文本生成模型530的训练,得到经训练的文本生成模型530。使用经训练的文本生成模型530可以进行实体词生成等相关任务。
类似地,在实体词生成等相关任务有一定的数据积累后,可以利用文本生成模型530的输出结果构建新的样本,以优化文本生成模型530。例如,将文本生成模型530的输出结果交给专家审核,根据专家审核结果构建新的正样本和负样本,使用新的正样本和负样本在下一轮迭代过程中重新训练模型。
正样本可以是文本生成模型530生成正确标准实体词的样本实体词,负样本可以是文本生成模型530生成错误标准实体词的样本实体词,且该负样本为强负例,使用强负例优化模型能够增加训练的难度,进而提升模型的匹配能力。
类似地,利用文本生成模型530的输出结果构建新的样本,一方面能够用来优化模型,提升模型精度,另一方面模型精度的提升能进一步减少专家的工作量,在经过多轮优化后,可以无需人工审核。能够极大地减少人工在实际审核任务中的注释时间,有效提高审核效率。
根据本公开的实施例,可以使用N个并列的文本生成模型分别生成同义实体词,得到N个同义实体词,组成同义实体词集合。
对于上述文本匹配模型520或文本生成模型530,样本数据均可以划分为训练集、测试集和验证集,分别用于模型的训练、测试和验证。
对于文本生成模型530,还可以根据验证集在文本生成模型530上的实际效果,保留N个不同的生成模型。例如,例如训练了200个文本生成模型530,使用验证集验证该200个模型的生成效果,可以保留效果最好的3(N=3)个模型用于同义实体词的生成,N个文本生成模型530可以生成N个同义实体词,N个同义实体词可以组成同义实体词集合。
由于文本生成模型530生成的实体词可能不是标准实体词,保留多个不同效果的文本生成模型530,用于多模型结果的融合,能够提高泛化性以及容错率。
根据本公开的实施例,复合实体词的属性具有优先级,例如,药物类型的复合实体词可以包括第一优先级的属性“国药准字”,第二优先级的属性“通用药品名称、产品药物名称、商品药物名称”,第三优先级的属性“剂型、规格、剂量、厂家”。又例如,检验类型的复合实体词可以包括第一优先级的属性“标本”和第二优先级的属性“检验项”。
本实施例还提供一种基于属性优先级进行实体词的消歧方法。
根据本公开的实施例,根据属性优先级进行实体词的消歧方法包括响应于第一优先级的候选实体词不符合预设条件,基于初始实体词与第二优先级的候选实体词之间的相似度,从多个第二优先级的候选实体词中确定至少一个候选实体词作为对照实体词;根据第二优先级的属性生成与初始实体词具有近似语义的同义实体词;根据对照实体词、同义实体词以及第三优先级的候选实体词集合,确定目标实体词。
图6是根据本公开的一个实施例的基于属性优先级的实体词消歧方法的示意图。
如图6所示,复合实体词601包括第一优先级的属性、第二优先级的属性和第三优先级的属性。首先可以使用第一优先级的属性(例如国药准字号)通过术语空间检索平台610进行检索。由于术语空间检索平台610是基于相似度进行检索的,因此可以检索到与第一优先级的属性语义相同或相似的候选实体词(第一优先级的候选实体词611)。如果第一优先级的候选实体词611符合预设条件(例如第一优先级的候选实体词611的“国药准字号”与复合实体词601的“国药准字号”相同),那么将第一优先级的候选实体词611确定为复合实体词601的目标实体词。
如果第一优先级的候选实体词611不符合预设条件,可以使用第二优先级的属性进行多模型融合的消歧方法。例如使用第二优先级的属性通过术语空间检索平台610进行检索,得到第二优先级的候选实体词612。将第二优先级的候选实体词612输入文本匹配模型620,得到对照实体词621。将第二优先级的属性输入文本生成模型630,得到同义实体词631。
接下来,可以基于对照实体词621、同义实体词631以及第三优先级的候选实体词613进行综合对照,得到目标实体词602。例如,使用标准实体词集合对同义实体词631进行过滤,得到属于标准实体词集合的同义实体词631。将对照实体词621和属于标准实体词集合的同义实体词631进行融合(例如组合),得到融合实体词集合。使用第三优先级的候选实体词613分别与融合实体词集合中的实体词进一步进行语义相似度的匹配,从融合实体词集合中确定与第三优先级的候选实体词613的相似度最高的实体词作为目标实体词602。
本实施例基于属性优先级进行实体词的消歧,能够对复合实体进行精细化的消歧,提高消歧准确率。
图7是根据本公开的另一个实施例的实体词消歧方法的示意图。
如图7所示,初始实体词701可以是单一实体词或者复合实体词。初始实体词701可以与标准实体词集合中的标准实体词进行精准匹配。例如,如果初始实体词701命中了标准实体词集合中的标准实体词,那么可以直接确定初始实体词701为标准实体词。
如果标准实体词集合中没有被初始实体词701命中的标准实体词,可以通过术语空间检索平台进行ES检索,得到初始实体词701的候选实体词702。将候选实体词702输入文本匹配模型710,可以得到对照实体词。
初始实体词701分别输入文本生成模型720、730、740,文本生成模型720、730、740分别生成的与初始实体词701语义最近似的同义实体词,各文本生成模型生成的同义实体词组成同义实体词集合(例如有3个)。使用标准实体词集合对同义实体词集合进行过滤,得到属于标准实体词集合的同义实体词(例如有0~3个)。
将对照实体词与属于标准实体词集合的同义实体词进行融合消歧,得到融合实体词集合。如果初始实体词701为包含多个优先级属性的复合实体词,可以再结合基于属性优先级的消歧方法进行进一步的消歧,得到最终的消歧结果703。
本公开提供的实体词的消歧方法可以应用于多种有实体对照消歧需求的场景。例如,在从书籍、论文、指南等文档中抽取出来初始实体词,并且确定初始实体词的属性以及各个初始实体词之间的关联关系之后,要将属于非标准实体词的初始实体词及属性添加到知识图谱中,需要对初始实体词进行消歧,得到与该实体词对应的标准实体词。
图8根据本公开的一个实施例的知识图谱生成方法的流程图。
如图8所示,该知识图谱生成方法800包括操作S810~S830。
在操作S810,获取多个初始实体词、多个初始实体词各自的属性以及多个初始实体词之间的关联关系。
在操作S820,确定多个初始实体词各自的目标实体词。
在操作S830,以多个目标实体词为知识实体,以多个目标实体词之间的关联关系作为实体关系,将知识实体和实体关系添加到知识图谱中。
初始实体词可以包括多个属性,各个初始实体词之间具有关联关系。初始实体词可以是从书籍、论文、指南等文档中抽取出来的。初始实体词的属性以及各个初始实体词之间的关联关系可以是确定的。
知识图谱的生成可以包括知识图谱的构建和知识图谱的扩充。在知识图谱构建或扩充场景下,可以使用上述实体词的消歧方法将属于非标准实体词的初始实体词进行消歧,得到与该实体词对应的目标实体词。
接下来,可以以目标实体词为知识实体,以多个目标实体词之间的关联关系作为实体关系,将目标实体词与知识图谱中对应的知识实体进行合并,并将目标实体词的属性和关系也添加到知识图谱中。
本实施例利用实体词消歧方法确定知识实体,根据知识实体构建或扩充知识图谱,能够提高知识构建的准确率和效率。
图9是根据本公开的一个实施例的知识推荐方法的流程图。
如图9所示,该知识推荐方法900包括操作S910~S950。
在操作S910,获取搜索实体词。
在操作S920,确定搜索实体词的目标实体词。
在操作S930,从知识图谱中确定与搜索实体词的目标实体词关联的知识实体和实体关系。
在操作S940,根据与搜索实体词的目标实体词关联的知识实体和实体关系,生成知识推荐数据。
在操作S950,输出知识推荐数据。
例如,搜索实体词可以是用户输入的用于搜索的实体词。使用本公开提供的实体词消歧方法可以确定该搜索实体词的目标实体词。该目标实体词可以是标准术语。
知识图谱可以是由上述知识图谱的生成方法确定的。该知识图谱中的知识实体可以为标准术语。响应于搜索实体词的目标实体词,可以从知识图谱中确定与该搜索实体词的目标实体词对应的知识实体和实体关系,该些知识实体和实体关系可以组成知识包,该知识包可以用于知识推荐。
例如,在医学领域,知识图谱可以应用于临床辅助决策系统。医学领域的知识实体可以包括诊断、检验、检查、药物、体征、症状、临床表现、疾病等多种类型,各种类型之间的知识实体彼此之间具有实体关系。如果搜索实体词的目标实体词是疾病类型的实体词,可以在知识图谱中确定与该疾病类型的实体词对应的知识实体,进而根据实体关系可以获取与该疾病类型的实体词对应的诊断、检验、检查、药物、体征、症状、临床等各类型的知识实体和实体关系,与该疾病类型的实体词对应的各类型的知识实体和实体关系可以组成知识包,该知识包可以用于治疗方案的推荐。
本实施例通过知识图谱获取相关的知识包,用于知识推荐,能够提高知识推荐的准确率。
此外,本公开提供的实体词的消歧方法,还可以应用于知识详情的获取。例如,对于查询实体词,该查询实体词可以是用户输入的用于查询知识详情的实体词,使用本公开提供的实体词消歧方法确定与该查询实体词对应的标准实体词之后,可以获取该标准实体词的知识详情。
例如,查询实体词为药物类型的实体词,通过本公开提供的实体词消歧方法确定与该药物类型的实体词对应的标准实体词之后,可以获取与该药物相关的所有知识详情。
图10是根据本公开的一个实施例的实体词消歧装置的框图。
如图10所示,该实体词消歧装置1000包括检索模块1001、第一确定模块1002、第一生成模块1003和第二确定模块1004。
检索模块1001用于使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词。
第一确定模块1002用于基于初始实体词与候选实体词之间的相似度,从多个候选实体词中确定至少一个候选实体词作为对照实体词。
第一生成模块1003用于生成与初始实体词具有近似语义的同义实体词。
第二确定模块1004用于根据对照实体词和同义实体词,确定目标实体词作为初始实体词除歧后的实体词。
根据本公开的实施例,同义实体词属于同义实体词集合。第二确定模块1004包括第一过滤单元和第一融合单元。
第一过滤单元用于使用标准实体词集合对同义实体词集合进行过滤,得到属于标准实体词集合的同义实体词。
第一融合单元用于将属于标准实体词集合的同义实体词与对照实体词进行融合,得到目标实体词。
第一生成模块1003用于使用N个并列的文本生成模型分别生成同义实体词,得到N个同义实体词,组成同义实体词集合,其中,N为大于1的整数。
第一确定模块1002包括组合单元、计算单元和第一确定单元。
组合单元用于将初始实体词与多个候选实体词分别组成实体对,得到多个实体对。
计算单元用于使用文本匹配模型计算实体对的相似度。
第一确定单元用于根据多个实体对各自的相似度,从多个候选实体词中确定至少一个候选实体词作为对照实体词。
根据本公开的实施例,初始实体词包括至少一个属性。检索模块1001包括检索单元和第二确定单元。
检索单元用于针对每个属性,使用属性从标准实体词集合中检索出标准实体词子集合,标准实体词子集合中的标准实体词具有评估值,从标准实体词子集合中确定评估值大于阈值的至少一个标准实体词,作为与该属性对应的候选实体词。
第二确定单元用于根据与至少一个属性各自对应的候选实体词,确定初始实体词的候选实体词。
根据本公开的实施例,属性包括第一优先级的属性、第二优先级的属性和第三优先级的属性,与属性对应的候选实体词包括第一优先级的候选实体词、第二优先级的候选实体词和第三优先级的候选实体词。
第一确定模块1002用于响应于第一优先级的候选实体词不符合预设条件,基于初始实体词与第二优先级的候选实体词之间的相似度,从多个第二优先级的候选实体词中确定至少一个候选实体词作为对照实体词。
第一生成模块1003用于根据第二优先级的属性生成与初始实体词具有近似语义的同义实体词。
第二确定模块1004用于根据对照实体词、同义实体词以及第三优先级的候选实体词,确定目标实体词。
第二确定模块1004包括第二过滤单元、第二融合单元和第三确定单元。
第二过滤单元用于使用标准实体词集合对同义实体词集合进行过滤,得到属于标准实体词集合的同义实体词。
第二融合单元用于将属于标准实体词集合的同义实体词与对照实体词进行融合,得到融合实体词集合。
第三确定单元用于根据第三优先级的候选实体词与融合实体词集合中的实体词之间的相似度,确定目标实体词。
实体词消歧装置1000还包括第三确定模块,用于响应于第一优先级的候选实体词符合预设条件,确定第一优先级的候选实体词为目标实体词。
图11是根据本公开的一个实施例的知识图谱生成装置的框图。
如图11所示,该知识图谱生成装置1100包括第一获取模块1101、第四确定模块1102和添加模块1103。
第一获取模块1101用于获取多个初始实体词、多个初始实体词各自的属性以及多个初始实体词之间的关联关系。
第四确定模块1102用于使用实体词消歧装置确定多个初始实体词各自的目标实体词。
添加模块1103用于以多个目标实体词为知识实体,以多个目标实体词之间的关联关系为实体关系,将知识实体和实体关系添加到知识图谱中。
图12是根据本公开的一个实施例的知识推荐装置的框图。
如图12所示,该知识推荐装置1200包括第二获取模块1201、第五确定模块1202、第六确定模块1203、第二生成模块1204和输出模块1205。
第二获取模块1201用于获取搜索实体词。
第五确定模块1202用于使用实体词消歧装置确定搜索实体词的目标实体词。
第六确定模块1203用于从知识图谱中确定与搜索实体词的目标实体词关联的知识实体和实体关系。
第二生成模块1204用于根据与搜索实体词的目标实体词关联的知识实体和实体关系,生成知识推荐数据。
输出模块1205用于输出知识推荐数据。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一。例如,在一些实施例中,实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行实体词消歧方法、知识图谱生成方法以及知识推荐方法中的至少之一。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (23)
1.一种实体词消歧方法,包括:
使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词;
基于所述初始实体词与所述候选实体词之间的相似度,从多个所述候选实体词中确定至少一个候选实体词作为对照实体词;
生成与所述初始实体词具有近似语义的同义实体词;以及
根据所述对照实体词和所述同义实体词,确定目标实体词作为所述初始实体词除歧后的实体词。
2.根据权利要求1所述的方法,其中,所述同义实体词属于同义实体词集合;所述根据所述对照实体词和所述同义实体词,确定目标实体词作为所述初始实体词除歧后的实体词包括:
使用所述标准实体词集合对所述同义实体词集合进行过滤,得到属于所述标准实体词集合的同义实体词;
将属于所述标准实体词集合的同义实体词与所述对照实体词进行融合,得到所述目标实体词。
3.根据权利要求2所述的方法,其中,所述生成与所述初始实体词具有近似语义的同义实体词包括:
使用N个并列的文本生成模型分别生成同义实体词,得到N个所述同义实体词,组成所述同义实体词集合,其中,N为大于1的整数。
4.根据权利要求1至3中任一项所述的方法,其中,所述基于所述初始实体词与所述候选实体词之间的相似度,从多个所述候选实体词中确定至少一个候选实体词作为对照实体词包括:
将所述初始实体词与多个候选实体词分别组成实体对,得到多个实体对;
使用文本匹配模型计算所述实体对的相似度;以及
根据所述多个实体对各自的相似度,从多个所述候选实体词中确定至少一个候选实体词作为对照实体词。
5.根据权利要求1所述的方法,其中,所述初始实体词包括至少一个属性;所述使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词包括:
针对每个属性,使用所述属性从所述标准实体词集合中检索出标准实体词子集合,所述标准实体词子集合中的标准实体词具有评估值,从所述标准实体词子集合中确定评估值大于阈值的至少一个标准实体词,作为与该属性对应的候选实体词;以及
根据与所述至少一个属性各自对应的候选实体词,确定所述初始实体词的候选实体词。
6.根据权利要求5所述的方法,其中,所述属性包括第一优先级的属性、第二优先级的属性和第三优先级的属性,与所述属性对应的候选实体词包括第一优先级的候选实体词、第二优先级的候选实体词和第三优先级的候选实体词;
所述基于所述初始实体词与所述候选实体词之间的相似度,从多个所述候选实体词中确定至少一个候选实体词作为对照实体词包括:
响应于所述第一优先级的候选实体词不符合预设条件,基于所述初始实体词与所述第二优先级的候选实体词之间的相似度,从多个所述第二优先级的候选实体词中确定至少一个候选实体词作为对照实体词;
所述生成与所述初始实体词具有近似语义的同义实体词包括:
根据所述第二优先级的属性生成与所述初始实体词具有近似语义的同义实体词;
所述根据所述对照实体词和所述同义实体词,确定目标实体词作为所述初始实体词除歧后的实体词包括:
根据所述对照实体词、所述同义实体词以及所述第三优先级的候选实体词,确定所述目标实体词。
7.根据权利要求6所述的方法,其中,所述根据所述对照实体词、所述同义实体词以及所述第三优先级的候选实体词,确定所述目标实体词包括:
使用所述标准实体词集合对所述同义实体词集合进行过滤,得到属于所述标准实体词集合的同义实体词;
将属于所述标准实体词集合的同义实体词与所述对照实体词进行融合,得到融合实体词集合;
根据所述第三优先级的候选实体词与所述融合实体词集合中的实体词之间的相似度,确定所述目标实体词。
8.根据权利要求6所述的方法,还包括:
响应于所述第一优先级的候选实体词符合所述预设条件,确定所述第一优先级的候选实体词为所述目标实体词。
9.一种知识图谱生成方法,包括:
获取多个初始实体词、所述多个初始实体词各自的属性以及所述多个初始实体词之间的关联关系;
使用权利要求1至8中任一项所述的方法确定所述多个初始实体词各自的目标实体词;以及
以所述多个目标实体词为知识实体,以所述多个目标实体词之间的关联关系为实体关系,将所述知识实体和所述实体关系添加到知识图谱中。
10.一种知识推荐方法,包括:
获取搜索实体词;
使用权利要求1至8中任一项所述的方法确定所述搜索实体词的目标实体词;
从知识图谱中确定与所述搜索实体词的目标实体词关联的知识实体和实体关系;
根据与所述搜索实体词的目标实体词关联的知识实体和实体关系,生成知识推荐数据;以及
输出所述知识推荐数据。
11.一种实体词消歧装置,包括:
检索模块,用于使用初始实体词从标准实体词集合中检索出多个标准实体词作为候选实体词;
第一确定模块,用于基于所述初始实体词与所述候选实体词之间的相似度,从多个所述候选实体词中确定至少一个候选实体词作为对照实体词;
第一生成模块,用于生成与所述初始实体词具有近似语义的同义实体词;以及
第二确定模块,用于根据所述对照实体词和所述同义实体词,确定目标实体词作为所述初始实体词除歧后的实体词。
12.根据权利要求11所述的装置,其中,所述同义实体词属于同义实体词集合;所述第二确定模块包括:
第一过滤单元,用于使用所述标准实体词集合对所述同义实体词集合进行过滤,得到属于所述标准实体词集合的同义实体词;
第一融合单元,用于将属于所述标准实体词集合的同义实体词与所述对照实体词进行融合,得到所述目标实体词。
13.根据权利要求12所述的装置,其中,所述第一生成模块,用于使用N个并列的丈本生成模型分别生成同义实体词,得到N个所述同义实体词,组成所述同义实体词集合,其中,N为大于1的整数。
14.根据权利要求11至13中任一项所述的装置,其中,所述第一确定模块包括:
组合单元,用于将所述初始实体词与多个候选实体词分别组成实体对,得到多个实体对;
计算单元,用于使用文本匹配模型计算所述实体对的相似度;以及
第一确定单元,用于根据所述多个实体对各自的相似度,从多个所述候选实体词中确定至少一个候选实体词作为对照实体词。
15.根据权利要求11所述的装置,其中,所述初始实体词包括至少一个属性;所述检索模块包括:
检索单元,用于针对每个属性,使用所述属性从所述标准实体词集合中检索出标准实体词子集合,所述标准实体词子集合中的标准实体词具有评估值,从所述标准实体词子集合中确定评估值大于阈值的至少一个标准实体词,作为与该属性对应的候选实体词;以及
第二确定单元,用于根据与所述至少一个属性各自对应的候选实体词,确定所述初始实体词的候选实体词。
16.根据权利要求15所述的装置,其中,所述属性包括第一优先级的属性、第二优先级的属性和第三优先级的属性,与所述属性对应的候选实体词包括第一优先级的候选实体词、第二优先级的候选实体词和第三优先级的候选实体词;
所述第一确定模块,用于响应于所述第一优先级的候选实体词不符合预设条件,基于所述初始实体词与所述第二优先级的候选实体词之间的相似度,从多个所述第二优先级的候选实体词中确定至少一个候选实体词作为对照实体词;
所述第一生成模块,用于根据所述第二优先级的属性生成与所述初始实体词具有近似语义的同义实体词;
所述第二确定模块,用于根据所述对照实体词、所述同义实体词以及所述第三优先级的候选实体词,确定所述目标实体词。
17.根据权利要求16所述的装置,其中,所述第二确定模块包括:
第二过滤单元,用于使用所述标准实体词集合对所述同义实体词集合进行过滤,得到属于所述标准实体词集合的同义实体词;
第二融合单元,用于将属于所述标准实体词集合的同义实体词与所述对照实体词进行融合,得到融合实体词集合;
第三确定单元,用于根据所述第三优先级的候选实体词与所述融合实体词集合中的实体词之间的相似度,确定所述目标实体词。
18.根据权利要求16所述的装置,还包括:
第三确定模块,用于响应于所述第一优先级的候选实体词符合所述预设条件,确定所述第一优先级的候选实体词为所述目标实体词。
19.一种知识图谱生成装置,包括:
第一获取模块,用于获取多个初始实体词、所述多个初始实体词各自的属性以及所述多个初始实体词之间的关联关系;
第四确定模块,用于使用权利要求11至18中任一项所述的装置确定所述多个初始实体词各自的目标实体词;以及
添加模块,用于以所述多个目标实体词为知识实体,以所述多个目标实体词之间的关联关系为实体关系,将所述知识实体和所述实体关系添加到知识图谱中。
20.一种知识推荐装置,包括:
第二获取模块,用于获取搜索实体词;
第五确定模块,用于使用权利要求11至18中任一项所述的装置确定所述搜索实体词的目标实体词;
第六确定模块,用于从知识图谱中确定与所述搜索实体词的目标实体词关联的知识实体和实体关系;
第二生成模块,用于根据与所述搜索实体词的目标实体词关联的知识实体和实体关系,生成知识推荐数据;以及
输出模块,用于输出所述知识推荐数据。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176721.7A CN116127053B (zh) | 2023-02-14 | 2023-02-14 | 实体词消歧、知识图谱生成和知识推荐方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176721.7A CN116127053B (zh) | 2023-02-14 | 2023-02-14 | 实体词消歧、知识图谱生成和知识推荐方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127053A true CN116127053A (zh) | 2023-05-16 |
CN116127053B CN116127053B (zh) | 2024-01-02 |
Family
ID=86297485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310176721.7A Active CN116127053B (zh) | 2023-02-14 | 2023-02-14 | 实体词消歧、知识图谱生成和知识推荐方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127053B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN113761218A (zh) * | 2021-04-27 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种实体链接的方法、装置、设备及存储介质 |
-
2023
- 2023-02-14 CN CN202310176721.7A patent/CN116127053B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN113761218A (zh) * | 2021-04-27 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种实体链接的方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116127053B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
US10586155B2 (en) | Clarification of submitted questions in a question and answer system | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
US9965548B2 (en) | Analyzing natural language questions to determine missing information in order to improve accuracy of answers | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
CN112562807B (zh) | 医疗数据分析方法、装置、设备、存储介质和程序产品 | |
US12001951B2 (en) | Automated contextual processing of unstructured data | |
US9990268B2 (en) | System and method for detection of duplicate bug reports | |
US11625935B2 (en) | Systems and methods for classification of scholastic works | |
CN113808758B (zh) | 一种检验数据标准化的方法、装置、电子设备和存储介质 | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
US10216792B2 (en) | Automated join detection | |
CN110287270B (zh) | 实体关系挖掘方法及设备 | |
CN116127053B (zh) | 实体词消歧、知识图谱生成和知识推荐方法以及装置 | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN113886535B (zh) | 基于知识图谱的问答方法、装置、存储介质及电子设备 | |
CN114461085A (zh) | 医疗输入推荐方法、装置、设备及存储介质 | |
CN114664421A (zh) | 一种医患匹配方法、装置、电子设备、介质及产品 | |
CN114238663B (zh) | 一种材料数据用知识图谱分析方法、系统、电子设备及介质 | |
US12001467B1 (en) | Feature engineering based on semantic types | |
CN113407813B (zh) | 确定候选信息的方法、确定查询结果的方法、装置、设备 | |
CN113569012B (zh) | 医疗数据查询方法、装置、设备及存储介质 | |
Fatima | Duplicate Bug Report Detection Using Hybrid Model | |
Erdengasileng | Applications of the Latest Deep Learning Based Natural Language Processing (NLP) Methods in Biomedical Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |