CN113488165B - 基于知识图谱的文本匹配方法、装置、设备以及存储介质 - Google Patents
基于知识图谱的文本匹配方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113488165B CN113488165B CN202110845610.1A CN202110845610A CN113488165B CN 113488165 B CN113488165 B CN 113488165B CN 202110845610 A CN202110845610 A CN 202110845610A CN 113488165 B CN113488165 B CN 113488165B
- Authority
- CN
- China
- Prior art keywords
- text
- description text
- user
- entity
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 239000013598 vector Substances 0.000 claims abstract description 142
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 2
- 230000007704 transition Effects 0.000 claims 2
- 208000024891 symptom Diseases 0.000 description 14
- 201000010099 disease Diseases 0.000 description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 239000003814 drug Substances 0.000 description 7
- 206010039101 Rhinorrhoea Diseases 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 208000036071 Rhinorrhea Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 201000009240 nasopharyngitis Diseases 0.000 description 3
- 206010041349 Somnolence Diseases 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 230000035922 thirst Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 208000034656 Contusions Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010028748 Nasal obstruction Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 241000612182 Rexea solandri Species 0.000 description 1
- 208000032140 Sleepiness Diseases 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 208000034526 bruise Diseases 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 235000012171 hot beverage Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000010753 nasal discharge Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000037321 sleepiness Effects 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识图谱的文本匹配方法,包括:将目标知识图谱中的每个三元组转换为对应的表示学习向量;将目标知识图谱中的每个实体对应的实体描述文本转换为对应的实体描述文本向量;基于表示学习向量将用户描述文本转换为用户描述文本向量;从目标知识图谱所有的三元组中筛选出候选三元组集合;计算候选三元组集合中每个候选三元组与用户描述文本的匹配值;从目标知识图谱中确定出与用户描述文本匹配的实体信息。可见,本发明能够利用知识图谱中三元组的结构信息和语义信息,并利用用户描述文本和知识图谱中实体描述文本的显式信息,提高基于知识图谱的文本匹配方法的匹配准确度。本发明还涉及区块链技术领域。
Description
技术领域
本发明涉及知识关系分析技术领域,尤其涉及一种基于知识图谱的文本匹配方法、装置、计算机设备以及存储介质。
背景技术
在人工智能技术中,知识图谱技术常用于实现知识推理,如,知识图谱技术可以应用于中医疾病的知识推理中。具体地,中医知识图谱中可以预先存储有多个实体和各个实体之间的关系,例如,疾病的名称可以是一个实体,疾病的症状也可以是一个实体,然后疾病名称的实体和疾病症状的实体之间还可以存在关系,用于表示该疾病症状是该疾病所对应的症状。如,“感冒”可以是一个疾病名称的实体,“流涕”则可以是一个疾病症状的实体,“感冒”实体和“流涕”实体之间存在的关联关系用于表示“流涕”是“感冒”疾病所对应的一个症状。在进行中医疾病的知识推理时,先获取由用户输入的用于描述自身症状的用户描述文本,然后将用户描述文本与中医知识图谱中的实体进行匹配,从而得到最终的推理结果。如,用户输入的用户描述文本为“我最近感觉全身没劲儿、睡不醒,但是没有其它症状”,该用户描述文本与中医知识图谱中的“伤风”实体匹配,则可以推理出用户患有“伤风”疾病。
然而,在用户描述文本与中医知识图谱中的实体的匹配过程中,大多是通过使用命名实体识别技术识别出用户描述文本中的相关的症状,然后在知识图谱中进行字符串的倒排预测来实现。这种做法只是对知识图谱中数据的显式信息进行简单的使用,忽视了知识图谱中三元组的结构信息以及实体和关系的语义信息,同时还忽视了知识图谱中关系和实体的描述文本信息,这将导致信息的丢失量较大,无法充分利用知识图谱中实体和关系的潜在语义信息。此外,还忽视了上下文的相关信息,没有重视用户描述文本的字符串和知识图谱中实体描述文本的字符串的显式信息,导致未能对用户描述文本进行充分利用,这些都会导致最终的匹配结果的准确度有所下降。可见,目前的基于知识图谱的文本匹配方法的匹配准确度仍有进一步提升的空间。
发明内容
本发明所要解决的技术问题在于,目前的基于知识图谱的文本匹配方法的匹配准确度较低。
为了解决上述技术问题,本发明第一方面公开了一种基于知识图谱的文本匹配方法,所述方法包括:
获取由用户输入的用户描述文本;
获取预设的目标知识图谱中的每个实体对应的实体描述文本;
基于预设的知识图谱表示学习方法将所述目标知识图谱中的每个三元组转换为对应的表示学习向量;
基于预设的文本向量转换模型将每个所述实体描述文本转换为对应的实体描述文本向量;
基于所述表示学习向量将所述用户描述文本转换为用户描述文本向量;
基于所述用户描述文本和每个所述实体描述文本之间的相关值,从所述目标知识图谱所有的三元组中筛选出候选三元组集合,其中,所述用户描述文本和每个所述实体描述文本之间的相关值是基于文本匹配的方法计算得到的;
根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值;
根据所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,从所述目标知识图谱中确定出与所述用户描述文本匹配的实体信息。
本发明第二方面公开了一种基于知识图谱的文本匹配装置,所述装置包括:
获取模块,用于获取由用户输入的用户描述文本;
所述获取模块,还用于获取预设的目标知识图谱中的每个实体对应的实体描述文本;
转换模块,用于基于预设的知识图谱表示学习方法将所述目标知识图谱中的每个三元组转换为对应的表示学习向量;
所述转换模块,还用于基于预设的文本向量转换模型将每个所述实体描述文本转换为对应的实体描述文本向量;
所述转换模块,还用于基于所述表示学习向量将所述用户描述文本转换为用户描述文本向量;
筛选模块,用于基于所述用户描述文本和每个所述实体描述文本之间的相关值,从所述目标知识图谱所有的三元组中筛选出候选三元组集合,其中,所述用户描述文本和每个所述实体描述文本之间的相关值是基于文本匹配的方法计算得到的;
计算模块,用于根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值;
确定模块,用于根据所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,从所述目标知识图谱中确定出与所述用户描述文本匹配的实体信息。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于知识图谱的文本匹配方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于知识图谱的文本匹配方法中的部分或全部步骤。
本发明实施例中,获取用户描述文本和实体描述文本,基于知识图谱表示学习方法将目标知识图谱中的每个三元组转换为对应的表示学习向量,然后基于表示学习向量将用户描述文本转换为用户描述文本向量,使用文本向量转换模型将实体描述文本转换为对应的实体描述文本向量,基于用户描述文本和实体描述文本之间的相关值从目标知识图谱所有的三元组中筛选出候选三元组集合,根据用户描述文本向量、候选三元组集合中每个候选三元组对应的实体描述文本向量和候选三元组集合中每个候选三元组对应的表示学习向量,计算候选三元组集合中每个候选三元组与用户描述文本的匹配值,最后根据候选三元组集合中每个候选三元组与用户描述文本的匹配值,从目标知识图谱中确定出与用户描述文本匹配的实体信息,从而能够将知识图谱表示学习方法应用在知识图谱的文本匹配的过程中,充分利用知识图谱中三元组的结构信息和语义信息,提高基于知识图谱的文本匹配方法的匹配准确度,还在基于表示学习向量进行知识图谱的匹配之前,先基于文本匹配的方法从目标知识图谱所有的三元组中筛选出候选三元组集合,再基于表示学习向量从候选三元组集合中确定出与用户描述文本匹配的实体信息,从而能够充分利用用户描述文本和知识图谱中实体描述文本的显式信息,进一步提高文本匹配方法的匹配准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于知识图谱的文本匹配方法的流程示意图;
图2是本发明实施例公开的一种基于知识图谱的文本匹配装置的结构示意图;
图3是本发明实施例公开的一种计算机设备的结构示意图;
图4是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于知识图谱的文本匹配方法、装置、计算机设备以及存储介质,获取用户描述文本和实体描述文本,基于知识图谱表示学习方法将目标知识图谱中的每个三元组转换为对应的表示学习向量,然后基于表示学习向量将用户描述文本转换为用户描述文本向量,使用文本向量转换模型将实体描述文本转换为对应的实体描述文本向量,基于用户描述文本和实体描述文本之间的相关值从目标知识图谱所有的三元组中筛选出候选三元组集合,根据用户描述文本向量、候选三元组集合中每个候选三元组对应的实体描述文本向量和候选三元组集合中每个候选三元组对应的表示学习向量,计算候选三元组集合中每个候选三元组与用户描述文本的匹配值,最后根据候选三元组集合中每个候选三元组与用户描述文本的匹配值,从目标知识图谱中确定出与用户描述文本匹配的实体信息,从而能够将知识图谱表示学习方法应用在知识图谱的文本匹配的过程中,充分利用知识图谱中三元组的结构信息和语义信息,提高基于知识图谱的文本匹配方法的匹配准确度,还在基于表示学习向量进行知识图谱的匹配之前,先基于文本匹配的方法从目标知识图谱所有的三元组中筛选出候选三元组集合,再基于表示学习向量从候选三元组集合中确定出与用户描述文本匹配的实体信息,从而能够充分利用用户描述文本和知识图谱中实体描述文本的显式信息,进一步提高文本匹配方法的匹配准确度。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于知识图谱的文本匹配方法的流程示意图。如图1所示,该基于知识图谱的文本匹配方法可以包括以下操作:
101、获取由用户输入的用户描述文本。
在上述步骤101中,用户描述文本可以是由用户输入的用于描述用户自身症状的文本,用户输入的用户描述文本可以为“我最近感觉全身没劲儿、睡不醒,但是没有其它症状”。
102、获取预设的目标知识图谱中的每个实体对应的实体描述文本。
在上述步骤102中,预设的目标知识图谱可以是一个中医知识图谱,其中可以预先存储有多个中医知识相关的实体和各个实体之间的关系。在目标知识图谱中,每个实体均存在对应的实体描述文本,用于对该实体进行描述说明。如,“风寒感冒”实体所对应的实体描述文本可以为“风寒感冒是风寒之邪外袭、肺气失宣所致,其起因通常因劳累,再加上吹风或受凉。风寒感冒通常秋冬发生比较多,症状可见:恶寒重、发热轻、无汗、头痛身痛、鼻塞流清涕、咳嗽吐稀白痰、口不渴或渴喜热饮、苔薄白”。
103、基于预设的知识图谱表示学习方法将所述目标知识图谱中的每个三元组转换为对应的表示学习向量。
在上述步骤103中,知识图谱的三元组可以表示为如下形式:(head,relation,tail),其中,关系relation可以看作是从实体head到实体tail的翻译。如,一条知识“感冒的症状是流涕”,则可以使用一个三元组来表达,其中,可以理解为:实体head则是实体“感冒”,关系relation则是“症状是”,实体tail则是实体“流涕”。通过知识图谱表示学习方法即可以将目标知识图谱中的三元组转换为对应的表示学习向量,将目标知识图谱中的三元组转换为表示学习向量之后,即可以实现提取目标知识图谱中的三元组的结构信息和语义信息,并利用三元组的结构信息和语义信息进行文本的匹配,提高文本匹配的准确度。
104、基于预设的文本向量转换模型将每个所述实体描述文本转换为对应的实体描述文本向量。
在上述步骤104中,文本向量转换模型可以是bert等预训练处理模型。通过bert模型对目标知识图谱中的每个实体对应的实体描述文本进行编码,即可以得到实体描述文本对应的实体描述文本向量。
105、基于所述表示学习向量将所述用户描述文本转换为用户描述文本向量。
在上述步骤105中,通过使用表示学习向量将用户描述文本转换为用户描述文本向量,从而能够使用户描述文本向量中包含有知识图谱中三元组的结构信息和语义信息,使得后续的文本匹配过程能够利用知识图谱中三元组的结构信息和语义信息进行匹配,提高文本匹配的准确度。
106、基于所述用户描述文本和每个所述实体描述文本之间的相关值,从所述目标知识图谱所有的三元组中筛选出候选三元组集合,其中,所述用户描述文本和每个所述实体描述文本之间的相关值是基于文本匹配的方法计算得到的。
在上述步骤106中,先基于普通的文本匹配的方法从目标知识图谱所有的三元组中筛选出候选三元组集合,后续再基于表示学习向量从候选三元组集合中确定出与用户描述文本匹配的实体信息,从而能够利用文本匹配的形式先对目标知识图谱中的三元组进行初步筛选,使得后续的文本匹配更加准确。其中,可以先计算出用户描述文本和目标知识图谱中的每个实体的实体描述文本之间的相关值(具体的相关值计算过程稍后进行描述),然后可以取相关值排行靠前(如,相关值最大的前100名)的三元组作为候选三元组集合。
107、根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值。
在上述步骤107中,由于用户描述文本向量和候选三元组对应的表示学习向量均包含有知识图谱中三元组的结构信息和语义信息,所以通过使用用户描述文本向量、候选三元组对应的实体描述文本向量和表示学习向量来计算每个候选三元组与用户描述文本的匹配值,从而能够实现根据知识图谱中三元组的结构信息和语义信息进行文本匹配。
108、根据所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,从所述目标知识图谱中确定出与所述用户描述文本匹配的实体信息。
在上述步骤108中,可以取匹配值最大的候选三元组中的实体信息作为与用户描述文本匹配的实体信息,也可以取匹配值前十名的候选三元组中的实体信息作为与用户描述文本匹配的实体信息。如,匹配值最大的候选三元组中的实体信息为“感冒”,则可以确定出与用户描述文本匹配的实体信息为“感冒”,也即推理出与用户描述文本相符的疾病为感冒。
可见,实施图1所描述的基于知识图谱的文本匹配方法,获取用户描述文本和实体描述文本,基于知识图谱表示学习方法将目标知识图谱中的每个三元组转换为对应的表示学习向量,然后基于表示学习向量将用户描述文本转换为用户描述文本向量,使用文本向量转换模型将实体描述文本转换为对应的实体描述文本向量,基于用户描述文本和实体描述文本之间的相关值从目标知识图谱所有的三元组中筛选出候选三元组集合,根据用户描述文本向量、候选三元组集合中每个候选三元组对应的实体描述文本向量和候选三元组集合中每个候选三元组对应的表示学习向量,计算候选三元组集合中每个候选三元组与用户描述文本的匹配值,最后根据候选三元组集合中每个候选三元组与用户描述文本的匹配值,从目标知识图谱中确定出与用户描述文本匹配的实体信息,从而能够将知识图谱表示学习方法应用在知识图谱的文本匹配的过程中,充分利用知识图谱中三元组的结构信息和语义信息,提高基于知识图谱的文本匹配方法的匹配准确度,还在基于表示学习向量进行知识图谱的匹配之前,先基于文本匹配的方法从目标知识图谱所有的三元组中筛选出候选三元组集合,再基于表示学习向量从候选三元组集合中确定出与用户描述文本匹配的实体信息,从而能够充分利用用户描述文本和知识图谱中实体描述文本的显式信息,进一步提高文本匹配方法的匹配准确度。
在一个可选的实施例中,所述知识图谱表示学习方法为TransE算法,且所述TransE算法的损失函数为:
L=∑∑[γ+d(h+r,t)-d(h′+r,t′)]+
其中,γ为超参数,d(h+r,t)为正样本的评分函数结果,d(h′+r,t′)为负样本的评分函数结果。
现存的知识图谱表示学习方法有很多,比如TransE、Complex、HAKE等算法,其中,TransE算法的算法结构简单且性能优秀,为了提高计算效率,所以可以使用TransE算法来进行目标知识图谱的知识图谱表示学习。TransE算法基于实体和关系的分布式向量表示,将每个三元组实例(head,relation,tail)中的关系relation看作从实体head到实体tail的翻译,通过不断调整head、relation和tail的向量,使(h+r)尽可能与t相等,TransE的评分函数为:
f=h+r-t
TransE算法的优化器为SGD,通过不断的迭代、更新参数,最终输出三元组对应的表示学习向量。
可见,实施该可选的实施例,通过使用TransE算法实现知识图谱的表示学习,并将TransE算法的损失函数设置为预设的函数,从而实现从目标知识图谱中提取出三元组的结构信息和语义信息。
在一个可选的实施例中,所述基于所述表示学习向量将所述用户描述文本转换为用户描述文本向量,包括:
基于bert模型将所述用户描述文本转换为表示向量;
将所述表示向量和所述表示学习向量输入至预设的目标神经网络模型进行分析,得到所述用户描述文本对应的用户描述文本向量。
在一个可选的实施例中,所述目标神经网络模型由一个双向的LSTM或GRU、基于注意力机制的全连接层构成。
在一个可选的实施例中,所述目标神经网络模型最终输出层的损失函数为:
loss=min[margin+|U-Y|-|U-N|,0]
其中,margin为超参数,U是所述用户描述文本向量,Y是所述目标知识图谱中与所述用户描述文本正确匹配的实体信息,N是负采样时所述用户描述文本在所述目标知识图谱中对应的实体信息。
在将用户描述文本转换为用户描述文本向量时,可以先将用户描述文本输入至bert模型,然后bert模型以词语为单位对用户描述文本进行划分,得到多个表示向量。如,用户描述文本中共有n个词语,则划分得到的表示向量的数量也为n个。这里,可以使用一个双向的LSTM(Long Short-Term Memory,长短期记忆网络)或GRU(Gated Recurrent Unit,门控循环单元)、和基于注意力机制的全连接层构成目标神经网络模型,将表示向量和表示学习向量输入目标神经网络模型之后将会输出一个1*k维的向量(也即用户描述文本对应的用户描述文本向量)。使用表示学习向量作为目标神经网络模型的监督信号,即可以实现利用知识图谱中三元组的结构信息和语义信息将用户描述文本转换为用户描述文本向量。
可见,实施该可选的实施例,首先基于bert模型将用户描述文本转换为表示向量,然后将表示向量和表示学习向量输入至预设的目标神经网络模型进行分析,从而能够实现利用知识图谱中三元组的结构信息和语义信息将用户描述文本转换为用户描述文本向量。
在一个可选的实施例中,所述用户描述文本和每个所述实体描述文本之间的相关值是通过以下公式计算得到的:
其中,Q为所述用户描述文本,d为每个所述实体描述文本,N为所述目标知识图谱中全部的实体描述文本的数量,qi是所述用户描述文本中的每一个词,n(qi)为所述目标知识图谱中包含qi的实体描述文本的数量,k1、k2、b为预设的调节因子,fi为qi在d中的出现频率,qfi为qi在Q中的出现频率,dl为d的长度,avgdl为d的平均长度,score(Q,d)为所述用户描述文本和该实体描述文本之间的相关值。
在该可选的实施例中,k1、k2、b可以是根据经验设置的,一般k1的取值为2,b的取值为0.75。可见,上述公式是通过用户描述文本和目标知识图谱中的每个实体的实体描述文本的词语之间的关系计算出用户描述文本和目标知识图谱中的每个实体的实体描述文本之间的相关值的(也即通过文本匹配的方法计算出相关值),从而能够实现基于文本匹配的方法从目标知识图谱所有的三元组中筛选出候选三元组集合,提高后续的文本匹配的准确度和效率。
可见,实施该可选的实施例,通过用户描述文本和目标知识图谱中的每个实体的实体描述文本的词语之间的关系计算出用户描述文本和目标知识图谱中的每个实体的实体描述文本之间的相关值,从而能够实现基于文本匹配的方法从目标知识图谱所有的三元组中筛选出候选三元组集合,提高后续的文本匹配的准确度和效率。
在一个可选的实施例中,所述根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,包括:
通过以下公式计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值:
MIN(h,r,t)=α|Vu-Vc|2+β|Vu-V0|2
其中,α、β为超参数,MIN(h,r,t)为单个候选三元组与所述用户描述文本的匹配值,Vu为所述用户描述文本向量,Vc为单个候选三元组对应的实体描述文本向量,V0为单个候选三元组对应的表示学习向量。
可见,实施该可选的实施例,通过根据候选三元组对应的实体描述文本向量、表示学习向量和用户描述文本向量之间的距离,计算出候选三元组集合中每个候选三元组与用户描述文本的匹配值,从而能够实现根据知识图谱中三元组的结构信息和语义信息进行文本匹配,然后根据候选三元组集合中每个候选三元组与用户描述文本的匹配程度,确定出与用户描述文本匹配的实体信息。
可选地,还可以:将所述基于知识图谱的文本匹配方法的基于知识图谱的文本匹配信息上传至区块链中。
具体来说,基于知识图谱的文本匹配信息是通过运行所述基于知识图谱的文本匹配方法后得到的,用于记录基于知识图谱的文本匹配情况,例如,获取到的用户描述文本和实体描述文本、转换得到的表示学习向量、转换得到的实体描述文本向量、转换得到的用户描述文本向量等等。将基于知识图谱的文本匹配信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该基于知识图谱的文本匹配信息,以便查证所述基于知识图谱的文本匹配方法的基于知识图谱的文本匹配信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于知识图谱的文本匹配装置的结构示意图。如图2所示,该基于知识图谱的文本匹配装置可以包括:
获取模块201,用于获取由用户输入的用户描述文本;
所述获取模块201,还用于获取预设的目标知识图谱中的每个实体对应的实体描述文本;
转换模块202,用于基于预设的知识图谱表示学习方法将所述目标知识图谱中的每个三元组转换为对应的表示学习向量;
所述转换模块202,还用于基于预设的文本向量转换模型将每个所述实体描述文本转换为对应的实体描述文本向量;
所述转换模块202,还用于基于所述表示学习向量将所述用户描述文本转换为用户描述文本向量;
筛选模块203,用于基于所述用户描述文本和每个所述实体描述文本之间的相关值,从所述目标知识图谱所有的三元组中筛选出候选三元组集合,其中,所述用户描述文本和每个所述实体描述文本之间的相关值是基于文本匹配的方法计算得到的;
计算模块204,用于根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值;
确定模块205,用于根据所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,从所述目标知识图谱中确定出与所述用户描述文本匹配的实体信息。
对于上述基于知识图谱的文本匹配装置的具体描述可以参照上述基于知识图谱的文本匹配方法的具体描述,为避免重复,在此不再一一赘述。
实施例三
请参阅图3,图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示,该计算机设备可以包括:
存储有可执行程序代码的存储器301;
与存储器301连接的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于知识图谱的文本匹配方法中的步骤。
实施例四
请参阅图4,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于知识图谱的文本匹配方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于知识图谱的文本匹配方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (7)
1.一种基于知识图谱的文本匹配方法,其特征在于,所述方法包括:
获取由用户输入的用户描述文本;
获取预设的目标知识图谱中的每个实体对应的实体描述文本;
基于预设的知识图谱表示学习方法将所述目标知识图谱中的每个三元组转换为对应的表示学习向量;
基于预设的文本向量转换模型将每个所述实体描述文本转换为对应的实体描述文本向量;
基于所述表示学习向量将所述用户描述文本转换为用户描述文本向量包括:
基于bert模型将所述用户描述文本转换为表示向量;
将所述表示向量和所述表示学习向量输入至预设的目标神经网络模型进行分析,得到所述用户描述文本对应的用户描述文本向量;
所述目标神经网络模型最终输出层的损失函数为:
;
其中,margin为超参数,U是所述用户描述文本向量,Y是所述目标知识图谱中与所述用户描述文本正确匹配的实体信息,N是负采样时所述用户描述文本在所述目标知识图谱中对应的实体信息;
基于所述用户描述文本和每个所述实体描述文本之间的相关值,从所述目标知识图谱所有的三元组中筛选出候选三元组集合,其中,所述用户描述文本和每个所述实体描述文本之间的相关值是基于文本匹配的方法计算得到的;
所述用户描述文本和每个所述实体描述文本之间的相关值是通过以下公式计算得到的:
;
;
;
;
其中,Q为所述用户描述文本,d为每个所述实体描述文本,N为所述目标知识图谱中全部的实体描述文本的数量,是所述用户描述文本中的每一个词,/>为所述目标知识图谱中包含/>的实体描述文本的数量,/>、/>、b为预设的调节因子, />为/>在d中的出现频率,/>为/>在Q中的出现频率,/>为d的长度,/>为d的平均长度,/>为所述用户描述文本和该实体描述文本之间的相关值;
根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值;
根据所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,从所述目标知识图谱中确定出与所述用户描述文本匹配的实体信息。
2.根据权利要求1所述的基于知识图谱的文本匹配方法,其特征在于,所述知识图谱表示学习方法为TransE算法,且所述TransE算法的损失函数为:
;
其中,γ为超参数,为正样本的评分函数结果,/>为负样本的评分函数结果,h、r、t分别表示正样本的知识图谱三元组head、relation、tail向量,分别表示负样本的知识图谱三元组中head和tail向量。
3.根据权利要求1所述的基于知识图谱的文本匹配方法,其特征在于,所述目标神经网络模型由一个双向的LSTM或GRU、基于注意力机制的全连接层构成。
4.根据权利要求1-3任一项所述的基于知识图谱的文本匹配方法,其特征在于,所述根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,包括:
通过以下公式计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值:
;
其中,、/>为超参数,h、r、t分别表示候选三元组知识图谱head、relation、tail向量,为单个候选三元组与所述用户描述文本的匹配值,/>为所述用户描述文本向量,为单个候选三元组对应的实体描述文本向量,/>为单个候选三元组对应的表示学习向量。
5.一种基于知识图谱的文本匹配装置,其特征在于,所述装置包括:
获取模块,用于获取由用户输入的用户描述文本;
所述获取模块,还用于获取预设的目标知识图谱中的每个实体对应的实体描述文本;
转换模块,用于基于预设的知识图谱表示学习方法将所述目标知识图谱中的每个三元组转换为对应的表示学习向量;
所述转换模块,还用于基于预设的文本向量转换模型将每个所述实体描述文本转换为对应的实体描述文本向量;
所述转换模块,还用于基于所述表示学习向量将所述用户描述文本转换为用户描述文本向量包括:
基于bert模型将所述用户描述文本转换为表示向量;
将所述表示向量和所述表示学习向量输入至预设的目标神经网络模型进行分析,得到所述用户描述文本对应的用户描述文本向量;
所述目标神经网络模型最终输出层的损失函数为:
;
其中,margin为超参数,U是所述用户描述文本向量,Y是所述目标知识图谱中与所述用户描述文本正确匹配的实体信息,N是负采样时所述用户描述文本在所述目标知识图谱中对应的实体信息;
筛选模块,用于基于所述用户描述文本和每个所述实体描述文本之间的相关值,从所述目标知识图谱所有的三元组中筛选出候选三元组集合,其中,所述用户描述文本和每个所述实体描述文本之间的相关值是基于文本匹配的方法计算得到的,所述用户描述文本和每个所述实体描述文本之间的相关值是通过以下公式计算得到的:
;
;
;
;
其中,Q为所述用户描述文本,d为每个所述实体描述文本,N为所述目标知识图谱中全部的实体描述文本的数量,是所述用户描述文本中的每一个词,/>为所述目标知识图谱中包含/>的实体描述文本的数量,/>、/>、b为预设的调节因子, />为/>在d中的出现频率,/>为/>在Q中的出现频率,/>为d的长度,/>为d的平均长度,/>为所述用户描述文本和该实体描述文本之间的相关值;
计算模块,用于根据所述用户描述文本向量、所述候选三元组集合中每个候选三元组对应的实体描述文本向量和所述候选三元组集合中每个候选三元组对应的表示学习向量,计算所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值;
确定模块,用于根据所述候选三元组集合中每个候选三元组与所述用户描述文本的匹配值,从所述目标知识图谱中确定出与所述用户描述文本匹配的实体信息。
6.一种计算机设备,其特征在于,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-4任一项所述的基于知识图谱的文本匹配方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的基于知识图谱的文本匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110845610.1A CN113488165B (zh) | 2021-07-26 | 2021-07-26 | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110845610.1A CN113488165B (zh) | 2021-07-26 | 2021-07-26 | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488165A CN113488165A (zh) | 2021-10-08 |
CN113488165B true CN113488165B (zh) | 2023-08-22 |
Family
ID=77944024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110845610.1A Active CN113488165B (zh) | 2021-07-26 | 2021-07-26 | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488165B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115220608B (zh) * | 2022-09-20 | 2022-12-20 | 深圳市人马互动科技有限公司 | 互动小说中多媒体数据的处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN110489755A (zh) * | 2019-08-21 | 2019-11-22 | 广州视源电子科技股份有限公司 | 文本生成方法和装置 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
-
2021
- 2021-07-26 CN CN202110845610.1A patent/CN113488165B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN110489755A (zh) * | 2019-08-21 | 2019-11-22 | 广州视源电子科技股份有限公司 | 文本生成方法和装置 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113488165A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Phan et al. | Sleeptransformer: Automatic sleep staging with interpretability and uncertainty quantification | |
CN110176315B (zh) | 医疗问答方法及系统、电子设备、计算机可读介质 | |
WO2021139424A1 (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
Wang et al. | A self-boosting framework for automated radiographic report generation | |
CN111709233A (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN106295187A (zh) | 面向智能临床辅助决策支持系统的知识库构建方法与系统 | |
CN116682553B (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
CN113688248B (zh) | 一种小样本弱标注条件下的医疗事件识别方法及系统 | |
CN112100406B (zh) | 数据处理方法、装置、设备以及介质 | |
CN110991190B (zh) | 一种文档主题增强系统、文本情绪预测系统和方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN112420191A (zh) | 一种中医辅助决策系统及方法 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN113488165B (zh) | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 | |
CN111627561B (zh) | 标准症状抽取方法、装置、电子设备和存储介质 | |
CN113855042A (zh) | 融合深度和医学特征的基于序列标注的多导联心电信号分类方法 | |
CN115936014B (zh) | 一种医学实体对码方法、系统、计算机设备、存储介质 | |
CN116630062A (zh) | 一种医保欺诈行为检测方法、系统、存储介质 | |
CN116469534A (zh) | 医院叫号管理系统及其方法 | |
CN115565655A (zh) | 一种增强的辅助问诊方法 | |
CN115458135A (zh) | 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统 | |
CN114582449A (zh) | 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统 | |
CN113971405A (zh) | 基于albert模型融合的医疗命名实体识别系统及其方法 | |
CN113658688A (zh) | 基于无分词深度学习的临床决策支持方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |