CN116955638A - 知识图谱构建方法、装置、计算机可读介质及电子设备 - Google Patents
知识图谱构建方法、装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN116955638A CN116955638A CN202310150299.8A CN202310150299A CN116955638A CN 116955638 A CN116955638 A CN 116955638A CN 202310150299 A CN202310150299 A CN 202310150299A CN 116955638 A CN116955638 A CN 116955638A
- Authority
- CN
- China
- Prior art keywords
- text
- round
- training data
- training
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 351
- 238000002372 labelling Methods 0.000 claims abstract description 298
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000013508 migration Methods 0.000 claims abstract description 23
- 230000005012 migration Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 23
- 238000003860 storage Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 14
- 230000001580 bacterial effect Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 208000024891 symptom Diseases 0.000 description 6
- 230000003612 virological effect Effects 0.000 description 6
- 206010012601 diabetes mellitus Diseases 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 208000020832 chronic kidney disease Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 206010027175 memory impairment Diseases 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 208000022831 chronic renal failure syndrome Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000035143 Bacterial infection Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 208000022362 bacterial infectious disease Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请属于命名实体识别领域,涉及知识图谱构建方法、装置、计算机可读介质及电子设备,包括:获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对待增添文本进行类别标签迁移处理,获取第一标注信息,根据待增添文本和第一标注信息构建第N+1轮训练数据;根据第N轮训练数据和第N+1轮训练数据对命名实体识别模型进行第N+1轮训练;将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,获取全量标注信息,将全量实体标注信息与历史标注信息进行比对,获取增量标注信息;根据增量标注信息对历史标注信息对应的知识图谱进行更新,获取目标知识图谱。本申请能够提高知识图谱中实体及实体类别的覆盖度。
Description
技术领域
本申请属于命名实体识别技术领域,具体涉及一种知识图谱构建方法、知识图谱构建装置、计算机可读介质以及电子设备。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
以医疗人工智能领域为例,知识图谱长期以来被看作是其基础,因为医学知识图谱作为医学知识的结构化表达,可以将抽象复杂的医学知识通过结构的三元组形式加以表达。但是在构建知识图谱的过程中,难免会遇到知识更新以及知识动态演化的问题,目前主要通过人工标注更多实体及类别,通过标注的实体及类别数据重新训练命名实体识别模型,以使命名实体识别模型可以识别出更多潜在实体和类别,但是命名实体识别模型存在灾难性遗忘问题,当学习到对应同一实体的新的实体类型或者实体名称后,就不能再输出以前学习到的实体类型或者实体名称了,进而也会影响最终生成的知识图谱的实体覆盖度和实体类别的覆盖度。
发明内容
本申请的目的在于提供一种知识图谱构建方法、知识图谱构建装置、计算机可读介质以及电子设备,能够克服相关技术中存在的命名实体识别模型存在的实体类型判定遗忘以及实体名称识别遗忘的问题,进一步提升知识图谱的实体覆盖度和实体类别覆盖度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种知识图谱构建方法,该方法包括:获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对所述待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,其中N为正整数;根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练;将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将所述全量实体标注信息与历史标注信息进行比对,以获取增量标注信息;所述历史标注信息为所述第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的;根据所述增量标注信息对与所述历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。
根据本申请实施例的一个方面,提供一种知识图谱构建装置,该装置包括:训练数据获取模块,用于获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对所述待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,其中N为正整数;迭代训练模块,用于根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练;比对模块,用于将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将所述全量实体标注信息与历史标注信息进行比对,以获取增量标注信息;所述历史标注信息为所述第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的;图谱更新模块,用于根据所述增量标注信息对与所述历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的知识图谱构建方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的知识图谱构建方法。
根据本申请实施例的一个方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行如以上技术方案中的知识图谱构建方法。
本申请实施例提供的知识图谱构建方法,获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对该待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据待增添文本和第一标注信息构建第N+1轮训练数据,其中N为正整数;接着根据第N轮训练数据和第N+1轮训练数据对命名实体识别模型进行第N+1轮训练,以获取稳定的命名实体识别模型;然后将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将该全量标注信息与通过第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的历史标注信息进行比对,以获取增量标注信息;最后根据该增量标注信息对与历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。本申请能够在第N+1次训练命名实体识别模型时,同时利用第N轮训练数据和第N+1轮训练数据,并且第N+1轮训练数据中包含通过第N轮训练得到的命名实体识别模型对第N+1轮训练数据中的文本进行类别标签迁移处理所获取的标注信息,这样一方面能够弥合第N轮和第N+1轮标注情况的差异,使得训练后的命名实体识别模型既能从第N+1轮的训练数据中学到新的知识,还能继续保留之前学习到的知识,避免了实体类型判定遗忘和实体名称识别遗忘,另一方面能够提升知识图谱的实体覆盖度以及实体类别的覆盖度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请实施例中的知识图谱构建方法的系统架构的结构示意图。
图2示意性地示出了本申请实施例中知识图谱构建方法的步骤流程示意图。
图3示意性地示出了本申请实施例中对命名实体识别模型进行第N+1轮训练的流程示意图。
图4示意性地示出了本申请实施例中的命名实体识别模型的结构示意图。
图5示意性地示出了本申请实施例中的命名实体识别模型的训练流程示意图。
图6示意性示出了本申请实施例中的构建知识图谱的完整流程示意图。
图7示意性示出了本申请实施例中的命名实体识别模型迭代训练的界面示意图。
图8示意性地示出了本申请实施例中医学知识图谱查询的界面示意图。
图9示意性地示出了本申请实施例中知识图谱构建装置的结构框图。
图10示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请的相关技术中,对文本进行序列标注的方式通常有两种,一种是人工标注,一种是机器标注,考虑到人工标注成本较高,因此通常采用机器标注。机器标注即为通过机器学习模型对文本中的实体进行标注,以获取文本中的实体、实体类别等标注信息,其中所采用的机器学习模型具体为命名实体识别模型。进一步地,在获取标注信息后,可以根据该标注信息对已有的知识图谱进行更新。
当存在大量非结构化文本时,需要从非结构化文本中挖掘出更多的实体信息,对已有的知识图谱进行更新完善,其中所挖掘的实体信息可能存在两种情况,一是实体名称是已有的知识图谱所不包含的,例如“2型糖尿病@@疾病”,而已有的知识图谱只有“糖尿病@@疾病”;二是已有的知识图谱包含实体名称,但是实体名称对应的实体类别不同,例如“2型糖尿病@@慢性疾病”,而已有的知识图谱只有“2型糖尿病@@疾病”。
在相关技术中,实体挖掘主要是基于人工标注的实体及实体类别重新训练命名实体识别模型,以通过训练后的命名实体识别模型识别更多的实体及实体类别。但是这种实体挖掘方案存在两个关键问题:
1.命名实体识别模型可能会存在灾难性遗忘的问题。灾难性遗忘是机器学习中一类常见的问题,它表示模型在学习了新的知识后,几乎彻底遗忘掉之前习得的内容。在现有技术方案中体现为实体类型判定遗忘:模型在学习到「2型糖尿病@@慢性疾病」后,就无法输出「2型糖尿病@@疾病」了;以及实体名称识别遗忘:模型在学习到更长的「肾功能不全慢性肾衰病」就无法输出「慢性肾衰病」和「肾功能不全」这两个更短的实体名称了。
2.命名实体识别模型的重新训练需要大量的标注数据,极大增加了模型实际应用的成本。在命名实体识别模型的训练中,往往每个实体类别都需要大量的训练数据,这在实际应用中会造成极高的标注成本。例如,在模型需要增加对「慢性疾病」这一实体类型的识别时,该实体类型所对应的训练数据最少要达到目前训练集中各实体类型的平均训练数据量才可能实现模型对新加入实体类型的识别。
针对本领域的相关技术,本申请实施例提出了一种知识图谱构建方法,本申请中的知识图谱构建方法可以避免命名实体识别模型的遗忘问题和少样本训练问题,进而能够提升知识图谱的实体覆盖度和实体类别的覆盖度。
在对本申请中的知识图谱构建方法进行详细说明之前,首先对本申请中可能涉及的技术名词进行说明。
1.知识图谱:Knowledge Graph,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
2.命名实体识别:Named Entity Recognition,NER,指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在医疗领域则为识别文本中的疾病、症状、药品、手术等概念。一个命名实体一般代表唯一一个具体的事物个体。
3.少样本学习:Few-shot Learning,FSL,是一种训练数据集包含有限样本数量的机器学习问题。
接下来,对应用本申请技术方案的示例性系统架构进行说明。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备101、服务器102和网络103。其中,终端设备101可以是诸如智能手机、平板电脑、笔记本电脑、智能电视、智能车载终端等各种同时具有显示屏幕的电子设备。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络103可以是能够在终端设备101和服务器102之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备101中。
在本申请的一个实施例中,用户通过终端设备101可以获取非结构化文本,接着可以采用命名实体识别模型对该非结构化文本进行实体识别,从中提取新的知识,以根据新的知识对已有的知识图谱进行更新完善。但是当所提取的新的知识与预期存在偏差时,则说明当前的命名实体识别模型需要进行再训练,以实现对新实体及新实体类别的识别。在对命名实体识别模型进行再训练时,可以通过终端设备101获取待增添文本和第N轮训练数据,并通过网络103将待增添文本和第N轮训练数据发送至服务器102,服务器102在接收到待增添文本和第N轮训练数据后,可以调用第N轮训练得到的命名实体识别模型,通过第N轮训练得到的命名实体识别模型对待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据待增添文本和第一标注信息构建第N+1轮训练数据,其中N为正整数;然后根据第N轮训练数据和第N+1轮训练数据对第N轮训练得到的命名实体识别模型进行第N+1轮训练。进一步地,基于第N+1轮训练得到的命名实体识别模型可以识别新的实体及实体类别,并对已有知识图谱进行更新,具体地,可以将前N+1轮所有训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息;接着将全量实体信息与第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行实体识别得到的历史标注信息进行比对,以获取增量标注信息;最后根据该增量标注信息对已有的知识图谱进行更新,即可获取目标知识图谱,该目标知识图谱即为包含了新的实体以及实体类别的知识图谱。
在本申请的一个实施例中,命名实体识别模型是一种机器学习模型,该机器学习模型涉及人工智能。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
在本申请的一个实施例中,本申请中的服务器102可以是提供云计算服务的云服务器,也就是说,本申请涉及云存储和云计算技术。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储结点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
下面结合具体实施方式对本申请提供的知识图谱构建方法、知识图谱构建装置、计算机可读介质以及电子设备等技术方案做出详细说明。
图2示意性示出了本申请一个实施例中的知识图谱构建方法的步骤流程示意图,该知识图谱构建方法由服务器执行,该服务器具体可以是图1中的服务器102。如图2所示,本申请实施例中的知识图谱构建方法主要可以包括如下的步骤S210至步骤S240。
步骤S210:获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对所述待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,其中N为正整数;
步骤S220:根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练;
步骤S230:将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将所述全量实体标注信息与历史标注信息进行比对,以获取增量标注信息;所述历史标注信息为所述第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的;
步骤S240:根据所述增量标注信息对与所述历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。
在本申请实施例提供的知识图谱构建方法中,获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对该待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据待增添文本和第一标注信息构建第N+1轮训练数据,其中N为正整数;接着根据第N轮训练数据和第N+1轮训练数据对命名实体识别模型进行第N+1轮训练,以获取稳定的命名实体识别模型;然后将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将该全量标注信息与通过第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的历史标注信息进行比对,以获取增量标注信息;最后根据该增量标注信息对与历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。本申请能够在第N+1次训练命名实体识别模型时,同时利用第N轮训练数据和第N+1轮训练数据,并且第N+1轮训练数据中包含通过第N轮训练得到的命名实体识别模型对第N+1轮的训练数据中的文本进行类别标签迁移处理所获取的标注信息,这样一方面能够弥合第N轮和第N+1轮标注情况的差异,使得训练后的命名实体识别模型既能从第N+1轮的训练数据中学到新的知识,还能继续保留之前学习到的知识,避免了实体类型判定遗忘和实体名称识别遗忘,另一方面能够提升知识图谱的实体覆盖度以及实体类别的覆盖度。
下面对本申请实施例中的知识图谱构建方法的各个方法步骤的具体实现方式进行详细说明。
在步骤S210中,获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对所述待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,其中N为正整数。
在本申请的一个实施例中,设定已完成对命名实体识别模型的第N轮训练,在对命名实体识别模型进行第N+1轮训练时,首先需要获取第N+1轮训练所需的训练数据,考虑到随着训练的进行,训练数据的规模逐渐减少,标注成本会更高,并且数据量过少时,模型训练效果差的情况,在本申请实施例中,将第N轮训练数据和第N+1轮训练数据同时作为第N+1轮模型训练所采用的训练数据,其中第N+1轮训练数据是基于待增添文本和第N轮训练得到的命名实体识别模型生成的,并且N为正整数。
在本申请的一个实施例中,第N轮训练数据和第N+1轮训练数据均为标注的训练数据,且都具有D=(Y,E)形式,也就是说,第N轮训练数据为DN=(YN,EN),其中YN为第N轮模型训练过程中所使用的文本,EN为与文本YN对应的标注信息,第N+1轮训练数据为DN+1=(YN+1,EN+1),其中YN+1为第N+1轮模型训练过程中所使用的文本,EN+1为与文本YN+1对应的标注信息。
其中,第N轮训练数据中的EN是根据已有的知识图谱确定得到的,具体地,首先可以获取第N轮模型训练过程中使用的文本,然后对文本进行分词,并将分词得到的分词信息与知识图谱中的实体进行匹配,当知识图谱中存在对应的分词信息时,则说明该分词信息为实体,那么可以获取该实体以及该实体对应的实体类别和实体在文本中的位置等信息,并根据实体、实体类别和实体位置即可得到与文本对应的第N轮标注信息EN。在获取第N轮标注信息EN后,便可以根据第N轮模型训练过程中使用的文本YN和第N轮标注信息EN构建第N轮训练数据。其中,已有的知识图谱是根据由第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注所确定的历史标注信息生成的。
在本申请的一个实施例中,第N+1轮训练数据中的EN+1由两部分组成,一部分是通过对第N+1轮训练数据中的待增添文本进行类别标签迁移处理得到的第一标注信息,另一部分是对第N+1轮训练数据中的待增添文本进行人工标注得到的第二标注信息。虽然通过人工标注的方式能够确定与第N+1轮训练数据中的待增添文本YN+1对应的标签,但是考虑到命名实体识别模型的灾难性遗忘问题,并且DN中的标注信息与DN+1中的标注信息存在差异,因此为了避免灾难性遗忘,弥合DN和DN+1中标注信息存在的差异,在本申请实施例中,通过第N轮训练得到的命名实体识别模型对第N+1轮训练数据中的待增添文本进行序列标注,以实现类别标签的迁移,将第N轮训练得到的命名实体识别模型学习到的知识迁移到第N+1轮的模型训练中,并弥合DN和DN+1中标注信息存在的差异。
在本申请的一个实施例中,将第N轮训练得到的命名实体识别模型进行序列标注的结果标记为fN(·),那么将第N+1轮训练数据中的待增添文本YN+1输入至第N轮训练得到的命名实体识别模型进行序列标注,即可得到第一标注信息fN(YN+1),该第一标注信息包括与待增添文本对应的预测实体、该预测实体在待增添文本中的位置和预测实体的类别。同时,由于不存在第N+1轮训练得到的模型,进而不存在由第N+1轮训练得到的模型所确定的知识图谱,因此为了获取与待增添文本YN+1对应的真实标签,可以通过人工标注方式对待增添文本YN+1进行序列标注,从中提取实体、实体位置和实体类别,以获取第二标注信息E’N+1。进一步地,根据类别标签迁移处理得到的第一标注信息fN(YN+1)和人工标注获取的第二标注信息E’N+1,能够得到与第N+1轮训练数据中的待增添文本YN+1对应的标注信息EN+1=E’N+1&fN(YN+1),其中&为并集运算。由于第N轮训练数据可以基于已有的知识图谱确定,只需对第N+1轮训练数据中的文本进行人工标注,因此可以大大减少人工标注的工作量,降低标注成本。
在本申请的一个实施例中,第N轮标注信息和第N+1轮标注信息主要存在两种不同的情况,一种是对应同一实体的实体类别存在新增,例如DN中对实体“感冒”标注的类别是<疾病>,而在DN+1中对实体“感冒”标注的类别是<症状>,<疾病>和<症状>看似不同,但都是具有医学合理性的实体类型;另一种是同一个实体对应的名称存在套叠,例如“细菌性感冒”在第N轮标注中只识别到“感冒”为<疾病>,而没有识别到“细菌性”,但是在第N+1轮标注中则识别到了“细菌性感冒”为<疾病>。
在本申请的一个实施例中,触发对命名实体识别模型进行第N+1次迭代训练的条件不仅限于爬取到待增添文本,当获取待增添知识(在知识图谱中增添新的实体)和/或待修正知识(修正知识图谱中的实体)时,也可以触发新一轮的模型训练,以对模型参数进行优化改进,进而对已有的知识图谱进行更新。由于命名实体识别模型所针对的对象是文本,因此在获取待增添知识和/或待修正知识后,可以爬取包含该待增添知识和/或待修正知识的文本作为待增添文本,根据该待增添文本确定第N+1轮训练数据,并根据第N轮训练数据和第N+1轮训练数据对命名实体识别模型进行迭代训练,进一步地,通过训练得到的命名实体识别模型可以从待增添文本以及其它训练文本中获取新的知识,用于对已有知识图谱的更新,其中该新的知识包括待增添知识和/或待修正知识。
值得说明的是,当对命名实体识别模型进行第一轮训练时,因为不存在上一轮次的训练以及训练数据,因此只需根据第一轮训练数据对命名实体识别模型进行训练即可。
在步骤S220中,根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练。
在本申请的一个实施例中,在获取第N轮训练数据和第N+1轮训练数据后,可以根据其对第N轮训练得到的命名实体识别模型进行第N+1轮训练。图3示意性示出了对命名实体识别模型进行第N+1轮训练的流程示意图,如图3所示,在步骤S301中,将所述第N轮训练数据和所述第N+1轮训练数据整合,以获取整合训练数据;在步骤S302中,将所述整合训练数据中的各个文本依次输入至所述命名实体识别模型,通过所述命名实体识别模型对各所述文本进行序列标注,以获取预测标注信息;在步骤S303中,根据所述预测标注信息和所述整合训练数据中与输入的所述文本对应的标注信息确定损失函数,并根据所述损失函数对所述命名实体识别模型中的参数进行优化,直至获取稳定的命名实体识别模型。
在本申请的一个实施例中,根据第N+1轮标注信息的表达式可知,本申请中命名实体识别模型的任务是多标签分类任务,也就是说对于文本中每一个位置的字符都要进行多标签分类,因此本申请实施例中的命名实体识别模型应当是一个可实现多标签分类任务并输出对应同一个实体的不同标签的模型。在本申请的实施例中,命名实体识别模型具体可以包括编码器层、非线性转换层和条件随机场CRF层,其中,CRF层的数量为多个,与所要预测的实体类别的数量相同。
在本申请的一个实施例中,由于随着迭代次数的增多,获取标注数据的成本增大,并且标注数据的数量较少,为了提高每一轮迭代训练时的标注数据量,可以将命名实体识别模型中的编码器层的参数进行固定,也就是说,无论是哪一轮的模型训练,编码器层的参数都是不变的,这样可以将不同轮次的命名实体识别模型的向量特征固定到同一个向量空间,即对于同一个字符,在第N轮的命名实体识别模型和第N+1轮的命名实体识别模型中均保持相同的向量特征,这样可以将更多的语义信息迁移到新的实体识别以及实体类型判定任务中,并且提高了模型训练过程中的训练数据量。另外,固定编码器层参数的另一个动机是:在部分场景中,实体挖掘往往是基于现有实体进行更丰富表达的识别,例如从“感冒”到“细菌性感冒”这种细粒度实体识别,而不太可能出现全新字符组成的实体,因此通过固定编码器层参数的方式可以将“感冒”中字符的语义信息完整地过渡给“细菌性感冒”中的每个字符,从而降低了“细菌性感冒”由于标注数据少而导致的识别召回率低的问题。
也正是因为固定了编码器层的参数,当向不同轮次训练得到的命名实体识别模型输入相同文本时,该文本中的文字序列都会被编码为相同的字向量序列,如果直接将该字向量序列输入至CRF层进行序列标注,都会输出相同的标注信息,无法满足对新的实体类别或实体名称的识别,因此在命名实体识别模型中添加了非线性变换层,对字向量序列进行非线性变换,使得CRF层接收到的对应相同文本的字向量都是不同的,进而提高命名实体识别模型的标注准确度。
当将整合训练数据中的各个文本依次输入至命名实体识别模型中之后,命名实体识别模型中的编码器层可以对输入文本中的各个字符进行编码,以获取与各个字符对应的字向量,接着非线性转换层可以根据上下文关系对各个字向量进行非线性变换,以获取变换字向量,最后通过各个条件转移层根据不同的状态转移矩阵对变换字向量进行处理,以获取与各个CRF层对应的预测标注信息。其中,状态转移矩阵是CRF中的参数,可以通过对命名实体识别模型的迭代训练进行优化,基于优化后的状态转移矩阵可以输出概率最大的实体标注序列。
在本申请的一个实施例中,命名实体识别模型可以是基于BERT+CRF架构构建的模型,也可以是基于BERT+BILSTM+CRF架构或者CNN+CRF架构构建的模型,等等,本申请实施例对此不做具体限定。接下来,以基于BERT+CRF架构构建的命名实体识别模型为例对第N+1轮的迭代训练进行说明。
图4示意性示出了命名实体识别模型的结构示意图,如图4所示,命名实体识别模型包括依次设置的输入层401、BERT层402、全连接层403、多个CRF层404和输出层405,其中BERT层402的参数固定不变,并且各CRF层404对应不同的实体类别,例如实体类别有A、B、C三类,那么CRF层的数量即为3个,分别对应A、B、C三个实体类别,相应地,对应A类别的CRF层仅对输入序列中的A类别进行标注,对应B类别的CRF层仅对输入序列中的B类别进行标注,同样地,对应C类别的CRF层仅对输入序列中的C类别进行标注。
基于图4所示的命名实体识别模型,序列标注的流程为:整合训练数据中的各个文本依次通过输入层401输入至BERT层402,BERT层402对输入的文本中的各个字符进行编码,得到每个字符的字向量,该字向量中隐含文本中对应字符的语义表征,接着编码生成的字向量输入至全连接层403,通过全连接层403根据上下文关系对各个字向量进行非线性变换,以获取变换字向量,然后将变换字向量输入至各个CRF层404,通过不同的CRF层404根据各自对应的状态转移矩阵对输入的变换字向量序列进行序列标注,进而通过输出层405输出与输入文本对应的预测标注信息,该预测标注信息中对于同一实体可能存在多个标签。值得说明的是,CRF是根据在给定一组输入序列的条件下输出另一组序列的条件概率分布来确定预测标注信息的。
在本申请的一个实施例中,由于BERT模型是一个预训练语言模型,因此可以直接沿用BERT模型在预训练阶段所确定的参数,并固定。当命名实体识别模型中的编码器层是一个非预训练语言模型时,可以将第一轮模型训练所确定的编码器参数作为最终的编码器参数进行固定,在后续的迭代训练过程中,只需对CRF层的参数进行优化即可。CRF层的参数即为用于表达标签序列约束的状态转移矩阵,也就是说,本申请实施例中对命名实体识别模型进行迭代训练的目的是对各个CRF层中的状态转移矩阵的矩阵参数进行优化,使得根据状态转移矩阵所确定的正确的标注序列的分数最大。
在本申请的一个实施例中,在对状态转移矩阵的矩阵参数进行优化时,可以通过确定CRF层的损失函数,根据损失函数进行调参,以获取最优的矩阵参数。本申请实施例中的命名实体识别模型包含多个CRF层,不同的CRF层对应不同的状态转移矩阵,因此在进行参数优化时,各个CRF层的损失函数的确定以及调参是相互独立的。图5示意性示出了命名实体识别模型的训练流程示意图,如图5所示,在步骤S501中,轮询各所述条件随机场层,将任一条件随机场层作为目标条件随机场层;在步骤S502中,根据与所述目标条件随机场层对应的预测标注信息确定与所述目标条件随机场对应的条件概率分布,并根据所述条件概率分布和所述整合训练数据中与输入的所述文本对应的目标标注信息确定与所述目标条件随机场层对应的损失函数;在步骤S503中,根据所述损失函数对所述目标条件随机场层中的参数进行优化,直至完成对所有所述条件随机场层的参数优化。
其中,步骤S502中的损失函数与条件概率分布、目标条件随机场层对应的实体类别k、目标条件随机场中的参数wk所对应的一范数||wk||1和二范数||wk||2、超参数λ1和λ2以及所有的实体类别G满足第一关系式,条件概率分布与预测标注信息s’、目标条件随机场中的参数wk、文本中第i个文字的字符对应的字向量yi以及整合训练数据中与文本中第i个位置的字符对应的标注信息满足第二关系式,其中第一关系式为:
第二关系式为:
值得说明的是,预测标注信息为与目标条件随机场层对应的实体类别所对应的所有可能的词性标注序列,第一关系式中的/>和λ1||wk||1是正则化项,wk是指条件随机场层的实体类别为k且参数为w。
对于不同的CRF层,均可以根据公式(1)和(2)得到与其对应的损失函数,通过最小化损失函数即可得到最优的矩阵参数,根据最优的矩阵参数即可获取与不同的CRF层对应的状态转移矩阵。
在本申请的一个实施例中,在采用NRE模型进行序列标注时所采用的词性标注方法可以是BIO或者BIOES标注方式,BIO标注方式中的B为开始(Beginning),表示实体的第一个字符标识,I为实体中间的字符标识(Inside),O为不属于任何实体的字符标识(Outside),BIOES标注方式中的B、I、O与BIO标注方式中的B、I、O相同,E表示实体结尾的字符标识(End),S表示实体只包含一个字符标识(Single),当然还可以是其它类型的标注方式,具体可以根据应用场景进行选择,本申请实施例对此不作具体限定,例如对于医学实体挖掘场景而言,有的实体只包含一个字符,例如“疼”、“晕”、“哑”等等,那么可以采用BIOES标注方式进行实体标注,等等。以采用BIOES标注方式为例,当采用对应B类别的CRF层进行序列标注时,所能获取的词性标注序列即为s={s1,s2,…,sm},其中s1、s2、…、sm为与输入文本中各个位置的字符对应的标签,该标签为B-B、I-B、O、E-B、S-B这五种标签之一。
在步骤S230中,将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将所述全量实体标注信息与历史标注信息进行比对,以获取增量标注信息;所述历史标注信息为所述第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的。
在本申请的一个实施例中,在完成对命名实体识别模型的第N+1轮的训练后,可以将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,进行序列标注,以获取与所有文本中每个实体类别对应的标注信息,然后将所有实体类别对应的标注信息进行融合,以获取与所有文本对应的全量标注信息,其中各轮训练数据为前N+1轮训练所采用的所有训练数据。
在获取全量标注信息后,可以将全量标注信息与历史标注信息进行比对,并从全量标注信息中排除掉历史标注信息,以获取增量标注信息,该增量标注信息即包括待增添知识或者待修正知识。与全量标注信息类似,历史标注信息是通过第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注所得到的标注信息,通过比对去重,即可得到增量标注信息。例如针对一个文本,通过第N轮训练得到的命名实体识别模型进行序列标注所得到的历史标注信息为:1-4位「a@@A」、7-8位「b@@A」,通过第N+1轮训练得到的命名实体识别模型进行序列标注所得到的全量标注信息为:1-4位「a@@A」、7-8位「b@@A」、7-8位「b@@B」,那么可以确定增量标注信息为7-8位「b@@B」,在对已有的知识图谱进行更新时,只需将7-8位「b@@B」添加到其中即可。其中,a、b为实体,A、B为实体类别,@@为间隔符号。
在本申请的一个实施例中,第N+1轮训练得到的命名实体识别模型在对输入文本进行序列标注时,通过确定每个实体类别上的最优路径,也就是与每个实体类别对应的最优标注信息,进而根据所有实体类别对应的最优路径确定与输入文本对应的标注信息。其中,文本中每个实体类别对应的最优标注信息与第k个实体类别对应的标注信息sk、文本的向量表示y和所有的实体类别G满足第三关系式:/>k∈G。
在获取与每个实体类别对应的最优路径后,可以根据所有实体类别对应的最优路径中的实体标注信息得到全量标注信息,该全量标注信息中对应同一个实体可能存在不同的实体类别和/或位置存在嵌套的实体名称,例如“感冒”的实体类别为<疾病>和<症状>,与“感冒”存在嵌套的“细菌性感冒”,等等。
在步骤S240中,根据所述增量标注信息对与所述历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。
在本申请的一个实施例中,在获取增量标注信息后,可以根据增量标注信息对已有的知识图谱进行更新,以获取目标知识图谱,至此即完成了一个完整的迭代。
基于上述实施例,图6示意性示出了构建知识图谱的完整流程示意图,如图6所示,在步骤S601中,获取待增添文本和第N轮训练数据,该第N轮训练数据包括第N轮训练文本和与第N轮训练文本对应的第N轮标注信息;在步骤S602中,通过第N轮训练得到的命名实体识别模型对待增添文本进行类别标签迁移处理,获取第一标注信息;在步骤S603中,对待增添文本进行人工标注,获取第二标注信息;在步骤S604中,融合第一标注信息和第二标注信息,以获取第N+1轮标注信息;在步骤S605中,根据待增添文本和第N+1轮标注信息构建第N+1轮训练数据;在步骤S606中,整合第N轮训练数据和第N+1轮训练数据,以获取整合训练数据;在步骤S607中,将整合训练数据中的各个文本依次输入至命名实体识别模型进行序列标注,以获取与各个文本对应的预测标注信息;在步骤S608中,根据预测标注信息和整合训练数据中与输入的各个文本对应的标注信息确定损失函数,并根据损失函数对命名实体识别模型中的参数进行优化,直至完成对命名实体识别模型的第N+1轮的迭代训练;在步骤S609中,采用第N+1轮迭代训练得到的命名实体识别模型对前N+1轮训练数据中的文本进行序列标注,获取全量标注信息;在步骤S610中,根据第N轮训练对应的历史标注信息对全量标注信息进行去重处理,得到增量标注信息;在步骤S611中,根据增量标注信息对已有的知识图谱进行更新,以获取目标知识图谱。
在本申请的一个实施例中,当完成对命名实体识别模型第N+1轮的训练后,若获取新的待增添文本,那么可以将其输入至第N+1轮训练得到的命名实体识别模型中进行序列标注,以获取与该待增添文本对应的标注信息。接着,可以对该标注信息的正确性进行判断,也就是将命名实体识别模型输出的标注信息与对待增添文本进行人工标注得到的标注信息进行比对,如果命名实体识别模型输出的标注信息与人工标注的标注信息相同,则判定命名实体识别模型输出的标注信息正确,那么可以根据该标注信息对已有的知识图谱进行更新,如果命名实体识别模型输出的标注信息与人工标注的标注信息不同,则判定命名实体识别模型输出的标注信息不正确,那么可以触发对命名实体识别模型进行再训练。再训练时,首先获取第N+1轮训练数据和基于待增添文本和第N+1轮训练得到的命名实体识别模型确定的第N+2轮训练数据,然后根据第N+1轮训练数据和第N+2轮训练数据对命名实体识别模型进行第N+2轮的训练,以获取性能稳定的命名实体识别模型。在获取第N+2轮训练得到的命名实体识别模型后,可以采用该命名实体识别模型对前N+2轮用于模型训练的文本进行序列标注,获取全量标注信息,然后将全量标注信息与已有知识图谱中的标注信息进行去重得到增量标注信息,最后根据该增量标注信息对已有的知识图谱进行更新,即可得到包含新的待增添文本中实体信息的目标知识图谱。
在本申请的一个实施例中,除了在命名实体识别模型输出的标注结果与人工标注结果存在偏差时,触发命名实体识别模型的再训练,还可以以预设时间间隔主动触发命名实体识别模型的再训练,例如可以以一个月、一个季度等时间间隔进行命名实体识别模型再训练的主动触发,当然还可以是其它的时间间隔,本申请实施例对此不作具体限定。通过对命名实体识别模型的再训练,能够保证命名实体识别模型跟随知识图谱或者文本语料的变化而变化,从而实现对难以预见类型、类型不一致或者实体名称存在套叠的实体加以识别。
在本申请的一个实施例中,通过将根据本申请实施例中的迭代训练方法训练得到的命名实体识别模型与基线模型进行比对,可以得到本申请中所训练的命名实体识别模型的性能,其中,基线模型为:直接将第N轮训练数据和第N+1轮训练数据直接合并,不作类别标签迁移,同时在模型训练过程中不固定编码器层的参数,而是在训练过程中调整参数。表1示出了不同实验设定下的模型性能对照表,如表1所示:
表1不同实验设定下的模型性能对照表
从表1可知,根据本申请实施例中的迭代训练方法所生成的命名实体识别模型平均新挖掘出的实体数量明显多于基线模型,并且在标注的测试集范围内,本申请实施例中经迭代训练得到的NRE模型的性能相较于基线模型也有所提升,特别是当实体类别数更接近真实场景的实验设定下,本申请中的命名实体识别模型的性能相较于基线模型提升了18.5%。
本申请实施例中的知识图谱构建方法可以应用于任意需要构建知识图谱的领域,例如医疗人工智能领域、护肤品生产销售领域、金融领域、工业生产领域,等等。
以医疗人工智能领域中挖掘医学实体,并根据医学实体构建医学知识图谱为例,对本申请中的知识图谱构建方法进行详细说明。
当存在需要添加/修正的医学新知识和/或医学文本时,可以将所有的医学新知识都转换为待增添医学文本,也就是根据需要添加/修正的医学新知识爬取包含该医学新知识的医学文本,然后触发对命名实体识别模型的迭代训练,以使迭代训练后的命名实体识别模型能够从所有训练医学文本中获取增量医学知识,并根据所获取的增量医学知识对已有的医学知识图谱进行更新。
图7示意性示出了命名实体识别模型迭代训练的界面示意图,如图7所示,在步骤S701中,获取第N轮训练数据DN={YN,EN}和第N+1轮初始训练数据DN+1={YN+1,E’N+1};在步骤S702中,将第N+1轮初始训练数据输入至第N轮训练得到的命名实体识别模型中进行类别标签迁移处理,以获取第N+1轮训练数据DN+1={YN+1,E’N+1&fN(YN+1)};通过类别标签迁移处理可以得到与第N+1轮训练文本YN+1对应的迁移标注信息fN(YN+1),根据人工标注信息E’N+1和迁移标注信息fN(YN+1)确定用于命名实体识别模型迭代训练的第N+1轮训练数据中的标注信息EN+1=E’N+1&fN(YN+1);在步骤S703中,将第N轮训练数据和第N+1轮训练数据打乱后整合,形成整合训练数据,并将整合训练数据输入至命名实体识别模型中进行第N+1轮迭代训练。第N+1轮训练数据中的标注信息相对于第N轮训练数据中的标注信息会存在两种不同情况,一是实体类别新增,一是实体位置套叠,因此通过对命名实体识别模型进行第N+1轮训练的目的也就是训练后的命名实体识别模型能够识别对应同一医学实体的不同实体类别,以及存在位置套叠的医学实体名称。
进一步地,为了避免标注数据少、模型训练效果差的问题,固定命名实体识别模型中编码器层的参数,如图7中所示的固定BERT层的参数。
在对命名实体识别模型进行第N+1轮迭代训练时,首先将整合训练数据中的各个医学文本逐个输入至命名实体识别模型中,通过BERT层对输入文本中的每个字符进行编码,生成对应的字向量,例如整合训练数据中包括多条医学文本,第i条医学文本m为第i条医学文本所包含字符的数量,通过编码,可以生成与第i条医学文本对应的向量表示/>接着可以基于上下文内容对该向量表示进行非线性转换,以生成转换向量表示,这样可以避免同样地字符对应的向量表示相同,CRF层无法准确识别文本中的实体,导致标注信息错误;然后可以将转换向量表示序列分别输入至对应不同实体类别的CRF层中,通过各CRF层根据各自的状态转移矩阵对输入序列中的医学实体进行识别,输出预测的标注序列信息。对应同一医学实体类别,预测的标注序列信息可能有多个,为了使命名实体识别模型能够输出最优路径对应的标注信息,可以根据各CRF层对应的词性标注序列的条件概率以及整合训练数据中与输入文本对应的目标标注信息确定与各CRF层对应的损失函数,通过最小化损失函数即可获取最优的CRF层的参数,该参数即为用于形成CRF层中状态转移矩阵的矩阵参数,通过优化矩阵参数,即可使状态转移矩阵中对应最优路径的标注序列的分数最大。
继续以图7为例,当输入文本为“西医把感冒分为细菌性感冒和病毒性感冒”时,第N轮训练得到的命名实体识别模型只能识别出“感冒”为实体,CRF层对应的标注信息为“O OO B-dis E-dis O O O O O B-dis E-dis O O O O B-dis E-dis”,但是随着知识的演化更新,“感冒”除了可以被标注为<疾病>,还可以被标注为<症状>,同时,“细菌性感冒”和“病毒性感冒”也都是实体,因此通过第N+1轮的迭代训练,命名实体识别模型除了能够识别出「感冒@@疾病」,还应当识别出「感冒@@症状」「细菌性感冒@@疾病」和「病毒性感冒@@疾病」,如图6所示,第N+1轮训练的命名实体识别模型中的CRF层对输入序列进行序列标注得到的标注序列有两条,分别是“O O O B-dis E-dis O O O O O B-dis E-dis O O O O B-dis E-dis”和“O O O B-sym E-sym O O B-dis I-dis I-dis I-dis E-dis O B-dis I-dis I-dis I-dis E-dis”。
进一步地,由于文本中还可能存在相同的医学实体,但是所在位置不同,因此在输出标注信息时,还需要标注实体位置,也就是医学实体在文本中所在的位置,该实体位置可以根据标注序列中各医学实体对应的位置标记确定,例如从0开始对文本中的字符进行位置标记时,感冒对应的实体位置为3-4位、10-11位、16-17位,细菌性感冒对应的实体位置为7-11位,病毒性感冒对应的实体位置为13-17位,那么相应地,第N轮标注信息为:3-4位
「感冒@@疾病」、10-11位「感冒@@疾病」、16-17位「感冒@@疾病」,第N+1轮标注信息为3-4位「感冒@@症状」、7-11位「细菌性感冒@@疾病」、13-17位「病毒性感冒@@疾病」。
在完成对命名实体识别模型的第N+1轮迭代训练后,可以采用训练得到的命名实体识别模型对前N+1轮训练数据中的医学文本进行序列标注,获取全量标注信息。进一步地,可以根据第N轮训练对应的历史标注信息对全量标注信息进行去重处理,得到增量标注信息,并根据增量标注信息对已有的医学知识图谱进行更新,以图6为例,更新后的目标医学知识图谱中相较于第N轮训练所生成的医学知识图谱增添了「感冒@@症状」、「细菌性感冒@@疾病」和「病毒性感冒@@疾病」这三个知识。
其中,在采用训练得到的命名实体识别模型对文本进行序列标注时,当通过编码器层和非线性转换层对输入文本进行编码和非线性转换后,则通过不同的CRF层对不同实体类别下的最优标签序列进行预测,在获取与各个实体类别对应的最优标签序列后,可以将各个最优标签序列中的标注信息进行整合,并将整合后的标注信息作为最终的标注信息进行输出。
在构建完成目标医学知识图谱后,可以基于该目标医学知识图谱进行查询,图8示意性示出了医学知识图谱查询的界面示意图,如图8所示,用户可以在输入框中输入实体名称,例如输入“糖尿病”,然后进行相关设置,例如参数、图谱名称等等,设置完成后,点击查询控件,即可显示与“糖尿病”相关的医学实体信息和医学知识图谱,该医学实体信息是包含“糖尿病”的一个或多个医学实体及对应的实体类别,该医学知识图谱是以“糖尿病”和与“糖尿病”有关的其它疾病、药品、症状等生成的知识图谱,在该医学知识图谱中,通过对医学实体本身进行触发操作,可以显示与该医学实体对应的实体类别。
本申请中的知识图谱构建方法,获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对该待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据待增添文本和第一标注信息构建第N+1轮训练数据,其中N为正整数;接着根据第N轮训练数据和第N+1轮训练数据对命名实体识别模型进行第N+1轮训练,以获取稳定的命名实体识别模型;然后将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将该全量标注信息与通过第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的历史标注信息进行比对,以获取增量标注信息;最后根据该增量标注信息对与历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。本申请能够在第N+1次训练命名实体识别模型时,同时利用第N轮的训练数据和第N+1轮的训练数据,并且第N+1轮的训练数据中包含通过第N轮训练得到的命名实体识别模型对第N+1轮的训练数据中的文本进行类别标签迁移处理所获取的标注信息,这样一方面能够弥合第N次和第N+1次标注情况的差异,使得训练后的命名实体识别模型既能从第N+1次的训练数据中学到新的知识,还能继续保留之前学习到的知识,避免了实体类型判定遗忘和实体名称识别遗忘,另一方面能够提升知识图谱的实体覆盖度以及实体类别的覆盖度。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的知识图谱构建方法。图9示意性示出了本申请实施例提供的知识图谱构建装置的结构框图。如图9所示,知识图谱构建装置900包括:训练数据获取模块910、迭代训练模块920、比对模块930和图谱更新模块940,具体地:
训练数据获取模块910,用于获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对所述待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,其中N为正整数;迭代训练模块920,用于根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练;比对模块930,用于将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将所述全量实体标注信息与历史标注信息进行比对,以获取增量标注信息;所述历史标注信息为所述第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的;图谱更新模块940,用于根据所述增量标注信息对与所述历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。
在本申请的一些实施例中,基于以上技术方案,所述知识图谱构建装置900配置为:固定所述命名实体识别模型中编码器层在不同轮次训练过程中的参数。
在本申请的一些实施例中,基于以上技术方案,所述训练数据获取模块910配置为:获取第N轮模型训练过程中使用的文本;对所述文本进行分词,并将分词得到的分词信息与所述知识图谱进行匹配,获取第N轮标注信息,所述第N轮标注信息包括所述文本中的实体、所述实体在所述文本数据中的位置和所述实体的类别;根据所述文本和与所述第N轮标注信息构建所述第N轮训练数据。
在本申请的一些实施例中,基于以上技术方案,所述训练数据获取模块910配置为:获取待增添知识和/或待修正知识,根据所述待增添知识和/或所述待修正知识爬取包含所述待增添知识和/或所述待修正知识的文本,作为所述待增添文本。
在本申请的一些实施例中,基于以上技术方案,所述训练数据获取模块910配置为:对所述待增添文本进行人工标注,以获取第二标注信息;对所述第一标注信息和所述第二标注信息进行融合,以获取与所述待增添文本对应的第N+1轮标注信息;根据所述待增添文本和所述第N+1轮标注信息构建所述第N+1轮训练数据。
在本申请的一些实施例中,基于以上技术方案,所述迭代训练模块920包括:数据整合单元,用于将所述第N轮训练数据和所述第N+1轮训练数据整合,以获取整合训练数据;序列标注单元,用于将所述整合训练数据中的各个文本依次输入至所述命名实体识别模型,通过所述命名实体识别模型对各所述文本中不同的实体类别进行序列标注,以获取预测标注信息;优化单元,用于根据所述预测标注信息和所述整合训练数据中与输入的所述文本对应的标注信息确定损失函数,并根据所述损失函数对所述命名实体识别模型中的参数进行优化,直至获取稳定的命名实体识别模型。
在本申请的一些实施例中,所述命名实体识别模型包括编码器层、非线性转换层和多个条件随机场层,各所述条件随机场层对应不同的实体类别;基于以上技术方案,所述序列标注单元配置为:通过所述编码器层对所述文本中的各个字符进行编码,以获取与各所述字符对应的字向量;通过所述非线性转换层根据各所述字符的上下文关系对所述字向量进行非线性变换,以获取变换字向量;通过各所述条件随机场层根据不同的状态转移矩阵对所述变换字向量进行处理,以获取与各所述条件随机场层对应的预测标注信息。
在本申请的一些实施例中,基于以上技术方案,所述优化单元包括:轮询单元,用于轮询各所述条件随机场层,将任一条件随机场层作为目标条件随机场层;损失函数确定单元,用于根据与所述目标条件随机场层对应的预测标注信息确定与所述目标条件随机场对应的条件概率分布,并根据所述条件概率分布和所述整合训练数据中与输入的所述文本对应的目标标注信息确定与所述目标条件随机场层对应的损失函数;调参单元,用于根据所述损失函数对所述目标条件随机场层中的参数进行优化,直至完成对所有所述条件随机场层的参数优化。
在本申请的一些实施例中,基于以上技术方案,所述损失函数与所述条件概率分布、所述目标条件随机场层对应的实体类别k、所述目标条件随机场中的参数wk所对应的一范数||wk||1和二范数||wk||2、超参数λ1和λ2以及所有的实体类别G满足第一关系式:
所述条件概率分布与所述预测标注信息s’、所述目标条件随机场中的参数wk、所述文本中第i个文字的字符对应的字向量yi以及整合训练数据中与所述文本中第i个位置的字符对应的标注信息满足第二关系式:
在本申请的一些实施例中,基于以上技术方案,所述比对模块930包括:标注单元,用于通过所述第N+1轮训练得到的命名实体识别模型对所述文本进行序列标注,以获取与所述文本中每个实体类别对应的最优标注信息;融合单元,用于将所有实体类别对应的标注信息融合,以获取所述全量标注信息。
在本申请的一些实施例中,基于以上技术方案,所述文本中每个实体类别对应的最优标注信息与第k个实体类别对应的标注信息sk、所述文本的向量表示y和所有的实体类别G满足第三关系式:/>k∈G。
在本申请的一些实施例中,基于以上技术方案,所述知识图谱构建装置900还配置为:获取新的待增添文本,将所述新的待增添文本输入至所述第N+1轮训练得到的命名实体识别模型中进行序列标注,以输出与所述新的待增添文本对应的标注信息;当判定所述标注信息正确时,根据所述标注信息对所述目标知识图谱进行更新;当判定所述标注信息不正确时,触发对所述命名实体识别模型的第N+2轮训练。
本申请各实施例中提供的知识图谱构建装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图10示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图,该电子设备可以是如图1中所示的终端设备101和服务器102。
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理器1001(Central Processing Unit,CPU),其可以根据存储在只读存储器1002(Read-Only Memory,ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中,还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口,即I/O接口)也连接至总线1004。
在一些实施例中,以下部件连接至输入/输出接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid CrystalDisplay,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台电子设备执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (16)
1.一种知识图谱构建方法,其特征在于,包括:
获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对所述增添文本进行类别标签迁移处理,以获取第一标注信息,并根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,其中N为正整数;
根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练;
将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将所述全量实体标注信息与历史标注信息进行比对,以获取增量标注信息;所述历史标注信息为所述第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的;
根据所述增量标注信息对与所述历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
固定所述命名实体识别模型中编码器层在不同轮次训练过程中的参数。
3.根据权利要求1所述的方法,其特征在于,所述获取第N轮训练数据,包括:
获取第N轮模型训练过程中使用的文本;
对所述文本进行分词,并将分词得到的分词信息与所述知识图谱进行匹配,获取第N轮标注信息,所述第N轮标注信息包括所述文本中的实体、所述实体在所述文本数据中的位置和所述实体的类别;
根据所述文本和所述第N轮标注信息构建所述第N轮训练数据。
4.根据权利要求1所述的方法,其特征在于,所述获取待增添文本,包括:
获取待增添知识和/或待修正知识,根据所述待增添知识和/或所述待修正知识爬取包含所述待增添知识和/或所述待修正知识的文本,作为所述待增添文本。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,包括:
对所述待增添文本进行人工标注,以获取第二标注信息;
对所述第一标注信息和所述第二标注信息进行融合,以获取与所述待增添文本对应的第N+1轮标注信息;
根据所述待增添文本和所述第N+1轮标注信息构建所述第N+1轮训练数据。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练,包括:
将所述第N轮训练数据和所述第N+1轮训练数据整合,以获取整合训练数据;
将所述整合训练数据中的各个文本依次输入至所述命名实体识别模型,通过所述命名实体识别模型对各所述文本中不同的实体类别进行序列标注,以获取预测标注信息;
根据所述预测标注信息和所述整合训练数据中与输入的所述文本对应的标注信息确定损失函数,并根据所述损失函数对所述命名实体识别模型中的参数进行优化,直至获取稳定的命名实体识别模型。
7.根据权利要求6所述的方法,其特征在于,所述命名实体识别模型包括编码器层、非线性转换层和多个条件随机场层,各所述条件随机场层对应不同的实体类别;
所述通过所述命名实体识别模型对各所述文本中不同的实体类别进行序列标注,以获取预测标注信息,包括:
通过所述编码器层对所述文本中的各个字符进行编码,以获取与各所述字符对应的字向量;
通过所述非线性转换层根据各所述字符的上下文关系对所述字向量进行非线性变换,以获取变换字向量;
通过各所述条件随机场层根据不同的状态转移矩阵对所述变换字向量进行处理,以获取与各所述条件随机场层对应的预测标注信息。
8.根据权利要求7所述的方法,其特征在于,所述根据所述预测标注信息和所述整合训练数据中与输入的所述文本对应的标注信息确定损失函数,并根据所述损失函数对所述命名实体识别模型进行调参,直至获取稳定的命名实体识别模型,包括:
轮询各所述条件随机场层,将任一条件随机场层作为目标条件随机场层;
根据与所述目标条件随机场层对应的预测标注信息确定与所述目标条件随机场对应的条件概率分布,并根据所述条件概率分布和所述整合训练数据中与输入的所述文本对应的目标标注信息确定与所述目标条件随机场层对应的损失函数;
根据所述损失函数对所述目标条件随机场层中的参数进行优化,直至完成对所有所述条件随机场层的参数优化。
9.根据权利要求8所述的方法,其特征在于,所述根据与所述目标条件随机场层对应的预测标注信息确定与所述目标条件随机场对应的条件概率分布,并根据所述条件概率分布和所述整合训练数据中与输入的所述文本对应的目标标注信息确定与所述目标条件随机场层对应的损失函数,包括:
所述损失函数与所述条件概率分布、所述目标条件随机场层对应的实体类别k、所述目标条件随机场中的参数wk所对应的一范数||wk||1和二范数||wk||2、超参数λ1和λ2以及所有的实体类别G满足第一关系式:
所述条件概率分布与所述预测标注信息s’、所述目标条件随机场中的参数wk、所述文本中第i个文字的字符对应的字向量yi以及整合训练数据中与所述文本中第i个位置的字符对应的标注信息满足第二关系式:
10.根据权利要求1所述的方法,其特征在于,所述将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,包括:
通过所述第N+1轮训练得到的命名实体识别模型对所述文本进行序列标注,以获取与所述文本中每个实体类别对应的最优标注信息;
将所有实体类别对应的最优标注信息融合,以获取所述全量标注信息。
11.根据权利要求10所述的方法,其特征在于,所述通过所述第N+1轮训练得到的命名实体识别模型对所述文本进行序列标注,以获取与所述文本中每个实体类别对应的最优标注信息,包括:
所述文本中每个实体类别对应的最优标注信息sk*与第k个实体类别对应的标注信息sk、所述文本的向量表示y和所有的实体类别G满足第三关系式:sk*=argmaxsp(sk|y;wk),k∈G。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取新的待增添文本,将所述新的待增添文本输入至所述第N+1轮训练得到的命名实体识别模型中进行序列标注,以输出与所述新的待增添文本对应的标注信息;
当判定所述标注信息正确时,根据所述标注信息对所述目标知识图谱进行更新;
当判定所述标注信息不正确时,触发对所述命名实体识别模型的第N+2轮训练。
13.一种知识图谱构建装置,其特征在于,包括:
训练数据获取模块,用于获取待增添文本和第N轮训练数据,通过第N轮训练得到的命名实体识别模型对所述待增添文本进行类别标签迁移处理,以获取第一标注信息,并根据所述待增添文本和所述第一标注信息构建第N+1轮训练数据,其中N为正整数;
迭代训练模块,用于根据所述第N轮训练数据和所述第N+1轮训练数据对所述命名实体识别模型进行第N+1轮训练;
比对模块,用于将各轮训练数据中的文本输入至第N+1轮训练得到的命名实体识别模型,以获取全量标注信息,并将所述全量实体标注信息与历史标注信息进行比对,以获取增量标注信息;所述历史标注信息为所述第N轮训练得到的命名实体识别模型对前N轮训练数据中的文本进行序列标注得到的;
图谱更新模块,用于根据所述增量标注信息对与所述历史标注信息对应的知识图谱进行更新,以获取目标知识图谱。
14.一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的知识图谱构建方法。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储指令;
其中,所述处理器执行所述存储器存储的指令用于实现权利要求1至12中任意一项所述的知识图谱构建方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行权利要求1至12中任意一项所述的知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310150299.8A CN116955638A (zh) | 2023-02-09 | 2023-02-09 | 知识图谱构建方法、装置、计算机可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310150299.8A CN116955638A (zh) | 2023-02-09 | 2023-02-09 | 知识图谱构建方法、装置、计算机可读介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955638A true CN116955638A (zh) | 2023-10-27 |
Family
ID=88450053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310150299.8A Pending CN116955638A (zh) | 2023-02-09 | 2023-02-09 | 知识图谱构建方法、装置、计算机可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955638A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786126A (zh) * | 2023-12-28 | 2024-03-29 | 永信至诚科技集团股份有限公司 | 基于知识图谱的裸敲线索分析方法及装置 |
-
2023
- 2023-02-09 CN CN202310150299.8A patent/CN116955638A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786126A (zh) * | 2023-12-28 | 2024-03-29 | 永信至诚科技集团股份有限公司 | 基于知识图谱的裸敲线索分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021063171A1 (zh) | 决策树模型的训练方法、系统、存储介质及预测方法 | |
JP7250052B2 (ja) | 自然言語及び知識グラフに基づく表現学習方法及び装置 | |
CN108647233B (zh) | 一种用于问答系统的答案排序方法 | |
CN110674323B (zh) | 基于虚拟标签回归的无监督跨模态哈希检索方法及系统 | |
CN112364660B (zh) | 语料文本处理方法、装置、计算机设备及存储介质 | |
CN111798991A (zh) | 基于lstm的新冠肺炎疫情群体态势预测方法 | |
CN111710428B (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
US20190228297A1 (en) | Artificial Intelligence Modelling Engine | |
CN116955638A (zh) | 知识图谱构建方法、装置、计算机可读介质及电子设备 | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN115114974A (zh) | 一种模型蒸馏方法、装置、计算机设备和存储介质 | |
Hu et al. | Composition and optimization of higher education management system based on data mining technology | |
Chen et al. | DxFormer: a decoupled automatic diagnostic system based on decoder–encoder transformer with dense symptom representations | |
CN108475346A (zh) | 神经随机访问机器 | |
CN113850012A (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
Xu et al. | A novel entity joint annotation relation extraction model | |
WO2023272563A1 (zh) | 智能分诊方法、装置、存储介质及电子设备 | |
CN115392492A (zh) | 面向实体抽取的联邦学习优化方法、系统、设备及终端 | |
Zhan | DL 101: Basic introduction to deep learning with its application in biomedical related fields | |
Pu et al. | Embedding cognitive framework with self-attention for interpretable knowledge tracing | |
CN113761154A (zh) | 智能问答方法、装置、设备及计算机可读存储介质 | |
Xu | Multi-region English translation synchronization mechanism driven by big data | |
CN111897943A (zh) | 会话记录搜索方法、装置、电子设备及存储介质 | |
Timilsina et al. | Enabling Dataspaces Using Foundation Models: Technical, Legal and Ethical Considerations and Future Trends | |
CN113704481B (zh) | 一种文本处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |