CN116975215A - 信息处理方法、装置、电子设备、存储介质及程序产品 - Google Patents
信息处理方法、装置、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116975215A CN116975215A CN202310316546.7A CN202310316546A CN116975215A CN 116975215 A CN116975215 A CN 116975215A CN 202310316546 A CN202310316546 A CN 202310316546A CN 116975215 A CN116975215 A CN 116975215A
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- word
- sample
- fused
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 80
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000012512 characterization method Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 235
- 238000012549 training Methods 0.000 claims description 121
- 230000004927 fusion Effects 0.000 claims description 63
- 230000006870 function Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 description 19
- 239000002585 base Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 9
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种信息处理方法、装置、电子设备、存储介质及程序产品。本申请实施例获取待处理阅读理解和待处理阅读理解中每个字的初始表征,该待处理阅读理解包括文本信息和问题信息;对该待处理阅读理解中的实体提及进行实体链接,得到目标实体和对应的目标三元组;基于训练后阅读理解模型将目标实体对应的目标三元组进行融合,得到融合后三元组;将实体提及中的每个字与融合后三元组进行融合,生成实体提及的融合后表征,并利用该融合后表征更新每个字的初始表征,得到每个字的更新后表征;基于更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定该问题信息对应的答案信息。该方案可以有效地提高信息处理的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种信息处理方法、装置、电子设备、存储介质及程序产品。
背景技术
机器阅读理解(machine reading comprehension,MRC)是利用机器学习模型来做文本问题理解工作,是自然语言处理(Nature Language processing,NLP)里一项基础底层技术。它的基本任务是给出一个问题,以及一个段落或文档,目的是从这个文本里找出这个问题的答案。近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角。在实际应用中,用户经常会问一些问题,这些问题可以通过检索和理解大量文本资源就能回答,但是单纯的只依靠文本来寻找答案的效果并不是很好,会导致答案的准确率较低。
发明内容
本申请实施例提供一种信息处理方法、装置、电子设备、存储介质及程序产品,可以有效地提高信息处理的准确性。
本申请实施例提供一种信息处理方法,包括:
获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;
对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;
基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;
将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;
基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
相应的,本申请实施例还提供一种信息处理装置,包括:
获取单元,用于获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;
链接单元,用于对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;
第一融合单元,用于基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;
第二融合单元,用于将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;
计算单元,用于基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
可选的,在一些实施例中,所述链接单元,具体可以用于将所述待处理阅读理解中的实体提及链接到实体链接模型,得到至少一个候选实体;对所述候选实体进行排序,根据排序结果从所述候选实体中确定第一预设数量的目标实体;从所述实体链接模型中获取所述目标实体第二预设数量的三元组,将获取到的三元组确定为所述目标实体对应的目标三元组。
可选的,在一些实施例中,所述信息处理装置还可以包括链接训练单元,所述链接训练单元,具体可以用于获取链接训练样本集,所述链接训练样本集包括文本样本和已标注实体链接的数据集;对所述文本样本中的实体提及链接到预设链接模型中,得到预测实体链接结果;基于所述预测实体链接结果与所述已标注实体链接的数据集对所述预设链接模型进行训练,得到实体链接模型。
可选的,在一些实施例中,所述目标三元组包括头实体、关系和尾实体,所述第一融合单元可以包括向量子单元、融合子单元和求和子单元,如下:
所述向量子单元,具体可以用于利用图谱预训练模型对所述目标三元组进行向量化,得到每个目标三元组的头实体向量、关系向量和尾实体向量;
所述融合子单元,具体可以用于基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行融合,得到每个目标三元组的融合后向量;
所述求和子单元,具体可以用于将所述目标实体的所有目标三元组的融合后向量进行加权求和,得到所述目标实体的融合后三元组。
可选的,在一些实施例中,所述融合子单元,具体可以用于基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行拼接,得到每个目标三元组的拼接后向量;对每个目标三元组的拼接后向量进行全连接变换,得到每个目标三元组的融合后向量。
可选的,在一些实施例中,所述求和子单元,具体可以用于利用第一参数向量与每个目标三元组的融合后向量计算内积,得到每个目标三元组出现的概率值;将所述目标实体的所有目标三元组的概率值进行概率分布转换,得到每个目标三元组的权重;利用每个目标三元组的权重对所述目标实体的所有目标三元组进行加权求和,得到所述目标实体的融合后三元组。
可选的,在一些实施例中,所述信息处理装置还可以包括图谱训练单元,所述图谱训练单元,具体可以用于获取至少一组正样本和负样本,所述正样本包括正确的实体关系,所述负样本包括错误的实体关系;根据正确的实体关系和错误的实体关系构建预设图谱模型的损失函数;基于所述损失函数对所述预设图谱模型进行收敛,得到图谱预训练模型。
可选的,在一些实施例中,所述信息处理装置还可以包括模型训练单元,所述图谱训练单元可以包括获取子单元和训练子单元,如下:
所述获取子单元,具体可以用于获取阅读理解样本,所述阅读理解样本包括问题样本和文本样本;
所述训练子单元,具体可以用于利用实体链接模型对所述阅读理解样本中实体提及样本进行实体链接,得到至少一个实体样本,以及所述实体样本对应的至少一个三元组样本;基于预设阅读理解模型将每个实体样本对应的三元组样本与所述实体提及样本中的每个字进行融合,生成每个实体提及样本的融合后表征;基于所述实体提及样本的融合后表征和所述问题样本对应的答案样本对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
可选的,在一些实施例中,所述训练子单元,具体可以用于基于预设阅读理解模型将每个实体样本对应的三元组样本进行融合,得到每个实体样本的融合后三元组;将所述实体提及样本中的每个字与所述实体样本的融合后三元组进行融合,生成每个实体提及样本的融合后表征。
可选的,在一些实施例中,所述训练子单元,具体可以用于获取所述阅读理解样本中每个字的初始表征,利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;基于所述更新后表征计算每个字表征问题样本的概率,根据计算结果获取问题样本对应的答案样本中初始字概率和结束字概率;基于所述初始字概率和所述结束字概率对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
可选的,在一些实施例中,所述第二融合单元可以包括拼接单元和归一化子单元,如下:
拼接子单元,用于对所有目标实体的融合后三元组进行加权求和,得到实体融合集;将所述实体提及中每个字的初始表征与所述实体融合集进行拼接,得到拼接后实体集;
归一化子单元,用于将所述拼接后实体集与每个字的初始表征进行归一化处理,生成所述实体提及的融合后表征。
可选的,在一些实施例中,所述拼接子单元,具体可以用于利用第二参数向量与每个目标实体的融合后三元组计算内积,得到每个目标实体出现的概率值;将所述实体提及的所有目标实体的概率值进行概率分布转换,得到每个目标实体的权重;利用每个目标实体的权重对所述实体提及的所有目标实体进行加权求和,得到所述实体提及的实体融合集。
可选的,在一些实施例中,所述计算单元,具体可以用于将每个字的更新后表征与第三参数向量进行相乘,得到每个字的预测概率;对每个字的预测概率进行概率分布转换,得到每个字表征问题信息的概率;根据每个字表征问题信息的概率预测所述问题信息的开始位置和结束位置,得到所述问题信息对应的答案信息。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种信息处理方法中的步骤。
此外,本申请实施例还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请实施例提供的任一种信息处理方法中的步骤。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述信息处理方面的各种可选实现方式中提供的方法。
本实施例可以获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。该方案通过对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量,再利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里,由于该方案通过在MRC模型里融入知识图谱知识,结合了知识图谱和机器阅读理解两者的优势,相对于单纯的只依靠文本来寻找答案效果,大大提升了阅读理解的效率和准确性,进而提升了信息处理的效率,提高了信息处理的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的信息处理方法的场景示意图;
图1b是本申请实施例提供的信息处理方法的第一流程图;
图1c是本申请实施例提供的阅读理解模型的第一模型架构图;
图2a是本申请实施例提供的阅读理解模型的第二模型架构图;
图2b是本申请实施例提供的信息处理方法的第二流程图;
图3是本申请实施例提供的信息处理装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的原理是以实施在一适当的运算环境中来举例说明。在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下该的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“单元”可看做为在该运算系统上执行的软件对象。本文该的不同组件、单元、引擎及服务可看做为在该运算系统上的实施对象。而本文该的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是某些实施例还包括没有列出的步骤或单元,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种信息处理方法、装置、电子设备、存储介质及程序产品。其中,该信息处理装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
本申请实施例提供的信息处理方法涉及人工智能领域中的自然语言处理技术,可以利用自然语言技术对文本进行处理,达到机器阅读理解的目的,从而实现信息处理。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
例如,如图1a所示,首先,该集成了信息处理装置的电子设备可以获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。该方案通过对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量,再利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里,由于该方案通过在MRC模型里融入知识图谱知识,结合了知识图谱和机器阅读理解两者的优势,相对于单纯的只依靠文本来寻找答案效果,大大提升了阅读理解的效率和准确性,进而提升了信息处理的效率,提高了信息处理的准确性。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算机(Personal Computer,PC)等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
一种信息处理方法,包括:获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
如图1b所示,该信息处理方法的具体流程可以如下:
101、获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息。
其中,待处理阅读理解可以指的是需要机器进行阅读理解任务处理的信息。比如,可以为与文章内容相关的自然语言式问题,让模型理解问题并根据文章作答,等等。机器阅读理解任务可以根据答案的不同分为了四种任务:多项选择式、区间答案式、自由回答式和完形填空式。其中,多项选择式,即模型需要从给定的若干选项中选出正确答案;区间答案式,即答案限定是文章的一个子句,需要模型在文章中标明正确的答案起始位置和终止位置;自由回答式,即不限定模型生成答案的形式,允许模型自由生成语句;完形填空式,即在原文中除去若干关键词,需要模型填入正确单词或短语。
其中,问题信息指的是待处理阅读理解给出的问题,文本信息可以指的是与该问题信息相关的段落、文章或者文本库,等等。
例如,具体可以当接收到对一个或者多个待处理阅读理解的处理请求时,根据所述处理请求获取待处理阅读理解。比如,具体可以当需要对待处理阅读理解进行信息处理时,生成处理请求,并发送给信息处理装置,以使得信息处理装置对待处理阅读理解进行获取,进而对获取到的待处理阅读理解进行处理。
例如,具体可以获取待处理阅读理解,所述待处理阅读理解包括文本信息和问题信息,将所述文本信息和问题信息转换成字序列,得到所述待处理阅读理解中每个字的初始表征。比如,可以将问题和段落处理成token序列,也就是拆成一个一个的字序列,得到每个字的初始表征。
102、对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组。
例如,具体可以将所述待处理阅读理解中的实体提及链接到实体链接模型,得到至少一个候选实体;对所述候选实体进行排序,根据排序结果从所述候选实体中确定第一预设数量的目标实体;从所述实体链接模型中获取所述目标实体第二预设数量的三元组,将获取到的三元组确定为所述目标实体对应的目标三元组。
其中,实体(Entity)是客观存在并可相互区别的事物,是知识图谱的基本单元,也是文本中承载信息的重要语言单位。实体可以是人、地方、组织机构、植物、商品等等,如,“刘五”,“北京市”等。实体提及(Mention)指的是自然文本中表达实体的语言片段。
其中,实体链接(Entity Linking),也叫实体链指,是一种任务,它要求我们将非结构化数据中的表示实体的词语(即所谓mention,对某个实体的指称项)识别出来,并将从知识库(领域词库,知识图谱等)中找到mention所表示的那一个实体。也就是说,实体链接模型的作用就是将文本里的实体mention(实体提及)链接到图谱里的实体。完成实体链接任务所需要的技术,叫做实体链接技术。
其中,三元组(triple),作为一种图数据结构,是知识图谱的最小单元,包括两个节点及它们之间的关系,即(node1,edge,node2),三元组可以包括头实体、关系和尾实体这三个元素。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是【实体-属性-属性值】三元组,也可以是【头实体-关系-尾实体】三元组。
其中,预设数量的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,预设数量可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如,第一预设数量可以为K,K可以为10,第二预设数量可以为M,M可以为20,等等。
比如,以文本里的“A”实体mention为例,链接到知识图谱里,实体链接返回了topK个目标实体,每个目标实体对应了M个目标三元组。
为了确保链接的召回率,一般会链接到TopK个实体。链接的技术方案主要采用“召回+排序”。其中,召回阶段可以采用词典召回,将mention名称去和知识库的实体别名表进行匹配得到。排序可以采用了一个匹配模型进行打分,最后返回得分最高的topK个实体。
为了提高实体链接的效率,先对预设链接模型进行训练,再利用训练后的实体链接模型对所述待处理阅读理解中的实体提及进行实体链接。可选的,该实体链接模型可以由多个训练样本训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练,即所述“将所述待处理阅读理解中的实体提及链接到实体链接模型”之前,该信息处理方法还可以包括:
获取链接训练样本集,所述链接训练样本集包括文本样本和已标注实体链接的数据集;
对所述文本样本中的实体提及链接到预设链接模型中,得到预测实体链接结果;
基于所述预测实体链接结果与所述已标注实体链接的数据集对所述预设链接模型进行训练,得到实体链接模型。
具体地,实体链接是将文本中的实体与知识库中的实体进行关联的过程。
为了进行实体链接模型训练,可以执行以下步骤:
1、准备数据:需要一个包含文本和实体链接注释的数据集。可以从公共资源中获取已注释的数据集,例如Wikipedia、Freebase等。
2、构建模型:使用深度学习模型,如BERT、ELMo、GPT等来训练实体链接模型。这些模型使用自然语言处理技术对文本进行建模,同时使用知识库中的实体和实体之间的关系来构建嵌入向量。将文本中的实体链接到最相似的知识库实体。
3、训练模型:使用数据集训练模型,并进行交叉验证以避免过拟合。可以使用不同的损失函数和优化器来训练模型,例如交叉熵和Adam优化器。
4、评估模型:使用不同的评估指标,例如精度、召回率、F1分数等,评估模型的性能。可以使用一些基准测试集来进行评估,例如CoNLL 2003等。
5、调整模型:根据评估结果进行调整,例如更改超参数、使用不同的模型架构等,以得到训练好的实体链接模型。
103、基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组。
比如,每个目标实体可以通过“图谱预训练”得到了对应每个目标三元组的“头实体”、“关系”、“尾实体”的预训练向量,然后每个目标实体的M个目标三元组利用self-attention机制进行融合。
例如,所述目标三元组包括头实体、关系和尾实体,具体可以利用图谱预训练模型对所述目标三元组进行向量化,得到每个目标三元组的头实体向量、关系向量和尾实体向量;基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行融合,得到每个目标三元组的融合后向量;将所述目标实体的所有目标三元组的融合后向量进行加权求和,得到所述目标实体的融合后三元组。
可选的,在一实施例中,所述“基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行融合,得到每个目标三元组的融合后向量”,具体可以基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行拼接,得到每个目标三元组的拼接后向量;对每个目标三元组的拼接后向量进行全连接变换,得到每个目标三元组的融合后向量。
比如,可以将每个三元组的头实体向量、关系向量以及尾实体向量拼接到一起。接着,对拼接后的向量做一个全连接变换,融合尾一个向量,如下公式所示:
Vtriple=concat(Vhead,Vrel,Vtail)
Vtriple_fusion=tanh(WVtriple+b)
其中,W和b是参数矩阵和向量,根据训练后阅读理解模型确定。
可选的,在一实施例中,所述“将所述目标实体的所有目标三元组的融合后向量进行加权求和,得到所述目标实体的融合后三元组”,具体可以利用第一参数向量与每个目标三元组的融合后向量计算内积,得到每个目标三元组出现的概率值;将所述目标实体的所有目标三元组的概率值进行概率分布转换,得到每个目标三元组的权重;利用每个目标三元组的权重对所述目标实体的所有目标三元组进行加权求和,得到所述目标实体的融合后三元组。
其中,第一参数向量根据训练后阅读理解模型确定。
比如,可以利用一个参数向量Vp跟融合向量计算内积得到一个分数,再将这M个分数利用softmax操作转换为一个概率分布,接着,对这个实体的M个三元组融合向量进行加权求和,最终,得到K个向量:{V_entity_k}。具体可以如下公式所示:
Si=dot(Vp,Vtriple_fusion_i)
Ventity=αiVtriple_fusion_i+…+αMVtriple_fusion_M
为了提高向量化的效率,先对预设图谱预训练进行训练,再利用图谱预训练模型对所述目标三元组进行向量化。可选的,该图谱预训练模型可以由多个训练样本训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练,即所述“利用图谱预训练模型对所述目标三元组进行向量化”之前,该信息处理方法还可以包括:
获取至少一组正样本和负样本,所述正样本包括正确的实体关系,所述负样本包括错误的实体关系;
根据正确的实体关系和错误的实体关系构建预设图谱模型的损失函数;
基于所述损失函数对所述预设图谱模型进行收敛,得到图谱预训练模型。
其中,预训练关系向量是利用知识图谱的结构,通过特定的基于图结构的预训练来得到的。比如,可以采用的是TransE算法进行训练。
TransE的基本思想是:基于实体和关系的分布式向量表示,将三元组的关系看作从head实体到tail实体的翻译。最终目的是将知识库中所有的实体、关系表示成低维向量。TransE模型认为一个正确的三元组,满足头实体embedding加上关系embedding会约等于尾实体embedding。
比如,具体给定一个知识图谱,里面包含三元组集合S,每个三元组表示为(h,l,t),h是头实体,t是尾实体,l代表关系,可以定义距离公式如下:
h,l,t是三个参数向量,分别代表头实体、关系和尾实体。距离采用的是向量的2范数的平方。训练的损失函数是:
S是正例的三元组集合,S′是负例的三元组集合(可以在S的基础上进行随机替换得到S′)。γ是一个超参数,可以人工指定。[f]+代表max(0,f)。
通过以上目标进行训练后,就能得到知识库里每个实体和关系的预训练向量。
为了提高信息处理的效率,先对预设阅读理解模型进行训练,再利用训练后阅读理解模型对所述待处理阅读理解进行处理。可选的,该训练后阅读理解模型可以由多个训练样本训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练,即所述“基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合”之前,该信息处理方法还可以包括:
(一)获取阅读理解样本,所述阅读理解样本包括问题样本和文本样本;
例如,具体可以获取阅读理解样本、以及所述阅读理解样本中每个字的初始表征,所述阅读理解样本包括问题样本、文本样本以及问题样本对应的答案样本。
比如,预设阅读理解模型的主体模型可以采用的基于变压器的双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)模型,模型结构可以如图1c所示。BERT模型采用的是transformer结构,由多层的transformer子层堆叠而成。每个子层包含两个小层:一个self-attention层以及一个全连接FNN层。由于采用的BERT模型要融入知识图谱知识。因此,可以在self-attention层和FNN层中间加了一个Knowledge-fusion层。具体这层的作用就是将图谱中三元组知识融入到模型当中。
以下可以分模块对模型的包括输入层、Knowledge-fusion层和训练层进行介绍:
输入层的作用就是将文本序列转换为一个token序列。首先我们是将问题和段落处理成token序列,也就是拆成一个一个的字序列。然后拼接上三个特殊token“[CLS][SEP][SEP]”。处理完成后就可以将这个token序列送给下游模型了。
其中,[CLS]标志放在第一个句子的首位,经过BERT得到的表征向量C可以用于后续的分类任务。[SEP]标志用于分开两个输入句子,例如输入句子A和B,要在句子A,B后面增加[SEP]标志。
(二)利用实体链接模型对所述阅读理解样本中实体提及样本进行实体链接,得到至少一个实体样本,以及所述实体样本对应的至少一个三元组样本;
例如,具体可以将所述阅读理解中的实体提及链接到实体链接模型,得到至少一个样本候选实体;对所述样本候选实体进行排序,根据排序结果从所述样本候选实体中确定第一预设数量的实体样本;从所述实体链接模型中获取所述实体样本第二预设数量的三元组,将获取到的三元组确定为所述实体样本对应的三元组样本。
比如,可以利用已经完成了“实体链接”以及“图谱预训练”步骤对所述阅读理解样本中的实体提及进行链接,每个实体提及对应了topK个实体样本,每个实体样本对应了M个三元组样本。
(三)基于预设阅读理解模型将每个实体样本对应的三元组样本与所述实体提及样本中的每个字进行融合,生成每个实体提及样本的融合后表征;
(1)基于预设阅读理解模型将每个实体样本对应的三元组样本进行融合,得到每个实体样本的融合后三元组;
例如,可以利用图谱预训练模型对所述三元组样本进行向量化,得到每个三元组样本的头实体向量、关系向量和尾实体向量;基于预设阅读理解模型将每个三元组样本对应的头实体向量、关系向量和尾实体向量进行融合,得到每个三元组样本的融合后向量;将所述实体样本的所有三元组样本的融合后向量进行加权求和,得到所述实体样本的融合后三元组。
进一步地,具体可以利用图谱预训练模型对所述三元组样本进行向量化,得到每个三元组样本的头实体向量、关系向量和尾实体向量;基于预设阅读理解模型将每个三元组样本对应的头实体向量、关系向量和尾实体向量进行拼接,得到每个三元组样本的拼接后向量;对每个三元组样本的拼接后向量进行全连接变换,得到每个三元组样本的融合后向量。利用预设第一参数向量与每个三元组样本的融合后向量计算内积,得到每个三元组样本出现的概率值;将所述实体样本的所有三元组样本的概率值进行概率分布转换,得到每个三元组样本的权重;利用每个三元组样本的权重对所述实体样本的所有三元组样本进行加权求和,得到所述实体样本的融合后三元组。
比如,每个实体样本通过“图谱预训练”得到了每个三元组样本的“头实体”、“关系”、“尾实体”的预训练向量。每个文本中的token表示向量是{V_token_i}(self-attention层的输出)。因此,目标就是将上面得到的知识图谱三元组预训练向量融入到{V_token}里。以文本里的“X”实体mention为例,对应了topK个实体,每个实体对应了M个三元组。首先,可以对每个实体的M个三元组利用self-attention机制进行融合,具体公式可以如下:
Vtriple=concat(Vhead,Vrel,Vtail)
Vtriple_fusion=tanh(WVtriple+b)
Si=dot(Vp,Vtriple_fusion_i)
Ventity=αiVtriple_fusion_i+…+αMVtriple_fusion_M
其中,可以先将每个三元组的头实体向量、关系向量以及尾实体向量拼接到一起。然后,对拼接后的向量做一个全连接变换,融合尾一个向量。W和b是参数矩阵和向量,跟着模型一起训练。接着,可以利用一个参数向量Vp跟融合向量计算内积得到一个分数,再将这M个分数利用softmax操作转换为一个概率分布,再接着,对这个实体的M个三元组融合向量进行加权求和,最终,得到K个向量:{V_entity_k}。
(2)将所述实体提及样本中的每个字与所述实体样本的融合后三元组进行融合,生成每个实体提及样本的融合后表征。
例如,可以对所有实体样本的融合后三元组进行加权求和,得到实体样本融合集;将所述实体提及样本中每个字的初始表征与所述实体样本融合集进行拼接,得到拼接后实体样本集;将所述拼接后实体样本集与所述实体提及样本中每个字的初始表征进行归一化处理,生成所述实体提及样本的融合后表征。
进一步地,具体可以利用预设第二参数向量与每个实体样本的融合后三元组计算内积,得到每个实体样本出现的概率值;将所述实体提及样本的所有实体样本的概率值进行概率分布转换,得到每个实体样本的权重;利用每个实体样本的权重对所述实体提及样本的所有实体样本进行加权求和,得到所述实体提及样本的实体样本融合集。将所述实体提及样本中每个字的初始表征与所述实体样本融合集进行拼接,得到拼接后实体样本集;将所述拼接后实体样本集与所述实体提及样本中每个字的初始表征进行归一化处理,生成所述实体提及样本的融合后表征。
在得到了文本中“X”这个实体mention的K个实体向量:{V_entity}后,可以再利用self-attention机制将它们跟这个实体Mention的每个token进行融合。具体公式如下:
Si=dot(Vp,Ventity_i)
Ventity_fusion=αiVentity_i+…+αKVentity_K
Vconcat=concat(Vtoken,Ventity_fusion)
Vnew_token=layer_norm(Vtoken+tanh(WVconcat+b))
其中,可以先将K个实体向量进行加权求和。Vq是一个新的向量。再将实体Mention的每个字的文本向量跟实体融合向量进行拼接。然后,将它通过一个线性变换转换,并和原始Token向量相加,最后通过一个layer_norm层生成一个新的token表征。得到了这些新的token表征后再去走后面的FNN子层。
(四)基于所述实体提及样本的融合后表征和所述问题样本对应的答案样本对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
例如,可以利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;基于所述更新后表征计算每个字表征问题样本的概率,根据计算结果获取问题样本对应的答案样本中初始字概率和结束字概率;基于所述初始字概率和所述结束字概率对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
进一步地,具体可以利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;将每个字的更新后表征与预设第三参数向量进行相乘,得到每个字的预测概率;对每个字的预测概率进行概率分布转换,得到每个字表征问题样本的概率;获取问题样本对应的答案样本中初始字概率和结束字概率;基于所述初始字概率和所述结束字概率对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
比如,通过这个模型的多个子层得到了每个token的最新表征{V_token}。然后通过以下公式得到每个token的logit和prob(概率):
Logiti=v*embi
Pi=softmax(Logiti)
其中,v是一个待学习的参数向量,emb就是V_token。在得到了答案的start token和end token的概率P后,就可以通过以下公式得到训练loss:
Loss=-logPstart-logPend
直到Loss收敛,得到训练后阅读理解模型。
104、将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征。
例如,具体可以对所有目标实体的融合后三元组进行加权求和,得到实体融合集;将所述实体提及中每个字的初始表征与所述实体融合集进行拼接,得到拼接后实体集;将所述拼接后实体集与每个字的初始表征进行归一化处理,生成所述实体提及的融合后表征。
可选的,在一实施例中,所述“对所有目标实体的融合后三元组进行加权求和,得到实体融合集”,具体可以利用第二参数向量与每个目标实体的融合后三元组计算内积,得到每个目标实体出现的概率值;将所述实体提及的所有目标实体的概率值进行概率分布转换,得到每个目标实体的权重;利用每个目标实体的权重对所述实体提及的所有目标实体进行加权求和,得到所述实体提及的实体融合集。
其中,第二参数向量根据训练后阅读理解模型确定。
比如,在得到了文本中“A”这个mention的K个实体向量:{V_entity}后,可以再利用self-attention机制将它们跟这个Mention的每个token进行融合。例如,可以将K个实体向量进行加权求和,其中,Vq是一个新的向量。具体公式可以如下:
Si=dot(Vq,Ventity_i)
Ventity_fusion=αiVentity_i+…+αKVentity_K
其中,每个文本中的token表示向量为{V_token_i}。然后,将这个Mention的每个字的文本向量跟实体融合向量进行拼接。接着,将它通过一个线性变换转换,并和原始Token向量相加,最后通过一个layer_norm层生成一个新的token表征,具体公式可以如下:
Vconcat=concat(Vtoken,Ventity_fusion)
Vnewtoken=layer_norm(Vtoken+tanh(WVconcat+b))
接着,利用新的token表征去更新每个字的初始表征,得到每个字的更新后表征,比如,有新的token表征的字就更新,没有的就将初始表征直接作为更新后表征。
105、基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
例如,具体可以将每个字的更新后表征与第三参数向量进行相乘,得到每个字的预测概率;对每个字的预测概率进行概率分布转换,得到每个字表征问题信息的概率;根据每个字表征问题信息的概率预测所述问题信息的开始位置和结束位置,得到所述问题信息对应的答案信息。
其中,第三参数向量根据训练后阅读理解模型确定。
比如,通过这个模型的多个子层得到了每个token的最新表征{V_token}。再通过以下公式得到每个token的logit和prob(概率):
Logiti=v*embi
Pi=softmax(Logiti)
其中,v是一个待学习的参数向量,emb就是V_token。然后,根据每个token的概率确定该问题信息对应的答案信息,例如,在区间答案式的阅读理解中,可以根据每个token的概率确定答案的起始位置和终止位置,比如,可以将概率最高的两个token确定为答案的起始位置和终止位置。
由上可知,本实施例可以获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。该方案通过对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量,再利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里,由于该方案通过在MRC模型里融入知识图谱知识,结合了知识图谱和机器阅读理解两者的优势,相对于单纯的只依靠文本来寻找答案效果,大大提升了阅读理解的效率和准确性,进而提升了信息处理的效率,提高了信息处理的准确性。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息处理装置具体集成在电子设备,信息处理具体可以为待处理阅读理解为区间问答式为例进行说明。
在搜索中,用户经常会问一些问题,例如这个例子:“中国历史上第一个不平等条约是什么条约”,这些问题可能不能通过知识图谱来回答(图谱数据部完备或者很难将它解析为一个结构化查询),但是很适合从大量的文本库里去寻找答案。在问答或者对话场景中,例如智能音箱或者智能客服,用户也可能问一些问题。通过检索和理解大量文本资源就能回答用户的这些问题。
但用户的问题经常是一些知识性问题,这些问题其实在知识图谱里能找到答案。单纯的只依靠文本来寻找答案效果并不是很好(一般来说纯MRC召回比较高但是准确比较低,而基于知识图谱方法准确较高但是召回较低)。所以如果能在MRC模型里融入知识图谱知识,这样就结合了两者的优势,从而获得更好的效果。
但是如何将图谱知识融入到MRC模型里是一个非常有挑战的问题。因为知识图谱里都是一些结构化的知识(俗称为“三元组”,例如“作品1-作者-作者A”),而传统的MRC模型都是针对纯文本。所以需要在无结构文本和结构化三元组之间架起一座桥梁。
因此,本申请提出了一种新的基于知识增强的阅读理解模型。首先,对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量。然后,利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里。以下是对该方案的详细介绍:
(一)首先,可以先对实体链接模型进行训练,具体可以如下:
为了提高实体链接的效率,先对预设链接模型进行训练,再利用训练后的实体链接模型对所述待处理阅读理解中的实体提及进行实体链接。可选的,该实体链接模型可以由多个训练样本训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练。
例如,电子设备具体可以获取链接训练样本集,所述链接训练样本集包括文本样本和已标注实体链接的数据集;对所述文本样本中的实体提及链接到预设链接模型中,得到预测实体链接结果;基于所述预测实体链接结果与所述已标注实体链接的数据集对所述预设链接模型进行训练,得到实体链接模型。
比如,问题为“1998年世界杯是在哪里举办的?”
段落为:“1998年法国世界杯(英语:1998France FIFA World Cup,法语:Coupe duMonde de la FIFA 1998)是第16届世界杯足球赛,比赛于1998年6月10日至7月12日在法国10座城市中的10座球场举行。……”
通过分析这个段落,得到答案是“法国”。
实体链接模块的作用就是将文本里的实体mention链接到图谱里的实体。例如文本里的“法国”,链接到知识库里的“法国(欧洲国家)”这个实体。为了确保链接的召回率,一般会链接到TopK个实体。链接的技术方案主要采用“召回+排序”。其中,召回阶段可以采用词典召回,将mention名称去和知识库的实体别名表进行匹配得到。排序可以采用了一个匹配模型进行打分,最后返回得分最高的topK个实体。
(二)接着,可以对图谱预训练模型进行训练,具体可以如下:
为了提高向量化的效率,先对预设图谱预训练进行训练,再利用图谱预训练模型对所述目标三元组进行向量化。可选的,该图谱预训练模型可以由多个训练样本训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练。
例如,电子设备具体可以获取至少一组正样本和负样本,所述正样本包括正确的实体关系,所述负样本包括错误的实体关系;根据正确的实体关系和错误的实体关系构建预设图谱模型的损失函数;基于所述损失函数对所述预设图谱模型进行收敛,得到图谱预训练模型。
其中,预训练关系向量是利用知识图谱的结构,通过特定的基于图结构的预训练来得到的。比如,可以采用的是TransE算法进行训练。
TransE的基本思想是:基于实体和关系的分布式向量表示,将三元组的关系看作从head实体到tail实体的翻译。最终目的是将知识库中所有的实体、关系表示成低维向量。TransE模型认为一个正确的三元组,满足头实体embedding加上关系embedding会约等于尾实体embedding。
比如,具体可以给定一个知识图谱,里面包含三元组集合S,每个三元组表示为(h,l,t),h是头实体,t是尾实体,l代表关系,可以定义距离公式如下:
h,l,t是三个参数向量,分别代表头实体、关系和尾实体。距离采用的是向量的2范数的平方。训练的损失函数是:
S是正例的三元组集合,S′是负例的三元组集合(可以在S的基础上进行随机替换得到S′)。γ是一个超参数,可以人工指定。[f]+代表max(0,f)。
通过以上目标进行训练后,就能得到知识库里每个实体和关系的预训练向量。
(三)再者,可以对阅读理解模型进行训练,具体可以如下:
1、获取阅读理解样本,所述阅读理解样本包括问题样本和文本样本;
例如,电子设备具体可以获取阅读理解样本、以及所述阅读理解样本中每个字的初始表征,所述阅读理解样本包括问题样本、文本样本以及问题样本对应的答案样本。
比如,预设阅读理解模型的主体模型可以采用的BERT模型,模型结构可以如图2a所示。BERT模型采用的是transformer结构,由多层的transformer子层堆叠而成。每个子层包含两个小层:一个self-attention层以及一个全连接FNN层。由于采用的BERT模型要融入知识图谱知识。因此,可以在self-attention层和FNN层中间加了一个Knowledge-fusion层。具体这层的作用就是将图谱中三元组知识融入到模型当中。
以下可以分模块对模型的包括输入层、Knowledge-fusion层和训练层进行介绍:
输入层的作用就是将文本序列转换为一个token序列。首先我们是将问题和段落处理成token序列,也就是拆成一个一个的字序列。然后拼接上三个特殊token“[CLS][SEP][SEP]”。处理完成后就可以将这个token序列送给下游模型了。
2、利用实体链接模型对所述阅读理解样本中实体提及样本进行实体链接,得到至少一个实体样本,以及所述实体样本对应的至少一个三元组样本;
例如,电子设备具体可以将所述阅读理解中的实体提及链接到实体链接模型,得到至少一个样本候选实体;对所述样本候选实体进行排序,根据排序结果从所述样本候选实体中确定第一预设数量的实体样本;从所述实体链接模型中获取所述实体样本第二预设数量的三元组,将获取到的三元组确定为所述实体样本对应的三元组样本。
比如,通过实体链接,可知文本中“1998年世界杯”链接到了图谱里的《98世界杯》这个实体,“法国”链接到了知识图谱里的《法国(欧洲国家)》、《法国(歌曲)》这些实体(实体链接会返回topK个实体)。
3、基于预设阅读理解模型将每个实体样本对应的三元组样本与所述实体提及样本中的每个字进行融合,生成每个实体提及样本的融合后表征,如下:
(1)基于预设阅读理解模型将每个实体样本对应的三元组样本进行融合,得到每个实体样本的融合后三元组;
例如,电子设备可以利用图谱预训练模型对所述三元组样本进行向量化,得到每个三元组样本的头实体向量、关系向量和尾实体向量;基于预设阅读理解模型将每个三元组样本对应的头实体向量、关系向量和尾实体向量进行融合,得到每个三元组样本的融合后向量;将所述实体样本的所有三元组样本的融合后向量进行加权求和,得到所述实体样本的融合后三元组。
进一步地,电子设备具体可以利用图谱预训练模型对所述三元组样本进行向量化,得到每个三元组样本的头实体向量、关系向量和尾实体向量;基于预设阅读理解模型将每个三元组样本对应的头实体向量、关系向量和尾实体向量进行拼接,得到每个三元组样本的拼接后向量;对每个三元组样本的拼接后向量进行全连接变换,得到每个三元组样本的融合后向量。利用预设第一参数向量与每个三元组样本的融合后向量计算内积,得到每个三元组样本出现的概率值;将所述实体样本的所有三元组样本的概率值进行概率分布转换,得到每个三元组样本的权重;利用每个三元组样本的权重对所述实体样本的所有三元组样本进行加权求和,得到所述实体样本的融合后三元组。
比如,每个实体样本通过“图谱预训练”得到了每个三元组样本的“头实体”、“关系”、“尾实体”的预训练向量(例如:“法国-首都-巴黎”中,法国就是头实体,首都是关系,巴黎是尾实体)。每个文本中的token表示向量是{V_token_i}(self-attention层的输出)。因此,目标就是将上面得到的知识图谱三元组预训练向量融入到{V_token}里。以文本里的“法国”实体mention为例,对应了topK个实体,每个实体对应了M个三元组。首先,可以对每个实体的M个三元组利用self-attention机制进行融合,具体公式可以如下:
Vtriple=concat(Vhead,Vrel,Vtail)
Vtriple_fusion=tanh(WVtriple+b)
Si=dot(Vp,Vtriple_fusion_i)
Ventity=αiVtriple_fusion_i+…+αMVtriple_fusion_M
其中,可以先将每个三元组的头实体向量、关系向量以及尾实体向量拼接到一起。然后,对拼接后的向量做一个全连接变换,融合尾一个向量。W和b是参数矩阵和向量,跟着模型一起训练。接着,可以利用一个参数向量Vp跟融合向量计算内积得到一个分数,再将这M个分数利用softmax操作转换为一个概率分布,再接着,对这个实体的M个三元组融合向量进行加权求和,最终,得到K个向量:{V_entity_k}。
(2)将所述实体提及样本中的每个字与所述实体样本的融合后三元组进行融合,生成每个实体提及样本的融合后表征。
例如,电子设备可以对所有实体样本的融合后三元组进行加权求和,得到实体样本融合集;将所述实体提及样本中每个字的初始表征与所述实体样本融合集进行拼接,得到拼接后实体样本集;将所述拼接后实体样本集与所述实体提及样本中每个字的初始表征进行归一化处理,生成所述实体提及样本的融合后表征。
进一步地,电子设备具体可以利用预设第二参数向量与每个实体样本的融合后三元组计算内积,得到每个实体样本出现的概率值;将所述实体提及样本的所有实体样本的概率值进行概率分布转换,得到每个实体样本的权重;利用每个实体样本的权重对所述实体提及样本的所有实体样本进行加权求和,得到所述实体提及样本的实体样本融合集。将所述实体提及样本中每个字的初始表征与所述实体样本融合集进行拼接,得到拼接后实体样本集;将所述拼接后实体样本集与所述实体提及样本中每个字的初始表征进行归一化处理,生成所述实体提及样本的融合后表征。
在得到了文本中“X”这个实体mention的K个实体向量:{V_entity}后,可以再利用self-attention机制将它们跟这个实体Mention的每个token(“法”和“国”)进行融合。具体公式如下:
Si=dot(Vp,Ventity_i)
Ventity_fusion=αiVentity_i+…+αKVentity_K
Vconcat=concat(Vtoken,Ventity_fusion)
Vnewtoken=layer_norm(Vtoken+tanh(WVconcat+b))
其中,可以先将K个实体向量进行加权求和。Vq是一个新的向量。再将“法”和“国”两个字的文本向量跟实体融合向量进行拼接。然后,将它通过一个线性变换转换,并和原始Token向量相加,最后通过一个layer_norm层生成一个新的token表征。得到了这些新的token表征后再去走后面的FNN子层。
4、基于所述实体提及样本的融合后表征和所述问题样本对应的答案样本对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
例如,电子设备可以利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;基于所述更新后表征计算每个字表征问题样本的概率,根据计算结果获取问题样本对应的答案样本中初始字概率和结束字概率;基于所述初始字概率和所述结束字概率对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
进一步地,电子设备具体可以利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;将每个字的更新后表征与预设第三参数向量进行相乘,得到每个字的预测概率;对每个字的预测概率进行概率分布转换,得到每个字表征问题样本的概率;获取问题样本对应的答案样本中初始字概率和结束字概率;基于所述初始字概率和所述结束字概率对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
比如,通过这个模型的多个子层得到了每个token的最新表征{V_token}。然后通过以下公式得到每个token的logit和prob(概率):
Logiti=v*embi
Pi=softmax(Logiti)
其中,v是一个待学习的参数向量,emb就是V_token。在得到了答案的start token和end token的概率P后,就可以通过以下公式得到训练loss:
Loss=-logPstart-logPend
直到Loss收敛,得到训练后阅读理解模型。
(四)利用训练好的实体链接模型、图谱预训练模型和阅读理解模型,便可以对待处理阅读理解进行信息处理,具体可以参见图2b。
如图2b所示,一种信息处理方法,具体流程可以如下:
201、电子设备获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征。
其中,所述待处理阅读理解包括文本信息和问题信息。
例如,电子设备具体可以获取待处理阅读理解,所述待处理阅读理解包括文本信息和问题信息,将所述文本信息和问题信息转换成字序列,得到所述待处理阅读理解中每个字的初始表征。比如,可以将问题和段落处理成token序列,也就是拆成一个一个的字序列,得到每个字的初始表征。
202、电子设备利用实体链接模型对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组。
例如,电子设备具体可以将所述待处理阅读理解中的实体提及链接到实体链接模型,得到至少一个候选实体;对所述候选实体进行排序,根据排序结果从所述候选实体中确定第一预设数量的目标实体;从所述实体链接模型中获取所述目标实体第二预设数量的三元组,将获取到的三元组确定为所述目标实体对应的目标三元组。
比如,第一预设数量可以为K,K可以为10,第二预设数量可以为M,M可以为20。
203、电子设备利用图谱预训练模型对所述目标三元组进行向量化,得到每个目标三元组的头实体向量、关系向量和尾实体向量。
例如,所述目标三元组可以包括头实体、关系和尾实体,电子设备具体可以利用图谱预训练模型对每个目标三元组的头实体、关系和尾实体进行向量化,得到每个目标三元组的头实体向量、关系向量和尾实体向量。
204、电子设备基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行融合,得到每个目标三元组的融合后向量。
例如,电子设备具体可以基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行拼接,得到每个目标三元组的拼接后向量;对每个目标三元组的拼接后向量进行全连接变换,得到每个目标三元组的融合后向量。
205、电子设备将所述目标实体的所有目标三元组的融合后向量进行加权求和,得到所述目标实体的融合后三元组。
例如,电子设备具体可以利用第一参数向量与每个目标三元组的融合后向量计算内积,得到每个目标三元组出现的概率值;将所述目标实体的所有目标三元组的概率值进行概率分布转换,得到每个目标三元组的权重;利用每个目标三元组的权重对所述目标实体的所有目标三元组进行加权求和,得到所述目标实体的融合后三元组。其中,第一参数向量根据训练后阅读理解模型确定。
206、电子设备将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征。
例如,电子设备具体可以对所有目标实体的融合后三元组进行加权求和,得到实体融合集;将所述实体提及中每个字的初始表征与所述实体融合集进行拼接,得到拼接后实体集;将所述拼接后实体集与每个字的初始表征进行归一化处理,生成所述实体提及的融合后表征。
比如,电子设备具体可以利用第二参数向量与每个目标实体的融合后三元组计算内积,得到每个目标实体出现的概率值;将所述实体提及的所有目标实体的概率值进行概率分布转换,得到每个目标实体的权重;利用每个目标实体的权重对所述实体提及的所有目标实体进行加权求和,得到所述实体提及的实体融合集。其中,第二参数向量根据训练后阅读理解模型确定。
207、电子设备利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征。
比如,电子设备具体可以利用新的token表征去更新每个字的初始表征,得到每个字的更新后表征,比如,有新的token表征的字就更新,没有的就将初始表征直接作为更新后表征。
208、电子设备基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
例如,电子设备具体可以将每个字的更新后表征与第三参数向量进行相乘,得到每个字的预测概率;对每个字的预测概率进行概率分布转换,得到每个字表征问题信息的概率;根据每个字表征问题信息的概率预测所述问题信息的开始位置和结束位置,得到所述问题信息对应的答案信息。其中,第三参数向量根据训练后阅读理解模型确定。
例如,在区间答案式的阅读理解中,可以根据每个token的概率确定答案的起始位置和终止位置,比如,可以将概率最高的两个token确定为答案的起始位置和终止位置。
由于纯MRC召回比较高但是准确比较低,而基于知识图谱方法准确较高但是召回较低,该方案通过对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量,再利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里,结合了知识图谱和机器阅读理解的优势。实践表明,这个新的MRC模型的效果相较于传统MRC模型是有显著的提升。该方案可以应用在知识问答服务上面,比如,可以服务于搜一搜功能。
由上可知,本实施例可以获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。该方案通过对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量,再利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里,由于该方案通过在MRC模型里融入知识图谱知识,结合了知识图谱和机器阅读理解两者的优势,相对于单纯的只依靠文本来寻找答案效果,大大提升了阅读理解的效率和准确性,进而提升了信息处理的效率,提高了信息处理的准确性。
为了更好地实施以上方法,相应的,本申请实施例还提供一种信息处理装置,该信息处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
例如,如图3所示,该信息处理装置可以包括获取单元301、链接单元302、第一融合单元303、第二融合单元304和计算单元305,如下:
获取单元301,用于获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;
链接单元302,用于对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;
第一融合单元303,用于基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;
第二融合单元304,用于将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;
计算单元305,用于基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
可选的,在一些实施例中,所述链接单元302,具体可以用于将所述待处理阅读理解中的实体提及链接到实体链接模型,得到至少一个候选实体;对所述候选实体进行排序,根据排序结果从所述候选实体中确定第一预设数量的目标实体;从所述实体链接模型中获取所述目标实体第二预设数量的三元组,将获取到的三元组确定为所述目标实体对应的目标三元组。
可选的,在一些实施例中,所述信息处理装置还可以包括链接训练单元,所述链接训练单元,具体可以用于获取链接训练样本集,所述链接训练样本集包括文本样本和已标注实体链接的数据集;对所述文本样本中的实体提及链接到预设链接模型中,得到预测实体链接结果;基于所述预测实体链接结果与所述已标注实体链接的数据集对所述预设链接模型进行训练,得到实体链接模型。
可选的,在一些实施例中,所述目标三元组包括头实体、关系和尾实体,所述第一融合单元303可以包括向量子单元、融合子单元和求和子单元,如下:
所述向量子单元,具体可以用于利用图谱预训练模型对所述目标三元组进行向量化,得到每个目标三元组的头实体向量、关系向量和尾实体向量;
所述融合子单元,具体可以用于基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行融合,得到每个目标三元组的融合后向量;
所述求和子单元,具体可以用于将所述目标实体的所有目标三元组的融合后向量进行加权求和,得到所述目标实体的融合后三元组。
可选的,在一些实施例中,所述融合子单元,具体可以用于基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行拼接,得到每个目标三元组的拼接后向量;对每个目标三元组的拼接后向量进行全连接变换,得到每个目标三元组的融合后向量。
可选的,在一些实施例中,所述求和子单元,具体可以用于利用第一参数向量与每个目标三元组的融合后向量计算内积,得到每个目标三元组出现的概率值;将所述目标实体的所有目标三元组的概率值进行概率分布转换,得到每个目标三元组的权重;利用每个目标三元组的权重对所述目标实体的所有目标三元组进行加权求和,得到所述目标实体的融合后三元组。
可选的,在一些实施例中,所述信息处理装置还可以包括图谱训练单元,所述图谱训练单元,具体可以用于获取至少一组正样本和负样本,所述正样本包括正确的实体关系,所述负样本包括错误的实体关系;根据正确的实体关系和错误的实体关系构建预设图谱模型的损失函数;基于所述损失函数对所述预设图谱模型进行收敛,得到图谱预训练模型。
可选的,在一些实施例中,所述信息处理装置还可以包括模型训练单元,所述图谱训练单元可以包括获取子单元和训练子单元,如下:
所述获取子单元,具体可以用于获取阅读理解样本,所述阅读理解样本包括问题样本和文本样本;
所述训练子单元,具体可以用于利用实体链接模型对所述阅读理解样本中实体提及样本进行实体链接,得到至少一个实体样本,以及所述实体样本对应的至少一个三元组样本;基于预设阅读理解模型将每个实体样本对应的三元组样本与所述实体提及样本中的每个字进行融合,生成每个实体提及样本的融合后表征;基于所述实体提及样本的融合后表征和所述问题样本对应的答案样本对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
可选的,在一些实施例中,所述训练子单元,具体可以用于基于预设阅读理解模型将每个实体样本对应的三元组样本进行融合,得到每个实体样本的融合后三元组;将所述实体提及样本中的每个字与所述实体样本的融合后三元组进行融合,生成每个实体提及样本的融合后表征。
可选的,在一些实施例中,所述训练子单元,具体可以用于获取所述阅读理解样本中每个字的初始表征,利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;基于所述更新后表征计算每个字表征问题样本的概率,根据计算结果获取问题样本对应的答案样本中初始字概率和结束字概率;基于所述初始字概率和所述结束字概率对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
可选的,在一些实施例中,所述第二融合单元304可以包括拼接单元和归一化子单元,如下:
拼接子单元,用于对所有目标实体的融合后三元组进行加权求和,得到实体融合集;将所述实体提及中每个字的初始表征与所述实体融合集进行拼接,得到拼接后实体集;
归一化子单元,用于将所述拼接后实体集与每个字的初始表征进行归一化处理,生成所述实体提及的融合后表征。
可选的,在一些实施例中,所述拼接子单元,具体可以用于利用第二参数向量与每个目标实体的融合后三元组计算内积,得到每个目标实体出现的概率值;将所述实体提及的所有目标实体的概率值进行概率分布转换,得到每个目标实体的权重;利用每个目标实体的权重对所述实体提及的所有目标实体进行加权求和,得到所述实体提及的实体融合集。
可选的,在一些实施例中,所述计算单元305,具体可以用于将每个字的更新后表征与第三参数向量进行相乘,得到每个字的预测概率;对每个字的预测概率进行概率分布转换,得到每个字表征问题信息的概率;根据每个字表征问题信息的概率预测所述问题信息的开始位置和结束位置,得到所述问题信息对应的答案信息。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例可以由获取单元301获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,由链接单元302对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,由第一融合单元303基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,由第二融合单元304将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,由计算单元305基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。该方案通过对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量,再利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里,由于该方案通过在MRC模型里融入知识图谱知识,结合了知识图谱和机器阅读理解两者的优势,相对于单纯的只依靠文本来寻找答案效果,大大提升了阅读理解的效率和准确性,进而提升了信息处理的效率,提高了信息处理的准确性。
此外,本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。该方案通过对知识图谱做一个表示预训练,获得实体以及关系的初始表示向量,再利用实体链接技术将MRC段落里的实体mention链接到图谱里的实体。最后,在模型里设计了一个知识融合层将这些图谱知识融入到模型里,由于该方案通过在MRC模型里融入知识图谱知识,结合了知识图谱和机器阅读理解两者的优势,相对于单纯的只依靠文本来寻找答案效果,大大提升了阅读理解的效率和准确性,进而提升了信息处理的效率,提高了信息处理的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;接着,对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;然后,基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;再接着,将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;再然后,基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述信息处理方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种信息处理方法、装置、电子设备、存储介质及程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (17)
1.一种信息处理方法,其特征在于,包括:
获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;
对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;
基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;
将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;
基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组,包括:
将所述待处理阅读理解中的实体提及链接到实体链接模型,得到至少一个候选实体;
对所述候选实体进行排序,根据排序结果从所述候选实体中确定第一预设数量的目标实体;
从所述实体链接模型中获取所述目标实体第二预设数量的三元组,将获取到的三元组确定为所述目标实体对应的目标三元组。
3.根据权利要求2所述的方法,其特征在于,所述将所述待处理阅读理解中的实体提及链接到实体链接模型之前,还包括:
获取链接训练样本集,所述链接训练样本集包括文本样本和已标注实体链接的数据集;
对所述文本样本中的实体提及链接到预设链接模型中,得到预测实体链接结果;
基于所述预测实体链接结果与所述已标注实体链接的数据集对所述预设链接模型进行训练,得到实体链接模型。
4.根据权利要求1所述的方法,其特征在于,所述目标三元组包括头实体、关系和尾实体,所述基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组,包括:
利用图谱预训练模型对所述目标三元组进行向量化,得到每个目标三元组的头实体向量、关系向量和尾实体向量;
基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行融合,得到每个目标三元组的融合后向量;
将所述目标实体的所有目标三元组的融合后向量进行加权求和,得到所述目标实体的融合后三元组。
5.根据权利要求4所述的方法,其特征在于,所述基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行融合,得到每个目标三元组的融合后向量,包括:
基于训练后阅读理解模型将每个目标三元组对应的头实体向量、关系向量和尾实体向量进行拼接,得到每个目标三元组的拼接后向量;
对每个目标三元组的拼接后向量进行全连接变换,得到每个目标三元组的融合后向量。
6.根据权利要求4所述的方法,其特征在于,所述将所述目标实体的所有目标三元组的融合后向量进行加权求和,得到所述目标实体的融合后三元组,包括:
利用第一参数向量与每个目标三元组的融合后向量计算内积,得到每个目标三元组出现的概率值;
将所述目标实体的所有目标三元组的概率值进行概率分布转换,得到每个目标三元组的权重;
利用每个目标三元组的权重对所述目标实体的所有目标三元组进行加权求和,得到所述目标实体的融合后三元组。
7.根据权利要求4所述的方法,其特征在于,所述利用图谱预训练模型对所述目标三元组进行向量化之前,还包括:
获取至少一组正样本和负样本,所述正样本包括正确的实体关系,所述负样本包括错误的实体关系;
根据正确的实体关系和错误的实体关系构建预设图谱模型的损失函数;
基于所述损失函数对所述预设图谱模型进行收敛,得到图谱预训练模型。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合之前,还包括:
获取阅读理解样本,所述阅读理解样本包括问题样本和文本样本;
利用实体链接模型对所述阅读理解样本中实体提及样本进行实体链接,得到至少一个实体样本,以及所述实体样本对应的至少一个三元组样本;
基于预设阅读理解模型将每个实体样本对应的三元组样本与所述实体提及样本中的每个字进行融合,生成每个实体提及样本的融合后表征;
基于所述实体提及样本的融合后表征和所述问题样本对应的答案样本对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
9.根据权利要求8所述的方法,其特征在于,所述基于预设阅读理解模型将每个实体样本对应的三元组样本与所述实体提及样本中的每个字进行融合,生成每个实体提及样本的融合后表征,包括:
基于预设阅读理解模型将每个实体样本对应的三元组样本进行融合,得到每个实体样本的融合后三元组;
将所述实体提及样本中的每个字与所述实体样本的融合后三元组进行融合,生成每个实体提及样本的融合后表征。
10.根据权利要求8所述的方法,其特征在于,所述基于所述实体提及样本的融合后表征和所述问题样本对应的答案样本对所述预设阅读理解模型进行训练,得到训练后阅读理解模型,包括:
获取所述阅读理解样本中每个字的初始表征,利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;
基于所述更新后表征计算每个字表征问题样本的概率,根据计算结果获取问题样本对应的答案样本中初始字概率和结束字概率;
基于所述初始字概率和所述结束字概率对所述预设阅读理解模型进行训练,得到训练后阅读理解模型。
11.根据权利要求1至7任意一项所述的方法,其特征在于,所述将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,包括:
对所有目标实体的融合后三元组进行加权求和,得到实体融合集;
将所述实体提及中每个字的初始表征与所述实体融合集进行拼接,得到拼接后实体集;
将所述拼接后实体集与每个字的初始表征进行归一化处理,生成所述实体提及的融合后表征。
12.根据权利要求11所述的方法,其特征在于,所述对所有目标实体的融合后三元组进行加权求和,得到实体融合集,包括:
利用第二参数向量与每个目标实体的融合后三元组计算内积,得到每个目标实体出现的概率值;
将所述实体提及的所有目标实体的概率值进行概率分布转换,得到每个目标实体的权重;
利用每个目标实体的权重对所述实体提及的所有目标实体进行加权求和,得到所述实体提及的实体融合集。
13.根据权利要求1至7任意一项所述的方法,其特征在于,所述基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息,包括:
将每个字的更新后表征与第三参数向量进行相乘,得到每个字的预测概率;
对每个字的预测概率进行概率分布转换,得到每个字表征问题信息的概率;
根据每个字表征问题信息的概率预测所述问题信息的开始位置和结束位置,得到所述问题信息对应的答案信息。
14.一种信息处理装置,其特征在于,包括:
获取单元,用于获取待处理阅读理解,以及所述待处理阅读理解中每个字的初始表征,所述待处理阅读理解包括文本信息和问题信息;
链接单元,用于对所述待处理阅读理解中的实体提及进行实体链接,得到所述实体提及的至少一个目标实体,以及所述目标实体对应的至少一个目标三元组;
第一融合单元,用于基于训练后阅读理解模型将每个目标实体对应的目标三元组进行融合,得到每个目标实体的融合后三元组;
第二融合单元,用于将所述实体提及中的每个字与所述目标实体的融合后三元组进行融合,生成每个实体提及的融合后表征,并利用所述融合后表征更新每个字的初始表征,得到每个字的更新后表征;
计算单元,用于基于所述更新后表征计算文本信息中每个字表征问题信息的概率,根据计算结果确定所述问题信息对应的答案信息。
15.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至13任一项所述的信息处理方法中的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至13中任一项所述的信息处理方法中的步骤。
17.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至13任一项所述的信息处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310316546.7A CN116975215A (zh) | 2023-03-22 | 2023-03-22 | 信息处理方法、装置、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310316546.7A CN116975215A (zh) | 2023-03-22 | 2023-03-22 | 信息处理方法、装置、电子设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975215A true CN116975215A (zh) | 2023-10-31 |
Family
ID=88475559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310316546.7A Pending CN116975215A (zh) | 2023-03-22 | 2023-03-22 | 信息处理方法、装置、电子设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975215A (zh) |
-
2023
- 2023-03-22 CN CN202310316546.7A patent/CN116975215A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334354B (zh) | 一种中文关系抽取方法 | |
CN111078836B (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN110083705A (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN112232086A (zh) | 一种语义识别方法、装置、计算机设备及存储介质 | |
CN111782769A (zh) | 基于关系预测的知识图谱智能问答方法 | |
CN117149984B (zh) | 一种基于大模型思维链的定制化培训方法及装置 | |
CN112905762B (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN115795018B (zh) | 一种面向电网领域的多策略智能搜索问答方法及系统 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN110502613A (zh) | 一种模型训练方法、智能检索方法、装置和存储介质 | |
CN116976283A (zh) | 语言处理方法、训练方法、装置、设备、介质及程序产品 | |
CN111581365A (zh) | 一种谓词抽取方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 | |
CN117033646A (zh) | 信息查询方法、装置、电子设备及计算机可读存储介质 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
CN115186105A (zh) | 实体链接方法及装置 | |
CN112052320B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN116975215A (zh) | 信息处理方法、装置、电子设备、存储介质及程序产品 | |
CN113821610A (zh) | 信息匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |