CN116738974B - 一种基于泛化因果网络的语言模型生成方法、设备及介质 - Google Patents
一种基于泛化因果网络的语言模型生成方法、设备及介质 Download PDFInfo
- Publication number
- CN116738974B CN116738974B CN202310534521.4A CN202310534521A CN116738974B CN 116738974 B CN116738974 B CN 116738974B CN 202310534521 A CN202310534521 A CN 202310534521A CN 116738974 B CN116738974 B CN 116738974B
- Authority
- CN
- China
- Prior art keywords
- language model
- event
- generalization
- sequence
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 25
- 238000003058 natural language processing Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 20
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种基于泛化因果网络的语言模型生成方法、设备及介质,属于语法分析技术领域。该方法对待处理语句进行事件预处理,以得到共指消解数据。基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配得到事件序列;将Token序列及事件序列进行对齐处理,以使Token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。基于语言模型MLM及学习上下文关系NSP,对初始泛化因果语言模型进行预训练,以将模型使用的调用接口标识发送至用户终端。解决当前语言模型完成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的技术问题。
Description
技术领域
本申请涉及语法分析技术领域,尤其涉及一种基于泛化因果网络的语言模型生成方法、设备及介质。
背景技术
语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。
目前,语言模型自身并未实现因果事件推理能力,若要使语言模型实现因果事件推理,需要将与因果事件对应的模型与语言模型进行联合任务,从而使语言模型能够进行一定地因果事件推理。然而,外部因果事件模型知识引入语言模型,只是起到对语言模型的微调作用,即在语言模型使用前,根据外部因果事件模型,对语言模型的权重参数进行调整,若在将语言模型应用一全新的文本,需要通过新的外部因果事件模型,对语言模型重新微调。
一方面,上述微调过程需要将两个不同模型进行联合,联合过程繁琐,联合后的模型准确性无法保障,语言模型使用任务可能产生用户等待期,用户体验度差;再一方面,执行新的任务时,语言模型内部权重参数,可能需要重新调参,可能会使语言模型调参频繁,并增大语言模型的资源占用量,且调参过程也会使得语言模型生成并应用的效率低。
发明内容
本申请实施例提供了一种基于泛化因果网络的语言模型生成方法、设备及介质,用于解决当前语言模型完成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的技术问题。
一方面,本申请实施例提供了一种基于泛化因果网络的语言模型生成方法,该方法包括:
获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;
对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;
基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;
将所述待处理语句相应的Token序列及所述事件序列进行对齐处理,以使所述Token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;
基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,以将预训练完成的泛化因果网络增强语言模型的调用接口标识,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。
在本申请的一种实现方式中,对待处理语句进行事件预处理,以得到相应的共指消解数据之前,所述方法还包括:
通过预设自然语言处理工具,将原语料进行执行自然语言处理NLP任务,以得到所述待处理语句;其中,所述NLP任务处理至少包括:分句、分词、事件抽取、依存句法解析、词性标注、谓语语法依赖关系抽取;所述分句、所述分词基于OpenNLP执行。
在本申请的一种实现方式中,基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列,具体包括:
通过深度游走DeepWalk算法,生成所述待处理语句相应的所述预置事件词典;其中,所述预置事件词典包括事件、事件序列值;
根据所述共指消解数据中的所述谓语语法依赖关系及所述事件词典逻辑优先级列表,确定相应的事件词典优先级;其中,所述谓语语法依赖关系至少包括:包含介词短语、主语包含共指消解实体、宾语包含共指消解实体、没有宾语、没有主语;
根据所述谓语语法依赖关系及所述事件词典优先级,匹配所述预置事件词典中所述待处理语句相应的事件序列。
在本申请的一种实现方式中,将所述待处理语句相应的Token序列及所述事件序列进行对齐处理,具体包括:
根据所述Token序列的词嵌入数据、位置嵌入数据、段嵌入数据,确定第一语义序列;
将所述第一语义序列、所述事件序列依次输入预先训练的融合编码器,以通过预设对齐函数,将所述待处理语句相应的Token序列及所述事件序列进行对齐处理;其中,所述对齐处理后的所述事件序列与所述第一语义序列的序列长度相等。
在本申请的一种实现方式中,将所述待处理语句相应的Token序列及所述事件序列进行对齐处理之后,所述方法还包括:
将对齐处理后的所述待处理语句相应的Token序列及所述事件序列,作为第一对齐序列;
通过所述融合编码器的多层自注意力模型,将各层所述第一对齐序列进行叠加、递归处理,并将高斯误差线性单元GELU作为激活函数,以得到所述初始泛化因果语言模型。
在本申请的一种实现方式中,基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,具体包括:
通过所述MLM,将预训练样本数据进行随机映射,以对所述预训练样本数据进行遮掩;
将遮掩后的所述预训练样本数据输入所述初始泛化因果语言模型,以将第一维度的Token序列压缩为第二维度;所述第二维度为实体嵌入的隐藏层维度;以及
确定所述第二维度的Token序列与共指消解实体的对应分值;
基于所述对应分值,确定所述初始泛化因果语言模型相应的损失函数值。
在本申请的一种实现方式中,基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,具体包括:
通过所述NSP,确定所述预训练样本数据的句子关系数据;
基于所述MLM及所述句子关系数据,对所述初始泛化因果语言模型进行预训练。
在本申请的一种实现方式中,所述方法还包括:
通过所述调用接口标识相应的调用接口,获取来自所述用户终端的所述文本预测任务中股票新闻文本及其事件链中多个事件;
将所述多个事件输入至预训练完成的所述泛化因果网络增强语言模型;
将所述泛化因果网络增强语言模型输出的预测结果,发送至用户终端。
另一方面,本申请实施例还提供了一种基于泛化因果网络的语言模型生成设备,所述设备包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;
对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;
基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;
将所述待处理语句相应的Token序列及所述事件序列进行对齐处理,以使所述Token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;
基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。
再一方面,本申请实施例还提供了一种基于泛化因果网络的语言模型生成非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;
对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;
基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;
将所述待处理语句相应的Token序列及所述事件序列进行对齐处理,以使所述Token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;
基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。
通过上述技术方案,本申请将Token序列与事件序列对齐处理,进而Token序列与共指消解数据映射至同一向量空间,并通过MLM及NSP的预训练得到泛化因果网络增强语言模型。使得泛化因果网络增强语言模型具有因果推理能力,并能够精准地对事件进行预测,提升语言模型对事件推理的准确率。本申请不需要外部因果事件模型进行微调语言模型,降低了语言模型复杂度及用户使用的繁琐程度,提高了用户对语言模型的使用体验。解决了当前语言模型完成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的技术问题。
此外,本申请提供的技术方案,训练所需时间及训练数量集少,能够高效地得到泛化因果网络增强语言模型。针对特定NLP任务增加新的微调(Fine-Tune)训练目标进行训练即可,在训练成本开销上也比较低。模型利用知识增强来解决实际的问题,可以有效解决样本数量不足的情况,提高模型对领域的先验知识利用率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种基于泛化因果网络的语言模型生成方法的一种流程示意图;
图2为本申请实施例中一种基于泛化因果网络的语言模型生成设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种基于泛化因果网络的语言模型生成方法、设备及介质,用来克服当前语言模型缺少因果推理能力,对于事件预测准确率低的问题。
以下结合附图,详细说明本申请的各个实施例。
本申请实施例提供了一种基于泛化因果网络的语言模型生成方法,如图1所示,该方法可以包括步骤S101-S104:
S101,服务器获取若干训练文本集合,并对训练文本集合中的待处理语句进行事件预处理,以得到相应的共指消解数据。
其中,训练文本集合包括若干待处理语句;待处理语句至少包括具有谓语语法依赖关系的句子。事件预处理至少用于确定共指消解的实体、实体的谓语语法依赖关系及共指消解的事件;谓语语法依赖关系是基于共指消解的实体中名词词语出现频率及名词出现位置确定的;共指消解数据包括共指消解的实体及事件。
需要说明的是,服务器作为基于泛化因果网络的语言模型生成方法的执行主体,仅为示例性存在,执行主体不仅限于服务器,本申请对此不作具体限定。
在本申请实施例中,对待处理语句进行事件预处理,以得到相应的共指消解数据之前,方法还包括:
服务器通过预设自然语言处理工具,将原语料进行执行自然语言处理(NaturalLanguage Processing,NLP)任务,以得到待处理语句。其中,NLP任务处理至少包括:分句、分词、事件抽取、依存句法解析、词性标注、谓语语法依赖关系抽取。分句、分词基于OpenNLP执行。
本申请采用无监督的叙事事件链的抽取方式,进行事件抽取,并使用OpenNLP的分句及分词模型进行分句、分词处理。服务器还可以通过OpenNLP对分词后的语料进行依存句法解析处理,接着通过词性标注工具(如Clark和Curran 2007年提出的标准解析模型)进行词性标注,以及谓语语法依赖关系predicate-GR的抽取。
进一步地,服务器调用OpenNLP的共指消解,对待处理语句进行事件预处理,得到共指消解后的实体,并基于实体中名词词语出现频率及名词出现位置,确定谓语语法依赖关系,如predicate-GR中是主谓predicate_subj还是宾谓predicate_obj。接着,服务器确定执行共指消解后的事件。
S102,服务器基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列。
在本申请实施例中,基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列,具体包括:
首先,服务器通过深度游走DeepWalk算法,生成待处理语句相应的预置事件词典。其中,预置事件词典包括事件、事件序列值。
换言之,服务器使用DeepWalk构建Event事件词典,例如原语料为“Tributessepsepsep poured sepsepsep in from around the world”,通过DeepWalk算法得到动词poured对应的事件词典,具体如表1所示:
表1
事件序列值 | 事件 |
69190 | poured_obj |
69191 | poured_prep_as |
69192 | poured_prep_at |
69193 | poured_prep_for |
69194 | poured_prep_from |
69195 | poured_prep_in |
69196 | poured_prep_into |
69197 | poured_prep_of |
69198 | poured_prep_on |
69199 | poured_prep_onto |
随后,服务器根据共指消解数据中的谓语语法依赖关系及事件词典逻辑优先级列表,确定相应的事件词典优先级。
其中,谓语语法依赖关系至少包括:包含介词短语、主语包含共指消解实体、宾语包含共指消解实体、没有宾语、没有主语。
本申请利用的共指消解的实体都具有相对重要的作用,其会在语料的上下文中被反复提及,会被作为判定predicate-GR中predicate subj还是predicate obj的重要依据。
服务器从与服务器连接的数据库中,获取事件词典逻辑优先级列表,并可以根据已经确定的谓语语法依赖关系,得到事件词典优先级。事件词典逻辑优先级列表具体如下表2:
表2
上述原事件对应于共指消解实体中的谓语语法依赖关系。
随后,服务器根据谓语语法依赖关系及事件词典优先级,匹配预置事件词典中待处理语句相应的事件序列。
服务器通过上述谓语语法依赖关系及得到的事件词典优先级,查表1即可得到事件序列,包含至少一个事件序列值。
S103,服务器将待处理语句相应的Token序列及事件序列进行对齐处理,以使Token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。
假设Token序列为{t1,t2,t3,t4……tn},n为Token序列的长度,对应的事件序列为{e1,e2,e3,e4……em},m为事件序列的长度。在大多数情况下n不等于m,也就是说不是每一个Token对应一个事件,因此需要进行对齐。
在本申请实施例中,将待处理语句相应的Token序列及事件序列进行对齐处理,具体包括:
服务器根据Token序列的词嵌入数据、位置嵌入数据、段嵌入数据,确定第一语义序列。将第一语义序列、事件序列依次输入预先训练的融合编码器,以通过预设对齐函数,将待处理语句相应的Token序列及事件序列进行对齐处理。其中,对齐处理后的事件序列与第一语义序列的序列长度相等。
也就是说,Token序列包含词嵌入数据、位置嵌入数据、段嵌入数据,如WordEmbeddings、Position Embeddings、Token Type Embeddings,本申请将词嵌入数据、位置嵌入数据、段嵌入数据相应序列进行求和,得到第一语义序列{t1,t2,t3,t4……tn}。然后,服务器将第一语义序列输入到融合编码器Fusion Encoder。该融合编码器包含多层双向注意力模型,其中的多层Token层及实体层Entity Layer均包含自注意力模型。第一语义序列经过Token层后得到T-Encoder(编码器),接着与经过预设对齐函数的事件序列,一同经过混合层及实体层,得到E-Encoder,从而使Token序列与事件序列完成融合。
其中,对齐函数为falignment({e1,e2,e3,e4……em})={e1,e2,e3,e4……en}。
在服务器将待处理语句相应的Token序列及事件序列进行对齐处理之后,方法还包括:
将对齐处理后的待处理语句相应的Token序列及事件序列,作为第一对齐序列。通过融合编码器的多层自注意力模型,将各层第一对齐序列进行叠加、递归处理,并将高斯误差线性单元(Gaussian Error Linerar Unit,GELU)作为激活函数,以得到初始泛化因果语言模型。
也就是说,在得到上述融合后的Token序列与事件序列的情况下,服务器通过n层Layer进行叠加,递归调用,将Token与实体的信息整合,并使用GELU进行输出各层的Token序列及事件序列。
S104,服务器基于语言模型(Marked Language Model,MLM)及学习上下文关系(Next Sentence Prediction,NSP),对初始泛化因果语言模型进行预训练,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过用户终端,调用泛化因果网络增强语言模型进行文本预测任务。
对初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端。损失函数值为预训练过程中的损失函数的函数值,预设值为用户在实际使用过程中设定的,本申请对此不作具体限定。
在本申请实施例中,基于语言模型MLM及学习上下文关系NSP,对初始泛化因果语言模型进行预训练,具体包括:
首先,服务器通过MLM,将预训练样本数据进行随机映射,以对预训练样本数据进行遮掩。
MLM就是随机对样本数据中的部分单次进行遮掩,然后使用模型在给定的词典中预测该位置的词,并计算被遮掩的词的损失。
具体地,对输入x通过随机映射(stochasitc mapping)进行遮挡得到/>在实验中,使用如下的遮掩形式,对于每一个输入x,给定一个遮掩的随机比例v,将被遮掩到的值完全移除掉,剩下的保持不变。遮掩后的输入/>通过自编码器映射到y,进一步重建与y相应的z,并构建x与z的平方误差损失。
需要说明的是,重建后的z应该尽可能与原样本输入x接近,但z不是x的函数,而是x的随机映射的确定性函数。
接着,服务器将遮掩后的预训练样本数据输入初始泛化因果语言模型,以将第一维度的Token序列压缩为第二维度。第二维度为实体嵌入的隐藏层维度。
在本申请实施例中,本申请采用了遮掩策略:
1)80%概率保持原样。
2)10%概率将和Token对齐的共指消解的实体Entity遮掩,设置为-1,期望模型能够校正没有被抽取出来的Entity。
3)10%概率将Token对齐的实体Entity替换为其他Entity,期望模型具备一定的纠错能力。
将第一维度如768维的Token序列压缩为实体嵌入的隐藏层维度,第二维度如128维度。
随后,服务器确定第二维度的Token序列与共指消解实体的对应分值。
服务器可以通过计算点乘的方式,得到Token序列与共指消解实体的对应分值。
随后,服务器基于对应分值,确定初始泛化因果语言模型相应的损失函数值。
其中,服务器可以通过调用对数交叉熵,进行计算最终的重构损失。
在本申请实施例中,基于语言模型MLM及学习上下文关系NSP,对初始泛化因果语言模型进行预训练,具体包括:
服务器通过NSP,确定预训练样本数据的句子关系数据。基于MLM及句子关系数据,对初始泛化因果语言模型进行预训练。
通过引入NSP作为联合训练任务,使得预训练样本数据增加句子之间的联系,从而更便于事件推理。
本申请通过上述MLM遮掩方案的预训练模型,可以避免预训练目标和语言模型微调的目标偏差。
在本申请的一个实施例中,上述技术方案可以应用与股票预测,例如以某一天股票新闻文本,预测其后一天的股票价格,具体如下:
服务器通过调用接口,获取来自用户终端的文本预测任务中股票新闻文本及其事件链中多个事件。将多个事件输入至预训练完成的泛化因果网络增强语言模型。将泛化因果网络增强语言模型输出的预测结果,发送至用户终端。
换言之,通过本申请的泛化因果网络增强语言模型,进行股票新闻文本相应的股票价格进行预测时,需要利用若干股票新闻文本及相应的股票价格标签,对泛化因果网络增强语言模型进行训练。由于该模型结合泛化因果网络,能够使股票新闻文本与股票价格标签之间存在因果事件推理关系,从而在后续预测时,更加准确地预测股票新闻文本相应的预测结果。
本申请通过上述技术方案,将Token序列与事件序列对齐处理,进而Token序列与共指消解数据映射至同一向量空间,并通过MLM及NSP的预训练得到泛化因果网络增强语言模型。使得泛化因果网络增强语言模型具有因果推理能力,并能够精准地对事件进行预测。此外,本申请提供的技术方案,训练所需时间及训练数量集少,能够高效地得到泛化因果网络增强语言模型。本申请不需要外部因果事件模型进行微调语言模型,降低了语言模型复杂度及用户使用的繁琐程度,提高了用户对语言模型的使用体验。解决了当前语言模型完成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的问题。
图2为本申请实施例提供的一种基于泛化因果网络的语言模型生成设备的结构示意图,如图2所示,设备包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取若干训练文本集合。其中,训练文本集合包括若干待处理语句。待处理语句至少包括具有谓语语法依赖关系的句子。对待处理语句进行事件预处理,以得到相应的共指消解数据。其中,事件预处理至少用于确定共指消解的实体、实体的谓语语法依赖关系及共指消解的事件。谓语语法依赖关系是基于共指消解的实体中名词词语出现频率及名词出现位置确定的。共指消解数据包括共指消解的实体及事件。基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列。将待处理语句相应的Token序列及事件序列进行对齐处理,以使Token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。基于语言模型MLM及学习上下文关系NSP,对初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端。
本申请实施例还提供了一种基于泛化因果网络的语言模型生成非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
获取若干训练文本集合。其中,训练文本集合包括若干待处理语句。待处理语句至少包括具有谓语语法依赖关系的句子。对待处理语句进行事件预处理,以得到相应的共指消解数据。其中,事件预处理至少用于确定共指消解的实体、实体的谓语语法依赖关系及共指消解的事件。谓语语法依赖关系是基于共指消解的实体中名词词语出现频率及名词出现位置确定的。共指消解数据包括共指消解的实体及事件。基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列。将待处理语句相应的Token序列及事件序列进行对齐处理,以使Token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。基于语言模型MLM及学习上下文关系NSP,对初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (7)
1.一种基于泛化因果网络的语言模型生成方法,其特征在于,所述方法包括:
获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;
对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;
基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;
将所述待处理语句相应的Token序列及所述事件序列进行对齐处理,以使所述Token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;
基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,以将预训练完成的泛化因果网络增强语言模型的调用接口标识,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务;
其中,基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列,具体包括:
通过深度游走DeepWalk算法,生成所述待处理语句相应的所述预置事件词典;其中,所述预置事件词典包括事件、事件序列值;
根据所述共指消解数据中的所述谓语语法依赖关系及所述事件词典逻辑优先级列表,确定相应的事件词典优先级;其中,所述谓语语法依赖关系至少包括:包含介词短语、主语包含共指消解实体、宾语包含共指消解实体、没有宾语、没有主语;
根据所述谓语语法依赖关系及所述事件词典优先级,匹配所述预置事件词典中所述待处理语句相应的事件序列;
其中,基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,具体包括:
通过所述MLM,将预训练样本数据进行随机映射,以对所述预训练样本数据进行遮掩;
将遮掩后的所述预训练样本数据输入所述初始泛化因果语言模型,以将第一维度的Token序列压缩为第二维度;所述第二维度为实体嵌入的隐藏层维度;以及
确定所述第二维度的Token序列与共指消解实体的对应分值;
基于所述对应分值,确定所述初始泛化因果语言模型相应的损失函数值;
其中,基于语言模型MLM及学习上下文关系NSP,对所述初始泛化因果语言模型进行预训练,具体包括:
通过所述NSP,确定所述预训练样本数据的句子关系数据;
基于所述MLM及所述句子关系数据,对所述初始泛化因果语言模型进行预训练。
2.根据权利要求1所述方法,其特征在于,对所述待处理语句进行事件预处理,以得到相应的共指消解数据之前,所述方法还包括:
通过预设自然语言处理工具,将原语料进行执行自然语言处理NLP任务,以得到所述待处理语句;其中,所述NLP任务处理至少包括:分句、分词、事件抽取、依存句法解析、词性标注、谓语语法依赖关系抽取;所述分句、所述分词基于OpenNLP执行。
3.根据权利要求1所述方法,其特征在于,将所述待处理语句相应的Token序列及所述事件序列进行对齐处理,具体包括:
根据所述Token序列的词嵌入数据、位置嵌入数据、段嵌入数据,确定第一语义序列;
将所述第一语义序列、所述事件序列依次输入预先训练的融合编码器,以通过预设对齐函数,将所述待处理语句相应的Token序列及所述事件序列进行对齐处理;其中,所述对齐处理后的所述事件序列与所述第一语义序列的序列长度相等。
4.根据权利要求3所述方法,其特征在于,将所述待处理语句相应的Token序列及所述事件序列进行对齐处理之后,所述方法还包括:
将对齐处理后的所述待处理语句相应的Token序列及所述事件序列,作为第一对齐序列;
通过所述融合编码器的多层自注意力模型,将各层所述第一对齐序列进行叠加、递归处理,并将高斯误差线性单元GELU作为激活函数,以得到所述初始泛化因果语言模型。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
通过所述调用接口标识相应的调用接口,获取来自所述用户终端的所述文本预测任务中股票新闻文本及其事件链中多个事件;
将所述多个事件输入至预训练完成的所述泛化因果网络增强语言模型;
将所述泛化因果网络增强语言模型输出的预测结果,发送至用户终端。
6.一种基于泛化因果网络的语言模型生成设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述权利要求1-5任一项所述的一种基于泛化因果网络的语言模型生成方法。
7.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够执行如上述权利要求1-5任一项所述的一种基于泛化因果网络的语言模型生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534521.4A CN116738974B (zh) | 2023-05-10 | 2023-05-10 | 一种基于泛化因果网络的语言模型生成方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534521.4A CN116738974B (zh) | 2023-05-10 | 2023-05-10 | 一种基于泛化因果网络的语言模型生成方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116738974A CN116738974A (zh) | 2023-09-12 |
CN116738974B true CN116738974B (zh) | 2024-01-23 |
Family
ID=87906984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310534521.4A Active CN116738974B (zh) | 2023-05-10 | 2023-05-10 | 一种基于泛化因果网络的语言模型生成方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738974B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116974772B (zh) * | 2023-09-21 | 2024-02-27 | 阿里云计算有限公司 | 一种针对大语言模型的资源优化和碳减排方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362682A (zh) * | 2019-06-21 | 2019-10-22 | 厦门美域中央信息科技有限公司 | 一种基于统计机器学习算法的实体共指消解方法 |
CN110781369A (zh) * | 2018-07-11 | 2020-02-11 | 天津大学 | 一种基于依存句法和泛化因果网络进行情感原因挖掘方法 |
CN113919319A (zh) * | 2021-10-15 | 2022-01-11 | 中国人民解放军国防科技大学 | 基于动作场景强化的脚本事件预测方法 |
CN114217766A (zh) * | 2021-12-15 | 2022-03-22 | 北京工业大学 | 基于预训练语言微调与依存特征的半自动需求抽取方法 |
CN114528919A (zh) * | 2022-01-14 | 2022-05-24 | 北京健康之家科技有限公司 | 自然语言处理方法、装置及计算机设备 |
CN114840662A (zh) * | 2021-02-02 | 2022-08-02 | 京东科技控股股份有限公司 | 事件信息抽取方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7813916B2 (en) * | 2003-11-18 | 2010-10-12 | University Of Utah | Acquisition and application of contextual role knowledge for coreference resolution |
-
2023
- 2023-05-10 CN CN202310534521.4A patent/CN116738974B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781369A (zh) * | 2018-07-11 | 2020-02-11 | 天津大学 | 一种基于依存句法和泛化因果网络进行情感原因挖掘方法 |
CN110362682A (zh) * | 2019-06-21 | 2019-10-22 | 厦门美域中央信息科技有限公司 | 一种基于统计机器学习算法的实体共指消解方法 |
CN114840662A (zh) * | 2021-02-02 | 2022-08-02 | 京东科技控股股份有限公司 | 事件信息抽取方法、装置及电子设备 |
CN113919319A (zh) * | 2021-10-15 | 2022-01-11 | 中国人民解放军国防科技大学 | 基于动作场景强化的脚本事件预测方法 |
CN114217766A (zh) * | 2021-12-15 | 2022-03-22 | 北京工业大学 | 基于预训练语言微调与依存特征的半自动需求抽取方法 |
CN114528919A (zh) * | 2022-01-14 | 2022-05-24 | 北京健康之家科技有限公司 | 自然语言处理方法、装置及计算机设备 |
Non-Patent Citations (1)
Title |
---|
事件泛化关键技术及其应用研究;张跃威;中国优秀硕士学位论文全文数据库;第I138-3127页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116738974A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078844B (zh) | 软件众包的任务型对话系统及方法 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
US11526679B2 (en) | Efficient transformer language models with disentangled attention and multi-step decoding | |
CN116738974B (zh) | 一种基于泛化因果网络的语言模型生成方法、设备及介质 | |
CN111339311A (zh) | 基于生成式网络抽取结构化事件的方法、装置与处理器 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
Iparraguirre-Villanueva et al. | Text prediction recurrent neural networks using long shortterm memory-dropout | |
Schumacher et al. | Improving code recommendations by combining neural and classical machine learning approaches | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
Dong et al. | Relational distance and document-level contrastive pre-training based relation extraction model | |
Avdeenko et al. | Intelligent support of requirements management in agile environment | |
CN116702765A (zh) | 一种事件抽取方法、装置及电子设备 | |
WO2023224862A1 (en) | Hybrid model and system for predicting quality and identifying features and entities of risk controls | |
Śmiałek et al. | Comprehensive system for systematic case-driven software reuse | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
CN114239602A (zh) | 会话方法、装置和计算机程序产品 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 | |
CN116227601B (zh) | 一种基于动词时态的泛化因果网络构建方法、设备及介质 | |
CN114169310B (zh) | 一种阅读理解答案生成方法及装置 | |
CN117473961B (zh) | 一种基于大语言模型的市场文案生成方法及系统 | |
CN116227598B (zh) | 一种基于双阶段注意力机制的事件预测方法、设备及介质 | |
CN118277554A (zh) | 属性情感分析方法、装置、电子设备及可读存储介质 | |
CN118132979A (zh) | 文本特征提取模型训练、文本数据处理方法及相关设备 | |
Carta et al. | Towards Knowledge Graph Refinement: Misdirected Triple Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |