CN112699675B - 文本处理方法、装置、设备及计算机可读存储介质 - Google Patents
文本处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112699675B CN112699675B CN202011628768.5A CN202011628768A CN112699675B CN 112699675 B CN112699675 B CN 112699675B CN 202011628768 A CN202011628768 A CN 202011628768A CN 112699675 B CN112699675 B CN 112699675B
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- information
- loss function
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本申请适用于自然语言处理技术领域,提供了文本处理方法、装置、设备及计算机可读存储介质,其中,文本处理方法包括:获取待处理文本和待处理文本的至少两种结构信息;将待处理文本和待处理文本的至少两种结构信息输入文本处理模型中,得到待处理文本的表征向量;其中,文本处理模型是以文本样本和文本样本的至少两种结构信息为输入、以文本样本的表征向量为输出,基于文本损失函数训练得到的模型,文本损失函数由文本样本的第一损失函数和至少两种结构信息分别对应的第二损失函数组成。本申请提供的文本处理方法可以提高文本处理模型的准确性,提高输出的文本的表征向量的准确性。
Description
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种文本处理方法、装置、设备及计算机可读存储介质。
背景技术
自然语言处理主要研究人与计算机通信的语言问题,语言模型的优劣直接影响到文本下游任务的效果。
语料库为语言模型的训练提供数据支撑,使训练后的语言模型具有良好的准确率。在同等语料库资源下,现有的语言模型从语料库中提取到的信息有限,使得语言模型的准确性较低,输出的文本表征信息准确性较低。
发明内容
本申请提供一种文本处理方法、装置、设备及计算机可读存储介质,可以提高文本处理模型的准确性,提高输出的文本的表征向量的准确性。
第一方面,本申请实施例提供了一种文本处理方法,包括:
获取待处理文本和所述待处理文本的至少两种结构信息;
将所述待处理文本和所述待处理文本的至少两种结构信息输入文本处理模型中,得到所述待处理文本的表征向量;其中,所述文本处理模型是以文本样本和所述文本样本的至少两种结构信息为输入、以所述文本样本的表征向量为输出,基于文本损失函数训练得到的模型,所述文本损失函数由所述文本样本的第一损失函数和所述至少两种结构信息分别对应的第二损失函数组成。
在第一方面的一种可能的实现方式中,所述至少两种结构信息包括下列中的至少两种:词性结构信息、语法结构信息、命名实体结构信息或语义结构信息。
在第一方面的一种可能的实现方式中,其中,Loss表示所述文本损失函数,LossFont表示所述第一损失函数,/>表示第i种结构信息Si对应的第二损失函数,λi表示第i种结构信息Si对应的超参数,n表示结构信息的个数。
在第一方面的一种可能的实现方式中,所述获取待处理文本和所述待处理文本的至少两种结构信息之前,所述方法还包括:
获取所述文本样本;
对所述文本样本进行分词处理,根据分词结果获取所述文本样本的至少两种结构信息;
基于所述文本损失函数,根据所述文本样本和所述文本样本的至少两种结构信息对初始文本处理模型进行训练,得到所述文本处理模型。
在第一方面的一种可能的实现方式中,所述基于所述文本损失函数,根据所述文本样本和所述文本样本的至少两种结构信息对初始文本处理模型进行训练,得到所述文本处理模型,包括:
通过所述初始文本处理模型,根据所述文本样本生成字嵌入向量,并根据所述字嵌入向量通过自注意力机制得到字信息表征向量;
根据所述文本样本的至少两种结构信息分别生成每种结构信息对应的结构嵌入向量,并根据至少两个所述结构嵌入向量分别通过自注意力机制得到对应的结构信息表征向量;
根据所述字信息表征向量和至少两个结构信息表征向量得到所述文本样本的表征向量;
根据所述字信息表征向量、所述至少两个结构信息表征向量、所述第一损失函数和所述第二损失函数确定训练损失;
根据所述训练损失对所述初始文本处理模型的参数进行调节,得到所述文本处理模型。
在第一方面的一种可能的实现方式中,所述根据所述字信息表征向量、所述至少两个结构信息表征向量、所述第一损失函数和所述第二损失函数确定训练损失,包括:
根据所述字信息表征向量和所述第一损失函数确定字训练损失;
根据所述至少两个结构信息表征向量和分别对应的第二损失函数确定对应的结构训练损失;
根据所述字训练损失和至少两个结构训练损失确定所述训练损失。
在第一方面的一种可能的实现方式中,所述根据所述字信息表征向量和至少两个结构信息表征向量得到所述文本样本的表征向量,包括:
将所述至少两个结构信息表征向量进行拼接得到第一向量;
对所述第一向量进行维度转换得到第二向量,所述第二向量的维度与所述字信息表征向量的维度相同;
将所述字信息表征向量与所述第二向量进行拼接得到第三向量;
对所述第三向量进行维度转换得到所述文本样本的表征向量,所述文本样本的表征向的维度与所述字信息表征向量的维度相同。
第二方面,本申请实施例提供了一种文本处理装置,包括:
信息获取模块,用于获取待处理文本和所述待处理文本的至少两种结构信息;
文本处理模块,用于将所述待处理文本和所述待处理文本的至少两种结构信息输入文本处理模型中,得到所述待处理文本的表征向量;其中,所述文本处理模型是以文本样本和所述文本样本的至少两种结构信息为输入、以所述文本样本的表征向量为输出,基于文本损失函数训练得到的模型,所述文本损失函数由所述文本样本的第一损失函数和所述至少两种结构信息分别对应的第二损失函数组成。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的文本处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的文本处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的文本处理方法。
本申请提供的文本处理方法、装置、设备及计算机可读存储介质,通过获取待处理文本和待处理文本的至少两种结构信息,增加了文本处理模型的输入信息的维度。而且,文本和多种结构信息之间解耦,降低了相互间的影响,提高了文本处理模型的输入信息的组合灵活度,通过更丰富的输入信息提高了文本处理模型的准确性,提高了输出的文本的表征向量的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的终端设备的结构示意图;
图2是本申请一实施例提供的文本处理方法的流程示意图;
图3是本申请另一实施例提供的文本处理方法的流程示意图;
图4是本申请另一实施例提供的文本处理模型的结构示意图;
图5是本申请又一实施例提供的文本处理方法的流程示意图;
图6是本申请实施例提供的文本处理装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例提供的文本处理方法可以提高文本处理模型的准确性,输出准确性更高的文本的表征向量。进一步地,通过应用文本的表征向量可以完成文本下游任务中对文本信息的识别、预测、生成和总结等,文本的表征向量的准确性的提高提升了文本下游任务的效果。
可选的,文本下游任务包括但不限于:知识图谱、问答系统、情报检测、机器翻译和文本生成。示例性的,在知识图谱中可以结合文本的表征向量更清楚的得到节点之间的联系及紧密程度的信息,在问答系统中可以通过文本的表征向量中的多个结构信息更清晰的了解问答语句的意图,在情报检测中可以更准确的识别文本信息,在机器翻译中可以通过文本的表征向量中字与更多结构的对应关系得到更准确的语言转换规则,在文本生成中可以通过得到的更准确的语言转换规则使生成的语言更符合自然语言描述。
本申请实施例提供的文本处理方法,可以应用于终端设备。示例性的,图1为本申请一实施例提供的终端设备的结构示意图。如图1所示,终端设备1可以包括:处理器10、存储器11以及存储在存储器11中并可在处理器10上运行的计算机程序12,处理器10执行计算机程序12时可以实现本申请实施例提供的文本处理方法。其中,本申请实施例对处理器10、存储器11的数量和类型不做限定。
本申请实施例对终端设备1的类型不做限定。例如,可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。
下面将结合附图,对本申请中的技术方案进行详细描述。需要说明,在不冲突的情况下,本申请中不同的技术特征之间可以相互结合。
图2示出了本申请提供的文本处理方法的一种流程示意图。本实施例对文本处理模型的训练过程进行说明。如图2所示,本实施例提供的文本处理方法,可以包括:
S201、获取文本样本。
可选的,语料库中的语料经过处理得到以字为单位的文本样本,语料库中的语料包括但不限于中文、英文等语言。示例性的,选取语料库中的某一中文语料“我爱北京”,则文本样本可以表示为(我,爱,北,京)。
S202、对文本样本进行分词处理,根据分词结果获取文本样本的至少两种结构信息。
可选的,至少两种结构信息包括下列中的至少两种:词性结构信息、语法结构信息、命名实体结构信息或语义结构信息。
示例性的,词性结构信息可以包括:名词、动词、动词短语、名词短语、代词、实词、虚词、形容词、副词、量词、数词、介词、连词、助词、叹词、拟声词等。语法结构信息可以包括:主语、谓语、宾语、定语、状语、补语、独立成分、复指成分等。命名实体结构信息可以包括:人名、地名、机构名、时间、日期、货币、百分比等。语义结构信息可以包括:递进、转折、选择、并列、承接、假设、因果、条件、解说、目的等。
通过丰富的结构信息,可以更准确的表征文本样本的信息。
可选的,结构信息通常以词为单位,将文本信息通过分词工具进行分词,得到以词为单位的文本序列信息,使用不同的结构信息提取工具提取对应的结构信息,并使提取到的结构信息与文本样本对齐,得到与文本样本维度相同的至少两种结构信息。
示例性的,文本样本(我,爱,北,京)进行分词得到文本序列信息(我,爱,北京),通过词性提取工具可以得到“我”是代词、“爱”是动词和“北京”是名词,与文本样本对齐后的词性结构信息可以表示为(PN,V,N,N),其中,PN表示代词,V表示动词,N表示名词。通过语法提取工具可以得到对应的“我”是主语、“爱”是谓语和“北京”是宾语,与文本样本对齐后的语法结构信息可以表示为(S,P,O,O),其中,S表示主语,P表示谓语,O表示宾语。通过命名实体提取工具可以得到“我”和“爱”不是命名实体,“北京”是地名,与文本样本对齐后的命名实体结构信息可以表示为(O,O,LOC,LOC),其中,O表示非实体类,LOC表示地名。
通过分词工具将文本样本变为以词为单位的文本序列信息,有利于提取准确的结构信息。通过使用不同的结构信息提取工具提取对应的结构信息,达到解耦结构信息的目的。
S203、基于文本损失函数,根据文本样本和文本样本的至少两种结构信息对初始文本处理模型进行训练,得到文本处理模型。文本损失函数由文本样本的第一损失函数和至少两种结构信息分别对应的第二损失函数组成。
可选的,其中,Loss表示文本损失函数,LossFont表示第一损失函数,/>表示第i种结构信息Si对应的第二损失函数,λi表示第i种结构信息Si对应的超参数,n表示结构信息的个数。
通过超参数控制n种结构信息之间的重要程度,可以灵活的根据需求训练初始文本处理模型。
本实施例提供的文本处理方法,在文本处理模型的训练过程中,通过获取文本样本和文本样本的至少两种结构信息,增加了文本处理模型的输入信息的维度。而且,文本样本和多种结构信息之间解耦,降低了相互间的影响,提高了文本处理模型的输入信息的组合灵活度,通过更丰富的输入信息提高了文本处理模型训练的准确性,提高了输出的文本样本的表征向量的准确性。
可选的,在图2所示实施例的基础上,图3示出了本申请另一实施例提供的文本处理方法的一种流程示意图,图4示出了文本处理模型的结构示意图。本实施例对文本处理模型的训练过程进行说明。示例性的,以结构信息包括词性结构信息、语法结构信息和命名实体结构信息为例进行说明。如图3所示,本实施例提供的文本处理方法,具体提供了S203的一种可能的实现方式。S203中,基于文本损失函数,根据文本样本和文本样本的至少两种结构信息对初始文本处理模型进行训练,得到文本处理模型,可以包括:
S301、通过初始文本处理模型,根据文本样本生成字嵌入向量,并根据字嵌入向量通过自注意力机制得到字信息表征向量。
可选的,如图4所示,将文本样本输入嵌入层生成字嵌入向量,经自注意力模块中的自注意力机制处理得到字信息表征向量。
示例性的,文本样本(我,爱,北,京)输入嵌入层生成字嵌入向量Xw=[我,爱,北,京],经过自注意力模块中的自注意力机制学习到字嵌入向量的内部元素的权重,根据权重对字嵌入向量Xw进行处理得到字信息表征向量Hw。
通过生成字嵌入向量并基于自注意力机制处理得到字信息表征向量,增强了字信息表征向量的内部元素之间的联系,提高了字信息表征向量的表征能力。
S302、根据文本样本的至少两种结构信息分别生成每种结构信息对应的结构嵌入向量,并根据至少两个结构嵌入向量分别通过自注意力机制得到对应的结构信息表征向量。
可选的,如图4所示,将结构信息S1至结构信息Sn分别输入嵌入层生成结构信息S1至结构信息Sn的嵌入向量。
示例性的,词性结构信息输入嵌入层生成词性结构嵌入向量Xs1=[PN,V,N,N],语法结构信息输入嵌入层生成语法结构嵌入向量Xs2=[S,P,OB,OB],命名实体结构信息输入嵌入层生成命名实体结构嵌入向量Xs3=[O,O,LOC,LOC]。经过自注意力机制分别学习到词性结构嵌入向量、语法结构嵌入向量和命名实体结构嵌入向量的内部元素的权重,根据权重将词性结构嵌入向量Xs1、语法结构嵌入向量Xs2和命名实体结构嵌入向量Xs3进行处理得到词性结构信息表征向量Hs1、语法结构信息表征向量Hs2和命名实体结构信息表征向量Hs3。
示例性的,字信息表征向量Hw、词性结构信息表征向量Hs1、语法结构信息表征向量Hs2和命名实体结构信息表征向量Hs3可以为1×4×768维向量。其中,768为预先设置的向量空间大小。
通过生成对应的结构信息表征向量解耦结构信息,减少结构信息之间的联系,使结构信息之间可以更灵活的组合,从而更好的表征文本样本的结构信息。基于自注意力机制学习到的权重信息增强了结构信息表征向量的内部元素之间的联系,提高了结构信息表征向量的表征能力。
S303、根据字信息表征向量和至少两个结构信息表征向量得到文本样本的表征向量。
示例性的,根据字信息表征向量和词性结构信息表征向量、语法结构信息表征向量和命名实体结构信息表征向量得到的文本样本的表征向量中,整合了字信息、词性结构信息、语法结构信息和命名实体结构信息,提升了文本样本的表征向量的表征能力。
S304、根据字信息表征向量、至少两个结构信息表征向量、第一损失函数和第二损失函数确定训练损失。
示例性的,第一损失函数可以为文本样本对应的第一损失函数。第二损失函数可以包括3个,具体为词性结构信息对应的第二损失函数、语法结构信息对应的第二损失函数和命名实体结构信息对应的第二损失函数。根据字信息表征向量Hw、词性结构信息表征向量Hs1、语法结构信息表征向量Hs2、命名实体结构信息表征向量Hs3、第一损失函数和第二损失函数确定训练损失。
通过文本样本对应的第一损失函数和至少两种结构信息分别对应的第二损失函数确定训练损失,整合了文本样本和多个结构信息的误差,为误差的反馈优化提供了更多数据来源,提高了确定的训练损失的准确性。
S305、根据训练损失对初始文本处理模型的参数进行调节,得到文本处理模型。
可选的,以最小化训练损失为目标来调节文本处理模型的参数。
示例性的,通过反向传播法调节文本处理模型的参数。
通过最小化训练损失调节文本处理模型的参数,逐渐优化文本处理模型,提高文本处理模型的准确性。
本实施例提供的文本处理方法,在文本处理模型的训练过程中,通过自注意力机制得到字信息表征向量和至少两种结构信息分别对应的结构信息表征向量,根据字信息表征向量和至少两个结构信息表征向量得到文本样本的表征向量,并确定训练损失。由于训练损失整合了文本样本和多个结构信息的误差,通过训练损失对初始文本处理模型的参数进行调整,提高了文本处理模型训练的准确性。
可选的,S303中,根据字信息表征向量和至少两个结构信息表征向量得到文本样本的表征向量,可以包括:
将至少两个结构信息表征向量进行拼接得到第一向量。
对第一向量进行维度转换得到第二向量,第二向量的维度与字信息表征向量的维度相同。
将字信息表征向量与第二向量进行拼接得到第三向量。
对第三向量进行维度转换得到文本样本的表征向量,文本样本的表征向量的维度与字信息表征向量的维度相同。
示例性的,如图4所示,将结构信息S1至结构信息Sn的嵌入向量输入自注意力模块得到结构信息S1至结构信息Sn的n个结构信息的表征向量。将n个结构信息的表征向量输入拼接模块进行拼接得到第一向量,将第一向量输入维度转换模块进行维度转换后得到第二向量,将字信息表征向量与第二向量输入拼接模块进行拼接,并将拼接得到的向量输入维度转换模块进行处理,得到文本样本的表征向量,文本样本的表征向量的维度与字信息表征向量的维度相同。
例如,将1×4×768维的词性结构信息表征向量Hs1、语法结构信息表征向量Hs2和命名实体结构信息表征向量Hs3进行拼接,得到1×4×2304维的第一向量。通过维度转换模块将第一向量转换为1×4×768维的第二向量。将1×4×768维的字信息表征向量Hw与1×4×768维的第二向量进行拼接得到1×4×1536维的第三向量。通过维度转换模块将第三向量转换为1×4×768维的文本样本表征向量。
经过维度转换模块得到与字信息表征向量维度相同的结构信息表征向量,可以提高结构信息表征向量与字信息表征向量的拼接效果,通过拼接多个结构信息表征向量和字信息表征向量,得到整合了多个结构信息和字信息的文本样本的表征向量。文本样本的表征向量与字信息表征向量在维度上统一,有利于表征文本样本的字信息和结构信息。
可选的,维度转换模块可以通过全连接层实现维度转换,或通过与转换矩阵做乘法实现维度转换。示例性的,通过H=WX+b进行维度转换,W为转换矩阵,X可以为第一向量或第三向量,H可以为第二向量或文本样本的表征向量,b为偏置。
可选的,S304中,根据字信息表征向量、至少两个结构信息表征向量、第一损失函数和第二损失函数确定训练损失,可以包括:
根据字信息表征向量和第一损失函数确定字训练损失。
根据至少两个结构信息表征向量和分别对应的第二损失函数确定对应的结构训练损失。
根据字训练损失和至少两个结构训练损失确定训练损失。
通过根据字信息表征向量和结构信息表征向量分别确定训练损失,解耦字训练损失和结构训练损失,从而更有针对性的对字信息和多个结构信息进行训练。根据字训练损失和至少两个结构训练损失确定的训练损失,可以更好的对文本处理模型进行训练,提升模型的训练效果。
图5是本申请又一实施例提供的文本处理方法的流程示意图。本实施例对文本处理模型的应用过程进行说明。如图5所示,本实施例提供的文本处理方法,可以包括:
S501、获取待处理文本和待处理文本的至少两种结构信息。
S502、将待处理文本和待处理文本的至少两种结构信息输入文本处理模型中,得到待处理文本的表征向量。其中,文本处理模型是以文本样本和文本样本的至少两种结构信息为输入、以文本样本的表征向量为输出,基于文本损失函数训练得到的模型,文本损失函数由文本样本的第一损失函数和至少两种结构信息分别对应的第二损失函数组成。
对待处理文本的处理过程及有益效果可以参见上述实施例,技术原理和技术效果相似,此处不再赘述。
图6是本申请实施例提供的文本处理装置的结构示意图。如图6所示,本实施例提供的文本处理装置,可以包括:
信息获取模块601,用于获取待处理文本和待处理文本的至少两种结构信息。
文本处理模块602,用于将待处理文本和待处理文本的至少两种结构信息输入文本处理模型中,得到待处理文本的表征向量。其中,文本处理模型是以文本样本和文本样本的至少两种结构信息为输入、以文本样本的表征向量为输出,基于文本损失函数训练得到的模型,文本损失函数由文本样本的第一损失函数和至少两种结构信息分别对应的第二损失函数组成。
可选的,所述至少两种结构信息包括下列中的至少两种:词性结构信息、语法结构信息、命名实体结构信息或语义结构信息。
可选的,其中,Loss表示所述文本损失函数,LossFont表示所述第一损失函数,/>表示第i种结构信息Si对应的第二损失函数,λi表示第i种结构信息Si对应的超参数,n表示结构信息的个数。
可选的,信息获取模块601还用于:
获取所述文本样本。对所述文本样本进行分词处理,根据分词结果获取所述文本样本的至少两种结构信息。
可选的,还包括训练模块603,训练模块603用于:
基于所述文本损失函数,根据所述文本样本和所述文本样本的至少两种结构信息对初始文本处理模型进行训练,得到所述文本处理模型。
可选的,训练模块603具体用于:
通过所述初始文本处理模型,根据所述文本样本生成字嵌入向量,并根据所述字嵌入向量通过自注意力机制得到字信息表征向量。根据所述文本样本的至少两种结构信息分别生成每种结构信息对应的结构嵌入向量,并根据至少两个所述结构嵌入向量分别通过自注意力机制得到对应的结构信息表征向量。根据所述字信息表征向量和至少两个结构信息表征向量得到所述文本样本的表征向量。根据所述字信息表征向量、所述至少两个结构信息表征向量、所述第一损失函数和所述第二损失函数确定训练损失,根据所述训练损失对所述初始文本处理模型的参数进行调节,得到所述文本处理模型。
可选的,训练模块603具体用于:
根据所述字信息表征向量和所述第一损失函数确定字训练损失,根据所述至少两个结构信息表征向量和分别对应的第二损失函数确定对应的结构训练损失,根据所述字训练损失和至少两个结构训练损失确定所述训练损失。
可选的,训练模块603具体用于:
将所述至少两个结构信息表征向量进行拼接得到第一向量,对所述第一向量进行维度转换得到第二向量,所述第二向量的维度与所述字信息表征向量的维度相同,将所述字信息表征向量与所述第二向量进行拼接得到第三向量,对所述第三向量进行维度转换得到所述文本样本的表征向量,所述文本样本的表征向量的维度与所述字信息表征向量的维度相同。
本实施例提供的文本处理装置,用于执行本申请方法实施例提供的文本处理方法,技术原理和技术效果相似,具体可参见方法实施例部分,此处不再赘述。
本申请实施例还提供了一种终端设备,例如图1所示,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述任意方法实施例中的步骤。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,所述终端设备执行上述任意方法实施例中的步骤。
本领域技术人员可以理解,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种文本处理方法,其特征在于,包括:
获取待处理文本和所述待处理文本的至少两种结构信息;
将所述待处理文本和所述待处理文本的至少两种结构信息输入文本处理模型中,得到所述待处理文本的表征向量;其中,所述文本处理模型是以文本样本和所述文本样本的至少两种结构信息为输入、以所述文本样本的表征向量为输出,基于文本损失函数训练得到的模型,所述文本损失函数由所述文本样本的第一损失函数和所述至少两种结构信息分别对应的第二损失函数组成;
所述获取待处理文本和所述待处理文本的至少两种结构信息之前,所述方法还包括:
获取所述文本样本;
对所述文本样本进行分词处理,根据分词结果获取所述文本样本的至少两种结构信息;
基于所述文本损失函数,根据所述文本样本和所述文本样本的至少两种结构信息对初始文本处理模型进行训练,得到所述文本处理模型;
所述基于所述文本损失函数,根据所述文本样本和所述文本样本的至少两种结构信息对初始文本处理模型进行训练,得到所述文本处理模型,包括:
通过所述初始文本处理模型,根据所述文本样本生成字嵌入向量,并根据所述字嵌入向量通过自注意力机制得到字信息表征向量;
根据所述文本样本的至少两种结构信息分别生成每种结构信息对应的结构嵌入向量,并根据至少两个所述结构嵌入向量分别通过自注意力机制得到对应的结构信息表征向量;
根据所述字信息表征向量和至少两个结构信息表征向量得到所述文本样本的表征向量;
根据所述字信息表征向量、所述至少两个结构信息表征向量、所述第一损失函数和所述第二损失函数确定训练损失;
根据所述训练损失对所述初始文本处理模型的参数进行调节,得到所述文本处理模型。
2.根据权利要求1所述的方法,其特征在于,所述至少两种结构信息包括下列中的至少两种:词性结构信息、语法结构信息、命名实体结构信息或语义结构信息。
3.根据权利要求1所述的方法,其特征在于,其中,Loss表示所述文本损失函数,LossFont表示所述第一损失函数,/>表示第i种结构信息Si对应的第二损失函数,λi表示第i种结构信息Si对应的超参数,n表示结构信息的个数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述字信息表征向量、所述至少两个结构信息表征向量、所述第一损失函数和所述第二损失函数确定训练损失,包括:
根据所述字信息表征向量和所述第一损失函数确定字训练损失;
根据所述至少两个结构信息表征向量和分别对应的第二损失函数确定对应的结构训练损失;
根据所述字训练损失和至少两个结构训练损失确定所述训练损失。
5.根据权利要求1所述的方法,其特征在于,所述根据所述字信息表征向量和至少两个结构信息表征向量得到所述文本样本的表征向量,包括:
将所述至少两个结构信息表征向量进行拼接得到第一向量;
对所述第一向量进行维度转换得到第二向量,所述第二向量的维度与所述字信息表征向量的维度相同;
将所述字信息表征向量与所述第二向量进行拼接得到第三向量;
对所述第三向量进行维度转换得到所述文本样本的表征向量,所述文本样本的表征向量的维度与所述字信息表征向量的维度相同。
6.一种文本处理装置,其特征在于,用于实现如权利要求1至5任一项所述的文本处理方法,所述文本处理装置包括:
信息获取模块,用于获取待处理文本和所述待处理文本的至少两种结构信息;
文本处理模块,用于将所述待处理文本和所述待处理文本的至少两种结构信息输入文本处理模型中,得到所述待处理文本的表征向量;其中,所述文本处理模型是以文本样本和所述文本样本的至少两种结构信息为输入、以所述文本样本的表征向量为输出,基于文本损失函数训练得到的模型,所述文本损失函数由所述文本样本的第一损失函数和所述至少两种结构信息分别对应的第二损失函数组成。
7.一种终端设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011628768.5A CN112699675B (zh) | 2020-12-30 | 2020-12-30 | 文本处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011628768.5A CN112699675B (zh) | 2020-12-30 | 2020-12-30 | 文本处理方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699675A CN112699675A (zh) | 2021-04-23 |
CN112699675B true CN112699675B (zh) | 2023-09-12 |
Family
ID=75513364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011628768.5A Active CN112699675B (zh) | 2020-12-30 | 2020-12-30 | 文本处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699675B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312483A (zh) * | 2021-06-02 | 2021-08-27 | 郑州大学 | 一种基于自注意力机制和BiGRU的文本分类方法 |
CN114065768B (zh) * | 2021-12-08 | 2022-12-09 | 马上消费金融股份有限公司 | 特征融合模型的训练、文本处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635273A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN111966917A (zh) * | 2020-07-10 | 2020-11-20 | 电子科技大学 | 一种基于预训练语言模型的事件检测与摘要方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10915701B2 (en) * | 2018-03-19 | 2021-02-09 | Adobe Inc. | Caption association techniques |
-
2020
- 2020-12-30 CN CN202011628768.5A patent/CN112699675B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635273A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN111966917A (zh) * | 2020-07-10 | 2020-11-20 | 电子科技大学 | 一种基于预训练语言模型的事件检测与摘要方法 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112699675A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11397762B2 (en) | Automatically generating natural language responses to users' questions | |
CN109165380B (zh) | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 | |
Kanakaraddi et al. | Survey on parts of speech tagger techniques | |
Lehrberger | Sublanguage analysis | |
Svoboda et al. | New word analogy corpus for exploring embeddings of Czech words | |
CN112699675B (zh) | 文本处理方法、装置、设备及计算机可读存储介质 | |
Marques1a et al. | Neuro-symbolic word tagging | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
CN113705198B (zh) | 场景图生成方法、装置、电子设备及存储介质 | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
Li et al. | Exploiting sentence similarities for better alignments | |
Deka et al. | A study of various natural language processing works for assamese language | |
Ramesh et al. | Interpretable natural language segmentation based on link grammar | |
Marouani et al. | Statistical error analysis of machine translation: The case of arabic | |
Buvet et al. | Which Intelligence for Human-Machine Dialogue Systems? | |
Caryappa et al. | Kannada grammar checker using LSTM neural network | |
Raju et al. | Sentence Similarity-A State of Art Approaches | |
Bulfamante | Generative enterprise search with extensible knowledge base using AI | |
Rocha et al. | Recognizing textual entailment and paraphrases in Portuguese | |
Aydinov et al. | Investigation of automatic part-of-speech tagging using CRF, HMM and LSTM on misspelled and edited texts | |
Nou et al. | Khmer POS tagger: a transformation-based approach with hybrid unknown word handling | |
Sarkar et al. | A hybrid sequential model for text simplification | |
Jamwal | Development of POS tag set for the Dogri language using SMT | |
Aneja et al. | Neural Machine Translation model for University Email Application | |
Jiacuo et al. | Tibetan Case Grammar Error Correction Method Based on Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |