CN112668343A - 文本重写方法以及电子设备、存储装置 - Google Patents

文本重写方法以及电子设备、存储装置 Download PDF

Info

Publication number
CN112668343A
CN112668343A CN202011529540.0A CN202011529540A CN112668343A CN 112668343 A CN112668343 A CN 112668343A CN 202011529540 A CN202011529540 A CN 202011529540A CN 112668343 A CN112668343 A CN 112668343A
Authority
CN
China
Prior art keywords
text
character
session
semantic representation
rewriting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011529540.0A
Other languages
English (en)
Other versions
CN112668343B (zh
Inventor
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202011529540.0A priority Critical patent/CN112668343B/zh
Publication of CN112668343A publication Critical patent/CN112668343A/zh
Application granted granted Critical
Publication of CN112668343B publication Critical patent/CN112668343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种文本重写方法以及电子设备、存储装置,其中,文本重写方法包括:获取文本序列;文本序列包括多个会话文本,多个会话文本包括当前会话文本和发生在当前会话文本之前的历史会话文本;提取文本序列中字符的字符级语义表示;以及,利用会话文本与文本序列中其他会话文本之间的关联度,提取会话文本的句子级语义表示;其中,句子级语义表示包含会话文本本身的语义信息和其他会话文本的语义信息;利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示进行若干次重写预测,并将每次重写预测得到的预测文字的组合,作为当前会话文本的重写会话文本。上述方案,能够提高文本重写的准确性。

Description

文本重写方法以及电子设备、存储装置
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种文本重写方法以及电子设备、存储装置。
背景技术
随着信息技术的发展,智能会话已经在诸如电商客服、业务推销等众多业务场景得到了广泛应用。在现实会话场景中,如果历史会话中已经提及某个对象(如,物品、人物、事件等),用户在当前会话中可能会直接省略,从而对机器理解当前会话造成困难,甚至可能发生理解错误等情况。因此,有必要在会话过程中,对用户会话文本进行重写,以便机器正确理解用户会话文本。有鉴于此,如何提高文本重写的准确性成为亟待解决的问题。
发明内容
本申请主要解决的技术问题文本是提供一种文本重写方法以及电子设备、存储装置,能够提高文本重写的准确性。
为了解决上述问题文本,本申请第一方面提供了一种文本重写方法,包括:获取文本序列;文本序列包括多个会话文本,多个会话文本包括当前会话文本和发生在当前会话文本之前的历史会话文本;提取文本序列中字符的字符级语义表示;以及,利用会话文本与文本序列中其他会话文本之间的关联度,提取会话文本的句子级语义表示;其中,句子级语义表示包含会话文本本身的语义信息和其他会话文本的语义信息;利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示进行若干次重写预测,并将每次重写预测得到的预测文字的组合,作为当前会话文本的重写会话文本。
为了解决上述问题文本,本申请第二方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的文本重写方法。
为了解决上述问题文本,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的文本重写方法。
上述方案,通过获取文本序列,且文本序列包括多个会话文本,多个会话文本包括当前会话文本和发生在当前会话文本之前的历史会话文本,并提取文本序列中字符的字符级语义表示,以及利用会话文本与文本序列中其他会话文本之间的关联度,提取会话文本的句子级语义表示,且句子级语义表示包括会话文本本身的语义信息和其他会话文本的语义信息,故能够有利于在会话文本的句子级语义表示中融入较多与其具有较高关联度的会话文本的语义信息,从而在利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示进行若干次重写预测时,能够有利于提高每次重写预测得到的预测文字的准确性,进而能够提高文本重写的准确性。
附图说明
图1是本申请文本重写方法一实施例的流程示意图;
图2是嵌入表示获取过程一实施例的状态示意图;
图3是文本重写系统一实施例的框架示意图;
图4是图1中步骤S14一实施例的流程示意图;
图5是文本重写模型的训练方法一实施例的流程示意图;
图6是文本判别模型一实施例的框架示意图;
图7是文本重写模型的训练方法一实施例的过程示意图;
图8是本申请电子设备一实施例的框架示意图;
图9是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请文本重写方法一实施例的流程示意图。具体可以包括如下步骤:
步骤S11:获取文本序列。
本公开实施例中,文本序列包括多个会话文本,多个会话文本包括当前会话文本和发生在当前会话文本之前的历史会话文本。
在一个实施场景中,文本序列可以是从电商客服、业务推销、智能问答等实际应用场景中的人机对话系统获取得到的。例如,以电商客服为例,按照会话文本发生的先后顺序,文本序列可以包括如下会话文本:“能给我签名吗?”、“出专辑再议”、“我现在就要”,对于该文本序列而言,当前会话文本为“我现在就要”,历史会话文本为发生在“我现在就要”之前的“能给我签名吗?”、“出专辑再议”;或者,以智能问答为例,按照会话文本发生的先后顺序,文本序列可以包括如下会话文本:“秦始皇活了多久?”、“50多岁我确定”、“为什么”,对于该文本序列而言,当前会话文本为“为什么”,历史会话文本为发生在“为什么”之前的“秦始皇活了多久?”和“50多岁我确定”。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,文本序列中历史会话文本具体可以为至少一个,例如,1个、2个、3个等等,在此不做限定。
在一个实施场景中,为了在人机对话过程中,降低计算负荷,在获取到用户输入的会话文本之后,可以先对其进行意图识别,并在无法识别到该会话文本的意图,或者无法确定该会话文本的意图的情况下,可以将该会话文本作为当前会话文本,并获取发生在当前会话文本之前的历史会话文本,得到文本序列,从而可以利用本公开实施例中的步骤,预测得到当前会话文本的重写会话文本。故此,可以避免频繁地对用户输入的会话文本进行重写预测,从而能够有利于降低计算负荷。
在另一个实施场景中,为了提高人机对话效率,在获取到用户输入的会话文本之后,也可以不对其进行意图识别,直接将其作为当前会话文本,并获取发生在当前会话文本之前的历史会话文本,得到文本序列,从而可以利用本公开实施例中的步骤,预测得到当前会话文本的重写会话文本。故此,可以在用户输入的会话文本意图不明的情况下,可以避免先执行意图识别而增多时间开销,从而能够有利于提高人机对话效率。
步骤S12:提取文本序列中字符的字符级语义表示。
如前所述,序列文本包含当前会话文本以及发生在当前会话文本之前的历史会话文本,为了便于描述,可以将当前会话文本记为Xt,并将发生在当前会话文本之前的k个历史会话文本分别记为Xt-1,…,Xt-k+1,Xt-k,故文本序列可以表示为X={Xt,Xt-k,Xt-k+1,…,Xt-1}。需要说明的是,每个会话文本可以包括至少一个字符,字符具体可以包括但不限于:文字、标点符号(如,问号‘?’、句号‘。’等等)。此外,为了表示会话文本的起始位置和结束位置,至少一个字符还可以包括用于表示会话文本起始位置的预设字符(如,[CLS]),以及用于表示会话文本结束位置的预设字符(如,[SEP])。
在一个实施场景中,为了便于提取文本序列中字符的字符级语义表示,可以先获取文本序列中字符的嵌入(embedding)表示,之后可以将字符的嵌入表示送入用于语义抽取的编码器,从而得到字符的字符级语义表示,且字符级语义表示包含字符本身的语义信息。
在一个具体的实施场景中,上述语义抽取网络具体可以包括但不限于:BERT(Bidirectional Encoder Representation from Transformers,基于transformer的双向编码表示),在此不做限定。
在另一个具体的实施场景中,为了提高字符级语义表示的信息丰富度,字符的嵌入表示具体可以包括词向量、位置向量和句子向量。请结合参阅图2,图2是嵌入表示获取过程一实施例的状态示意图。如图2所示,对于词向量,可以将会话文本进行分词,得到会话文本中至少一个字符,并将会话文本中每一字符分别转换为预设维度(如,64维、128维等等)的向量,得到字符的词向量。以会话文本“能够给我签名吗”为例,可以将该会话文本按照字符切分为“能”“给”“我”“签”“名”“吗”,并将每一个字符用一个预设维度的向量表示。此外,对于位置向量,可以预先构建一个位置向量表,位置向量表中包括多个位置以及每一位置所对应的预设维度的向量,则可以基于各个字符在文本序列中的位置,通过查找位置向量表获取位置向量。此外,对于句子向量,也可以预先构建句子向量表,通过查找句子向量表可以获取文本序列中各个会话文本的句子向量。此外,请结合参阅图2,如前所述,会话文本以预设字符[CLS]表示开始位置,以预设字符[SEP]表示结束位置。
在另一个实施场景中,为了提高后续重写预测的准确性,字符级语义表示不仅包含字符本身的语义信息,还可以进一步包括文本序列中其他字符的语义信息,字符级语义表示具体可以是利用字符与文本序列中其他字符之间的关联度提取得到的。上述方式,通过利用字符与文本序列中其他字符之间的关联度提取得到字符级语义表示,能够有利于在字符级语义表示中融入较多与其具有较高关联度的字符的语义信息,从而有利于提高后续重写预测得到的预测文字的准确性,进而能够提高文本重写的准确性。
在一个具体的实施场景中,可以先利用字符的嵌入表示,提取得到包含字符本身语义信息的自身语义表示,再基于注意力机制(如,单头注意力机制、多头注意力机制等等),分别利用每一字符的自身语义表示以及文本序列中各个字符的自身语义表示,得到字符的字符级语义表示。
在另一个具体的实施场景中,为了便于描述,文本序列中所包含的字符可以记为X={x1,…,xi,…,xn},提取到的自身语义表示可以记为
Figure BDA0002851797430000051
在此基础上,文本序列所包含的各个字符的字符级语义表示可以表示为:
Figure BDA0002851797430000052
上述公式(1)中,Q=WQ·H0,K=WK·H0,V=WV·H0,WQ、WK和WV表示注意力机制网络的权重,dk表示注意力机制网络隐藏层输入的维度,而
Figure BDA0002851797430000053
表示归一化后的注意力分值,即可以视为关联度。具体地,以文本序列中第i个字符为例,其字符级语义表示可以表示为:
Figure BDA0002851797430000054
上述公式(2)中,
Figure BDA0002851797430000055
WQ、WK和WV表示注意力机制网络的权重,j表示文本序列中各个字符(如,第1个字符,第2个字符等等)。如公式(2)所示,基于注意力机制,可以获取字符与文本序列中各个字符之间注意力分值(即上述公式(2)中
Figure BDA0002851797430000056
),从而可以将字符与序列文本中各个字符之间的注意力分值作为该字符与序列文本中各个字符之间的关联度,并利用关联度对对应字符的相关表示vj进行加权求和,可以得到字符的字符级语义表示,进而能够在字符级语义表示中融入较多与其具有较高关联度的字符的语义信息。
在又一个具体的实施场景中,请结合参阅图3,图3是文本重写系统一实施例的框架示意图。如图3所示,文本重写系统可以包括编码器和解码器,编码器用于提取字符级语义表示和下述句子级语义表示,而解码器用于基于字符级语义表示和句子级语义表示进行重写预测。编码器具体可以包括多层,上一层编码器提取得到的相关语义表示可以作为下一层编码器的输入,以此类推,直至最后一层编码器为止。故此,对于第l层网络而言,其上一层(即l-1层)输出的字符级语义表示可以作为第l层网络的输入,为了便于描述可以记为Hl-1,第l层网络输出的字符级语义表示可以记为Hl,具体可以表示为:
Figure BDA0002851797430000061
具体地,以文本序列中第i个字符为例,其字符级语义表示可以表示为:
Figure BDA0002851797430000062
上述公式(4)中,
Figure BDA0002851797430000063
WQ、WK和WV表示注意力机制网络的权重。
请继续结合参阅图3,对于每层编码器而言,注意力机制网络输出的字符级语义表示可以采用残差网络(即图3中Add)以及正则化(即图3中Normalize),从而可以缓解网络层数加深导致反向传播时梯度消失和梯度爆炸的问题,且还能够有效提高模型的泛化能力。为了便于描述,对于注意力机制网络输出的字符级语义表示Hi其经过上述残差网络及正则化之后,可以表示为:
Figure BDA0002851797430000064
上述公式(5)中,Ho表示经过残差网络及正则化处理之后的字符级语义表示,Wl表示残差网络的网络参数,F()表示残差网络其中一层网络,Hi+F(Hi,Wl)即表示残差网络的处理结果,
Figure BDA0002851797430000065
表示正则化处理,α表示一个网络参数,可以在训练过程中进行调整。
此外,请继续结合参阅图3,为了充分融合前述残差网络和正则化处理结果,还可以采用FNN(Forward Neural Network,前馈神经网络)对上述处理结果进行高维映射以及非线性变换。如图3所示,每层编码器均包含上述注意力机制、参差网络及正则化、前馈神经网络,并将第l-1层编码器的处理结果作为第l层编码器的输入,故能够有利于提高字符级语义表示的准确性。
需要说明的是,上述所列举的注意力机制网络均为单头注意力机制,在基于Transformer或BERT等神经网络语言模型时,可以采用多头注意力机制来获取字符级语义表示,在此不再赘述。
步骤S13:利用会话文本与文本序列中其他会话文本之间的关联度,提取会话文本的句子级语义表示。
本公开实施例中,句子级语义表示包含会话文本本身的语义信息和其他会话文本的语义信息。
在一个实施场景中,如前所述,会话文本中各个字符包括用于表示会话文本起始位置的第一预设字符(如,[CLS]),且第一预设字符的字符级语义表示包含会话文本本身的语义信息,即第一预设字符的字符级语义表示可以表示整个会话文本的语义信息。以前述文本序列{“能给我签名吗?”、“出专辑再议”、“我现在就要”}为例,会话文本“能给我签名吗?”的起始位置可以设有第一预设字符[CLS],会话文本“出专辑再议”的起始位置可以设有第一预设字符[CLS],会话文本“我现在就要”的起始位置可以设有第一预设字符[CLS],其他情况可以以此类推,在此不再一一举例。在此基础上,可以将各个会话文本分别作为目标会话文本,并基于目标会话文本分别与其他会话文本之间的关联度,获取目标会话文本的融合语义表示,且融合语义表示包含其他会话文本的语义信息,从而可以利用目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示,得到目标会话文本的句子级语义表示。上述方式,通过分别将各个会话文本分别作为目标会话文本,并基于目标会话文本分别与其他会话文本之间的关联度,获取目标会话文本的融合语义表示,且融合语义表示包含其他会话文本的语义信息,故此能够充分挖掘会话文本之间的相关联系,从而能够有利于通过会话文本之间的关联度,进一步充分抽取会话文本之间显性意图关系,进而再利用目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示,能够有利于提高句子级语义表示的准确性。
在一个具体的实施场景中,具体可以基于注意力机制,利用文本序列中各个会话文本的第一预设字符的字符级语义表示,得到目标会话文本与其他会话文本之间的关联度,并利用该关联度分别对对应会话文本的相关语义表示进行加权,得到目标会话文本的融合语义表示。为了便于描述,文本序列中的目标会话文本可以记为τ,则目标会话文本的融合语义表示
Figure BDA0002851797430000071
可以表示为:
Figure BDA0002851797430000072
上述公式(6)中,η表示文本序列中除目标会话文本之外的其他会话文本,
Figure BDA0002851797430000073
WQ、WK和WV表示注意力机制网络的网络参数,h0表示目标会话文本的第一预设字符的字符级语义表示,hη,0表示其他会话文本的第一预设字符的字符级语义表示,
Figure BDA0002851797430000081
表示目标会话文本与其他会话文本之间的关联度,
Figure BDA0002851797430000082
表示其他会话文本的相关语义表示。仍以前述文本序列{“能给我签名吗?”、“出专辑再议”、“我现在就要”}为例,对于会话文本“能给我签名吗?”,其融合语义表示可以包含会话文本“出专辑再议”语义信息和会话文本“我现在就要”语义信息,而对于会话文本“出专辑再议”,其融合语义表示可以包括会话文本“能给我签名吗?”和会话文本“我现在就要”的语义信息,类似地,对于会话文本“我现在就要”,其融合语义表示可以包括会话文本“能给我签名吗?”和会话文本“出专辑再议”的语义信息,其他情况可以以此类推,在此不再一一举例。由此可见,对于文本序列中的多个会话文本而言,上述方式可以将各个会话文本均视为一个节点,并学习节点与节点之间的关联关系。
在另一个具体的实施场景中,在得到目标会话文本的融合语义表示之后,可以将目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示进行拼接,得到拼接语义表示,并将拼接语义表示进行线性变换,得到句子级语义表示。如前所述,为了便于描述,目标会话文本对应的第一预设字符的字符级语义表示可以记为h0,目标会话文本的融合语义表示可以记为
Figure BDA0002851797430000083
故目标会话文本的句子级语义表示可以表示为:
Figure BDA0002851797430000084
上述公式(7)中,
Figure BDA0002851797430000085
表示拼接操作,
Figure BDA0002851797430000086
表示拼接h0
Figure BDA0002851797430000087
所得到的拼接语义表示,linear()表示线性变换。
在又一个具体的实施场景中,请继续结合参阅图3,如前所述,编码器可以有多层,故对于第l层网络而言,其上一层(即l-1层)输出的句子级语义表示可以作为第l层网络的输入,为了便于描述可以记为
Figure BDA0002851797430000088
第l层网络输出的句子级语义表示可以记为
Figure BDA0002851797430000089
具体可以表示为:
Figure BDA00028517974300000810
上述公式(8)中,
Figure BDA00028517974300000811
WQ、WK和WV表示注意力机制网络的网络参数。
此外,请继续结合参阅图3,对于每层编码器而言,注意力机制网络输出的句子级语义表示可以采用残差网络(即图3中Add)以及正则化(即图3中Normalize),从而可以缓解网络层数加深导致反向传播时梯度消失和梯度爆炸的问题,且还能够有效提高模型的泛化能力。具体可以参阅前述相关描述,在此不再赘述。
此外,请继续结合参阅图3,为了充分融合前述残差网络和正则化处理结果,还可以采用FNN(Forward Neural Network,前馈神经网络)对上述处理结果进行高维映射以及非线性变换,能够有利于提高句子级语义表示的准确性。具体可以参阅前述相关描述,在此不再赘述。
在另一个实施场景中,为了降低获取句子级语义表示的复杂度,也可以分别将各个会话文本作为目标会话文本,并区别于前述方式,基于目标会话文本分别与文本序列中各个会话文本之间的关联度,直接获取目标会话文本的句子级语义表示,从而句子级语义表示中不仅可以包括目标会话文本的语义信息,也可以包括除目标会话文本之外的其他会话文本的语义信息。
在一个具体的实施场景中,可以基于注意力机制,利用文本序列中各个会话文本的第一预设字符的字符级语义表示,得到目标会话文本与各个会话文本之间的关联度,并利用该关联度分别对对应会话文本的相关语义表示进行加权处理,得到目标会话文本的句子级语义表示。具体可以参阅前述相关描述,在此不再赘述。
需要说明的是,尽管相较于前述实施方式,基于目标会话文本分别与文本序列中各个会话文本之间的关联度,可以直接获取目标会话文本的句子级语义表示,但是由于目标会话文本与其本身的关联度必然高于与其他会话文本的关联度,故会导致其句子级语义表示中过多地依赖于目标会话文本其本身的语义信息,而导致其他会话文本的语义信息被抑制,从而相较于前述实施方式,虽然能够降低获取句子级语义表示的复杂度,但也能够降低句子级语义表示的精确度。
在又一个实施场景中,可以根据实际应用需要来通过不同的方式获取句子级语义表示。例如,在对句子级语义表示的精确度要求较高的情况下,可以采用前述第一种实施方式,即可以将各个会话文本分别作为目标会话文本,并基于目标会话文本分别与其他会话文本之间的关联度,获取目标会话文本的融合语义表示,从而利用目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示,得到目标会话文本的句子级语义表示;或者,在对句子级语义表示的精确度要求相对宽松,而对获取句子级语义表示的便利性要求较高的情况下,可以采用前述第二种实施方式,即可以分别将各个会话文本作为目标会话文本,并基于目标会话文本分别与文本序列中各个会话文本之间的关联度,直接获取目标会话文本的句子级语义表示。
步骤S14:利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示进行若干次重写预测,并将每次重写预测得到的预测文字的组合,作为当前会话文本的重写会话文本。
在一个实施场景中,每次重写预测过程中,均可以利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示,预测得到一个预测文字,并在预测文字为预设结束字符的情况下,结束重写预测。具体地,预设结束字符具体可以为[SEP],当然,预设结束字符也可以是预先设置的表示句子结束的其他字符,例如,句号‘。’等,在此不做限定。
在另一个实施场景中,为了提高每次重写预测得到的预测文字之间的连贯性,从而提高重写会话文本的可读性,每次重写预测过程中,可以利用之前若干次重写预测得到的预测文字,以及多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示,预测得到一个预测文字,并在预测文字为预设结束字符的情况下,结束重写预测。具体地,之前若干次重写预测可以是之前一次重写预测,也可以是之前多次重写预测,还可以是从开始重写预测一直到之前一次重写预测,在此不做限定。
上述方案,通过获取文本序列,且文本序列包括多个会话文本,多个会话文本包括当前会话文本和发生在当前会话文本之前的历史会话文本,并提取文本序列中字符的字符级语义表示,以及利用会话文本与文本序列中其他会话文本之间的关联度,提取会话文本的句子级语义表示,且句子级语义表示包括会话文本本身的语义信息和其他会话文本的语义信息,故能够有利于在会话文本的句子级语义表示中融入较多与其具有较高关联度的会话文本的语义信息,从而在利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示进行若干次重写预测时,能够有利于提高每次重写预测得到的预测文字的准确性,进而能够提高文本重写的准确性。
请参阅图4,图4是图1中步骤S14一实施例的流程示意图。具体可以包括如下步骤:
步骤S41:提取上次重写预测的预测文字的文字语义表示。
在一个实施场景中,如前所述,为了便于提取预测文字的文字语义表示,可以先获取预测文字的嵌入表示,之后可以对预测文字的嵌入表示进行语义抽取,得到预测文字的文字语义表示,且该文字语义表示包含预测文字本身的语义信息。
在一个具体的实施场景中,预测文字的嵌入表示具体可以包括词向量、位置向量和句子向量,嵌入表示的获取过程具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个具体的实施场景中,在得到预测文字的嵌入表示之后,可以将该嵌入表示送入诸如BERT等语义抽取网络,从而可以直接得到预测文字的文字语义表示。
在又一个具体的实施场景中,在首次重写预测过程中,其上次并未进行重写预测,为了提高重写预测整体过程的鲁棒性,首次重写预测时,其上次重写预测的预测文字可以为预设开始文字,预设开始文字具体可以根据实际应用需要进行设置,如可以设置为[CLS]。
在另一个实施场景中,为了进一步提高重写预测的准确性,预测文字的文字语义表示不仅包含该预测文字本身的语义信息,还可以进一步包括在该预测文字之前预测到的其他预测文字的语义信息。
在一个具体的实施场景中,可以将上次重写预测得到的预测文字,作为当前文字,并将在当前文字之前预测得到的预测文字,作为历史文字,并利用当前文字的嵌入表示,提取得到包含当前文字本身语义信息的自身语义表示,以及利用历史文字的嵌入表示,提取得到包含历史文字本身语义信息的自身语义表示,从而可以基于注意力机制(如,多头注意力机制、单头注意力机制等等),利用当前文字的自身语义表示和历史文字的自身语义表示,得到当前文字的文字语义表示。
在另一个具体的实施场景中,如前所述,为了提高重写预测整体过程的鲁棒性,首次重写预测时,其上次重写预测的预测文字可以为预设开始文字,预设开始文字具体可以根据实际应用需要进行设置,如可以设置为[CLS]。
在又一个具体的实施场景中,为了便于描述,第k个已经重写预测得到的预测文字的自身语义表示可以记为
Figure BDA0002851797430000111
则其文字语义表示可以表示为:
Figure BDA0002851797430000112
上述公式(9)中,
Figure BDA0002851797430000113
WQ、WK和WV表示注意力机制网络的权重,j表示已经预测得到的各个预测文字(如,本次重写预测为第m次,则j表示第1至第m-1次重写预测得到的预测文字)。如公式(9)所示,基于注意力机制,可以获取预测文本与各个预测文字之间注意力分值(即上述公式(9)中
Figure BDA0002851797430000114
),从而可以将该注意力分值作为该预测文字与已经重写预测得到的各个预测文字之间的关联度,并利用关联度对对应预测文字的相关表示vj进行加权求和,可以得到预测文字的文字语义表示,从而能够在预测的文字语义表示中融入较多与其具有较高关联度的预测文字的语义信息。
在又一个具体的实施场景中,请结合参阅图3,如图3所示,上次重写预测得到的预测文字为“要”,在上次重写预测之前,已经得到的预测文字包括:“我”、“现”、“在”、“就”,以及前述预设开始文字[CLS],故可以基于公式(9)以及前述描述,得到各个预测文字的文字语义表示。
步骤S42:基于第一注意力机制,利用多个会话文本的句子级语义表示和预测文字的文字语义表示,得到各个会话文本对于本次重写预测的第一重要度。
为了便于描述,可以记上次重写预测得到的预测文字的文字语义表示为htoken。故各个会话文本对于本次重写预测的第一重要度λs可以表示为:
Figure BDA0002851797430000121
上述公式(10)中,Qtoken=WQ·htoken
Figure BDA0002851797430000122
WQ和WK表示第一注意力机制对应的注意力机制网络的网络参数,
Figure BDA0002851797430000123
表示各个会话文本的句子级语义表示。
在一个实施场景中,仍以上次重写预测得到的预测文字为“要”为例,通过该预测文字的文字语义表示htoken,利用上述计算方式,可以得到各个会话文本“能给我签名吗?”、“出专辑再议”、“我现在就要”对于本次重写预测的第一重要度,如,会话文本“能给我签名吗?”对于本次重写预测的第一重要度为0.2,会话文本“出专辑再议”对于本次重写预测的第一重要度为0.7,会话文本“我现在就要”对于本次重写预测的第一重要度为0.1。其他情况可以以此类推,在此不再一一举例。
步骤S43:基于第二注意力机制,利用序列文本中词语的字符级语义表示和预测文字的文字语义表示,得到各个词语对于本次重写预测的第二重要度。
如前所述,为了便于描述,可以记上次重写预测得到的预测文字的文字语义表示为htoken。故各个词语对于本次重写预测的第二重要度αt可以表示为:
Figure BDA0002851797430000131
上述公式(11)中,Qtoken=WQ·htoken,K0=WK·hi≠0,WQ和WK表示第二注意力机制对应的注意力机制网络的网络参数,hi≠0表示各个词语(即除表示会话文本起始位置的第一预设字符以外)的字符级语义表示。
在一个实施场景中,仍以上次重写预测得到的预测文字为“要”为例,通过该预测文字的文字语义表示htoken,利用上述计算方式,可以得到各个词语“能”、“给”、“我”、“签”、“名”、“吗”、“出”、“专”、“辑”、“再”、“议”、“我”、“现”、“在”、“就”、“要”对于本次重写预测的第二重要度。例如,可以分别是:0.01、0.01、0.01、0.01、0.01、0.01、0.01、0.8、0.06、0.01、0.01、0.01、0.01、0.01、0.01、0.01。其他情况可以此类推,在此不再一一举例。
需要说明的是,本公开实施例,各个词语为会话文本中除用于表示会话文本起始位置的第一预设字符以外的字符。例如,对于会话文本“能给我签名吗?”,各个词语仅包含“能”、“给”、“我”、“签”、“名”、“吗”,但是不包含表示该会话文本起始位置的第一预设字符(如,[CLS])。其他会话文本可以以此类推,在此不再一一举例。
步骤S44:利用各个会话文本的第一重要度和各个词语的第二重要度,得到本次重写预测的预测文字。
具体地,可以利用会话文本的第一重要度分别对对应会话文本中词语的第二重要度进行加权,得到本次重写预测的概率分布情况,从而可以利用概率分布情况,得到本次重写预测的预测文字。上述方式,通过利用会话文本的第一重要度分别对对应会话文本中词语的第二重要度进行加权,能够在“句子层面”和“词语层面”两个维度来反映各个词语对于本次重写预测的重要度,有利于提高重写预测的准确性。
在一个实施场景中,仍以前述第一重要度λs和第二重要度αt为例,可以通过下式计算得到本次重写预测的概率分布情况p(yi|x):
Figure BDA0002851797430000132
上述公式(12)中,yi表示文本序列中第i个词语,
Figure BDA0002851797430000133
表示会话文本τ中第i个词语的第二重要度,λτ表示会话文本τ的第一重要度。故此,可以计算得到本次重写预测的概率分布情况,该概率分布情况具体包括会话文本中各个词语对于本次重写预测的重要度。最终,可以将重要度最大的词语,作为本次重写预测的预测文字。
在另一个实施场景中,仍以上次重写预测得到的预测文字为“要”为例,如前所述,会话文本“能给我签名吗?”对于本次重写预测的第一重要度为0.2,会话文本“出专辑再议”对于本次重写预测的第一重要度为0.7,会话文本“我现在就要”对于本次重写预测的第一重要度为0.1。此外,文本序列中各个词语“能”、“给”、“我”、“签”、“名”、“吗”、“出”、“专”、“辑”、“再”、“议”、“我”、“现”、“在”、“就”、“要”对于本次重写预测的第二重要度。例如,可以分别是:0.01、0.01、0.01、0.01、0.01、0.01、0.01、0.8、0.06、0.01、0.01、0.01、0.01、0.01、0.01、0.01。故此,可以计算得到本次重写预测的概率分布情况,即各个词语“能”、“给”、“我”、“签”、“名”、“吗”、“出”、“专”、“辑”、“再”、“议”、“我”、“现”、“在”、“就”、“要”对于本次重写预测的重要度分别为:0.002、0.002、0.002、0.002、0.002、0.002、0.007、0.56、0.042、0.007、0.007、0.001、0.001、0.001、0.001、0.001。最终,可以将重要度最大的词语,即重要度为0.56的词语“专”,作为本次重写预测的预测文字。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,下次(如第m+1次)重写预测时,可以将本次(如第m次)重写预测得到的预测文字,作为上次重写预测得到的预测文字,并重新执行上述步骤S41以及后续步骤,直至预测文字为预设结束字符为止。例如,在通过上述步骤预测得到预测文字“专”之后,可以将该预测文字“专”作为上次重写预测得到的预测文字,并重新执行上述步骤S41以及后续,以继续进行重写预测,最终可以预测得到重写会话文本“我现在就要专辑”,其他情况可以以此类推,在此不再一一举例。此外,预设结束字符具体可以参阅前述公开实施例中相关描述,在此不再赘述。
区别于前述实施例,提取上次重写预测的预测文字的文字语义表示,并基于第一注意力机制,利用多个会话文本的句子级语义表示和预测文字的文字语义表示,得到各个会话文本对于本次重写预测的第一重要度,以及基于第二注意力机制,利用序列文本中词语的字符级语义表示和预测文字的文字语义表示,得到各个词语对于本次重写预测的第二重要度,从而利用各个会话文本的第一重要度和各个词语的第二重要度,故能够有利于在“句子层面”和“字符层面”两个维度更加精准地确定文本序列中各个字符对于本次重写预测的重要度,进而能够有利于在重写预测过程中,提高预测文字的准确性。
请参阅图5,图5是文本重写模型的训练方法一实施例的流程示意图。具体地,为了提高文本重写的效率,可以采用文本重写模型对文本序列进行处理得到重写会话文本。为了提高文本重写模型的性能,在利用文本重写模型之前,可以预先对其进行训练,具体可以包括如下步骤:
步骤S51:获取样本文本序列。
本公开实施例中,样本文本序列包括当前样本会话文本、发生在当前样本会话文本之前的历史样本会话文本和当前样本会话文本的实际重写文本。样本会话文本具体可以参阅前述公开实施例中会话文本相关描述,在此不再赘述。
如前述电商客服场景,样本文本序列可以包括如下样本会话文本:“能给我签名吗?”、“出专辑再议”、“我现在就要”,其中,当前样本会话文本为“我现在就要”,历史样本会话文本为“能给我签名吗?”和“出专辑再议”,对应地,当前样本会话文本“我现在就要”的实际重写文本可以为“我现在就要专辑”。
如前述智能问答场景,样本文本序列可以包括如下样本会话文本:“秦始皇活了多久?”、“50多岁我确定”、“为什么”,其中,当前样本会话文本为“为什么”,历史样本会话文本为“秦始皇活了多久?”和“50多岁我确定”,对应地,当前样本会话文本“为什么”的实际重写文本可以为“为什么确认秦始皇活了50岁”。
其他场景可以以此类推,在此不再一一举例。
步骤S52:将当前样本会话文本和历史会话文本送入文本重写模型,得到当前样本会话文本的预测重写文本。
具体地,可以通过文本重写模型提取到当前样本会话文本和历史样本会话文本中样本字符的字符级语义表示,并基于文本重写模型,利用当前样本会话文本和历史样本会话文本中每一样本会话文本与其他样本会话文本之间的关联度,提取样本会话文本的句子级语义表示,且句子级语义表示包含该样本会话文本本身的语义信息和其他样本会话文本的语义信息,从而可以基于文本重写模型,利用多个样本会话文本的句子级语义表示和各个样本字符的字符级语义表示进行若干次重写预测,进而可以将每次重写预测得到的预测文字的组合,作为预测重写文本。
在一个实施场景中,文本重写模型的整体框架可以参阅图3,在此不再赘述。
在另一个实施场景中,样本字符包括用于表示样本会话文本起始位置的第一样本预设字符,且第一样本预设字符的字符级语义表示包含样本会话文本本身的语义信息,故在提取句子级语义表示的过程中,可以将各个样本会话文本分别作为目标会话文本,并基于目标会话文本分别与其他样本会话文本之间的关联度,获取目标会话文本的样本融合语义表示,且样本融合语义表示包含其他样本会话文本的语义信息,从而可以利用目标会话文本对应的第一样本预设字符的字符级语义表示和目标会话文本的样本融合语义表示,得到目标会话文本的句子级语义表示。具体可以参阅前述公开实施例中会话文本的句子级语义表示的获取过程,在此不再赘述。
在又一个实施场景中,每次重写预测时,可以利用文本重写模型提取上次重写预测的预测文字的文字语义表示,从而可以基于第一注意力机制,利用多个样本会话文本的句子级语义表示和预测文字的文字语义表示,得到各个样本会话文本对于本次重写预测的第一重要度,并基于第二注意力机制,利用样本会话文本中样本词语的字符级语义表示和预测文字的文字语义表示,得到各个样本词语对于本次重写预测的第二重要度,最后利用各个样本会话文本的第一重要度和第二重要度,得到本次重写预测的预测文字。具体可以参阅前述公开实施例中重写预测的相关过程,在此不再赘述。
在一个具体的实施场景中,与前述公开实施例中重写预测不同的是,在训练过程中,在基于第二注意力机制,利用样本会话文本中样本词语的字符级语义表示和预测文字的文字语义表示,得到各个样本词语对于本次重写预测的第二重要度的过程中,为了适应于文本属于离散数据的特性,具体可以采用基于温度的softmax来计算第二重要度αt
Figure BDA0002851797430000161
上述公式(11)中,T表示温度。T的数值大小具体可以根据实际应用情况进行设置,例如,在初始训练阶段,为了降低陷入局部最优解的概率,T可以设置地稍大一些,随着训练的进行,可以将T减小,以使文本重写模型在训练后期趋于收敛。
步骤S53:将预测重写文本送入文本判别模型,得到预测重写文本的判别分值,并将实际重写文本送入文本判别模型,得到实际重写文本的判别分值。
本公开实施例中,判别分值与文本质量为负相关关系,即判别分值越大,文本质量越低,反之判别分值越小,文本质量越高。具体地,文本质量可以包括但不限于:文本流畅度、缺字数量、多字数量等等,在此不做限定。可以理解,文本流畅度越高,文本质量越高;缺字数量越少,文本质量越高;少字数量越少,文本质量越高。
在一个实施场景中,可以将预测重写文本分词向量化,得到预测重写文本中各个字符的字符向量,且各个字符至少包括用于表示预测重写文本起始位置的第二预设字符,并将预测重写文本中各个字符的字符向量送入文本判别模型,得到各个字符的语义表示,从而可以将第二预设字符的语义表示进行非线性处理,得到预测重写文本的判别分值。
在一个具体的实施场景中,字符向量具体可以包括词向量、位置向量和句子向量,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个具体的实施场景中,如前所述,第二预设字符具体可以根据实际应用情况进行设置,例如,可以设置为[CLS]。
在又一个具体的实施场景中,具体可以采用诸如tanh等函数进行非线性处理。
在又一个具体的实施场景中,请结合参阅图6,图6是文本判别模型一实施例的框架示意图。如图6所示,文本判别模型具体可以包括注意力机制、残差网络(即Add)和正则化处理(即Normalize)、前馈神经网络(即FNN)。具体地,字符向量在送入文本判别模型之后,可以基于注意力机制,获取每一字符分别与各个字符之间的关联度,从而可以利用与各个字符之间的关联度,对对应字符的字符向量进行加权处理,得到字符的融合字符向量,且融合字符向量中含有该字符本身的语义信息,也包含其他字符的语义信息,获取关联度的具体过程可以参阅前述公开实施例中的相关描述,在此不再赘述。此外,关于残差网络(即Add)和正则化处理(即Normalize)、前馈神经网络(即FNN),也可以参阅前述公开实施例中相关描述,在此不再赘述。
在另一个实施场景中,可以将实际重写文本分词向量化,得到实际重写文本中各个字符的字符向量,且各个字符至少包括用于表示实际重写文本起始位置的第二预设字符,并将实际重写文本中各个字符的字符向量送入文本判别模型,得到各个字符的语义表示,从而可以将第二预设字符的语义表示进行非线性处理,得到实际重写文本的判别分值。具体可以参阅前述对预测重写文本的相关处理过程,在此不再赘述。
上述对于预测重写文本以及对于实际重写文本的处理过程中,通过将重写文本分词向量化,得到重写文本中各个字符的字符向量,且字符至少包括用于表示重写文本起始位置的第二预设字符,并将重写文本中各个字符的字符向量送入文本判别模型,得到各个字符的语义表示,从而将第二预设字符的语义表示进行非线性处理,得到重写文本的判别分值,故能够有利于降低获取判别分值的复杂度。
步骤S54:基于预测重写文本的判别分值和实际重写文本的判别分值,得到文本判别模型的第一损失值,并基于实际重写文本和预测重写文本,得到文本重写模型的第二损失值。
请结合参阅图7,图7是文本重写模型的训练方法一实施例的过程示意图。如图7所示,样本当前会话文本和样本历史会话文本作为整体z经文本重写模型G重写预测,得到预测重写文本G(z),并将预测重写文本G(z)作为负样本送入文本判别模型D,得到判别分值D(G(z)),与此同时,将实际重写文本x作为正样本送入文本判别模型D,得到判别分值D(x),基于上述判别分值D(G(z))和判别分值D(x)可以计算得到文本判别模型的第一损失值。
在一个实施场景中,可以利用铰链损失(Hinge Loss)函数,计算得到文本判别模型的第一损失值LD
LD=E[max(1,1-D(x))]+E[max(0,1+D(G(z)))]……(14)
上述公式(14)中,E()表示数学期望,max(,)表示取两个数值中的最大值。由此可见,对于文本判别模型而言,其最终目标是增加正样本的数学期望并将负样本的数学期望,从而在训练过程中,不断降低上述第一损失值。
在另一个实施场景中,如前述公开实施例所述,每次重写预测均能够得到一个概率分布情况,故次可以利用交叉熵损失函数处理每次重写预测所得到的概率分布情况,得到第二损失值。具体在此不再赘述。为了便于描述,第二损失值可以记为LG
步骤S55:利用第一损失值和第二损失值,调整文本重写模型的网络参数和/或文本判别模型的网络参数。
如图7所示,文本重写模型包括编码子网络和解码子网络,编码子网络用于提取字符级语义表示和句子级语义表示,而解码子网络用于执行重写预测,编码子网络和解码子网络的具体构造可以参阅图3中的编码器和解码器,以及前述公开实施例中相关描述,在此不再赘述。此外,文本重写模型是经过多轮训练得到的,则在训练过程中:
若执行训练步骤的轮数满足第一预设条件,则可以保持文本判别模型的网络参数不变,并利用第二损失值,调整文本重写模型的网络参数。故此,通过第二损失值LG来调整文本重写模型的网络参数,能够有利于提升文本重写模型的性能。
若执行训练步骤的轮数满足第二预设条件,则可以保持编码子网络的网络参数不变,并利用第一损失值调整解码子网络的网络参数和文本判别模型的网络参数。故此,通过利用第一损失值调整解码子网络的网络参数和文本判别模型的网络参数,能够有利于使解码子网络和文本判别模型共享网络参数,从而能够提高文本判别模型对文本重写模型重写预测所得到文本质量的决定能力,并使得文本重写模型更加关注于编码子网络提取句子级语义表示和字符级语义表示的能力,进而能够有利于提高重写预测得到的文本质量。
若执行训练步骤的轮数满足第三预设条件,则可以利用第一损失值和第二损失值,调整文本重写模型的网络参数和文本判别模型的网络参数。具体地,可以对第一损失值和第二损失值进行加权处理,得到总损失值Lall
Lall=LD+λ·LG……(15)
上述公式(15)中,λ表示权重,该权重具体可以根据文本重写模型和文本判别模型的复杂度进行设置,例如,可以设置为4等,在此不做限定。
上述第一预设条件具体可以包括:执行训练步骤的轮数除以预设模值的余数为第一数值,上述第二预设条件具体可以包括:执行训练步骤的轮数除以预设模值的余数为第二数值,上述第三预设条件具体可以包括:执行训练步骤的轮数除以预设模值的余数为第三数值。具体地,预设模值可以设置为3,第一数值可以设置为1,第二数值可以设置为2,第三数值可以设置0。当然在其他实施例中,预设模值、第一数值、第二数值、第三数值也可以设置成其它值,本发明对此不做限定。
区别于前述实施例,通过获取样本文本序列,并将当前样本会话文本和历史会话文本送入文本重写模型,得到当前样本会话文本的预测重写文本,从而将预测重写文本送入文本判别模型,得到预测重写文本的判别分值,并将实际重写文本送入文本判别模型,得到实际重写文本的判别分值,进而基于预测重写文本的判别分值和实际重写文本的判别分值,得到文本判别模型的第一损失值,并基于实际重写文本和预测重写文本,得到文本重写模型的第二损失值,最终利用第一损失值和第二损失值,调整文本重写模型的网络参数和/或文本判别模型的网络参数,故此能够在训练过程中对文本重写模型和文本判别模型进行联合训练,从而有利于通过训练优化文本判别模型来提高文本重写模型的性能,并通过训练优化文本重写模型来提高文本判别模型的性能,使得文本重写模型和文本训练模型能够相互促进,相辅相成,最终能够有利于提高文本重写模型预测得到的重写会话文本的文本质量。
请参阅图8,图8是本申请电子设备80一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82,存储器81中存储有程序指令,处理器82用于执行程序指令以实现上述任一文本重写方法实施例中的步骤。具体地,电子设备80可以包括但不限于:服务器、台式计算机、笔记本电脑、平板电脑、手机等等,在此不做限定。
具体而言,处理器82用于控制其自身以及存储器81以实现上述任一文本重写方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由集成电路芯片共同实现。
本公开实施例中,处理器82用于获取文本序列;文本序列包括多个会话文本,多个会话文本包括当前会话文本和发生在当前会话文本之前的历史会话文本;处理器82用于提取文本序列中字符的字符级语义表示;以及,处理器82用于利用会话文本与文本序列中其他会话文本之间的关联度,提取会话文本的句子级语义表示;其中,句子级语义表示包含会话文本本身的语义信息和其他会话文本的语义信息;处理器82用于利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示进行若干次重写预测,并将每次重写预测得到的预测文字的组合,作为当前会话文本的重写会话文本。
上述方案,通过获取文本序列,且文本序列包括多个会话文本,多个会话文本包括当前会话文本和发生在当前会话文本之前的历史会话文本,并提取文本序列中字符的字符级语义表示,以及利用会话文本与文本序列中其他会话文本之间的关联度,提取会话文本的句子级语义表示,且句子级语义表示包括会话文本本身的语义信息和其他会话文本的语义信息,故能够有利于在会话文本的句子级语义表示中融入较多与其具有较高关联度的会话文本的语义信息,从而在利用多个会话文本的句子级语义表示和文本序列中字符的字符级语义表示进行若干次重写预测时,能够有利于提高每次重写预测得到的预测文字的准确性,进而能够提高文本重写的准确性。
在一些公开实施例中,字符包括用于表示会话文本起始位置的第一预设字符,且第一预设字符的字符级语义表示包含会话文本本身的语义信息,处理器82用于将各个会话文本分别作为目标会话文本,并基于目标会话文本分别与其他会话文本之间的关联度,获取目标会话文本的融合语义表示;其中,融合语义表示包含其他会话文本的语义信息;处理器82用于利用目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示,得到目标会话文本的句子级语义表示。
区别于前述实施例,通过分别将各个会话文本分别作为目标会话文本,并基于目标会话文本分别与其他会话文本之间的关联度,获取目标会话文本的融合语义表示,且融合语义表示包含其他会话文本的语义信息,故此能够充分挖掘会话文本之间的相关联系,从而能够有利于通过会话文本之间的关联度,进一步充分抽取会话文本之间显性意图关系,进而再利用目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示,能够有利于提高句子级语义表示的准确性。
在一些公开实施例中,处理器82用于将目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示进行拼接,得到拼接语义表示;处理器82用于将拼接语义表示进行线性变换,得到句子级语义表示。
区别于前述实施例,通过将目标会话文本对应的第一预设字符的字符级语义表示和目标会话文本的融合语义表示进行拼接,得到拼接语义表示,并将拼接语义表示进行线性变换,得到句子级语义表示,能够有利于使句子级语义表示既包含会话文本本身的语义信息,又包含其他会话文本的语义信息,并通过拼接、线性变换等数据处理,得到句子级语义表示,能够有利于降低数据处理复杂度。
在一些公开实施例中,字符包括会话文本中的词语,在每次重写预测过程中,处理器82用于提取上次重写预测的预测文字的文字语义表示;处理器82用于基于第一注意力机制,利用多个会话文本的句子级语义表示和预测文字的文字语义表示,得到各个会话文本对于本次重写预测的第一重要度;以及,处理器82用于基于第二注意力机制,利用序列文本中词语的字符级语义表示和预测文字的文字语义表示,得到各个词语对于本次重写预测的第二重要度;处理器82用于利用各个会话文本的第一重要度和各个词语的第二重要度,得到本次重写预测的预测文字。
区别于前述实施例,提取上次重写预测的预测文字的文字语义表示,并基于第一注意力机制,利用多个会话文本的句子级语义表示和预测文字的文字语义表示,得到各个会话文本对于本次重写预测的第一重要度,以及基于第二注意力机制,利用序列文本中词语的字符级语义表示和预测文字的文字语义表示,得到各个词语对于本次重写预测的第二重要度,从而利用各个会话文本的第一重要度和各个词语的第二重要度,故能够有利于在“句子层面”和“字符层面”两个维度更加精准地确定文本序列中各个字符对于本次重写预测的重要度,进而能够有利于在重写预测过程中,提高预测文字的准确性。
在一些公开实施例中,处理器82用于利用会话文本的第一重要度分别对对应会话文本中词语的第二重要度进行加权,得到本次重写预测的概率分布情况;处理器82用于利用概率分布情况,得到本次重写预测的预测文字。
区别于前述实施例,通过利用会话文本的第一重要度分别对对应会话文本中词语的第二重要度进行加权,能够在“句子层面”和“词语层面”两个维度来反映各个词语对于本次重写预测的重要度,有利于提高重写预测的准确性。
在一些公开实施例中,字符级语义表示是利用字符与文本序列中其他字符之间的关联度提取得到的,字符级语义表示包含字符本身的语义信息和文本序列中其他字符的语义信息。
区别于前述实施例,通过利用字符与文本序列中其他字符之间的关联度提取得到字符级语义表示,能够有利于在字符级语义表示中融入较多与其具有较高关联度的字符的语义信息,从而有利于提高后续重写预测得到的预测文字的准确性,进而能够提高文本重写的准确性。
在一些公开实施例中,重写会话文本是由文本重写模型对文本序列处理得到的,处理器82用于获取样本文本序列;样本文本序列包括当前样本会话文本、发生在当前样本会话文本之前的历史样本会话文本和当前样本会话文本的实际重写文本;处理器82用于将当前样本会话文本和历史会话文本送入文本重写模型,得到当前样本会话文本的预测重写文本;处理器82用于将预测重写文本送入文本判别模型,得到预测重写文本的判别分值,并将实际重写文本送入文本判别模型,得到实际重写文本的判别分值;其中,判别分值与文本质量为负相关关系;处理器82用于基于预测重写文本的判别分值和实际重写文本的判别分值,得到文本判别模型的第一损失值,并基于实际重写文本和预测重写文本,得到文本重写模型的第二损失值;处理器82用于利用第一损失值和第二损失值,调整文本重写模型的网络参数和/或文本判别模型的网络参数。
区别于前述实施例,通过获取样本文本序列,并将当前样本会话文本和历史会话文本送入文本重写模型,得到当前样本会话文本的预测重写文本,从而将预测重写文本送入文本判别模型,得到预测重写文本的判别分值,并将实际重写文本送入文本判别模型,得到实际重写文本的判别分值,进而基于预测重写文本的判别分值和实际重写文本的判别分值,得到文本判别模型的第一损失值,并基于实际重写文本和预测重写文本,得到文本重写模型的第二损失值,最终利用第一损失值和第二损失值,调整文本重写模型的网络参数和/或文本判别模型的网络参数,故此能够在训练过程中对文本重写模型和文本判别模型进行联合训练,从而有利于通过训练优化文本判别模型来提高文本重写模型的性能,并通过训练优化文本重写模型来提高文本判别模型的性能,使得文本重写模型和文本训练模型能够相互促进,相辅相成,最终能够有利于提高文本重写模型预测得到的重写会话文本的文本质量。
在一些公开实施例中,文本重写模型是经多轮训练步骤得到的,且文本重写模型包括编码子网络和解码子网络,编码子网络用于提取字符级语义表示和句子级语义表示,解码子网络用于执行重写预测,处理器82用于在执行训练步骤的轮数满足第一预设条件的情况下,保持文本判别模型的网络参数不变,并利用第二损失值,调整文本重写模型的网络参数;处理器82用于在执行训练步骤的轮数满足第二预设条件的情况下,保持编码子网络的网络参数不变,并利用第一损失值,调整解码子网络的网络参数和文本判别模型的网络参数;处理器82用于在执行训练步骤的轮数满足第三预设条件的情况下,利用第一损失值和第二损失值,调整文本重写模型的网络参数和文本判别模型的网络参数。
区别于前述实施例,通过第二损失值来调整文本重写模型的网络参数,能够有利于提升文本重写模型的性能;而通过利用第一损失值调整解码子网络的网络参数和文本判别模型的网络参数,能够有利于使解码子网络和文本判别模型共享网络参数,从而能够提高文本判别模型对文本重写模型重写预测所得到文本质量的决定能力,并使得文本重写模型更加关注于编码子网络提取句子级语义表示和字符级语义表示的能力,进而能够有利于提高重写预测得到的文本质量;通过利用第一损失值和第二损失值,调整文本重写模型的网络参数和文本判别模型的网络参数,能够有利于整体提升文本重写模型和文本判别模型的性能。
在一些公开实施例中,处理器82用于将重写文本分词向量化,得到重写文本中各个字符的字符向量;其中,各个字符至少包括用于表示重写文本起始位置的第二预设字符;处理器82用于将重写文本中各个字符的字符向量送入文本判别模型,得到各个字符的语义表示;处理器82用于将第二预设字符的语义表示进行非线性处理,得到重写文本的判别分值;其中,在重写文本为预测重写文本的情况下,判别分值为预测重写文本的判别分值,在重写文本为实际重写文本的情况下,判别分值为实际重写文本的判别分值。
区别于前述实施例,通过将重写文本分词向量化,得到重写文本中各个字符的字符向量,且字符至少包括用于表示重写文本起始位置的第二预设字符,并将重写文本中各个字符的字符向量送入文本判别模型,得到各个字符的语义表示,从而将第二预设字符的语义表示进行非线性处理,得到重写文本的判别分值,故能够有利于降低获取判别分值的复杂度。
请参阅图9,图9是本申请存储装置90一实施例的框架示意图。存储装置90存储有能够被处理器运行的程序指令91,程序指令91用于实现上述任一文本重写方法实施例中的步骤。
上述方案,能够提高文本重写的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (11)

1.一种文本重写方法,其特征在于,包括:
获取文本序列;所述文本序列包括多个会话文本,所述多个会话文本包括当前会话文本和发生在所述当前会话文本之前的历史会话文本;
提取所述文本序列中字符的字符级语义表示;以及,
利用所述会话文本与所述文本序列中其他所述会话文本之间的关联度,提取所述会话文本的句子级语义表示;其中,所述句子级语义表示包含所述会话文本本身的语义信息和其他所述会话文本的语义信息;
利用所述多个会话文本的句子级语义表示和所述文本序列中所述字符的字符级语义表示进行若干次重写预测,并将每次重写预测得到的预测文字的组合,作为所述当前会话文本的重写会话文本。
2.根据权利要求1所述的方法,其特征在于,所述字符包括用于表示所述会话文本起始位置的第一预设字符,且所述第一预设字符的字符级语义表示包含所述会话文本本身的语义信息;所述提取所述会话文本的句子级语义表示,包括:
将各个所述会话文本分别作为目标会话文本,并基于所述目标会话文本分别与其他所述会话文本之间的关联度,获取所述目标会话文本的融合语义表示;其中,所述融合语义表示包含其他所述会话文本的语义信息;
利用所述目标会话文本对应的第一预设字符的字符级语义表示和所述目标会话文本的融合语义表示,得到所述目标会话文本的句子级语义表示。
3.根据权利要求2所述的方法,其特征在于,所述利用所述目标会话文本对应的第一预设字符的字符级语义表示和所述目标会话文本的融合语义表示,得到所述目标会话文本的句子级语义表示,包括:
将所述目标会话文本对应的第一预设字符的字符级语义表示和所述目标会话文本的融合语义表示进行拼接,得到拼接语义表示;
将所述拼接语义表示进行线性变换,得到所述句子级语义表示。
4.根据权利要求1所述的方法,其特征在于,所述字符包括所述会话文本中的词语,每次所述重写预测的步骤,包括:
提取上次重写预测的预测文字的文字语义表示;
基于第一注意力机制,利用所述多个会话文本的句子级语义表示和所述预测文字的文字语义表示,得到各个所述会话文本对于本次重写预测的第一重要度;以及,
基于第二注意力机制,利用所述序列文本中所述词语的字符级语义表示和所述预测文字的文字语义表示,得到各个所述词语对于本次重写预测的第二重要度;
利用各个所述会话文本的第一重要度和各个所述词语的第二重要度,得到本次重写预测的预测文字。
5.根据权利要求4所述的方法,其特征在于,所述利用各个所述会话文本的第一重要度和各个所述词语的第二重要度,得到本次重写预测的预测文字,包括:
利用所述会话文本的第一重要度分别对对应所述会话文本中所述词语的第二重要度进行加权,得到本次重写预测的概率分布情况;
利用所述概率分布情况,得到本次重写预测的预测文字。
6.根据权利要求1所述的方法,其特征在于,所述字符级语义表示是利用所述字符与所述文本序列中其他所述字符之间的关联度提取得到的,所述字符级语义表示包含所述字符本身的语义信息和所述文本序列中其他所述字符的语义信息。
7.根据权利要求1所述的方法,其特征在于,所述重写会话文本是由文本重写模型对所述文本序列处理得到的,所述文本重写模型的训练步骤包括:
获取样本文本序列;所述样本文本序列包括当前样本会话文本、发生在所述当前样本会话文本之前的历史样本会话文本和所述当前样本会话文本的实际重写文本;
将所述当前样本会话文本和所述历史会话文本送入所述文本重写模型,得到所述当前样本会话文本的预测重写文本;
将所述预测重写文本送入文本判别模型,得到所述预测重写文本的判别分值,并将所述实际重写文本送入所述文本判别模型,得到所述实际重写文本的判别分值;其中,所述判别分值与文本质量为负相关关系;
基于所述预测重写文本的判别分值和所述实际重写文本的判别分值,得到所述文本判别模型的第一损失值,并基于所述实际重写文本和所述预测重写文本,得到所述文本重写模型的第二损失值;
利用所述第一损失值和所述第二损失值,调整所述文本重写模型的网络参数和/或所述文本判别模型的网络参数。
8.根据权利要求7所述的方法,其特征在于,所述文本重写模型是经多轮所述训练步骤得到的,且所述文本重写模型包括编码子网络和解码子网络,所述编码子网络用于提取所述字符级语义表示和所述句子级语义表示,所述解码子网络用于执行所述重写预测;所述利用所述第一损失值和所述第二损失值,调整所述文本重写模型的网络参数和/或所述文本判别模型的网络参数,包括:
若执行所述训练步骤的轮数满足第一预设条件,则保持所述文本判别模型的网络参数不变,并利用所述第二损失值,调整所述文本重写模型的网络参数;
若执行所述训练步骤的轮数满足第二预设条件,则保持所述编码子网络的网络参数不变,并利用所述第一损失值,调整所述解码子网络的网络参数和所述文本判别模型的网络参数;
若执行所述训练步骤的轮数满足第三预设条件,则利用所述第一损失值和所述第二损失值,调整所述文本重写模型的网络参数和所述文本判别模型的网络参数。
9.根据权利要求7所述的方法,其特征在于,所述将所述预测重写文本送入文本判别模型,得到所述预测重写文本的判别分值;或者,所述将所述实际重写文本送入所述文本判别模型,得到所述实际重写文本的判别分值,包括:
将重写文本分词向量化,得到所述重写文本中各个字符的字符向量;其中,所述各个字符至少包括用于表示所述重写文本起始位置的第二预设字符;
将所述重写文本中各个字符的字符向量送入所述文本判别模型,得到所述各个字符的语义表示;
将所述第二预设字符的语义表示进行非线性处理,得到所述重写文本的判别分值;
其中,在所述重写文本为所述预测重写文本的情况下,所述判别分值为所述预测重写文本的判别分值,在所述重写文本为所述实际重写文本的情况下,所述判别分值为所述实际重写文本的判别分值。
10.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的文本重写方法。
11.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至9任一项所述的文本重写方法。
CN202011529540.0A 2020-12-22 2020-12-22 文本重写方法以及电子设备、存储装置 Active CN112668343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011529540.0A CN112668343B (zh) 2020-12-22 2020-12-22 文本重写方法以及电子设备、存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011529540.0A CN112668343B (zh) 2020-12-22 2020-12-22 文本重写方法以及电子设备、存储装置

Publications (2)

Publication Number Publication Date
CN112668343A true CN112668343A (zh) 2021-04-16
CN112668343B CN112668343B (zh) 2024-04-30

Family

ID=75407627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011529540.0A Active CN112668343B (zh) 2020-12-22 2020-12-22 文本重写方法以及电子设备、存储装置

Country Status (1)

Country Link
CN (1) CN112668343B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160805A (zh) * 2021-04-27 2021-07-23 中国建设银行股份有限公司深圳市分行 一种消息识别方法、装置、电子设备及存储介质
CN114118060A (zh) * 2021-11-10 2022-03-01 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011128726A1 (en) * 2010-04-14 2011-10-20 Nokia Corporation Systems, methods, and apparatuses for facilitating determination of a message recipient
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011128726A1 (en) * 2010-04-14 2011-10-20 Nokia Corporation Systems, methods, and apparatuses for facilitating determination of a message recipient
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐菲菲;冯东升;: "文本词向量与预训练语言模型研究", 上海电力大学学报, no. 04 *
李天时;李琦;王文辉;常宝宝;: "基于外部记忆单元和语义角色知识的文本复述判别模型", 中文信息学报, no. 06 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160805A (zh) * 2021-04-27 2021-07-23 中国建设银行股份有限公司深圳市分行 一种消息识别方法、装置、电子设备及存储介质
CN114118060A (zh) * 2021-11-10 2022-03-01 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统

Also Published As

Publication number Publication date
CN112668343B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
WO2021027533A1 (zh) 文本语义识别方法、装置、计算机设备和存储介质
US11816442B2 (en) Multi-turn dialogue response generation with autoregressive transformer models
CN112732911B (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
WO2021128044A1 (zh) 一种基于上下文的多轮对话方法、装置、设备及存储介质
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
US12002276B2 (en) Document distinguishing based on page sequence learning
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN115146068A (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN112232052B (zh) 文本拼接方法、装置、计算机设备及存储介质
CN112668343A (zh) 文本重写方法以及电子设备、存储装置
CN115497465A (zh) 语音交互方法、装置、电子设备和存储介质
CN113128176A (zh) 总结模型的训练方法和工单生成方法及相关设备、装置
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN115408494A (zh) 一种融合多头注意力对齐的文本匹配方法
US20240152702A1 (en) Specific target-oriented social media tweet sentiment analysis method
CN114022192A (zh) 一种基于智能营销场景的数据建模方法及系统
US11941360B2 (en) Acronym definition network
CN116775873A (zh) 一种多模态对话情感识别方法
JP7120064B2 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
CN116484864A (zh) 一种数据识别方法及相关设备
CN114329005A (zh) 信息处理方法、装置、计算机设备及存储介质
JP7333490B1 (ja) 音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置
CN113761167B (zh) 一种会话信息抽取方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant