CN111507114A

CN111507114A - 基于反向翻译的口语文本增强方法及系统

Info

Publication number: CN111507114A
Application number: CN202010279905.2A
Authority: CN
Inventors: 杨柳
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-07
Anticipated expiration: 2040-04-10
Also published as: CN111507114B

Abstract

本发明实施例提供一种基于反向翻译的口语文本增强方法。该方法包括：通过带有第一标签集合的口语文本训练标签预测模型；将带有第一标签集合的口语文本翻译成其他语言后，再进行反向翻译，生成多条增强口语文本；基于标签预测模型对多条增强口语文本进行标签预测，确定多条增强口语文本各自对应的第二标签集合；分别判断第一标签集合内的标签，在多个增强口语文本各自对应的第二标签集合中是否丢失，当存在标签丢失时，将删除丢失标签的第一标签集合确定为增强口语文本的有效标签集合。本发明实施例还提供一种基于反向翻译的口语文本增强系统。本发明实施例有效对数据进行扩充增强，尤其对于小数据场景，效果明显，避免噪声的引入。

Description

基于反向翻译的口语文本增强方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于反向翻译的口语文本增强方法及系统。

背景技术

数据增强在计算机视觉领域应用已经十分广泛，这是由于图像是连续的，更容易从原有数据来产生新的数据。而自然语言本身是离散的，轻微的改动很可能会改变整句话的含义，因此数据增强在自然语言处理领域应用还比较少。在自然语言处理不同的场景中，当缺少或没有数据的时候，一般会采用规则系统来冷启动，然后收集线上数据，作为数据集。而当需要对数据集进行增强的时候，更多也是采用随机交换、随机删除等较为简单的方式进行增强。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

在进行增强时，通常会使用：同义词替换、随机插入、随机交换、随机删除、文档裁剪、预训练模型、反向翻译这些方法。然而同义词替换和随机插入会使得增强的句子具有非常相似的词向量，因此语言模型会将处理前后的两个句子当作相同的句子，从而数据集并没有得到扩充。随机交换只是对于词的顺序作了调整，增强效果十分有限。随即删除可能会删除某些关键词，改变句子含义，从而引入噪声。文档裁剪只适用于比较长的文档，适用场景有限。预训练模型的训练代价高昂。

对于反向翻译，在多标签文本分类任务中，每一个文本可能有一个或者多个标签。采用普通的反向翻译，由于机器翻译不是完全准确，从而可以丰富表达方式，从而扩充数据集。但同时也由于反向翻译产生的数据和原数据不完全一致，在多标签文本分类任务中，可能会导致一个句子经过反向翻译处理后，只保留了语义比较强的语义，而丢失了部分弱语义。尤其在口语场景下，例如智能电话客服场景，用户的表达很多时候非常口语化，语义也比较模糊，甚至混乱，而且由于自动语音识别不够准确，也会引入额外的噪声。这些都会导致一些标签的语义是比较弱的，在反向翻译的过程中很容易丢失。

发明内容

为了至少解决现有技术中反向翻译在回译后的句子可能会丢失部分标签，从而引入噪声的问题。

第一方面，本发明实施例提供一种基于反向翻译的口语文本增强方法，包括：

通过带有第一标签集合的口语文本训练标签预测模型，其中，所述标签预测模型用于预测所述口语文本的标签集合；

将所述带有第一标签集合的口语文本翻译成其他语言后，再进行反向翻译，生成多条增强口语文本；

基于所述标签预测模型对所述多条增强口语文本进行标签预测，确定所述多条增强口语文本各自对应的第二标签集合；

分别判断所述第一标签集合内的标签，在所述多个增强口语文本各自对应的第二标签集合中是否丢失，当存在标签丢失时，将删除丢失标签的第一标签集合确定为所述增强口语文本的有效标签集合。

第二方面，本发明实施例提供一种基于反向翻译的口语文本增强系统，包括：

预测模型训练程序模块，用于通过带有第一标签集合的口语文本训练标签预测模型，其中，所述标签预测模型用于预测所述口语文本的标签集合；

反向翻译程序模块，用于将所述带有第一标签集合的口语文本翻译成其他语言后，再进行反向翻译，生成多条增强口语文本；

标签预测程序模块，用于基于所述标签预测模型对所述多条增强口语文本进行标签预测，确定所述多条增强口语文本各自对应的第二标签集合；

文本增强程序模块，用于分别判断所述第一标签集合内的标签，在所述多个增强口语文本各自对应的第二标签集合中是否丢失，当存在标签丢失时，将删除丢失标签的第一标签集合确定为所述增强口语文本的有效标签集合。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于反向翻译的口语文本增强方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于反向翻译的口语文本增强方法的步骤。

本发明实施例的有益效果在于：可以有效对数据进行扩充增强，尤其对于小数据场景，效果明显，避免噪声的引入；而且本方法可以在很多场景下使用，通用性强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于反向翻译的口语文本增强方法的流程图；

图2是本发明一实施例提供的一种基于反向翻译的口语文本增强方法的基于反向翻译的口语数据增强流程图；

图3是本发明一实施例提供的一种基于反向翻译的口语文本增强系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于反向翻译的口语文本增强方法的流程图，包括如下步骤：

S11：通过带有第一标签集合的口语文本训练标签预测模型，其中，所述标签预测模型用于预测所述口语文本的标签集合；

S12：将所述带有第一标签集合的口语文本翻译成其他语言后，再进行反向翻译，生成多条增强口语文本；

S13：基于所述标签预测模型对所述多条增强口语文本进行标签预测，确定所述多条增强口语文本各自对应的第二标签集合；

S14：分别判断所述第一标签集合内的标签，在所述多个增强口语文本各自对应的第二标签集合中是否丢失，当存在标签丢失时，将删除丢失标签的第一标签集合确定为所述增强口语文本的有效标签集合。

在本实施方式中，在训练各种类型的语音模型中，都需要一定数量的语音文本数据支持。在获取数据过程中，采集用户的口语语音较为便捷，将采集到的口语语音进行识别，可以得到口语文本训练数据。但是中文口语对话场景下，由于声音识别存在误差，识别出的文字不完全准确，这样得到的数据会有标签丢失的问题。尤其在口语场景下，例如智能电话客服场景，用户的表达很多时候非常口语化，语义也比较模糊，甚至混乱，而且由于自动语音识别不够准确，也会引入额外的噪声。

例如，用户在与电商客服语音沟通时，将用户的口语语音进行语音识别，可以得到：“我那个下单了到重庆了可是具体多久才到呢据我所知已经到重庆了对吧。”。在这句口语文本中，进行人工标注，可以得到标注标签为：“已下单”、“请求送达时间”。

将：“我那个下单了到重庆了可是具体多久才到呢据我所知已经到重庆了对吧”作为口语数据增强的原文本。其中，第一标签集合为{“已下单”、“请求送达时间”}。

对于步骤S11，通过不断的获取用户的口语语音(不限于上述电商类型的获取方法，例如，智能客服系统等，在此不再赘述)，从而得到很多的带有标签集合的口语文本。利用这些带有标签集合的口语文本训练简单的标签预测模型。通过这些口语文本训练的标签预测模型，可能对于没有被训练到的一些其他口语文本的标签预测不佳，然而，上述过程训练的标签预测模型对于已经被训练的这些口语文本，以及这些口语文本的变形文本具有较强的预测分类能力。进而将标签预测模型用于预测口语文本(也包含反向翻译后的口语文本)的标签集合。

对于步骤S12，以“我那个下单了到重庆了可是具体多久才到呢据我所知已经到重庆了对吧”为例，可以利用机器翻译软件翻译成其它语言，比如英语、法语、西班牙语等等，得到中间数据。随后再利用机器翻译将此中间数据翻译成中文。

对于简单语言层次结构的口语文本，翻译成其他语言后再翻译回来，此时简单语言层次结构的口语文本的标签会保持一致。然而，在口语对话场景下(例如，中文里常见的“liu、niu不分”)，由于声音识别存在误差，识别出的文字不完全准确，这样的口语文本在反向翻译后可能会有标签丢失的问题。

并且由于翻译软件的处理逻辑不同，例如同样的一句话让不同的翻译软件(或版本)翻译进行翻译(如“汉译英”)，可能会翻译出不同的语句，这样也有可能会有标签丢失，更甚者，会翻译出新的意思(得到新的标签)。

例如，原始：“我那个下单了到重庆了可是具体多久才到呢据我所知已经到重庆了对吧”。

汉译英：“I have an order to Chongqing,but how long can I get there？Asfar as I know,it has arrived in Chongqing,right？”

反向翻译：“我有张到重庆的订单，但是我能到多长时间？据我所知，已经到了重庆，对吧？”

又如，原始：“我那个下单了到重庆了可是具体多久才到呢据我所知已经到重庆了对吧”。

汉译日：“それは重慶に注文しましたが、具体的にはどれぐらいで着きますか？重慶に来たと知っていますよね。”

反向翻译：“那个是在重庆下单的，具体要多久才能到？知道你来重庆了吧”

其他语言的操作过程相同，在此不再赘述。

对于步骤S13，通过步骤S11中训练的标签预测模型对步骤S12反向翻译的新口语文本进行标签预测，确定口语文本各自对应的第二标签集合。例如，汉译英译汉：“我有张到重庆的订单，但是我能到多长时间？据我所知，已经到了重庆，对吧？”得到的标签集合为{“请求送达时间”}。由于翻译的原因，丢失了“已下单”。

汉译日译汉：“那个是在重庆下单的，具体要多久才能到？知道你来重庆了吧”得到的标签集合为{“已下单”、“请求送达时间”}。

对于步骤S14，分别判断原始的口语文本的第一标签集合内{“已下单”、“请求送达时间”}的标签，在所述多个增强口语文本(上文中只举例了英语，日语，对于其他语言，例如，韩语，法语，德语，西班牙语等都可以使用上述翻译-反翻译的方法进行处理，在此不再赘述)各自对应的第二标签集合中是否丢失。

对于汉译英译汉这句增强口语文本，没有“已下单”标签，则将其删除。这样，处理后的数据就可以有效减少很多噪声。由于可以采用多种语言进行反向翻译，因此最后得到的数据可以是原数据的很多倍，这些数据和原数据一起构成了增强后的训练数据，具体流程图如图2所示。

通过该实施方式可以看出，在自然语言处理领域很多场景下，都会面临数据不足的情况，而且由于自然语言的特点，一些在计算机视觉领域已经成为标配的数据增强方法无法在自然语言处理中使用。而语言模型的性能又很依赖数据，很多模型在很多场景下无法使用，也是因为数据量太小的原因。本方法可以有效对数据进行扩充增强，尤其对于小数据场景，效果明显；而且本方法可以在很多场景下使用，通用性强。

作为一种实施方式，在本实施例中，所述分别判断所述第一标签集合内的标签，在所述多个增强口语文本各自对应的第二标签集合中是否丢失还包括：

当不存在标签丢失时，将所述第一标签集合确定为所述增强口语文本的有效标签集合。

在本实施方式中，继续以上述汉译日译汉：“那个是在重庆下单的，具体要多久才能到？知道你来重庆了吧”得到的标签集合为{“已下单”、“请求送达时间”}为例。对于汉译日译汉这句增强口语文本没有丢失标签的情况，从而将原口语文本中原有的“已下单”、“请求送达时间”标签继续使用。

通过该实施方式可以看出，可以有效对数据进行扩充增强，尤其对于小数据场景，效果明显；而且本方法可以在很多场景下使用，通用性强。

作为一种实施方式，在本实施例中，在所述通过带有第一标签集合的口语文本训练标签预测模型之前，所述方法还包括：

对所述口语文本进行停用词处理，以去除所述口语文本中的预设词语。所述预设词语包括：语气词、叹词、连词。

在本实施方式中，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。

由于使用场景为智能客服系统，用户在在打电话时比较口语化，而且会经常出现重复，表达不连续的情况，同时自动语音识别也会引入噪声，因此加入了停用词处理，将一些经常出现的无意义的语气词、叹词、连词等删除。

通过该实施方式可以看出，将一些无意义的语气词删除，去除翻译过程中的无意义词语，一定程度上，可以适当提高增强效果。

为了校验本方法的效果，进行验证试验，数据集为快递场景智能客服系统记录的线上真实数据，并由人工进行了标注处理。训练数据集大小为31368，测试数据集大小为6024，共有49种意图标签。在三组实验中，语言模型完全相同，均为BiLSTM长短时记忆网络模型，而且为了保持一致，测试数据集也完全相同，没有经过处理。

实验结果如下：

数据	准确率P	召回率R	F1
				原始数据	0.8945	0.8096	0.8500
普通反向翻译增强	0.9046	0.8108	0.8552
				本方法增强	0.9125	0.8258	0.8670

实验结果如上表所示。可以看到，通过普通反向翻译，可以有效提升模型的性能。但由于反向翻译在增强数据的同时，也会引入噪声，因此模型性能提升较少。本方法在先使用反向翻译扩充数据之后，又对数据标签进行了筛选，从而可以有效减少噪声，使得模型性能进一步得到提升。

如图3所示为本发明一实施例提供的一种基于反向翻译的口语文本增强系统的结构示意图，该系统可执行上述任意实施例所述的基于反向翻译的口语文本增强方法，并配置在终端中。

本实施例提供的一种基于反向翻译的口语文本增强系统包括：预测模型训练程序模块11，反向翻译程序模块12，标签预测程序模块13和文本增强程序模块14。

其中，预测模型训练程序模块11用于通过带有第一标签集合的口语文本训练标签预测模型，其中，所述标签预测模型用于预测所述口语文本的标签集合；反向翻译程序模块12用于将所述带有第一标签集合的口语文本翻译成其他语言后，再进行反向翻译，生成多条增强口语文本；标签预测程序模块13用于基于所述标签预测模型对所述多条增强口语文本进行标签预测，确定所述多条增强口语文本各自对应的第二标签集合；文本增强程序模块14用于分别判断所述第一标签集合内的标签，在所述多个增强口语文本各自对应的第二标签集合中是否丢失，当存在标签丢失时，将删除丢失标签的第一标签集合确定为所述增强口语文本的有效标签集合。

进一步地，所述文本增强程序模块还用于：

进一步地，所述系统还包括预处理程序模块：

用于对所述口语文本进行停用词处理，以去除所述口语文本中的预设词语。

进一步地，所述预设词语包括：语气词、叹词、连词。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于反向翻译的口语文本增强方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的基于反向翻译的口语文本增强方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于反向翻译的口语文本增强方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于反向翻译的口语文本增强方法，包括：

2.根据权利要求1所述的方法，其中，所述分别判断所述第一标签集合内的标签，在所述多个增强口语文本各自对应的第二标签集合中是否丢失还包括：

3.根据权利要求1所述的方法，其中，在所述通过带有第一标签集合的口语文本训练标签预测模型之前，所述方法还包括：

对所述口语文本进行停用词处理，以去除所述口语文本中的预设词语。

4.根据权利要求3所述的方法，其中，所述预设词语包括：语气词、叹词、连词。

5.一种基于反向翻译的口语文本增强系统，包括：

6.根据权利要求5所述的系统，其中，所述文本增强程序模块还用于：

7.根据权利要求5所述的系统，其中，所述系统还包括预处理程序模块：

8.根据权利要求7所述的系统，其中，所述预设词语包括：语气词、叹词、连词。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。