CN111191451B

CN111191451B - 中文语句简化方法和装置

Info

Publication number: CN111191451B
Application number: CN201911426211.0A
Authority: CN
Inventors: 刘亮
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2024-02-02
Anticipated expiration: 2039-12-30
Also published as: CN111191451A

Abstract

本发明公开中文语句简化方法和装置，其中，一种中文语句简化方法，包括：对接收的文本序列进行分词处理得到分词序列；经由训练后的编码器对所述分词序列进行编码处理生成语义向量；以及经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM模型。本申请实施例的方案通过在模型的训练过程中，选取了编码和解码都是LSTM的组合，这是因为LSTM能有效解决序列预测中的长期依赖问题。

Description

中文语句简化方法和装置

技术领域

本发明属于语句简化技术领域，尤其涉及中文语句简化方法和装置。

背景技术

相关技术中，目前市面还没有见到一种能将中文语句简化和归一化的技术或方法，大多数的做法都是将一些具有相同或相近意义的词人为地进行归一化处理，如删除停用词、同义词替换、基于统计方法等。

其中，删除停用词是基于整理好的停用词表，删除一些常见的虚词，如帮忙，请，可以等；同义词替换是人为地整理出一些可能的同义词表，对句子进行同义词替换，以达到扩展说法的目的；基于统计方法是统计出语句中一些常见的前缀和后缀，以及一些可能的冗余短语，在做句子归一化时直接删除或者改写。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：

删除停用词，处理范围有限，且过于简单，不是基于语义，存在误删除的可能性。

同义词替换方法过于暴力，会导致解析资源过于膨胀；且同义词很难界定，容易受到人的主观因素影响。它最大的缺点就是耗时、成本高，同义词表质量不佳且易存在错误的同义词。应用领域十分有限，对句子的简化能力很弱。

基于统计方法只是依赖统计方法和人的经验知识，没有考虑中文语义的多变性，即便是一个普通的句子后缀在不同的句子中也各不相同，如果只是简单地对句子做删除或改写操作，则极易影响或者改变句子原有的意思，得不偿失。

发明内容

本发明实施例提供一种中文语句简化方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种中文语句简化方法，包括：对接收的文本序列进行分词处理得到分词序列；经由训练后的编码器对所述分词序列进行编码处理生成语义向量；以及经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM(长短期记忆模型，Long Short-Term Memory)模型。

第二方面，本发明实施例提供一种中文语句简化装置，包括：分词模块，配置为对接收的文本序列进行分词处理得到分词序列；编码模块，配置为经由训练后的编码器对所述分词序列进行编码处理生成语义向量；以及解码模块，配置为经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM模型。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的中文语句简化方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的中文语句简化方法的步骤。

本申请的方法和装置提供的方案通过在模型的训练过程中，选取了编码和解码都是LSTM的组合，这是因为LSTM能有效解决序列预测中的长期依赖问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种中文语句简化方法的流程图；

图2为本发明一实施例提供的基于序列预测的中文语句归一化流程图；

图3为本申请一实施例提供的一个具体示例的编解码示意图；

图4为本发明一实施例提供的一种中文语句简化装置的框图；

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图2，其示出了本申请的中文语句简化方法一实施例的流程图，本实施例的中文语句简化方法可以需要进行语句简化的涉笔中，本申请在此没有限制。

如图1所示，在步骤101中，对接收的文本序列进行分词处理得到分词序列；

在步骤102中，经由训练后的编码器对所述分词序列进行编码处理生成语义向量；

在步骤103中，经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM模型。

在本实施例中，对于步骤101，中文语句简化装置首先接收用户提供的文本或者是语音识别系统识别后的文本，然后对该文本进行分词处理，例如“现在放首歌听听”经过分词处理之后变成以下分词序列“现在放首歌听听”。之后，对于步骤102，经由预先训练好的编码器对该分词序列进行编码处理生成语义向量，然后，对于步骤103，经由预先训练的解码器将该语义向量解码生成简化输出序列，其中，编码和解码都是采用LSTM模型实现的。编码和解码的过程一起训练，例如可以采用成对的复杂文本和简化文本对该编解码的过程进行训练以得到简化性能比较好的模型用于之后的简化过程。

本实施例的方法通过在模型的训练过程中，选取了编码和解码都是LSTM的组合，这是因为LSTM能有效解决序列预测中的长期依赖问题。

在一些可选的实施例中，分词序列表示如下：x＝(x₁，x₂，…，x_T，x_T+1)，其中T表示句子长度，x_T+1表示句子结束符号；编解码的过程包括：LSTM模型读取x＝(x₁，x₂，…，x_T，x_T+1)，并生成y＝(y₁，y₂，…，y_T′，y_T′+1)作为输出语句，其中，T′是句子长度，且T′≤T，y_T′+1表示句子结束符号。

在进一步可选的实施例中，LSTM模型的目的是估计条件概率：

其中，所述语义向量c是LSTM模型中最后一个隐藏层获得的输入序列(x₁，x₂，…，x_T，x_T+1)的固定长度的向量表达。

进一步可选的，编码的过程包括：使用一个LSTM模型进行语义向量生成：

h_t＝f(x_t，h_t-1)，

其中，f是非线性激活函数，h_t-1是上一隐节点输出，x_t是当前时刻的输入。

在进一步可选的实施例中，解码的过程包括：使用另一个LSTM模型通过当前隐状态h_t来预测当前的输出符号y_t，其中，h_t和y_t都与其前一个隐状态和输出有关：

h_t＝f(h_t-1，y_t-1，c)，

p(y_t|c，y₁，…，y_t-1)＝g(h_t，y_t-1，c)。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中，发现现有技术中存在的缺陷主要是由于以下原因导致的：

同义词替换：费时、成本高、对句子的简化能力不强。

基于统计方法：主观性太强，容易改变句子原有的意思。

为了解决上述缺陷，目前市面上的部分产品可能通过下面的方法来解决：

(1)基于统计方法，归纳出一些常见的句子前缀和后缀，在句子归一化时直接删除或者改写；

(2)总结归纳可能的同义词表，停用词表，做同义词替换，删除停用词；

之所以不能想到本文设计的方案，主要有这些方面的原因；

(1)系统架构的局限性，之前常规做法针对单独的应用，单独的做一套语句处理的流程，针对这个应用会做比较多的定制开发，我们的系统希望减少这种重复劳动，做一个通用的语句简化处理技术。

(2)公司技术实力有限。目前国内能独自研发出一套较为成熟的中文语义理解系统的公司还很少，而本系统需要大量的高质量数据支持和成熟的系统工具支持。

本申请实施例采用的以下方案解决上述现有技术中存在的至少一个缺陷：利用大量带标签数据训练一个双向的序列预测模型，该序列预测模型可被视为一种特殊的翻译模型。我们期望该模型能够学习到那些具有相同或相近语义的词，然后对其做归一化，同时也能够从训练数据中学习到一些在特定句式中的冗余短语，删除与语义无关的短语。

这里的序列预测模型可以理解为一种特殊的翻译转化模型，该模型不仅可以对各种具有相同或相近意义的词和字做归一化处理，还可以删去句子中一些无用的字和词，模型的输出是一个不改变语义信息的简化语句，从而实现在利用少量规则的前提下解析出更多句子的目的。这种方法的最大特点是在做句子归一化时最大程度地保留了句子的原有语义信息，扩大基于规则的语义解析的覆盖范围。

背景介绍：

口语语义理解(SLU，Spoken Language Understanding)模块是口语对话系统(SDS，Spoken Dialogue System)的重要组成部分，将用户的话语解析为相应的语义概念。

目前大部分的口语语义理解都是基于规则实现，因为规则实现起来简单且准确率高。然而面对复杂多变的口语化句子，规则系统只能实现对部分口语句子的语义理解，却很难对所有口语句子进行语义理解。随着规则数量的增加，语义解析过程将变得耗时，且极易产生资源冲突，语义解析平台的维护成本也相对增加。本发明旨在解决这类问题：将一个较长的口语句子简化成一个短句。即在保留句子语义的前提下删去句子中冗余的字和词，以达到简化句子的目的。

发明人在实现本发明的过程中发现：长短期记忆模型(以下简称LSTM)很适合用于文本序列预测等问题，基于Encoder-Decoder框架的序列预测模型能够很好地将一个句子转化成另一个句子。

图2示出了本申请一实施例提供的基于序列预测的中文语句归一化流程图。

如图2所示，步骤一：对用户所说的句子进行分词，并将分词后得到的词序输入模型；

步骤二：模型读取一个输入序列，经过Encoder(编码)过程生成语义向量；

步骤三：经过Decoder(解码)过程生成一个简化的输出序列。

(1)基于Encoder-Decoder的序列预测模型的训练过程

在模型的训练过程中，选取了编码和解码都是LSTM的组合，这是因为LSTM能有效解决序列预测中的长期依赖问题。首先使用一个LSTM将可变长度的输入序列映射成一个固定长度的向量表达，这个过程称为编码；然后再使用另一个LSTM将固定长度的向量表达变成可变长度的目标输出序列，这个过程称为解码。

进一步参考图3，其示出了本申请一实施例提供的方案的一个具体示例的编解码示意图。

如图3所示，当用户说了一个句子，先对句子进行分词，即把这个句子(训练样本)看成是一个词序x＝(x₁，x₂，…，x_T，x_T+1),其中T是句子长度(即词的个数)，x_T+1表示句子结束符号(即<EOS>)。模型读取一个输入序列x＝(x₁，x₂，…，x_T，x_T+1)，并生成y＝(y₁，y₂，…，y_T′，y_T′+1)作为输出语句，其中T′是句子长度(即词的个数)，且T′≤T，y_T′+1表示句子结束符号(即<EOS>)。该模型在输出句尾标记后停止进行预测。

LSTM的目的是估计条件概率:

其中,向量c是LSTM中最后一个隐藏层获得的输入序列(x₁，x₂，…，x_T，x_T+1)的固定长度的向量表达。

Encoder阶段：

Encoder过程很简单，直接使用一个LSTM进行语义向量生成：

h_t＝f(x_t，h_t-1)

其中f是非线性激活函数，h_t-1是上一隐节点输出，x_t是当前时刻的输入。

Decoder阶段：

该模型的Decoder过程是使用另一个LSTM通过当前隐状态h_t来预测当前的输出符号y_t，这里的h_t和y_t都与其前一个隐状态和输出有关：

h_t＝f(h_t-1，y_t-1，c)

p(y_t|c，y₁，…，y_t-1)＝g(h_t，y_t-1，c)

图2Encoder-Decoder训练示意图

(2)实验结果

测试集：53000多条由人工标注的句子。

我们将训练后模型在测试集上进行了测试，比较了简化前后句子的语义解析效果，测试结果见表1：

表1序列预测模型在测试集上的测试结果

由表1可知，对经过模型简化后的句子进行语义解析，其性能无论是在领域分类还是Slot解析上都比简化前有所提升，特别是在Slot解析上，性能提升较多。此外，平均单句Slot解析时间也由简化前的32毫秒下降至21毫秒，单句Slot解析时间快了很多。

发明人在实现本申请的过程中还采用过如下备选方案：我们考虑过另一种方案：同义词方案。同义词方案是人为地整理出一些可能的同义词表，对句子进行同义词替换，以达到扩展说法的目的。优点：操作简单，容易实现。缺点：费时、成本高、对句子的简化能力不强。

请参考图4，其示出了本发明一实施例提供的一种中文语句简化装置的框图。

如图4所示，中文语句简化装置400，包括分词模块410、编码模块420和解码模块430。

其中，分词模块410，配置为对接收的文本序列进行分词处理得到分词序列；编码模块420，配置为经由训练后的编码器对所述分词序列进行编码处理生成语义向量；以及解码模块430，配置为经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM模型。

在一些可选的实施例中，分词序列表示如下：

x＝(x₁，x₂，…，x_T，x_T+1)，其中T表示句子长度，x_T+1表示句子结束符号；

编解码的过程包括：

LSTM模型读取x＝(x₁，x₂，…，x_T，x_T+1)，并生成y＝(y₁，y₂，…，y_T′，y_T′+1)作为输出语句，其中，T′是句子长度，且T′≤T，y_T′+1表示句子结束符号。

进一步可选的，LSTM模型的目的是估计条件概率：

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述对接收的文本序列进行分词处理得到分词序列的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的中文语句简化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

对接收的文本序列进行分词处理得到分词序列；

经由训练后的编码器对所述分词序列进行编码处理生成语义向量；

经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM模型。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据中文语句简化装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至中文语句简化装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项中文语句简化方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。中文语句简化方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中文语句简化方法。输入装置530可接收输入的数字或字符信息，以及产生与中文语句简化装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于中文语句简化装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

对接收的文本序列进行分词处理得到分词序列；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中文语句简化方法，包括：

对接收的文本序列进行分词处理得到分词序列；

经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM模型；

其中，分词序列表示如下：

编解码的过程包括：

LSTM模型读取x＝(x₁，x₂，…，x_T，x_T+1)，并生成y＝(y₁，y₂，…，y_T′，y_T′+1)作为输出语句，其中，T′是句子长度，且T′≤T，y_T′+1表示句子结束符号；

LSTM模型的目的是估计条件概率：

2.根据权利要求1所述的方法，其中，编码的过程包括：

使用一个LSTM模型进行语义向量生成：

h_t＝f(x_t，h_t-1)，

3.根据权利要求2所述的方法，其中解码的过程包括：

使用另一个LSTM模型通过当前隐状态h_t来预测当前的输出符号y_t，其中，h_t和y_t都与其前一个隐状态和输出有关：

h_t＝f(h_t-1，y_t-1，c)，

p(y_t|c，y₁，…，y_t-1)＝g(h_t，y_t-1，c)。

4.一种中文语句简化装置，包括：

分词模块，配置为对接收的文本序列进行分词处理得到分词序列；

编码模块，配置为经由训练后的编码器对所述分词序列进行编码处理生成语义向量；

解码模块，配置为经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列，其中所述编码器和所述解码器均为LSTM模型；

其中，分词序列表示如下：

编解码的过程包括：

LSTM模型的目的是估计条件概率：

5.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至3任一项所述方法的步骤。

6.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至3任一项所述方法的步骤。