CN111914571A

CN111914571A - 语句切分方法及装置、存储介质、处理器及终端设备

Info

Publication number: CN111914571A
Application number: CN201910376312.5A
Authority: CN
Inventors: 陆军; 施杨斌; 赵宇; 骆卫华
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2020-11-10

Abstract

本发明公开了一种语句切分方法及装置、存储介质、处理器及终端设备。其中，该方法包括：获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；通过训练数据训练得到语句切分模型；采用语句切分模型对待切分的语句进行切分。本发明解决了相关技术中在进行文字翻译时，无法有效对语句和/或句对进行切分，导致翻译偏差很大的技术问题。

Description

语句切分方法及装置、存储介质、处理器及终端设备

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种语句切分方法及装置、存储介质、处理器及终端设备。

背景技术

在相关技术中，机器翻译是指借由计算机程序将文字从一种自然语言翻译成另一种自然语言，当前在进行机器翻译时，往往包括两个步骤：1)先将双语句对的原文和译文根据标点进行切分，各自形成子句；2)将子句进行句对齐，获得互译的双语子句对。但是该种翻译方式存在明显的缺陷，即，1)根据标点切分后，可能会找不到完全互译的子句对；2)无法处理不存在标点，但仍然很长的句子。

尤其是对于翻译训练、解码过程中遇到语料句对长度过大的情况，往往无法有效切分处理，因此，当前需要实现翻译过程中长短句的合理切分，尤其是对于过长的训练语料做合适的句对同步切分，使得能被NMT模型利用。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语句切分方法及装置、存储介质、处理器及终端设备，以至少解决相关技术中在进行文字翻译时，无法有效对语句和/或句对进行切分，导致翻译偏差很大的技术问题。

根据本发明实施例的一个方面，提供了一种语句切分方法，包括：获取训练数据，其中，所述训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；通过所述训练数据训练得到语句切分模型；采用所述语句切分模型对待切分的语句进行切分。

根据本发明实施例的另一方面，还提供了一种语句切分装置，包括：获取单元，用于获取训练数据，其中，所述训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；训练单元，用于通过所述训练数据训练得到语句切分模型；切分单元，用于采用所述语句切分模型对待切分的语句进行切分。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的语句切分方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的语句切分方法。

根据本发明实施例的另一方面，还提供了一种终端设备，包括：处理器；以及存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：步骤1，获取训练数据，其中，所述训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；步骤2，通过所述训练数据训练得到语句切分模型；步骤3，采用所述语句切分模型对待切分的语句进行切分。

本发明下述实施例，提出了一种语句切分方法，可以基于词对齐关系，准确、高效、适用范围广实现句对齐语句切分方法。在该方案中，通过切分得到训练数据，构建用于单语句子(例如长语句)或句对切分的语句切分模型，从而完成对各种语句和/或句对的准确切分，为后续准确翻译提供有效保障。

在本发明实施例中，采用获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对，通过训练数据训练得到语句切分模型，最后采用语句切分模型对待切分的语句进行切分。在该实施例中，利用语句切分模型对语句进行有效切分(如对双语局对和/或较长的单语句子进行合理切分)，保证切分后的短句子能够合理互译，没有完全依赖标点切分，可以实现对任意形式的句子进行切分，这样不仅可以对短句子进行有效切分和翻译，还可以对其它句子(如长句子、双语句对、无标点句子等)进行有效切分和翻译，在合理实现句子切分后，翻译准确度也会有显著提高，从而解决相关技术中在进行文字翻译时，无法有效对语句和/或句对进行切分，导致翻译偏差很大的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现语句切分方法的计算机终端的硬件结构框图；

图2示出了一种语句切分方法网络终端的示意图；

图3是根据本发明实施例一的语句切分方法的流程图；

图4是根据本发明实施例的一种可选的语句切分的示意图；

图5是根据本发明实施例的一种可选的语句切分装置的示意图；

图6是根据本发明实施例的一种终端设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

神经网络机器翻译，简称NMT，目前主流的机器翻译技术，在大量高质量双语语料的基础上，应用深度神经网络和注意力机制实现的机器翻译。

双语语料：一种互为翻译的文本语料。

实施例1

根据本发明实施例，还提供了一种语句切分的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的语句切分方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语句切分方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的语句切分方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语句切分方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2示出了一种语句切分方法网络终端的示意图，如图2所示，计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器(例如安全服务器、资源服务器、游戏服务器等)。一种可选实施例中，上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

在上述运行环境下，本申请提供了如图3所示的语句切分方法的流程图。图3是根据本发明实施例一的语句切分方法的流程图，如图3所示，该方法包括如下步骤：

步骤S302，获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；

步骤S304，通过训练数据训练得到语句切分模型；

步骤S306，采用语句切分模型对待切分的语句进行切分。

通过上述步骤，可以采用获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对，通过训练数据训练得到语句切分模型，最后采用语句切分模型对待切分的语句进行切分。在该实施例中，可以利用语句切分模型对语句进行有效切分，保证切分后的短句子能够合理互译，没有完全依赖标点切分，可以实现对任意形式的句子进行切分，这样不仅可以对短句子进行有效切分和翻译，还可以对其它句子(如长句子、双语句对、无标点句子等)进行有效切分和翻译，在合理实现句子切分后，翻译准确度也会有显著提高，从而解决相关技术中在进行文字翻译时，无法有效对语句和/或句对进行切分，导致翻译偏差很大的技术问题。

本发明下述各实施例可以应用于使用机器翻译的终端设备中，尤其是对于使用神经网络机器翻译的设备中，例如，对双语句对、较长单语句、段语句等能够实现合理、准确的语句切分，对于较长双语局对，能够获得准确互译并且语义完整的短句子对，对于较长的单语句子，能够切分为语义完整的多个短句子，在后续通过语义库翻译时，翻译的准确度会有明显提升。

可选的，本发明实施例应用于以下场景之一：将初始双语句对切分为待使用双语句对；将待切分的语句切分为用于机器翻译的待使用语句。

下面结合各个步骤对本申请进行说明。

步骤S302，获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对。

在本发明实施例中，训练数据是指利用已有的、待翻译的语句对，进行初始切分得到的待使用语句对，该语句对包括：双语句对，本发明实施例中以该双语局对进行示例性说明。通过该步骤S302和下述步骤S304可以进行训练，从而得到语句切分模型。

在本发明一可选的实施例中，获取训练数据包括：对初始双语句对进行词对齐处理，得到包含词对齐结果的双语句对，其中，词对齐结果采用词对齐连线表示词对齐关系；在包含词对齐结果的双语句对确定多个备选的切分点，其中，通过多个备选的切分点得到的切分线与词对齐连线不相交；按照预设规则从多个备选的切分点中筛选出部分切分点；通过构建语言模型，从部分切分点中确定最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

其中，对初始双语句对进行词对齐处理，得到包含词对齐结果的双语句对可以是指对待切分的双语局对(长短并不限定，在本申请中主要是指较长的双语局对)进行分词、词对齐处理，可选的，分词是指将句子按照单个词进行拆分；而词对齐处理是指翻译的至少两种自然语言之间的含义相同、相似的词语，例如，在中文与英文翻译过程中，将中文“澳洲是少数与北韩建交的国家”翻译为“Australiais one of a few countries that hasrelationship with North Korea”，这一句翻译中，中文“澳洲”对应的英文词为“Australia”，中文“是”对应的英文词为“is”，中文“少数”对应的英文句为“one of afew”，中文“建交”对应的英文词为“relationship”，中文“国家”对应的英文词为“countries”，中文“北韩”对应的英文词为“North Korea”。

可选的，词对齐的结果中对应的词语包括一对一、一对多、多对一、多对多等情况。在得到词对齐结果后，可以在在包含词对齐结果的句对上确定备选的切分点，该切分点确定出的候选的切分线位置与词对齐不会连线交叉，这样可以确保切分后的子句是相互翻译的。

在确定出多个备选的切分点后，可以筛选出合理、准确的部分切分点，通过这些部分切分点可以准确对双语句对实现切分。图4是根据本发明实施例的一种可选的语句切分的示意图，如图4所示，分为上下两部分互译的语句，上部分为中文，下部分为英文，在切分后，可以确定出多个切分点，例如，在词语“澳洲”、“是”、“少数”、“与”之后都会有一个切分点，对应于英文“Australia”、“is”、“one of a few”、“countries that has”之后都会有一个切分点，这些切分点可以确定为上述的部分切分点。每两个对应的切分点之间的连线可以理解为词对齐连线，在连线后就可以确定出词对齐结果。

在选择部分切分点时，可以通过预设规则来切分，上述预设规则包括以下至少之一：每个切分点的两侧存在至少一个单词；每个切分点的一侧存在至少一个单词，并且该切分点的另一侧存在标点符号；每相邻两个切分点之间的词数量大于第一预设阈值。即可以在选择切分点时，让切分线两边必须要有单词，若切分线旁边是标点、符号等，则该切分线可以被选取，最后在选取短句时，可以选取超出第一预设阈值的单词数量的短句，该第一预设阈值可以是用户、开发人员等自行设定的，例如，设定第一预设阈值为3个，通过该第一预设阈值，可以避免将语句切分的太碎。

另一种可选的实施例，通过构建语言模型，从部分切分点中确定最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据包括：从部分切分点中选取属于同一条切分线的第一切分点和第二切分点，其中，第一切分点用于对初始双语句对中的第一语句进行切分，第二切分点用于对初始双语句对中的第二语句进行切分；通过为第一语句构建的第一语言模型计算由第一切分点分割的上下文单词的第一分数，以及通过为第二语句构建的第二语言模型计算由第二切分点分割的上下文单词的第二分数；采用第一分数与第二分数之和确定最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

可选的，该语言模型为原文和译文的语言模型，例如，在图4中，原文可以为上面的中文，译文可以为下面的英文，则通过图4中的互译结果训练语言模型。

在本发明实施例中，第一切分点可以是对应于原文语句的切分点，第二切分点是对应于译文语句的切分点，如图4所示，在“澳洲”、“是”、“少数”、“与”后都可以有一个切分点，这些切分点可以理解为第一切分点；而“Australia”、“is”、“one of a few”、“countries that has”之后都会有一个切分点，该切分点可以理解为第二切分点，在将中文的切分点和英文的切分点连线后，可以对应有“澳洲”与“Australia”、“是”与“is”、“少数”与“one of a few”、“与”与“countries that has”后每两个切分点之间连线得到的多条切分线(如图4中的虚线指示切分线)；每一个切分线都对应有两个切分点。在切分时，累加每两个切分点的分数之和(即累加第一分数与第二分数之和)，以确定最终使用的切分点，并利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句。

在本发明实施例中，并不限定第一语句和第二语句的语言类型，例如，第一语句包括但不限于：中文、英文、俄文、日文、汉文、西班牙文；第二语句可以是与第一语句的自然语言不相同的语句；例如，第一语句为中文，第二语句为英文；如第一语句为英文，第二语句为俄文。

在本发明一可选的实施例中，分别为第一语句构建第一语言模型和为第二语句构建第二语言模型，在通过上述方式对第一语句和第二语句进行切分后，可以确定出由第一切分点切分第一语句后各个单词之间的第一分数，并确定出由第二切分点切分第二语句后各个单词之间的第二分数。本发明实施例中，分数越低表示单词之间的紧密度越低，该切分点可能为最终切分点。

在选取切分线时，可以选取分数低于某一阈值的所有切分线，或者选取分数最低的N个切分线。

通过上述方式，可以分别确定出第一分数和第二分数，然后累加两个分数，确定出训练数据，将切分后的句子组合形成新的互译句对，放入语料库中共语句切分模型训练使用。

在本发明实施例，在切分语句时，确定切分线的方式除了上述通过预设规则、语句切分模型外，也可以有其它方式，例如构建分类器来判断是否是合适的切分线，可以通过人工标注训练数据，确定分类器的分类方式，然后得到切分线。

步骤S304，通过训练数据训练得到语句切分模型。

另一种可选的实施例，通过训练数据训练得到语句切分模型包括：将由训练数据中每个切分点分割的上下文单词、语言模型以及第一分数与第二分数之和设置为语句切分模型的特征，训练得到语句切分模型。

在本发明实施例中，每一次对双语局对进行切分、互译后，可以将结果形成为训练数据，例如，在对图4中的句子进行互译、切分好后，将结果放入训练库，供语句切分模型训练使用。

步骤S306，采用语句切分模型对待切分的语句进行切分。

本发明实施例在切分语句时，可以先根据标点规则进行切分，我们认为标点分割的短语一般都是语义完整、可以独立进行翻译的；然后对于标点切分后还是太长的语句，可以使用语句切分模型对这些较长语句进行切分。

可选的，本发明实施例中的待切分的语句主要为对标点切分后还是太长的语句(即切分后较长的单句)。

一种可选的实施例，在训练好语句切分模型后，通过该语句切分模型进行语句切分，然后实现对语句的准确翻译，保证语句的语义的准确性。

可选的，该待切分的语句的句子类型包括但不限于：长语句、短语句。

另一种可选的，采用语句切分模型对待切分的语句进行切分包括：切分步骤，采用语句切分模型对待切分的语句进行切分，得到多个待确认切分点；选取步骤，从多个待确认切分点中选取尚未确认的切分点；确认步骤，如果由当前选取的切分点分割的上下文短句所包含的单词数量均小于第二预设阈值，则将由当前选取的切分点分割的上下文短句合并为新的短句；返回选取步骤，直至多个待确认切分点全部确认完毕，以得到待切分的语句的切分结果。即可以使用语句切分模型对新的语句进行切分，切分完成后，确认连续的两个短句之间的包含的单词数据是否小于设定的第二预设阈值，若小于，则可以合并这两个语句，这样就可以防止将长语句切分的太碎，从而保证切分的语句符合实际输出语义。

本发明实施例在切分语句时，可以利用分类器进行切分，首先把上述双语句对中已经切分好的句子作为分类器的训练数据。分类器采用传统的统计分类模型，比如BGDT或SVM等，分类器的训练特征包括但不限于：切分点的上下文单词、上下文语言模型分数。然后使用训练好的分类器对新的待切分语句进行切分。分类器切分完成后，若连续的两个子句的长度都小于设定第二预设阈值N(比如5)，那么合并这两个句子，从而完成长语句切分。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的语句切分方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述语句切分方法的语句切分装置，图5是根据本发明实施例的一种可选的语句切分装置的示意图，如图5所示，该装置包括：获取单元51，训练单元53，切分单元55，其中，

获取单元51，用于获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；

训练单元53，用于通过训练数据训练得到语句切分模型；

切分单元55，用于采用语句切分模型对待切分的语句进行切分。

上述语句切分，可以采用获取单元51获取训练数据，其中，训练数据是至少基于词对齐关系，利用训练单元53通过对初始双语句对进行切分后，形成的待使用双语句对，通过训练数据训练得到语句切分模型，最后利用切分单元55采用语句切分模型对待切分的语句进行切分。在该实施例中，可以利用语句切分模型对语句进行有效切分，保证切分后的短句子能够合理互译，没有完全依赖标点切分，可以实现对任意形式的句子进行切分，这样不仅可以对短句子进行有效切分和翻译，还可以对其它句子(如长句子、双语句对、无标点句子等)进行有效切分和翻译，在合理实现句子切分后，翻译准确度也会有显著提高，从而解决相关技术中在进行文字翻译时，无法有效对语句和/或句对进行切分，导致翻译偏差很大的技术问题。

一种可选的实施例，获取单元包括：对齐模块，用于对初始双语句对进行词对齐处理，得到包含词对齐结果的双语句对，其中，词对齐结果采用词对齐连线表示词对齐关系；第一确定模块，用于在包含词对齐结果的双语句对确定多个备选的切分点，其中，通过多个备选的切分点得到的切分线与词对齐连线不相交；筛选模块，用于按照预设规则从多个备选的切分点中筛选出部分切分点；第二确定模块，用于通过构建语言模型，从部分切分点中确定最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

一种可选的实施例，预设规则包括以下至少之一：每个切分点的两侧存在至少一个单词；每个切分点的一侧存在至少一个单词，并且该切分点的另一侧存在标点符号；每相邻两个切分点之间的词数量大于第一预设阈值。

在本发明实施例中，第二确定模块包括：第一选取子模块，用于从部分切分点中选取属于同一条切分线的第一切分点和第二切分点，其中，第一切分点用于对初始双语句对中的第一语句进行切分，第二切分点用于对初始双语句对中的第二语句进行切分；第一计算子模块，用于通过为第一语句构建的第一语言模型计算由第一切分点分割的上下文单词的第一分数，以及通过为第二语句构建的第二语言模型计算由第二切分点分割的上下文单词的第二分数；第一确定子模块，用于采用所述第一分数与所述第二分数之和确定所述最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

在本发明另一可选的实施例中，训练单元包括：训练模块，用于将由训练数据中每个切分点分割的上下文单词、语言模型以及第一分数与第二分数之和设置为语句切分模型的特征，训练得到语句切分模型。

在本发明另一可选的实施例中，切分单元包括：第一切分模块，用于采用语句切分模型对待切分的语句进行切分，得到多个待确认切分点；第二选取模块，用于从多个待确认切分点中选取尚未确认的切分点；确认模块，用于由当前选取的切分点分割的上下文短句所包含的单词数量均小于第二预设阈值，则将由当前选取的切分点分割的上下文短句合并为新的短句；返回选取步骤，直至多个待确认切分点全部确认完毕，以得到待切分的语句的切分结果。

在本发明另一可选的实施例中，上述语句切分装置应用于以下场景之一：将所述初始双语句对切分为所述待使用双语句对；将所述待切分的语句切分为用于机器翻译的待使用语句。

此处需要说明的是，上述获取单元51，训练单元53，切分单元55对应于实施例1中的步骤S302至步骤S306，三个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例3

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，上述计算机设备包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；通过训练数据训练得到语句切分模型；采用语句切分模型对待切分的语句进行切分。

在本实施例中，上述计算机设备还可以执行语句切分方法中以下步骤的程序代码：对初始双语句对进行词对齐处理，得到包含词对齐结果的双语句对，其中，词对齐结果采用词对齐连线表示词对齐关系；在包含词对齐结果的双语句对确定多个备选的切分点，其中，通过多个备选的切分点得到的切分线与词对齐连线不相交；按照预设规则从多个备选的切分点中筛选出部分切分点；通过构建语言模型，从部分切分点中确定最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

可选地，预设规则包括以下至少之一：每个切分点的两侧存在至少一个单词；每个切分点的一侧存在至少一个单词，并且该切分点的另一侧存在标点符号；每相邻两个切分点之间的词数量大于第一预设阈值。

在本实施例中，上述计算机设备还可以执行语句切分方法中以下步骤的程序代码：从部分切分点中选取属于同一条切分线的第一切分点和第二切分点，其中，第一切分点用于对初始双语句对中的第一语句进行切分，第二切分点用于对初始双语句对中的第二语句进行切分；通过为第一语句构建的第一语言模型计算由第一切分点分割的上下文单词的第一分数，以及通过为第二语句构建的第二语言模型计算由第二切分点分割的上下文单词的第二分数；采用所述第一分数与所述第二分数之和确定所述最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

在本实施例中，上述计算机设备还可以执行语句切分方法中以下步骤的程序代码：将由训练数据中每个切分点分割的上下文单词、语言模型以及第一分数与第二分数之和设置为语句切分模型的特征，训练得到语句切分模型。

可选的，上述计算机设备执行的语句切分方法可应用于以下场景之一：将所述初始双语句对切分为所述待使用双语句对；将所述待切分的语句切分为用于机器翻译的待使用语句。

在本实施例中，上述计算机设备还可以执行语句切分方法中以下步骤的程序代码：切分步骤，采用语句切分模型对待切分的语句进行切分，得到多个待确认切分点；选取步骤，从多个待确认切分点中选取尚未确认的切分点；确认步骤，如果由当前选取的切分点分割的上下文短句所包含的单词数量均小于第二预设阈值，则将由当前选取的切分点分割的上下文短句合并为新的短句；返回选取步骤，直至多个待确认切分点全部确认完毕，以得到待切分的语句的切分结果。

在本实施例中，上述计算机终端可以执行语句切分方法中以下步骤的程序代码：获取训练数据，其中，所述训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；通过所述训练数据训练得到语句切分模型；采用所述语句切分模型对待切分的语句进行切分。

可选地，图6是根据本发明实施例的一种终端设备的结构框图。如图6所示，该终端设备A可以包括：一个或多个处理器、存储器、以及网络接口、输入/输出接口、键盘、显示器。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的语句切分方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语句切分方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；通过训练数据训练得到语句切分模型；采用语句切分模型对待切分的语句进行切分。

可选的，上述处理器还可以执行如下步骤的程序代码：对初始双语句对进行词对齐处理，得到包含词对齐结果的双语句对，其中，词对齐结果采用词对齐连线表示词对齐关系；在包含词对齐结果的双语句对确定多个备选的切分点，其中，通过多个备选的切分点得到的切分线与词对齐连线不相交；按照预设规则从多个备选的切分点中筛选出部分切分点；通过构建语言模型，从部分切分点中确定最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

可选的，上述处理器还可以执行如下步骤的程序代码：从部分切分点中选取属于同一条切分线的第一切分点和第二切分点，其中，第一切分点用于对初始双语句对中的第一语句进行切分，第二切分点用于对初始双语句对中的第二语句进行切分；通过为第一语句构建的第一语言模型计算由第一切分点分割的上下文单词的第一分数，以及通过为第二语句构建的第二语言模型计算由第二切分点分割的上下文单词的第二分数；采用所述第一分数与所述第二分数之和确定所述最终使用的切分点，利用最终使用的切分点对包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将切分后双语句确定为训练数据。

可选的，上述处理器还可以执行如下步骤的程序代码：将由训练数据中每个切分点分割的上下文单词、语言模型以及第一分数与第二分数之和设置为语句切分模型的特征，训练得到语句切分模型。

可选的，上述处理器还可以执行如下步骤的程序代码：切分步骤，采用语句切分模型对待切分的语句进行切分，得到多个待确认切分点；选取步骤，从多个待确认切分点中选取尚未确认的切分点；确认步骤，如果由当前选取的切分点分割的上下文短句所包含的单词数量均小于第二预设阈值，则将由当前选取的切分点分割的上下文短句合并为新的短句；返回选取步骤，直至多个待确认切分点全部确认完毕，以得到待切分的语句的切分结果。

可选的，上述处理器执行的程序代码应用于以下场景之一：将所述初始双语句对切分为所述待使用双语句对；将所述待切分的语句切分为用于机器翻译的待使用语句。

采用本发明实施例，提供了一种语句切分的方案。通过获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；通过训练数据训练得到语句切分模型；采用语句切分模型对待切分的语句进行切分，从而达到了利用训练数据训练得到语句切分模型，并利用该模型完成对长语句的切分，保证切分语句的语义，提高翻译准确度，进而解决了相关技术中在进行文字翻译时，无法有效对语句和/或句对进行切分，导致翻译偏差很大的技术问题。

本领域普通技术人员可以理解，图6所示的结构仅为示意，终端设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，终端设备A还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的语句切分方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取训练数据，其中，训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；通过训练数据训练得到语句切分模型；采用语句切分模型对待切分的语句进行切分。

本发明的实施例还提供了一种处理器。可选地，在本实施例中，处理器可以用于处理上述实施例一所提供的语句切分方法所执行的程序代码。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语句切分方法，其特征在于，包括：

获取训练数据，其中，所述训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；

通过所述训练数据训练得到语句切分模型；

采用所述语句切分模型对待切分的语句进行切分。

2.根据权利要求1所述的方法，其特征在于，获取所述训练数据包括：

对所述初始双语句对进行词对齐处理，得到包含词对齐结果的双语句对，其中，所述词对齐结果采用词对齐连线表示词对齐关系；

在包含词对齐结果的双语句对确定多个备选的切分点，其中，通过所述多个备选的切分点得到的切分线与所述词对齐连线不相交；

按照预设规则从所述多个备选的切分点中筛选出部分切分点；

通过构建语言模型，从所述部分切分点中确定最终使用的切分点，利用所述最终使用的切分点对所述包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将所述切分后双语句确定为所述训练数据。

3.根据权利要求2所述的方法，其特征在于，所述预设规则包括以下至少之一：

每个切分点的两侧存在至少一个单词；

每个切分点的一侧存在至少一个单词，并且该切分点的另一侧存在标点符号；

每相邻两个切分点之间的词数量大于第一预设阈值。

4.根据权利要求2所述的方法，其特征在于，通过构建语言模型，从所述部分切分点中确定最终使用的切分点，利用所述最终使用的切分点对所述包含词对齐结果的双语句对进行切分处理，得到切分后双语句，并将所述切分后双语句确定为所述训练数据包括：

从所述部分切分点中选取属于同一条切分线的第一切分点和第二切分点，其中，所述第一切分点用于对所述初始双语句对中的第一语句进行切分，所述第二切分点用于对所述初始双语句对中的第二语句进行切分；

通过为所述第一语句构建的第一语言模型计算由所述第一切分点分割的上下文单词的第一分数，以及通过为所述第二语句构建的第二语言模型计算由所述第二切分点分割的上下文单词的第二分数；

采用所述第一分数与所述第二分数之和确定所述最终使用的切分点，利用所述最终使用的切分点对所述包含词对齐结果的双语句对进行切分处理，得到所述切分后双语句，并将所述切分后双语句确定为所述训练数据。

5.根据权利要求4所述的方法，其特征在于，通过所述训练数据训练得到所述语句切分模型包括：

将由所述训练数据中每个切分点分割的上下文单词、所述语言模型以及所述第一分数与所述第二分数之和设置为所述语句切分模型的特征，训练得到所述语句切分模型。

6.根据权利要求5所述的方法，其特征在于，采用所述语句切分模型对所述待切分的语句进行切分包括：

切分步骤，采用所述语句切分模型对所述待切分的语句进行切分，得到多个待确认切分点；

选取步骤，从所述多个待确认切分点中选取尚未确认的切分点；

确认步骤，如果由当前选取的切分点分割的上下文短句所包含的单词数量均小于第二预设阈值，则将由所述当前选取的切分点分割的上下文短句合并为新的短句；返回所述选取步骤，直至所述多个待确认切分点全部确认完毕，以得到所述待切分的语句的切分结果。

7.根据权利要求1所述的方法，其特征在于，所述方法应用于以下场景之一：

将所述初始双语句对切分为所述待使用双语句对；

将所述待切分的语句切分为用于机器翻译的待使用语句。

8.一种语句切分装置，其特征在于，包括：

获取单元，用于获取训练数据，其中，所述训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；

训练单元，用于通过所述训练数据训练得到语句切分模型；

切分单元，用于采用所述语句切分模型对待切分的语句进行切分。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的语句切分方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的语句切分方法。

11.一种终端设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

步骤1，获取训练数据，其中，所述训练数据是至少基于词对齐关系，通过对初始双语句对进行切分后，形成的待使用双语句对；

步骤2，通过所述训练数据训练得到语句切分模型；

步骤3，采用所述语句切分模型对待切分的语句进行切分。