CN107291704A

CN107291704A - 处理方法和装置、用于处理的装置

Info

Publication number: CN107291704A
Application number: CN201710382043.4A
Authority: CN
Inventors: 姜里羊; 王宇光; 陈伟; 刘晓博
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-10-24
Anticipated expiration: 2037-05-26
Also published as: CN107291704B

Abstract

本发明实施例提供了一种处理方法和装置、用于处理的装置，其中的方法具体包括：获取经过标点添加处理的语音识别结果对应的文本；获取当前时刻的有效文本所包含的目标标点；若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。本发明实施例可以有效减少翻译结果滞相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。

Description

处理方法和装置、用于处理的装置

技术领域

本发明涉及语音翻译技术领域，特别是涉及一种处理方法和装置、以及一种用于处理的装置。

背景技术

随着国际性交流的增加，使用不同语种的语言沟通越来越频繁。为克服语言障碍，基于客户端进行在线语音翻译得到广泛的应用。

在线语音翻译一般涉及两个环节，第一是进行语音识别，即将用户输入的第一语种的语音信号转换为文本信息；第二是通过机器翻译装置对文本信息进行在线翻译，以得到作为翻译结果的第二语种的文本信息，最后向用户提供第二语种的文本信息或者语音信息。

现有方案通常依据第一语种的语音信号的停顿来判断文本信息对应句子的结束，并在判断文本信息对应句子结束后，向机器翻译装置发送文本信息对应句子，以使机器翻译装置对文本信息对应句子进行在线翻译，由此可以提高机器翻译装置的翻译质量。

然而，在实际应用中，现有方案在语音信号出现停顿的情况下、对文本信息对应句子进行在线翻译，容易导致翻译结果滞后于第一语种的语音信号。尤其地，对于语速过快、一直没有停顿的语音信号而言，这种滞后将更加明显。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的处理方法、处理装置、用于处理的装置，本发明实施例可以有效减少翻译结果滞相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。

为了解决上述问题，本发明公开了一种处理方法，包括：

获取经过标点添加处理的语音识别结果对应的文本；

获取当前时刻的有效文本所包含的目标标点；

若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述判断所述目标标点是否符合预置的识别结果稳定条件，包括：

依据所述目标标点对当前时刻T_k的有效文本、以及T_k之前的时刻的有效文本进行截断处理；

若当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。

可选地，所述当前时刻的有效文本符合预置的标点稳定条件。

可选地，所述有效文本符合预置的标点稳定条件，包括：

所述有效文本为当前时刻的文本中除了位于后部的M-1个字符单元之外的文本；所述字符单元包括：词和/或标点符号；M为一次标点添加处理涉及的字符单元的数量。

可选地，所述获取当前时刻的有效文本所包含的目标标点，包括：

从当前时刻的有效文本包含的倒数第M个字符单元开始，按照从后到前的顺序查找当前时刻的有效文本包含的标点，作为当前时刻的有效文本所包含的目标标点。

可选地，所述当前时刻的有效文本不包括：已输出的目标文本。

可选地，所述T_k之前的时刻包括：T_k-1，或者，所述T_k之前的时刻包括：T_k-1和T_k-2。

另一方面，本发明公开了一种处理装置，包括：

文本获取模块，用于获取经过标点添加处理的语音识别结果对应的文本；

目标标点获取模块，用于获取当前时刻的有效文本所包含的目标标点；

输出模块，用于若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述装置还包括：

截断处理模块，用于依据所述目标标点对当前时刻的有效文本、以及T_k之前的时刻的有效文本进行截断处理；

判定模块，用于若当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。

可选地，所述有效文本符合预置的标点稳定条件，包括：

所述有效文本为当前时刻的文本中除了位于后部的M-1个字符单元之外的文本；所述字符单元包括：词和/或标点符号，M为一次标点添加处理涉及的字符单元的数量。

可选地，所述目标标点获取模块包括：

查找子模块，用于从当前时刻的有效文本包含的倒数第M个字符单元开始，按照从后到前的顺序查找当前时刻的有效文本包含的标点，作为当前时刻的有效文本所包含的目标标点。

再一方面，本发明公开了一种用于处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取经过标点添加处理的语音识别结果对应的文本；获取当前时刻的有效文本所包含的目标标点；若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

又一方面，本发明公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的处理方法。

本发明实施例包括以下优点：

本发明实施例可以在语音信号出现停顿之前输出目标文本，以使机器翻译装置对该目标文本进行翻译，故可以有效减少翻译结果滞相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。并且，本发明实施例的目标文本是依据目标标点截断得到的，故可以提高目标文本的完整性，进而可以提高语音识别结果对应的翻译质量。

附图说明

图1是本发明的一种语音翻译系统的示例性结构示意图；

图2是本发明实施例的一种语音识别结果对应的目标词序列的标点添加处理过程的示意图；

图3是本发明的一种处理方法实施例的步骤流程图；

图4是本发明的一种处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图；及

图6是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种处理方案，该方案可以获取经过标点添加处理的语音识别结果对应的文本；获取当前时刻的有效文本所包含的目标标点；若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本可以为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

本发明实施例中，标点添加处理可用于为语音识别结果添加标点，可选地，可以按照预置时间周期获取经过标点添加处理的语音识别结果对应的文本，该预置时间周期可由本领域技术人员根据实际应用需求确定，例如，该预置周期可有为0.5s、1s、2s等。当前时刻的有效文本可以源自当前时刻的文本，当前时刻的文本可以为当前获取的文本，可以理解，获取的文本还可以包括：T_k之前的时刻的文本，如T_k-1和T_k-2的文本等。

本发明实施例依据当前时刻的有效文本所包含的目标标点确定翻译时机，具体地，在所述目标标点符合预置的识别结果稳定条件的情况下，说明目标标点及其之前的语音识别结果具备稳定性，因此可以输出当前时刻的有效文本中目标标点及其之前的字符组成的目标文本，例如，可以向机器翻译装置输出目标文本，以使机器翻译装置将该目标文本翻译为目标语种的文字。由于本发明实施例可以在语音信号出现停顿之前，输出目标文本，以使机器翻译装置对该目标文本进行翻译，故可以有效减少翻译结果滞相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。并且，本发明实施例的目标文本是依据目标标点截断得到的，故可以提高目标文本的完整性，进而可以提高语音识别结果对应的翻译质量。

本发明实施例可以应用于语音翻译、同声翻译等任意的需要对语音识别结果进行在线翻译的场景中。尤其地，由于本发明实施例可以不涉及复杂的运算，故可以应用于终端上运行的客户端的应用环境中，这样，在用户通过客户端输入第一语种的语音信号的情况下，客户端可以通过本发明实施例的处理方法获得该语音信号对应第二语种的文本信息，并向用户快速呈现该语音信号对应第二语种的文本信息，这样可以提升语音翻译的响应速度。并且，可以节省客户端与服务器之间的通信流量。

本发明实施例中，第一语种和第二语种可用于表示不同的两种语言，上述第一语种和第二语种可由用户预置得到，也可通过分析用户的历史行为得到。可选地，可以将用户最常用的语言作为第一语种，将除第一语种之外使用过的语言作为第二语种。可以理解，本发明实施例的第二语种的数量可以为一种或者多种，例如，对于以中文为母语的用户而言，第一语种可以为中文，第二语种可以为英文、日文、韩文、德文、法文、少数民族语言和盲文中的一种或者组合。

参照图1，示出了本发明的一种语音翻译系统的示例性结构示意图，其具体可以包括：语音识别装置101、标点添加装置102、处理装置103和机器翻译装置104。其中，语音识别装置101、标点添加装置102、处理装置103和机器翻译装置104可以作为单独的装置(包括服务器或者终端)，可以共同设置于同一个装置中；可以理解，本发明实施例对于语音识别装置101、标点添加装置102、处理装置103和机器翻译装置104的具体设置方式不加以限制。

其中，语音识别装置101可用于将讲话用户的语音信号转换为文本信息，具体地，语音识别装置101可以输出语音识别结果。在实际应用中，讲话用户可以为语音翻译的场景中讲话并发出语音信号的用户，则可以通过麦克风或其他语音采集器件接收讲话用户的语音信号，并向语音识别装置101发送所接收的语音信号；或者，该语音识别装置101可以具有接收讲话用户的语音信号的功能。

可选地，语音识别装置101可以采用语音识别技术将讲话用户的语音信号转换为文本信息。如果将用户讲话用户的语音信号记作S，对S进行一系列处理后得到与之相对应的语音特征序列O，记作O＝{O₁，O₂，…，O_i，…，O_T}，其中O_i是第i个语音特征，T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据人的语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程，最后确定与所述用户所输入语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

标点添加装置102可以与语音识别装置101连接，其可以接收语音识别装置101发送的语音识别结果，对接收到的语音识别结果进行标点添加处理，并向处理装置103发送经过标点添加处理的语音识别结果对应的文本。

在本发明的一种可选实施例中，上述对接收到的语音识别结果进行标点添加处理，具体可以包括：对接收到的语音识别结果进行分词，以得到所述语音识别结果对应的目标词序列；通过语言模型对所述语音识别结果对应的目标词序列进行标点添加处理，以得到作为标点添加结果的文本。

本发明实施例中，所述语音识别结果对应的目标词序列中相邻词之间可被添加对应的多种候选标点符号，也即，可以依据所述语音识别结果对应的目标词序列中相邻词之间被添加多种候选标点符号的情形，对所述目标词序列进行标点添加处理，这样，所述语音识别结果对应的目标词序列将对应有多种标点添加方案及其对应的标点添加结果。可选地，可以通过语言模型对目标词序列进行标点添加处理，这样，最终可以得到语言模型得分最优的最优标点添加结果。

需要说明的是，本领域技术人员可以根据实际应用需求，确定需要添加的候选标点符号，可选地，上述候选标点符号可以包括：逗号、问号、句号、感叹号、空格等，其中，空格可以起到词分割的作用或者不起任何作用，例如，对于英文而言，空格可用于分割不同的词，对于中文而言，空格可以为不起任何作用的标点符号，可以理解，本发明实施例对于具体的候选标点符号不加以限制。

参照图2，示出了本发明实施例的一种语音识别结果对应的目标词序列的标点添加处理过程的示意图，其中，语音识别结果对应的目标词序列为“你好/我是/小明/很高兴/认识你”，则“你好/我是/小明/很高兴/认识你”的相邻词之间均有可能被添加候选标点符号；图2中，“你好”、“我是”、“小明”、“很高兴”、“认识你”等词分别用矩形表示，逗号、空格、叹号、问号、句号等标点符号分别用圆形表示，则语音识别结果对应的目标词序列的首个词“你好”和末尾词“认识你”之后的标点符号之间可以具备多条路径。可以理解，图2所示语音识别结果对应的目标词序列只是作为可选实施例，实际上，标点添加装置102可以周期性接收语音识别装置101发送的语音识别结果，并按照预置时间周期获取经过标点添加处理的语音识别结果对应的文本。

自然语言处理领域中，语言模型是针对一种语言或者多种语言建立的概率模型，目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。具体到本发明实施例，可以将语言模型描述的给定词序列在语言中的出现的概率的分布称为语言模型得分。可选地，可以从语料库中获取语料句子，对该语料句子进行分词，并依据分词得到的词序列，训练得到上述语言模型。可选地，语言模型描述的给定词序列可以带有标点符号，以实现对于语音识别结果的标点添加处理。

本发明实施例中，语言模型可以包括：N-gram(N元文法)语言模型，和/或，神经网络语言模型，其中，神经网络语言模型可以进一步包括：RNNLM(循环神经网络语言模型，Recurrent neural Network Language Model)、CNNLM(卷积神经网络语言模型，Convolutional Neural Networks Language Model)、DNNLM(深度神经网络语言模型，DeepNeural Networks Language Model)等。

其中，N-gram语言模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

由于N-gram语言模型利用有限的N-1个词(上文)来预测第N个词，故N-gram语言模型可以具备长度为N的语义片段的语言模型得分的描述能力，例如，N可以为3、5等较为固定的且数值小于第一长度阈值的正整数。而相对于N-gram语言模型，例如RNNLM的神经网络语言模型的一个优势在于：可以真正充分地利用所有上文来预测下一个词，故RNNLM可以具备长度可变的语义片段的语言模型得分的描述能力，也即，RNNLM适用于较宽长度范围的语义片段，例如，RNNLM对应的语义片段的长度范围可以为：1至第二长度阈值，其中，第二长度阈值可以大于第一长度阈值。

本发明实施例中，语义片段可用于表示添加有标点符号的目标词序列，所述语义片段可以包括：所述目标词序列的连续词(也即不包含标点符号)，和/或，添加有标点符号的连续词。可选地，可以从上述目标词序列中获取全部或者部分，以得到上述连续词。例如，对于目标词序列“你好/我是/小明/很高兴/认识你”而言，其对应的语义片段可以包括：“你好/，/我是”、“我是/小明/很高兴”等，其中，“/”是为了方便申请文件的说明而设置的符号，“/”用于表示词之间的界限、和/或、词与标点符号之间的界限，在实际应用中，“/”可以不具备任何意义。

在本发明的一种可选实施例中，可以通过N元文法语言模型对语音识别结果进行标点添加处理。

可选地，若目标词序列对应的标点添加结果所包含字符单元的数量小于或等于N，则可以利用N元文法语言模型，确定所述目标词序列对应的标点添加结果的语言模型得分，并将语言模型得分最高的标点添加结果作为最优的最优标点添加结果，输出给处理装置103。

或者，若目标词序列对应的标点添加结果所包含字符单元的数量大于N，则可以按照从前到后的顺序，通过移动方式从所述目标词序列对应的标点添加结果中获取对应的第一语义片段，不同第一语义片段所包含字符单元的数量可以相同，相邻的第一语义片段可以存在重复的字符单元，所述字符单元可以包括：词和/或标点符号。此种情况下，可由N-gram语言模型确定第一语义片段对应的语言模型得分。假设N＝5，首字符单元的编号为1，则可以按照编号的如下顺序：1-5、2-6、3-7、4-8、5-9等从所述标点添加结果中获取对应的长度为5的第一语义片段，并利用N-gram语言模型确定各第一语义片段对应的语言模型得分，例如，将各第一语义片段输入N-gram，则N-gram可输出对应的语言模型得分。在确定编号为1-5对应的最优标点添加结果后，可以向处理装置103输出对应的最优标点结果，同理，在确定编号为2-6对应的最优标点添加结果后，可以向处理装置103输出该最优标点添加结果。其中，最优标点添加结果可以对应最高或者最优的语言模型得分。

在本发明的另一种可选实施例中，可以通过神经网络语言模型对语音识别结果进行标点添加处理，具体地，可以利用神经网络语言模型，确定所述目标词序列对应的标点添加结果的语言模型得分，并将语言模型得分最高的标点添加结果作为最优的最优标点添加结果，输出给处理装置103。由于例如RNNLM的神经网络语言模型适用于较宽长度范围的语义片段，故可以将目标词序列对应的标点添加结果的所有语义片段作为一个整体，由RNNLM确定目标词序列对应的标点添加结果的所有语义片段对应的语言模型得分，例如，将目标词序列对应的标点添加结果包括的所有字符单元输入RNNLM，则RNNLM可输出对应的语言模型得分。

在本发明的一种应用示例中，假设预置时间周期为1s，假设通过N元文法语言模型对语音识别结果进行标点添加处理，N小于或等于5，则按照预置时间周期获取的经过标点添加处理的语音识别结果对应的文本可以包括：

第1秒：今天天气

第2秒：今天天气不错，我们

第3秒：今天天气不错，我们出去爬山

第4秒：今天天气不错，我们出去爬山你觉得怎么样？

其中，标点添加装置102首先接收到“今天天气”，其可以对目标词序列“今天/天气”进行标点添加处理，假设N元文法语言模型输出的“今天/空格/天气”对应的语言模型得分高于“今天/逗号、叹号、问号、句号等标点符号/天气”对应的语言模型得分，故可以得到最优标点添加结果“今天/天气”，并在第1秒向处理装置103发送“今天/天气”。

标点添加装置102接着接收到“今天天气不错我们”，假设已确定最优标点添加结果“今天/天气”，故可以对目标词序列“天气/不错/我们”进行标点添加处理，假设N元文法语言模型输出的“天气/空格/不错/，/我们”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，故可以得到最优标点添加结果“天气/空格/不错/，/我们”，并在第2秒向处理装置103发送“今天/天气/空格/不错/，/我们”。

标点添加装置102接着接收到“今天天气不错我们出去爬山”，假设已确定最优标点添加结果“今天/天气/空格/不错/，/我们”，故可以对目标词序列“我们/出去/爬山”进行标点添加处理，假设N元文法语言模型输出的“我们/空格/出去/空格/爬山”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，故可以得到最优标点添加结果“我们/空格/出去/空格/爬山”，并在第3秒向处理装置103发送“今天/天气/空格/不错/，我们/空格/出去/空格/爬山”。

标点添加装置102接着接收到“今天天气不错我们出去爬山你觉得怎么样”，假设已确定最优标点添加结果“今天/天气/空格/不错/，我们/空格/出去/空格/爬山”，故可以对目标词序列“爬山/你/觉得”进行标点添加处理，假设N元文法语言模型输出的“爬山/空格/你/空格/觉得”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，故可以得到最优标点添加结果“爬山/空格/你/空格/觉得”；进一步，可以对目标词序列“觉得/怎么样”进行标点添加处理，假设N元文法语言模型输出的“觉得/空格/怎么样/？”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，则可以得到最优标点添加结果“爬山/空格/你/空格/觉得/空格/怎么样/？”，并在第4秒向处理装置103发送“今天/天气/空格/不错/，我们/空格/出去/空格/爬山/空格/你/空格/觉得/空格/怎么样/？”。

处理装置103可以从标点添加装置102获取经过标点添加处理的语音识别结果对应的文本；获取当前时刻的有效文本所包含的目标标点；判断所述目标标点是否符合预置的识别结果稳定条件，若是，则可以向机器翻译装置104发送目标文本，以使所述机器翻译装置将所述目标文本翻译为目标语种的文字；所述目标文本可以为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。由于本发明实施例可以在语音信号出现停顿之前，输出目标文本，以使机器翻译装置对该目标文本进行翻译，故可以有效减少翻译结果滞相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。并且，本发明实施例的目标文本是依据目标标点截断得到的，且可以提高目标文本的完整性，进而可以提高语音识别结果对应的翻译质量。

机器翻译装置104可以对处理装置103发送的目标文本进行翻译，具体地，可以将所述目标文本翻译为目标语种的文字并输出。或者，可以将目标语种的文字转换为目标语种的语音，并输出。可选地，可以利用文本到语音的转换技术(如语音合成技术)，将所述目标语种的文字转换为目标语种的语音，并通过耳机、扬声器等语音播放器件将目标语种的语音输出。

方法实施例

参照图3，示出了本发明的一种处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301、获取经过标点添加处理的语音识别结果对应的文本；

步骤302、获取当前时刻的有效文本所包含的目标标点；

步骤303、若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本可以为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

本发明实施例提供的处理方法可应用于装置(如处理装置等)的应用环境中。可选地，上述装置可以包括：终端或服务器。其中，上述终端可以包括但不限于：智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。上述服务器可以为云服务器或者普通服务器。可以理解，本发明实施例对处理方法对应的具体应用环境不加以限制。

在实际应用中，本发明实施例的装置可以从其他装置获取经过标点添加处理的语音识别结果对应的文本，例如，可以从标点添加装置获取经过标点添加处理的语音识别结果对应的文本。可选地，本发明实施例的装置可以通过客户端应用执行本发明实施例的处理方法流程，客户端应用可以运行在装置上，例如，该客户端应用可以为终端上运行的任意APP(应用程序，Application)。可以理解，本发明实施例对于步骤301获取经过标点添加处理的语音识别结果对应的文本的具体方式不加以限制。

在实际应用中，可以将经过标点添加处理的语音识别结果对应的文本写入缓存区，可选地，可以将不同时刻的文本写入缓存区中不同的地址。例如，可以将T₁、T₂…T_p时刻的文本写入缓存区中不同的地址。可选地，可以在装置的内存区建立例如队列、数组、或者链表的数据结构作为上述缓存区，本发明实施例对于具体的缓存区不加以限制。上述采用缓存区存储经过标点添加处理的语音识别结果对应的文本的方式能够提高处理效率，可以理解，采用磁盘存储经过标点添加处理的语音识别结果对应的文本的方式也是可行的，本发明实施例对于经过标点添加处理的语音识别结果对应的文本的具体存储方式不加以限制。

步骤302可以获取当前时刻的有效文本所包含的目标标点，获取得到的该目标标点可以作为翻译时机的确定依据。

本发明实施例中，当前时刻的有效文本可以源自当前时刻的文本，本领域技术人员可以根据实际应用需求，确定当前时刻的有效文本，以提高处理的稳定性和效率。例如，当前时刻的有效文本可以为当前时刻的文本。

在本发明的一种可选实施例中，所述当前时刻的有效文本可以符合预置的标点稳定条件。预置的标点稳定条件可用于约束当前时刻的有效文本的标点稳定性，可选地，当前时刻的有效文本可以符合预置的标点稳定条件，可以使得当前时刻的有效文本的标点是稳定或者基本稳定的，这样，当前时刻的有效文本的标点可以不发生变化，因此当前时刻的有效文本可以参与目标标点的获取和分割，这样，可以提高目标文本的稳定性。

在实际应用中，本领域技术人员可以根据实际应用需求，确定上述预置的标点稳定条件。可选地，可以根据标点添加处理的特性，确定上述预置的标点稳定条件。

在本发明的一种可选实施例中，假设通过标点添加装置进行标点添加处理，由于标点添加装置进行的一次标点添加处理通常涉及多个字符单元，也即，标点添加装置进行的一次标点添加处理通常用到多个字符单元，这样，标点添加装置设置可以确定其输出的文本中哪些字符单元已不被用到、以及哪些字符单元还将被用到，故可由标点添加装置设置其输出的文本中各个字符单元的稳定标识；例如，该稳定标识为1表示字符单元的标点是稳定的，该稳定标识为0表示字符单元的标点不是稳定的等等。本发明实施例可以根据当前时刻的文本中各个字符单元的稳定标识，从当前时刻的文本中获取当前时刻的有效文本。例如，当前时刻的文本中，位于后部的若干个字符单元的稳定标识为0，其他字符单元的稳定标识为1等。

在本发明的另一种可选实施例中，所述有效文本符合预置的标点稳定条件，具体可以包括：所述有效文本为当前时刻的文本中除了位于后部的(M-1)个字符单元之外的文本；所述字符单元可以包括：词和/或标点符号，M为一次标点添加处理涉及的字符单元的数量。由于一次标点添加处理涉及的字符单元的数量为M，故当前时刻的文本中除了位于后部的(M-1)个字符单元可能被下一次标点添加处理用到。可选地，在通过语言模型对语音识别结果进行标点添加处理的情况下，M可以为语言模型的一次标点添加处理涉及的字符单元的数量，例如，若语言模型为N元文法语言模型，则M≤N；又如，若语言模型为神经网络语言模型，则M的值可由本领域技术人员依据实际应用需求确定。

在本发明的再一种可选实施例中，上述获取当前时刻的有效文本所包含的目标标点，具体可以包括：从当前时刻的有效文本包含的倒数第M个字符单元开始，按照从后到前的顺序查找当前时刻的有效文本包含的标点，作为当前时刻的有效文本所包含的目标标点。可选地，可将按照从后到前的顺序查找得到的第一个标点，作为目标标点；当然，目标标点还可以为按照从后到前的顺序查找得到的第二个标点等。

在本发明的又一种可选实施例中，所述当前时刻的有效文本可以不包括：已输出的目标文本，这样，可以避免目标文本的重复处理。在实际应用中，可以在当前时刻的文本中去除已输出的目标文本，以得到当前时刻的有效文本，其中，已输出的目标文本通常位于当前时刻的文本的前部。

在本发明的一种可选实施例中，当前时刻的有效文本的获取过程可以包括：在未输出目标文本的情况下，获取当前时刻的文本中除了位于后部的(M-1)个字符单元之外的文本，作为当前时刻的有效文本；在已输出目标文本的情况下，在当前时刻的文本中去除已输出的目标文本、以及位于后部的(M-1)个字符单元，以得到当前时刻的有效文本。可以理解，本发明实施例对于当前时刻的有效文本的具体获取过程不加以限制。

在实际应用中，语音信号S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。考虑到词串W的长度与词之间的上下文联系，同一位置的词(如W_j，1≤j≤n)可能在不同时刻的语音识别结果中发生变化。例如，语音信号对应的理想语音识别结果为“今天上午十点新阅读读书会“遇见”五周年庆典开场活动即将拉开帷幕啦！”，则在某时刻T_k的语音识别结果可以为：“今天上午十点新月嘟嘟”，在某时刻T_k+1的语音识别结果为“今天上午十点新阅读读书会”。可以理解，本发明实施例对于同一位置的词在不同时刻的语音识别结果中发生的具体变化不加以限制。另外，同一位置的词在不同时刻的语音识别结果中可能是一致的。

本发明实施例依据当前时刻的有效文本所包含的目标标点确定翻译时机，具体地，可以通过步骤303判断所述目标标点是否符合预置的识别结果稳定条件，在所述目标标点符合预置的识别结果稳定条件的情况下，说明目标标点及其之前的语音识别结果具备稳定性，因此可以将向机器翻译装置发送当前时刻的有效文本中目标标点及其之前的字符组成的目标文本，以使机器翻译装置将该目标文本翻译为目标语种的文字。

在本发明的一种可选实施例中，所述判断所述目标标点是否符合预置的识别结果稳定条件，具体可以包括：依据所述目标标点对当前时刻的有效文本、以及T_k之前的时刻的有效文本进行截断处理；若当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。上述截断处理可以将当前时刻的文本、以及T_k之前的时刻的文本划分为两个部分，假设两个部分包括：在先截断结果和在后截断结果，其中，在线截断结果可以包括：当前时刻的有效文本中目标标点及其之前的字符，则在当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致的情况下，可以判定所述目标标点符合预置的识别结果稳定条件，因此可以将当前时刻的有效文本对应的在先截断处理结果作为目标文本。

假设当前时刻为T_k，则T_k之前的时刻可以包括：T_k-1、T_k-2、T_k-3等，需要说明的是，预置的识别结果稳定条件对应的T_k之前的时刻的数量可以大于或等于1，具体地，若当前时刻T_k的有效文本对应的在先截断处理结果与上一时刻T_k-1的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件；或者，若当前时刻的有效文本对应的在先截断处理结果与上一时刻和上上时刻(T_k-1和T_k-2)的有效文本对应的在先截断处理结果均一致，则判定所述目标标点符合预置的识别结果稳定条件，可以理解，本发明实施例对于预置的识别结果稳定条件对应的T_k之前的时刻的具体数量不加以限制。需要说明的是，本公开中的M、N、T、p、n、k可以均为正整数。

为使本领域技术人员更好地理解本发明实施例，在此通过具体的示例说明本发明实施例的处理方法。

在该示例中，假设预置时间周期为1s，假设通过N元文法语言模型对语音识别结果进行标点添加处理，N小于或等于5，则按照预置时间周期获取的经过标点添加处理的语音识别结果对应的文本可以包括：

第1秒：今天天气

第2秒：今天天气不错，我们

第3秒：今天天气不错，我们出去爬山

第4秒：今天天气不错，我们出去爬山你觉得怎么样？

该示例对应的处理方法可以包括：

步骤S1、将不同时刻的经过标点添加处理的语音识别结果对应的文本写入缓存区；

步骤S2、获取当前时刻的有效文本，若获取失败，则重复执行步骤S1和步骤S2，若获取成功，则执行步骤S3，并重复执行步骤S1和步骤S2；

获取当前时刻的有效文本的过程可以包括：获取当前时刻的文本中除了位于后部的(M-1)个字符单元之外的文本，作为当前时刻的有效文本。

步骤S3、获取当前时刻的有效文本所包含的目标标点；

上述获取当前时刻的有效文本所包含的目标标点，具体可以包括：从当前时刻的有效文本包含的倒数第M个字符单元开始，按照从后到前的顺序查找当前时刻的有效文本包含的标点，作为当前时刻的有效文本所包含的目标标点。

步骤S4、判断所述目标标点是否符合预置的识别结果稳定条件；

上述判断所述目标标点是否符合预置的识别结果稳定条件，具体可以包括：依据所述目标标点对当前时刻的有效文本、以及上一时刻的有效文本进行截断处理；若当前时刻的有效文本对应的在先截断处理结果与上一时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。

步骤S5、在目标标点符合预置的识别结果稳定条件时，向机器翻译装置发送目标文本，以使所述机器翻译装置将所述目标文本翻译为目标语种的文字；所述目标文本可以为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

假设当前时刻为第4s对应的时刻，M＝5，则可以获取当前时刻对应的有效文本“今天天气不错，我们出去爬山”，进一步，可以获取当前时刻的有效文本所包含的目标标点，该目标标点为“不错”与“我们”之间的逗号；进一步，可以判断当前时刻与上一时刻对应的在线截断结果是否一致，相应的判断结果为是，因此可以向机器翻译装置发送基于目标标点得到的目标文本“今天天气不错，”。

综上，本发明实施例依据当前时刻的有效文本所包含的目标标点确定翻译时机，具体地，在所述目标标点符合预置的识别结果稳定条件的情况下，说明目标标点及其之前的语音识别结果具备稳定性，因此可以将向机器翻译装置发送当前时刻的有效文本中目标标点及其之前的字符组成的目标文本，以使机器翻译装置将该目标文本翻译为目标语种的文字。由于本发明实施例可以在语音信号出现停顿之前输出目标文本，以使机器翻译装置对该目标文本进行翻译，故可以有效减少翻译结果滞相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。并且，本发明实施例的目标文本是依据目标标点截断得到的，故可以提高目标文本的完整性，进而可以提高语音识别结果对应的翻译质量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种处理装置实施例的结构框图，具体可以包括：

文本获取模块401，用于获取经过标点添加处理的语音识别结果对应的文本；

目标标点获取模块402，用于获取当前时刻的有效文本所包含的目标标点；

输出模块403，用于若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本可以为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述装置还可以包括：

可选地，所述当前时刻的有效文本可以符合预置的标点稳定条件。

可选地，所述有效文本符合预置的标点稳定条件，可以包括：

所述有效文本为当前时刻的文本中除了位于后部的M-1个字符单元之外的文本；所述字符单元可以包括：词和/或标点符号，M为一次标点添加处理涉及的字符单元的数量。

可选地，所述目标标点获取模块402可以包括：

可选地，所述当前时刻的有效文本可以不可以包括：已输出的目标文本。

可选地，所述T_k之前的时刻可以包括：T_k-1，或者，所述T_k之前的时刻包括：T_k-1和T_k-2等。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种处理装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取经过标点添加处理的语音识别结果对应的文本；获取当前时刻的有效文本所包含的目标标点；若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述有效文本符合预置的标点稳定条件，包括：

图5是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图。例如，终端900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如所述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由服务器1900的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种处理方法，所述方法包括：获取经过标点添加处理的语音识别结果对应的文本；获取当前时刻的有效文本所包含的目标标点；若所述目标标点符合预置的识别结果稳定条件时，输出目标文本；所述目标文本为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述有效文本符合预置的标点稳定条件，包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种处理方法、一种处理装置、以及一种用于处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种处理方法，其特征在于，包括：

获取经过标点添加处理的语音识别结果对应的文本；

获取当前时刻的有效文本所包含的目标标点；

2.根据权利要求1所述的方法，其特征在于，所述判断所述目标标点是否符合预置的识别结果稳定条件，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述当前时刻的有效文本符合预置的标点稳定条件。

4.根据权利要求3所述的方法，其特征在于，所述有效文本符合预置的标点稳定条件，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取当前时刻的有效文本所包含的目标标点，包括：

6.根据权利要求1或2所述的方法，其特征在于，所述当前时刻的有效文本不包括：已输出的目标文本。

7.根据权利要求1或2所述的方法，其特征在于，所述T_k之前的时刻包括：T_k-1，或者，所述T_k之前的时刻包括：T_k-1和T_k-2。

8.一种处理装置，其特征在于，包括：

9.一种用于处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取经过标点添加处理的语音识别结果对应的文本；

获取当前时刻的有效文本所包含的目标标点；

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的处理方法。