CN113628626A

CN113628626A - 语音识别方法、装置和系统以及翻译方法和系统

Info

Publication number: CN113628626A
Application number: CN202010389009.1A
Authority: CN
Inventors: 曹宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2021-11-09

Abstract

公开了一种语音识别方法、装置和系统以及翻译方法和系统。语音识别系统包括服务端和客户端，服务端在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变。客户端对完成识别的字词进行修正处理，并向服务端请求调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。由此，在必要的情况下，能够无需等待较长时间的整句识别过程即可在语音识别过程中实现对流式语音识别结果的修正。

Description

语音识别方法、装置和系统以及翻译方法和系统

技术领域

本公开涉及语音识别技术，特别涉及对语音识别结果的人工修正。

背景技术

语音识别技术已逐渐普及，成为许多用户生活中不可或缺的一部分。

然而，机器语音识别往往无法做到100％准确。例如，图1示出了语音识别场景下客户端与服务端进行交互的示意图。如图1所示，用户对着客户端发出语音“2008年中国成功举办运动会”，语音上传到服务器进行语音识别后，返回流式语音识别结果呈现在客户端的显示屏幕上，识别结果却有可能是“2008您中国成功举办运动会”。

因此，经常需要结合人工修正处理，以便得到准确的语音识别结果。

另一方面，在语音识别领域，还提出了对于日期、时间、地址和金额等具有标准书写形式的对象进行ITN(Inverse Text Normalization，逆转文本标准化)处理，将对象语音形式的表达(例如“下午两点三十五分”)转换为标准的书写形式的文本(例如“14:35”)。

传统模式下，服务端会将当前语句中已经识别出的字拼装成句子，然后进行ITN(Inverse Text Normalization，逆转文本标准化)处理，最后以句子的形式返回给客户端。在一句话识别完成之前，客户端流式接收到的识别结果是在不断变化的。客户端只是向用户呈现当前的识别结果。而在下一时刻随着新内容的进一步识别，当前识别结果有可能随时变化。所以客户端要等到一句话识别结束，识别结果不再变化的时候才能进行人工修正操作。

换言之，现有技术中，由服务端将词信息组装成语句，同时负责进行ITN调用，在服务端完成整个语句的识别并进行ITN处理之前，随时有可能对先前识别的字词结果进行修改调整，所以语音识别的中间结果每次返回时可能会发生改变。这样，在服务端完成语句识别并进行ITN处理之前，客户端不能对服务器流式输出的中间识别结果进行人工修正处理，只能等待整句话识别完成并进行ITN处理之后才能进行人工修正处理。这样，需要等待较长时间才能完成人工修正处理。

因此，仍然需要一种能够实现更方便快捷的人工修正的语音识别方案。

发明内容

本公开要解决的一个技术问题是提供一种语音识别方案，其能够方便快捷地实现人工修正。

根据本公开的第一个方面，提供了一种语音识别方法，包括：接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变；对完成识别的字词进行修正处理；以及调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

可选地，服务端对流式语音识别结果中的字词依次完成识别。

可选地，在流式语音识别结果累计达到预定数量的字或词之后，服务端开始对流式语音识别结果中的字词依次完成识别。

可选地，禁止对流式语音识别结果中服务端尚未完成识别的字词进行修正处理。

可选地，在所述流式语音识别结果中由服务端完成识别的字词已包含整句话的字词的情况下，将已完成识别且经过修正处理的字词组装成语句，作为所述经过修正的识别结果。

可选地，调用逆转文本标准化服务的步骤可以包括：向服务端发送调用请求，所述调用请求包括所述经过修正处理的识别结果。

可选地，对完成识别的字词进行修正处理的步骤可以包括：提供对完成识别的字词进行修正处理的功能；接收对完成识别的字词进行修正处理的修正指示；以及在接收到修正处理的修正指示的情况下，执行所述修正指示所要求的修正处理。

可选地，对完成识别的字词进行修正处理的步骤还可以包括：在服务端完成对整句话的识别后预定时间期间内未收到修正指示的情况下，默认为不修正或修正结束；以及接收不修正的确认。

可选地，修正处理可以包括下述至少一项：字词替换；字词删除；字词顺序调整；在服务端完成对整句话的识别后预定时间期间内未收到修正指示而默认为不修正或修正结束；以及确认不做修正。

根据本公开的第二个方面，提供了一种语音识别方法，包括：接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变；显示流式语音识别结果中已完成识别的字词和尚未完成识别的字词；接收用户对尚未完成识别的字词的修改指令；以及将修改指令上传到服务端，以便服务端进行相应修改。

根据本公开的第三个方面，提供了一种语音识别方法，包括：接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变；对完成识别的字词进行修正处理；以及将对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本上传到服务端，以便服务端完善识别功能。

根据本公开的第四个方面，提供了一种语音识别方法，包括：接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变，流式语音识别结果携带有针对已完成识别的字词的标记，用于标示可能存在识别错误的字词和/或字词的替换候选字词；以及根据标记进行修改或确认。

根据本公开的第五个方面，提供了一种语音识别方法，包括：在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；以及响应于来自客户端的调用请求，对随调用请求接收的经过修正处理的识别结果进行逆转文本标准化处理，以将其转换为标准格式的识别结果文本。

可选地，在流式语音识别结果累计达到预定数量的字或词之后，开始对流式语音识别结果中的字词依次完成识别。

可选地，经过修正处理的识别结果可以是由客户端在所述流式语音识别结果中由服务端完成识别的字词已包含整句话的字词的情况下，将已完成识别且经过修正处理的字词组装成语句，得到的经过修正的识别结果

根据本公开的第六个方面，提供了一种语音识别方法，包括：在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变，其中，向客户端发送的流式语音识别结果包括已完成识别的字词和尚未完成识别的字词；从客户端接收对尚未完成识别的字词的修改指令；以及根据修改指令对尚未完成识别的字词进行修改。

根据本公开的第七个方面，提供了一种语音识别方法，包括：在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；从客户端接收对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本；以及基于所述修正结果补充词库，并且/或者对语音识别机器模型进行训练。

可选地，在流式语音识别结果累计达到预定数量的字或词之后，服务端开始对流式语音识别结果中的字词依次完成识别。该方法还可以包括：根据从客户端接收的修正结果和/或识别结果文本统计服务端语音识别的正确率；以及根据正确率调整所述预定数量的大小。

根据本公开的第八个方面，提供了一种语音识别方法，包括：在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；以及在流式语音识别结果中添加针对已完成识别的字词的标记，用于标示可能存在识别错误的字词和/或字词的替换候选字词。

根据本公开的第九个方面，提供了一种翻译方法，包括：接收第一语音；使用上述的语音识别方法，将第一语音转换为标准格式的识别结果文本；以及将所述标准格式的识别结果文本翻译为目标语种文本。

可选地，目标语种文本可以转换为第二语音。

根据本公开的第十个方面，提供了一种语音识别系统，包括服务端和客户端，其中，服务端在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；客户端对完成识别的字词进行修正处理；以及客户端向服务端请求调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

可选地，客户端禁止对流式语音识别结果中服务端尚未完成识别的字词进行修正处理。

可选地，在所述流式语音识别结果中由服务端完成识别的字词已包含整句话的字词的情况下，客户端将已完成识别且经过修正处理的字词组装成语句，作为所述经过修正处理的识别结果。

根据本公开的第十一个方面，提供了一种翻译系统，包括上述的语音识别系统以及翻译服务器，其中，客户端接收第一语音；语音识别系统将第一语音转换为标准格式的识别结果文本；翻译服务器将所述标准格式的识别结果文本翻译为目标语种文本；翻译服务器将所述目标语种文本转换为第二语音；翻译服务器将第二语音发送给客户端；并且，客户端播放第二语音。

根据本公开的第十二个方面，提供了一种用于语音识别的客户端设备，包括：接收装置，用于接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变；修正装置，用于对完成识别的字词进行修正处理；调用装置，用于调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

根据本公开的第十三个方面，提供了一种用于语音识别的服务器，包括：发送装置，用于在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；处理装置，用于响应于来自客户端的调用请求，对随调用请求接收的经过修正处理的识别结果进行逆转文本标准化处理，以将其转换为标准格式的识别结果文本。

根据本公开的第十四个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第十五个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

由此，服务端以字词信息为单位返回识别结果，而不需进行ITN的调用，客户端可以快速得到流式语音识别结果，并进行人工修正处理，实现了流式识别结果的快速修正。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了语音识别场景下客户端与服务端进行交互的示意图。

图2示出了现有技术中服务端向客户端返回流式结果的示意图。

图3示出了根据本公开一实施例的客户端与服务端之间进行交互的方法的示意性流程图。

图4示出了根据本公开一实施例的客户端设备的结构示意图。

图5示出了根据本公开一实施例的服务器的结构示意图。

图6示出了根据本公开客户端与服务端之间进行交互的一个例子的示意图。

图7示出了根据本发明一实施例的翻译系统的示意图。

图8示出了根据本发明一实施例可用于实现上述语音识别方法、翻译方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了语音识别场景下中服务端与客户端进行交互的例子。

客户端接收用户的语音，例如“2008年中国成功举办运动会”，而后实时将接收到的语音上传至服务端。

服务端对接收到的用户语音进行识别，得到流式语音识别结果，将流式语音识别结果返回给客户端。

由于机器语音识别无法做到100％准确，如图1所示，有可能将“年”识别为“您”，相应地客户端上呈现的识别结果为“2008您中国成功举办运动会”。所以，还需要结合人工修正操作，以得到准确的识别结果。

如上文所述，传统模式下，服务端会将当前语句中已经识别出的字拼装成句子，然后进行ITN(Inverse Text Normalization，逆转文本标准化)处理，将语音识别得到的日期、时间、地址和金额等对象转换为标准格式，最后以句子的形式返回给客户端。因此在一句话识别完成之前，流式收到的识别结果是在不断变化的，所以客户端要等到一句话识别结束，识别结果不再变化的时候才能进行人工修正操作。

例如，图2示出了现有技术语音识别过程中服务端向客户端返回流式结果的示意图。

服务端对来自客户端的语音“2008年中国成功举办运动会”进行逐字逐词识别，在识别的过程中，向客户端流式输出识别结果。

于是，客户端先收到并显示“二零”。

然后，继续收到“零八您”并显示“二零零八您”。此时，用户已经注意到“年”被误识别为“您”，但是服务端为完成识别过程，不确定是否还会基于在后识别的内容对此处错误识别结果进行调整，因此客户端仍然不能向用户提供修正服务。用户只能继续等待。

接着，客户端上显示“二零零八您中国”，“二零零八您中国成功”，“二零零八您中国成功举办”，“二零零八您中国成功举办运动会”。

此时，服务器识别出语句结束，客户端可以开始存储识别完成的词信息。而服务器可以进一步对完成识别的语句进行ITN处理，得到“2008您中国成功举办运动会”，并返回给客户端。

客户端存储服务器返回的ITN处理后的识别结果，向用户提供修正服务。此时，用户才可以将先前已经注意到的错误识别结果“您”修正为“年”。

如图2所示，服务端对于客户端上传的语音，返回流式语音识别结果，即实时返回用户话语对应的文本。由于机器语音识别无法做到100％准确，服务端误将“年”识别成了“您”。而由于现有技术中，服务端还负责将当前语句中已经识别出的字词(在本公开中，术语“字词”所表示的对象可以是“字”，也可以是“词”)拼装成句子，然后进行ITN处理，这样，语音识别的中间结果每次返回时可能会发生改变。因而，在此期间，客户端无法对识别的中间结果进行人工修正处理。

因此，等到服务端识别得到一个句子，并通过ITN处理将句子中的日期、时间、地址和金额等对象转换为标准格式(例如，将图2中的“二零零八”转换为“2008”)后，客户端才能够进行人工修正处理，将机器语音识别产生的错误“您”修改为“年”。

这样，直至服务端调用ITN返回处理结果，客户端需要等待较长时间，才能够进行人工修正处理。

图2所示的现有技术中，人工修正处理需要较长等待时间，导致语音识别的效率降低。

为了解决上述语音识别的流式识别结果返回过程中不能进行人工修正的问题，本公开提出了一种服务端以字词信息为单位返回流式识别结果，客户端对识别完成的字词进行人工修正处理并调用ITN处理，将经过修正处理的识别结果转换为标准格式的识别结果文本的方案。

根据本公开的语音识别系统同样可以包括图1所示的服务端和客户端。

图3示出了根据本公开一实施例的语音识别系统中客户端与服务端之间进行交互的示意性流程图。

图4示出了可用于实现该语音识别方法的客户端设备的结构示意图。

图5示出了另一可用于实现该语音识别方法的服务器(服务端)的结构示意图。

下面结合图3至图5来详细描述客户端和服务端的交互。

如图4所示，客户端设备可以包括接收装置410、修正装置420和调用装置430。

如图5所示，服务器(服务端)可以包括发送装置510和处理装置520。

如图3所示，在步骤S110，客户端采集用户发出的语音，将采集到的用户语音上传至服务端。这里，可以对用户语音进行实时采集，得到流式采集结果，实时上传给服务端。

在步骤S210，服务端接收来自客户端的用户语音。

在步骤S220，服务端，在执行语音识别的同时，例如可以通过发送装置510，向客户端发送流式语音识别结果。这里，对流式语音识别结果中已完成识别的字词不再进行改变。

在一个实施例中，服务端可以对流式语音识别结果中的字词依次完成识别。具体地，在流式语音识别结果累计达到预定数量的字或词之后，服务端开始对流式语音识别结果中的字词依次完成识别。例如，可以累计达到9个字或词之后便可依次完成识别，得到的流式语音识别结果中已完成识别的字词不再改变。

换言之，服务器不再等待用户将整个句子说完，才完成整个句子的识别，而是在对整个句子中后续字或词进行识别的同时，对已经说出的字或词逐步完成识别，并不再进行改变。

另一方面，在流式语音识别结果累计达到预定数量的字或词之后依次完成对字词的识别，允许服务器在一定数量的字词范围内，基于在后识别的字词对在先识别的字词进行调整，可以提高服务器的语音识别正确率。

在步骤S120，客户端，例如通过接收装置410，接收来自服务端的流式语音识别结果。如上所述，这里的流式语音识别结果中已由服务端完成识别的字词不再进行改变。

进入步骤S130，客户端，例如通过修正装置420，对完成识别的字词进行修正处理。

在对完成识别的字词进行修正处理的过程中，可以向用户提供对完成识别的字词进行修正处理的功能。在用户进行修正操作时，可以接收对完成识别的字词进行修正处理的修正指示。在接收到修正处理的修正指示的情况下，执行修正指示所要求的修正处理。

这里，例如，修正处理可以包括下述至少一项：字词替换；字词删除；字词顺序调整等。

另外，在服务端完成对整句话的识别后预定时间期间内未收到修正指示的情况下，可以默认为不修正或修正结束，这样的默认也可以视为修正处理的一种形式。

或者，例如还可以向用户提供是否修正的选择，在用户选择确认不修正的情况下，关于不做修正的确认也可以视为修正处理的一种形式。

换言之，本公开的“修正处理”可以做广义的理解，向用户提供了修正的功能，用户做出相应的反馈，例如具体的修正、默认不修正、确认不修正，都可以视为“修正处理”的形式。

在一个实施例中，客户端禁止对流式语音识别结果中服务端尚未完成识别的字词进行修正处理，即，客户端进行修正处理的是不会再改变的服务端已完成识别的字词。这样，可以避免因对服务端可能还会进行修改的字或词进行修改，导致重复修改、修改错误或最终漏修改的问题。

另外，在流式语音识别结果中由服务端完成识别的字词已包含整句话的字词的情况下，客户端可以将已完成识别且经过修正处理的字词组装成语句，作为经过修正的识别结果。

这样，可以在客户端，而不是服务端来组装语句。客户端组装语句时，便可以采用客户端修正处理后的字词。这样，不需要等组装语句后才进行修正处理。

随后，进入步骤140，客户端，例如通过调用装置430，调用逆转文本标准化(ITN)服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

客户端可以向服务端发送ITN调用请求，由服务端来执行ITN服务。或者，客户端也可以在本地直接调用执行逆转文本标准化服务。

在一个实施例中，在由服务端来执行ITN服务的情况下，客户端可以向服务端发送调用请求。调用请求可以包括经过修正处理的识别结果。

这种情况下，在步骤S230，服务端可以接收逆转文本标准化服务调用请求。

之后，在步骤S240，服务端，例如通过处理装置520，响应于来自客户端的调用请求，对随调用请求接收的经过修正处理的识别结果进行逆转文本标准化处理，以将其转换为标准格式的识别结果文本。

在一个实施例中，服务端向客户端发送已转换为标准格式的识别结果文本，在步骤S150，客户端接收转换为标准格式的识别结果文本。

上文中描述了客户端对流式语音识别结果中已完成识别的字词进行修正处理的情形。

在一些实施例中，还可以允许客户端对流式语音识别结果中尚未完成识别的字词进行修正处理。

服务端向客户端发送的流式语音识别结果包括已完成识别的字词和尚未完成识别的字词。相应地，在客户端会显示流式语音识别结果中已完成识别的字词和尚未完成识别的字词。

向用户提供对服务器尚未完成识别的字词的修改权限。当用户注意到服务器的识别结果有误时，可以无需等待服务器完成识别，即可进行修正。

此时，客户端接收用户对尚未完成识别的字词的修改指令，并将该修改指令上传到服务端，以便服务端进行相应修改。

服务端从客户端接收对尚未完成识别的字词的修改指令，然后可以根据修改指令对尚未完成识别的字词进行修改。由此，可以更加快捷准确地完成识别。

这样，本公开还可以提供一种语音识别方法，例如可以在客户端执行。接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变。显示流式语音识别结果中已完成识别的字词和尚未完成识别的字词。接收用户对尚未完成识别的字词的修改指令。然后，可以将修改指令上传到服务端，以便服务端进行相应修改。

相应地，本公开还可以提供一种语音识别方法，例如可以在服务端执行。在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变。其中，向客户端发送的流式语音识别结果包括已完成识别的字词和尚未完成识别的字词。从客户端接收对尚未完成识别的字词的修改指令。然后，可以根据修改指令对尚未完成识别的字词进行修改。

另一方面，在一些实施例中，客户端还可以将对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本上传到服务端，以便服务端完善识别功能。

例如，服务端完成识别的“二零零八您”被客户端修正为“二零零八年”。将次修正结果上传服务端后，服务端可以进行改进，下次遇到类似的语音时，可以不再将“年”误识别为“您”。

另外，有些人名、地名等名词，服务端的识别结果很可能只能做到读音正确，在多个同音字中有可能不能做出正确的选择。客户端返回修正结果后，服务端可以进行改进，记录这些修正结果。

相应地，服务端从客户端接收对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本，然后可以基于修正结果补充词库，并且/或者对语音识别机器模型进行训练。

例如，可以在词库中添加一些词汇，例如人名、地名等名词。

或者，可以以修正结果和/或完整的识别结果文本作为训练语料，对服务端的语音识别模型进行进一步的训练。

另外，服务端还可以根据从客户端接收的修正结果和/或识别结果文本统计服务端语音识别的正确率。

如上所述，在流式语音识别结果累计达到预定数量的字或词之后，服务端开始对流式语音识别结果中的字词依次完成识别。

这里，还可以根据识别正确率来调整上述预定数量的大小。

例如，如果根据来自客户端的反馈，发现服务端的语音识别正确率很低，则可以降低预定数量的大小，以便服务端尽快完成识别，尽快向客户端提供进行修正处理的能力。

例如，如果语音为方言，服务端的语音识别正确率非常低。此时服务端即使完成识别，根据上下文进行调整，同样会有较多识别错误需要用户修改。这样，等待服务端综合对较长的多个字词完成识别的意义降低。因此，可以减少服务端开始完成识别所需字词个数的阈值，使服务端尽快完成识别，而尽早向客户端用户提供修正处理能力。

又例如，如果语音为标准的普通话，服务端的语音识别正确率非常高，就可以允许服务端对具有更多字词的长文本完成识别，以便服务端根据更长的上下文进行调整，实现更高的识别正确率。

这样，本公开还可以提供一种语音识别方法，例如可以在客户端执行。接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变。对完成识别的字词进行修正处理，然后，可以将对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本上传到服务端，以便服务端完善识别功能。

相应地，本公开还可以提供一种语音识别方法，例如可以在服务端执行。在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变。从客户端接收对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本。然后，可以基于所述修正结果补充词库，并且/或者对语音识别机器模型进行训练。

在流式语音识别结果累计达到预定数量的字或词之后，服务端开始对流式语音识别结果中的字词依次完成识别。服务端可以根据从客户端接收的修正结果和/或识别结果文本统计服务端语音识别的正确率，并且根据正确率调整上述预定数量的大小。

另一方面，在一些实施例中，服务端在完成识别时，对于一些不完全确定的识别结果字词，可以添加标记，以供客户端的用户参考。

这样，服务端可以在流式语音识别结果中添加针对已完成识别的字词的标记，用于标示可能存在识别错误的字词和/或字词的替换候选字词。

用户在客户端上看到带有标记的流式语音识别结果后，可以更加关注标记所针对的字词，对其进行修正。

如果提供了该字词的替换候选字词，可以在替换候选字词中进行选择。

或者，还可以对识别结果进行确认，即确认该识别结果无误。

这样，本公开还可以提供一种语音识别方法，例如可以在服务端执行。在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变。在流式语音识别结果中添加针对已完成识别的字词的标记，用于标示可能存在识别错误的字词和/或字词的替换候选字词。

相应地，本公开还可以提供一种语音识别方法，例如可以在客户端执行。接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变。流式语音识别结果携带有针对已完成识别的字词的标记，用于标示可能存在识别错误的字词和/或字词的替换候选字词。然后，可以根据标记进行修改或确认。

图6示出了根据本公开客户端与服务端之间进行交互的一个例子。

服务端向客户端返回流式语音识别结果，将识别结果中已经完成识别的字词发送给客户端。客户端存储已经完成识别的字词信息，并在用户发现完成识别的字词中出现错误时，允许用户进行修正处理。

例如，如图6所示，在流式语音识别结果达9个(在其他实施例中，可以自行预定个数)字时，服务便对其依次完成识别，不再对已完成识别的字词进行调整变化。

开始，在服务器识别出“二零”、“二零零八您”、“二零零八您中国”时，还没有累积到足够的字词，因此还没有开始完成对这些字词的识别。

当服务器识别出“二零零八您中国成功”时，已经累积到预定数量的字词，开始逐个字词的完成识别。“二零”首先完成识别不再变化，可以存储在客户端，供客户端在必要的情况下进行修正。

在服务器进一步识别到“二零零八您中国成功举办”时，进一步对“零八您”完成了识别。此时已完成识别的字词包括“二零零八您”。

虽然还没有完成对整个句子的识别，但是服务器将不再对已经完成识别的“二零零八您”进行进一步的调整变化。客户端便可以允许用户对这里的识别错误“您”进行人工修正处理，将“您”修改为“年”。

而在客户端进行人工修正处理的同时，服务端可以接着向客户端返回进一步完成识别的字词。

之后，客户端将服务器返回的已完成识别的字词，结合人工修正的结果，组装成句子，得到“二零零八您中国成功举办运动会”。

然后，客户端完成ITN的调用。例如，可以向服务端发出请求以调用ITN，服务端向客户端返回ITN处理结果，将语句中的日期“二零零八年”转换为标准格式“2008年”。

由此，得到最终的识别结果文本“2008年中国成功举办运动会”。

本发明的技术方案中，服务端改为以字词信息为单位返回识别结果，客户端在词信息达预定数量的字词(例如9个字)之后便可以对已识别完成的词信息进行人工修正操作。由客户端完成部分原本由服务端负责的工作，例如将词信息组装成语句和调用ITN处理。

这样，客户端不需要等待服务端将整个语句识别完成，便可以快速、高效地进行人工修正处理。

如上文所述，本公开的语音识别系统可以包括客户端和服务端两方面。

就客户端一侧而言，客户端接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变。客户端对完成识别的字词进行修正处理，并调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

就服务端一侧而言，在执行语音识别的同时，服务端向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变。响应于来自客户端的调用请求，服务端可以对随调用请求接收的经过修正处理的识别结果进行逆转文本标准化处理，以将其转换为标准格式的识别结果文本。

由此，本发明中的技术方案中，服务端可以不负责字词到语句的组装工作和ITN服务的调用，语音识别的字词信息可以更快的完成识别。

客户端直接从服务端接收已完成识别的字词信息结果，组装成语句，然后调用ITN服务，由于已完成识别的字词信息不再被服务端所改变，因此客户端可对已完成识别的词信息进行人工修正操作，而无需等待整句话识别完成，实现了流式识别结果的快速修正。克服了服务端以句子为单位返回识别结果，客户端需要等待较长时间才能进行人工修正处理的问题。

作为示例，本公开的语音识别方法可以用于例如语音到语音的翻译系统。

图7示出了根据本发明一实施例的翻译系统的示意图。

如图7所示，本发明提供的翻译系统可以包括上述语音识别系统和翻译服务器。

这里的语音识别系统可以与图1中的系统相同，并且执行与图3所示流程图相同的语音识别方法。

在一些情况下，翻译服务器也可以与语音识别系统中的服务器(服务端)是同一个服务器。换言之，可以由同一个服务器(服务端)来执行语音识别服务和翻译服务。

客户端接收第一语音。

语音识别系统例如在客户端和服务端的配合下，采用上文所述方法将第一语音转换为标准格式的识别结果文本。

于是翻译服务器可以将标准格式的识别结果文本翻译为目标语种文本。

接下来，翻译服务器则可以进一步将目标语种文本转换为第二语音，并将第二语音发送给客户端。

由此，客户端可以播放第二语音，实现第一语音到第二语音两种语言的语音之间的翻译。

这样，本公开还可以实现为一种翻译方法，其中，接收第一语音，使用上述语音识别方法，将第一语音转换为标准格式的识别结果文本，并将所述标准格式的识别结果文本翻译为目标语种文本。

在一个实施例中，还可以进一步将目标语种文本转换为第二语音。

由此，本发明的翻译系统可以应用于一种S2S(Speech-to-speechtranslation，语音到语音)语音翻译客户端，让使用不同语言的人能够更容易、更直接、语音到语音地进行交流。

参见图8，计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器820可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器810可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码，当可执行代码被处理器820处理时，可以使处理器820执行上文述及的语音识别方法和翻译方法。

上文中已经参考附图详细描述了根据本发明的语音识别方法、装置和系统以及翻译方法和系统。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音识别方法，包括：

接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变；

对完成识别的字词进行修正处理；以及

调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

2.根据权利要求1所述的语音识别方法，其中，

服务端对流式语音识别结果中的字词依次完成识别。

3.根据权利要求2所述的语音识别方法，其中，

在流式语音识别结果累计达到预定数量的字或词之后，服务端开始对流式语音识别结果中的字词依次完成识别。

4.根据权利要求1所述的语音识别方法，还包括：

禁止对流式语音识别结果中服务端尚未完成识别的字词进行修正处理。

5.根据权利要求1所述的语音识别方法，还包括：

在所述流式语音识别结果中由服务端完成识别的字词已包含整句话的字词的情况下，将已完成识别且经过修正处理的字词组装成语句，作为所述经过修正的识别结果。

6.根据权利要求1所述的语音识别方法，其中，所述调用逆转文本标准化服务的步骤包括：

向服务端发送调用请求，所述调用请求包括所述经过修正处理的识别结果。

7.根据权利要求1所述的语音识别方法，其中，所述对完成识别的字词进行修正处理的步骤包括：

提供对完成识别的字词进行修正处理的功能；

接收对完成识别的字词进行修正处理的修正指示；以及

在接收到修正处理的修正指示的情况下，执行所述修正指示所要求的修正处理。

8.根据权利要求7所述的语音识别方法，其中，所述对完成识别的字词进行修正处理的步骤还包括：

在服务端完成对整句话的识别后预定时间期间内未收到修正指示的情况下，默认为不修正或修正结束；以及

接收不修正的确认。

9.根据权利要求1所述的语音识别方法，其中，所述修正处理包括下述至少一项：

字词替换；

字词删除；

字词顺序调整；

在服务端完成对整句话的识别后预定时间期间内未收到修正指示而默认为不修正或修正结束；以及

确认不做修正。

10.一种语音识别方法，包括：

显示流式语音识别结果中已完成识别的字词和尚未完成识别的字词；

接收用户对尚未完成识别的字词的修改指令；以及

将所述修改指令上传到服务端，以便服务端进行相应修改。

11.一种语音识别方法，包括：

对完成识别的字词进行修正处理；以及

将对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本上传到服务端，以便服务端完善识别功能。

12.一种语音识别方法，其中，

接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变，流式语音识别结果携带有针对已完成识别的字词的标记，用于标示可能存在识别错误的字词和/或字词的替换候选字词；以及

根据所述标记进行修改或确认。

13.一种语音识别方法，包括：

在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；以及

响应于来自客户端的调用请求，对随调用请求接收的经过修正处理的识别结果进行逆转文本标准化处理，以将其转换为标准格式的识别结果文本。

14.根据权利要求13所述的语音识别方法，其中，

在流式语音识别结果累计达到预定数量的字或词之后，开始对流式语音识别结果中的字词依次完成识别。

15.根据权利要求13所述的语音识别方法，其中，

所述经过修正处理的识别结果是由客户端在所述流式语音识别结果中由服务端完成识别的字词已包含整句话的字词的情况下，将已完成识别且经过修正处理的字词组装成语句，得到的经过修正的识别结果。

16.一种语音识别方法，包括：

在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变，其中，向客户端发送的流式语音识别结果包括已完成识别的字词和尚未完成识别的字词；

从客户端接收对尚未完成识别的字词的修改指令；以及

根据所述修改指令对尚未完成识别的字词进行修改。

17.一种语音识别方法，包括：

在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；

从客户端接收对完成识别的字词进行修正处理的修正结果和/或完整的识别结果文本；以及

基于所述修正结果补充词库，并且/或者对语音识别机器模型进行训练。

18.根据权利要求17所述的语音识别方法，其中，

在流式语音识别结果累计达到预定数量的字或词之后，服务端开始对流式语音识别结果中的字词依次完成识别，

该方法还包括：

根据从客户端接收的修正结果和/或识别结果文本统计服务端语音识别的正确率；以及

根据所述正确率调整所述预定数量的大小。

19.一种语音识别方法，包括：

在流式语音识别结果中添加针对已完成识别的字词的标记，用于标示可能存在识别错误的字词和/或字词的替换候选字词。

20.一种翻译方法，包括：

接收第一语音；

使用根据权利要求1至19中任何一项所述的语音识别方法，将第一语音转换为标准格式的识别结果文本；以及

将所述标准格式的识别结果文本翻译为目标语种文本。

21.根据权利要求20所述的翻译方法，还包括：

将所述目标语种文本转换为第二语音。

22.一种语音识别系统，包括服务端和客户端，其中，

服务端在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；

客户端对完成识别的字词进行修正处理；以及

客户端向服务端请求调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

23.根据权利要求22所述的语音识别系统，其中，

客户端禁止对流式语音识别结果中服务端尚未完成识别的字词进行修正处理。

24.根据权利要求22所述的语音识别系统，其中，

在所述流式语音识别结果中由服务端完成识别的字词已包含整句话的字词的情况下，客户端将已完成识别且经过修正处理的字词组装成语句，作为所述经过修正处理的识别结果。

25.一种翻译系统，包括权利要求22至24中任何一项所述的语音识别系统以及翻译服务器，其中，

客户端接收第一语音；

语音识别系统将第一语音转换为标准格式的识别结果文本；

翻译服务器将所述标准格式的识别结果文本翻译为目标语种文本；

翻译服务器将所述目标语种文本转换为第二语音；

翻译服务器将第二语音发送给客户端；并且

客户端播放第二语音。

26.一种用于语音识别的客户端设备，包括：

接收装置，用于接收来自服务端的流式语音识别结果，其中，流式语音识别结果中已由服务端完成识别的字词不再进行改变；

修正装置，用于对完成识别的字词进行修正处理；以及

调用装置，用于调用逆转文本标准化服务，以将经过修正处理的识别结果转换为标准格式的识别结果文本。

27.一种用于语音识别的服务器，包括：

发送装置，用于在执行语音识别的同时，向客户端发送流式语音识别结果，对流式语音识别结果中已完成识别的字词不再进行改变；以及

处理装置，用于响应于来自客户端的调用请求，对随调用请求接收的经过修正处理的识别结果进行逆转文本标准化处理，以将其转换为标准格式的识别结果文本。

28.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至21中任何一项所述的方法。

29.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至21中任何一项所述的方法。