CN102299934A

CN102299934A - 一种基于云模式和语音识别的语音输入方法

Info

Publication number: CN102299934A
Application number: CN2010102078430A
Authority: CN
Inventors: 施丽艳
Original assignee: Shanghai Bolu Information Technology Co Ltd
Current assignee: Shanghai Bolu Information Technology Co Ltd
Priority date: 2010-06-23
Filing date: 2010-06-23
Publication date: 2011-12-28

Abstract

本发明公开了一种基于云模式和语音识别的语音输入方法，包含语音获取模块，语音识别模块，业务逻辑处理模块，服务接口模块，语音样本库，数据通讯模块。本发明将通过将本地语音录取后发送到远端的网络侧的语音识别模块识别，识别后将识别的文本信息发送到终端侧，由输入控制模块显示在用户的输入选择框，用户简单的口述即可获得和输入对应的文本信息。

Description

一种基于云模式和语音识别的语音输入方法

技术领域

本发明涉及互联网络和语音平台技术领域，特别是指一种基于云模式和语音识别的语音输入方法。

背景技术

随着互联网业务的发展，特别是基于宽带互联网和移动互联网技术的发展，用户上网的速度越来越快。高速带宽促使了云模式业务的发展，各种基于互联网络云模式的业务不断涌现，结合传统软件平台和网络成为新的一个业务的发展方向。

近年来语音识别技术发展很快，识别率和识别速度不断提高，逐步走向成熟的应用，结合互联网和云计算的模式的互联网和移动互联网业务和语音识别业务成为一种新的趋势。

有鉴于此，本发明的目的在于提出一种云模式的远端语音识别的语音输入方法。

发明内容

从上面所述可以看出，本发明提供的基于云模式和语音识别模式的语音输入方法，通过简单用户在网络客户端，包含互联网客户端和手机客户端等，简单地说出输入的文本，网络端进行识别并返回到客户端进行输入，客户端无需安装复杂的语音识别程序和庞大的语音数据库，对手机和瘦客户端的用户来讲具有很大的潜在价值。

具体来说具有以下优点：

使用简单：

用户只需简单地口述想要输入的文本信息，通过远端的语音识别服务即可将其语音识别后返回到客户端进行输入；

对终端要求低：

语音识别对客户端的设备资源要求较高，需要较多的计算资源和数据存储资源，而通过云模式，客户端被大大地简化，对终端的要求大为降低；业务升级便捷：

通过云模式的业务部署，使得业务的升级和扩展非常便捷，在网络端进行功能升级和数据扩充，对客户端没有任何的影响。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明系统模块结构的示意图。

图2为业务使用流程说明示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

为实现上述目的，提出了一种基于云模式和语音识别的语音输入方法。

以下通过结合附图，对本发明的实施方式进行描述。

实现移动通信领域的信息业务的关键点如下：

语音获取：客户端获取用户语音并按照自然语言进行断句并打包成音频编码格式压缩后发送到网络端；

语音识别：语音识别模块识别音频文件的内容并转换成文本信息：

服务调用：通过各种远程服务调用的方式和协议，请求远端的服务端的服务，如通过SOAP协议请求远端的识别服务，远端的服务开放成应用接口以供客户端进行调用；

主要功能模块

如图1所示，基于云模式和语音识别模式的语音输入方法的系统结构主要包括：

客户端101：

负责提供输入界面，获取用户语音和编码打包，请求远端的服务调用，显示识别后的文本信息；

数据网络102：

提供业务的网络数据通道，传输业务请求数据和业务结果信息；

服务接口103：

提供远端的服务全球的接口，用户通过该服务接口请求网络端的语音识别服务和返回到客户端识别后的结果信息；

业务逻辑模块104：

根据业务配置的各种参数执行业务逻辑，配置业务执行的流程和参数，如为首次的语音注册、语音界面的配置等；

语音库105：

负责存储用户的语音样本库和为语音识别模块提供比对语音数据；

语音识别模块106：

执行与语音库的样本语音的匹配和识别；

管理模块107：对整个系统进行管理，包含参数管理、语音样本数据管理、用户管理，日志记录和管理等管理功能。

下面举一个例子来说明本发明系统的工作流程，该实施例中，业务包括以下步骤：

步骤1：用户激活客户端，口述输入的文字，客户端获取用户的语音的片段后编码成音频格式的数据；

步骤2：客户端请求接口模块的语音识别服务；

步骤3：系统平台接口模块接收到客户端的服务请求，接收到客户端的语音数据；

步骤4.接口模块接收到服务请求和语音数据后请求业务逻辑模块执行业务逻辑；

步骤5.业务逻辑模块请求语音识别模块对语音数据进行识别；

步骤6.语音识别模块对客户端提交的语音数据进行识别后将识别后的结果返回到业务逻辑模块和接口模块；

步骤7.接口模块将返回的结果信息封装和格式化返回到客户端的输入选择框；

本发明的描述是为了示例和说明起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于云模式的语音识别方式的语音输入方法，其特征在于，包含：通过云模式的请求服务的方式识别用户语音描述的语音并转换为文本。

2.远端服务通过服务接口提供了语音识别的服务，客户端侧调用该服务识别本地的语音信息，并获取到识别后的文本结果。

3.如权利要求2所述，本地端按照用户的自然语句方式截取语音片段，获取周期性的音频片段，并以此作为参数发起远端的语音识别的调用。

4.本地端在收到网络端的服务调用结果后，将其结果显示在输入框内供用户进行选择。

5.如权利要求1所述的云模式的语音输入方法，其特征在于：

按照用户自然语句节奏获取语音片段：

按照用户自然语言断句的节奏获取到语音片段，用户说完一句话后获得该句的完整片段后将其作为参数发起远端的服务的识别请求；

远端语音识别：

本地端获取到用户的语音片段后，将其压缩和编码成音频格式发送给云端服务，作为参数请求远端的语音识别服务进行识别；

本地输入控制：

本地端获得云端服务计算的结果后，将结果信息显示在输入选择框供用户进行选择，如有多个可能选项则显示多行。

云模式服务：

将语音识别的功能包装成服务开放在网络端，本地端无论在何处只要联网即可使用远端的云服务。

6.如权利要求2所述的云模式的语音识别方法，语音识别模块部署在远端服务端，功能和性能的扩展不受限制，有效地利用了庞大的语音数据库数据。

整个业务降低了对终端的要求，终端无需安装大量的语音数据和进行复杂的计算，为终端用户在移动网络上提供了一个新型业务，通过简单地说话即可将语音转换成文本进行输入，为用户提供了一个新的输入的选择。