CN102779509A

CN102779509A - 语音处理设备和语音处理方法

Info

Publication number: CN102779509A
Application number: CN2011101218147A
Authority: CN
Inventors: 贺志强; 姚映佳; 尉伟东; 王茜莺; 杨胤嗣; 徐庆; 刘俊峰; 孙春辉
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2011-05-11
Filing date: 2011-05-11
Publication date: 2012-11-14
Anticipated expiration: 2031-05-11
Also published as: CN102779509B

Abstract

本发明提供一种语音处理设备和语音处理方法，所述语音处理设备包括：语音采集模块，用于采集语音信号；语音识别模块，用于对所述语音信号进行识别，获得识别结果；第一传输模块，用于通过与终端设备之间建立的连接，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。本发明能够在本地快速准确地识别出语音信号。

Description

语音处理设备和语音处理方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音处理设备和语音处理方法。

背景技术

语音识别交互是目前手机战略布局中的一个重要环节，手机可以采集用户的语音信号，并对采集到的语音信号进行本地识别，根据识别结果执行相应的操作，例如播放音乐的操作、读取短消息的操作等。由于手机处理能力有限，通常仅能够识别出简单的语音信号，为了能够对更为复杂的语音信号进行识别，如图1所示，手机可以通过3G或WIFI等网络将采集到的语音信号传输至一远程服务器，由该远程服务器对语音信号进行识别，并根据识别结果生成手机能够识别的指令信息反馈给手机，手机根据接收到的指令信息执行相应的操作。

依靠远程服务器进行语音识别的方法存在以下问题：

一、手机与远程服务器之间的连接是否成功需要依靠网络的状况，在手机周围没有网络或者网络信号差的情况下，难以完成语音识别；

二、响应速度慢，现有的远程服务器和手机之间完成一个交互服务的时间通常约为4秒，其中大部分时间是由于远程服务器和手机之间的网络传输所导致。

发明内容

有鉴于此，本发明提供一种语音处理设备和语音处理方法，能够在本地完成强大的语音识别，克服了运程语音识别需要依靠网络状况以及响应速度慢的问题。

为解决上述问题，本发明提供一种语音处理设备，包括：语音采集模块，用于采集语音信号；语音识别模块，用于对所述语音信号进行识别，获得识别结果；第一传输模块，用于通过与终端设备之间建立的连接，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

优选的，所述的语音处理设备还包括：存储模块，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息；所述语音识别模块包括：特征提取模块，用于提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；匹配模块，用于将所述待匹配语音模型与所述参考语音模型进行匹配，得到匹配结果；获取模块，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息，将所述词汇信息作为所述识别结果。

优选的，所述的语音处理设备还包括：存储模块，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息；所述语音识别模块包括：特征提取模块，用于提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；匹配模块，用于将所述待匹配语音模型与所述参考语音模型进行匹配，得到匹配结果；获取模块，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，根据所述语义信息，获得一词汇信息，并确定所述词汇信息对应的指令信息，将所述指令信息作为所述识别结果。

优选的，所述语音特征库包括第一语音特征库和第二语音特征库，所述第一语音特征库和所述第二语音特征库不同；所述语音处理设备还包括：更新模块，用于当满足第一预定条件时，将所述待匹配模型以及所述待匹配模型对应的语义信息更新到所述第二语音特征库。

优选的，所述语音识别模块还包括：语音验证模块，用于判断所述待匹配语音模型与所述第二语音特征库中的参考语音模型是否匹配，如果是，控制所述获取模块工作，否则，控制所述获取模块不工作。

优选的，所述的语音处理设备还包括：存储模块，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息；所述语音识别模块包括：特征提取模块，用于提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；匹配模块，用于将所述待匹配语音模型与所述参考语音模型进行匹配，得到匹配结果；获取模块，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息；拆分模块，用于当所述词汇信息涉及多个终端设备时，从所述词汇信息中获取多个终端标识，以及每个所述终端标识对应的子识别结果，所述多个终端标识不同；其中，所述第一传输模块进一步用于分别将所述多个子识别结果作为所述识别结果传输给所述多个终端标识对应的终端设备。

优选的，所述拆分模块进一步用于从所述词汇信息中获取第一终端标识和第二终端标识，以及所述第一终端标识对应的第一指令信息和所述第二终端标识对应的第二指令信息，所述第一终端标识和第二终端标识不同，所述第一指令信息和第二指令信息不同；所述第一传输模块进一步用于将所述第一指令信息作为所述识别结果传输给所述第一终端标识对应的终端设备，将所述第二指令信息作为所述识别结果传输给所述第二终端标识对应的终端设备。

优选的，所述的语音处理设备还包括：图像信号生成模块，用于根据所述语音处理设备上执行的操作生成图像信号；其中，第一传输模块进一步用于将所述图像信号传输给所述终端设备，并控制所述终端设备的显示模块显示所述图像信号。

优选的，所述的语音处理设备还包括：第二传输模块，用于当满足第二预定条件时，通过与远程服务器之间建立的连接，将所述语音信号传输给所述远程服务器，所述远程服务器能够对所述语音信号进行识别，获得识别结果，将所述识别结果传输给所述语音处理设备；接收模块，用于接收所述远程服务器传输的所述识别结果。

本发明还提供一种语音处理设备，包括：接口模块，用于与终端设备连接；语音采集模块，用于采集语音信号；处理模块，用于对所述语音信号进行识别，获得识别结果，并通过所述接口模块，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

本发明还提供一种语音处理方法，包括以下步骤：采集语音信号；对所述语音信号进行识别，获得识别结果；通过与终端设备之间建立的连接，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

优选的，所述对所述语音信号进行识别，获得识别结果具体为：提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；将所述待匹配语音模型与语音特征库中的参考语音模型进行匹配，得到匹配结果；所述语音特征库中包含多个所述参考语音模型，每个所述参考语音模型对应一语义信息；根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息，将所述词汇信息作为所述识别结果。

优选的，所述对所述语音信号进行识别，获得识别结果具体为：提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；将所述待匹配语音模型与语音特征库中的参考语音模型进行匹配，得到匹配结果；所述语音特征库中包含多个所述参考语音模型，每个所述参考语音模型对应一语义信息；根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，根据所述语义信息，获得一词汇信息，并确定所述词汇信息对应的指令信息，将所述指令信息作为所述识别结果。

优选的，所述对所述语音信号进行识别，获得识别结果具体为：提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；将所述待匹配语音模型与语音特征库中的参考语音模型进行匹配，得到匹配结果；所述语音特征库中包含多个所述参考语音模型，每个所述参考语音模型对应一语义信息；根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息；当所述词汇信息涉及多个终端设备时，从所述词汇信息中获取多个终端标识，以及每个所述终端标识对应的子识别结果，所述多个终端标识不同；所述将所述识别结果传输给所述终端设备具体为：分别将所述多个子识别结果作为所述识别结果传输给所述多个终端标识对应的终端设备。

本发明具有以下有益效果：

在本地就能够实现语音识别，不依赖于网络，扩大了适用范围，且大幅提升了响应速度。

具有个性化的语音特征库，能够对特定人的语音信号进行识别，满足了个性化的服务的需求。

在特定条件下，也能够与远程服务器连接，实现远程语音识别或者与远程语音特征库同步等操作，实现方式灵活多样，提高了用户体验。

附图说明

图1为现有技术中的运程语音识别方法；

图2为本发明实施例的语音处理设备的一结构框图；

图3为本发明实施例的语音处理设备的另一结构框图；

图4为本发明实施例的语音处理设备的又一结构框图；

图5为本发明实施例的语音处理设备的一应用场景示意图；

图6为本发明实施例的语音处理设备的另一应用场景示意图；

图7为本发明实施例的语音处理方法的流程示意图。

具体实施方式

本发明实施例中，在本地设置一语音处理设备，能够完成强大的语音识别，并将识别结果传输给与语音处理设备连接的终端设备，从而终端设备能够根据识别结果执行相应的操作，该种语音识别方式不需要依赖网络，提高了响应速度。

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

如图2所示为本发明实施例的语音处理设备的一结构框图，所述语音处理设备包括：语音采集模块201，用于采集语音信号；语音识别模块202，用于对所述语音信号进行识别，获得识别结果；第一传输模块203，用于通过与终端设备之间建立的连接，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

所述语音处理设备可以是一独立的物理设备，放置于家庭、办公室或者车辆等场所中，也可以是嵌入式设备，例如嵌入到车辆的仪表板上等。

所述终端设备可以是手机、笔记本电脑、平板电脑、电视等任何智能设备，所述终端设备和所述语音处理设备均位于本地，两者可以通过蓝牙、红外、有线等短距离通信方式建立连接。

所述语音采集模块201可以是一麦克风，用于采集位于本地的发音人发出的语音。所述语音识别模块202在对所述语音信号进行语音识别之前，还可以对所述语音信号进行滤波去噪等处理，以去除环境噪声的干扰，提高识别率。所述语音识别模块202获得的识别结果可以是所述语音信号对应的词汇信息，例如“给张三打电话”，也可以是所述词汇信息对应的指令信息，例如，用于指示手机(终端设备)拨打张三的电话号码的指令信息。当所述终端设备接收到的识别结果是一指令信息时，可以直接根据该指令信息执行相应的操作，当所述终端设备接收到的识别结果是一词汇信息时，还需要将所述词汇信息解析成相应的指令信息，然后再执行所述指令信息。

也就是说，所述语音处理设备可以仅执行语音识别操作，将识别出的词汇信息直接传输给所述终端设备，也可以在执行语音识别操作后，将识别出的词汇信息解析成相应的指令信息，将指令信息传输给所述终端设备。

下面对所述语音处理设备进行语音识别的方法进行举例说明。

通常情况下，语音识别是采用模式识别法对语音信号进行识别，所谓模式识别法是指预先提取具有特定语义信息的语音信号的语音特征参数，根据该语音特征参数生成所述特征语义信息对应的参考语音模型，并将所述参考语音模型存储在语音特征库中。所述参考语音模型通常由多个语音特征参数值组成，所述语音特征参数可以是幅度、频率等。当需要进行语音识别时，提取待识别的语音信号的语音特征参数，并根据该语音特征参数生成待匹配语音模型，将待匹配语音模型与语音特征库中的参考语音模型一一进行匹配，直至得到与待匹配语音模型相似度最高的参考语音模型，并将所述相似度最高的参考语音模型对应的语义信息作为所述待匹配语音模型的语义信息。

当所述语音识别模块202获得的识别结果是一词汇信息时，如图3所示，所述语音处理设备还可以包括一存储模块204，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息。为了能够将采集到的语音信号解析成词汇信息，所述语音识别模块202可以包括：特征提取模块2021，用于提取所述语音采集模块201采集的所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；匹配模块2022，用于将所述待匹配语音模型与所述参考语音模型进行匹配，得到匹配结果；第一获取模块2023，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息，将所述词汇信息作为所述识别结果。所述第一传输模块203将所述词汇信息传输给所述终端设备。

当所述语音识别模块202获得的识别结果是一指令信息时，如图4所示，所述语音处理设备也需要包括：存储模块204，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息；为了能够将采集到的语音信号解析成指令信息，所述语音识别模块202包括：特征提取模块2021，用于提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；匹配模块2022，用于将所述待匹配语音模型与所述参考语音模型进行匹配，得到匹配结果；第二获取模块2024，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息，并确定所述词汇信息对应的指令信息，将所述指令信息作为所述识别结果。所述第一传输模块203将所述指令信息传输给所述终端设备。

上述实施例中，是通过模式识别法对语音信号进行识别，当然，也可以采用其他方法对语音信号进行识别，例如基于声道模型和语音知识的方法以及利用人工神经网络的方法等，在此不再一一说明。

不同发音人对同一词汇的发音可能并不相同，因此，即使是说同一词汇，从不同发音人的语音信号中提取到的语音特征参数值也不同，也就是说，利用一个语音特征库进行语音识别无法满足个性化的需求。本发明实施例中，可以设置一针对非特定人的语音特征库，也可称为基础语音特征库，针对非特定人进行语音识别，同时设置一针对特定人的语音特征库，也可称为个性语音特征库，针对特定人进行语音识别。

上述个性语音特征库可以是经过语音训练而得到的，举例来说，可以向用户提供一词汇表，采集用户对词汇表中词汇的发音，提取所述发音的语音特征参数值生成参考语音模型，根据所述参考语音模型形成个性语音特征库。

另外，上述个性语音特征库也可以在用户使用过程中逐步形成，举例来说，如果在基础语音特征库中未找到与待匹配语音模型相匹配的参考语音模型，所述语音处理设备可以向用户提供一个或多个候选参考语音模型对应的语义信息，以供用户选择。具体的，所述语音处理设备可以包括一声音输出模块，用于向用户播放候选参考模型对应的语义信息，例如“您说的是“播放音乐”吗”，当用户确认时，则可以确定所述待匹配模型对应的语义信息，并将所述待匹配模型以及所述待匹配模型对应的语义信息存储于个性语音特征库中。

也就是说，所述语音特征库可以包括第一语音特征库和第二语音特征库，其中，所述第一语音特征库为上述基础语音特征库，所述第二语音特征库为上述个性语音特征库，所述第一语音特征库和所述第二语音特征库不同；为了形成所述第二语音特征库，所述语音处理设备可以还包括：更新模块，用于当满足第一预定条件时，将所述待匹配模型以及所述待匹配模型对应的语义信息更新到所述第二语音特征库。

下面举例对所述第一预定条件的满足条件进行说明。当所述语音处理设备执行语音训练或语音识别时，如果在所述第一特征库中未找到与待匹配语音模型相匹配的参考语音模型，所述语音处理设备可以向用户提供一个或多个候选参考语音模型对应的语义信息，以供用户选择，当接收到用户的选择时，则可以确定所述待匹配模型对应的语义信息，此时，所述第一预定条件满足，所述更新模块将所述待匹配模型以及所述待匹配模型对应的语义信息存储于个性语音特征库中。当然，所述第一预定条件的满足条件也可以是其他情况。此外，所述语音处理设备中也可以在初始化时仅包括一个基础语音特征库，为了满足特定人的个性需求，在使用过程中，可以利用采集到的用户的语音信号的待匹配模型以及待匹配模型对应的语义信息更新所述基础语音特征库，此时，所述基础语音特征库中既包括针对非特征人的参考语音模型，又包括针对特定人的参考语音模型，该种方式有效能够节省所述语音处理设备的存储空间。

上述实施例中，当语音处理设备仅具有一个语音特征库时，使用该语音特征库与待匹配语音模型进行匹配即可。当语音处理设备具有个性语音特征库和基础语音特征库两个语音特征库时，可以优先使用个性语音特征库与待匹配语音模型进行匹配，当个性语音特征库中不存在与待匹配语音模型匹配的参考语音模型时，再使用基础语音特征库与待匹配语音模型进行匹配。

为了保证语音处理设备的安全性，所述语音处理设备可以仅允许特定人使用，不允许除所述特定人之外的其他人使用，具体的，可以在所述语音识别模块202中设置一语音验证模块，用于判断所述待匹配语音模型与所述第二语音特征库中的参考语音模型是否匹配，如果是，控制所述第一获取模块2023或第二获取模块2024工作，否则，控制所述第一获取模块2023或第二获取模块2024不工作。

上述实施例中，在识别出是特定用户时，还可以根据预先设置的规则，确定识别出的语义信息对应的终端设备标识，例如，可以首先在语音处理设备中设置一规则对照表，如下所示：

当识别出当前发音的用户是用户一，且识别出的词汇信息中包含“我的手机”时，则可以根据上表，确定出“我的手机”是指标识为“1”的终端设备，从而将相应的词汇信息或指令信息发送给标识为“1”的终端设备。

如图5所示为本发明实施例的语音处理设备的应用场景示意图，从图5中可以看出，所述语音处理设备采集到用户的语音信号后，对所述语音信号进行识别，获得识别结果，并将识别结果传输给终端设备，从而终端设备能够根据所述识别结果执行相应的操作。举例来说，所述语音处理设备设置于一车辆中，所述终端设备为一手机，用户在驾驶车俩的过程中，如果想关闭手机，可以发出“关闭手机”的语音信号，所述语音处理设备采集到所述语音信号后，对所述语音信号进行识别，识别出是“关闭手机”的语义信息后，可以“关闭手机”的语义信息解析成一关机指令(即上述识别结果，例如，shutdown)，并传输给所述手机，手机在接收到关机指令后，可以执行关机操作。

上述实施中，所述语音处理设备与一个终端设备连接，将语音信号的识别结果发送给该终端设备，如图6所示，所述语音处理设备也可以与多个终端设备连接，当用户的语音信息同时涉及所述多个终端设备时，所述语音处理设备还可以将识别结果发送给所述多个终端设备，所述语音处理设备发送给每个终端设备的识别结果可以相同，也可以不同。

下面以所述语音处理设备获得的识别结果是词汇信息为例进行说明。

当所述语音处理设备识别出的词汇信息涉及多个终端设备时，所述语音处理设备可以将所述词汇信息同时发送给所述多个终端设备，由终端设备解析成相应的指令信息并执行。所述语音处理设备发送给每个终端设备的词汇信息可以相同，也可以不同。

(1)发送相同的词汇信息的情况如下：所述语音处理设备还可以从识别出的词汇信息中获取所述多个终端设备的标识，以及每个所述终端标识对应的子词汇信息，并分别向终端标识对应的终端设备发送与其对应的子词汇信息。举例来说，获得的词汇信息是“将手机、笔记本电脑关机”，可以从所述词汇信息中获取终端标识：“手机”和“笔记本电脑”，并获取“手机”对应的子词汇信息“关机”，以及“笔记本电脑”对应的子词汇信息“关机”，并分别向手机和笔记本电脑发送词汇信息“关机”。

(2)发送不同的词汇信息的情况如下：例如获得的词汇信息是“将手机中的通信录拷贝到笔记本电脑中”，可以从所述词汇信息中获取终端标识：“手机”和“笔记本电脑”，并获取“手机”对应的子词汇信息“拷贝通讯录并传输给笔记本电脑”，以及“笔记本电脑”对应的子词汇信息“接收手机传输的通讯录”，并分别向手机和笔记本电脑发送相应的子词汇信息。

下面以所述语音处理设备获得的识别结果是指令信息为例进行说明。

当所述语音处理设备识别出的词汇信息涉及多个终端设备时，所述语音处理设备可以将所述词汇信息解析成与所述多个终端设备对应的多个指令信息，并分别向每个终端设备发送与其对应的指令信息。所述语音处理设备发送给每个终端设备的指令信息可以相同，也可以不同。

(1)发送相同的指令信息的情况如下：例如，获得的词汇信息是“将手机、笔记本电脑关机”，可以从所述词汇信息中获取终端标识：“手机”和“笔记本电脑”，并获取“手机”对应的子词汇信息“关机”，以及“笔记本电脑”对应的子词汇信息“关机”，确定“关机”对应的指令信息“shutdown”，并分别向手机和笔记本电脑发送指令信息“shutdown”。

(2)发送不同的指令信息的情况如下：例如，获得的词汇信息是“将手机、笔记本电脑关机”，可以从所述词汇信息中获取终端标识：“手机”和“笔记本电脑”，并确定“手机”对应的指令信息“Power OFF”，“笔记本电脑”对应的指令信息“shutdown”，并分别向手机和笔记本电脑发送与其对应的指令信息。此外，为了方便用户，还可以使用一个语音信息代替所有的终端设备标识，例如，“将全部关机”，其中，可以预先设定“全部”包括手机一、电脑一等终端设备，也可以将“全部”设置为与所述语音处理设备连接的全部终端设备等。

基于上述描述，所述语音处理设备还包括：存储模块，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息；所述语音识别模块包括：特征提取模块，用于提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；匹配模块，用于将所述待匹配语音模型与所述参考语音模型进行匹配，得到匹配结果；获取模块，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息；拆分模块，用于当所述词汇信息涉及多个终端设备时，从所述词汇信息中获取多个终端标识，以及每个所述终端标识对应的子识别结果，所述多个终端标识不同；其中，所述第一传输模块进一步用于分别将所述多个子识别结果作为所述识别结果传输给所述多个终端标识对应的终端设备。

以所述识别结果是指令信息，且所述词汇信息中涉及两个终端标识为例，所述拆分模块进一步用于从所述词汇信息中获取第一终端标识和第二终端标识，以及所述第一终端标识对应的第一指令信息和所述第二终端标识对应的第二指令信息，所述第一终端标识和第二终端标识不同，所述第一指令信息和第二指令信息不同；所述第一传输模块进一步用于将所述第一指令信息作为所述识别结果传输给所述第一终端标识对应的终端设备，将所述第二指令信息作为所述识别结果传输给所述第二终端标识对应的终端设备。

本发明实施例中，所述语音处理设备可以具有一图像信号生成模块，用于根据所述语音处理设备上执行的操作生成图像信号；同时，所述语音处理设备还可以具有一显示模块，以显示所述图像信号。此外，所述语音处理设备也可以不具备显示模块，而是通过所述第一传输模块将所述图像信号传输给所述终端设备，并控制所述终端设备的显示模块显示所述图像信号。也就是说，所述语音处理设备可以将所述终端设备的显示模块作为自身的显示模块来显示图像信号，从而语音处理设备不必单独设置显示模块，节省了成本。

此外，所述语音处理设备还可以不包括声音输出模块，而是将与其连接的终端设备作为声音播放设备，播放所述语音处理设备上存储的音频信息，或者，同时利用与其连接的终端设备作为显示设备和声音播放设备，播放所述语音处理设备上存储的视频资料和音频信息，例如，GPS导航信息等，使得所述语音处理设备的更加实用。

上述实施例中语音处理设备能够在本地实现语音识别，不依赖于网络，能够提高响应速度，克服了运程语音识别需要依靠网络状况以及响应速度慢的问题。然而，在网络状态较佳的情况，或者，本地无法进完成语音识别的情况下，也可以利用远程服务器进行语音识别。

为了能够与远程服务器连接，所述语音处理设备还可以包括：第二传输模块，用于当满足第二预定条件时，通过与远程服务器之间建立的连接，将所述语音信号传输给所述远程服务器，所述远程服务器能够对所述语音信号进行识别，获得识别结果，将所述识别结果传输给所述语音处理设备；接收模块，用于接收所述远程服务器传输的所述识别结果。所述第二预定条件是：本地无法完成语音识别，或者，当前网络状态较佳，或者，根据用户需求等等。

为了使得本地语音特征库能够及时更新，所述语音处理设备可以在满足第三预定条件时，通过所述第二传输模块，将本地的语音特征库与远程服务器中的语音特征库进行同步。所述第三预定条件是网络速度超过预设阈值或者存在免费网络时等。当所述语音处理设备包括基础语音特征库和个性语音特征库时，可以仅更新基础语音特征库。

本发明实施例还提供一种语音处理设备，包括：接口模块，用于与终端设备连接；语音采集模块，用于采集语音信号；处理模块，用于对所述语音信号进行识别，获得识别结果，并通过所述接口模块，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

所述语音处理设备还可以包括一存储模块，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息。所述处理模块可以提取待识别的语音信号的语音特征参数，并根据该语音特征参数生成待匹配语音模型，将待匹配语音模型与语音特征库中的参考语音模型一一进行匹配，直至得到与待匹配语音模型相似度最高的参考语音模型，并将所述相似度最高的参考语音模型对应的语义信息作为所述待匹配语音模型的语义信息。

所述语音处理设备与上述实施例中的语音处理设备实现的功能相同，在此不再对其结构进行一一说明。

所述语音处理设备可以是多种形态，例如，可以是一底座结构，所述终端设备可以插设于所述底座中，此时，所述语音处理设备可以通过有线的方式与所述终端设备连接，该种情况适用于车载的情况。此外，所述语音处理设备也可以是一单独的设备，放置在家庭中，该种情况下，所述语音处理设备可以通过无线的方式与多个终端设备建立连接。

如图7所示，本发明实施例还提供一种语音处理方法，所述语音处理方法包括以下步骤：

步骤701，采集语音信号；

步骤702，对所述语音信号进行识别，获得识别结果；

步骤703，通过与终端设备之间建立的连接，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

所述识别结果可以是所述语音信号对应的词汇信息，也可以是所述词汇信息对应的指令信息。当所述终端设备接收到的识别结果是一指令信息时，可以直接根据该指令信息执行相应的操作，当所述终端设备接收到的识别结果是一词汇信息时，还需要将所述词汇信息解析成相应的指令信息，然后再执行所述指令信息。

下面对上述步骤802中进行语音识别的方法进行举例说明。

当所述识别结果是词汇信息时，所述对所述语音信号进行识别，获得识别结果具体为：提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；将所述待匹配语音模型与语音特征库中的参考语音模型进行匹配，得到匹配结果；所述语音特征库中包含多个所述参考语音模型，每个所述参考语音模型对应一语义信息；根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息，将所述词汇信息作为所述识别结果。

当所述识别结果是指令信息时，所述对所述语音信号进行识别，获得识别结果具体为：提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；将所述待匹配语音模型与语音特征库中的参考语音模型进行匹配，得到匹配结果；所述语音特征库中包含多个所述参考语音模型，每个所述参考语音模型对应一语义信息；根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，根据所述语义信息，获得一词汇信息，并确定所述词汇信息对应的指令信息，将所述指令信息作为所述识别结果。

当所述语音信号对应的词汇信息涉及多个终端设备时，所述对所述语音信号进行识别，获得识别结果具体为：提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；将所述待匹配语音模型与语音特征库中的参考语音模型进行匹配，得到匹配结果；所述语音特征库中包含多个所述参考语音模型，每个所述参考语音模型对应一语义信息；根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息；当所述词汇信息涉及多个终端设备时，从所述词汇信息中获取多个终端标识，以及每个所述终端标识对应的子识别结果，所述多个终端标识不同；所述将所述识别结果传输给所述终端设备具体为：分别将所述多个子识别结果作为所述识别结果传输给所述多个终端标识对应的终端设备。

此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音处理设备，其特征在于，包括：

语音采集模块，用于采集语音信号；

语音识别模块，用于对所述语音信号进行识别，获得识别结果；

第一传输模块，用于通过与终端设备之间建立的连接，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

2.如权利要求1所述的语音处理设备，其特征在于，还包括：

存储模块，用于存储语音特征库，所述语音特征库中包含多个参考语音模型，每个所述参考语音模型对应一语义信息；

所述语音识别模块包括：

特征提取模块，用于提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；

匹配模块，用于将所述待匹配语音模型与所述参考语音模型进行匹配，得到匹配结果；

获取模块，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息，将所述词汇信息作为所述识别结果。

3.如权利要求1所述的语音处理设备，其特征在于，还包括：

所述语音识别模块包括：

获取模块，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，根据所述语义信息，获得一词汇信息，并确定所述词汇信息对应的指令信息，将所述指令信息作为所述识别结果。

4.如权利要求2或3所述的语音处理设备，其特征在于，所述语音特征库包括第一语音特征库和第二语音特征库，所述第一语音特征库和所述第二语音特征库不同；所述语音处理设备还包括：

更新模块，用于当满足第一预定条件时，将所述待匹配模型以及所述待匹配模型对应的语义信息更新到所述第二语音特征库。

5.如权利要求4所述的语音处理设备，其特征在于，所述语音识别模块还包括：

语音验证模块，用于判断所述待匹配语音模型与所述第二语音特征库中的参考语音模型是否匹配，如果是，控制所述获取模块工作，否则，控制所述获取模块不工作。

6.如权利要求1所述的语音处理设备，其特征在于，还包括：

所述语音识别模块包括：

获取模块，用于根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息；

拆分模块，用于当所述词汇信息涉及多个终端设备时，从所述词汇信息中获取多个终端标识，以及每个所述终端标识对应的子识别结果，所述多个终端标识不同；

其中，所述第一传输模块进一步用于分别将所述多个子识别结果作为所述识别结果传输给所述多个终端标识对应的终端设备。

7.如权利要求6所述的语音处理设备，其特征在于：

所述拆分模块进一步用于从所述词汇信息中获取第一终端标识和第二终端标识，以及所述第一终端标识对应的第一指令信息和所述第二终端标识对应的第二指令信息，所述第一终端标识和第二终端标识不同，所述第一指令信息和第二指令信息不同；

所述第一传输模块进一步用于将所述第一指令信息作为所述识别结果传输给所述第一终端标识对应的终端设备，将所述第二指令信息作为所述识别结果传输给所述第二终端标识对应的终端设备。

8.如权利要求1所述的语音处理设备，其特征在于，还包括：

图像信号生成模块，用于根据所述语音处理设备上执行的操作生成图像信号；

其中，第一传输模块进一步用于将所述图像信号传输给所述终端设备，并控制所述终端设备的显示模块显示所述图像信号。

9.如权利要求1所述的语音处理设备，其特征在于，还包括：

第二传输模块，用于当满足第二预定条件时，通过与远程服务器之间建立的连接，将所述语音信号传输给所述远程服务器，所述远程服务器能够对所述语音信号进行识别，获得识别结果，将所述识别结果传输给所述语音处理设备；

接收模块，用于接收所述远程服务器传输的所述识别结果。

10.一种语音处理设备，其特征在于，包括：

接口模块，用于与终端设备连接；

语音采集模块，用于采集语音信号；

处理模块，用于对所述语音信号进行识别，获得识别结果，并通过所述接口模块，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

11.一种语音处理方法，其特征在于，包括以下步骤：

采集语音信号；

对所述语音信号进行识别，获得识别结果；

通过与终端设备之间建立的连接，将所述识别结果传输给所述终端设备，所述终端设备能够根据所述识别结果执行相应的操作。

12.如权利要求11所述的语音处理方法，其特征在于，所述对所述语音信号进行识别，获得识别结果具体为：

提取所述语音信号中的语音特征参数值，根据所述语音特征参数值生成待匹配语音模型；

将所述待匹配语音模型与语音特征库中的参考语音模型进行匹配，得到匹配结果；所述语音特征库中包含多个所述参考语音模型，每个所述参考语音模型对应一语义信息；

根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息，将所述词汇信息作为所述识别结果。

13.如权利要求11所述的语音处理方法，其特征在于，所述对所述语音信号进行识别，获得识别结果具体为：

根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，根据所述语义信息，获得一词汇信息，并确定所述词汇信息对应的指令信息，将所述指令信息作为所述识别结果。

14.如权利要求11所述的语音处理方法，其特征在于：

所述对所述语音信号进行识别，获得识别结果具体为：

根据所述匹配结果，确定所述待匹配语音模型对应的语义信息，并根据所述语义信息，获得一词汇信息；

当所述词汇信息涉及多个终端设备时，从所述词汇信息中获取多个终端标识，以及每个所述终端标识对应的子识别结果，所述多个终端标识不同；

所述将所述识别结果传输给所述终端设备具体为：

分别将所述多个子识别结果作为所述识别结果传输给所述多个终端标识对应的终端设备。