CN109120993B

CN109120993B - 语音识别方法、智能终端、语音识别系统及可读存储介质

Info

Publication number: CN109120993B
Application number: CN201811165874.7A
Authority: CN
Inventors: 黄培光
Original assignee: TCL Technology Electronics Huizhou Co Ltd
Current assignee: Shenzhen Tongli Technology Development Co ltd; Tonly Electronics Holdings Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2021-12-03
Anticipated expiration: 2038-09-30
Also published as: CN109120993A

Abstract

本发明公开了一种语音识别方法、智能终端、语音识别系统及可读存储介质，包括以下步骤：智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息，所述语音信息由所述音频终端采集；在所述反馈信息为视频信息时，获取所述视频信息中的图像信息以及音频信息；播放所述视频信息中的图像信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。因本发明能将APP安装在智能终端上并通过USB连接音频终端，并实现在智能终端上播放图像信息，通过USB的连接方式将音频信息发送至音频终端进行播放，从而省去智能语音产品昂贵的显示屏、摄像头等器件，实现了低成本的智能语音效果。

Description

语音识别方法、智能终端、语音识别系统及可读存储介质

技术领域

本发明涉及智能语音领域，尤其涉及一种语音识别方法、智能终端、语音识别系统以及可读存储介质。

背景技术

在现有的电子设备中，老龄人群在视力障碍或者输入障碍以及人们在忙着别的事情例如跑步、炒菜以及驾车等不方便对电子设备进行操作但是又需要用到电子设备时，就需要用到智能语音技术。

现有的智能语音技术一般装在智能语音产品上，但是现有的智能语音产品装载了多个模块例如昂贵的液晶屏、摄像头、WIFI模块以及蓝牙模块等，导致现有的智能语音产品价格昂贵。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音识别方法、装置以及可读存储介质，旨在解决现有的语音智能识别产品费用昂贵的问题。

为了达到上述目的，本发明提供一种语音识别方法，所述语音识别方法包括以下步骤：

智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息，所述语音信息由所述音频终端采集；

在所述反馈信息为视频信息时，获取所述视频信息中的图像信息以及音频信息；

播放所述视频信息中的图像信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。

优选地，所述获取所述语音信息对应的反馈信息的步骤包括：

将所述语音信息转换为文字信息，并提取所述文字信息中的关键词；

将所述关键词发送至服务器，并接收所述服务器返回的反馈信息。

优选地，所述接收所述服务器返回的反馈信息的步骤包括：

在所述反馈信息为流媒体链接时，根据所述流媒体链接获取对应的流媒体数据信息，所述流媒体数据信息包括视频信息。

优选地，所述根据所述流媒体链接获取对应的流媒体数据信息的步骤之后，还包括：

对所述流媒体数据信息进行解压缩，并将解压缩后的所述流媒体数据信息编码为PCM格式，得到所述反馈信息。

优选地，所述获取所述语音信息对应的反馈信息的步骤还包括：

在所述反馈信息为音频信息时，将所述音频信息发送至所述音频终端，以供所述音频终端播放所述音频信息；

在所述反馈信息为图像信息时，播放所述图像信息。

优选地，所述并将所述视频信息中的音频信息发送至所述音频终端进行音频播放的步骤，包括：

通过USB连接的方式将所述音频信息发送至所述音频终端。

此外，为实现上述目的，本发明还提供一种智能终端，所述智能终端包括处理器、显示屏、存储器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。

此外，为实现上述目的，本发明还提供一种语音识别系统，其特征在于，所述语音识别系统包括智能终端以及音频终端，其中，

所述智能终端，用于在接收到音频端发送的语音采集信息时，获取所述语音采集信息并保存；根据所述语音采集信息获取对应的反馈信息；在所述反馈信息含有视频信息时，播放所述视频信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。

所述音频终端，用于采集语音信息，得到语音采集信息并将所述语音采集信息发送至智能终端；在接收到智能终端发送的音频信息时，播放所述音频信息。

优选地，所述智能终端与所述音频终端之间通过USB进行数据传输。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。

本发明提供的语音识别方法、装置以及可读存储介质，首先，智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息，所述语音信息由所述音频终端采集，然后，在所述反馈信息为视频信息时，获取所述视频信息中的图像信息以及音频信息，最后，播放所述视频信息中的图像信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。因本发明能将APP安装在智能终端上并通过USB连接音频终端，并实现在智能终端上播放图像信息，通过USB的连接方式将音频信息发送至音频终端进行播放，从而省去智能语音产品昂贵的显示屏、摄像头等器件，实现了低成本的智能语音效果。

附图说明

附图说明用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例方案涉及的系统架构示意图；

图2为本发明实施例所涉及的智能终端的硬件结构示意图；

图3为本发明实施例所涉及的音频终端的硬件结构示意图；

图4为本发明语音识别方法第一实施例的流程示意图；

图5为本发明语音识别方法第二实施例的流程示意图；

图6为本发明语音识别方法第三实施例的流程示意图；

图7为本发明语音识别方法第四实施例的流程示意图；

图8为本发明语音识别方法第五实施例的流程示意图；

图9为本发明语音识别方法第六实施例的流程示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息，所述语音信息由所述音频终端采集；在所述反馈信息为视频信息时，获取所述视频信息中的图像信息以及音频信息；播放所述视频信息中的图像信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。

由于现有的智能语音识别产品为带屏智能语音产品，其产品中装上了昂贵的显示屏、摄像头、蓝牙模块及WIFI模块等器件，导致现有的智能语音产品价格昂贵。

本发明提供一种解决方案，首先，通过音频终端采集语音信息并通过 USB数据传递方式将语音信息发送至所述智能终端；然后，智能终端解析语音信息，将语音信息发送至对应的服务器并接收服务器的反馈信息；最后，在反馈信息为视频信息时，智能终端播放视频信息中的图像信息，将视频信息中的音频信息通过USB的数据传递方式发送至音频终端并进行播放。因本发明能将APP安装在智能终端上并通过USB连接音频终端，并实现在智能终端上播放图像信息，通过USB的连接方式将音频信息发送至音频终端进行播放，从而省去智能语音产品昂贵的显示屏、摄像头等器件，实现了低成本的智能语音效果。

如图1所示，本实施例方法涉及的系统架构包括智能终端与音频终端。

智能终端，用于在接收到音频端发送的语音采集信息时，获取所述语音采集信息并保存；根据所述语音采集信息获取对应的反馈信息；在所述反馈信息含有视频信息时，播放所述视频信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放；

音频终端，用于采集语音信息，得到语音采集信息并将所述语音采集信息发送至智能终端；在接收到智能终端发送的音频信息时，播放所述音频信息。

作为一种实现方案，上述智能终端的硬件结构可以如图2所述。

参照图2，该智能终端可以包括：处理器1001，例如CPU，存储器1002，通信总线1003，网络接口1004，用户接口1005。其中，通信总线1003用于实现该装置中各组成部件之间的连接通信。网络接口1004可选的可以为无线接口(如WI-FI接口)。用户接口1005可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1005还可以包括标准的有线接口、无线接口。存储器1002可以是高速RAM存储器，也可以是稳定的存储器 (non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。如图2所示，作为一种存储介质的存储器 1002中可以包括操作系统、网络通信模块以及语音识别程序。

可选地，智能终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在智能终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，智能终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图2中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的智能终端所涉及的硬件中，网络接口1004可以用于将采集到的语音信息中的关键词发送至服务器，并接收所述服务器返回的反馈信息；而处理器1001可以用于调用存储器1002中存储的语音识别程序，并执行以下操作：

进一步地，处理器1001可以用于调用存储器1002中存储的语音识别程序，还执行以下操作：

在所述反馈信息为图像信息时，播放所述图像信息。

通过USB连接的方式将所述音频信息发送至所述音频终端。

作为一种实现方案，上述音频终端的硬件结构可以如图3所述。

参照图3，该音频终端可以包括：处理器1006，例如CPU，存储器1007，通信总线1008。其中，通信总线1008用于实现该服务器中各组成部件之间的连接通信。存储器1007可以是高速RAM存储器，也可以是稳定的存储器 (non-volatile memory)，例如磁盘存储器。存储器1007可选的还可以是独立于前述处理器1005的存储装置。如图3所示，作为一种计算机存储介质的存储器1007中可以包括操作系统以及语音识别程序。

在图3所示的音频终端所涉及的硬件中，处理器1006可以用于调用存储器1007中存储的音频终端的语音识别程序，并执行以下操作：

采集语音信息，得到语音采集信息并将所述语音采集信息发送至智能终端；

在接收到智能终端发送的音频信息时，播放所述音频信息。

本发明根据上述方案，用户说出唤醒词，音频终端检测到唤醒词时开始采集用户的语音信息，然后将语音信息发送至智能终端，其中，音频终端与智能终端通过USB连接的方式进行数据传输。智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息，其中，所述反馈信息可以是语音信息或者是流媒体链接信息。在所述反馈信息为视频信息时，获取所述视频信息中的图像信息以及音频信息，其中，智能终端通过调取第三方软件将所述视频信息中的图像信息与音频信息进行分离。最后智能终端播放所述视频信息中的图像信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。

参照图4，图4为本发明语音识别方法的第一实施例，所述语音识别方法包括：

步骤S10、智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息，所述语音信息由所述音频终端采集；

本发明提供的语音识别方法主要用于智能语音识别领域中通过低成本的音频终端与装在智能终端上的自研发的APP实现语音识别功能。本发明提供的语音识别方法涉及的智能终端包括但不限于手机、平板电脑和电脑等，所述终端上预先加载有相关的应用系统，包括但不限于微信公众号、APP或者网页系统等。

本发明提供的技术方案，用户说出唤醒词，音频终端中的麦克风采集到用户的语音信息时，通过USB的数据传递方式将采集到的语音信息发送至智能终端，其中，所述音频终端中可以含有一个或多个麦克风采集语音信息。智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息。可以理解的是，所述智能终端可以在接收到语音信息时对所述语音信息进行分析，得到对应的唤醒词，并将所述语音信息通过关联的云端接口发送至所述唤醒词对应的服务器，并接收所述服务器返回的反馈信息。进一步地，也可以在音频终端采集到唤醒词时，调用对应的云端接口接收所述音频终端发送的语音信息并发送至关联的服务器，并接收所述服务器返回的反馈信息。

需要强调的是，所述智能终端中可以含有语音采集模块，但语音采集由所述音频终端进行采集。

步骤S20、在所述反馈信息为视频信息时，获取所述视频信息中的图像信息以及音频信息；

本实施例提供的技术方案中，智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息。其中，所述反馈信息可以是流媒体链接信息或者语音信息。其中，服务器根据语音信息获取与所述语音信息对应的数据信息，当所述语音信息请求获取答案信息时，服务器根据所述语音信息进行搜索并将搜索得到的信息整合为语音信息。当所述语音信息请求获取视频信息时，服务器根据所述语音信息搜索对应的视频信息，获取所述视频信息的链接地址，智能终端通过所述链接地址即可获取所述视频信息。

进一步地，在获取到视频信息时，调用第三方视频信息编辑软件将所述视频信息中的图像信息以及音频信息进行分离，得到图像信息以及音频信息。

步骤S30、播放所述视频信息中的图像信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。

本实施例提供的技术方案中，智能终端在分离出视频信息中的图像信息以及音频信息后，在本端进行图像信息播放，并将音频信息发送至所述音频终端进行音频播放。需要说明的是，所述图像信息与所述音频信息在不同终端播放，但所述图像信息与所述音频信息同步播放。

本发明根据上述方案，用户说出唤醒词，音频终端检测到唤醒词时开始采集用户的语音信息，然后将语音信息发送至智能终端，其中，音频终端与智能终端通过USB连接的方式进行数据传输。智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息，其中，所述反馈信息可以是语音信息或者是流媒体链接信息。在所述反馈信息为视频信息时，获取所述视频信息中的图像信息以及音频信息，其中，智能终端通过调取第三方软件将所述视频信息中的图像信息与音频信息进行分离。最后智能终端播放所述视频信息中的图像信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放。因本发明能将APP安装在智能终端上并通过USB 连接音频终端，并实现在智能终端上播放图像信息，通过USB的连接方式将音频信息发送至音频终端进行播放，从而省去智能语音产品昂贵的显示屏、摄像头等器件，实现了低成本的智能语音效果。

进一步的，参照图5，图5为本发明语音识别方法的第二实施例，基于上述实施例，所述步骤S10，还包括：

步骤S11、将所述语音信息转换为文字信息，并提取所述文字信息中的关键词；

步骤S12、将所述关键词发送至服务器，并接收所述服务器返回的反馈信息。

本实施例提供的技术方案中，智能终端在接收到音频终端发送的语音信息时，调用第三方软件接口将语音信息转换为文字信息，其中，所述文字信息含有唤醒词以及语音的内容信息。然后提取所述文字信息中的关键词以及唤醒词，根据唤醒词调用对应的SDK，例如，唤醒词为“小艾同学”时，则调取小米云端的SDK，再将文字信息中的关键词或内容信息发送至对应的服务器，例如，在调取了小米公司的SDK时，则将所述关键词或内容信息发送至小米公司的云端服务器进行数据获取，最后接收服务器返回的反馈信息。其中，所述反馈信息可以为流媒体链接信息或者是语音信息。

智能终端能根据对应的语音唤醒词调用对应的云端服务器执行语音请求，从而提高了用户体验。

进一步的，参照图6，图6为本发明语音识别方法的第三实施例，在上述图5所示的实施例基础上，所述步骤S12之后，还包括：

步骤S13、在所述反馈信息为流媒体链接时，根据所述流媒体链接获取对应的流媒体数据信息，所述流媒体数据信息包括视频信息。

本实施例提供的技术方案中，智能终端将文字信息中的关键词发送至服务器，并接收所述服务器返回的反馈信息。在所述反馈信息为流媒体链接时，根据所述流媒体链接获取流媒体数据信息在服务器中的地址，然后下载所述流媒体数据信息的多个数据包。

进一步的，参照图7，图7为本发明语音识别方法的第四实施例，在上述图6所示的实施例基础上，所述步骤S13之后，还包括：

步骤S14、对所述流媒体数据信息进行解压缩，并将解压缩后的所述流媒体数据信息编码为PCM格式，得到所述反馈信息。

本实施例提供的技术方案中，智能终端根据所述流媒体链接获取流媒体数据信息在服务器中的地址，然后下载所述流媒体数据信息的多个数据包。再对多个所述流媒体数据信息的数据包进行解压缩，再将多个所述解压缩后的数据包还原成视频信息，再通过第三方视频编辑软件将所述视频信息分离出图像信息以及音频信息，再将所述音频信息转码为PCM格式的脉冲信号，得到所述反馈信息。通过USB的数据传输方式将所述转码为脉冲信号的音频信息发送至音频终端进行音频播放。

智能终端将所述视频信息中的音频信息转码为PCM格式的脉冲信号，从而方便音频信息通过USB进行数据传输。

进一步的，参照图8，图8为本发明语音识别方法的第五实施例，在上述图2所示的实施例基础上，所述步骤S30之后，还包括：

步骤S40、在所述反馈信息为音频信息时，将所述音频信息发送至所述音频终端，以供所述音频终端播放所述音频信息；

步骤S50、在所述反馈信息为图像信息时，播放所述图像信息。

本实施例提供的技术方案中，智能终端在接收到音频终端发送的语音信息时，获取所述语音信息对应的反馈信息。其中，所述反馈信息除了可以是视频信息，还可以是图像信息以及音频信息。在所述反馈信息为音频信息时，将所述音频信息转换为PCM格式的脉冲信号，并将所述脉冲信号发送至所述音频终端，以供所述音频终端播放所述音频信息。在所述反馈信息为图像信息时，智能终端播放所述图像信息。

智能终端根据反馈信息的不同类型选择对应的终端进行播放，从而实现了低成本的智能语音效果。

进一步的，参照图9，图9为本发明语音识别方法的第六实施例，在上述图4所示的实施例基础上，所述步骤S30，还包括：

步骤S31、通过USB连接的方式将所述音频信息发送至所述音频终端。

本实施例提供的技术方案中，智能终端与音频终端之间通过USB连接在一起。在反馈信息为音频信息或者视频信息时，智能终端将音频信息或者视频信息中的音频信息通过USB数据传输方式将所述音频信息发送至所述音频终端进行播放。

智能终端与音频终端之间通过USB连接在一起，从而省去了昂贵的蓝牙模块，在低成本的情况下实现了智能语音识别效果。

为实现上述目的，本发明还提供一种智能终端，所述智能终端包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。

为实现上述目的，本发明还提供一种语音识别系统，其特征在于，所述语音识别系统包括智能终端以及音频终端，其中：

所述智能终端，用于在接收到音频端发送的语音采集信息时，获取所述语音采集信息并保存；根据所述语音采集信息获取对应的反馈信息；在所述反馈信息含有视频信息时，播放所述视频信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放；

进一步地，所述智能终端与所述音频终端之间通过USB进行数据传输。

为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是电视机，手机，，装置，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括以下步骤：

在所述反馈信息为视频信息时，将所述视频信息中的图像信息以及音频信息进行分离，获取所述视频信息中的图像信息以及音频信息；

2.如权利要求1所述的语音识别方法，其特征在于，所述获取所述语音信息对应的反馈信息的步骤包括：

3.如权利要求2所述的语音识别方法，其特征在于，所述接收所述服务器返回的反馈信息的步骤包括：

4.如权利要求3所述的语音识别方法，其特征在于，所述根据所述流媒体链接获取对应的流媒体数据信息的步骤之后，还包括：

5.如权利要求1所述的语音识别方法，其特征在于，所述获取所述语音信息对应的反馈信息的步骤还包括：

在所述反馈信息为图像信息时，播放所述图像信息。

6.如权利要求1所述的语音识别方法，其特征在于，所述并将所述视频信息中的音频信息发送至所述音频终端进行音频播放的步骤，包括：

通过USB连接的方式将所述音频信息发送至所述音频终端。

7.一种智能终端，其特征在于，所述智能终端包括处理器、显示屏、存储器以及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音识别方法的步骤。

8.一种语音识别系统，其特征在于，所述语音识别系统包括智能终端以及音频终端，其中：

所述智能终端，用于在接收到音频端发送的语音采集信息时，获取所述语音采集信息并保存；根据所述语音采集信息获取对应的反馈信息；在所述反馈信息含有视频信息时，将所述视频信息中的图像信息以及音频信息进行分离，播放所述视频信息，并将所述视频信息中的音频信息发送至所述音频终端进行音频播放；

9.如权利要求8所述的语音识别系统，其特征在于，所述智能终端与所述音频终端之间通过USB进行数据传输。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如权利要求1至6中任一项所述的语音识别方法的步骤。