CN105869636A

CN105869636A - 一种语音识别装置及其方法、一种智能电视及其控制方法

Info

Publication number: CN105869636A
Application number: CN201610188581.5A
Authority: CN
Inventors: 刘玉龙
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Shanghai Feixun Data Communication Technology Co Ltd
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2016-08-17

Abstract

本发明提供了一种语音识别装置及其方法、一种智能电视及其控制方法，其中，语音识别装置中包括：语音获取模块，与第一控制模块连接，在第一控制模块的控制下获取外部输入的语音信息；特征提取模块，分别与第一控制模块和语音获取模块连接，特征提取模块在第一控制模块的控制下提取语音信息中的特征参数；语音识别模块，分别与第一控制模块和特征提取模块连接，语音识别模块基于特征提取模块提取的特征参数对语音信息进行识别；第一控制模块，分别与语音获取模块、特征提取模块以及语音识别模块连接，第一控制模块控制语音识别装置工作，同时获取语音识别模块的识别结果并将其输出到语音识别装置适用的装置中，为用户提供方便，提高用户体验。

Description

一种语音识别装置及其方法、一种智能电视及其控制方法

技术领域

本发明涉及通信技术领域，尤其涉及一种语音识别装置及其方法，还涉及一种智能电视及其控制方法。

背景技术

智能电视开创了电视产业的新时代，其与IT(Internet，互联网)技术结合，使电视机平台承载的业务迅速增加，远远超出了传统电视的范畴。视频作为电视平台的核心业务，其内容来源、视频格式日益丰富；同时，基于Android平台的游戏、音乐、资讯、教育等其它富媒体应用开始在电视平台集成，并出现了海量化趋势。

然而，随着电视应用和视频资源的迅速增加，内容的丰富，传统的电视交互方式已经不能满足需求。当用户要寻找一个应用，或者搜索某一部电影时，通常通过手动的方式打开等，这种传统的电视输入方式非常麻烦，效率非常低，极大的影响了智能电视的操控体验。现阶段，我们迫切需要一种全新的智能电视语音识别方式，简化用户操作，实现内容、服务的人性化呈现，增强智能电视的用户体验。

发明内容

针对上述问题，本发明提供了一种语音识别装置及其方法、一种智能电视及其控制方法，为用户提供方便，提高用户体验。

本发明提供的技术方案如下：

一种语音识别装置，包括：第一控制模块、语音获取模块、特征提取模块以及语音识别模块，其中，

所述语音获取模块，与所述第一控制模块连接，在所述第一控制模块的控制下获取外部输入的语音信息；

所述特征提取模块，分别与所述第一控制模块和所述语音获取模块连接，所述特征提取模块在所述第一控制模块的控制下提取所述语音信息中的特征参数；

语音识别模块，分别与所述第一控制模块和所述特征提取模块连接，所述语音识别模块基于所述特征提取模块提取的特征参数对所述语音信息进行识别；

所述第一控制模块，分别与所述语音获取模块、特征提取模块以及语音识别模块连接，所述第一控制模块控制所述语音识别装置工作，同时获取所述语音识别模块的识别结果并将其输出到所述语音识别装置适用的装置中。

进一步优选地，所述语音识别装置中还包括与所述第一控制模块连接的监听模块，用于监听是否有针对所述语音识别装置适用的装置的语音输入事件；

或，

所述语音识别装置中还包括与所述第一控制模块连接的语音获取指挥模块，用于指示所述语音获取模块开始获取外部语音信息。

进一步优选地，所述语音识别装置中还包括滤波模块，分别与所述语音获取模块和特征提取模块连接，所述滤波模块用于对所述语音获取模块中获取的语音信号进行滤波，并将滤波后的语音信号发送至特征提取模块；

和/或，

所述语音识别装置中还包括信号放大模块，分别与所述语音获取模块和特征提取模块连接，所述信号放大模块用于对所述语音获取模块中获取的语音信号进行放大，并将放大后的语音信号发送至特征提取模块。

和/或，

所述语音识别装置还包括采样模块，分别与所述语音获取模块和特征提取模块连接，所述采样模块用于从所述语音获取模块中获取的语音信号中检测并采样出与人体语音相符的语音区间。

进一步优选地，所述语音识别装置还包括模数转化模块，分别与所述特征提取模块和语音识别模块连接，所述模数转化模块将所述语音信号转化成数字量。

本发明还提供了一种智能电视，包括上述语音识别装置，还包括与所述语音识别装置中的第一控制模块连接的导航模块，基于第一控制模块输出的识别结果进行检索、或将识别结果显示在智能电视的显示屏上、或执行识别结果对应的功能。

进一步优选地，所述智能电视中还包括：第二控制模块、信息获取模块、判断模块以及互动模块，其中，

所述信息获取模块，与所述第二控制模块连接，所述信息获取模块在所述第二控制模块的控制下获取所述智能电视/外界智能设备当前显示的内容；

所述判断模块，分别与所述信息获取模块和第二控制模块连接，所述判断模块在所述第二控制模块的控制下判断所述智能电视/外界智能设备当前显示的内容是否满足互动条件；

所述互动模块，分别与所述信息获取模块和所述第二控制模块连接，所述互动模块在所述第二控制模块的控制下基于所述判断模块的判断结果实现所述智能电视与外界智能设备的显示屏之间的互动。

本发明还提供了一种语音识别方法，包括：

获取外部输入的语音信息；

提取所述语音信息中的特征参数；

基于提取的特征参数对所述语音信息进行识别；

将语音信息的识别结果输出到所述语音识别装置适用的装置中。

进一步优选地，所述语音识别方法还包括：

监听是否有针对所述语音识别装置适用的装置的语音输入事件；

或，

监听是否有开始获取外部语音信息的指示。

进一步优选地，所述语音识别方法还包括：

对获取的语音信号进行滤波；

和/或，

对获取的语音信号进行放大；

和/或，

从获取的语音信号中检测并采样出与人体语音相符的语音区间；

和/或，

将获取的语音信号转化成数字量。

本发明还提供了一种智能电视控制方法，包括上述语音识别方法，还包括：

基于语音识别方法的识别结果进行检索、或将识别结果显示在智能电视的显示屏上、或执行识别结果对应的功能。

进一步优选地，所述智能电视控制方法还包括：

获取所述智能电视/外界智能设备当前显示的内容；

判断所述智能电视/外界智能设备当前显示的内容是否满足互动条件；

基于所述判断模块的判断结果实现所述智能电视与外界智能设备的显示屏之间的互动。

本发明提供的语音识别装置及其方法、智能电视及其控制方法，能够带来以下有益效果：

在本发明中提供的语音识别装置方便用户通过语音实现对应用该语音识别装置的设备的控制，便于人机交互，灵活方便，同时使内置该语音识别装置的设备更加人性化和智能化。

本发明提供的智能电视中包括上述的语音识别装置，当用户要寻找在该智能电视中查找一个应用、或者搜索某一部电影时，不再需要通过手动等方式人工打开，只需输入相应的语音信息即可，节约用户的时间，大大提升了用户体验。再有，本发明提供的智能电视中还能够实现与外界智能设备的显示屏之间的互动，建立一套先进的人机交互方式，实现智能化、人性化的人机交互体验，充分发挥智能电视的平台价值，提供更加丰富的智能电视应用和服务，营造沉浸式的用户体验，充分提升智能电视的品牌价值。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中语音识别装置第一种实施方式结构示意图；

图2为本发明中语音识别装置第二种实施方式结构示意图；

图3为本发明中语音识别装置第三种实施方式结构示意图；

图4为本发明中语音识别装置第四种实施方式结构示意图；

图5为本发明中语音识别方法第一种实施方式流程示意图；

图6为本发明中语音识别方法第二种实施方式流程示意图；

图7为本发明中智能电视一种实施方式结构示意图；

图8为本发明中智能电视控制方法流程示意图。

附图标记：

100-语音识别装置，110-第一控制模块，120-语音获取模块，130-特征提取模块，140-语音识别模块，150-监听模块，160-采样模块，170-信号放大模块，180-滤波模块，190-模数转化模块，200-智能电视，210-导航模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1所示为本发明提供的语音识别装置100第一种实施方式结构示意图，从图中可以看出，在该语音识别装置100中包括：第一控制模块110、语音获取模块120、特征提取模块130以及语音识别模块140，其中，语音获取模块120与第一控制模块110连接，特征提取模块130分别与第一控制模块110和语音获取模块120连接，语音识别模块140分别与第一控制模块110和特征提取模块130连接，第一控制模块110分别与语音获取模块120、特征提取模块130以及语音识别模块140连接。在工作过程中，首先，语音获取模块120在第一控制模块110的控制下获取外部输入的语音信息；随后，特征提取模块130在第一控制模块110的控制下提取语音信息中的特征参数(包括声学特征参数)；接着，语音识别模块140基于特征提取模块130提取的特征参数，使用内部存储的预设识别信息(包括用于与语音信息中的特征参数对照的可能被提取的词汇)对该语音信息进行识别；最后，第一控制模块110获取语音识别模块140的识别结果并将其输出到语音识别装置100适用的装置中，具体，若语音识别模块140对语音信号识别成功，则第一控制模块110控制该语音识别装置100适用的装置进行相应的操作(包括进行检索、执行识别结果对应的功能等)。在具体实施例中，这里的语音获取模块120可以为麦克风等语音输入设备收集的语音信号，且持续对外部输入的语音信号进行获取。

对上述第一种实施方式进行改进得到第二种实施方式，如图2所示，在该实施方式中，语音识别装置100中还包括与第一控制模块110连接的监听模块150，用于监听是否有针对语音识别装置100适用的装置的语音输入事件。具体来说，在本实施方式中，监听模块150的设置保证了该语音识别装置100持续监听外部是否有语音信号输入，这样，无需用户触发任何按键，只要用户说出相应的语音信号即可实现目的。当然，为了确保输入的是针对该语音识别装置100适用装置的信号，可以设置针对该装置的语音启动，只有该语音识别装置100接收到该语音启动命令，监听模块150才来确认有针对该装置的语音输入事件，否则不做任何处理。如，在一个具体实施例中，将“开启语音识别”设置为语音启动命令，此时只有语音识别装置100接收到该条命令，才会开启后续的操作。

在本实施方式中，语音识别装置100中还包括与第一控制模块110连接的语音获取指挥模块，用于指示语音获取模块120开始获取外部语音信息。在本实施方式中，这里的语音获取指挥模块可以为一按键、操作手柄、屏幕中某一图标等形式。如，当用户需要对该语音识别装置100发出语音信号时，按下相应按键，随即发出语音获取指令至语音获取模块120，语音获取模块120只有接收到该语音获取指令之后才开始进入后续操作。

对上述第二种实施方式进行改进得到第三种实施方式，语音识别装置100中还包括滤波模块180，分别与语音获取模块120和特征提取模块130连接，用于对语音获取模块120中获取的语音信号进行滤波，并将滤波后的语音信号发送至特征提取模块130。以此抑制输入的音频信号中的噪声信号和该语音识别装置100中电源工作的干扰。

在该实施方式中，语音识别装置100中还包括信号放大模块170，分别与语音获取模块120和特征提取模块130连接，信号放大模块170用于对语音获取模块120中获取的语音信号进行放大，并将放大后的语音信号发送至特征提取模块130。在一个具体实施例中，该语音识别装置100同时包括信号放大模块170和滤波模块180，则信号放大模块170分别与信号获取模块和滤波模块180连接，滤波模块180与特征提取模块130连接。

在该实施方式中，语音识别装置100还包括采样模块160，分别与语音获取模块120和特征提取模块130连接，采样模块160用于从语音获取模块120中获取的语音信号中检测并采样出与人体语音相符的语音区间。具体来说，这里说的语音区间具体为与用户说话内容相符的语音区间。在一个具体实施例中，如图3所示，该语音识别装置100同时包括采样模块160、信号放大模块170和滤波模块180，则采样模块160信号获取模块和信号放大模块170连接，信号放大模块170分别与采样模块160和滤波模块180连接，滤波模块180与特征提取模块130连接。

对上述第三种实施方式进行改进得到第四种实施方式，语音识别装置100还包括模数转化模块，分别与特征提取模块130和语音识别模块连接，模数转化模块将语音信号转化成数字量。在具体实施例中，该语音识别装置100可以通过如PCM(Pulse Code Modulation，脉冲编码调制)对语音信号进行模数转换。在一个实施例中，如图4所示，该语音识别装置100同时包括采样模块160、信号放大模块170、滤波模块180以及模数转换模块，则采样模块160信号获取模块和信号放大模块170连接，信号放大模块170分别与采样模块160和滤波模块180连接，滤波模块180分别与信号放大模块170和特征提取模块130，特征提取模块130与模数转换模块190。

基于上述语音识别装置100，如图5所示，本发明还提供了一种语音识别方法，包括：S1获取外部输入的语音信息；S2提取语音信息中的特征参数；S3基于提取的特征参数对语音信息进行识别；S4将语音信息的识别结果输出到语音识别装置100适用的装置中。具体，在步骤S3中，使用内部存储的预设识别信息(包括用于与语音信息中的特征参数对照的可能被提取的词汇)对该语音信息进行识别；若语音识别模块140对语音信号识别成功，则进入步骤S4。在具体实施例中，这里的可以通过麦克风等语音输入设备收集的语音信号。

进一步来说，如图6所示，该语音识别方法还包括：S0监听是否有针对语音识别装置100适用的装置的语音输入事件。具体来说，在本实施方式中，这一步骤保证了该语音识别装置100持续监听外部是否有语音信号输入，这样，无需用户触发任何按键，只要用户说出相应的语音信号即可实现目的。当然，为了确保输入的是针对该语音识别装置100适用装置的信号，可以设置针对该装置的语音启动，只有该语音识别装置100接收到该语音启动命令，才确认是否有针对该装置的语音输入事件，否则不做任何处理。如，在一个具体实施例中，将“开启语音识别”设置为语音启动命令，此时只有语音识别装置100接收到该条命令，才会开启后续的操作。

另外，在该实施方式中，语音识别方法中还可以包括：监听是否有开始获取外部语音信息的指示。在该实施方式中，这里的开始获取外部语音信息的指示具体可以为通过一按键、操作手柄、屏幕中某一图标等形式发出的。比如说，当用户需要对该语音识别装置100发出语音信号时，按下相应按键即发出了开始获取外部语音信息的指示。

进一步优选地，该语音识别方法还包括：从获取的语音信号中检测并采样出与人体语音相符的语音区间；对采样出来的语音区间进行放大；对放大后的语音区间进行滤波；将滤波后的语音区间转化成数字量。

另外要说明的是，上述的语音识别装置100和语音识别方法可以广泛应用于各电子领域，包括DTV(Digital Television，数字电视)机顶盒、网络机顶盒、智能电视200机等。实现了人机语音交互，使人与各应用装置之间的沟通通过TCP/IP协议发送到云端(语音识别模块140在云端)使该应用装置“听懂”人类的语音，将语音中包含的文字信息(提取语音信息中包括的特征参数)识别出来。在云计算平台下，借助区分度训练、自适应训练、大规模网络动态解码等技术和大规模语料支持，中文连续语音识别的准确率高。其核心是为语音交互提供语音的基本功能(识别、转写、合成、语义分析)，同时为应用装置和显示桌面提供控制和交互逻辑。

如图7所示为本发明还提供的智能电视200的一种实施方式，从图中可以看出，在该智能电视200中包括上述语音识别装置100，还包括与语音识别装置100中的第一控制模块110连接的导航模块210，基于第一控制模块110输出的识别结果进行检索、或将识别结果显示在智能电视200的显示屏上、或执行识别结果对应的功能。如，执行帮助功能、影视搜索功能、DTV搜索功能、音乐搜索功能、百科搜索功能、上网搜索功能、启动核心应用功能、天气的查询功能、本地控制功能等等。更进一步来说，该智能电视200提供的语音识别功能，包括本机语音控制与网络语音搜索，其中，在联网状态下，启用语音识别功能可进行网络语音搜索与本地语音控制；在断网状态下，语音识别功能受限，只支持本地语音控制功能。在一个具体实施例中，通过语音输入，智能电视200可以直接切换到指定的DTV频道，减少了打开浏览器，输入文本信息的过程，极大提升了效率。直接省略了智能电视200通道切换(如HDMI(HighDefinition Multimedia Interface，高清晰度多媒体接口)切换到DTV)、进入主页、找软件、启动软件，在软件中输入查询信息等一系列的操作步骤，大大提供了用户体验。

对上述实施方式进行改进，在该智能电视200中还包括：第二控制模块、信息获取模块、判断模块以及互动模块，其中，信息获取模块与第二控制模块连接，判断模块分别与信息获取模块和第二控制模块连接，互动模块分别与信息获取模块和第二控制模块连接。在工作过程中，首先，信息获取模块在第二控制模块的控制下获取智能电视200/外界智能设备当前显示的内容；随后，判断模块在第二控制模块的控制下判断智能电视200/外界智能设备当前显示的内容是否满足互动条件；最后，互动模块在第二控制模块的控制下基于判断模块的判断结果实现智能电视200与外界智能设备的显示屏之间的互动。

在一个具体实施例中，信息获取模块获取到智能电视200当前页面显示的是多媒体内容，则判断模块判断显示的该多媒体内容满足互动条件，进而互动模块将该智能电视200中显示的多媒体内容互动到与之连接的外界智能设备中。在一个具体实施例中，信息获取模块获取到智能电视200当前页面显示的是隐私内容，则判断模块判断显示的该隐私内容不满足互动条件，进而互动模块不将该智能电视200中显示的多媒体内容互动到与之连接的外界智能设备中，并提示用户。在一个具体实施例中，信息获取模块获取到智能电视200当前页面显示的是文本内容，则判断模块判断显示的该文本内容满足互动条件，进而互动模块将该智能电视200中显示的文本内容互动到与之连接的外界智能设备中。

如图8所示，本发明还提供了一种智能电视200控制方法，具体来说，在该智能电视200控制方法中包括上述语音识别方法，还包括：基于上述语音识别方法输出的识别结果进行检索、或将识别结果显示在智能电视200的显示屏上、或执行识别结果对应的功能，如，执行帮助功能、影视搜索功能、DTV搜索功能、音乐搜索功能、百科搜索功能、上网搜索功能、启动核心应用功能、天气的查询功能、本地控制功能等等。更进一步来说，该智能电视200提供的语音识别功能，包括本机语音控制与网络语音搜索，其中，在联网状态下，启用语音识别功能可进行网络语音搜索与本地语音控制；在断网状态下，语音识别功能受限，只支持本地语音控制功能。在一个具体实施例中，通过语音输入，智能电视200可以直接切换到指定的DTV频道，减少了打开浏览器，输入文本信息的过程，极大提升了效率。直接省略了智能电视200通道切换(如HDMI(High Definition Multimedia Interface，高清晰度多媒体接口)切换到DTV)、进入主页、找软件、启动软件，在软件中输入查询信息等一系列的操作步骤，大大提供了用户体验。

进一步来说，智能电视200控制方法还包括：获取智能电视200/外界智能设备当前显示的内容；判断智能电视200/外界智能设备当前显示的内容是否满足互动条件；基于判断模块的判断结果实现智能电视200与外界智能设备的显示屏之间的互动。

在一个具体实施例中，获取到与智能电视200连接的外界智能设备当前页面显示的是多媒体内容，则判断模块判断显示的该多媒体内容满足互动条件，进而互动模块将该外界智能设备中显示的多媒体内容互动到智能电视200中。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别装置，其特征在于，所述语音识别装置中包括：第一控制模块、语音获取模块、特征提取模块以及语音识别模块，其中，

2.如权利要求1所述的语音识别装置，其特征在于，

所述语音识别装置中还包括与所述第一控制模块连接的监听模块，用于监听是否有针对所述语音识别装置适用的装置的语音输入事件；

或，

3.如权利要求1或2所述的语音识别装置，其特征在于，

所述语音识别装置中还包括滤波模块，分别与所述语音获取模块和特征提取模块连接，所述滤波模块用于对所述语音获取模块中获取的语音信号进行滤波，并将滤波后的语音信号发送至特征提取模块；

和/或，

4.如权利要求1或2所述的语音识别装置，其特征在于，所述语音识别装置还包括模数转化模块，分别与所述特征提取模块和语音识别模块连接，所述模数转化模块将所述语音信号转化成数字量。

5.一种智能电视，其特征在于，所述智能电视包括如权利要求1-4任意一项所述的语音识别装置，还包括与所述语音识别装置中的第一控制模块连接的导航模块，基于第一控制模块输出的识别结果进行检索、或将识别结果显示在智能电视的显示屏上、或执行识别结果对应的功能。

6.如权利要求5所述的智能电视，其特征在于，所述智能电视中还包括：第二控制模块、信息获取模块、判断模块以及互动模块，其中，

7.一种语音识别方法，其特征在于，所述语音识别方法包括：

获取外部输入的语音信息；

提取所述语音信息中的特征参数；

基于提取的特征参数对所述语音信息进行识别；

8.如权利要求7所述的语音识别方法，其特征在于，所述语音识别方法还包括：

或，

监听是否有开始获取外部语音信息的指示。

9.如权利要求7或8所述的语音识别方法，其特征在于，所述语音识别方法还包括：

对获取的语音信号进行滤波；

和/或，

对获取的语音信号进行放大；

和/或，

将获取的语音信号转化成数字量。

10.一种智能电视控制方法，其特征在于，所述智能电视控制方法包括如权利要求7-9任意一项所述的语音识别方法，还包括：

11.如权利要求10所述的智能电视控制方法，其特征在于，所述智能电视控制方法还包括：

获取所述智能电视/外界智能设备当前显示的内容；