CN108806688A

CN108806688A - 智能电视的语音控制方法、智能电视、系统及存储介质

Info

Publication number: CN108806688A
Application number: CN201810789766.0A
Authority: CN
Inventors: 万旭
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd; Shenzhen TCL Digital Technology Co Ltd
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2018-11-13

Abstract

本发明公开了一种智能电视的语音控制方法，包括：基于预设方式接收或采集第一语音数据，并对所述第一语音数据进行语音识别；当所述第一语音数据识别出语义时，根据识别出的语义查找相应的操作指令并执行；当所述第一语音数据识别不出语义时，将所述第一语音数据转发至绑定代理账号的语音识别代理终端，以供用户基于所述语音识别代理终端进行人工翻译；接收所述语音识别代理终端返回的经过人工翻译后所得到的第二语音数据，并对所述第二语音数据进行语音识别以执行相应的操作指令。本发明还公开了一种智能电视、系统及存储介质。本发明通过人工翻译为特殊人群提供语音翻译，进而使电视能够识别出语义，响应特殊人群的语音控制。

Description

智能电视的语音控制方法、智能电视、系统及存储介质

技术领域

本发明涉及智能电视技术领域，尤其涉及一种智能电视的语音控制方法、智能电视、系统及存储介质。

背景技术

随着数字电视技术的不断发展以及人们生活水平的不断提高，智能电视的功能越来越强大，人们不仅可以通过智能电视收看有线节目，还可以通过智能电视安装的浏览器上网观看网络视频、浏览新闻、购物、网络搜索等。

目前，现有的部分智能电视还具有语音识别功能，通过语音即可控制电视，操作更方便智能。然而在实际应用中，对于各地方言、口齿不清、说话含糊的语音主体无法有效识别。因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种智能电视的语音控制方法、智能电视、电视语音处理系统及可读存储介质，旨在解决如何为有特殊需求的用户提供语音识别技术支持的技术问题。

为实现上述目的，本发明提供的一种智能电视的语音控制方法，所述智能电视的语音控制方法包括以下步骤：

基于预设方式接收或采集第一语音数据，并对所述第一语音数据进行语音识别；

当所述第一语音数据识别出语义时，根据识别出的语义查找相应的操作指令并执行；

当所述第一语音数据识别不出语义时，将所述第一语音数据转发至绑定代理账号的语音识别代理终端，以供用户基于所述语音识别代理终端进行人工翻译；

接收所述语音识别代理终端返回的经过人工翻译后所得到的第二语音数据，并对所述第二语音数据进行语音识别以执行相应的操作指令。

优选地，所述对所述第一语音数据进行语音识别包括：

对所述第一语音数据进行语音信号处理，得到字符串格式的文字信息；

对所述文字信息进行分词和去除无关字符处理，得到词条；

将处理得到的词条的语义作为识别结果。

优选地，所述当所述第一语音数据识别出语义时，根据识别出的语义查找相应的操作指令并执行包括：

当所述第一语音数据识别出语义时，以识别出的语义作为查找关键字，查找指令数据库中是否存在与语义相匹配的操作指令；

若存在与语义相匹配的操作指令，则执行所述操作指令；

若不存在与语义相匹配的操作指令，则提示用户无相关操作；

其中，所述操作指令至少包括切换电视频道、播放视频或音乐、视频或语音呼叫、调高或调低音量、打开浏览器、搜索网络、关机中的任一项。

优选地，在所述接收所述语音识别代理终端返回的经过人工翻译后所得到的第二语音数据，并对所述第二语音数据进行语音识别以执行相应的操作指令的操作之后，所述智能电视的语音控制方法还包括：

当返回的所述第二语音数据识别出语义时，将识别出的语义与所述第二语音数据对应的所述第一语音数据进行关联并存储在本地语音数据库中。

优选地，所述智能电视的语音控制方法还包括：

当所述第一语音数据识别不出语义时，查找本地语音数据库中是否存在与所述第一语音数据相关联的语义；

若本地语音数据库中存在与所述第一语音数据相关联的语义，则将该语义作为所述第一语音数据的识别结果；

若本地语音数据库中不存在与所述第一语音数据相关联的语义，则执行所述将所述第一语音数据转发至绑定代理账号的语音识别代理终端的操作。

此外，为实现上述目的，本发明还提供一种智能电视，所述智能电视包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序，所述语音控制程序被所述处理器执行时实现如上述中任一项所述的智能电视的语音控制方法的步骤。

此外，为实现上述目的，本发明还提供一种电视语音处理系统，所述电视语音处理系统包括如上所述的智能电视，还包括语音识别代理终端；

所述语音识别代理终端用于，接收所述智能电视转发的第一语音数据，加载所述第一语音数据并进行播放，以供用户对所述第一语音数据进行人工翻译，得到第二语音数据；将所述第二语音数据返回给所述智能电视，以供所述智能电视执行相关操作。

优选地，所述电视语音处理系统还包括语音采集装置；所述语音采集装置安装在所述智能电视上和/或与所述智能电视建立通信连接；

所述语音采集装置用于，采集语音数据和/或将采集的语音数据发送至所述智能电视。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音控制程序，所述语音控制程序被处理器执行时实现如上述中任一项所述的智能电视的语音控制方法的步骤。

本发明首先基于预设方式接收或采集第一语音数据，并对第一语音数据进行语音识别；当第一语音数据识别出语义时，根据识别出的语义查找相应的操作指令并执行；当第一语音数据识别不出语义时，将第一语音数据转发至绑定代理账号的语音识别代理终端，以供用户基于语音识别代理终端进行人工翻译；接收语音识别代理终端返回的经过人工翻译后所得到的第二语音数据，并对第二语音数据进行语音识别以执行相应的操作指令。本发明通过引入人工翻译对这类说话含糊、口齿不清或只会说方言的特殊人群提供语音翻译，进而使电视能够识别出语义，响应特殊人群的语音控制。

附图说明

图1为本发明实施例方案涉及的智能电视运行环境的结构示意图；

图2为本发明智能电视的语音控制方法一实施例的流程示意图；

图3为图2步骤S10一实施例的细化流程示意图；

图4为图2步骤S20一实施例的细化流程示意图；

图5为本发明电视语音处理系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的智能电视运行环境的结构示意图。

本发明实施例智能电视是具有接收终端输出的数据、访问网络、音视频输入输出等功能的设备。

如图1所示，该智能电视可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，数据传输接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，数据传输接口1004可选的可以包括RF接口、AV接口、HDMI接口、DP接口、标准的有线或无线网络接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，智能电视还可以包括调谐解调器、回传通道、RF(Radio Frequency，射频)电路，传感器、音频电路、红外遥控器接口等等。

本领域技术人员可以理解，图1中示出的智能电视的硬件结构并不构成对智能电视的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中，操作系统是管理和控制智能电视和软件资源的程序，支持语音控制程序以及其它软件和/或程序的运行。

在图1所示的智能电视的硬件结构中，数据传输接口1004主要用于数据的输出与输入；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的语音控制程序，并执行以下操作：

进一步地，所述智能电视通过处理器1001调用存储器1005中存储的语音控制程序，以执行下述操作：

对所述文字信息进行分词和去除无关字符处理，得到词条；

将处理得到的词条的语义作为识别结果。

若存在与语义相匹配的操作指令，则执行所述操作指令；

基于上述智能电视硬件结构，提出本发明智能电视的语音控制方法的各个实施例。

参照图2，图2为本发明智能电视的语音控制方法一实施例的流程示意图。

本实施例中，智能电视的语音控制方法包括：

步骤S10，基于预设方式接收或采集第一语音数据，并对第一语音数据进行语音识别；

本实施例中，预设方式接收或采集语音数据，比如智能电视能够自身采集用户发出的声音，并直接记录得到语音数据；或是通过语音遥控器、手机等与智能电视建立通信连接的终端设备采集用户发出的声音，记录得到语音数据，再将语音数据转发给智能电视接收。采集语音数据与现有技术一致，将用户发出的声音转换成语音信号，对语音信号进行编解码，滤波转换等，具体根据实际情况进行设置。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。现有的语音识别技术的语音主体是标准的汉语、英语、日语等世界主流语言，并以主流语言建立语音数据库，采用人工神经网络、隐式马尔科夫模型、以及诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。具体地，在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出，进而实现机器与人的语音交互。

步骤S20，当第一语音数据识别出语义时，根据识别出的语义查找相应的操作指令并执行；

本实施例中，数据的含义就是语义(semantic)。简单的说，数据就是符号。数据本身没有任何意义，只有被赋予含义的数据才能够被使用，这时候数据就转化为了信息，而数据的含义就是语义。操作指令是预先编辑好的计算机指令，是指挥机器工作的指示和命令，而执行操作指令的过程就是计算机的工作过程。当语音数据识别出语义时，也就是机器识别和理解了用户发出的语音数据，进而可根据理解的意思执行相应操作，如关机、调节音量、播放视频等。

步骤S30，当第一语音数据识别不出语义时，将第一语音数据转发至绑定代理账号的语音识别代理终端，以供用户基于语音识别代理终端进行人工翻译；

步骤S40，接收语音识别代理终端返回的经过人工翻译后所得到的第二语音数据，并对第二语音数据进行语音识别以执行相应的操作指令。

本实施例中，由于实际应用中，使用智能电视的用户不仅是有学历文化的中青年人，还可能是牙牙学语的幼童、不懂普通话只会讲地方方言的老人、说话含糊不清的偏瘫患者等，而现有的语音识别技术一般以世界主流语言为主体，因而对于这类说话含糊、口齿不清或只会说地方方言的特殊人群，无法有效识别。进一步地，千人千面，用户个体存在差异性较大，为每个用户建立一套语音数据库训练模型，进而帮助机器理解的方式所花费的成本太大。因而为更好地服务和照顾这类特殊人群，提供语音识别技术支持，是通过将识别不出语义的语音数据转发至绑定代理账号的语音识别代理终端，以供用户基于语音识别代理终端进行人工翻译。人工翻译主要指通过人工的方式将一种语言转化成另一种语言的行为，与机器翻译存在实质性区别，能够更好地结合应用场景理解特殊人群的话语。需要理解的是，智能电视和终端使用的数据均是语音为载体的数据，即语音数据，为方便理解本方案，将智能电视接收或采集的语音数据定义为第一语音数据；将人工翻译得到的语音数据定义为第二语音数据。

进一步地，由于特殊人群的特殊性，以及使用智能电视存在不同地域，因而优选为其进行人工翻译的人为使用本智能电视的家庭成员或名义代理人。家庭成员或名义代理人能够清楚理解特殊人群的话语，同时兼顾本智能电视的功能，即可更好的进行语音翻译，也就是将特殊人群说的话翻译成世界主流语言，如标准普通话等。人工在线翻译完后，将翻译的语音翻译返回至智能电视，进而智能电视对返回的语音翻译进行语音识别的操作。由于人工翻译成机器能够识别和理解的语音，也就是能够识别出语义，进而可查找相应的操作指令并执行，从而满足特殊人群的语音控制。需要补充说明的是，智能电视首先绑定有代理账号，通过代理账号将语音数据转发至相应的语音识别代理终端。语音识别代理终端可以是手机、平板等移动终端，具体不做任何限定。

本实施例中，第二语音数据是第一语音数据的人工翻译，比如第一语音数据是以粤语记录的，而人工翻译后的第二语音数据是标准普通话，两者意思相同，只是使用的语言不同。对返回的第二语音数据进行语音识别，当识别出语义时，以第二语音数据识别出的语义作为第一语音数据的语义，进而根据语义查找相应的操作指令并执行。

参照图3，图3为图2步骤S10一实施例的细化流程示意图。

基于上述实施例，本实施例中，步骤S10中，对第一语音数据进行语音识别，包括：

步骤S101，对第一语音数据进行语音信号处理，得到字符串格式的文字信息；

步骤S102，对文字信息进行分词和去除无关字符处理，得到词条；

步骤S103，将处理得到的词条的语义作为识别结果。

本实施例中，语音数据是通过语音来记录的数据以及通过语音来传输的数据，对语音数据进行语料处理，从而将语音数据拆分成若干赋有意义的词条，具体包括：a.语音信号处理：语音信号是语音数据的载体，通过解析语音信号，并将解析的语音信号统一转换为字符串格式的文字信息，文字为中文简体和英文字母小写等，具体根据实际情况进行设置。此处解析语音信号与现有编解码语音信号的技术相一致。b.分词，如python的结巴分词、中科院的ICTCLAS工具等，也可以基于统计的条件随机场(CRF)算法等，网络新词识别可通过人工添加新词库，或者通过计算N-Grams的内部凝固度来统计频率分词来设计新词发现算法等等。c.去除无关字符，如去除标点符号、乱码、空行、空白字符等。

参照图4，图4为图2步骤S20一实施例的细化流程示意图。

基于上述实施例，本实施例中，步骤S20，当第一语音数据识别出语义时，根据识别出的语义查找相应的操作指令并执行，包括：

步骤S21，当第一语音数据识别出语义时，以识别出的语义作为查找关键字；

步骤S22，查找指令数据库中是否存在与语义相匹配的操作指令；

步骤S23，若存在与语义相匹配的操作指令，则执行操作指令；

步骤S24，若不存在与语义相匹配的操作指令，则提示用户无相关操作；

其中，操作指令至少包括切换电视频道、播放视频或音乐、视频或语音呼叫、调高或调低音量、打开浏览器、搜索网络、关机中的任一项。

本实施例中，指令数据库中存储有大量的操作指令，至少包括切换电视频道、播放视频或音乐、视频或语音呼叫、调高或调低音量、打开浏览器、搜索网络、关机等，具体根据实际智能电视功能应用而设置。当语音数据识别出语义时，也就是机器识别和理解用户发出的话语，得到若干赋有意义的词条，进而可根据词条语义进行检索，匹配到合适的操作指令并执行。进一步地，当识别出的语音匹配不到操作指令时，说明智能电视无法响应用户语音操控的命令，比如用户想要视频对话，但智能电视并未安装有相应的视频对话功能，进而可在本地屏幕上提示用户无相关操作。需要补充的是，用户在声控智能电视时是第一语音数据，若识别出语义，即可响应第一语音数据的语音命令；若一开始识别不出，则经由人工翻译的第二语音数据识别出语义做为第一语音数据的语义进行响应。

进一步可选地，为了避免同一语句出现多次人工翻译的情形，减少人工翻译次数，以及提高语音识别速率，在本发明另一实施例中，在上述实施例步骤S40之后，智能电视的语音控制方法还包括：当返回的第二语音数据识别出语义时，将识别出的语义与第二语音数据对应的第一语音数据进行关联并存储在本地语音数据库中。由于第二语音数据是第一语音数据的人工翻译，比如第一语音数据是以粤语记录的，而人工翻译后的第二语音数据是标准普通话，两者意思相同，只是使用的语言不同，因而第二语音数据识别出的语义相当于第一语音数据的语义，进而关联并保存至本地语音数据库中，以供下次读取使用。

进一步地，基于上述实施例，在本发明另一实施例中，智能电视的语音控制方法还包括：

1、当第一语音数据识别不出语义时，查找本地语音数据库中是否存在与第一语音数据相关联的语义；

2、若本地语音数据库中存在与第一语音数据相关联的语义，则将该语义作为第一语音数据的识别结果；

3、若本地语音数据库中不存在与第一语音数据相关联的语义，则执行将第一语音数据转发至绑定代理账号的语音识别代理终端的操作。

本实施例中，比如老人第一次说了句“打开深圳台”的地方方言，智能电视首先启动语音识别功能进行语音识别，当识别不出语义时，将该“打开深圳台”的地方方言的语音数据转发至绑定代理账号的语音识别代理终端，比如该老人的儿子的手机，然后该老人的儿子通过手机加载播放这句“打开深圳台”的地方方言，并进行人工翻译，翻译成“打开深圳台”的标准普通话，手机将翻译成“打开深圳台”的标准普通话的语音翻译回传至智能电视。智能电视再次启动语音识别功能进行语音识别，识别出“打开”、“深圳台”的词条，根据词条语义，查找相应的操作指令并执行，进而智能电视响应老人说的话并打开深圳台。

进一步地，当翻译的“打开深圳台”的标准普通话识别出“打开”、“深圳台”的词条时，将识别出的“打开”、“深圳台”的词条与该“打开深圳台”的地方方言的语音数据关联并存储在本地语音数据库中。老人在第二次或第N次说出“打开深圳台”的地方方言时，智能电视首先启动语音识别功能进行语音识别，此时再一次识别不出语义时，查找本地语音数据库中是否存在与语音数据相关联的语义，当查找与语音数据相关联的“打开”、“深圳台”的词条时，将“打开”、“深圳台”的词条语义作为语音数据的识别结果，进而根据词条语义，查找相应的操作指令并执行，从而避免同一语句出现多次人工翻译的情形，减少人工翻译次数，并提高了语音识别速率。

进一步地，基于人工翻译和识别结果绑定存储的方式，用户可以预先将多个常用的语音信息及其识别结果关联录入至本地语音数据库中。比如预先录入诸如“调高音量”、“调低音量”、“播放喜洋洋”、“看凤凰台”、“关电视”等常用的语音命令，进而减少家庭成员或名义代理人在外不方便实时在线人工翻译的问题，进而能够及时响应特殊人群对智能电视的语音控制指令。

参照图5，图5为本发明电视语音处理系统一实施例的功能模块示意图。

基于本发明上述实施例中的智能电视的语音控制方法，本实施例还提供一种电视语音处理系统，本实施例中，电视语音处理系统包括智能电视10和语音识别代理终端20。智能电视10和语音识别代理终端20建立通信连接，实现信息交互。语音识别代理终端20可以是手机、平板等移动终端，优选为手机。语音识别代理终端20用于，接收智能电视10转发的第一语音数据，加载第一语音数据并进行播放，以供用户对第一语音数据进行人工翻译，得到第二语音数据；将第二语音数据返回给智能电视10，以供智能电视10执行相关操作。

进一步地，电视语音处理系统还包括语音采集装置，语音采集装置可以是安装在智能电视上，也可以是独立的设备并与智能电视建立通信连接。语音采集装置用于，采集语音数据和/或将采集的语音数据发送至智能电视。若语音采集装置是安装在智能电视上，则智能电视能够自身采集用户发出的声音，并直接记录得到语音数据。若语音采集装置是语音遥控器、手机等与智能电视建立通信连接的独立的设备，则采集用户发出的声音，记录得到语音数据，再将语音数据转发给智能电视接收，满足用户在不同应用场景下的使用情况。

进一步可选的，为实现上述目的，本发明还提供一种计算机可读存储介质，在本实施例中提出的计算机可读存储介质上存储有语音控制程序，包括语音识别、执行操作指令和转发语音数据等。存储的语音控制程序能够被处理器读取、解读并执行，从而实现上述任一实施例中的智能电视的语音控制方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能电视的语音控制方法，其特征在于，所述智能电视的语音控制方法包括以下步骤：

2.如权利要求1所述智能电视的语音控制方法，其特征在于，所述对所述第一语音数据进行语音识别包括：

对所述文字信息进行分词和去除无关字符处理，得到词条；

将处理得到的词条的语义作为识别结果。

3.如权利要求1所述智能电视的语音控制方法，其特征在于，所述当所述第一语音数据识别出语义时，根据识别出的语义查找相应的操作指令并执行包括：

若存在与语义相匹配的操作指令，则执行所述操作指令；

4.如权利要求1至3中任一项所述智能电视的语音控制方法，其特征在于，在所述接收所述语音识别代理终端返回的经过人工翻译后所得到的第二语音数据，并对所述第二语音数据进行语音识别以执行相应的操作指令的操作之后，所述智能电视的语音控制方法还包括：

5.如权利要求4所述智能电视的语音控制方法，其特征在于，所述智能电视的语音控制方法还包括：

6.一种智能电视，其特征在于，所述智能电视包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序，所述语音控制程序被所述处理器执行时实现如权利要求1至5中任一项所述的智能电视的语音控制方法的步骤。

7.一种电视语音处理系统，其特征在于，所述电视语音处理系统包括如权利要求6所述的智能电视，还包括语音识别代理终端；

8.如权利要求7所述的电视语音处理系统，其特征在于，所述电视语音处理系统还包括语音采集装置；所述语音采集装置安装在所述智能电视上和/或与所述智能电视建立通信连接；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音控制程序，所述语音控制程序被处理器执行时实现如权利要求1至5中任一项所述的智能电视的语音控制方法的步骤。