CN112885347A - 一种显示设备的语音控制方法、显示设备及服务器 - Google Patents
一种显示设备的语音控制方法、显示设备及服务器 Download PDFInfo
- Publication number
- CN112885347A CN112885347A CN202110087018.XA CN202110087018A CN112885347A CN 112885347 A CN112885347 A CN 112885347A CN 202110087018 A CN202110087018 A CN 202110087018A CN 112885347 A CN112885347 A CN 112885347A
- Authority
- CN
- China
- Prior art keywords
- control
- server
- control instruction
- statement
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000010410 layer Substances 0.000 description 24
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000011664 signaling Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 102100032257 E3 ubiquitin-protein ligase Mdm2 Human genes 0.000 description 1
- 108050002772 E3 ubiquitin-protein ligase Mdm2 Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本实施例提供一种显示设备的语音控制方法、显示设备及服务器。服务器在接收到由声音数据转化而来的控制语句后,判断是否存在该控制语句对应的控制指令,其中控制语句和控制指令存在,根据当前用户常用控制语句,与控制指令之间的匹配关系建立的自定义对应关系。如果存在该控制语句对应的控制指令,则向显示设备反馈控制指令,显示设备按照该控制指令执行对应操作。如果不存在该控制语句对应的控制指令,则向显示设备反馈提示信息。本申请实施例可以根据用户常用控制语句,与控制指令之间的匹配关系,定制个性化的语音控制场景。使得用户更容易实现对显示设备预想的语音控制,从而提升用户使用体验。
Description
技术领域
本申请涉及显示设备技术领域,尤其涉及一种显示设备的语音控制方法、显示设备及服务器。
背景技术
随着人工智能技术的飞速发展,人们对智能电视的智能化需求也越来越高。智能电视通过互联网技术,将影音、游戏等功能集于一身。语音识别功能也是智能电视主打功能之一。基于语音识别功能,用户可以直接通过语音控制智能电视的各种功能。
传统的智能电视通常利用语义分析方法,分析用户输入的声音数据,得出与声音数据对应的语音指令,根据语音指令执行相关的操作。
然而,传统智能电视的语音控制通常是基于自带的语音库,用户需要输入智能电视中自带的声音数据,或者输入与自带声音数据相近的声音数据,才能生成对应的语音指令。如果用户输入的不是智能电视自带的声音数据,或者输入的声音数据与自带的声音数据偏差较大,会造成不能生成语音指令或者生成错误的语音指令。最终导致不能实现对智能电视预想的语音控制,用户使用体验较差。
发明内容
本申请提供了一种显示设备的语音控制方法、显示设备及服务器,用于解决现有显示设备只有用户输入指定的声音数据,才能实现相应的对智能电视的功能控制,无法满足用户定制化语音控制场景的需求,用户使用体验较差的问题。
第一方面,本实施例提供一种服务器,所述服务器用于执行:
接收显示设备发送的控制语句,在存在与所述控制语句对应的控制指令时,将所述控制指令反馈至所述显示设备,以使所述显示设备执行所述控制指令对应的操作,其中,所述控制语句为从所述显示设备采集的用户输入声音数据转换而来,所述控制语句与所述控制指令之间存在自定义对应关系,所述自定义对应关系为根据当前用户常用控制语句与所述控制指令之间的匹配关系建立的;
在不存在与所述控制语句对应的控制指令时,将提示信息反馈至所述显示设备,其中,所述提示信息用于提示用户在所述服务器中不存在与所述控制语句对应的控制指令。
第二方面,本实施例提供一种显示设备,包括,
显示器;
声音采集器,用于执行采集用户输入的声音数据;
控制器,用于执行:
将所述声音数据转换为控制语句,将所述控制语句发送至服务器,在所述服务器中存在与所述控制语句对应的控制指令时,接收所述服务器反馈的所述控制指令,以及执行所述控制指令对应的操作,其中,所述控制语句与所述控制指令之间存在自定义对应关系,所述自定义对应关系为根据当前用户常用控制语句与所述控制指令之间的匹配关系建立的;
在所述服务器中不存在与所述控制语句对应的控制指令时,接收所述服务器反馈的提示信息,其中,所述提示信息用于提示用户在所述服务器中不存在与所述控制语句对应的控制指令。
第三方面,本实施例提供一种显示设备的语音控制方法,应用于服务器,包括:
接收显示设备发送的控制语句,在存在与所述控制语句对应的控制指令时,将所述控制指令反馈至所述显示设备,以使所述显示设备执行所述控制指令对应的操作,其中,所述控制语句为从所述显示设备采集的用户输入声音数据转换而来,所述控制语句与所述控制指令之间存在自定义对应关系,所述自定义对应关系为根据当前用户常用控制语句与所述控制指令之间的匹配关系建立的;
在不存在与所述控制语句对应的控制指令时,将提示信息反馈至所述显示设备,其中,所述提示信息用于提示用户在所述服务器中不存在与所述控制语句对应的控制指令。
本申请实施例提供的服务器在接收到由声音数据转化而来的控制语句后,判断是否存在该控制语句对应的控制指令,其中控制语句和控制指令存在自定义对应关系。该自定义对应关系为根据当前用户常用控制语句,与控制指令之间的匹配关系建立的。如果存在该控制语句对应的控制指令,则向显示设备反馈控制指令,显示设备按照该控制指令执行对应操作。如果不存在该控制语句对应的控制指令,则向显示设备反馈提示信息,以提示用户在服务器中不存在与控制语句对应的控制指令。本申请实施例可以根据用户常用控制语句,与控制指令之间的匹配关系,定制个性化的语音控制场景。使得用户更容易实现对显示设备预想的语音控制,从而提升用户使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据一些实施例的显示设备的使用场景;
图2示出了根据一些实施例的控制装置100的硬件配置框图;
图3示出了根据一些实施例的显示设备200的硬件配置框图;
图4示出了根据一些实施例的显示设备200中软件配置图;
图5示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示图;
图6示出了根据一些实施例的显示设备语音控制系统框架图;
图7示出了根据一些实施例中意图设置用户界面示意图;
图8示出了根据一些实施例中实体参数值设置用户界面示意图;
图9示出了根据一些实施例的显示设备语音控制方法信令图;
图10示出了根据一些实施例的又一种显示设备语音控制方法信令图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
图1为根据实施例中显示设备的使用场景的示意图。如图1所示,显示设备200还与服务器400进行数据通信,用户可通过智能设备300或控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式中的至少一种,通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令,来控制显示设备200。
在一些实施例中,智能设备300可以包括移动终端300A、平板电脑、计算机、笔记本电脑,AR/VR设备等中的任意一种。
在一些实施例中,也可以使用智能设备300以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。
在一些实施例中,也可以使用智能设备300和显示设备进行数据的通信。
在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
在一些实施例中,一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的,服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行,反之亦然。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。
在一些实施例中,通信接口130用于和外部通信,包含WIFI芯片,蓝牙模块,NFC或可替代模块中的至少一种。
在一些实施例中,用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
图3示出了根据示例性实施例中显示设备200的硬件配置框图。
在一些实施例中,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
在一些实施例中,显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。
在一些实施例中,显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
在一些实施例中,调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
在一些实施例中,检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
在一些实施例中,外部装置接口240可以包括但不限于如下:高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random AccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
CPU处理器。用于执行存储在存储器中操作系统和应用程序指令,以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。CPU处理器,可以包括多个处理器。如,包括一个主处理器以及一个或多个子处理器。
在一些实施例中,图形处理器,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象;还包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
在一些实施例中,视频处理器,用于将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中,解复用模块,用于对输入音视频数据流进行解复用处理。视频解码模块,用于对解复用后的视频信号进行处理,包括解码和缩放处理等。图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。帧率转换模块,用于对转换输入视频帧率。显示格式化模块,用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,音频处理器,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理中的至少一种,得到可以在扬声器中播放的声音信号。
在一些实施例中,用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,″用户界面″,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些实施例中,用户接口280,为可用于接收控制输入的接口(如:显示设备本体上的实体按键,或其他等)。
在一些实施例中,显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称″应用层″),应用程序框架(Application Framework)层(简称″框架层″),安卓运行时(Android runtime)和系统库层(简称″系统运行库层″),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包不限于以上举例。
框架层为应用程序层的应用程序提供应用编程接口(application programminginterface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互;位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
在一些实施例中,显示设备启动后可以直接进入预置的视频点播程序的界面,视频点播程序的界面可以如图5中所示,至少包括导航栏510和位于导航栏510下方的内容显示区,内容显示区中显示的内容会随导航栏中被选中控件的变化而变化。应用程序层中的程序可以被集成在视频点播程序中通过导航栏的一个控件进行展示,也可以在导航栏中的应用控件被选中后进行进一步显示。
在一些实施例中,显示设备启动后可以直接进入上次选择的信号源的显示界面,或者信号源选择界面,其中信号源可以是预置的视频点播程序,还可以是HDMI接口,直播电视接口等中的至少一种,用户选择不同的信号源后,显示器可以显示从不同信号源获得的内容。
现有显示设备的语音识别功能是基于语义分析方法,分析用户输入的声音数据,得出与声音数据对应的语音指令,根据语音指令执行相关的操作。
然而,现有显示设备实现语音控制的方案,通常是基于自带的语音库,用户需要输入显示设备自带的声音数据,或者输入与自带声音数据相近的声音数据,才能生成对应的语音指令。如果用户输入的不是智能电视自带的声音数据,或者输入的声音数据与自带的声音数据偏差较大,会造成不能生成语音指令或者生成错误的语音指令。最终导致不能实现对智能电视预想的语音控制,用户使用体验较差。
示例性的,用户想要控制显示设备切换数据源至USB,则可能需要用户输入指令的语音为″切换数据源至USB″(语音库中预设的)。如果用户输入的语音有较大偏差,例如,输入的语音为″播放USB的数据″,输入的语音与预设的语音偏差较大,则不能生成正确的语音指令,最终导致不能实现切换数据源至USB的操作。
为了解决上述问题,本申请提供一种基于语音识别的显示设备控制系统,如图6所示的根据实施例中显示设备语音控制系统框架图。用户可以利用本申请的控制系统,通过创建的自定义的控制语句,控制显示设备。
显示设备200包括声音采集器230A和控制器250。显示设备通过声音采集器采集用户的声音数据,并将声音数据发送至服务器。控制器用于接收控制指令,并根据所述控制指令控制显示设备实现相应的功能。
在一些实施例中,服务器中事先保存有根据当前用户常用控制语句与控制指令的匹配关系,创建的自定义对应关系。显示设备在采集到用户输入的声音数据后,将声音数据发送至服务器,服务器从声音数据中提取控制语句。如果能够从自定义对应关系中,查找到与提取的控制语句对应的控制指令,则服务器将对应的控制指令反馈至显示设备,显示设备执行该控制指令对应的操作。
如果不能够从自定义对应关系中,查找到与提取的控制语句对应的控制指令,则服务器向显示设备反馈提示信息,以提示用户不存在与提取的控制语句对应的控制指令。
示例性的,用户实现将常用的控制语句″播放USB的数据″与切换数据源至USB的控制指令建立自定义对应关系。当用户输入声音数据″播放USB的数据″时,能够从服务器中查找到对应的控制指令,从而实现用户切换数据源至USB的意图。这样用户可以根据自己的习惯,输入自己常用的控制语句,利用自己常用的控制语句来控制显示设备,从而提升用户使用体验。
在一些实施例中,服务器400包括信号收发子服务器400A、语音识别子服务器400B以及命令生成子服务器400C。信号收发子服务器用于接收和发送信号。语音识别子服务器用于储存用户创建的自定义对应关系,即用户常用控制语句与控制指令之间的匹配关系,并且根据匹配关系识别控制指令相关的参数。命令生成子服务器用于根据识别的控制指令相关的参数生成控制指令。
在一些实施例中,用户可以通过操作控制装置100,在显示设备200的用户界面上调出显示设备的创建自定义对应关系的平台,通过该平台,用户可以创建常用控制语句与控制指令之间的匹配关系。
示例性的,创建自定义对应关系的平台,可以为Google cloud的DialogFlow服务。DialogFlow是一个自然语言理解平台,该平台可以分析用户的多种输入,包括文本和音频输入。平台中设置有多个意图,这里的意图为用户想要进行的操作。每一个意图对应一个实体类型,这里的实体类型指的是动作的操作对象。每一个实体又对应多个实体参数值,这里的实体参数值为操作对象的状态。
如图7所示的用户界面为DialogFlow的意图设置界面。当前设置的意图为tvControl.inputSource.switch,表示用户想要进行的操作为switch inputsource(切换输入的数据源)。
该意图可以通过多种不同的语句进行训练,例如,语句″source to USB″、语句″Iwant to switch to USB″、语句″change source to the USB port″等,这些语句为DialogFlow平台自带的语句。用户也可以输入自己常用的语句,例如中文用户输入语句″播放USB的数据″,则在该意图的自定义关系中添加了该控制语句。用户之后可通过输入控制语句″播放USB的数据″实现切换数据源的意图。
如图8所示的用户界面为DialogFlow的实体设置界面。该界面中的实体为tv-input-source,与图7所示的意图设置界面对应。该界面中的实体有对应多个实体参数值:HDM1、HDM2、USB、AV等。
这些实体参数值为平台自带的实体参数值。如果用户输入的控制语句为″播放USB的数据″,则调取的实体参数值为USB,如果用户输入的控制语句为″播放HDM1的数据源″,则调取的实体参数值为HDM1。
根据上述实施例设置完成控制语句和控制指令各个参数的自定义关系后,系统自动将这些自定义关系保存至语音识别子服务器中。
在一些实施例中,显示设备在采集到用户输入的声音数据后,将声音数据转换为控制语句,该控制语句可以为文本形式。显示设备将控制语句发送至信号收发子服务器,信号收发子服务器将控制语句发送至语音识别子服务器。
另外,也可以是显示设备将采集到的声音数据直接发送至信号收发子服务器,信号收发子服务器对声音数据进行音频解码处理,得到文本形式的控制语句,再将控制语句发送至语音识别子服务器。
语音识别子服务器在接收到控制语句后,语音识别子服务器根据预先创建的自定义对应关系,判断在自定义对应关系中,是否存在控制语句对应的意图。如果存在与控制语句对应的意图,则根据对应意图,从控制语句中识别出实体和实体参数值。如果不存在控制语句对应的意图,则向信号收发子服务器发送错误提示。
语音识别子服务器将得到的控制指令的各个参数,通过信号收发子服务器,发送至命令生成子服务器。命令生成子服务器根据各个参数生成显示设备终端可执行的指令。同时将生成的指令发送至显示设备,最终显示设备根据该指令执行对应的操作。
示例性的,用户输入声音数据″播放USB的数据″,声音采集器采集到用户输入的声音数据后,将声音数据转换为文本形式的控制语句″播放USB的数据″。显示设备将文本形式的控制语句″播放USB的数据″发送至信号收发子服务器。信号接收子服务器将控制语句发送至语音识别子服务器。
语音识别子服务器在接收到控制语句后,判断存储的自定义对应关系中,是否存在与控制语句″播放USB的数据″相对应的意图。如果不存在相对应的意图,则通过信号收发子服务器发送错误指令至显示设备,提醒用户输入错误。
如果存在与″播放USB的数据″控制语句对应的意图,语音识别子服务器进一步根据意图″切换数据源″,识别出实体为数据源,实体参数值为USB。
语音识别子服务器将得到的意图″切换数据源″、实体″数据源″以及实体参数值″USB″通过信号收发子服务器发送至命令生成子服务器。这里,信号收发子服务器可以对接收的意图、实体以及实体参数值进行纠错,以提高语音控制的成功率。
命令生成子服务器根据接收的意图″切换数据源″、实体″数据源″以及实体参数值″USB″生成控制指令,即控制显示设备从其他数据源切换至USB。命令生成子服务器将生成的控制指令发送至显示设备,显示设备按照控制指令执行切换数据源至USB的操作。
具体的,命令生成子服务器将意图″切换数据源″、实体″数据源″以及实体参数值″USB″路由至相应的微服务,例如,切换数据源的请求被路由至电视控制的微服务。而查询电影的请求被路由至媒资搜索的微服务。
在微服务中,将上述的参数按照预定义的格式进行封装,然后发送至显示设备。显示设备接收到相关的指令后,再进行相关的业务处理。例如,如果是媒资搜索的指令,则会进一步将媒资搜索指令发送至媒资数据库,查询到相应的媒资数据后,再将媒资数据展示在显示设备上。
在一些实施例中,用户可在DialogFlow的意图设置界面中添加多个控制语句对应同一个意图,以提高语音控制的成功率。
示例性的,意图″切换数据源″的设置界面可以添加″播放XX的数据″、″切换至XX〞、″切换数据至XX〞等多个控制语句。只要用户输入其中任意一个控制语句,就能够实现切换数据源的操作。
DialogFlow服务可以同时支持多种语言,具体的可以识别用户的多种语言输入。因此,在意图设置界面中需要针对不同语言类型,输入不同语言类型的控制语句。
在一些实施例中,声音采集器采集到用户输入的声音数据后,将声音数据转换为控制语句,并将控制语句发送至信号收发子服务器。信号收发子服务器将控制语句发送至语音识别子服务器。语音识别子服务器首先识别控制语句的语言类型。根于语言类型调用不同自定义对应关系。
示例性的,如果用户输入的语音数据为英文″source to USB″,则语音识别子服务器收到的控制语句同样为英文文本″source to USB″。此时语音识别子服务器需要调用事先设置的英文版本的自定义对应关系。根据英文版本的自定义对应关系,识别出意图为tvControl.inputSource.switch,对应的实体为Source,实体参数值为USB。
之后语音识别子服务器将意图tvControl.inputSource.switch,实体Source,实体参数值USB以及语言类型参数英文,发送至命令生成子服务器。命令生成子服务器根据意图tvControl.inputSource.switch,实体Source,实体参数值USB以及语言类型参数英文生成控制指令,将控制指令发送至显示设备,显示设备按照该控制指令执行相应的操作。
如果用户输入的语音数据为中文″切换到USB″,则语音识别子服务器收到的控制语句同样为中文文本″切换到USB″。此时语音识别子服务器需要调用事先设置的中文版本的自定义对应关系。根据中文版本的自定义对应关系,识别出意图为切换数据源,对应的实体为数据源,实体参数值为USB。
之后语音识别子服务器将意图切换数据源,实体数据源,实体参数值USB以及语言参数类型中文,发送至命令生成子服务器。命令生成子服务器根据意图切换数据源,实体数据源,实体参数值USB以及语言类型参数中文生成控制指令,将控制指令发送至显示设备,显示设备按照该指令执行响应的操作。
在一些实施例中,用户在意图设置界面中对语句进行训练时,可以对添加的控制语句进行测试,判断能否在实际操作中从控制语句中识别出意图。具体的,DialogFlow服务提供测试功能,用户将常用的控制语句填充到意图中后,执行测试,如果测试结果为OK,则表示在实际操作中,输入该控制语句能够识别出对应的意图,并实现对显示设备对应的控制。
本申请实施例提供一种显示设备的语音控制方法,如图9所示的显示设备的语音控制方法的信令图,所述方法包括以下步骤:
步骤一、创建控制语句与控制指令之间的自定义对应关系,将自定义对应关系保存至服务器,其中控制语句为用户常用的控制语句。
步骤二、显示设备采集用户输入的声音数据,显示设备从声音数据中提取控制语句,将提取的控制语句发送至服务器。
步骤三、根据预先设置的自定义对应关系,判断服务器中是否存在与提取的控制语句对应的控制指令。如果服务器中存在与提取的控制语句对应的控制指令,将对应的控制指令反馈至显示设备,以使显示设备执行该控制指令对应的操作。
如果服务器中不存在于提取的控制语句对应的控制指令,向显示设备反馈提示信息,以提示用户不存在与提取的控制语句对应的控制指令。同时还可以提示用户进行下一步操作,例如重新发送声音数据。
根据上述实施例,用户可以根据常用的控制语句,创建控制语句与控制指令的自定义关系,从而实现利用常用控制语句控制显示设备,提升用户使用体验。
本申请实施例提供又一种显示设备的语音控制方法,如图10所示的显示设备的语音控制方法的信令图,所述方法包括以下步骤:
步骤一、创建控制语句与控制指令之间的自定义对应关系。其中,创建控制语句与控制指令之间的自定义对应关系的具体过程为:设置多个意图,每一个意图对应一个实体类型,每一个实体对应多个实体参数值。每一个意图又可以对应多个用户常用的控制语句。将创建的自定义对应关系保存至语音识别子服务器。
步骤二、显示设备采集用户输入的声音数据,将声音数据转换为控制语句,以及将控制语句发送至信号收发子服务器。信号收发子服务器将控制语句发送至语音识别子服务器。
步骤三、语音识别子服务器接收到控制语句后,根据预先创建的自定义对应关系,判断在自定义对应关系中,是否存在控制语句对应的意图。如果存在与控制语句对应的意图,根据对应的意图,从控制语句中识别出实体和实体参数值。
语音识别子服务器将意图、实体以及实体参数值发送至信号收发子服务器。信号收发子服务器将意图、实体以及实体参数值纠错处理后,将意图、实体以及实体参数值发送至命令生成子服务器,命令生成子服务器根据意图、实体以及实体参数值生成控制指令。同时将生成的控制指令发送至显示设备,以使显示设备根据控制指令执行对应的操作。
如果不存在与控制语句对应的意图,则向信号收发子服务器发送错误提示信息,信号收发子服务器将错误提示信息反馈至显示设备,以提示用户不存在与提取的控制语句对应的意图,无法执行对显示设备预想的操作。
本申请各个实施例之间相同或相似的内容可相互参照,相关实施例不再赘述。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种服务器,其特征在于,所述服务器用于执行:
接收显示设备发送的控制语句,在存在与所述控制语句对应的控制指令时,将所述控制指令反馈至所述显示设备,以使所述显示设备执行所述控制指令对应的操作,其中,所述控制语句为从所述显示设备采集的用户输入声音数据转换而来,所述控制语句与所述控制指令之间存在自定义对应关系,所述自定义对应关系为根据当前用户常用控制语句与所述控制指令之间的匹配关系建立的;
在不存在与所述控制语句对应的控制指令时,将提示信息反馈至所述显示设备,其中,所述提示信息用于提示用户在所述服务器中不存在与所述控制语句对应的控制指令。
2.根据权利要求1所述的服务器,其特征在于,在存在与所述控制语句对应的控制指令时,所述显示设备执行所述控制指令对应的操作,具体为:
从所述控制语句中提取意图、实体以及实体参数,根据所述意图、所述实体以及所述实体参数生成控制指令,以及将所述控制指令反馈至所述显示设备,以使所述显示设备按照所述控制意图执行对应操作,使得所述实体从其他所述实体参数更换为当前提取的所述实体参数。
3.根据权利要求1或2所述的服务器,其特征在于,在所述自定义对应关系中多个不同的所述控制语句对应同一个所述控制指令。
4.根据权利要求1所述的服务器,其特征在于,所述服务器还从所述显示设备接收显示设备的当前语言类型参数,所述控制指令为根据与所述语言类型参数对应的所述自定义对应关系生成的。
5.根据权利要求1所述的服务器,其特征在于,所述提示信息还用于提示用户可进行的下一步操作。
6.一种显示设备,其特征在于,包括,
显示器;
声音采集器,用于执行采集用户输入的声音数据;
控制器,用于执行:
将所述声音数据转换为控制语句,将所述控制语句发送至服务器,在所述服务器中存在与所述控制语句对应的控制指令时,接收所述服务器反馈的所述控制指令,以及执行所述控制指令对应的操作,其中,所述控制语句与所述控制指令之间存在自定义对应关系,所述自定义对应关系为根据当前用户常用控制语句与所述控制指令之间的匹配关系建立的;
在所述服务器中不存在与所述控制语句对应的控制指令时,接收所述服务器反馈的提示信息,其中,所述提示信息用于提示用户在所述服务器中不存在与所述控制语句对应的控制指令。
7.根据权利要求6所述的显示设备,其特征在于,在所述服务器中存在与所述控制语句对应的控制指令时,所述控制指令为根据从所述控制语句中提取的意图、实体以及实体参数生成的,执行所述控制指令对应的操作,具体为:
按照所述意图执行对应操作,使得所述实体从其他所述实体参数更换为当前提取的所述实体参数。
8.根据权利要求6或7所述的显示设备,其特征在于,在所述自定义对应关系中多个不同的所述控制语句对应同一个所述控制指令。
9.根据权利要求6所述的显示设备,其特征在于,所述显示设备还向所述服务器发送显示设备的当前语言类型参数,所述控制指令为根据与所述语言类型参数对应的所述自定义对应关系生成的。
10.一种显示设备的语音控制方法,其特征在于,应用于服务器,包括:
接收显示设备发送的控制语句,在存在与所述控制语句对应的控制指令时,将所述控制指令反馈至所述显示设备,以使所述显示设备执行所述控制指令对应的操作,其中,所述控制语句为从所述显示设备采集的用户输入声音数据转换而来,所述控制语句与所述控制指令之间存在自定义对应关系,所述自定义对应关系为根据当前用户常用控制语句与所述控制指令之间的匹配关系建立的;
在不存在与所述控制语句对应的控制指令时,将提示信息反馈至所述显示设备,其中,所述提示信息用于提示用户在所述服务器中不存在与所述控制语句对应的控制指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110087018.XA CN112885347A (zh) | 2021-01-22 | 2021-01-22 | 一种显示设备的语音控制方法、显示设备及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110087018.XA CN112885347A (zh) | 2021-01-22 | 2021-01-22 | 一种显示设备的语音控制方法、显示设备及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112885347A true CN112885347A (zh) | 2021-06-01 |
Family
ID=76051767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110087018.XA Pending CN112885347A (zh) | 2021-01-22 | 2021-01-22 | 一种显示设备的语音控制方法、显示设备及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885347A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989841A (zh) * | 2015-02-17 | 2016-10-05 | 上海汽车集团股份有限公司 | 车载语音控制方法及装置 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN107340989A (zh) * | 2017-06-21 | 2017-11-10 | 威创集团股份有限公司 | 显示设备的控制方法、系统和装置 |
CN108337139A (zh) * | 2018-01-29 | 2018-07-27 | 广州索答信息科技有限公司 | 家电语音控制方法、电子设备、存储介质及系统 |
CN109421044A (zh) * | 2017-08-28 | 2019-03-05 | 富泰华工业(深圳)有限公司 | 智能机器人 |
CN110491381A (zh) * | 2019-08-02 | 2019-11-22 | 合肥佳讯科技有限公司 | 一种无人飞行器语音交互系统及其语音交互方法 |
CN111161731A (zh) * | 2019-12-30 | 2020-05-15 | 四川虹美智能科技有限公司 | 智能家电离线语音控制装置 |
CN111949240A (zh) * | 2019-05-16 | 2020-11-17 | 阿里巴巴集团控股有限公司 | 交互方法、存储介质、服务程序和设备 |
-
2021
- 2021-01-22 CN CN202110087018.XA patent/CN112885347A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989841A (zh) * | 2015-02-17 | 2016-10-05 | 上海汽车集团股份有限公司 | 车载语音控制方法及装置 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN107340989A (zh) * | 2017-06-21 | 2017-11-10 | 威创集团股份有限公司 | 显示设备的控制方法、系统和装置 |
CN109421044A (zh) * | 2017-08-28 | 2019-03-05 | 富泰华工业(深圳)有限公司 | 智能机器人 |
CN108337139A (zh) * | 2018-01-29 | 2018-07-27 | 广州索答信息科技有限公司 | 家电语音控制方法、电子设备、存储介质及系统 |
CN111949240A (zh) * | 2019-05-16 | 2020-11-17 | 阿里巴巴集团控股有限公司 | 交互方法、存储介质、服务程序和设备 |
CN110491381A (zh) * | 2019-08-02 | 2019-11-22 | 合肥佳讯科技有限公司 | 一种无人飞行器语音交互系统及其语音交互方法 |
CN111161731A (zh) * | 2019-12-30 | 2020-05-15 | 四川虹美智能科技有限公司 | 智能家电离线语音控制装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112672195A (zh) | 遥控器按键设置方法及显示设备 | |
CN114302190A (zh) | 一种显示设备及画质调整方法 | |
CN112885354B (zh) | 一种显示设备、服务器及基于语音的显示控制方法 | |
CN111949782A (zh) | 一种信息推荐方法和服务设备 | |
CN112584229B (zh) | 一种显示设备切换频道的方法及显示设备 | |
CN112601117B (zh) | 显示设备和内容展示方法 | |
CN113794914A (zh) | 显示设备及开机导航配置的方法 | |
CN113490024A (zh) | 控制装置按键设置方法及显示设备 | |
CN112584213A (zh) | 一种显示设备和图像识别结果的展示方法 | |
CN115022688A (zh) | 一种显示设备及媒体数据接力方法 | |
CN113038217A (zh) | 一种显示设备、服务器及应答语生成方法 | |
CN113286185A (zh) | 一种显示设备及主页显示方法 | |
CN113132809A (zh) | 一种通道切换方法、通道节目播放方法及显示设备 | |
CN112882780A (zh) | 设置页面显示方法及显示设备 | |
CN113079400A (zh) | 显示设备、服务器及语音交互方法 | |
CN114302197A (zh) | 一种语音分离控制方法及显示设备 | |
CN112601116A (zh) | 一种显示设备及内容显示方法 | |
CN111914565A (zh) | 电子设备及用户语句的处理方法 | |
CN112668546A (zh) | 视频缩略图显示方法及显示设备 | |
CN112885347A (zh) | 一种显示设备的语音控制方法、显示设备及服务器 | |
CN112835633B (zh) | 显示设备及显示语言的控制方法 | |
CN113490013B (zh) | 一种服务器及数据请求方法 | |
CN113490041B (zh) | 语音功能切换方法及显示设备 | |
CN113766164B (zh) | 显示设备及信号源界面显示方法 | |
CN112231088B (zh) | 一种浏览器进程优化方法及显示设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |