CN114979781A - 显示设备、设备控制方法及可读存储介质 - Google Patents

显示设备、设备控制方法及可读存储介质 Download PDF

Info

Publication number
CN114979781A
CN114979781A CN202210430347.4A CN202210430347A CN114979781A CN 114979781 A CN114979781 A CN 114979781A CN 202210430347 A CN202210430347 A CN 202210430347A CN 114979781 A CN114979781 A CN 114979781A
Authority
CN
China
Prior art keywords
awakening
audio
display device
wake
stoping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210430347.4A
Other languages
English (en)
Inventor
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202210430347.4A priority Critical patent/CN114979781A/zh
Publication of CN114979781A publication Critical patent/CN114979781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及一种显示设备、设备控制方法及可读存储介质,用于解决显示设备中的语音服务被本机输出的播放音频误唤醒的问题。其中,显示设备包括:通信器和控制器,通信器被配置为:接收控制装置基于采集到的第一音频发送的唤醒指令;所述唤醒指令用于指示唤醒所述显示设备中的语音服务;第一音频包括预设唤醒内容;控制器被配置为:响应唤醒指令,获取回采唤醒标识;回采唤醒标识是基于第一音频对应的回采音频进行配置的,回采音频包括显示设备本机输出的音频信号;若回采唤醒标识指示回采音频中不包含预设唤醒内容,则唤醒显示设备中的语音服务;若回采唤醒标识指示回采音频中包含预设唤醒内容,则丢弃唤醒指令。

Description

显示设备、设备控制方法及可读存储介质
技术领域
本申请涉及显示设备技术领域,尤其涉及一种显示设备、设备控制方法及可读存储介质。
背景技术
具有显示功能的显示设备是日常学习、工作、生活中必不可少的设备之一。为了方便用户使用,具有显示功能的电子设备中常常配置一种或多种不同类型的语音服务,用户可以通过语音交互的方式控制显示设备。此外,将实现语音服务的语音硬件(如语音采集模块和语音处理模块)迁移至与显示设备配套的控制装置,用户可以通过控制装置中的语音硬件实现中近场语音交互,这种方式可以大幅降低显示设备的整机设计复杂度,因此,成为目前一种较为主流的设计方式。
在通过控制装置实现语音交互的场景中,控制装置通过语音硬件采集音频信号,当检测到音频信号中包含预设唤醒内容时,向显示设备发送唤醒指令,以唤醒语音服务,从而实现与用户进行语音交互。当显示设备本机输出的播放音频中包含预设唤醒内容时,控制装置会采集的音频中也能够检测到预设唤醒内容,进而会导致语音服务误唤醒,严重影响用户体验。因此,如何避免语音服务被显示设备本机输出的播放音频误唤醒是当前亟待解决的问题。
发明内容
为了解决上述技术问题,本申请提供了一种显示设备、设备控制方法及可读存储介质。
第一方面,本申请提供了一种显示设备,包括:
通信器,被配置为:接收控制装置基于采集到的第一音频发送的唤醒指令;所述唤醒指令用于指示唤醒所述显示设备中的语音服务;所述第一音频包括预设唤醒内容;
控制器,被配置为:响应所述唤醒指令,获取回采唤醒标识;所述回采唤醒标识是基于所述第一音频对应的回采音频进行配置的,所述回采音频为所述显示设备本机输出的播放音频;
若所述回采唤醒标识指示所述回采音频中不包含所述预设唤醒内容,则唤醒所述显示设备中的语音服务;
若所述回采唤醒标识指示所述回采音频中包含所述预设唤醒内容,则丢弃所述唤醒指令。
第二方面,本申请提供了一种设备控制方法,应用于显示设备,所述方法包括:
接收控制装置基于采集到的第一音频发送的唤醒指令,所述唤醒指令用于指示唤醒所述显示设备中的语音服务;所述第一音频包含预设唤醒内容;
响应所述唤醒指令,获取回采唤醒标识;所述回采唤醒标识是基于所述第一音频对应的回采音频进行配置的,所述回采音频包括所述显示设备本机输出的播放音频;
若所述回采唤醒标识指示所述回采音频中不包含所述预设唤醒内容,则唤醒所述显示设备中的语音服务;
若所述回采唤醒标识指示所述回采音频中包含所述预设唤醒内容,则丢弃所述唤醒指令。
第三方面,本申请实施例还提供一种电子设备,包括:存储器和处理,所述存储器被配置为存储计算机程序指令;所述处理器被配置为执行所述计算机程序指令,使得所述电子设备实现如第二方面所述的设备控制方法。
第四方面,本申请实施例还提供一种可读存储介质,包括:计算机程序指令,所述计算机程序指令被电子设备的至少一个处理器执行,使得所述电子设备实现如第二方面所述的设备控制方法。
第五方面,本申请实施例还提供一种计算机程序产品,当电子设备执行所述计算机程序产品,使得所述电子设备实现如第二方面所述的设备控制方法。
本申请实施例提供一种显示设备、设备控制方法及可读存储介质,用于解决显示设备中的语音服务被本机输出的播放音频误唤醒的问题。其中,显示设备包括:通信器和控制器,通信器被配置为:接收控制装置基于采集到的第一音频发送的唤醒指令;所述唤醒指令用于指示唤醒所述显示设备中的语音服务;所述第一音频包括预设唤醒内容;控制器被配置为:响应所述唤醒指令,获取回采唤醒标识;所述回采唤醒标识是基于根所述第一音频对应的回采音频进行配置的,所述回采音频包括所述显示设备本机输出的播放音频;若所述回采唤醒标识指示所述回采音频中不包含所述预设唤醒内容,则唤醒所述显示设备中的语音服务;若所述回采唤醒标识指示所述回采音频中包含所述预设唤醒内容,则丢弃所述唤醒指令。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请一个或多个实施例的显示设备与控制装置之间操作场景的示意图;
图2为现有技术中用户通过控制装置实现语音交互的整体框架图;
图3为本申请一实施例提供的设备控制方法的整体框架示意图;
图4为根据本申请一个或多个实施例的显示设备200的硬件配置框图;
图5为本申请一实施例提供的语音交互界面的示意图;
图6为根据本申请一个或多个实施例的显示设备200中软件配置示意图;
图7为本申请一实施例提供的设备控制方法的流程图;
图8为本申请一实施例提供的设备控制方法的流程图;
图9为本申请另一实施例提供的设备控制方法的流程图;
图10为本申请一实施例提供的设备控制方法的流程图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
在介绍本申请的方案之前,首先对涉及的一些术语进行解释。
1、回采音频,一种参考音频信号,可以用于区分多种不同声源的音频信号,可以用于回声消除场景,因此,也常称为回采参考信号、回采信号等等。
2、语音活动检测(Voice Activity Detection,VAD),能够对输入的语音中的语音片段和非语音片段进行识别。
图1为根据本申请一个或多个实施例的显示设备与控制装置之间操作场景的示意图,如图1所示,用户可通过移动终端300和控制装置100操作显示设备200。控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。
在一些实施例中,移动终端300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。也可以将移动终端300上显示音视频内容传输到显示设备200上,实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200,可以液晶显示器、OLED显示器、投影显示设备。显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能。
在图1所示场景的基础上,图2示例性地示出了现有技术中用户通过控制装置实现语音交互的整体框架图。请参照图2所示,用户输出包含预设唤醒内容的音频,控制装置采集音频,控制装置采集的音频可以包含用户输出的音频和/或其他噪音;控制装置检测采集到的音频中是否包含预设唤醒内容,若检测到预设唤醒内容,控制装置会生成唤醒指令,且向显示设备发送唤醒指令,以唤醒显示设备中的语音服务;此外,控制装置还可以对采集到的音频进行语音降噪处理,获得不包含噪音成分或者包含少量噪音成分的音频,之后,再将语音降噪处理后的音频通过控制装置与显示设备之间的通信连接(如蓝牙连接)发送给显示设备。显示设备接收到控制装置发送的唤醒指令,唤醒语音服务,再基于语音服务对语音降噪处理后的音频进行语音识别,获得其中包含的用户输入的语音指令,之后响应语音指令。
在图2所示的语音交互过程中,控制装置采集的噪音是指除用户之外的其他声源输出的音频。示例性地,如显示设备本机输出的播放音频、其他电子设备输出的播放音频(如位于显示设备附近的手机播放的音乐)、其他用户输出的音频等一种或多种。
由于控制装置对于低功耗的要求以及控制装置与显示设备通信连接的限制,控制装置无法获取显示设备输出的播放音频作为回采音频,对采集到的音频进行回声消除处理,因此,当控制装置采集的音频包含显示设备本机输出的播放音频,且播放音频中包含预设唤醒内容时,控制装置能够通过唤醒内容检测能够生成唤醒指令,则会导致显示设备中的语音服务被误唤醒(也可以理解为语音服务被自唤醒)。由于语音服务被唤醒后会在显示设备中显示语音交互界面、且显示设备会输出语音交互内容,若用户正在观看显示设备中播放的视频内容或者收听音频内容,上述语音交互界面以及语音交互内容会打断用户,给用户带来极其不好的体验感受。
例如,预设唤醒内容为唤醒词“小聚”,显示设备输出的播放音频中包含词语“小聚”对应的语音片段,控制装置则会采集到词语“小聚”对应的语音片段,进而会导致语音服务被唤醒。
基于此,本申请提供一种设备控制方法,通过合理利用显示设备中控制器的算力以及回采电路,实现针对控制装置发送的唤醒指令的校验,避免显示设备中的语音服务被本机的播放音频误唤醒,且本申请的方法不影响控制装置本身的性能和功耗,显示设备也无需增加额外的硬件设计,不会增加成本。
图3为本申请一实施例提供的设备控制方法的整体框架示意图。
其中,在语义交互场景中,控制装置执行的语音处理过程与图2所示实施例类似,可参照图2实施例中的详细描述。本实施例主要详细介绍显示设备如何解决语音服务被本机的播放音频误唤醒的问题。
请参阅图3所示实施例中,显示设备利用本机中的回采电路对播放音频进行回采并缓存,之后对回采的播放音频进行唤醒内容检测,基于检测结果配置回采唤醒标识的值;当显示设备接收到控制装置发送的唤醒指令,读取回采唤醒标识的值,基于回采唤醒标识的值,确定需要丢弃唤醒指令或者唤醒语音交互服务。
示例性地,假设显示设备本机的播放音频中包含预设唤醒内容,则将回采唤醒标识的值配置为1;显示设备本机的播放音频中不包含预设唤醒内容,则将回采唤醒标识的值配置为0。当显示设备接收到控制装置发送的唤醒指令,读取回采唤醒标识的值,若读取到的值为1,则确定显示设备本机的播放音频中包含预设唤醒内容,显示设备丢弃唤醒指令,不做响应;若读取到的值为0,则确定显示设备本机的播放音频中不包含预设唤醒内容,则响应唤醒指令,唤醒语音服务,显示语音交互界面以及输出语音交互内容。
在一些实施例中,确定唤醒语音服务之后,语音服务可以通过回采音频对控制装置传输的进行了语音降噪处理的音频进行回声消除处理,之后,再进行语音识别,获得用户输入的语音指令,再基于识别的语音指令显示语音交互界面以及语音交互内容。
在一些实施例中,显示设备可能输出播放音频,但播放音量为0,即显示设备处于静音播放的状态,即使播放音频中包含预设唤醒内容,也不会被控制装置采集到,从而不会噪声语音服务误唤醒。或者,显示设备的播放音量较小,控制装置采集到的音频无法有效识别其中的语音内容,即使显示设备输出的播放音频中包含预设唤醒内容,也不会导致显示设备中的语音服务被误唤醒。
因此,为了降低显示设备的计算量,显示设备的播放音量小于预设音量值时,可以执行回采播放音频并缓存,但停止对回采缓存的播放音频进行唤醒内容检测;此外,为了保证显示设备能够得到准确的唤醒指令校验结果,显示设备的播放音量小于预设音量值时,将配置回采唤醒指令的值为指示播放音频不包含预设唤醒内容对应的预设值;若显示设备的播放音量大于或等于预设音量值,可以执行回采播放音频并缓存,且对回采缓存的播放音频进行唤醒内容检测,再基于唤醒内容检测结果配置回采唤醒标识对应的值。
图4示出了根据示例性实施例中显示设备200的硬件配置框图。如图4所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。
控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口,作为一种可能的实施方式,控制器250可以为集成的系统级芯片(SOC芯片)。在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。
用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
示例性地,结合图1至图4所示实施例,当显示设备基于回采唤醒标识确定唤醒语音服务,进而可以在显示器中示例性的显示如图5所示的用户界面,请参阅图5所示的用户界面中正在播放视频,在左上角的位置显示文本框501,文本框501位于视频画面的上层,文本框501中可以展示显示设备中的语音服务基于语音降噪处理后的音频获得的语音识别结果,例如,文本框501显示文字内容“我要看电视剧XXX”,其中“XXX”表示用户语音输入的电视剧名称。
应理解,文本框510也可以显示在用户界面的其他位置,可以尽量靠近用户界面的边缘区域,以尽量不遮挡用户界面中正在播放的视频内容画面,从而带给用户较好的体验感受。在一些实施例中,语音交互界面中还可以包括预先设定的图标、动画、图像等等内容,本申请对此不做限定。
需要说明的是,语音交互界面不仅限于显示设备在全屏播放视频的场景,还可以是在显示设备播放音乐的场景、显示设备执行关屏听的场景、显示设备显示应用主页,且应用主页中预览播放视频等等。
结合图1至图5所示实施例,在一些实施例中,显示设备的通信器220,被配置为:接收到控制装置基于采集到的第一音频发送的唤醒指令,唤醒指令用于指示唤醒显示设备中配置的语音服务;第一音频包括预设唤醒内容。
控制器250,被配置为:响应唤醒指令,获取回采唤醒标识;所述回采唤醒标识是基于所述第一音频对应的回采音频进行配置的,所述回采音频包括所述显示设备本机输出的播放音频;若所述回采唤醒标识指示所述回采音频中不包含所述预设唤醒内容,则唤醒所述显示设备中的语音服务;若所述回采唤醒标识指示所述回采音频中包含所述预设唤醒内容,则丢弃所述唤醒指令。
在一些实施例中,所述控制器250,具体被配置为:
所述显示设备开机后,开始获取回采音频,并基于获取的回采音频实时进行唤醒内容检测;基于唤醒内容检测结果配置所述回采唤醒标识。
在一些实施例中,所述控制器250,具体被配置为:
响应所述唤醒指令,获取所述回采音频;并对所述回采音频进行唤醒内容检测;根据唤醒内容检测结果配置所述回采唤醒标识。
在一些实施例中,所述控制器250,具体被配置为:
获取所述回采音频,在检测到所述回采音频中包含语音片段时,启动对所述回采音频进行唤醒内容检测;根据唤醒内容检测结果配置所述回采唤醒标识。
在一些实施例中,所述控制器250,具备被配置为:通过VAD模型检测所述回采音频中是否包含语音片段。
在一些实施例中,所述控制器250,具体被配置为:
获取所述回采音频,并确定所述显示设备的播放音量是否小于预设值;
若所述播放音量大于所述预设音量值,则对所述回采音频进行唤醒内容检测,并根据唤醒内容检测结果配置所述回采唤醒标识;
若所述播放音量小于或等于所述预设音量值,则配置所述回采唤醒标识指示所述回采音频中不包含预设唤醒内容。
在一些实施例中,所述控制器250,具体被配置为:获取未经过音效算法处理的原始播放音频为所述回采音频;或者,获取经过音效算法处理,输出至所述显示设备的扬声器之前的播放音频为所述回采音频。
在一些实施例中,所述控制器250,具体被配置为:通过预设的唤醒内容检测模型对所述回采音频进行唤醒内容检测。
图6为根据本申请一个或多个实施例的显示设备200中软件配置示意图,如图6所示,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
其中,显示设备的应用层可以配置:语音服务、唤醒内容检测应用,其中,唤醒内容检测应用中可以包含唤醒内容检测模型,唤醒内容检测应用可以通过唤醒内容检测模型对回采的播放音频进行唤醒内容检测。
接下来,将通过几个具体实施例,对本申请提供的设备控制方法进行详细介绍。
图7为本申请一实施例提供的设备控制方法的流程图。本实施例的方法应用于显示设备。请参阅图7所示,本实施例的方法包括:
S701、显示设备接收控制装置基于第一音频发送的唤醒指令。
其中,第一音频为控制装置采集的音频信号,结合前文所述,第一音频可以包括用户输入的音频信号、显示设备本机输出的播放音频、其他声源发出的音频信号中的一个或多个。
控制装置中可以配置唤醒内容检测应用,唤醒内容检测应用可以将第一音频输入至唤醒内容检测模型中进行语音识别,唤醒内容检测模型可以基于语音识别结果与预设唤醒内容进行匹配,从而输出第一音频中是否包含预设唤醒内容的检测结果。当控制装置检测到第一音频中包含预设唤醒内容,则生成唤醒指令,并将唤醒指令通过控制装置与显示设备之间的通信连接(如蓝牙连接)发送给显示设备。
其中,本申请对于预设唤醒内容不做限定,可以是用户注册的唤醒词,也可以是显示设备默认配置的唤醒词。
S702、响应所述唤醒指令,获取回采唤醒标识;回采唤醒标识是基于第一音频对应的回采音频进行配置的,回采音频为所述显示设备本机输出的播放音频。
其中,回采唤醒标识为显示设备中配置的用于进行唤醒指令校验的特定标识。回采唤醒标识可以被配置为两个不同的预设值,其中一个预设值表示唤醒指令为误唤醒,另一个预设值表示唤醒指令为用户正常唤醒。例如,回采唤醒标识可以被配置为1或者0,1表示唤醒指令为误唤醒,0表示唤醒指令为用户正常唤醒。
需要说明的是,对于回采唤醒标识对应的值并不限于示例中的0或者1,也可以为其他值,能够实现区分两种不同状态即可。
结合前述图6所示实施例,显示设备的应用层中包含:唤醒内容检测应用和语音服务。在此基础上,显示设备可以但不限于通过如下任一方式获取回采唤醒标识的值。
在一些实施例中,显示设备可以在开机之后,通过回采电路实时进行回采音频的采集,且在采集的过程中,同步地执行唤醒内容检测,并基于唤醒内容检测结果配置回采唤醒标识的值,当显示设备接收到唤醒指令,则可以直接读取回采唤醒标识的值用于进行唤醒指令校验。
在另一些实施例中,显示设备可以在接收到唤醒指令后,唤醒内容检测应用启动针对回采音频进行唤醒内容检测,并基于唤醒内容检测结果配置回采唤醒标识的值,之后,语音服务读取回采唤醒标识的值用于进行唤醒指令校验。
在另一些实施例中,显示设备可以在检测到有播放音频时,启动唤醒内容检测,并基于唤醒内容检测结果配置回采唤醒标识的值,当显示设备接收到唤醒指令,则可以直接读取回采唤醒标识的值用于进行唤醒指令校验。
在一些实施例中,显示设备可以利用VAD模型对回采音频进行语音活动检测,即确定回采音频中的语音片段和非语音片段,当检测到语音片段时,再启动唤醒内容检测模型进行唤醒内容检测以及回采唤醒标识的配置;VAD模型输出的结果指示回采音频中为非语音片段时,则不执行唤醒内容检测,且可以配置回采唤醒标识的值为唤醒指令为用户正常唤醒对应的预设值,例如,0。
需要说明的是,在控制组装置和显示设备中可以配置相同的唤醒内容检测模型。且本申请对于唤醒内容检测模型的类型、模型大小、网络结构等等均不作限定,例如,可以为深度神经网络(DNN)、卷积神经网络(CNN)等等。
S703、根据回采唤醒标识,确定回采音频中是否包含预设唤醒内容。若包含,则执行步骤S704;若不包含,则执行步骤S705。
即显示设备可根据回采唤醒标识的值确定执行步骤S704或者步骤S705。示例性地,结合前文示例,若回采唤醒标识可以被配置为1或者0,1表示唤醒指令为误唤醒,0表示唤醒指令为用户正常唤醒,当显示设备读取的回采唤醒标识的值为1时,则执行步骤S704,若读取的回采唤醒标识的值为0时,则执行步骤S705。
S704、丢弃唤醒指令。
显示设备丢弃唤醒指令,不作任何处理,例如,不打断当前正在执行的其他任务,如视频播放任务、音乐播放任务等等,从而减少由于误唤醒对用户带来的干扰。
S705、唤醒语音服务。
显示设备确定唤醒语音服务,则可以显示语音交互界面以及输出语音交互内容,之后,还可以响应用户输入的语音指令。
其中,语音交互界面可以是显示设备根据控制装置发送的进行了语音降噪处理后的第一音频识别其中的语音指令,在显示设备的显示器中显示语音交互界面中展示语音指令的内容。示例性地,语音交互界面可以采用如图5所示的方式呈现给用户,使得用户能够根据文本框中的文字确定显示设备是否识别到正确的语音指令。
语音交互内容可以为针对第一音频中的语音指令的语音回复内容。例如,第一音频中包含的语音指令为“我想看电视剧XXX”,则语音回复内容可以为“好的,正在为您搜索电视剧XXX,请您耐心等待”,通过向用户回复语音交互内容,能够提高显示设备与用户之间的交互性,从而提高用户体验感受。
本实施例提供的方法,显示设备通过对输出的播放音频进行回采,再对回采音频进行唤醒内容检测,根据唤醒内容检测结果配置回采唤醒标识,当显示设备接收到控制装置发送的唤醒指令,则结合回采唤醒标识的值验证唤醒指令是由用户正常唤醒或者由显示设备本机输出的播放音频误唤醒,从而避免显示设备中的语音服务被本机输出的播放音频误唤醒的问题。
结合图7中步骤S702的介绍可知,获取回采唤醒标识可以通过多种方式实现,接下来,通过图8至图10所示实施例详细介绍。且需要说明的是,在图8至图10所示实施例中,考虑了显示设备的播放音量对于误唤醒的影响。且在图8至图10实施例中,以预设播放音量为0为例进行实例,当然,预设播放音量也可以为其他值。
图8为本申请一实施例提供的设备控制方法的流程图。请参阅图8所示,本实施例的方法包括:
S801、显示设备开机,启动唤醒内容检测模型。
用户可以通过操作控制装置控制显示设备开机,开机之后,显示设备的控制器启动唤醒内容检测应用,预加载唤醒内容检测模型的参数,为后续的唤醒内容检测做准备。
S802、获取回采音频。
显示设备的控制器控制回采电路实时从音频处理器中采集未经过任何音效算法处理的播放音频,或者,经过音效算法处理后且输出至扬声器前的播放音频,从而获得回采音频,获取的回采音频可以缓存至显示设备的存储器中。
S803、确定显示设备是否静音播放。若非静音播放,则执行步骤S804;若静音播放,则步骤S805。
确定显示设备输出的播放音频的播放音量大小是否为0,若播放音量为0,则确定显示设备当前处于静音播放,若播放音量不为0,则确定显示设备当前处于非静音播放。
S804、配置回采唤醒标识的值为第一预设值(例如0)。
S805、根据唤醒内容检测模型对回采音频进行检测,获得唤醒内容检测结果。
唤醒内容检测应用从存储器中读取回采音频,并将回采音频输入至唤醒内容检测模型中,获取唤醒内容检测模型输出的唤醒内容检测结果。
S806、唤醒内容检测结果指示回采音频是否包含预设唤醒内容。
若是,则执行S807;若否,则执行S804。
S807、配置回采唤醒标识的值为第二预设值(例如1)。
当回采唤醒标识的值更新完成之后,返回执行步骤S803,重复执行步骤S803至步骤S807。
S808、接收控制装置发送的唤醒指令。
S809、确定回采唤醒标识的值为第一预设值或者第二预设值。
若为第一预设值,则执行步骤S810;若为第二预设值,则执行步骤S811。
S810、唤醒语音服务。
S811、丢弃唤醒指令。
步骤S810和步骤S811的实现方式可参照图7实施例中步骤S704以及步骤S705的详细描述,简明起见,此处不再赘述。
本实施例中,显示设备执行唤醒内容检测以及回采唤醒标识的配置的处理过程,与显示设备接收唤醒指令以及执行唤醒指令验证的过程可以理解为并行处理的过程,整体验证耗时较短,能够实现快速完成唤醒指令的校验。
图9为本申请一实施例提供的设备控制方法的流程图。请参阅图9所示,本实施例的方法包括:
S901、显示设备在开机,获取回采音频。
用户可以通过操作控制装置控制显示设备开机,开机之后,显示设备的控制器控制回采电路实时从音频处理器中采集未经过任何音效处理的播放音频,或者,经过音效处理后输出至扬声器前的播放音频,从而获得回采音频,获取的回采音频可以缓存至显示设备的存储器中。
S902、接收控制装置发送的唤醒指令。
S903、确定显示设备是否静音播放。若是静音播放,则执行步骤S904;若非静音播放,则执行步骤S905。
S904、配置回采唤醒标识的值为第一预设值(例如0)。
S905、启动唤醒内容检测模型对回采音频进行检测,获得唤醒内容检测结果。
唤醒内容检测应用从存储器中读取距离接收唤醒指令时刻预设时间段内的回采音频,并将回采音频输入至唤醒内容检测模型中,获取唤醒内容检测模型输出的唤醒内容检测结果。
例如,显示设备接收唤醒指令的时刻为t1时刻,唤醒内容检测应用可以从存储器中读取t1-n至t1时刻这一时间段内的回采音频,本申请对于n的大小取值不作限定。
在一些实施例中,n的取值大小可以结合用户说话语速以及预设唤醒内容的长度确定。例如,n可以为用户正常读出预设唤醒内容所需时间的1.5倍。示例性地,n可以为3秒至5秒中任意大小。
S906、唤醒内容检测结果指示回采音频是否包含预设唤醒内容。
若是,则执行S907;若否,则执行S904。
S907、配置回采唤醒标识的值为第二预设值(例如1)。
当回采唤醒标识的值更新完成之后,接下来,显示设备的语音服务可以执行唤醒指令的验证。
S908、确定回采唤醒标识的值为第一预设值或者第二预设值。
若回采唤醒标识的值为第一预设值,则执行步骤S909、唤醒语音服务;若回采唤醒标识的值为第二预设值,则执行步骤S910、丢弃唤醒指令。
其中,步骤S909和步骤S910的实现方式可参照图7实施例中步骤S704以及步骤S705的详细描述,简明起见,此处不再赘述。
本实施例中,显示设备执行唤醒内容检测以及回采唤醒标识的配置的处理过程,与显示设备接收唤醒指令以及执行唤醒指令验证的过程可以理解为串行处理的过程,适用于显示设备的数据处理能力较低时完成唤醒指令校验的情形。
图10为本申请一实施例提供的设备控制方法的流程图。请参阅图10所示,本实施例的方法包括:
S1001、显示设备开机,获取回采音频。
用户可以通过操作控制装置控制显示设备开机,开机之后,显示设备的控制器控制回采电路实时从音频处理器中采集未经过任何音效处理的播放音频,或者,经过音效处理后输出至扬声器前的播放音频,从而获得回采音频,获取的回采音频可以缓存至显示设备的存储器中。
S1002、确定显示设备是否静音播放。若静音播放,则执行步骤S1003;若非静音播放,则执行步骤S1004。
S1003、配置回采唤醒标识为第一预设值(例如0)。
S1004、显示设备对回采音频进行VAD检测,识别回采音频中是否包含语音片段。若未检测到语音片段,执行步骤S1003;若检测到语音片段,则执行S1005。
在一些实施例中,若显示设备在预设时间段内未检测到语音片段,则可以周期性地配置回采唤醒标识的值为第一预设值。
S1005、启动唤醒内容检测模型对回采音频进行检测,获得唤醒内容检测结果。
S1006、唤醒内容检测结果指示回采音频是否包含预设唤醒内容。
若是,则执行S1007;若否,则执行S1003。
S1007、配置回采唤醒标识的值为第二预设值(例如1)。
当回采唤醒标识的值更新完成之后,可以返回执行步骤S1002,以重复执行步骤S1002至步骤S1007。
即在接收到唤醒指令之前,可以不断重复获取回采音频以及基于回采音频配置回采唤醒标识的过程。
S1008、接收控制装置发送的唤醒指令。
S1009、确定回采唤醒标识的值为第一预设值或者第二预设值。
若为第一预设值,则执行步骤S1010、唤醒语音服务;若为第二预设值,则执行步骤S1011、丢弃唤醒指令。
其中,步骤S1010和步骤S1011的实现方式可参照图7实施例中步骤S704以及步骤S705的详细描述,简明起见,此处不再赘述。
本实施例中,显示设备执行唤醒内容检测以及回采唤醒标识的配置的处理过程,与显示设备接收唤醒指令以及执行唤醒指令验证的过程可以理解为并行处理的过程,整体耗时较短,能够实现快速完成唤醒指令的校验。
此外,本实施例中,通过VAD技术对回采音频进行语音活动检测,当检测到语音片段时再启动唤醒内容检测,检测到非语音片段时可以不进行唤醒内容检测,从而减小显示设备进行唤醒内容检测的工作量。
在实际应用中,可根据显示设备的硬件资源占用情况或者硬件配置,采用图8至图10任一实施例所示的方式进行唤醒指令的校验。
示例性地,本申请实施例还提供一种电子设备,包括:存储器和处理器,本公开对于存储器和处理器的类型等等不做限定,其中,存储器和处理器可以通过数据总线连接。存储器被配置为存储计算机程序指令,处理器被配置为执行计算机程序指令,使得电子设备实现如上任一方法实施例所示的设备控制方法。
示例性地,本申请实施例还提供一种计算机可读存储介质,包括:计算机程序指令,计算机程序指令被电子设备的至少一个处理器执行时,使得所述电子设备实现如上任一方法实施例所示的设备控制方法。
示例性地,本申请实施例还提供一种计算机程序产品,当电子设备执行计算机程序产品,使得电子设备实现如上任一方法实施例所示的设备控制方法。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (10)

1.一种显示设备,其特征在于,包括:
通信器,被配置为:接收控制装置基于采集到的第一音频发送的唤醒指令;所述唤醒指令用于指示唤醒所述显示设备中的语音服务;所述第一音频包括预设唤醒内容;
控制器,被配置为:响应所述唤醒指令,获取回采唤醒标识;所述回采唤醒标识是基于所述第一音频对应的回采音频进行配置的,所述回采音频为所述显示设备本机输出的播放音频;
若所述回采唤醒标识指示所述回采音频中不包含所述预设唤醒内容,则唤醒所述显示设备中的语音服务;
若所述回采唤醒标识指示所述回采音频中包含所述预设唤醒内容,则丢弃所述唤醒指令。
2.根据权利要求1所述的显示设备,其特征在于,所述控制器,具体被配置为:所述显示设备开机后,开始获取回采音频,并基于获取的回采音频实时进行唤醒内容检测;基于唤醒内容检测结果配置所述回采唤醒标识。
3.根据权利要求1所述的显示设备,其特征在于,所述控制器,具体被配置为:响应所述唤醒指令,获取所述回采音频;并对所述回采音频进行唤醒内容检测;根据唤醒内容检测结果配置所述回采唤醒标识。
4.根据权利要求1所述的显示设备,其特征在于,所述控制器,具体被配置为:获取所述回采音频,在检测到所述回采音频中包含语音片段时,启动对所述回采音频进行唤醒内容检测;根据唤醒内容检测结果配置所述回采唤醒标识。
5.根据权利要求4所述的显示设备,其特征在于,所述控制器,具备被配置为:
通过语音活动检测VAD模型检测所述回采音频中是否包含语音片段。
6.根据权利要求2至5任一项所述的显示设备,其特征在于,所述控制器,具体被配置为:
获取所述回采音频,并确定所述显示设备的播放音量是否小于预设值;
若所述播放音量大于所述预设音量值,则对所述回采音频进行唤醒内容检测,并根据唤醒内容检测结果配置所述回采唤醒标识;
若所述播放音量小于或等于所述预设音量值,则配置所述回采唤醒标识指示所述回采音频中不包含预设唤醒内容。
7.根据权利要求2至5任一项所述的显示设备,其特征在于,所述控制器,具体被配置为:
获取未经过音效算法处理的原始播放音频为所述回采音频;或者,获取经过音效算法处理,输出至所述显示设备的扬声器之前的播放音频为所述回采音频。
8.根据权利要求2至5任一项所述的显示设备,其特征在于,所述控制器,具体被配置为:通过预设的唤醒内容检测模型对所述回采音频进行唤醒内容检测。
9.一种设备控制方法,其特征在于,应用于显示设备,所述方法包括:
接收控制装置基于采集到的第一音频发送的唤醒指令,所述唤醒指令用于指示唤醒所述显示设备中的语音服务;所述第一音频包含预设唤醒内容;
响应所述唤醒指令,获取回采唤醒标识;所述回采唤醒标识是基于所述第一音频对应的回采音频进行配置的,所述回采音频包括所述显示设备本机输出的播放音频;
若所述回采唤醒标识指示所述回采音频中不包含所述预设唤醒内容,则唤醒所述显示设备中的语音服务;
若所述回采唤醒标识指示所述回采音频中包含所述预设唤醒内容,则丢弃所述唤醒指令。
10.一种可读存储介质,其特征在于,包括:计算机程序指令;
所述计算机程序指令被电子设备的至少一个处理器执行,使得所述电子设备实现如权利要求9所述的设备控制方法。
CN202210430347.4A 2022-04-22 2022-04-22 显示设备、设备控制方法及可读存储介质 Pending CN114979781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210430347.4A CN114979781A (zh) 2022-04-22 2022-04-22 显示设备、设备控制方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210430347.4A CN114979781A (zh) 2022-04-22 2022-04-22 显示设备、设备控制方法及可读存储介质

Publications (1)

Publication Number Publication Date
CN114979781A true CN114979781A (zh) 2022-08-30

Family

ID=82980016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210430347.4A Pending CN114979781A (zh) 2022-04-22 2022-04-22 显示设备、设备控制方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN114979781A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN209731554U (zh) * 2019-05-20 2019-12-03 北京声智科技有限公司 智能语音识别回采电路
CN112420064A (zh) * 2020-10-21 2021-02-26 深圳创维-Rgb电子有限公司 无线音箱设备语音回声消除处理方法、装置及智能终端
CN112712803A (zh) * 2019-07-15 2021-04-27 华为技术有限公司 一种语音唤醒的方法和电子设备
CN113014978A (zh) * 2021-02-18 2021-06-22 四川长虹电器股份有限公司 提高电视远场语音激活率的方法、计算机设备、存储介质
CN113709535A (zh) * 2021-08-31 2021-11-26 海信视像科技股份有限公司 一种显示设备、及基于声道使用的远场语音识别方法
US20210407494A1 (en) * 2020-06-30 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Control method and control apparatus for speech interaction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN209731554U (zh) * 2019-05-20 2019-12-03 北京声智科技有限公司 智能语音识别回采电路
CN112712803A (zh) * 2019-07-15 2021-04-27 华为技术有限公司 一种语音唤醒的方法和电子设备
US20210407494A1 (en) * 2020-06-30 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Control method and control apparatus for speech interaction
CN112420064A (zh) * 2020-10-21 2021-02-26 深圳创维-Rgb电子有限公司 无线音箱设备语音回声消除处理方法、装置及智能终端
CN113014978A (zh) * 2021-02-18 2021-06-22 四川长虹电器股份有限公司 提高电视远场语音激活率的方法、计算机设备、存储介质
CN113709535A (zh) * 2021-08-31 2021-11-26 海信视像科技股份有限公司 一种显示设备、及基于声道使用的远场语音识别方法

Similar Documents

Publication Publication Date Title
CN113763958B (zh) 语音唤醒方法、装置、电子设备和存储介质
CN113066490B (zh) 一种唤醒响应的提示方法和显示设备
CN111240546B (zh) 一种分屏处理方法及通信终端
CN112885354B (zh) 一种显示设备、服务器及基于语音的显示控制方法
CN112860169B (zh) 交互方法及装置、计算机可读介质和电子设备
CN114020197B (zh) 跨应用的消息的处理方法、电子设备及可读存储介质
US10108388B2 (en) Display apparatus and controlling method thereof
CN111968641B (zh) 语音助手唤醒控制方法及装置、存储介质和电子设备
CN109032554B (zh) 一种音频处理方法和电子设备
KR102340251B1 (ko) 데이터 관리 방법 및 그 방법을 처리하는 전자 장치
CN113630569B (zh) 显示设备及显示设备的控制方法
WO2023155607A1 (zh) 终端设备和语音唤醒方法
CN107967915A (zh) 显示装置及其控制方法
CN114979781A (zh) 显示设备、设备控制方法及可读存储介质
CN112017651A (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN113038048B (zh) 一种远场语音唤醒方法和显示设备
CN114694661A (zh) 一种第一终端设备、第二终端设备和语音唤醒方法
CN113593559A (zh) 一种内容显示方法、显示设备及服务器
CN112114883A (zh) 一种终端唤醒方法、终端及计算机存储介质
CN113542878A (zh) 一种基于人脸识别与手势检测的唤醒方法及显示设备
CN111225113A (zh) 一种通信终端及通信终端的开机方法
WO2023241189A1 (zh) 智能电视控制方法和设备
CN113573145B (zh) 一种预约任务执行方法及显示设备
CN116189674A (zh) 一种语音控制方法及显示设备
CN117812403A (zh) 显示设备以及显示设备的唤醒方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination