CN113038048B - 一种远场语音唤醒方法和显示设备 - Google Patents

一种远场语音唤醒方法和显示设备 Download PDF

Info

Publication number
CN113038048B
CN113038048B CN202110231065.7A CN202110231065A CN113038048B CN 113038048 B CN113038048 B CN 113038048B CN 202110231065 A CN202110231065 A CN 202110231065A CN 113038048 B CN113038048 B CN 113038048B
Authority
CN
China
Prior art keywords
awakening
state
wake
equipment
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110231065.7A
Other languages
English (en)
Other versions
CN113038048A (zh
Inventor
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202110231065.7A priority Critical patent/CN113038048B/zh
Publication of CN113038048A publication Critical patent/CN113038048A/zh
Application granted granted Critical
Publication of CN113038048B publication Critical patent/CN113038048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本实施例提供一种远场语音唤醒方法和显示设备。显示设备在接收唤醒语音后,确定唤醒值。本申请事先测定显示设备静音状态下的唤醒阈值和播放状态下的唤醒阈值。在需要开启远场语音控制功能时,根据显示设备处于的不同状态,调用对应的唤醒阈值与唤醒值作比对,根据比对结果判断是否开启远场语音控制功能。本申请能够避免更改显示设备的音响音效参数,造成的麦克风采集的本机声音与原始音频不一致,最终影响唤醒效果的情况,从而提升用户使用体验。

Description

一种远场语音唤醒方法和显示设备
技术领域
本申请涉及显示设备技术领域,尤其涉及一种远场语音唤醒方法和显示设备。
背景技术
随着智能电视的智能化程度加深,很多智能电视都具备远场语音控制功能。远场语音与近场语音的区别为远场语音的距离通常在1m到10m的范围。另外,近场语音的唤醒通常是依赖于遥控器按键等设备操作,而远场语音的唤醒通常是基于唤醒词,即从用户输入的唤醒语音中识别唤醒词,从而开启远场语音控制功能。
在智能电视通过扬声器播放本机声音时,麦克风同时采集本机声音和用户输入的唤醒语音。因此,在从唤醒语音中识别唤醒词之前,需要对唤醒语音作回声消除处理,以使去除本机声音。
然而,智能电视在进行回声消除处理时去除的本机声音,是通过硬件回路直接获取的原始音频数据。如果用户更改智能电视的音响音效参数,则会造成麦克风采集的本机声音与原始音频数据不一致,影响回声消除效果,最终影响唤醒效果,导致用户使用体验较差。
发明内容
本申请提供了一种远场语音唤醒方法和显示设备,用于解决用户在使用传统的显示设备时,如果更改显示设备的音响音效参数,则会造成麦克风采集的本机声音与原始音频数据不一致,影响回声消除效果,最终影响唤醒效果,导致用户使用体验较差的问题。
第一方面,本实施例提供一种显示设备,包括,
显示器;
声音采集器,用于执行采集唤醒语音;
控制器,用于执行:
接收所述唤醒语音,以及确定所述唤醒语音的唤醒值;
在所述显示设备的状态为设备播放状态,且所述唤醒值大于等于播放唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述播放唤醒阈值为在所述显示设备的状态为设备播放状态时,测定的唤醒阈值;
在所述显示设备的状态为设备静音状态,且所述唤醒值大于等于静音唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述静音唤醒阈值为在所述显示设备的状态为设备静音状态时,测定的唤醒阈值。
第二方面,本实施例提供一种远场语音唤醒方法,应用于显示设备,包括,
接收唤醒语音,以及确定所述唤醒语音的唤醒值;
在所述显示设备的状态为设备播放状态,且所述唤醒值大于播放唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述播放唤醒阈值为在所述显示设备的状态为设备播放状态时,测定的唤醒阈值;
在所述显示设备的状态为设备静音状态,且所述唤醒值大于静音唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述静音唤醒阈值为在所述显示设备的状态为设备静音状态时,测定的唤醒阈值。
本申请实施例提供的显示设备,在接收用户输入的唤醒语音后,确定该唤醒语音的唤醒值。在显示设备的状态为设备播放状态时,将对应的播放唤醒阈值与唤醒值进行对比。如果唤醒值大于等于播放唤醒阈值,则开启远场语音控制功能。播放唤醒阈值为在显示设备的状态为设备播放状态时测定的唤醒阈值。在显示设备的状态为设备静音状态时,将对应的静音唤醒阈值与唤醒值进行比较。如果唤醒值大于等于静音唤醒阈值,则开启远场语音控制功能。静音唤醒阈值为在显示设备的状态为设备静音状态时测定的唤醒阈值。本申请事先测定显示设备静音状态下的唤醒阈值和播放状态下的唤醒阈值。在需要开启远场语音控制功能时,根据显示设备处于的不同状态,调用对应的唤醒阈值与唤醒值作比对,根据比对结果判断是否开启远场语音控制功能。本申请能够避免更改显示设备的音响音效参数,造成的麦克风采集的本机声音与原始音频不一致,最终影响唤醒效果的情况,从而提升用户使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据一些实施例的显示设备的使用场景;
图2示出了根据一些实施例的控制装置100的硬件配置框图;
图3示出了根据一些实施例的显示设备200的硬件配置框图;
图4示出了根据一些实施例的显示设备200中软件配置图;
图5示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示图;
图6示出了根据一些实施例的显示设备的远场语音唤醒系统框架图;
图7示出了根据一些实施例的远场语音唤醒方法信令图;
图8示出了根据一些实施例的又一种远场语音唤醒方法信令图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
图1为根据实施例中显示设备的使用场景的示意图。如图1所示,显示设备200还与服务器400进行数据通信,用户可通过智能设备300或控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式中的至少一种,通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令,来控制显示设备200。
在一些实施例中,智能设备300可以包括移动终端300A、平板电脑、计算机、笔记本电脑,AR/VR设备等中的任意一种。
在一些实施例中,也可以使用智能设备300以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。
在一些实施例中,也可以使用智能设备300和显示设备进行数据的通信。
在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
在一些实施例中,一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的,服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行,反之亦然。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。
在一些实施例中,通信接口130用于和外部通信,包含WIFI芯片,蓝牙模块,NFC或可替代模块中的至少一种。
在一些实施例中,用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
图3示出了根据示例性实施例中显示设备200的硬件配置框图。
在一些实施例中,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
在一些实施例中,显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。
在一些实施例中,显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
在一些实施例中,调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
在一些实施例中,检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
在一些实施例中,外部装置接口240可以包括但不限于如下:高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random AccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
CPU处理器。用于执行存储在存储器中操作系统和应用程序指令,以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。CPU处理器,可以包括多个处理器。如,包括一个主处理器以及一个或多个子处理器。
在一些实施例中,图形处理器,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象;还包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
在一些实施例中,视频处理器,用于将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中,解复用模块,用于对输入音视频数据流进行解复用处理。视频解码模块,用于对解复用后的视频信号进行处理,包括解码和缩放处理等。图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。帧率转换模块,用于对转换输入视频帧率。显示格式化模块,用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,音频处理器,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理中的至少一种,得到可以在扬声器中播放的声音信号。
在一些实施例中,用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,″用户界面″,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些实施例中,用户接口280,为可用于接收控制输入的接口(如:显示设备本体上的实体按键,或其他等)。
在一些实施例中,显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称″应用层″),应用程序框架(Application Framework)层(简称″框架层″),安卓运行时(Android runtime)和系统库层(简称″系统运行库层″),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包不限于以上举例。
框架层为应用程序层的应用程序提供应用编程接口(application programminginterface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互;位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
在一些实施例中,显示设备启动后可以直接进入预置的视频点播程序的界面,视频点播程序的界面可以如图5中所示,至少包括导航栏510和位于导航栏510下方的内容显示区,内容显示区中显示的内容会随导航栏中被选中控件的变化而变化。应用程序层中的程序可以被集成在视频点播程序中通过导航栏的一个控件进行展示,也可以在导航栏中的应用控件被选中后进行进一步显示。
在一些实施例中,显示设备启动后可以直接进入上次选择的信号源的显示界面,或者信号源选择界面,其中信号源可以是预置的视频点播程序,还可以是HDMI接口,直播电视接口等中的至少一种,用户选择不同的信号源后,显示器可以显示从不同信号源获得的内容。
在显示设备的语音识别技术领域,与近场语音识别不同的是,远场语音识别的操作距离通常在1m到10m的范围内。因此远场语音唤醒通常不同依赖于遥控器按键等设备操作,而是基于唤醒词。即从用户输入的唤醒语音中识别唤醒词,实现远场语音唤醒。
语音识别引擎在从唤醒语音中识别唤醒词之前,需要对唤醒语音作回声消除处理,以使去除本机声音。
然而,现有的显示设备在对唤醒语音作回声消除处理时,去除的本机声音,是通过硬件回路直接获取的原始音频数据。如果用户更改显示设备的音响音效参数,则会造成麦克风采集的本机声音与原始音频数据不一致,进而影响回声消除效果,最终影响唤醒效果,导致用户使用体验较差。
为了解决上述问题,本申请提供一种显示设备,本实施例的显示设备在接收到唤醒语音之前,事先在显示设备中建立远场语音控制功能和音响音效的互斥关系。即在显示设备开机之后,开启远场语音控制功能时,判断音响音效是否开启。如果音响音效为关闭状态,则正常使用远场语音控制功能。如果音响音效为开启状态,则关闭音响音效,才可正常使用远场语音控制功能。
在显示设备开机之后,开启音响音效时,判断远场语音控制功能是否开启。如果远场语音控制功能为关闭状态,则正常使用音响音效。如果远场语音控制功能为开启状态,则关闭远场语音控制功能,才可正常使用音响音效。
上述技术方案实际上是远场语音控制功能和音响音效二选一的使用,因而能够避免音响音效对远场语音控制功能的影响。但是远场语音控制功能和音响音效不能够同时使用,造成功能闲置和用户使用体验仍然较差。
为了解决上述问题,本申请提供一种显示设备,如图6所示的根据实施例中显示设备的远场语音唤醒系统框架图。用户可以利用本申请的语音唤醒系统,通过实际测定的唤醒阈值,根据定制化的唤醒阈值,判断是否唤醒远场语音控制功能,提升用户使用体验。
显示设备200包括声音采集器230A和控制器250。显示设备通过声音采集器采集用户的唤醒语音数据,并将唤醒语音数据发送至控制器。控制器又包括唤醒阈值测定器和唤醒检测器,唤醒阈值测定器用于测定唤醒阈值,唤醒检测器用与根据测定的唤醒阈值判断是否唤醒远场语音控制功能。
在一些实施例中,显示设备中预设有静音唤醒阈值和播放唤醒阈值(事先测定的阈值)。所述静音唤醒阈值为在显示设备的状态为设备静音状态时,测定的唤醒阈值。所述播放唤醒阈值为在西显示设备的状态为设备播放静音状态时,测定的唤醒阈值。
在一些实施例中,静音唤醒阈值的测定方法为:在显示设备的状态为设备静音状态时,唤醒阈值测定器接收测试语音,将所述测试语音输入到训练好的唤醒模型,利用唤醒模型对测试语音中的唤醒词检测打分,根据检测打分确定静音唤醒阈值。
其中,利用唤醒模型对测试语音中的唤醒词检测打分,根据检测打分确定静音唤醒阈值,具体为:利用唤醒模型中的唤醒词模型,判断测试语音属于预设唤醒词的可能性,根据可能性对测试语音进行打分。测试语音可以为唤醒词也可以为非唤醒词,利用唤醒模型对唤醒词和非唤醒词打分后,可以画出唤醒词与非唤醒词的得分分布。根据唤醒词和非唤醒词的得分分布,画出ROC曲线(receiver operating characteristic curve,受试者工作特征曲线)。最后可以选择ROC曲线上的EER(Equal Error Rate,等错误率)点,将该点设置为静音唤醒阈值。
唤醒模型在使用之前需要进行训练。训练唤醒模型首先需要定义唤醒词,一般定义一个3-4个音节的词语作为唤醒词,例如,″小爱同学″″小度小度″等等。之后需要收集唤醒词的发音,例如可以按照千人千时的规则收集唤醒词发音。最后将收集的数据输入准备的好的模型,对模型进行训练。基础算法模型可以采用基于模板匹配的KWS(Keywordspotting,关键词检索)、基于马尔可夫模型的KWS以及基于深度学习的KWS。
在一些实施例中,唤醒阈值测定器包括音响音效参数测定器和唤醒模型。播放唤醒阈值的测定方法为:在显示设备的状态为设备播放状态时,获取显示设备的当前音响音效参数(可以是音响音效参数测定器测定的当前显示设备的音响音效参数)。根据当前音响音效参数修改唤醒模型的参数。播放唤醒阈值测定的唤醒模型与静音唤醒阈值测定所使用的唤醒模型可以是用一个唤醒模型,这样可以保证其他参数一致,而只需考虑音响音效参数对唤醒阈值的影响。
唤醒阈值测定器接收测试语音,将所述测试语音输入到修改后的唤醒模型,利用修改后的唤醒模型对测试语音中的唤醒词检测再次打分,根据再次打分确定播放唤醒阈值。
其中,利用修改后的唤醒模型对测试语音中的唤醒词检测再次打分,根据再次打分确定静音唤醒阈值,具体为:利用修改后的唤醒模型中的唤醒词模型,判断测试语音属于预设唤醒词的可能性,根据可能性对测试语音进行打分。测试语音可以包括唤醒词和非唤醒词。利用唤醒模型对唤醒词和非唤醒词打分后,可以画出唤醒词与非唤醒词的得分分布。根据唤醒词和非唤醒词的得分分布,画出ROC曲线(receiver operating characteristiccurve,受试者工作特征曲线)。最后可以选择ROC曲线上的EER(Equal Error Rate,等错误率)点,将该点设置为播放唤醒阈值。
在一些实施例中,唤醒检测器在接收到声音采集器采集的唤醒语音后,确定唤醒语音的唤醒值。这里,需要首先判断当前显示设备的状态,如果显示设备为设备播放状态,则将唤醒语音输入到播放状态时的唤醒模型(对静音状态时的唤醒模型修改相关参数后得到的唤醒模型),得到对应的唤醒值。如果显示设备为设备静音状态,则将唤醒语音输入静音状态时的唤醒模型,得到对应的唤醒值。
如果当前显示设备的状态为设备静音状态,则调用静音唤醒阈值。如果该唤醒语音的唤醒值大于等于静音唤醒阈值,则确定唤醒成功,开启显示设备的远场语音控制功能。如果该唤醒语音的唤醒值小于静音唤醒阈值,则确定唤醒失败,不开启显示设备的远场语音控制功能。
如果当前显示设备的状态为设备播放状态,则调用播放唤醒阈值,如果该唤醒语音的唤醒值大于等于播放唤醒阈值,则确定唤醒成功,开启显示设备的远场语音控制功能。如果该唤醒语音的唤醒值小于播放唤醒阈值,则确定唤醒失败,不开启显示设备的远场语音控制功能。
在一些实施例中,显示设备的当前音响音效参数为根据显示设备的初始音效和当前音响发声的录音评定后得到的参数。其中,初始音效为显示设备的音箱出厂时的音效参数。用户可以在使用过程中对音响的音效进行调整,示例性的,对音响音效作增加均衡器控制、动态范围控制、伴音曲线调整等改变。
音响音效参数测定器可以直接根据初始音效参数和调整后的音效参数确定当前音响音效参数。这样获得的音效是从系统中直接获取的音效,可能会由于显示设备播放的内容,导致音效改变的情况发生。也可以根据当前音响发声的录音,对该录音进行评定,得到当前音响音效参数。这样获得的音效是根据音响实际发出的声音,判断音效参数,避免由于播放内容的不同导致的音效改变的情况发生。
上述实施例未考虑噪声影响,仅考虑音效音响对唤醒阈值测定的影响。但是在某些噪声环境中,由于噪声的影响,会存在唤醒阈值无法满足唤醒要求的情况,可能会造成误唤醒率高或唤醒率下降等问题产生。因此仍然导致用户使用体验较差。
为了解决上述问题,在一些实施例中,测定静音唤醒阈值的步骤为:在显示设备的状态为静音状态时,利用环境噪声参数修改训练好的唤醒模型的参数,得到修改后的唤醒模型。再采用上述实施例中唤醒阈值的测定方法和修改后的唤醒模型,得到静音唤醒阈值。
同样的,测定播放唤醒阈值的步骤为:在显示设备的状态为设备播放状态时,利用显示设备的当前音响音效参数和环境噪声参数修改训练好的唤醒模型的参数,得到修改后的唤醒模型。这里测定播放唤醒阈值使用的环境噪声参数,和上述测定静音唤醒阈值使用的环境噪声参数可以是相同的参数。最后采用上述实施例中唤醒阈值的测定方法和修改后的唤醒模型,得到播放唤醒阈值。
在一些实施例中,唤醒阈值测定器还包括噪声参数测定器,可利用噪声参数测定器动态测定显示设备所在环境的环境噪声参数。例如可以周期性的测定环境噪声参数,实现周期性的更改唤醒模型的参数,从而实现动态调整唤醒阈值。示例性的,白天的环境噪声较大,由于较大的环境噪声的影响,远场语音控制功能较不容易被唤醒,因此唤醒阈值经过测定较低。而晚上的环境比较安静,显示设备容易被环境中噪声误唤醒,因此可以适当调高唤醒阈值,减少误唤醒情况的发生。
本申请实施例提供一种显示设备的语音控制方法,图7所示的远场语音唤醒方法的信令图,所述方法包括以下步骤:
步骤一、声音采集器采集到用户输入的唤醒语音,声音采集器将采集的唤醒语音发送至唤醒检测器。唤醒检测器首先计算唤醒语音对应的唤醒值。
步骤二、在所述显示设备的状态为设备播放状态,且所述唤醒值大于播放唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述播放唤醒阈值为在所述显示设备的状态为设备播放状态时,测定的唤醒阈值。
步骤三、在所述显示设备的状态为设备静音状态,且所述唤醒值大于静音唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述静音唤醒阈值为在所述显示设备的状态为设备静音状态时,测定的唤醒阈值。
在一些实施例中,静音唤醒阈值的测定过程为:在显示设备的状态为设备静音状态时,控制器接收测试语音,将所述测试语音输入到训练好的唤醒模型,利用唤醒模型对测试语音中的唤醒词检测打分,根据检测打分确定静音唤醒阈值。
其中,利用唤醒模型对测试语音中的唤醒词检测打分,根据检测打分确定静音唤醒阈值,具体为:利用唤醒模型中的唤醒词模型,判断测试语音属于预设唤醒词的可能性,根据可能性对测试语音进行打分。测试语音可以为唤醒词也可以为非唤醒词,利用唤醒模型对唤醒词和非唤醒词打分后,可以画出唤醒词与非唤醒词的得分分布。根据唤醒词和非唤醒词的得分分布,画出ROC曲线(receiver operating characteristic curve,受试者工作特征曲线)。最后可以选择ROC曲线上的EER(Equal Error Rate,等错误率)点,将该点设置为静音唤醒阈值。
在一些实施例中,播放唤醒阈值的测定方法为:在显示设备的状态为设备播放状态时,获取显示设备的当前音响音效参数。根据当前音响音效参数修改唤醒模型的参数。播放唤醒阈值测定的唤醒模型与静音唤醒阈值测定所使用的唤醒模型可以是用一个唤醒模型,这样可以保证其他参数一致,而只需考虑音响音效参数对唤醒阈值的影响。
控制器接收测试语音,将所述测试语音输入到修改后的唤醒模型,利用修改后的唤醒模型对测试语音中的唤醒词检测再次打分,根据再次打分确定播放唤醒阈值。
测定播放唤醒阈值与测定静音唤醒阈值的基本过程相同。不同的是测定播放唤醒阈值所用的唤醒模型,是在测定静音唤醒阈值所使用的唤醒模型,修改音响音效参数后,得到的修改后的唤醒模型。因此能够基于显示设备为静音状态的条件下,仅增加音响音效对唤醒模型的影响,测定出在有音响音效影响的情况下的唤醒阈值。
根据上述实施例,显示设备在接收到用户的唤醒语音后,根据显示设备当前的状态,判断应该调用的唤醒阈值。如果显示设备为播放状态,则调用播放唤醒阈值,如果唤醒语音对应的唤醒值大于等于播放唤醒阈值,则开启显示设备的远场语音控制功能。使得显示设备能够在同时使用音响音效和远场语音控制功能时,音响音效不影响远场语音控制功能的唤醒效果,提升用户使用体验。
基于上述实施例,本申请实施例提供又一种显示设备的语音控制方法,如图8所示的远场语音唤醒方法的信令图,所述方法包括以下步骤:
步骤一、噪声参数测定器动态测定显示设备当前所处环境的环境噪声参数,同时音响音效参数测定器测定音响音效参数。噪声参数测定器将测得的环境噪声参数输入唤醒模型,音响音效参数测定器将测得的音响音效参数输入唤醒模型,得到修改后的唤醒模型。
步骤二、将测试语音输入修改后的唤醒模型,对修改后的唤醒模型进行训练,得到音响音效开启的同时,有环境噪声影响条件下的唤醒阈值。
步骤三、将唤醒语音输入修改后的唤醒模型,得到该唤醒语音对应的唤醒值。如果该唤醒值大于等于上述唤醒阈值,则开启远场语音控制功能。
本申请各个实施例之间相同或相似的内容可相互参照,相关实施例不再赘述。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (6)

1.一种显示设备,其特征在于,包括,
显示器;
声音采集器,用于执行采集唤醒语音;
控制器,用于执行:
接收所述唤醒语音,以及确定所述唤醒语音的唤醒值;
在所述显示设备的状态为设备播放状态,且所述唤醒值大于等于播放唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述播放唤醒阈值为在所述显示设备的状态为设备播放状态时,测定的唤醒阈值;
在所述显示设备的状态为设备静音状态,且所述唤醒值大于等于静音唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述静音唤醒阈值为在所述显示设备的状态为设备静音状态时,测定的唤醒阈值;
所述静音唤醒阈值的测定步骤为:
在所述显示设备的状态为设备静音状态时,接收测试语音,将所述测试语音输入训练好的唤醒模型,利用所述唤醒模型对所述测试语音中的唤醒词检测打分,根据所述检测打分确定所述静音唤醒阈值;
所述播放唤醒阈值的测定步骤为:
在所述显示设备的状态为设备播放状态时,利用所述显示设备的当前音响音效参数修改训练好的唤醒模型的参数,得到修改后的所述唤醒模型;
接收所述测试语音,将所述测试语音输入修改后的所述唤醒模型,利用修改后的所述唤醒模型对所述测试语音中的唤醒词检测再次打分,根据所述再次打分确定所述播放唤醒阈值。
2.根据权利要求1所述的显示设备,其特征在于,所述当前音响音效参数为对当前音响发声的录音状态评定后得到的参数,或者为对初始音效参数调整后得到的参数,其中所述初始音效为所述显示设备出厂时所设置的音响音效。
3.根据权利要求1所述的显示设备,其特征在于,所述播放唤醒阈值的测定步骤可替换为:
在所述显示设备的状态为设备播放状态时,利用所述显示设备的当前音响音效参数和环境噪声参数修改训|练好的唤醒模型的参数,得到修改后的所述唤醒模型;
接收所述测试语音,将所述测试语音输入修改后的所述唤醒模型,利用修改后的所述唤醒模型对所述测试语音中的唤醒词检测再次打分,根据所述再次打分确定所述播放唤醒阈值。
4.根据权利要求3所述的显示设备,其特征在于,所述环境噪声参数为对当前收录的环境噪声状态评定后得到的参数。
5.根据权利要求3所述的显示设备,其特征在于,根据所述再次打分确定所述播放唤醒阈值的具体步骤为:根据所述再次打分确定阈值加权系数,以及根据所述阈值加权系数和所述静音唤醒阈值,确定所述播放唤醒阈值。
6.一种远场语音唤醒方法,其特征在于,应用于显示设备,包括:
接收唤醒语音,以及确定所述唤醒语音的唤醒值;
在所述显示设备的状态为设备播放状态,且所述唤醒值大于播放唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述播放唤醒阈值为在所述显示设备的状态为设备播放状态时,测定的唤醒阈值;
在所述显示设备的状态为设备静音状态,且所述唤醒值大于静音唤醒阈值时,开启所述显示设备的远场语音控制功能,其中,所述静音唤醒阈值为在所述显示设备的状态为设备静音状态时,测定的唤醒阈值;
所述静音唤醒阈值的测定步骤为:
在所述显示设备的状态为设备静音状态时,接收测试语音,将所述测试语音输入训练好的唤醒模型,利用所述唤醒模型对所述测试语音中的唤醒词检测打分,根据所述检测打分确定所述静音唤醒阈值;
所述播放唤醒阈值的测定步骤为:
在所述显示设备的状态为设备播放状态时,利用所述显示设备的当前音响音效参数修改训|练好的唤醒模型的参数,得到修改后的所述唤醒模型;
接收所述测试语音,将所述测试语音输入修改后的所述唤醒模型,利用修改后的所述唤醒模型对所述测试语音中的唤醒词检测再次打分,根据所述再次打分确定所述播放唤醒阈值。
CN202110231065.7A 2021-03-02 2021-03-02 一种远场语音唤醒方法和显示设备 Active CN113038048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110231065.7A CN113038048B (zh) 2021-03-02 2021-03-02 一种远场语音唤醒方法和显示设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110231065.7A CN113038048B (zh) 2021-03-02 2021-03-02 一种远场语音唤醒方法和显示设备

Publications (2)

Publication Number Publication Date
CN113038048A CN113038048A (zh) 2021-06-25
CN113038048B true CN113038048B (zh) 2022-10-28

Family

ID=76465982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110231065.7A Active CN113038048B (zh) 2021-03-02 2021-03-02 一种远场语音唤醒方法和显示设备

Country Status (1)

Country Link
CN (1) CN113038048B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484480A (zh) * 2022-08-19 2022-12-16 海信视像科技股份有限公司 遥控设备及显示控制系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047487A (zh) * 2019-06-05 2019-07-23 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
US10565982B2 (en) * 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications
CN109360562B (zh) * 2018-12-07 2022-06-28 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
CN110890093B (zh) * 2019-11-22 2024-02-09 腾讯科技(深圳)有限公司 一种基于人工智能的智能设备唤醒方法和装置
CN111223490A (zh) * 2020-03-12 2020-06-02 Oppo广东移动通信有限公司 声纹唤醒方法及装置、设备、存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047487A (zh) * 2019-06-05 2019-07-23 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质

Also Published As

Publication number Publication date
CN113038048A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN112511882B (zh) 一种显示设备及语音唤起方法
CN114302190A (zh) 一种显示设备及画质调整方法
CN113066490B (zh) 一种唤醒响应的提示方法和显示设备
CN112995551A (zh) 一种声音控制方法及显示设备
CN112885354B (zh) 一种显示设备、服务器及基于语音的显示控制方法
CN112562666B (zh) 一种筛选设备的方法及服务设备
CN112002321B (zh) 显示设备、服务器及语音交互方法
CN112203154A (zh) 一种显示设备
CN113038048B (zh) 一种远场语音唤醒方法和显示设备
CN111836083B (zh) 显示设备及屏幕发声方法
CN114095769B (zh) 一种应用级播放器的直播低延迟处理方法及显示设备
CN113066491A (zh) 显示设备及语音交互方法
CN112256449A (zh) 网页应用程序的接口调用方法、显示设备及服务器
CN113593559B (zh) 一种内容显示方法、显示设备及服务器
CN113438553B (zh) 一种显示设备被唤醒方法及显示设备
CN112118476B (zh) 一种快速显示节目预约图标的方法及显示设备
CN114302197A (zh) 一种语音分离控制方法及显示设备
CN115185392A (zh) 显示设备、图像处理方法及装置
CN113079400A (zh) 显示设备、服务器及语音交互方法
CN111914565A (zh) 电子设备及用户语句的处理方法
CN114155846A (zh) 一种语义槽提取方法及显示设备
CN112199560A (zh) 一种设置项的搜索方法及显示设备
CN111931692A (zh) 显示设备及图像识别方法
CN113810747A (zh) 一种显示设备及信号源设置界面交互方法
CN113766164B (zh) 显示设备及信号源界面显示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant