CN115602150A - 能够进行语音控制的电子设备、方法、系统、介质及程序 - Google Patents

能够进行语音控制的电子设备、方法、系统、介质及程序 Download PDF

Info

Publication number
CN115602150A
CN115602150A CN202110766091.XA CN202110766091A CN115602150A CN 115602150 A CN115602150 A CN 115602150A CN 202110766091 A CN202110766091 A CN 202110766091A CN 115602150 A CN115602150 A CN 115602150A
Authority
CN
China
Prior art keywords
command
voice
control command
terminal device
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110766091.XA
Other languages
English (en)
Inventor
王�琦
杨万挺
孙鹭燕
隗敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arris Enterprises LLC
Original Assignee
Arris Enterprises LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arris Enterprises LLC filed Critical Arris Enterprises LLC
Priority to CN202110766091.XA priority Critical patent/CN115602150A/zh
Priority to PCT/US2022/032635 priority patent/WO2023283013A1/en
Publication of CN115602150A publication Critical patent/CN115602150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本公开涉及能够进行语音控制的电子设备、方法、系统、介质及程序。该电子设备包括:存储器,具有存储在其上的指令;以及处理器,被配置为执行存储在存储器上的指令,以使得电子设备执行以下操作:从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音;对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令;以及分析所述命令,在所述命令只包含控制命令而不包含特定终端设备名称的情况下,确定所述控制命令的声音强度,并且在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。

Description

能够进行语音控制的电子设备、方法、系统、介质及程序
技术领域
本公开涉及语音控制领域,特别涉及能够进行语音控制的电子设备、方法、系统、介质及程序。
背景技术
现今,通过遍布家中的多个Mic传感器,语音控制家庭设施(例如,语音控制灯光、背景音乐音量、窗帘等)变得越来越流行。在语音控制家庭设施方面,如何区分要语音控制的目标设备是哪台设备是一个关键问题。
传统方法是给每台设备加上标签,用户通过说出“设备名称+控制命令”的方式来控制设备。例如,“关上厨房的灯”、“减小自习室扬声器的音量”、“关上1号卧室的窗帘”等。由于用户需要清楚地记住设备的名称,当用户年龄较大或设备数量庞大时,会引起混乱,导致用户体验不佳。
因此,希望提供一种能够兼容现有语音控制方法的改进的语音控制方法,以提高用户体验。
发明内容
本公开提供了一种能够进行语音控制的电子设备、方法、系统、介质及程序,使得用户既可以通过“设备名称+控制命令”的方式控制特定设备,也能通过单个简单命令来控制至少一个目标设备,从而提高用户体验。
本公开的一些方面涉及一种能够进行语音控制的电子设备。所述电子设备包括:存储器,具有存储在其上的指令;以及处理器,被配置为执行存储在所述存储器上的指令,以使得所述电子设备执行以下操作:从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音;对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令;以及分析所述命令,在所述命令只包含控制命令而不包含特定终端设备名称的情况下,确定所述控制命令的声音强度,并且在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。
在一些实施例中,对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令包括:创建用户语音的波形文件;通过去除背景噪声和标准化音量来对波形文件进行滤波处理;将经过滤波处理后的波形文件分解成多个音素;以及通过使用统计概率顺序分析所述多个音素来推断单词和整个句子,从而获取用户语音中包含的命令。
在一些实施例中,所述处理器还被配置为执行存储在所述存储器上的指令,以使得所述电子设备执行以下操作:分析所述命令,在所述命令包含特定终端设备名称和控制命令的情况下,指示所述特定终端设备执行所述控制命令。
在一些实施例中,在所述特定终端设备为远程终端设备的情况下,所述至少一个终端设备用作向所述电子设备传送命令的中继器。
本公开的其它方面涉及一种通过电子设备执行的语音控制方法。所述方法包括:从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音;对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令;以及分析所述命令,在所述命令只包含控制命令而不包含特定终端设备名称的情况下,确定所述控制命令的声音强度,并且在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。
在一些实施例中,对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令还包括:创建用户语音的波形文件;通过去除背景噪声和标准化音量来对波形文件进行滤波处理;将经过滤波处理后的波形文件分解成多个音素;以及通过使用统计概率顺序分析所述多个音素来推断单词和整个句子,从而获取用户语音中包含的命令。
在一些实施例中,所述方法还包括:分析所述命令,在所述命令包含特定终端设备名称和控制命令的情况下,指示所述特定终端设备执行所述控制命令。
在一些实施例中,在所述特定终端设备为远程终端设备的情况下,所述至少一个终端设备用作向所述电子设备传送命令的中继器。
本公开的其它方面涉及一种语音控制系统。所述系统包括:多个安装有检测器的终端设备,所述检测器能够检测用户语音;以及与多个安装有检测器的终端设备连接的服务器,其中多个安装有检测器的终端设备中的每一个终端设备被配置成在检测器检测到用户语音后将检测到的用户语音发送到服务器,并且其中所述服务器被配置成:从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音;对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令;以及分析所述命令,在所述命令只包含控制命令而不包含特定终端设备名称的情况下,确定所述控制命令的声音强度,并且在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。
在一些实施例中,对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令还包括:创建用户语音的波形文件;通过去除背景噪声和标准化音量来对波形文件进行滤波处理;将经过滤波处理后的波形文件分解成多个音素;以及通过使用统计概率顺序分析所述多个音素来推断单词和整个句子,从而获取用户语音中包含的命令
在一些实施例中,所述服务器还被配置成:分析所述命令,在所述命令包含特定终端设备名称和控制命令的情况下,指示所述特定终端设备执行所述控制命令。
在一些实施例中,在所述特定终端设备为远程终端设备的情况下,所述至少一个终端设备用作向所述服务器传送命令的中继器。
本公开的其它方面涉及一种非瞬时性计算机可读介质,所述非瞬时性计算机可读介质具有存储在其上的指令,以用于由处理器执行以执行根据上文描述的语音控制方法的步骤。
本公开的其它方面涉及一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时执行根据上文描述的语音控制方法的步骤。
附图说明
为了更好地理解本公开,并示出如何实现本公开,现在将以举例的方式参照附图描述,其中:
图1示出了根据本公开的实施例的包含网络接入设备的示例网络环境的示意图;
图2示出了根据本公开的实施例的能够进行语音控制的电子设备的示例性配置框图;
图3示出了根据本公开的实施例的语音控制方法的示例性流程图。
注意,在整个附图中,相似的附图标记指代对应的部分。
具体实施方式
参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
图1是示出根据本公开的实施例的包含网络接入设备的示例网络环境100的示意图。
示例网络环境100可以包括网络接入设备110和一个或多个终端设备120A、120B、120C、120D和120E(为简便起见,下文统称为终端设备120)。网络接入设备110用于为终端设备120提供网络连接。具体来说,网络接入设备110可以接收/路由来自终端设备120的各种类型的通信和/或传送/路由去往终端设备120的各种类型的通信。在一些实施例中,网络接入设备110仅为终端设备120提供内部网络130(例如,有线或无线局域网(Local AreaNetwork,LAN))连接,所有连接至网络接入设备110的终端设备120都处于同一内部网络内并且可以直接相互通信。在进一步的实施例中,网络接入设备110还连接到外部网络140,使得终端设备120可以经由其接入该外部网络140。网络接入设备110例如可以是组合网络接入服务器(NAS)、调制解调器、路由器、2层/3层交换机、接入点等的功能的硬件电子设备。网络接入设备110还可以包括但不限于IP/QAM机顶盒(STB)或智能媒体设备(SMD)的功能,该IP/QAM机顶盒(STB)或智能媒体设备(SMD)能够解码音频/视频内容并播放越过运营商(OTT)供应商或多系统运营商(MSO)提供的内容。
在一些实施例中,终端设备120可以是具有至少一个网络接口的任何电子设备。例如,终端设备120可以是:台式计算机、膝上型计算机、服务器、大型计算机、基于云的计算机、平板计算机、智能手机、智能手表、可穿戴设备、消费电子设备、便携式计算设备、无线电节点、路由器、交换机、中继器、接入点和/或其他电子设备。如下面将结合图2具体介绍的,终端设备120利用其网络接口与网络接入设备110的物理或虚拟网络接口通信,从而经由网络接入设备110接入内部网络130。多个终端设备120A、120B、120C、120D和120E可以连接至网络接入设备110的相同或不同网络接口。虽然在图1中示出了五个终端设备,但应当理解,网络接入设备可以连接的终端设备数量可以少于或多于五个,取决于具体的物理接口数量和/或网络接入设备支持的网络容量。
外部网络140可以包括各种类型的有线或无线网络、内部网络或公共网络,例如其它局域网或广域网(Wide Area Network,WAN)(例如Internet)。注意,本公开对外部网络140的类型不做具体限定。
图2例示了根据本公开的实施例的能够进行语音控制的电子设备200的示例性配置框图。根据本发明的优选实施例,该电子设备200可以为集成在图1中所示的网络接入设备110中的中央控制器或服务器。
如图2所示,电子设备200包括用户接口20、网络接口21、电源22、外部网络接口23、存储器24和处理器26。用户接口20可以包括但不限于按钮、键盘、小键盘、LCD、CRT、TFT、LED、HD或其它类似的显示设备,包括具有触摸屏能力使得能够进行用户和网关设备之间的交互的显示设备。在一些实施例中,用户接口20可以用于呈现图形用户界面(GUI)以接收用户输入。
网络接口21可以包括各种网卡以及以软件和/或硬件实现的电路系统,以便能够使用有线或无线协议与用户设备通信。有线通信协议例如是以太网协议、MoCA规范协议、USB协议或其它有线通信协议中的任何一种或多种。无线协议例如是任何IEEE 802.11Wi-Fi协议、蓝牙协议、低功耗蓝牙(BLE)或根据无线技术标准进行操作的其他短距离协议,用于使用任何许可的或未许可的频带(诸如公民宽带无线电服务(CBRS)频带、2.4GHz频带、5GHz频带、6GHz频带或60GHz频带)、RF4CE协议、ZigBee协议、Z-Wave协议或IEEE 802.15.4协议在短距离上交换数据。在网络接口21使用无线协议的情况下,在一些实施例中,网络接口21还可以包括一个或多个天线(未示出)或者用于耦合到一个多个天线的电路节点。电子设备200可以通过网络接口21向用户设备提供内部网络(例如图1的内部网络130)。
电源22通过内部总线27向电子设备200的内部组件提供电力。电源22可以是自备电源,诸如电池组,其接口通过(例如,直接或通过其他设备)连接到插座的充电器供电。电源22还可以包括可拆卸以供替换的可再充电电池,例如NiCd、NiMH、Li-ion或Li-pol电池。外部网络接口23可以包括各种网卡以及以软件和/或硬件实现的电路系统,以实现电子设备200与外部网络(例如图1中的外部网络140)的提供者(例如互联网服务提供商或多系统运营商(MSO))之间的通信。
存储器24包括单个存储器或一个或多个存储器或存储位置,包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、EPROM、EEPROM、闪存、FPGA的逻辑块、硬盘或存储器层次结构的任何其他各层。存储器24可以用于存储任何类型的指令、软件或算法,包括用于控制电子设备200的一般功能和操作的软件25。
处理器26控制电子设备200的一般操作,并执行与网络中的其他设备(诸如用户设备)有关的管理功能。处理器26可以包括但不限于CPU、硬件微处理器、硬件处理器、多核处理器、单核处理器、微控制器、专用集成电路(ASIC)、DSP或其他类似的处理设备,能够执行根据本公开中描述的实施例的用于控制电子设备200的操作和功能的任何类型的指令、算法或软件。处理器26可以是在计算系统中执行功能的数字电路系统、模拟电路系统或混合信号(模拟和数字的组合)电路系统的各种实现。处理器26可以包括例如诸如集成电路(IC)、单独处理器核心的部分或电路、整个处理器核心、单独的处理器、诸如现场可编程门阵列(FPGA)的可编程硬件设备、和/或包括多个处理器的系统。
可以使用内部总线27来建立电子设备200的组件(例如20-22、24和26)之间的通信。
尽管使用特定组件来描述电子设备200,但是在替选实施例中,电子设备200中可以存在不同的组件。例如,电子设备200可以包括一个或多个附加控制器、存储器、网络接口、外部网络接口和/或用户接口。另外,电子设备200中可能不存在所述组件中的一个或多个。此外,在一些实施例中,电子设备200可以包括在图2中未示出的一个或多个组件。另外,尽管在图2中示出单独的组件,但是在一些实施例中,给定组件的一些或全部可以集成到电子设备200中的其他组件中的一个或多个中。此外,可以使用模拟和/或数字电路的任何组合来实现电子设备200中的电路和组件。
图3示出了根据本公开的实施例的进行语音控制的示例性方法300的流程图。该方法300例如可以由如图2所示的电子设备200来执行,并且根据本发明的优选实施例,该电子设备200可以为集成在图1所示的网络接入设备中的中央控制器或服务器。下面将参照图1-图3来详细描述根据本公开的实施例的电子设备以及用于该电子设备的方法。
如图3所示,在步骤S301处,从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音。这里的终端设备例如可以为图1中所示的终端设备,每个终端设备上安装有能够检测用户语音的检测器,例如传感器。图1中的网络接入设备和多个终端设备构成一个智能IoT控制系统。例如,网络接入设备可以为机顶盒或者路由器,而多个终端设备可以为电视机、空调机、笔记本电脑、iPad、手机、台灯、音响、窗帘等,每个终端设备通过传感器实时检测用户语音,并在检测到用户语音后将其发送到机顶盒或者路由器中的中央控制器。
在步骤S302处,对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令。语音识别技术是一门已得到成熟发展的交叉技术,所涉及的领域包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,在此不赘述。
根据本发明的一个优选实施例,对所接收的用户语音执行语音识别处理包括先创建用户语音的波形文件,通过去除背景噪声和标准化音量来对波形文件进行滤波处理,并将经过滤波处理后的波形文件分解成多个单独的音素。这里,音素是语言和单词的基本构建块,是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个音素。不同语种音素不同,在此不赘述。对所接收的用户语音执行语音识别处理还包括通过使用统计概率顺序分析所述多个音素来推断单词和整个句子,从而获取用户语音中包含的命令。例如,基于单词的第一个音素,使用统计概率(通常是隐马尔可夫模型)和上下文的组合来缩小选项范围并找出说出的单词,进而通过对多个音素的顺序分析推断整个句子。
在步骤S303处,执行所述命令。根据本发明的一个实施例,在所述命令包含特定终端设备名称和控制命令时,执行所述命令为指示所述特定终端设备执行所述控制命令。
例如,在从用户手边的iPhone接收到“关上客厅的窗帘”的命令后,指示客厅的窗帘自动关上。一方面这使得可以与传统的通过“设备名称+控制命令”的方法完美兼容,另一方面还可以远程进行语音控制。例如,在一个示例性实施例中,在一栋四层的大房子里,用户位于四层的卧室而且不确定一楼客厅的电视是否已关,这时可以发出“关一楼客厅的电视”的语音命令。用户所处房间的设备,例如,台式机、窗帘等在其上安装的检测器检测到用户语音“关一楼客厅的电视”后将检测到的用户语音“关一楼客厅的电视”发送到网络接入设备(例如,路由器或者机顶盒)中的中央控制器,然后中央控制器指示一楼客厅的电视自行关闭,从而使得用户不用特意从四楼跑到一楼去确认电视是否已关或特意去一楼关电视。而且在这种情况下,作为中继器的台式机和窗帘与中央控制器的连接是是有线的,语音命令在传达给中央控制器的过程中无衰减。
根据本发明的另一个实施例,在所述命令只包含控制命令,但不包含特定终端设备名称时,执行所述命令包括分析所述控制命令的声音强度,并在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。应理解,该预定阈值可以根据实际情况(例如,环境等)进行设置和/或调整。
例如,根据一个示例性实施例,在位于客厅的用户发出“减小音量”的语音命令时,用户周边的终端设备(例如,同样位于客厅的另一个人手里正在放视频的手机、客厅中正在播放的电视、靠近客厅且房门未关的房间内正在播放线上课程的笔记本)都检测到了该语音,并各自将该语音发送到中央控制器。中央控制器通过语音识别处理分别从上述手机、电视和笔记本接收到的语音中获取到命令“减小音量”,由于命令中没有特定设备名称,而只有控制命令,于是中央控制器分别分析从上述手机、电视和笔记本接收到的控制命令“减小音量”的声音强度,并将各个声音强度与音量阈值进行比较。例如,假定音量阈值(以dB为单位)设定为Thr,并且从上述手机和电视接收到的控制命令的声音强度均大于Thr,而从上述笔记本接收到的控制命令的声音强度小于Thr,则中央控制器指示上述手机和电视减小音量,而不对笔记本的音量进行调整。
在另一个示例性实施例中,基于同样的原理,在设置了适当的音量阈值Thr之后,深夜位于客厅看球赛的用户可以通过发出“开灯”的语音命令来开启客厅的灯,而不影响在隔壁房间睡觉的家人。
这是一种模糊的个性化控制,有助于区分不同房间/区域中家庭成员之间的需求,提高用户体验。例如,上述对减小音量/开灯的语音控制既满足了发出该命令的用户对自身所处环境中音量减小/开灯的需求,也确保了房间内对发出该命令的用户不造成影响的笔记本能够继续以原音量播放在线课程/不开房间内的灯,从而不影响房间内用户的使用体验。
通过上述能够进行语音控制的电子设备,用户既能精确地控制(包括远程控制)物联网系统内的特定设备,也能基于声音强度检测通过单个简单的命令控制至少一个设备,从而提高了用户体验,尤其是在设备名称复杂或者需要同时控制的设备不止一个的情况下。
本公开可以被实现为装置、系统、集成电路和非瞬时性计算机可读介质上的计算机程序的任何组合,并且可以适用于现有的家庭物联网系统。可以将一个或多个控制器实现为执行本公开中描述的部分或全部功能的集成电路(IC)、专用集成电路(ASIC)或大规模集成电路(LSI)、系统LSI、超级LSI或超LSI组件。
本公开包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计算机程序或算法存储在非瞬时性计算机可读介质上,以使诸如一个或多个处理器的计算机执行上述步骤和附图中描述的步骤。例如,一个或多个存储器以可执行指令存储软件或算法,并且一个或多个处理器可以关联执行该软件或算法的一组指令,以根据本公开中描述的实施例提供网络接入设备的网络配置信息管理功能。
软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括用于可编程处理器的机器指令,并且可以以高级过程性语言、面向对象编程语言、功能性编程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读介质”是指用于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备,例如磁盘、光盘、固态存储设备、存储器和可编程逻辑设备(PLD),包括将机器指令作为计算机可读信号来接收的计算机可读介质。
举例来说,计算机可读介质可以包括动态随机存取存储器(DRAM)、随机存取存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、紧凑盘只读存储器(CD-ROM)或其他光盘存储设备、磁盘存储设备或其他磁性存储设备,或可以用于以指令或数据结构的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专用处理器访问的任何其它介质。如本文中所使用的,磁盘或盘包括紧凑盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘,其中磁盘通常以磁性方式复制数据,而盘则通过激光以光学方式复制数据。上述的组合也包括在计算机可读介质的范围内。
另外,以上描述提供了示例,而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下,可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如,关于某些实施例描述的特征可以在其他实施例中被结合。

Claims (14)

1.一种能够进行语音控制的电子设备,包括:
存储器,具有存储在其上的指令;以及
处理器,被配置为执行存储在所述存储器上的指令,以使得所述电子设备执行以下操作:
从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音;
对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令;以及
分析所述命令,在所述命令只包含控制命令而不包含特定终端设备名称的情况下,确定所述控制命令的声音强度,并且在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。
2.根据权利要求1所述的电子设备,其中对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令还包括:
创建用户语音的波形文件;
通过去除背景噪声和标准化音量来对波形文件进行滤波处理;
将经过滤波处理后的波形文件分解成多个音素;以及
通过使用统计概率顺序分析所述多个音素来推断单词和整个句子,从而获取用户语音中包含的命令。
3.根据权利要求1或2所述的电子设备,其中所述处理器还被配置为执行存储在所述存储器上的指令,以使得所述电子设备执行以下操作:
分析所述命令,在所述命令包含特定终端设备名称和控制命令的情况下,指示所述特定终端设备执行所述控制命令。
4.根据权利要求3所述的电子设备,其中在所述特定终端设备为远程终端设备的情况下,所述至少一个终端设备用作向所述电子设备传送命令的中继器。
5.一种通过电子设备执行的语音控制方法,包括:
从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音;
对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令;以及
分析所述命令,在所述命令只包含控制命令而不包含特定终端设备名称的情况下,确定所述控制命令的声音强度,并且在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。
6.根据权利要求5所述的语音控制方法,其中对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令还包括:
创建用户语音的波形文件;
通过去除背景噪声和标准化音量来对波形文件进行滤波处理;
将经过滤波处理后的波形文件分解成多个音素;以及
通过使用统计概率顺序分析所述多个音素来推断单词和整个句子,从而获取用户语音中包含的命令。
7.根据权利要求5或6所述的语音控制方法,其中所述方法还包括:
分析所述命令,在所述命令包含特定终端设备名称和控制命令的情况下,指示所述特定终端设备执行所述控制命令。
8.根据权利要求7所述的语音控制方法,其中在所述特定终端设备为远程终端设备的情况下,所述至少一个终端设备用作向所述电子设备传送命令的中继器。
9.一种语音控制系统,包括:
多个安装有检测器的终端设备,所述检测器能够检测用户语音;以及
与多个安装有检测器的终端设备连接的服务器,
其中多个安装有检测器的终端设备中的每一个终端设备被配置成在检测器检测到用户语音后将检测到的用户语音发送到服务器,并且
其中所述服务器被配置成:
从多个安装有检测器的终端设备中的至少一个终端设备接收通过检测器检测到的用户语音;
对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令;以及
分析所述命令,在所述命令只包含控制命令而不包含特定终端设备名称的情况下,确定所述控制命令的声音强度,并且在所述控制命令的声音强度高于预定阈值时,指示从其接收到声音强度高于预定阈值的所述控制命令的终端设备执行所述控制命令。
10.根据权利要求9所述的语音控制系统,其中对所接收的用户语音执行语音识别处理以获取用户语音中包含的命令还包括:
创建用户语音的波形文件;
通过去除背景噪声和标准化音量来对波形文件进行滤波处理;
将经过滤波处理后的波形文件分解成多个音素;以及
通过使用统计概率顺序分析所述多个音素来推断单词和整个句子,从而获取用户语音中包含的命令。
11.根据权利要求9或10所述的语音控制系统,其中所述服务器还被配置成:
分析所述命令,在所述命令包含特定终端设备名称和控制命令的情况下,指示所述特定终端设备执行所述控制命令。
12.根据权利要求11所述的语音控制系统,其中在所述特定终端设备为远程终端设备的情况下,所述至少一个终端设备用作向所述服务器传送命令的中继器。
13.一种非瞬时性计算机可读介质,所述非瞬时性计算机可读介质具有存储在其上的指令,以用于由处理器执行以执行根据权利要求5-8中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时执行如权利要求5-8中任一项所述的方法的步骤。
CN202110766091.XA 2021-07-07 2021-07-07 能够进行语音控制的电子设备、方法、系统、介质及程序 Pending CN115602150A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110766091.XA CN115602150A (zh) 2021-07-07 2021-07-07 能够进行语音控制的电子设备、方法、系统、介质及程序
PCT/US2022/032635 WO2023283013A1 (en) 2021-07-07 2022-06-08 Electronic device, method, system, medium, and program capable of voice control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110766091.XA CN115602150A (zh) 2021-07-07 2021-07-07 能够进行语音控制的电子设备、方法、系统、介质及程序

Publications (1)

Publication Number Publication Date
CN115602150A true CN115602150A (zh) 2023-01-13

Family

ID=82458796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110766091.XA Pending CN115602150A (zh) 2021-07-07 2021-07-07 能够进行语音控制的电子设备、方法、系统、介质及程序

Country Status (2)

Country Link
CN (1) CN115602150A (zh)
WO (1) WO2023283013A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10971173B2 (en) * 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
CN112051743A (zh) * 2019-06-06 2020-12-08 北京三星通信技术研究有限公司 设备控制方法、冲突处理方法、相应的装置及电子设备

Also Published As

Publication number Publication date
WO2023283013A1 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
JP6902136B2 (ja) システムの制御方法、システム、及びプログラム
US10123140B2 (en) Dynamic calibration of an audio system
US20180197533A1 (en) Systems and Methods for Recognizing User Speech
US9466286B1 (en) Transitioning an electronic device between device states
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
CN107895574A (zh) 基于装置拓扑结构来处理语音命令
JP6397158B1 (ja) 協調的なオーディオ処理
CN107408386A (zh) 基于语音方向控制电子装置
JP2018194810A (ja) デバイス制御方法及び電子機器
WO2014114048A1 (zh) 一种语音识别的方法、装置
JP2019159306A (ja) ファーフィールド音声制御デバイス及びファーフィールド音声制御システム
Vanus et al. Testing of the voice communication in smart home care
Rathnayake et al. Voice operated home automation system based on Kinect sensor
CN109756825B (zh) 智能个人助理的位置分类
CN105788596A (zh) 一种语音识别电视控制方法及系统
KR20200074690A (ko) 전자 장치 및 이의 제어 방법
CN105700359A (zh) 一种语音识别智能家居控制方法及系统
JP7340764B2 (ja) 音声制御システム
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
KR20200057501A (ko) 전자 장치 및 그의 와이파이 연결 방법
CN115602150A (zh) 能够进行语音控制的电子设备、方法、系统、介质及程序
US20220028377A1 (en) Electronic device and method for controlling same
WO2020175293A1 (ja) 機器制御システム、機器制御方法及びプログラム
CN113411649B (zh) 使用次声频信号的tv状态检测装置及系统
WO2020147011A1 (zh) 无线控制方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication