CN113763950A - 设备的唤醒方法 - Google Patents

设备的唤醒方法 Download PDF

Info

Publication number
CN113763950A
CN113763950A CN202110949891.5A CN202110949891A CN113763950A CN 113763950 A CN113763950 A CN 113763950A CN 202110949891 A CN202110949891 A CN 202110949891A CN 113763950 A CN113763950 A CN 113763950A
Authority
CN
China
Prior art keywords
voice
wake
angle
determining
detection information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110949891.5A
Other languages
English (en)
Inventor
郝斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202110949891.5A priority Critical patent/CN113763950A/zh
Publication of CN113763950A publication Critical patent/CN113763950A/zh
Priority to PCT/CN2022/097202 priority patent/WO2023020076A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electric Clocks (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本申请实施例提供一种设备的唤醒方法,该方法包括:获取控制策略的标识;接收用户输入的唤醒语音,唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,多个智能设备中包括目标设备;根据标识和唤醒语音,确定检测信息,并向服务器发送检测信息;接收服务器发送唤醒指示,并根据唤醒指示控制目标设备唤醒。本申请实施例提供的设备的唤醒方法用于解决多个设备同时被唤醒或者多个设备都无法被唤醒的问题,提高用户体验。

Description

设备的唤醒方法
技术领域
本申请实施例涉及控制技术领域,尤其涉及一种设备的唤醒方法。
背景技术
目前,随着工业互联网技术的发展,用户可以通过唤醒词(例如小冰小冰)唤醒设备(例如冰箱)。
在相关技术中,当多个设备的唤醒词一致时,存在多个设备同时被唤醒或者多个设备都无法被唤醒的问题,导致用户体验差。
发明内容
本申请实施例提供一种设备的唤醒方法,用于解决多个设备同时被唤醒或者多个设备都无法被唤醒的问题,提高用户体验。
第一方面,本申请实施例提供一种设备的唤醒方法,应用于目标设备,方法包括:
获取控制策略的标识;
接收用户输入的唤醒语音,唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,多个智能设备中包括目标设备;
根据标识和唤醒语音,确定检测信息,并向服务器发送检测信息;
接收服务器发送唤醒指示,并根据唤醒指示控制目标设备唤醒。
在一种可能的设计中,检测信息中包括如下至少一种信息:
唤醒语音的能量;
唤醒语音的声源在目标设备的前方的预设角度范围内的角度;或者,
声源的变化信息。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的能量;根据标识和唤醒语音,确定检测信息,包括:
对唤醒语音进行采样处理,得到语音序列;
对语音序列进行分段处理,得到多个语音子序列;
分别对多个语音子序列进行频域变换,得到多个频域子序列;
确定在预设频率范围内多个频域子序列各自对应的能量,并将多个频域子序列各自对应的能量的平均值,确定为唤醒语音的能量。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的声源在目标设备的前方的预设角度范围内的角度;
根据标识和唤醒语音,确定检测信息,包括:
根据唤醒语音和角度变量,构造角度变量的搜索函数;
对搜索函数进行优化搜索,得到搜索函数的函数值最大时对应的角度;
将搜索函数的函数值最大时对应的角度,确定为角度。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的声源的变化信息;根据标识和唤醒语音,确定检测信息,包括:
确定唤醒语音的首个音频帧对应的第一角度、以及最后一个音频帧对应的第二角度;
根据第一角度和第二角度,确定声源的变化信息。
第二方面,本申请实施例提供一种设备的唤醒方法,应用于服务器,方法包括:
接收多个智能设备发送的检测信息;
根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备;
并向目标设备发送唤醒指示。
在一种可能的设计中,检测信息中包括如下至少一种信息:
唤醒语音的能量;
所述唤醒语音的声源在智能设备的前方的预设角度范围内的角度;或者,
声源的变化信息。
在一种可能的设计中,检测信息中包括唤醒语音的能量;根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备,包括:
将多个智能设备中能量最大的智能设备,确定为目标设备。
在一种可能的设计中,检测信息中包括唤醒语音的能量和唤醒语音的声源在智能设备的前方的预设角度范围内的角度;根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备,包括:
判断多个智能设备中是否存在第一智能设备的角度与预先存储的第一智能设备的预设角度相同;
若是,则将第一智能设备确定为目标设备;
若否,则根据多个智能设备对应的能量和角度,确定多个智能设备各自对应的唤醒评分,并将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
在一种可能的设计中,检测信息中包括唤醒语音的能量、唤醒语音的声源在智能设备的前方的预设角度范围内的角度、以及声源的变化信息;
根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备,包括:
判断多个智能设备中是否存在至少一个智能设备对应的角度在预设角度范围内;
若是,则将至少一个智能设备中声源的变化信息最小的设备,确定为目标设备;
若否,则根据多个智能设备对应的能量、角度和变化信息,确定多个智能设备各自对应的唤醒评分,将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
第三方面,本申请实施例提供一种设备的唤醒装置,应用于目标设备,装置包括:获取模块、接收模块和确定模块;
获取模块,用于获取控制策略的标识;
接收模块,用于接收用户输入的唤醒语音,唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,多个智能设备中包括目标设备;
确定模块,用于根据标识和唤醒语音,确定检测信息,并向服务器发送检测信息;
接收模块,还用于接收服务器发送唤醒指示,并根据唤醒指示控制目标设备唤醒。
在一种可能的设计中,检测信息中包括如下至少一种信息:
唤醒语音的能量;
唤醒语音的声源在目标设备的前方的预设角度范围内的角度;或者,
声源的变化信息。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的能量;确定模块具体用于:
对唤醒语音进行采样处理,得到语音序列;
对语音序列进行分段处理,得到多个语音子序列;
分别对多个语音子序列进行频域变换,得到多个频域子序列;
确定在预设频率范围内多个频域子序列各自对应的能量,并将多个频域子序列各自对应的能量的平均值,确定为唤醒语音的能量。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的声源在目标设备的前方的预设角度范围内的角度;确定模块具体用于:
根据唤醒语音和角度变量,构造角度变量的搜索函数;
对搜索函数进行优化搜索,得到搜索函数的函数值最大时对应的角度;
将搜索函数的函数值最大时对应的角度,确定为角度。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的声源的变化信息;确定模块具体用于:
确定唤醒语音的首个音频帧对应的第一角度、以及最后一个音频帧对应的第二角度;
根据第一角度和第二角度,确定声源的变化信息。
第四方面,本申请实施例提供一种设备的唤醒装置,应用于服务器,装置包括:接收模块、确定模块和发送模块;其中,
接收模块,用于接收多个智能设备发送的检测信息;
确定模块,用于根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备;
发送模块,用于并向目标设备发送唤醒指示。
在一种可能的设计中,检测信息中包括如下至少一种信息:
唤醒语音的能量;
所述唤醒语音的声源在智能设备的前方的预设角度范围内的角度;或者,
声源的变化信息。
在一种可能的设计中,检测信息中包括唤醒语音的能量;确定模块具体用于:
将多个智能设备中能量最大的智能设备,确定为目标设备。
在一种可能的设计中,检测信息中包括唤醒语音的能量和唤醒语音的声源在智能设备的前方的预设角度范围内的角度;确定模块具体用于,包括:
判断多个智能设备中是否存在第一智能设备的角度与预先存储的第一智能设备的预设角度相同;
若是,则将第一智能设备确定为目标设备;
若否,则根据多个智能设备对应的能量和角度,确定多个智能设备各自对应的唤醒评分,并将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
在一种可能的设计中,检测信息中包括唤醒语音的能量、唤醒语音的声源在智能设备的前方的预设角度范围内的角度、以及声源的变化信息;确定模块具体用于:
判断多个智能设备中是否存在至少一个智能设备对应的角度在预设角度范围内;
若是,则将至少一个智能设备中声源的变化信息最小的设备,确定为目标设备;
若否,则根据多个智能设备对应的能量、角度和变化信息,确定多个智能设备各自对应的唤醒评分,将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
第五方面,本申请实施例提供一种智能设备,包括:处理器和存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,使得处理器执行如第一方面任一项的方法。
第六方面,本申请实施例提供一种服务器,包括:处理器和存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,使得处理器执行如第二方面任一项的方法。
第七方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行如第一方面任一项的方法。
第八方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行如第二方面任一项的方法。
第九方面,本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如第一方面任一项的方法。
第十方面,本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如第二方面任一项的方法。
本申请实施例提供一种设备的唤醒方法,该方法包括:获取控制策略的标识;接收用户输入的唤醒语音,唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,多个智能设备中包括目标设备;根据标识和唤醒语音,确定检测信息,并向服务器发送检测信息;接收服务器发送唤醒指示,并根据唤醒指示控制目标设备唤醒。在该方法中,设备根据标识和唤醒语音,确定检测信息,并向服务器发送检测信息,服务器根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备,服务器向目标设备发送唤醒指示,仅以控制目标设备唤醒,即实现通过唤醒语音仅控制目标设备唤醒,解决了多个设备同时被唤醒或者多个设备都无法被唤醒的问题,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的设备的唤醒方法的应用场景示意图;
图2为本申请实施例提供的设备的唤醒方法的流程图一;
图3为本申请实施例提供的设备的唤醒方法的流程图二;
图4为本申请实施例提供的设置界面的示意图;
图5为本申请实施例提供的应用场景一;
图6为本申请实施例提供的应用场景二;
图7为本申请实施例提供的应用场景二;
图8为本申请实施例提供的设备的唤醒方法的流程图三;
图9为本申请实施例提供的设备的唤醒装置的示意图一;
图10为本申请实施例提供的设备的唤醒装置的示意图二;
图11为本申请实施例提供的智能设备的硬件结构示意图;
图12为本申请实施例提供的服务器的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决相关技术中,当多个设备的唤醒词一致时,存在多个设备同时被唤醒或者多个设备都无法被唤醒的问题,导致用户体验差的问题,在本申请中,发明人想到设置控制策略,在该控制策略下,根据用户输入的唤醒语音,确定要唤醒的目标设备,进而控制目标设备唤醒,从而解决多个设备同时被唤醒或者多个设备都无法被唤醒的问题,提高用户体验。
下面结合图1对本申请中提供的设备的唤醒方法的应用场景进行说明。
图1为本申请实施例提供的设备的唤醒方法的应用场景示意图。如图1所示,例如应用场景中包括:多个设备、服务器和用户。例如多个设备中包括设备1、设备2、设备3。多个设备的唤醒词均相同,例如唤醒词均为“小U小U”。用户可以设置多个设备的控制策略。在用户设置控制策略之后,当用户呼叫“小U小U”时,多个设备均可以接收到唤醒语音“小U小U”,并根据设置的控制策略和唤醒语音,确定检测信息,进而向服务器发送检测信息。
服务器在接收到检测信息之后,根据检测信息,在多个设备中确定要唤醒的目标设备,进而向目标设备发送唤醒指示,以使目标设备根据唤醒指示被唤醒。
在本申请中,用户设置的控制策略,能够使得服务器仅向目标设备发送唤醒指示,以控制目标设备被唤醒,从而解决多个设备同时被唤醒或者多个设备都无法被唤醒的问题,提高用户体验。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的设备的唤醒方法的流程图一。如图2所示,该方法包括:
S201、目标设备获取控制策略的标识。
目标设备可以为电视、音箱或者冰箱等智能设备,或者为电视或者冰箱等带有屏幕的智能设备。
标识可以为根据用户输入的语音指令得到的,也可以为根据控制设备发送的设置信息得到的。
控制设备可以为安装有应用程序的智能手机、平板电脑等,还可以为专门为物联网应用场景设计的控制器等。
当根据语音指令或者设置信息得到标识时,语音指令或者设置信息中包括标识、或者包括标识对应的映射信息。需要说明的是,根据设置信息得到标识的方法可以参见图4实施例。
当语音指令或者设置信息中包括映射信息时,在目标设备中预先存储映射列表,映射列表中包括多个标识和每个标识对应的映射信息;目标设备在接收映射信息之后,根据映射信息,对映射列表进行查找,得到标识。
在本申请中,控制策略的标识可以有多个,每个标识指示检测信息中包括的至少一种类型的信息。
S202、目标设备接收用户输入的唤醒语音,唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,多个智能设备中包括目标设备。
可选地,预先范围可以为同一个无线局域网络覆盖的范围,多个智能设备为位于无线局域网络中多个智能设备。
例如,唤醒词可以均为“小冰小冰”、或者“小洗小洗”等。可选地,每个设备的唤醒词均可以为用户通过应用程序进行自定义设置的。
S203、目标设备根据标识和唤醒语音,确定检测信息。
其中,检测信息中包括如下至少一种信息:唤醒语音的能量;唤醒语音的声源在目标设备的前方的预设角度范围内的角度;或者,声源的变化信息。
可选地,每个检测信息中还可以包括设备的标识,设备的标识用于指示服务器发送检测信息的设备。
其中,预设角度范围为设备的正前方从左至右的0~180度。
例如,当标识为“1”时,指示检测信息中包括能量;当标识为“2”时,指示检测信息中包括能量和角度;当标识为“3”时,指示检测信息中包括能量、角度和变化信息。
例如,当映射信息或者语音指令中包括“语音智能方式1”时,指示检测信息中包括能量;当映射信息或者语音指令中包括“语音智能方式2”时,指示检测信息中包括能量和角度;当映射信息或者语音指令中包括“语音智能方式3”时,指示检测信息中包括能量、角度和变化信息。
S204、目标设备向服务器发送检测信息。
S205、服务器接收多个智能设备发送的检测信息。
多个智能设备中的每个智能设备均向服务器发送检测信息。各智能设备向服务器发送检测信息的方法与S201~S204的方法相似,此处不再赘述。
S206、服务器根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备。
例如,当检测信息仅包括能量时,服务器将多个智能设备中能量最大的智设备确定为目标设备。当检测信息仅包括能量时,其对应的应用场景可以如图5所示。
例如,当检测信息包括能量和角度时,服务器将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。其中,唤醒评分等于能量和能量对应的权重的乘积与角度和角度对应的权重的乘积之和。当检测信息包括能量和角度时,其对应的应用场景可以如图6所示。
例如,当检测信息包括能量、角度和声源的变化信息时,服务器将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。其中,唤醒评分等于能量和能量对应的权重的乘积、角度和角度对应的权重的乘积、以及变化信息和变化信息对应的权重的乘积。当检测信息包括能量、角度和声源的变化信息时,其对应的应用场景可以如图7所示。
S207、服务器向目标设备发送唤醒指示。
其中,唤醒指示用于指示目标设备唤醒。
S208、目标设备根据唤醒指示唤醒。
例如,当目标设备为空调时,目标设备被唤醒,则用户可以通过语音调节空调的温度、风力、风向等。
在图2实施例提供的设备的唤醒方法中,设备根据标识和唤醒语音,确定检测信息,并向服务器发送检测信息,服务器根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备,服务器向目标设备发送唤醒指示,仅以控制目标设备唤醒,即实现通过唤醒语音仅控制目标设备唤醒,解决了多个设备同时被唤醒或者多个设备都无法被唤醒的问题,提高了用户体验。
下面以执行主体为目标设备为例,对目标设置侧执行的唤醒方法的过程进行说明。具体的,请参见图3实施例。
图3为本申请实施例提供的设备的唤醒方法的流程图二。如图3所示,该方法包括:
S301、获取控制策略的标识,标识指示检测信息中包括唤醒语音的能量、唤醒语音的声源在目标设备的前方的预设角度范围内的角度、声源的变化信息。
S302、接收用户输入的唤醒语音,唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,多个智能设备中包括目标设备。
S303、对唤醒语音进行采样处理,得到语音序列。
需要说明的是,目标设备上设置有麦克风阵列,麦克风阵列中包括至少一个麦克风,每个麦克风均可以接收唤醒语音,目标设备可以仅对至少一个麦克风中的任意一个麦克风接收到唤醒语音执行S303中的方法。
唤醒语音为模拟信号,语音序列为数字信号。
可选地,采用预设采样频率,对唤醒语音进行采样处理,得到语音序列。
例如,预设采样频率可以为16000,还可以为其他,此处不对预设采样频率进行限定。
S304、对语音序列进行分段处理,得到多个语音子序列。
可选地,根据预设数据长度对语音序列进行分段处理,多个语音子序列,每个语音子序列的长度可以等于预设数据长度。
例如,预设数据长度可以为512,还可以为其他,此处不对预设数据长度进行限定。
S305、分别对多个语音子序列进行频域变换,得到多个频域子序列。
可选地,根据预设变换长度对分别对多个语音子序列进行频域变换,得到多个频域子序列。
例如,预设变换长度为257,还可以为其他,此处不对预设变换长度进行限定。
S306、确定在预设频率范围内多个频域子序列各自对应的能量。
可选地,可以将频域子序列中预设频率范围内的每个频点对应的幅度之和的平均值,确定为频域子序列的能量。具体的,请参见公式1。
Figure BDA0003217984930000111
其中,E(n)为第n个频域子序列的能量,Xn(f)为第n个频域子序列,f为频点,f1~fm为预设频率范围。
可选地,可以将频域子序列中预设频率范围内的每个频点对应的幅度之和,确定为频域子序列的能量。具体的,请参见公式2。
Figure BDA0003217984930000112
S307、将多个频域子序列各自对应的能量的平均值,确定为唤醒语音的能量。
可选地,可以将部分频域子序列各自对应的能量的平均值,确定为唤醒语音的能量。例如,得到的唤醒语音的能量可以为如下公式3。
Figure BDA0003217984930000113
其中,E为唤醒语音的能量,部分频域子序列为第a个频域子序列至第b个频域子序列。
可选地,可以将所有频域子序列各自对应的能量的平均值,确定为唤醒语音的能量。例如,得到的唤醒语音的能量可以为如下公式4。
Figure BDA0003217984930000114
S308、根据唤醒语音和角度变量,构造角度变量的搜索函数。
需要说明的是,在S308中唤醒语音包括麦克风阵列中每个麦克风均可以接收唤醒语音。
可选地,得到的搜索函数可以为如下公式5:
Figure BDA0003217984930000115
其中,Aml(θ)为搜索函数,θ为角度变量,PA(θ,f)为方向导量,Rxx(f)为协方差矩阵。
其中,Rxx(f)=X(f)*X*(f),X(f)为目标设备上麦克风阵列中包括的多个麦克风各自采集到的唤醒语音对应的频域信号,X*(f)为X(f)的共轭矩阵。
其中,
Figure BDA0003217984930000116
d为麦克风之间的距离,c为光速。
S309、对搜索函数进行优化搜索,得到搜索函数的函数值最大时对应的角度。
具体的,能够通过离子群优化算法对搜索函数进行优化搜索,得到搜索函数的函数值最大时对应的角度。
S310、将搜索函数的函数值最大时对应的角度,确定为唤醒语音的声源在目标设备的前方的预设角度范围内的角度。
S311、确定唤醒语音的首个音频帧对应的第一角度、以及最后一个音频帧对应的第二角度。
具体的,确定第一角度和第二角度的方法与S306至S307的方法相同,此处不再赘述。
S312、根据第一角度和第二角度,确定声源的变化信息。
可选地,可以将第一角度和第二角度的差值确定为声源的变化信息。
可选地,也可以将第一角度和第二角度与唤醒语音的持续时长的比值,确定为声源的变化信息。
在图3实施例提供的设备的唤醒方法中,标识指示检测信息中包括能量、角度、声源的变化信息,使目标设备依次确定能量、角度、声源的变化信息,并向服务器发送检测信息(包括确定出的能量、角度、声源的变化信息),提高服务器确定目标设备的准确性。
图4为本申请实施例提供的设置界面的示意图。如图4所示,控制设备可以显示设置界面,设置界面中包括:控制策略的多个控件。每个控制具有对应的名称,例如控件1对应的名称为控制策略1,例如控件2对应的名称为控制策略2。
设置界面中还可以包括控件对应的描述。其中,描述用于使用户了解服务器确定目标设备的方式。例如,控件1对应的描述为“依据能量决策”。
在具体应用中,控制设备中预先存储有每个控件对应的标识,当用户点击其中一个控件时,控制设备查找与控件对应标识,并根据该标识向目标设备发送设置信息。
需要说明的是,每个智能设备中包括2个判决模块:能量判决模块和波达方向(direction of arrival,DOA)判决模块。其中,能量判决模块能够用于执行上述S303~S307,DOA判决模块能够用于执行上述S308~S312。
本申请中的标识可以控制能量判决模块和/或DOA判决模块的开关。例如,标识指示检测信息中包括能量,则控制能量判决模块打开。例如,标识指示检测信息中包括能量、角度和变化信息,则控制能量判决模块DOA判决模块同时打开。
可选地,每个智能设备中还可以包括:混响音模块。混响音模块用于通过泛化加权预测误差(Generalization Weighted Prediction Error,Gwpe)对每个麦克风阵列中的每个麦克风对应的语音序列进行线性去混响音处理,得到每个麦克风对应的频域信号,进一步地可以分别对每个麦克风对应的频信号进行逆变换处理,得到进行线性去混响音处理后的语音序列,并针对每个进行线性去混响音处理后的语音序列执行S304~S312。其中,麦克风对应的语音序列可以通过上述S302~S303得到。
需要说明的是,在采用Gwpe进行线性去混响音处理的过程中,涉及矩阵求逆计算,因此导致计算量较大,处理时间较长,使得混响音处理的效率较低。而在本申请中,采用LDLT分解算法代替矩阵求逆计算,从而节省计算量,降低处理时间,提高混响音处理的效率。
在实际应用中,当利用通道直接的相干关系进行混响抑制时,对智能设备的依赖性较大,由于实际中各个智能设备采用的麦克风型号不一定相同,麦克风的灵敏度、频响等可能存在差异,因此不适用利用通道直接的相干关系进行混响抑制,若要利用通道直接的相干关系进行混响抑制,则需要对麦克风进行校准,由于校准方式较复杂,因此导致进行混响抑制的过程较为复杂。而在本申请中,Gwpe属于线性预测,对智能设备依赖性较小,无需对麦克风进行校准,简化了混响抑制的过程。
图5为本申请实施例提供的应用场景一。当检测信息仅包括能量时,如图5所示,应用场景例如包括:设备1、设备2和用户。
设备1、设备2可以为任意带有屏幕或者无屏幕的智能设备。
设备1和设备2均可以执行上述图3实施例中S301~S307所示的方法得到检测信息,向服务器发送检测信息(图5中未示出)。
服务器根据检测信息,若确定设备2对应的能量大于设备1对应的能量,则确定设备2为目标设备,并向设备2发送唤醒指示,以使设备2唤醒。
图6为本申请实施例提供的应用场景二。当检测信息包括能量和角度时,如图6所示,应用场景例如包括:设备1、设备2、设备3和用户。
当设备1为带有屏幕的智能设备(例如电视)、设备2和设备3为未带有屏幕的智能设备(例如均为音箱)时,设备1可以执行上述图3实施例中S301~S310所示的方法得到检测信息,向服务器发送检测信息。而设备2和设备3仅可以执行图3实施例中S301~S307所示的方法得到检测信息(即检测信息中的角度为0),向服务器发送检测信息。
可选地,服务器可以通过如下方法确定目标设备:针对每个设备发送的检测信息,若该角度为非0值,则判断角度是否在该设备的前方的预设角度范围内,若角度在该设备的前方的预设角度范围内,则将该设备确定为目标设备。例如在图6中可以将设备1确定为目标设备。
图7为本申请实施例提供的应用场景二。当检测信息包括能量、角度和声源的变化信息时,如图7所示,应用场景例如包括:设备1、设备2和用户。
可选地,当设备1为带有屏幕的智能设备(例如电视)、设备2为带有屏幕的智能设备(例如冰箱)时,设备1和设备2屏幕互相垂直,当用户输入唤醒语音的过程中,由位置1变动到位置2,设备1和设备2均执行上述图3实施例中S301~S312所示的方法得到检测信息,向服务器发送检测信息。
可选地,服务器通过如下2种方法确定目标设备。
方法1,服务器在确定设备1对应的角度在预设角度范围内、设备2对应的角度在预设角度范围内时,将设备1、设备2中声源的变化信息最小的设备,确定为目标设备。例如在图7中设备2确定为目标设备。
方法2,服务器根据设备1和设备2各自对应的能量、角度和变化信息,确定设备1和设备2各自对应的唤醒评分,并将设备1和设备2中唤醒评分最大的智能设备,确定为目标设备。
下面以执行主体为服务器为例,对服务器侧执行的唤醒方法的过程进行说明。具体的,请参见图8实施例。
图8为本申请实施例提供的设备的唤醒方法的流程图三。如图8所示,该方法包括:
S801、接收多个智能设备发送的检测信息,检测信息中包括唤醒语音的能量、唤醒语音的声源在智能设备的前方的预设角度范围内的角度和声源的变化信息。
可选地,检测信息还具有如下2中设计。
设计1,检测信息中包括唤醒语音的能量。
设计2,检测信息中包括唤醒语音的能量和唤醒语音的声源在智能设备的前方的预设角度范围内的角度。
S802、判断多个智能设备中是否存在至少一个智能设备对应的角度在预设角度范围内。
若是,则执行S803,若否,则执行S804。
S803、将至少一个智能设备中声源的变化信息最小的设备,确定为目标设备。
声源的变化信息最小指示DOA变动最小。
S804、根据多个智能设备对应的能量、角度和变化信息,确定多个智能设备各自对应的唤醒评分,将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
进一步地,针对上述设计1,服务器将多个智能设备中能量最大的智能设备,确定为目标设备。
进一步地,针对上述设计2,服务器判断多个智能设备中是否存在第一智能设备的角度与预先存储的第一智能设备的预设角度相同;若是,则将第一智能设备确定为目标设备;若否,则根据多个智能设备对应的能量和角度,确定多个智能设备各自对应的唤醒评分,并将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
可选地,当智能设备为无屏幕的智能设备时,预先存储的预设角度可以为空。
可选地,预设角度可以为90度。例如在图6实施例中,可以将设备1确定第一智能设备。
在图8所示的设备的唤醒方法中,检测信息不同,服务器确定目标设备的方法也不同,提高确定目标设备的多样性和灵活性。
图9为本申请实施例提供的设备的唤醒装置的示意图一。该唤醒装置10应用于目标设备,唤醒装置10包括:获取模块101、接收模块102和确定模块103;
获取模块101,用于获取控制策略的标识;
接收模块102,用于接收用户输入的唤醒语音,唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,多个智能设备中包括目标设备;
确定模块103,用于根据标识和唤醒语音,确定检测信息,并向服务器发送检测信息;
接收模块102,还用于接收服务器发送唤醒指示,并根据唤醒指示控制目标设备唤醒。
本申请实施例提供的唤醒装置10可以执行上述方法实施例中目标设备执行的方法步骤,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的设计中,检测信息中包括如下至少一种信息:
唤醒语音的能量;
唤醒语音的声源在目标设备的前方的预设角度范围内的角度;或者,
声源的变化信息。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的能量;确定模块103具体用于:
对唤醒语音进行采样处理,得到语音序列;
对语音序列进行分段处理,得到多个语音子序列;
分别对多个语音子序列进行频域变换,得到多个频域子序列;
确定在预设频率范围内多个频域子序列各自对应的能量,并将多个频域子序列各自对应的能量的平均值,确定为唤醒语音的能量。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的声源在目标设备的前方的预设角度范围内的角度;确定模块103具体用于:
根据唤醒语音和角度变量,构造角度变量的搜索函数;
对搜索函数进行优化搜索,得到搜索函数的函数值最大时对应的角度;
将搜索函数的函数值最大时对应的角度,确定为角度。
在一种可能的设计中,标识指示检测信息中包括唤醒语音的声源的变化信息;确定模块103具体用于:
确定唤醒语音的首个音频帧对应的第一角度、以及最后一个音频帧对应的第二角度;
根据第一角度和第二角度,确定声源的变化信息。
本申请实施例提供的唤醒装置10可以执行上述方法实施例中目标设备执行的方法步骤,其实现原理以及有益效果类似,此处不再进行赘述。
图10为本申请实施例提供的设备的唤醒装置的示意图二。该唤醒装置20应用于服务器,唤醒装置20包括:接收模块201、确定模块202和发送模块203;其中,
接收模块201,用于接收多个智能设备发送的检测信息;
确定模块202,用于根据多个智能设备发送的检测信息,在多个智能设备中确定目标设备;
发送模块203,用于并向目标设备发送唤醒指示。
本申请实施例提供的唤醒装置20可以执行上述方法实施例中服务器执行的方法步骤,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的设计中,检测信息中包括如下至少一种信息:
唤醒语音的能量;
唤醒语音的声源在智能设备的前方的预设角度范围内的角度;或者,
声源的变化信息。
在一种可能的设计中,检测信息中包括唤醒语音的能量;确定模块102具体用于:
将多个智能设备中能量最大的智能设备,确定为目标设备。
在一种可能的设计中,检测信息中包括唤醒语音的能量和唤醒语音的声源在智能设备的前方的预设角度范围内的角度;确定模块102具体用于,包括:
判断多个智能设备中是否存在第一智能设备的角度与预先存储的第一智能设备的预设角度相同;
若是,则将第一智能设备确定为目标设备;
若否,则根据多个智能设备对应的能量和角度,确定多个智能设备各自对应的唤醒评分,并将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
在一种可能的设计中,检测信息中包括唤醒语音的能量和唤醒语音的声源在智能设备的前方的预设角度范围内的角度和声源的变化信息;确定模块102具体用于:
判断多个智能设备中是否存在至少一个智能设备对应的角度在预设角度范围内;
若是,则将至少一个智能设备中声源的变化信息最小的设备,确定为目标设备;
若否,则根据多个智能设备对应的能量、角度和变化信息,确定多个智能设备各自对应的唤醒评分,将多个智能设备中唤醒评分最大的智能设备,确定为目标设备。
本申请实施例提供的唤醒装置20可以执行上述方法实施例中服务器执行的方法步骤,其实现原理以及有益效果类似,此处不再进行赘述。
图11为本申请实施例提供的智能设备的硬件结构示意图。如11所示,该智能设备30包括:处理器301和存储器302,
其中,处理器301、存储器302通过总线303连接。
在具体实现过程中,处理器301执行存储器302存储的计算机执行指令,使得处理器301执行如上的目标设备执行的方法。
处理器301的具体实现过程可参见上述目标设备执行的方法,其实现原理和技术效果类似,本实施例此处不再赘述。
图12为本申请实施例提供的服务器的硬件结构示意图。如12所示,该服务器40包括:处理器401和存储器402,
其中,处理器401、存储器402通过总线403连接。
在具体实现过程中,处理器401执行存储器402存储的计算机执行指令,使得处理器401执行如上的目标设备执行的方法。
处理器401的具体实现过程可参见上述服务器执行的方法,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述图11-图12所示的实施例中,应理解,处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行如上述目标设备执行的方法。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行如上述服务器执行的方法。
本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述目标设备执行的方法。
本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述服务器执行的方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种设备的唤醒方法,其特征在于,应用于目标设备,所述方法包括:
获取控制策略的标识;
接收用户输入的唤醒语音,所述唤醒语音中包括预设范围内的多个智能设备的相同唤醒词,所述多个智能设备中包括所述目标设备;
根据所述标识和所述唤醒语音,确定检测信息,并向服务器发送所述检测信息;
接收所述服务器发送所述唤醒指示,并根据所述唤醒指示控制所述目标设备唤醒。
2.根据权利要求1所述的方法,其特征在于,所述检测信息中包括如下至少一种信息:
所述唤醒语音的能量;
所述唤醒语音的声源在所述目标设备的前方的预设角度范围内的角度;或者,
所述声源的变化信息。
3.根据权利要求1或2所述的方法,其特征在于,所述标识指示所述检测信息中包括所述唤醒语音的能量;所述根据所述标识和所述唤醒语音,确定检测信息,包括:
对所述唤醒语音进行采样处理,得到语音序列;
对所述语音序列进行分段处理,得到多个语音子序列;
分别对所述多个语音子序列进行频域变换,得到多个频域子序列;
确定在预设频率范围内所述多个频域子序列各自对应的能量,并将所述多个频域子序列各自对应的能量的平均值,确定为所述唤醒语音的能量。
4.根据权利要求1或2所述的方法,其特征在于,所述标识指示所述检测信息中包括所述唤醒语音的声源在所述目标设备的前方的预设角度范围内的角度;
所述根据所述标识和所述唤醒语音,确定检测信息,包括:
根据所述唤醒语音和角度变量,构造所述角度变量的搜索函数;
对所述搜索函数进行优化搜索,得到所述搜索函数的函数值最大时对应的角度;
将所述搜索函数的函数值最大时对应的角度,确定为所述角度。
5.根据权利要求1或2所述的方法,其特征在于,所述标识指示所述检测信息中包括所述唤醒语音的声源的变化信息;所述根据所述标识和所述唤醒语音,确定检测信息,包括:
确定所述唤醒语音的首个音频帧对应的第一角度、以及最后一个音频帧对应的第二角度;
根据所述第一角度和第二角度,确定所述声源的变化信息。
6.一种设备的唤醒方法,其特征在于,应用于服务器,所述方法包括:
接收多个智能设备发送的检测信息;
根据所述多个智能设备发送的检测信息,在所述多个智能设备中确定目标设备;
并向所述目标设备发送唤醒指示。
7.根据权利要求6所述的方法,其特征在于,所述检测信息中包括如下至少一种信息:
所述唤醒语音的能量;
所述唤醒语音的声源在智能设备的前方的预设角度范围内的角度;或者,
所述声源的变化信息。
8.根据权利要求6或7所述的方法,其特征在于,所述检测信息中包括所述唤醒语音的能量;根据所述多个智能设备发送的检测信息,在所述多个智能设备中确定目标设备,包括:
将所述多个智能设备中能量最大的智能设备,确定为所述目标设备。
9.根据权利要求6或7所述的方法,其特征在于,所述检测信息中包括所述唤醒语音的能量和所述唤醒语音的声源在智能设备的前方的预设角度范围内的角度;根据所述多个智能设备发送的检测信息,在所述多个智能设备中确定目标设备,包括:
判断所述多个智能设备中是否存在第一智能设备的角度与预先存储的第一智能设备的预设角度相同;
若是,则将第一智能设备确定为所述目标设备;
若否,则根据所述多个智能设备对应的能量和角度,确定所述多个智能设备各自对应的唤醒评分,并将多个智能设备中唤醒评分最大的智能设备,确定为所述目标设备。
10.根据权利要求6或7所述的方法,其特征在于,所述检测信息中包括所述唤醒语音的能量、所述唤醒语音的声源在智能设备的前方的预设角度范围内的角度、以及所述声源的变化信息;
根据所述多个智能设备发送的检测信息,在所述多个智能设备中确定目标设备,包括:
判断所述多个智能设备中是否存在至少一个智能设备对应的角度在预设角度范围内;
若是,则将所述至少一个智能设备中声源的变化信息最小的设备,确定为所述目标设备;
若否,则根据所述多个智能设备对应的能量、角度和变化信息,确定所述多个智能设备各自对应的唤醒评分,将多个智能设备中唤醒评分最大的智能设备,确定为所述目标设备。
CN202110949891.5A 2021-08-18 2021-08-18 设备的唤醒方法 Pending CN113763950A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110949891.5A CN113763950A (zh) 2021-08-18 2021-08-18 设备的唤醒方法
PCT/CN2022/097202 WO2023020076A1 (zh) 2021-08-18 2022-06-06 设备的唤醒方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110949891.5A CN113763950A (zh) 2021-08-18 2021-08-18 设备的唤醒方法

Publications (1)

Publication Number Publication Date
CN113763950A true CN113763950A (zh) 2021-12-07

Family

ID=78790319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110949891.5A Pending CN113763950A (zh) 2021-08-18 2021-08-18 设备的唤醒方法

Country Status (2)

Country Link
CN (1) CN113763950A (zh)
WO (1) WO2023020076A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023020076A1 (zh) * 2021-08-18 2023-02-23 青岛海尔科技有限公司 设备的唤醒方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461449B (zh) * 2018-12-29 2021-12-14 思必驰科技股份有限公司 用于智能设备的语音唤醒方法及系统
CN112289313A (zh) * 2019-07-01 2021-01-29 华为技术有限公司 一种语音控制方法、电子设备及系统
CN110610711A (zh) * 2019-10-12 2019-12-24 深圳市华创技术有限公司 分布式物联网设备的全屋智能语音交互方法及其系统
CN111091828B (zh) * 2019-12-31 2023-02-14 华为技术有限公司 语音唤醒方法、设备及系统
CN111640431B (zh) * 2020-04-30 2023-10-27 海尔优家智能科技(北京)有限公司 一种设备响应处理方法及装置
CN112634872A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 语音设备唤醒方法及装置
CN113763950A (zh) * 2021-08-18 2021-12-07 青岛海尔科技有限公司 设备的唤醒方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023020076A1 (zh) * 2021-08-18 2023-02-23 青岛海尔科技有限公司 设备的唤醒方法

Also Published As

Publication number Publication date
WO2023020076A1 (zh) 2023-02-23

Similar Documents

Publication Publication Date Title
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN108922553B (zh) 用于音箱设备的波达方向估计方法及系统
CN110503944B (zh) 语音唤醒模型的训练和使用方法及装置
CN108269567A (zh) 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
US20190147870A1 (en) Information processing apparatus and information processing method
CN110211578B (zh) 音箱控制方法、装置及设备
CN110827843A (zh) 音频处理方法、装置、存储介质及电子设备
US11511200B2 (en) Game playing method and system based on a multimedia file
CN110211599A (zh) 应用唤醒方法、装置、存储介质及电子设备
CN112562742B (zh) 语音处理方法和装置
CN109766476B (zh) 视频内容情感分析方法、装置、计算机设备及存储介质
CN111243604B (zh) 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
CN113763950A (zh) 设备的唤醒方法
CN113593548A (zh) 智能设备的唤醒方法和装置、存储介质及电子装置
CN110517677B (zh) 语音处理系统、方法、设备、语音识别系统及存储介质
CN113066488B (zh) 语音唤醒智能控制方法、装置、电子设备及存储介质
CN116978368B (zh) 一种唤醒词检测方法和相关装置
CN114120984A (zh) 语音交互方法、电子设备和存储介质
CN110890104B (zh) 语音端点检测方法及系统
CN110263842B (zh) 用于目标检测的神经网络训练方法、装置、设备、介质
CN110517679B (zh) 一种人工智能的音频数据处理方法及装置、存储介质
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN115188390A (zh) 一种音频降噪方法和相关装置
CN111383634B (zh) 根据基于声音的机制停用智能显示设备的显示器的方法及系统
CN111798862A (zh) 音频降噪方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination