CN113132193B - 智能设备的控制方法、装置、电子设备以及存储介质 - Google Patents
智能设备的控制方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN113132193B CN113132193B CN202110396839.1A CN202110396839A CN113132193B CN 113132193 B CN113132193 B CN 113132193B CN 202110396839 A CN202110396839 A CN 202110396839A CN 113132193 B CN113132193 B CN 113132193B
- Authority
- CN
- China
- Prior art keywords
- voice
- distance
- intelligent
- control signal
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 claims description 135
- 230000003993 interaction Effects 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/282—Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Selective Calling Equipment (AREA)
Abstract
本申请公开了一种智能设备的控制方法、装置、电子设备以及存储介质,涉及人工智能技术领域。获取多个智能设备各自采集的语音控制信号的语音特征,分别将每个语音特征输入已训练的距离预测模型,获得距离预测模型输出的与每个语音特征各自对应的距离值,距离值用于表征语音控制信号的声源与智能设备的距离,基于与每个语音特征各自对应的距离值,从多个智能设备中确定目标智能设备,并对目标智能设备执行与语音控制信号对应的控制。本申请通过距离预测模型根据多个智能设备各自采集的语音控制信号的语音特征,获取各个智能设备与语音控制信号的声源的距离,根据该距离确定目标智能设备执行对应的控制,从而可以提升语音控制的准确性和用户体验。
Description
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种智能设备的控制方法、装置、电子设备以及存储介质。
背景技术
随着人工智能技术的发展,人机语音交互已成为产品化程度最高、服务人群最广的领域之一。目前,许多智能设备都安装了智能语音助手,然而,在同一空间中,若存在多个智能设备,则多台智能设备可能同时应答语音控制指令,造成语音控制障碍,影响用户的使用体验。
发明内容
鉴于上述问题,本申请提出了一种智能设备的控制方法、装置、电子设备以及存储介质,以解决上述问题。
第一方面,本申请实施例提供了一种智能设备的控制方法,所述方法包括:获取多个智能设备各自采集的语音控制信号的语音特征;分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离;基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制。
第二方面,本申请实施例提供了一种智能设备的控制装置,所述装置包括:语音特征获取模块,用于获取多个智能设备各自采集的语音控制信号的语音特征;距离值获得模块,用于分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离;智能设备控制模块,用于基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制。
第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述处理器执行上述方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
本申请实施例提供的智能设备的控制方法、装置、电子设备以及存储介质,获取多个智能设备各自采集的语音控制信号的语音特征,分别将每个语音特征输入已训练的距离预测模型,获得距离预测模型输出的与每个语音特征各自对应的距离值,距离值用于表征语音控制信号的声源与智能设备的距离,基于与每个语音特征各自对应的距离值,从多个智能设备中确定目标智能设备,并对目标智能设备执行与语音控制信号对应的控制,从而通过距离预测模型根据多个智能设备各自采集的语音控制信号的语音特征,获取各个智能设备与语音控制信号的声源的距离,并根据所获取的距离确定目标智能设备执行对应的控制,从而可以提升语音控制的准确性,提升用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了可用于本申请实施例提供的智能设备的控制方法的应用环境示意图;
图2示出了可用于本申请实施例提供的智能设备的控制方法的场景示意图;
图3示出了本申请一个实施例提供的智能设备的控制方法的流程示意图;
图4示出了本申请又一个实施例提供的智能设备的控制方法的流程示意图;
图5示出了本申请再一个实施例提供的智能设备的控制方法的流程示意图;
图6示出了本申请另一个实施例提供的智能设备的控制方法的流程示意图;
图7示出了本申请又再一个实施例提供的智能设备的控制方法的流程示意图;
图8示出了本申请又另一个实施例提供的智能设备的控制方法的流程示意图;
图9示出了本申请实施例提供的智能设备的控制装置的模块框图;
图10示出了本申请实施例用于执行根据本申请实施例的智能设备的控制方法的电子设备的框图;
图11示出了本申请实施例的用于保存或者携带实现根据本申请实施例的智能设备的控制方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
随着人工智能技术的发展,人机语音交互已成为产品化程度最高、服务人群最广的领域之一,目前,许多智能设备都安装了智能语音助手。然而,在同一空间中,可能同时存在多个支持相同语音控制指令的智能设备,若用户发起语音控制指令,则多台设备可能同时应答,相互干扰,这会给用户带来困扰和不便,影响使用体验。
发明人经过研究发现,此时可以考虑多个方面来从多个智能设备中选择出最合适的一个智能设备来响应用户,比如考虑用户历史行为、智能设备类型、用户与智能设备之间的距离等多个维度。其中,用户与智能设备之间的距离是一个重要的维度,可以通过声源距离估计得到,即借助语音控制指令计算声源与智能设备之间的距离。目前,声源距离估计方法大多是通过多麦克风阵列,以及各麦克风接收声源信号的时差来实现的,然而,现在的智能手机、平板电脑、智能手表等智能设备的体积越来越小,很多智能设备上可能只配置有单麦克风,基于麦克风阵列的声源距离估计方法就失效了,即使存在麦克风阵列,但受限于智能设备体积,麦克风阵列往往较为集中,会导致声源距离估计不准确。
针对上述问题,发明人经过长期的研究发现,并提出了本申请实施例提供的智能设备的控制方法、装置、电子设备以及存储介质,通过距离预测模型根据多个智能设备各自采集的语音控制信号的语音特征,获取各个智能设备与语音控制信号的声源的距离,并根据所获取的距离确定目标智能设备执行对应的控制,从而可以提升语音控制的准确性,提升用户体验。其中,具体的智能设备的控制方法在后续的实施例中进行详细的说明。
下面将针对可用于本申请实施例提供的智能设备的控制方法的应用环境进行描述。
请参阅图1和图2,图1示出了可用于本申请实施例提供的智能设备的控制方法的应用环境示意图,图2示出了可用于本申请实施例提供的智能设备的控制方法的场景示意图。如图1和图2所示,该应用环境可以包括控制设备100和多个智能设备200。其中,控制设备100分别与多个智能设备200连接,该控制设备100可以包括个人电脑、智能手机、平板电脑、穿戴式电子设备等电子设备,该控制设备100可以包括传统服务器、云服务器等服务器设备,该控制设备100可以包括多个智能设备200中的任一智能设备200,在此不做限定。其中,智能设备200可以包括但不限于智能门窗传感器、智能开关、智能灯、智能空调、智能窗帘、智能电视、智能冰箱、智能电扇、智能手机等。其中,控制设备100与多个智能设备200可以通过蓝牙、无线保真Wifi或者紫峰ZigBee等方式进行连接,该控制设备100用于对多个智能设备200中的一个或多个智能设备200进行控制。
请参阅图3,图3示出了本申请一个实施例提供的智能设备的控制方法的流程示意图。所述智能设备的控制方法用于通过距离预测模型根据多个智能设备各自采集的语音控制信号的语音特征,获取各个智能设备与语音控制信号的声源的距离,根据该距离确定目标智能设备执行对应的控制,从而可以提升语音控制的准确性和用户体验。在具体的实施例中,所述智能设备的控制方法可以应用于如图9所示的智能设备的控制装置300以及配置有智能设备的控制装置300的控制设备100(如图10)。下面将以电子设备为例是,说明本实施例的具体流程,其中,可以理解的,该电子设备可以包括控制设备(如智能手机、平板电脑、台式电脑等),可以包括智能设备(如智能电视、智能冰箱、智能洗衣机等),也可以包括服务器(传统服务器、云服务器等),在此不做限定。下面将针对图3所示的流程进行详细的阐述,所述智能设备的控制方法具体可以包括以下步骤:
步骤S110:获取多个智能设备各自采集的语音控制信号的语音特征。
在本实施例中,可以获取多个智能设备各自采集的语音控制信号的语音特征,例如,假设多个智能设备的数量为3个,则可以获取3个智能设备各自采集的语音控制信号的语音特征。作为一种方式,该语音控制信号可以由用户发出且被多个智能设备采集到,该语音控制信号可以由其他设备发出且被多个智能设备采集到等,在此不做限定。
在一些实施方式中,多个智能设备可以均包括拾音器,则多个智能设备可以通过各自包括的拾音器采集语音控制信号,例如,该智能设备包括的拾音器可以为麦克风,则多个智能设备可以通过各自包括的麦克风采集语音控制信号,可选的,智能设备配置单麦克风,则多个智能设备可以通过各自包括的单麦克风采集语音控制信号。
作为一种方式,智能设备在采集到语音控制信号后,可以对语音控制信号进行语音特征提取,获得语音控制信号的语音特征,再将语音控制信号的语音特征发送至控制设备,则控制设备可以获取多个智能设备各自采集的语音控制信号的语音特征。作为另一种方式,智能设备在采集到语音控制信号后,可以将语音控制信号发送至控制设备,则控制信号接收多个智能设备各自发送的语音控制信号,对多个智能设备各自发送的语音控制信号进行语音特征提取,获得多个智能设备各自采集的语音控制信号的语音特征。
在一些实施方式中,在对语音控制信号进行语音特征提取可以包括:对语音控制信号进行预处理获得预处理后的语音控制信号,对预处理后的语音控制信号进行语音特征提取。
具体地,对语音控制信号进行预处理可以包括:
其一、在采集语音控制信号的过程中,检测智能设备是否正在播放音频,如果检测到智能设备正在播放音频时,则可以对采集到的语音控制信号进行声学回声消除处理,以消除所采集的语音控制信号中包含的智能设备自身播放的音频,从而只保留智能设备的单麦克风采集的外界声音,如果检测到智能设备没有正在播放音频时,则可以不进行回声消除处理。作为一种方式,可以通过声学回音消除单元(Acoustic Echo Cancellation,AEC)对语音控制信号进行回声消除处理。
其二、对采集到的语音控制信号进行降噪处理,消除语音控制信号中可能存在的环境噪声,比如智能空调、智能冰箱等智能电器的底噪声、街道噪声、风噪等,从而使得所获得的语音控制信号更加干净。
其三、对采集到的语音控制信号进行端点检测,消除语音控制信号中可能存在的无用的静音期,从而可以减小后续的计算量,节省计算资源,提升智能设备或控制设备的计算效率。作为一种方式,可以通过语音活动检测单元(Voice Activity Detection,VAD)对语音控制信号进行端点检测。
作为一种方式,上述其一、其二、其三的预处理顺序不做限定。例如,可以按其一、其二以及其三的顺序依次对语音控制信号进行预处理,获得预处理后的语音控制信号;可以按其二、其一、以及其三的顺序依次对语音控制信号进行预处理,获得预处理后的语音控制信号;也可以按其三、其二以及其一的顺序对语音控制信号进行预处理,获得预处理后的语音控制信号等,在此不做限定。
在一些实施方式中,对语音控制信号进行语音特征提取可以包括:基于已训练的距离预测模型对语音控制信号进行语音特征提取。例如,获取已训练的距离预测模型训练使用的语音特征,对语音控制信号提起对应的语音特征。
在一些实施方式中,对语音控制信号进行语音特征提取可以包括:对语音控制信号进行标量语音特征提取和矢量语音特征以及矢量语音特征的一阶差分和二阶差分提取。其中,对语音控制信号进行标量语音特征提取可以获得:LP残差峰值-均方根值比(LPResidual Ratio,LPRR)、LP残差峭度(LP Residual Kurtosis,LPRK)、LP残差直方图峰值(LP Residual Histogram Peak,LPRHP)、语谱图偏度(Spectrogram Skewness,SPSK)、语谱图直方图峰值位置(Spectrogram Histogram Peak Position,SHPP)等标量语音特征。其中,对语音控制信号进行矢量语音特征以及矢量语音特征的一阶差分和二阶差分可以获得:梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和MFCC的一阶差分以及MFCC的二阶差分、逆梅尔频率倒谱系数(Inverse Mel-Frequency CepstralCoefficients,IMFCC)和IMFCC的一阶差分以及IMFCC的二阶差分、线性预测倒谱系数(Linear Predictive Cepstral Coefficients,LPCC)和LPCC的一阶差分以及LPCC的二阶差分、平均希尔伯特包络系数(Mean Hilbert Envelope Coefficients,MHEC)和MHEC的一阶差分以及MHEC的二阶差分、伽马通频率倒谱系数(Gammatone-Frequency CepstralCoefficients,GFCC)和GFCC的一阶差分以及GFCC的二阶差分等矢量语音特征。
其中,在实际应用阶段,可以从上述标量语音特征和矢量语音特征中选择一种或多种进行使用。其中,所使用的语音特征的种类越多,则基于该语音特征所确定的距离越准确,同时计算量和资源开销也会越大,所使用的语音特征的种类越少,则基于该语音特征所确定的距离越不准确,同时计算量和资源开销也会越小。
步骤S120:分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离。
在一些实施方式中,在获取多个智能设备各自采集的语音控制信号的语音特征后,可以分别将多个智能设备各自采集的语音控制信号的语音特征输入已训练的距离预测模型,其中,该已训练的距离预测模型是通过机器学习获得的,具体地,首先采集训练数据集,其中,训练数据集中的一类数据的属性或特征区别于另一类数据,然后通过将采集的训练数据集按照预设的算法对神经网络进行训练建模,从而基于该训练数据集总结出规律,得到已训练的距离预测模型。在本实施例中,训练数据集例如可以是多个训练语音特征和多个训练距离值,其中,多个训练语音特征和多个训练距离值一一对应。作为一种方式,该神经网络可以包括递归神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)等,在此不做限定。
可以理解的,该已训练的距离预测模型可以预先训练完成后存储在控制设备本地。基于此,控制设备在获取多个智能设备各自采集的语音控制信号的语音特征后,可以直接在本地调用该已训练的距离预测模型,例如,可以直接发送指令至距离预测模型,以指示该已训练的距离预测模型在目标存储区域读取每个语音特征,或者控制设备可以直接分别将每个语音特征输入存储在本地的已训练的距离预测模型,从而有效避免由于网络因素的影响降低每个语音特征输入已训练的距离预测模型的速度,以提升已训练的距离预测模型获取每个语音特征的速度,提升用户体验。
另外,该已训练的距离预测模型也可以预先训练完成后存储在与控制设备通信连接的服务器。基于此,控制设备在获取多个智能设备各自采集的语音控制信号的语音特征后,可以通过网络发送指令至存储在服务器的已训练的距离预测模型,以指示该已训练的距离预测模型通过网络读取控制设备的每个语音特征,或者控制设备可以通过分别将每个语音特征发送至存储在服务器的已训练的距离预测模型,从而通过将已训练的距离预测模型存储在服务器的方式,减少对控制设备的存储空间的占用,降低对控制设备正常运行的影响。
在本实施例中,已训练的距离预测模型基于输入的每个语音特征,获得与每个语音特征各自对应的距离值。可以理解的,若该已训练的距离预测模型存储在控制设备本地,则该控制设备直接获取该已训练的距离预测模型输出的与每个语音特征各自对应的距离值;若该已训练的距离预测模型存储在服务器,则该控制设备可以通过网络从服务器获取该已训练的距离预测模型输出的与每个语音特征各自对应的距离值。
在一些实施方式中,该距离值用于表征语音控制信号的声源与智能设备的距离。例如,若多个智能设备包括第一智能设备、第二智能设备以及第三智能设备,且已训练的距离预测模型基于第一智能设备采集的语音控制信号的语音特征输出第一距离值,已训练的距离预测模型基于第二智能设备采集的语音控制信号的语音特征输出第二距离值,已训练的距离预测模型基于第三智能设备采集的语音控制信号的语音特征输出第三距离值,则,第一距离值用于表征语音控制信号的声源与第一智能设备的距离,第二距离值用于表征语音控制信号的声源与第二智能设备的距离,第三距离值用于表征语音控制信号的声源与第三智能设备的距离。
步骤S130:基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制。
在本实施例中,在获得与每个语音特征各自对应的距离值时,则可以确定多个智能设备各自与语音控制信号的声源的距离,因此,可以基于每个语音特征各自对应的距离值(多个智能设备各自与语音控制信号的声源的距离),从多个智能设备中确定目标智能设备,并对目标智能设备执行与语音控制信号对应的控制。
作为一种方式,在获得与每个语音特征各自对应的距离值时,则可以基于与每个语音特征各自对应的距离值,从多个智能设备中确定距离语音控制信号的声源最近的智能设备,作为目标智能设备,并对目标智能设备执行与语音控制信号对应的控制。作为另一种方式,在获得与每个语音特征各自对应的距离值时,可以获取多个智能设备各自对应的预设交互范围,基于与每个语音特征各自对应的距离值,从多个智能设备中确定距离值在对应的预设交互范围内的智能设备,作为目标智能设备,并对目标智能设备执行与语音控制信号对应的控制。
在一些实施方式中,语音控制信号包括但不限于:语音唤醒信号、语音开启信号、语音关闭信号。其中,当语音控制信号为语音唤醒信息时,则可以唤醒目标智能设备;当语音控制信号为语音开启信号时,则可以开启目标智能设备;当语音控制信号为语音关闭信号时,则可以关闭目标智能设备。
本申请一个实施例提供的智能设备的控制方法,获取多个智能设备各自采集的语音控制信号的语音特征,分别将每个语音特征输入已训练的距离预测模型,获得距离预测模型输出的与每个语音特征各自对应的距离值,距离值用于表征语音控制信号的声源与智能设备的距离,基于与每个语音特征各自对应的距离值,从多个智能设备中确定目标智能设备,并对目标智能设备执行与语音控制信号对应的控制,从而通过距离预测模型根据多个智能设备各自采集的语音控制信号的语音特征,获取各个智能设备与语音控制信号的声源的距离,并根据所获取的距离确定目标智能设备执行对应的控制,从而可以提升语音控制的准确性,提升用户体验。
请参阅图4,图4示出了本申请又一个实施例提供的智能设备的控制方法的流程示意图。下面将针对图4所示的流程进行详细的阐述,所述智能设备的控制方法具体可以包括以下步骤:
步骤S210:获取多个智能设备各自采集的语音控制信号的语音特征。
步骤S220:分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离。
其中,步骤S210-步骤S220的具体描述请参阅步骤S110-步骤S120,在此不再赘述。
步骤S230:基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定距离所述语音控制信号的声源最近的智能设备,作为所述目标智能设备。
在本实施例中,在获得与每个语音特征各自对应的距离值时,可以基于与每个语音特征各自对应的距离值,从多个智能设备中确定距离语音控制信号的声源最近的智能设备,作为目标智能设备。在一些实施方式中,多个智能设备中中距离语音控制信号的声源最近的智能设备不止一个时,则可以再基于用户历史行为、各个智能设备的类型从中确定目标智能设备,例如,可以再从中获取用户在最近一段时间内频繁使用的智能设备作为目标智能设备,可以再从中获取已选定类型的智能设备作为目标智能设备等,在此不做限定。
步骤S240:对所述目标智能设备执行与所述语音控制信号对应的控制。
在一些实施方式中,在确定目标智能设备后,可以对目标智能设备执行与语音控制信号对应的控制,例如,唤醒目标智能设备、开启目标智能设备、关闭目标智能设备等,在此不做限定。
本申请又一个实施例提供的智能设备的控制方法,相较于图3所示的智能设备的控制方法,本实施例还基于每个语音特征各自对应的距离值,从多个智能设备中确定距离语音控制信号的声源最近的智能设备作为目标智能设备,并对目标智能设备执行与语音控制信号对应的控制,从而提升智能设备控制的准确性,提升用户的使用体验。
请参阅图5,图5示出了本申请再一个实施例提供的智能设备的控制方法的流程示意图。下面将针对图5所示的流程进行详细的阐述,所述智能设备的控制方法具体可以包括以下步骤:
步骤S310:获取多个智能设备各自采集的语音控制信号的语音特征。
步骤S320:分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离。
其中,步骤S310-步骤S320的具体描述请参阅步骤S110-步骤S120,在此不再赘述。
步骤S330:获取所述多个智能设备各自对应的预设交互范围,所述预设交互范围基于所述智能设备的类型确定。
在一些实施方式中,多个智能设备中的各个智能设备各自对应有基于其类型确定的预设交互范围,其中,多个智能设备各自对应的预设交互范围可以相同、也可以不同,多个智能设备各自对应的预设交互范围可以在获取与每个语音特征各自对应的距离值后再根据其类型获取,也可以预先根据其类型获取并存储在本地,在此不做限定。
步骤S340:基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定距离值在对应的预设交互范围内的智能设备,作为所述目标智能设备。
在本实施例中,在获取与每个语音特征各自对应的距离值和多个智能设备各自对应的预设交互范围后,可以基于与每个语音特征各自对应的距离值,从多个智能设备中确定距离值在对应的预设交互范围内的智能设备,作为目标智能设备。作为一种方式,在获取与每个语音特征各自对应的距离值和多个智能设备各自对应的预设交互范围后,可以将多个智能设备中的各个智能设备各自对应的距离值与其对应的预设交互范围进行比较,以确定各个智能设备各自对应的距离值是否在其对应的预设交互范围内,并将对应的距离值在其对应的预设交互范围内的智能设备确定的目标智能设备。
以智能设备包括智能电视和智能手机为例,其中,对于用户而言,智能电视适宜交互的范围大概为2.0m-5.0m,则智能电视对应的预设交互范围可以为2.0m-5.0m,智能手机适宜的交互范围大概为0-2.0m,则智能手机对应的预设交互范围可以为0-2.0m。若基于智能手机采集的语音控制信号的语音特征确定的距离值为3.5m时,则确定智能手机与语音控制信号的声源的距离值为3.5m,基于智能电视采集的语音控制信号的语音特征确定的距离值为4.0m时,则确定智能电视与语音控制信号的声源的距离值为4.0m,此时,虽然智能手机与语音控制信号的声源的距离近于智能电视与语音控制信号的声源的距离,但是,智能手机与语音控制信号的声源的距离不在其对应的预设交互范围内,而智能电视与语音控制信号的声源的距离在其对应的预设交互范围内,因此,该语音控制信号更适合与智能电视进行交互,则可以将智能电视确定为目标智能设备。
步骤S350:对所述目标智能设备执行与所述语音控制信号对应的控制。
在一些实施方式中,在确定目标智能设备后,可以对目标智能设备执行与语音控制信号对应的控制,例如,唤醒目标智能设备、开启目标智能设备、关闭目标智能设备等,在此不做限定。
在一些实施方式中,当距离值在对应的预设交互范围内的智能设备的数量为多个时,即基于该方式所确定的目标智能设备的数量为多个时,则可以基于预设规则从多个目标智能设备中选取一个目标智能设备,并对所选取的目标智能设备执行与语音控制信号对应的控制,例如,唤醒所选取的目标智能设备、开启所选取的目标智能设备、关闭所选取的目标智能设备等,在此不做限定。
作为一种方式,当目标智能设备的数量为多个时,可以从多个目标智能设备中选取距离语音控制信号的声源最近的目标智能设备,并对所选取的目标智能设备执行与语音控制信号对应的控制。
作为又一种方式,当目标智能设备的数量为多个时,可以从多个目标智能设备中选取最近一段时间内视频频率最高的目标智能设备,并对所选取的目标智能设备执行与语音控制信号对应的控制。
作为再一种方式,当目标智能设备的数量为多个时,可以从多个目标智能设备中选取在当前时间点对应的历史时间点使用的目标智能设备,并对所选取的目标智能设备执行与语音控制信号对应的控制。
作为另一种方式,当目标智能设备的数量为多个时,可以从多个目标智能设备中选取优先级最高的目标智能设备,并对所选取的目标智能设备执行与语音控制信号对应的控制。
本申请再一个实施例提供的智能设备的控制方法,相较于图3所示的智能设备的控制方法,本实施例还基于每个语音特征各自对应的距离值,从多个智能设备中确定距离值在对应的预设交互范围内的智能设备作为目标智能设备,并对目标智能设备执行与语音控制信号对应的控制,从而提升智能设备控制的合理性,提升用户的使用体验。
请参阅图6,图6示出了本申请另一个实施例提供的智能设备的控制方法的流程示意图。下面将针对图6所示的流程进行详细的阐述,所述智能设备的控制方法具体可以包括以下步骤:
步骤S410:获取多个智能设备各自采集的语音控制信号的语音特征。
步骤S420:分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离。
步骤S430:基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制。
其中,步骤S410-步骤S430的具体描述请参阅步骤S110-步骤S130,在此不再赘述。
步骤S440:基于所述语音控制信号的声源与所述目标智能设备的距离值,输出提示信息,其中,所述提示信息用于提示调整所述语音控制信号的输入。
在本实施例中,在获取与每个语音特征各自对应的距离值并确定目标智能设备后,则获取语音控制信号的声源与目标智能设备的距离值,并基于语音控制信号的声源与目标智能设备的距离值,输出用于提示调整语音控制信号的输入的提示信息。
其中,语音识别是语音交互控制过程中必不可少的功能,而识别的精度很大程度上取决于语音控制信号的录音质量,在录音质量较差时,则语音识别的效果往往不如人意,严重影响用户的使用体验。基于此,若能够利用语音控制信号的声源与目标智能设备之间的距离,提示调整语音控制信号的输入,可以使得录音质量得到改善,提高语音识别的准确性,从而优化用户的语音交互控制体验。
作为一种方式,在获取语音控制信号的声源与目标智能设备的距离值后,可以检测距离值是否大于第一预设距离值,当检测到距离值大于第一预设距离值时,可以输出提示提高语音控制信号的输入音量的提示信息,使得录音质量得到改善,提高语音识别的准确性,从而优化用户的语音交互控制体验。
作为又一种方式,在在获取语音控制信号的声源与目标智能设备的距离值后,可以检测距离值是否大于第一预设距离值,当检测到距离值大于第一预设距离值时,可以输出提示减小语音控制信号的声源与目标智能设备的距离值的提示信息,使得录音质量得到改善,提高语音识别的准确性,从而优化用户的语音交互控制体验。
本申请另一个实施例提供的智能设备的控制方法,相较于图3所示的智能设备的控制方法,本实施例还基于语音控制信号的声源与目标智能设备的距离值,输出用于提示调整语音控制信号的声源与目标设备的距离的提示信息,以提高语音控制信号识别的准确性,从而优化用户的语音控制的交互体验。
请参阅图7,图7示出了本申请又再一个实施例提供的智能设备的控制方法的流程示意图。下面将针对图7所示的流程进行详细的阐述,所述智能设备的控制方法具体可以包括以下步骤:
步骤S510:获取多个智能设备各自采集的语音控制信号的语音特征。
步骤S520:分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离。
步骤S530:基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制。
其中,步骤S510-步骤S530的具体描述请参阅步骤S110-步骤S130,在此不再赘述。
步骤S540:基于所述语音控制信号的声源与所述目标智能设备的距离值,对所述目标智能设备的输出音量进行调整。
在本实施例中,在获取与每个语音特征各自对应的距离值并确定目标智能设备后,则获取语音控制信号的声源与目标智能设备的距离值,并基于语音控制信号的声源与目标智能设备的距离值,对目标智能设备的输出音量进行调整。
作为一种方式,在获取语音控制信号的声源与目标智能设备的距离值后,可以检测距离值是否大于第二预设距离值或者是否小于第三距离值,其中,第三距离值小于第二距离值,当检测到距离值大于第二预设距离值时,可以提高目标智能设备的输出音量,当检测到距离值小于第三预设距离值时,可以降低目标智能设备的输出音量,从而让用户得到更加贴心、自然的服务与体验。
本申请又再一个实施例提供的智能设备的控制方法,相较于图3所示的智能设备的控制方法,本实施例还基于语音控制信号的声源与目标智能设备的距离值,对目标智能设备的输出音量进行调整,从而使用户得到更加贴心、自然的服务与体验。
请参阅图8,图8示出了本申请又另一个实施例提供的智能设备的控制方法的流程示意图。下面将针对图8所示的流程进行详细的阐述,所述智能设备的控制方法具体可以包括以下步骤:
步骤S610:获取多个训练设备各自采集的语音控制信号的训练语音控制信号。
在一些实施方式中,可以将多个智能设备作为多个训练设备,也可以将与多个智能设备的类型、型号相同或相似的多个设备作为多个训练设备,在此不做限定。
在本实施例中,可以获取多个训练设备各自采集的训练语音控制信号,其中,该语音控制信号可以由用户发出且被多个训练设备采集到,该语音控制信号可以由其他设备发出且被多个训练设备采集到等,在此不做限定。
在一些实施方式中,多个训练设备可以均包括拾音器,则多个训练设备可以通过各自包括的拾音器采集语音控制信号,例如,该训练设备包括的拾音器可以为麦克风,则多个训练设备可以通过各自包括的麦克风采集语音控制信号,可选的,训练设备配置单麦克风,则多个训练设备可以通过各自包括的单麦克风采集语音控制信号。
步骤S620:分别对每个所述训练语音控制信号进行标量语音特征提取和矢量语音特征提取,获得与每个所述训练语音控制信号各自对应的训练语音特征,其中,每个所述训练语音特征包括至少一个训练语音子特征。
在本实施例中,在获取多个训练设备各自采集的语音控制信号的训练语音控制信号后,可以分别对每个训练语音控制信号进行标量语音特征提取和矢量语音特征提取,获得与每个训练语音控制信号各自对应的训练语音特征,其中,每个训练语音特征包括至少一个训练语音子特征。作为一种方式,每个训练语音特征可以包括:LPRR、LPRK、LPRHP、SPSK、SHPP、MFCC、IMFCC、LPCC、MHEC、GFCC中的至少一个。于本实施例中,每个训练语音特征各自包括的训练语音子特征的类型相同,例如,若训练语音特征包括第一训练语音特征、第二训练语音特征以及第三训练语音特征,且第一训练语音特征包括的训练语音子特征为LPRR和LPRK,则第二训练语音特征包括的训练语音子特征为LPRR和LPRK,以及第三训练语音特征包括的训练语音子特征为LPRR和LPRK。
步骤S630:获取训练数据集,其中,所述训练数据集包括多个训练语音特征和多个训练距离值,其中,所述多个训练语音特征和所述多个训练距离值一一对应。
在本实施例中,获取训练数据集。其中,该训练数据集可以包括上述步骤所获取的多个训练语音特征和多个训练距离值,其中,该多个训练语音特征和多个训练距离值一一对应。在一些实施方式中,该训练数据集可以为智能设备的本地存储的,可以为其他设备存储并发送至控制设备的,可以为从服务器存储并发送至控制设备的,还可以为控制设备实时采集的等,在此不做限定。
其中,本实施例中所采集的训练数据集是具有环境多样性和用户多样性的。具体而言,环境多样性体现在训练语音控制信号是在不同环境下采集的,其中,环境可以包括室内环境和室外环境,室内环境包括客厅、卧室、办公室、会议室等多种房间类型,房间的大小、陈设、墙面材料等均不相同;室外环境包括街道、公园、草坪等,相对室内环境更加开阔。用户多样性体现在本实施例的训练语音控制信号可以是采集不同说话人的语音,他们的性别、年龄、口音、语言类型均有不同。
步骤S640:将所述多个训练语音特征作为输入参数,所述多个训练距离值作为输出参数,对神经网络进行训练,获得已训练的距离预测模型。
在本实施例中,在获取训练数据集后,可以首先根据训练数据集中的训练语音特征确定神经网络的输入层;然后确定神经网络的隐藏层;最后根据待预测距离范围和待预测分辨率需求,确定神经网络的输出层。具体来说,神经网络的输入层的神经元节点的数量和语音特征的维数是一致的,即神经网络的输入层的神经元节点的数量与训练语音特征包括的训练语音子特征的数量一致;神经网络的隐藏层的层数和每层的神经元节点的数量可以根据经验和实际情况进行灵活地设定;神经网络的输出层的神经元节点的数量根据所要估计的距离范围和距离分辨率要求进行设定,即神经网络的输出层的神经元节点的数量基于待预测距离范围和待预测距离分辨率确定,比如待预测距离范围距是0-5m,待预测分辨率的要求是0.5m,那么可以将神经网络的输出层的神经元节点的数量设置为10。
作为一种方式,在获得训练数据集后并确定神经网络的拓扑结构后,可以将训练数据集中的多个训练语音特征作为输入参数,将训练数据集中的多个训练距离值作为输出参数,对神经网络进行训练,以获得已训练的距离预测模型。在一些实施方式中,在获得已训练的距离预测模型后,还可以对该已训练的距离预测模型的准确性进行验证,并判断该已训练的距离预测模型基于输入的语音特征输出的距离值是否满足预设要求,当该已训练的距离预测模型基于输入的语音特征输出的距离值不满足预设要求时,可以重新采集训练数据集对神经网络进行训练,或者再获取多个训练数据集对已训练的距离预测模型进行校正,在此不做限定。
作为一种可实施的方式,将训练数据集的语音特征输入到神经网络中,然后根据损失函数和优化器,利用BP(反向传播)算法更新神经网络的参数,之后利用训练验证集的语音特征对参数更新后的神经网络进行验证。反复进行上述过程,以对神经网络的参数进行优化,并保存准确率最高的神经网络,直至训练结束,从而获得已训练的距离预测模型。在训练神经网络型之前,需要进行超参数和训练策略的设定,比如初始学习率、学习率衰减方式、正则化系数、迭代次数、每批样本的个数等等。
经过上述步骤,在距离预测模型构建完成后,可以将已训练的距离预测模型部署到端侧(智能设备),或者部署到云侧(服务器),从而实现基于语音控制信号的声源与智能设备的距离预测。
步骤S650:获取多个智能设备各自采集的语音控制信号的语音特征。
步骤S660:分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离。
步骤S670:基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制。
其中,步骤S650-步骤S670的具体描述请参阅步骤S110-步骤S130,在此不再赘述。
本申请又另一个实施例提供的智能设备的控制方法,相较于图3所示的智能设备的控制方法,本实施例还通过包括多个训练语音特征和多个训练距离值的训练数据集,对神经网络进行训练获得已训练的距离预测模型,从而提升语音距离的准确性,以提升用户的使用体验。
请参阅图9,图9示出了本申请实施例提供的智能设备的控制装置的模块框图。下面将针对图9所示的框图进行阐述,所述智能设备的控制装置300包括:语音特征获取模块310、距离值获得模块320以及智能设备控制模块330,其中:
语音特征获取模块310,用于获取多个智能设备各自采集的语音控制信号的语音特征。
距离值获得模块320,用于分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离。
智能设备控制模块330,用于基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制。
进一步地,所述智能设备控制模块330包括:第一目标智能设备确定子模块和第一智能设备控制子模块,其中:
第一目标智能设备确定子模块,用于基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定距离所述语音控制信号的声源最近的智能设备,作为所述目标智能设备。
第一智能设备控制子模块,用于对所述目标智能设备执行与所述语音控制信号对应的控制。
进一步地,所述智能设备控制模块330包括:预设交互范围获取子模块、第二目标智能设备确定子模块以及第二智能设备控制子模块,其中:
预设交互范围获取子模块,用于获取所述多个智能设备各自对应的预设交互范围,所述预设交互范围基于所述智能设备的类型确定。
第二目标智能设备确定子模块,用于基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定距离值在对应的预设交互范围内的智能设备,作为所述目标智能设备。
第二智能设备控制子模块,用于对所述目标智能设备执行与所述语音控制信号对应的控制。
进一步地,当所述目标智能设备的数量为多个时,所述第二智能设备控制子模块包括:
目标设备控制单元,用于基于预设规则从多个目标智能设备中选取一个目标智能设备,并对所选取的目标智能设备执行与所述语音控制信号对应的控制。
进一步地,所述语音控制信号包括语音唤醒信号,所述智能设备控制模块330包括:第三智能设备控制子模块,其中:
第三智能设备控制子模块,用于基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并唤醒所述目标智能设备。
进一步地,所述智能设备的控制装置300还包括:提示信息输出模块,其中:
提示信息输出模块,用于基于所述语音控制信号的声源与所述目标智能设备的距离值,输出提示信息,其中,所述提示信息用于提示调整所述语音控制信号的输入。
进一步地,所述智能设备的控制装置300还包括:输出音量调整模块,其中:
输出音量调整模块,用于基于所述语音控制信号的声源与所述目标智能设备的距离值,对所述目标智能设备的输出音量进行调整。
进一步地,所述智能设备的控制装置300还包括:训练数据集获取模块和模型训练模块,其中:
训练数据集获取模块,用于获取训练数据集,其中,所述训练数据集包括多个训练语音特征和多个训练距离值,其中,所述多个训练语音特征和所述多个训练距离值一一对应。
模型训练模块,用于将所述多个训练语音特征作为输入参数,所述多个训练距离值作为输出参数,对神经网络进行训练,获得已训练的距离预测模型。
进一步地,所述智能设备的控制装置300还包括:训练语音控制信号获取模块和训练语音特征获取模块,其中:
训练语音控制信号获取模块,用于获取多个训练设备各自采集的语音控制信号的训练语音控制信号。
训练语音特征获取模块,用于分别对每个所述训练语音控制信号进行标量语音特征提取和矢量语音特征提取,获得与每个所述训练语音控制信号各自对应的训练语音特征,其中,每个所述训练语音特征包括至少一个训练语音子特征。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图10,其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
其中,处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责待显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参阅图11,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质400中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。
综上所述,本申请实施例提供的智能设备的控制方法、装置、电子设备以及存储介质,获取多个智能设备各自采集的语音控制信号的语音特征,分别将每个语音特征输入已训练的距离预测模型,获得距离预测模型输出的与每个语音特征各自对应的距离值,距离值用于表征语音控制信号的声源与智能设备的距离,基于与每个语音特征各自对应的距离值,从多个智能设备中确定目标智能设备,并对目标智能设备执行与语音控制信号对应的控制,从而通过距离预测模型根据多个智能设备各自采集的语音控制信号的语音特征,获取各个智能设备与语音控制信号的声源的距离,并根据所获取的距离确定目标智能设备执行对应的控制,从而可以提升语音控制的准确性,提升用户体验。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (12)
1.一种智能设备的控制方法,其特征在于,所述方法包括:
获取多个智能设备各自采集的语音控制信号的语音特征;
分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离;
获取所述多个智能设备各自对应的预设交互范围,所述预设交互范围基于所述智能设备的类型确定;
基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定距离值在对应的预设交互范围内的智能设备,作为目标智能设备;
当所述目标智能设备的数量为多个时,从多个目标智能设备中选取在当前时间点对应的历史时间点使用的目标智能设备,对所选取的目标智能设备执行与所述语音控制信号对应的控制。
2.根据权利要求1所述的方法,其特征在于,所述智能设备包括单麦克风,所述语音控制信号由所述智能设备通过所述单麦克风采集。
3.根据权利要求1所述的方法,其特征在于,所述语音控制信号包括语音唤醒信号,所述基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并对所述目标智能设备执行与所述语音控制信号对应的控制,包括:
基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备,并唤醒所述目标智能设备。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备之后,还包括:
基于所述语音控制信号的声源与所述目标智能设备的距离值,输出提示信息,其中,所述提示信息用于提示调整所述语音控制信号的输入。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定目标智能设备之后,还包括:
基于所述语音控制信号的声源与所述目标智能设备的距离值,对所述目标智能设备的输出音量进行调整。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述获取多个智能设备各自采集的语音控制信号的语音特征之前,还包括:
获取训练数据集,其中,所述训练数据集包括多个训练语音特征和多个训练距离值,其中,所述多个训练语音特征和所述多个训练距离值一一对应;
将所述多个训练语音特征作为输入参数,所述多个训练距离值作为输出参数,对神经网络进行训练,获得已训练的距离预测模型。
7.根据权利要求6所述的方法,其特征在于,所述获取训练数据集之前,还包括:
获取多个训练设备各自采集的语音控制信号的训练语音控制信号;
分别对每个所述训练语音控制信号进行标量语音特征提取和矢量语音特征提取,获得与每个所述训练语音控制信号各自对应的训练语音特征,其中,每个所述训练语音特征包括至少一个训练语音子特征。
8.根据权利要求7所述的方法,其特征在于,所述神经网络包括输入层,其中,所述输入层的神经元节点的数量与所述训练语音特征包括的训练语音子特征的数量一致。
9.根据权利要求6所述的方法,其特征在于,所述神经网络包括输出层,其中,所述输出层的神经元节点的数量基于待预测距离范围和待预测距离分辨率确定。
10.一种智能设备的控制装置,其特征在于,所述装置包括:
语音特征获取模块,用于获取多个智能设备各自采集的语音控制信号的语音特征;
距离值获得模块,用于分别将每个所述语音特征输入已训练的距离预测模型,获得所述距离预测模型输出的与每个所述语音特征各自对应的距离值,其中,所述距离值用于表征所述语音控制信号的声源与所述智能设备的距离;
预设交互范围获取子模块,用于获取所述多个智能设备各自对应的预设交互范围,所述预设交互范围基于所述智能设备的类型确定;
第二目标智能设备确定子模块,用于基于与每个所述语音特征各自对应的距离值,从所述多个智能设备中确定距离值在对应的预设交互范围内的智能设备,作为目标智能设备;
第二智能设备控制子模块,用于当所述目标智能设备的数量为多个时,从多个目标智能设备中选取在当前时间点对应的历史时间点使用的目标智能设备,对所选取的目标智能设备执行与所述语音控制信号对应的控制。
11.一种电子设备,其特征在于,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述处理器执行如权利要求1-9任一项所述的方法。
12.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110396839.1A CN113132193B (zh) | 2021-04-13 | 2021-04-13 | 智能设备的控制方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110396839.1A CN113132193B (zh) | 2021-04-13 | 2021-04-13 | 智能设备的控制方法、装置、电子设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113132193A CN113132193A (zh) | 2021-07-16 |
CN113132193B true CN113132193B (zh) | 2023-01-06 |
Family
ID=76776169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110396839.1A Active CN113132193B (zh) | 2021-04-13 | 2021-04-13 | 智能设备的控制方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113132193B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114527711A (zh) * | 2021-11-08 | 2022-05-24 | 厦门阳光恩耐照明有限公司 | 一种基于本地语音的智能设备控制的方法、装置及电子设备 |
CN115312051A (zh) * | 2022-07-07 | 2022-11-08 | 青岛海尔科技有限公司 | 设备的语音控制方法和装置、存储介质及电子装置 |
CN118016102B (zh) * | 2024-04-08 | 2024-07-16 | 湖北经济学院 | 一种基于非调制声音信号的定位方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507625B (zh) * | 2016-06-14 | 2021-03-05 | 讯飞智元信息科技有限公司 | 声源距离确定方法及装置 |
CN107172255A (zh) * | 2017-07-21 | 2017-09-15 | 广东欧珀移动通信有限公司 | 语音信号自适应调整方法、装置、移动终端及存储介质 |
CN109188927A (zh) * | 2018-10-15 | 2019-01-11 | 深圳市欧瑞博科技有限公司 | 家居控制方法、装置、网关设备及存储介质 |
CN110085233B (zh) * | 2019-04-08 | 2021-02-09 | 广东美的制冷设备有限公司 | 语音控制方法及其装置、电子设备和计算机可读存储介质 |
CN111833863B (zh) * | 2019-04-22 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 语音控制系统、方法和装置以及计算设备和存储介质 |
-
2021
- 2021-04-13 CN CN202110396839.1A patent/CN113132193B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113132193A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113132193B (zh) | 智能设备的控制方法、装置、电子设备以及存储介质 | |
CN109671433B (zh) | 一种关键词的检测方法以及相关装置 | |
US11756563B1 (en) | Multi-path calculations for device energy levels | |
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
US10672387B2 (en) | Systems and methods for recognizing user speech | |
US10685652B1 (en) | Determining device groups | |
US9484028B2 (en) | Systems and methods for hands-free voice control and voice search | |
US11380326B2 (en) | Method and apparatus for performing speech recognition with wake on voice (WoV) | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN113643693B (zh) | 以声音特征为条件的声学模型 | |
CN111968644B (zh) | 智能设备唤醒方法、装置及电子设备 | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN110287303B (zh) | 人机对话处理方法、装置、电子设备及存储介质 | |
CN110942779A (zh) | 一种噪声处理方法、装置、系统 | |
CN111965985A (zh) | 智能家居设备控制方法、装置、电子设备以及存储介质 | |
CN112233676B (zh) | 智能设备唤醒方法、装置、电子设备及存储介质 | |
CN111817936A (zh) | 智能家居设备的控制方法,装置、电子设备以及存储介质 | |
US12062361B2 (en) | Wake word method to prolong the conversational state between human and a machine in edge devices | |
Aggarwal et al. | Voice based deep learning enabled user interface design for smart home application system | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
WO2017177629A1 (zh) | 远讲语音识别方法及装置 | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
WO2023103693A1 (zh) | 音频信号的处理方法、装置、设备及存储介质 | |
CN113270099B (zh) | 智能语音提取方法、装置、电子设备及存储介质 | |
CN112786047B (zh) | 一种语音处理方法、装置、设备、存储介质及智能音箱 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |