CN110603587A - 信息处理设备 - Google Patents
信息处理设备 Download PDFInfo
- Publication number
- CN110603587A CN110603587A CN201880029172.8A CN201880029172A CN110603587A CN 110603587 A CN110603587 A CN 110603587A CN 201880029172 A CN201880029172 A CN 201880029172A CN 110603587 A CN110603587 A CN 110603587A
- Authority
- CN
- China
- Prior art keywords
- voice
- reliability
- information processing
- processing apparatus
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Abstract
本发明使得可以用很少的计算量检测来自特定位置的音频。该信息处理设备包括音频获取单元、可靠性生成单元和处理执行单元。音频获取单元获取环境音频。可靠性生成单元基于预定传播属性生成可靠性,该可靠性指示所获取的音频来自特定位置的程度。音频相位差或声学特性可以被设想为预定的传播特性。处理执行单元执行根据生成的可靠性的处理。根据可靠性的通知或预定命令的执行可以被设想为根据可靠性的处理。
Description
技术领域
本技术涉及一种信息处理设备。更具体地,本技术涉及一种根据获取的语音执行处理的信息处理设备和该设备的处理方法、以及用于使计算机执行该方法的程序。
背景技术
在现有技术的语音检测技术中,基于人类语音的周期性结构,确定声音是否是语音,并且检测语音区段。例如,提出了一种技术,其中,基于指示输入信号的周期性的功率和周期性信息获得增益信息,并且通过将根据增益信息的幅度噪声添加到输入信号而获得的噪声添加信号的周期性信息用作输入信号的特征量,并且检测语音区段(例如,参见专利文献1)。在这种情况下,为了从语音中识别说话者,需要检测声源的方向。为此,例如,提出了一种会议语音记录系统,其基于会议上讲话语音中说话者的声学特征量、方向信息等来识别每个语音的说话者(例如,参见专利文献2)。
现有技术文献
专利文献
专利文献1:日本专利公开号2007-328228
专利文献2:日本专利公开号2009-301125
发明内容
本发明要解决的问题
在现有技术的上述技术中,存在以下问题:需要检查并且然后检测所有声源方向,以便识别说话者,并且因此计算量增加。近年来,使用了由用户穿戴在身体的一部分上的可穿戴装置。在语音输入用作其用户界面的情况下,要求处理所需的计算量低。此外,认为说话者是预先注册的,并且执行个体匹配。然而,注册工作是复杂的,并且由于说话者的身体状况导致的语音变化或由于语音变化导致的准确性成为问题。
考虑到这种情况而构成本技术,并且本技术的目的是以少量计算来检测从特定位置发出的语音。
问题的解决方案
执行本技术,以便解决上述问题。根据本技术的第一方面,提供了一种信息处理设备,包括:语音获取部,被配置为获取环境语音;可靠性生成部,被配置为基于预定传输特性生成指示所获取的语音是从特定位置发出的程度的可靠性;以及处理执行部,被配置为执行根据可靠性的处理。因此,产生了这样的动作,即,基于传输特性生成语音是从特定位置发出的可靠性,并且根据该可靠性执行处理。
此外,根据本技术的第一方面,语音获取部可以包括多个麦克风,并且可靠性生成部可以基于作为预定传输特性的由多个麦克风获取的语音的相位差,生成可靠性。因此,产生了通过使用语音的相位差作为传输特性来生成可靠性的动作。在这种情况下,优选地,多个麦克风的至少一部分设置在特定位置附近。此外,优选地,多个麦克风中的任一对以彼此相对的方式设置在特定位置。
此外,根据本技术的第一方面,可靠性生成部可以基于作为预定传输特性的由语音获取部获取的语音的声学特性,来生成可靠性。因此,产生了通过使用语音的声学特性作为传输特性来生成可靠性的动作。
此外,根据本技术的第一方面,处理执行部可以执行根据可靠性的通知。由此,产生了根据可靠性执行通知的动作。在这种情况下,处理执行部可以执行指示语音是否从特定位置发出的通知。此外,处理执行部可以执行不能确定语音是否是从特定位置发出的通知。另外,在信息处理设备是安装型终端的情况下,处理执行部可以执行关于穿戴状况的通知。
此外,根据本技术的第一方面,在语音是从特定位置发出的情况下,处理执行部可以执行预定命令。
发明的效果
根据本技术,可以发挥优异的有利效果,即,可以用少量计算来检测从特定位置发出的语音。此外,本文公开的有利效果不一定限于此,并且可以是在本公开期间公开的任何有利效果。
附图说明
图1是示出根据本技术实施方式的信息处理系统的配置实例的示图。
图2是示出根据本技术实施方式的语音指令检测部120的配置实例的示图。
图3是示出语音传播模型的一个实例的示图。
图4是示出根据本技术实施方式的可穿戴装置100的具体实例的示图。
图5是示出根据本技术实施方式的可穿戴装置100中麦克风110的设置实例的示图。
图6是示出其中假设了根据本技术实施方式的可穿戴装置100的声学特性的一个实例的示图。
图7是示出根据本技术实施方式的由可靠性生成部124生成的可靠性的一个实例的示图。
图8是示出根据本技术实施方式的移动终端200中的通知的第一实例的示图。
图9是示出根据本技术实施方式的移动终端200中的通知的第二实例的示图。
图10是示出根据本技术的实施方式的可穿戴装置100的穿戴错位的改进实例的示图。
具体实施方式
下文中,将在下文中描述用于执行本技术的模式(下文中称为实施方式)。将按以下顺序给出描述。
1.系统配置
2.声源估计处理
3.应用实例
<1.系统配置>
[信息处理系统]
图1是示出根据本技术实施方式的信息处理系统的配置实例的示图。信息处理系统包括可穿戴装置100和移动终端200。可穿戴装置100是穿戴在用户身体的一部分上的装置。穿戴可穿戴装置100的用户称为穿戴者。移动终端200是由用户携带的终端设备。假设可穿戴装置100和移动终端200通过无线通信连接以供使用。例如,可穿戴装置100和移动终端200通过蓝牙(注册商标)配对连接。
可穿戴装置100包括麦克风110、语音指令检测部120、命令生成部130、命令处理部140和通知部150。
麦克风110是将语音转换成电信号并用于获取周围语音的设备。转换成电信号的语音通过信号线111提供给语音指令检测部120。麦克风110可以包括一个或多个麦克风。在使用多个麦克风的情况下,通过信号线111提供的语音改变为多信道信号。注意,麦克风110是权利要求中定义的语音获取部的一个实例。
语音指令检测部120从麦克风110获取的语音中检测穿戴者的语音指令。语音指令用作语音用户界面。在检测到穿戴者的语音指令的情况下,语音指令检测部120通过信号线128将语音指令的内容提供给命令生成部130。此外,语音指令检测部120生成指示由麦克风110获取的语音是从特定位置发出的程度的可靠性,并通过信号线129将该可靠性提供给通知部150。
命令生成部130根据从语音指令检测部120通过信号线128提供的语音指令的内容生成命令。具体地,基于语音指令通过语音用户界面生成命令。命令处理部140执行由命令生成部130生成的命令。在必要时,命令处理部140经由通知部150向移动终端200通知命令的执行结果。
通知部150根据语音指令检测部120生成的可靠性来执行通知。假设通知部150发出的通知的实例包括指示语音是否从穿戴者发出的通知、关于穿戴状况的通知、命令处理部140的上述执行结果的通知等。
注意,命令处理部140和通知部150是权利要求中定义的处理执行部的一个实例。
[语音指令检测部]
图2是示出根据本技术实施方式的语音指令检测部120的配置实例的示图。语音指令检测部120包括语音集成部121、语音区段检测部122、识别目标确定部123以及可靠性生成部124。
在通过信号线111提供的语音改变为多信道信号的情况下,语音集成部121将多信道信号集成为一个信道信号。由语音集成部121集成的一个信道信号通过信号线125提供给语音区段检测部122。
语音区段检测部122检测通过信号线125从语音集成部121提供的一个信道信号中的语音区段。语音区段是发出语音的一部分,并且语音区段的检测称为VAD(语音活动检测)。语音区段检测部122在从语音集成部121提供的一个信道信号中生成表示语音相似度的语音似然性。此外,语音区段检测部122将语音源自穿戴者的可能性超过预定阈值的时间段检测为语音区段。当检测到语音区段时,语音区段检测部122通过信号线126将语音区段中的语音提供给识别目标确定部123。
当检测到语音区段并且在语音区段检测部122中提供语音区段中的语音时,识别目标确定部123确定识别目标是否包括在语音区段中。例如,假设识别目标的实例包括诸如“好”或“你好”的启动词。当检测到识别目标包括在语音区段中时,识别目标确定部123通过信号线127将上述情况通知给可靠性生成部124。结果,在可靠性生成部124生成的可靠性高于预定阈值的情况下,识别目标确定部123通过信号线128将语音区段中的语音提供给命令生成部130。
当从识别目标确定部123接收到识别目标包括在语音区段中的通知时,可靠性生成部124生成可靠性,该可靠性指示通过信号线111提供的语音是从特定位置发出的程度。可靠性生成部124基于语音的传输特性生成可靠性。如下所述,由于多个语音的到达时间或语音的振幅特性(声学特性)导致的相位差可以用于传输特性。基于该传输特性,可靠性生成部124生成可靠性,并通过信号线129将可靠性输出到识别目标确定部123和通知部150。
<2.声源估计处理>
[MUSIC方法]
图3是示出语音传播模型的一个实例的示图。在此处,将作为前提描述现有技术中的MUSIC方法。MUSIC(多重信号分类)方法是这样一种方法,其中,在本征空间中分析多个麦克风之间的相位差,从而执行声源定位。通常,声源定位是这样一种技术,其中,在安装有多个麦克风的设备中使用由每个麦克风观察到的声波的差异等来识别声源的位置。在此处,假设在空间中存在M(M是大于1的整数)个麦克风20和N(N是小于M的整数)个声源10。此外,考虑测量由上述传播的声波。
此时,当第m(m是1到M中的任一个整数)麦克风中的传播波的延迟被表示为τm时,每个麦克风在时间t的观察信号zm(t)由以下公式表示。注意,s(t)表示在时间t的声源信号。
[数学公式1]
此外,对上述公式进行傅立叶变换,从而获得关于由以下公式表示的任意频率fi的傅立叶频谱。注意,Zm(fi)表示通过对s(t-τm)=zm(t)执行傅立叶变换而获得的结果。
[数学公式2]
此时,当声源信号的傅立叶频谱表示为S(fi)并且直到声源到达每个麦克风的路径的传输函数表示为am时,上述公式可以重写为以下公式。通常,afi称为阵列流形向量,并且设置了关于每个声源的阵列流形向量的矩阵A=[a1,a2,…,aN]称为阵列流形矩阵。注意,阵列流形向量afi具有M维的复数,并且阵列流形矩阵A具有M×N维的复数。
[数学公式3]
在此处,对于其中观察信号设置在了频率区域中的向量(在下文在,称为观察向量),在语音信号的每帧中计算协方差矩阵。此外,按照以下公式计算帧平均值,从而获得关于频率fi的空间相关矩阵R。注意,空间相关矩阵R具有M×M维的复数。此外,zn(fi)是通过以频率fi对通过将观察信号划分为F帧而获得的帧#n中的信号执行傅立叶变换而获得的观察向量。
[数学公式4]
所获得的空间相关矩阵R是表示声源的空间属性的统计量,其具有由每个麦克风观察到的功率谱作为对角分量并且具有麦克风之间的空间功率相关性作为另一因子。在MUSIC方法中,相对于空间相关矩阵R,计算满足以下公式的特征向量em和特征值λm,从而展开从频率区域到特征空间的讨论。
R·em=λm·em
上述公式与最终由PCA(主成分分析)解决的广义特征值问题的公式相同,PCA执行协方差矩阵的最大化。因此,计算空间相关矩阵的特征向量这一事实与以尽可能少的信息量以最佳方式在特征空间中搜索指示观察到的声波的轴这一事实具有相同的含义。为此,在理想和洁净环境下,针对按降序排列的声源数量,计算与指示更主要声源的特征向量相对应的特征值,并且“声源数量+1”或之后的特征值等于零。
通常,矩阵A的每个列向量所跨越的空间称为子空间方法中的信号子空间,在该空间中设置了直到每个声源的传输路径。此时,由通过上述公式计算的声源数量的特征向量以特征值的降序跨越的空间是信号子空间的正交基。此外,以特征值的降序由“声源数量+1”或之后的特征向量跨越的空间称为噪声子空间。基于特征向量的正交基的性质,信号子空间和噪声子空间具有正交互补空间的关系。
在MUSIC方法中,基于信号子空间和噪声子空间之间的上述正交性,使用矩阵E=[eN+1,eN+1,…,eM],在该矩阵中设置了对应于噪声子空间的特征向量,并且使用由以下公式定义的空间频谱。以这种方式,估计存在声源的方向θ。注意,矩阵E具有M数(M-N)维的复数。此外,a(θ)表示假设在θ方向存在声源的情况下的虚拟阵列流形向量。
PMU(θ)=(aH(θ)·a(θ))/(aH(θ)·E·EH·a(θ))
当在θ方向上评估上述公式时,基于噪声子空间和信号子空间之间的正交性,在声源真正存在的方向上,上述公式的分母等于零。具体地,空间频谱PMU(θ)具有非常大的值和峰值。在MUSIC方法中,通过如上所述搜索空间频谱PMU(θ)的峰值,从而实现声源定位。
[从特定位置的语音的阵列流形向量测量]
众所周知,与声源定位的其他方法相比,上述MUSIC方法通常具有高空间分辨率和性能。然而,在将MUSIC方法应用于可穿戴装置的情况下,在许多情况下,可穿戴装置不能安装针对足够的计算的资源。此外,就计算量而言,不希望在所有方向上执行通过特征值分解的峰值搜索。此外,可穿戴装置用于各种环境中。因此,取决于当时背景噪声的差异或要使用的频带,即使在“峰值”中,值也存在很大变化,因此可能难以识别峰值。
为了解决该问题,下面将描述一种新方法,其中,基于穿戴者和麦克风之间的位置关系基本恒定这一事实,不在所有方向执行搜索而是仅使用穿戴者的方向作为分析目标。根据该方法,不执行所有方向的搜索,从而减少计算量。此外,在每个频带中,对在MUSIC方法中定义的空间频谱PMU(θ)执行根据信号子空间的贡献率的加权归一化。该过程允许可靠性生成部124输出可靠性。
首先,在执行离散傅立叶变换的频率区域中,由以下公式定义的空间频谱值被认为是在任意频率fj(j是从1到J的整数)中计算的。注意,J是频率区间(bin)的总数。在此处,ei表示通过分解特征值而获得的第i个特征向量。此外,awear是阵列流形向量的值,其中,假设从穿戴者的嘴到麦克风的传输距离是已知的。此外,φi表示了在awear和ei之间形成的角度。
[数学公式5]
此时,以上公式可以扩展为如下所示的公式。
[数学公式6]
在此处,最终的P(fj)的分母取[0,(M-N)]的闭区间中的值。因此,通过使用其倒数P-1(fj),根据以下公式定义以任意频率fj的评估函数。
E(fj)=P-1(fj)/(M-N) (0≤E(fj)≤1)
接下来,在给要使用的所有频率区间提供权重的同时,根据以下公式,将上述公式中定义的评估函数E积分为评估函数Eall。
[数学公式7]
注意,wj是基于信号子空间占据整个子空间的贡献率的权重,并且由以下公式定义。在此处,λi J是当对任意频率fj执行特征值分解时按降序排列的第i个特征值。
[数学公式8]
如上所述获得的评估函数Eall是指示当其值越接近于零时语音是从特定位置发出的可能性越高的评估函数。具体地,当穿戴者的嘴的位置是特定位置时,评估函数Eall是指示语音源自穿戴者的可能性的评估函数。根据本实施方式的可靠性生成部124基于评估函数生成上述可靠性。根据该方法,仅执行关于穿戴者的阵列流形向量awear的特征值分解,而不执行峰值识别。因此,与搜索所有方向相比,计算量减少。此外,最终使用的评估函数Eall计算[0,1]的闭区间的输出值,并且因此可以容易地确定阈值。
<3.应用实例>
[可穿戴装置的特定实例]
图4是示出根据本技术实施方式的可穿戴装置100的具体实例的示图。在此处,作为可穿戴装置100,示出了当挂在穿戴者颈部的一部分上时假设使用的领口型可穿戴装置。可穿戴装置100具有部分打开的环形形状。
可穿戴装置100包括如上所述的麦克风110,并获取环境语音。下面将描述麦克风110设置在可穿戴装置100中的位置。
可穿戴装置100检测上述语音区段,并确定关于麦克风110收集的语音的识别目标。同时,可穿戴装置100生成指示所获取的语音是从特定位置发出的程度的可靠性。此外,基于语音识别技术或自然语言处理技术来分析语音,从而识别用户说出的内容,以生成命令。例如,该过程允许可穿戴装置100识别来自用户的指令内容,并根据识别结果执行各种处理(应用)。此外,作为其他应用实例,可穿戴装置100还可以包括通信功能,并将收集的语音传输到作为电话上的其他人的另一信息处理设备。
在下文中,作为当可靠性生成部124生成可靠性时的传输特性的实例,将描述使用相位差的情况和使用声学特性的情况。
[基于相位差的确定]
图5是示出根据本技术实施方式的可穿戴装置100中的麦克风110的设置实例的示图。在此处,在领口型可穿戴装置100中,设置多个麦克风110,并且基于多个麦克风之间的相位差来确定语音是否从穿戴者发出。在设置多个麦克风110的情况下,存在针对麦克风110的数量的特定于穿戴者的语音的传输路径。因此,可以基于多个麦克风之间的相位差来确定语音是否从穿戴者发出。
图5示出了根据麦克风110的数量的最佳设置实例。图5的a示出了双声道麦克风的实例,并且还示出了一个麦克风110安装在穿戴者嘴附近(周围),另一麦克风110安装在穿戴者颈部的后部的示例。具体地,两个麦克风110都以穿戴者为中心以彼此相对的方式设置。图5的b示出了三声道麦克风的实例,并且示出了一个麦克风110进一步添加到图5的a以安装在穿戴者嘴附近的实例。图5的c示出了四声道麦克风的实例,并且示出了一个麦克风110进一步添加到图5的b以安装在穿戴者嘴附近的实例。注意,图5是从穿戴者的头部观察的示图,上侧表示穿戴者的正面,下侧表示穿戴者的背面。
如图5所示,作为在可穿戴装置100中有效识别穿戴者话语的麦克风110的设置的要求,期望将具有优选SNR(信噪比)的多个麦克风设置在穿戴者嘴附近。
此外,将穿戴者设置为原点,期望至少一个麦克风位于与另一麦克风成大约180o的后侧,具体地,相对于原点点对称地定位。更具体地,对于麦克风在180o的后侧观察到的信号,将颈部设置为原点,存在衍射等对频率特性的影响,导致甚至对表示声源的空间属性的空间相关矩阵的影响。认为上述事实有助于提高对来自特定方向上的非穿戴者的语音的识别性能。
[基于声学特性的确定]
图6是示出声学特性的一个实例的示图,其中,采用根据本技术实施方式的可穿戴装置100。在此处,示出了在领口型颈背部中安装一个麦克风110的情况下的频率特性的实例。实线所示的曲线图表示穿戴者发音的频率特征。作为一个实例,虚线所示的曲线图表示直接位于穿戴者前方的非穿戴者的发音的频率特征。注意,在穿戴者和非穿戴者的每一个中,在垂直轴的值中执行归一化,使得关于所有频带的频率特性的平均值等于零,以更容易比较。
显然,从图6来看,频率特性的两种分布彼此不同。因此,检查所获取的语音的频率特性的分布,从而可以确定该语音是来自穿戴者还是非穿戴者。
注意,在该实例中,采用领口型可穿戴装置。例如,当可穿戴装置是耳机型可穿戴装置时,在耳朵里的麦克风等的骨导声音的传输特性等被认为是有用的。
[可靠性和通知]
图7是示出根据本技术实施方式的可靠性生成部124生成的可靠性的一个实例的示图。在此处,可靠性表示从“0”到“1”的值。此外,图7表示随着可靠性更接近“1”,从穿戴者获得语音的可能性更大,而随着可靠性更接近“0”,从穿戴者获得语音的可能性更小。
确定阈值被设置为可靠性。如果可靠性大于确定阈值,则可靠性落在穿戴者区域内,并且确定该语音是穿戴者的语音。在这种情况下,来自用户的语音指令可以毫无问题地用作语音用户界面。
另一方面,如果可靠性小于确定阈值,则不确定该语音是穿戴者的语音。当可靠性足够接近“0”时,可靠性落在非穿戴者区域内,并且确定该语音是穿戴者以外的人的语音。此时,例如,如图8所示,优选地,在移动终端200上通知并显示消息“确定该语音不是穿戴者的语音”等。
此外,不属于任何穿戴者区域和非穿戴者区域的区域被设置为模糊区域,并且不能确定该语音是哪个人发出的语音。在这种情况下,可穿戴装置100的穿戴可能错位。因此,如图9所示,例如,优选地,在移动终端200上注意并显示消息“有可能出现穿戴错位”等。因此,例如,在如图10的a所示出现可穿戴装置100的穿戴错位的情况下,在一些情况下,用户自己最初并不知道穿戴错位。为了解决该问题,当接收到建议穿戴错位的通知时,用户意识到穿戴错位。然后,可以预期,如图10的b所示,可穿戴装置100被重新设置在正确的位置。
由上述通知部150执行对用户的通知。在此处,作为通知的模式,描述了在移动终端200中显示消息的实例,然而,通知的模式不限于此。例如,在可穿戴装置100包括输出语音的说话者或产生振动的振动器的情况下,可以从说话者输出通知声音,或者可以从振动器振动。此外,在可穿戴装置100包括显示屏的情况下,文本消息可以与通知声音或振动一起显示。另外,当在移动终端200中显示消息时,可以与通知声音或振动一起显示。
此外,可以计算非穿戴者区域的可靠性出现的次数,并且可以在上述次数超过指定次数的时间点执行预定的异常处理。注意,在穿戴者区域的可靠性在途中出现的情况下,计数被认为初始化为零。此外,在模糊区域的可靠性出现的情况下,保持当前状态不变,而不执行初始化和计数。注意,优选地,根据系统的条件适当地设置直到移动到异常处理的次数。
在此处,例如,作为预定的异常处理,可以想到强制禁止声音用户界面的使用。为了解除使用禁止,使用经由按钮、说话者识别等输入的指纹认证或密码。此外,可以向用户确认是否禁止使用声音用户界面,并且用户可以通过声音执行响应或者通过按钮执行响应。此外,在多次执行通知并且给用户不愉快的感觉的情况下,认为不执行后续通知。
如上所述,根据本技术的实施方式,可以根据指示所获取的语音是从特定位置发出的程度的可靠性来执行声音用户界面中的通知、命令处理等。
注意,上述实施方式是实现本技术的实例,并且根据该实施方式的事项分别与权利要求中的发明特定事项具有一一对应关系。类似地,权利要求中的发明特定事项与根据本技术实施方式的事项具有一一对应关系,根据本技术实施方式的事项分别具有与发明特定事项相同的名称。然而,本技术不限于该实施方式,并且可以通过在不偏离本技术要点的范围内对该实施方式进行各种修改来实现。
在上述实施方式中描述的处理序列可以被理解为具有一系列序列的方法,或者可以被理解为用于使计算机执行该系列序列的程序和存储该程序的记录介质。作为记录介质,可以使用CD(光盘)、MD(微型光盘)、DVD(数字多功能光盘)、存储卡、蓝光光盘(注册商标)等。
注意,说明书中公开的效果始终是示例性的而非限制性的,因此可能存在除了说明书中公开的效果之外的效果。
注意,本技术可以具有以下配置。
(1)一种信息处理设备,包括:
语音获取部,被配置为获取环境语音;
可靠性生成部,被配置为基于预定传输特性生成指示所获取的语音是从特定位置发出的程度的可靠性;以及
处理执行部,被配置为执行与可靠性对应的处理。
(2)根据上述(1)所述的信息处理设备,其中,
语音获取部包括多个麦克风,并且
可靠性生成部基于作为预定传输特性的由多个麦克风获取的语音的相位差,生成可靠性。
(3)根据上述(2)所述的信息处理设备,其中,
多个麦克风的至少一部分设置在特定位置附近。
(4)根据上述(2)或(3)所述的信息处理设备,其中,
多个麦克风中的任一对以彼此相对的方式设置在特定位置处。
(5)根据上述(1)所述的信息处理设备,其中,
可靠性生成部基于作为预定传输特性的由语音获取部获取的语音的声学特性,来生成可靠性。
(6)根据上述(1)至(5)中任一项所述的信息处理设备,其中,
处理执行部根据可靠性执行通知。
(7)根据上述(6)所述的信息处理设备,其中,
处理执行部执行指示语音是否从特定位置发出的通知。
(8)根据上述(6)所述的信息处理设备,其中,
处理执行部执行不能确定语音是否是从特定位置发出的通知。
(9)根据上述(6)所述的信息处理设备,其中,
在信息处理设备是安装型终端的情况下,处理执行部执行关于穿戴状况的通知。
(10)根据上述(1)至(9)中任一项所述的信息处理设备,其中,
在语音是从特定位置发出的情况下,处理执行部执行预定命令。
附图标记列表
10 声源
20 麦克风
100 可穿戴装置
110 麦克风
120 语音指令检测部
121 语音集成部
122 语音区段检测部
123 识别目标确定部
124 可靠性生成部
130 命令生成部
140 命令处理部
150 通知部
200 移动终端。
Claims (10)
1.一种信息处理设备,包括:
语音获取部,被配置为获取环境的语音;
可靠性生成部,被配置为基于预定传输特性生成指示所获取的语音是从特定位置发出的程度的可靠性;以及
处理执行部,被配置为执行与所述可靠性对应的处理。
2.根据权利要求1所述的信息处理设备,其中,
所述语音获取部包括多个麦克风,并且
所述可靠性生成部基于作为所述预定传输特性的由所述多个麦克风获取的语音的相位差,生成所述可靠性。
3.根据权利要求2所述的信息处理设备,其中,
所述多个麦克风的至少一部分设置在所述特定位置附近。
4.根据权利要求2所述的信息处理设备,其中,
所述多个麦克风中的任一对以彼此相对的方式设置在所述特定位置处。
5.根据权利要求1所述的信息处理设备,其中,
所述可靠性生成部基于作为所述预定传输特性的由所述语音获取部获取的所述语音的声学特性,来生成所述可靠性。
6.根据权利要求1所述的信息处理设备,其中,
所述处理执行部执行与所述可靠性对应的通知。
7.根据权利要求6所述的信息处理设备,其中,
所述处理执行部执行指示所述语音是否是从所述特定位置发出的通知。
8.根据权利要求6所述的信息处理设备,其中,
所述处理执行部执行表示不能确定所述语音是否是从所述特定位置发出的含义的通知。
9.根据权利要求6所述的信息处理设备,其中,
在所述信息处理设备是安装型终端的情况下,所述处理执行部执行关于穿戴状况的通知。
10.根据权利要求1所述的信息处理设备,其中,
在所述语音是从所述特定位置发出的情况下,所述处理执行部执行预定命令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-092122 | 2017-05-08 | ||
JP2017092122 | 2017-05-08 | ||
PCT/JP2018/009662 WO2018207453A1 (ja) | 2017-05-08 | 2018-03-13 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110603587A true CN110603587A (zh) | 2019-12-20 |
Family
ID=64104611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880029172.8A Withdrawn CN110603587A (zh) | 2017-05-08 | 2018-03-13 | 信息处理设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11468884B2 (zh) |
JP (1) | JP7103353B2 (zh) |
CN (1) | CN110603587A (zh) |
WO (1) | WO2018207453A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270108A (zh) * | 2021-04-27 | 2021-08-17 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101774252B1 (ko) * | 2016-11-15 | 2017-09-05 | 주식회사 태을이피씨 | 방수, 방식 및 방청을 위한 코팅용 조성물 및 이를 분사하는 분사장치를 이용하는 코팅방법 |
KR101816149B1 (ko) | 2017-08-28 | 2018-01-09 | 주식회사 태을이앤씨 | 콘크리트 시설물의 방수, 방식 및 방청을 위한 코팅용 조성물 및 이의 제조방법 |
WO2019220532A1 (ja) * | 2018-05-15 | 2019-11-21 | 日本電気株式会社 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
JP7014682B2 (ja) * | 2018-07-18 | 2022-02-01 | 株式会社デンソーアイティーラボラトリ | 音源分離の評価装置および音源分離装置 |
JP2021043337A (ja) * | 2019-09-11 | 2021-03-18 | オンキヨーホームエンターテイメント株式会社 | システム |
EP4131256A1 (en) * | 2021-08-06 | 2023-02-08 | STMicroelectronics S.r.l. | Voice recognition system and method using accelerometers for sensing bone conduction |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6041301A (en) * | 1997-10-29 | 2000-03-21 | International Business Machines Corporation | Configuring an audio interface with contingent microphone setup |
JP3598932B2 (ja) * | 2000-02-23 | 2004-12-08 | 日本電気株式会社 | 話者方向検出回路及びそれに用いる話者方向検出方法 |
JP4669150B2 (ja) | 2001-04-09 | 2011-04-13 | キヤノン株式会社 | 主被写体推定装置及び主被写体推定方法 |
JP3940662B2 (ja) * | 2001-11-22 | 2007-07-04 | 株式会社東芝 | 音響信号処理方法及び音響信号処理装置及び音声認識装置 |
US6882971B2 (en) * | 2002-07-18 | 2005-04-19 | General Instrument Corporation | Method and apparatus for improving listener differentiation of talkers during a conference call |
EP1691344B1 (en) * | 2003-11-12 | 2009-06-24 | HONDA MOTOR CO., Ltd. | Speech recognition system |
US8073690B2 (en) * | 2004-12-03 | 2011-12-06 | Honda Motor Co., Ltd. | Speech recognition apparatus and method recognizing a speech from sound signals collected from outside |
DE602005008005D1 (de) | 2005-02-23 | 2008-08-21 | Harman Becker Automotive Sys | Spracherkennungssytem in einem Kraftfahrzeug |
JP4912036B2 (ja) | 2006-05-26 | 2012-04-04 | 富士通株式会社 | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
KR101456866B1 (ko) * | 2007-10-12 | 2014-11-03 | 삼성전자주식회사 | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 |
KR101470528B1 (ko) * | 2008-06-09 | 2014-12-15 | 삼성전자주식회사 | 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법 |
KR101178801B1 (ko) * | 2008-12-09 | 2012-08-31 | 한국전자통신연구원 | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 |
US8654998B2 (en) * | 2009-06-17 | 2014-02-18 | Panasonic Corporation | Hearing aid apparatus |
RU2531023C2 (ru) * | 2009-06-30 | 2014-10-20 | Нокиа Корпорейшн | Аудиоуправляемый захват изображений |
US9282417B2 (en) * | 2010-02-02 | 2016-03-08 | Koninklijke N.V. | Spatial sound reproduction |
KR101761312B1 (ko) * | 2010-12-23 | 2017-07-25 | 삼성전자주식회사 | 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법 |
US8438023B1 (en) * | 2011-09-30 | 2013-05-07 | Google Inc. | Warning a user when voice input to a device is likely to fail because of background or other noise |
JP5862349B2 (ja) * | 2012-02-16 | 2016-02-16 | 株式会社Jvcケンウッド | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
DK3190587T3 (en) * | 2012-08-24 | 2019-01-21 | Oticon As | Noise estimation for noise reduction and echo suppression in personal communication |
WO2014104815A1 (ko) | 2012-12-28 | 2014-07-03 | 한국과학기술연구원 | 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법 |
EP2976893A4 (en) * | 2013-03-20 | 2016-12-14 | Nokia Technologies Oy | SPACE AUDIO DEVICE |
JP6311197B2 (ja) * | 2014-02-13 | 2018-04-18 | 本田技研工業株式会社 | 音響処理装置、及び音響処理方法 |
US20150264483A1 (en) * | 2014-03-14 | 2015-09-17 | Qualcomm Incorporated | Low frequency rendering of higher-order ambisonic audio data |
KR101834913B1 (ko) * | 2014-04-30 | 2018-04-13 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 복수의 입력 오디오 신호를 잔향제거하기 위한 신호 처리 장치, 방법 및 컴퓨터가 판독 가능한 저장매체 |
JP6195073B2 (ja) * | 2014-07-14 | 2017-09-13 | パナソニックIpマネジメント株式会社 | 収音制御装置及び収音システム |
JP6503559B2 (ja) | 2014-10-20 | 2019-04-24 | ソニー株式会社 | 音声処理システム |
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
KR101664733B1 (ko) * | 2015-08-11 | 2016-10-24 | 고려대학교 산학협력단 | 전 방향 고해상도 추적 녹화 장치 및 방법 |
WO2017065092A1 (ja) | 2015-10-13 | 2017-04-20 | ソニー株式会社 | 情報処理装置 |
US9894434B2 (en) * | 2015-12-04 | 2018-02-13 | Sennheiser Electronic Gmbh & Co. Kg | Conference system with a microphone array system and a method of speech acquisition in a conference system |
US11017793B2 (en) * | 2015-12-18 | 2021-05-25 | Dolby Laboratories Licensing Corporation | Nuisance notification |
ITUA20164622A1 (it) * | 2016-06-23 | 2017-12-23 | St Microelectronics Srl | Procedimento di beamforming basato su matrici di microfoni e relativo apparato |
EP3515088A4 (en) * | 2016-09-13 | 2019-07-31 | Sony Corporation | SOUND SOUND POSITION ESTIMATING DEVICE AND CLOTHING DEVICE |
US20180286431A1 (en) * | 2017-03-28 | 2018-10-04 | Microsoft Technology Licensing, Llc | Human interface device communication protocol |
-
2018
- 2018-03-13 US US16/610,145 patent/US11468884B2/en active Active
- 2018-03-13 JP JP2019517473A patent/JP7103353B2/ja active Active
- 2018-03-13 CN CN201880029172.8A patent/CN110603587A/zh not_active Withdrawn
- 2018-03-13 WO PCT/JP2018/009662 patent/WO2018207453A1/ja active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270108A (zh) * | 2021-04-27 | 2021-08-17 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN113270108B (zh) * | 2021-04-27 | 2024-04-02 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2018207453A1 (ja) | 2018-11-15 |
US11468884B2 (en) | 2022-10-11 |
JPWO2018207453A1 (ja) | 2020-03-12 |
US20200074998A1 (en) | 2020-03-05 |
JP7103353B2 (ja) | 2022-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468884B2 (en) | Method, apparatus and computer program for detecting voice uttered from a particular position | |
US10127922B2 (en) | Sound source identification apparatus and sound source identification method | |
US10230346B2 (en) | Acoustic voice activity detection | |
US20180299527A1 (en) | Localization algorithm for sound sources with known statistics | |
EP2530484B1 (en) | Sound source localization apparatus and method | |
CN112349297B (zh) | 一种基于麦克风阵列的抑郁症检测方法 | |
US10262678B2 (en) | Signal processing system, signal processing method and storage medium | |
CN110770827B (zh) | 基于相关性的近场检测器 | |
EP2068308A2 (en) | Signal separation method, signal separation device, and signal separation program | |
US10622008B2 (en) | Audio processing apparatus and audio processing method | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
US10002623B2 (en) | Speech-processing apparatus and speech-processing method | |
US10063966B2 (en) | Speech-processing apparatus and speech-processing method | |
US20130166299A1 (en) | Voice analyzer | |
US8983843B2 (en) | Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition | |
Zulkifly et al. | Relative spectral-perceptual linear prediction (RASTA-PLP) speech signals analysis using singular value decomposition (SVD) | |
JPWO2018037643A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11915718B2 (en) | Position detection method, apparatus, electronic device and computer readable storage medium | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
US11721357B2 (en) | Voice processing method and voice processing apparatus | |
Bai et al. | Acoustic source localization and deconvolution-based separation | |
US9704504B2 (en) | Voice analysis device and voice analysis system | |
Cao et al. | I Can Hear You Without a Microphone: Live Speech Eavesdropping From Earphone Motion Sensors | |
JP2019174785A (ja) | 音源方向推定装置、音源方向推定方法及びそのプログラム | |
US11915681B2 (en) | Information processing device and control method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191220 |
|
WW01 | Invention patent application withdrawn after publication |