CN111194464A - 语音输入装置和方法以及程序 - Google Patents

语音输入装置和方法以及程序 Download PDF

Info

Publication number
CN111194464A
CN111194464A CN201880065077.3A CN201880065077A CN111194464A CN 111194464 A CN111194464 A CN 111194464A CN 201880065077 A CN201880065077 A CN 201880065077A CN 111194464 A CN111194464 A CN 111194464A
Authority
CN
China
Prior art keywords
voice
speech
microphone array
unit
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201880065077.3A
Other languages
English (en)
Inventor
立石和也
高桥秀介
高桥晃
落合和树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN111194464A publication Critical patent/CN111194464A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/025Transducer mountings or cabinet supports enabling variable orientation of transducer of cabinet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/028Structural combinations of loudspeakers with built-in power amplifiers, e.g. in the same acoustic enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本技术涉及一种语音输入装置和方法以及一种能够促进语音方向估计的程序。该语音输入装置包括:固定部分,其设置在规定位置;移动部分,其相对于固定部分移动;麦克风阵列,其附接到所述固定部分;语音方向估计单元,用于基于通过麦克风阵列输入的说话者的语音来估计语音方向;以及驱动单元,用于驱动根据所估计的语音方向调用的移动部分。所述语音输入装置可以用作例如智能扬声器、语音代理或机器人的一部分。

Description

语音输入装置和方法以及程序
技术领域
本技术涉及一种语音输入装置和方法以及一种程序,具体涉及一种语音输入装置和方法以及一种便于估计话语方向的程序。
背景技术
近年来,随着机器人技术和人工智能(AI)的发展,能够与人交谈或移动自己身体的装置越来越多。为了识别人的语音,需要假设各种使用环境并且能够尽可能多地抑制噪声。因此,众所周知,通过利用设置有多个麦克风的麦克风阵列的语音收集和使用空间信息的信号处理来抑制噪声。
例如,在使用人形机器人的情况下,可以在头部设置多个麦克风。利用这种设置,用户的嘴和麦克风的位置彼此靠近的可能性很高,并且可以容易地识别语音。此外,期望麦克风和诸如马达等驱动声源之间的距离变得更长,噪声降低,并且目标语音的信噪比(SNR)提高。
众所周知,可以通过使用相关矩阵来估计说话者的方向来执行精确的语音识别,通过对麦克风阵列收集的信号执行操作并在估计的方向上强调语音而获得所述相关矩阵(例如,专利文献1)。
引文目录
专利文献
专利文献1:日本专利申请公开号2001-337694
发明内容
本发明要解决的问题
然而,如果估计话语方向,然后装置转向话语方向,则破坏到目前为止已经学习的关于空间中的噪声方向的信息与装置移动后的麦克风阵列之间的位置关系。因此,不能使用已经依次学习的噪声学习信息,并且需要在运动之后再次在空间上学习噪声信息。
然而,在装置转向话语方向之后,可以立即执行下一个用户的话语。在这种情况下,有可能无法保证足够的学习时间,结果,噪声抑制性能可能恶化,语音识别可能失败。
鉴于这种情况而提出本技术,并且使得可以促进估计话语方向。
问题的解决方案
本技术的一个方面是一种语音输入装置,包括:固定部分,其设置在预定位置;能移动部分,其能相对于固定部分移动;麦克风阵列,其附接到固定部分;话语方向估计单元,被配置为基于来自说话者的语音来估计话语方向,从麦克风阵列输入所述语音;以及驱动单元,被配置为根据估计的话语方向驱动所述能移动部分。
还可以提供控制单元,被配置为识别来自说话者的语音,从麦克风阵列输入所述语音,并且基于识别的结果来控制前驱动单元。
控制单元可以包括内部或外部语音识别引擎,其识别来自说话者的语音。
在麦克风阵列中,多个麦克风可以设置在一个平面中。
能移动部分可以相对于旋转中心对称。
话语方向估计单元可以包括:第一估计单元,被配置为根据来自说话者的语音信号来估计第一水平角,该第一水平角是话语方向上的水平角;以及第二估计单元,被配置为在第一水平角附近的预定范围内相对于第一水平角估计第二水平角和仰角,所述第二水平角是话语方向上的水平角。
本技术的一个方面是一种语音输入装置的语音输入方法,包括:固定部分,其设置在预定位置;能移动部分,其能相对于固定部分移动;以及麦克风阵列,其附接到固定部分;所述语音输入方法包括:基于来自说话者的语音来估计话语方向的步骤,从附接到固定部分的麦克风阵列输入所述语音;以及根据估计的话语方向驱动所述能移动部分的步骤。
本技术的一个方面是一种用于使计算机执行语音输入装置的语音输入处理的程序,包括:固定部分,其设置在预定位置;能移动部分,其能相对于固定部分移动;以及麦克风阵列,其附接到固定部分;所述语音输入处理包括:基于来自说话者的语音来估计话语方向的步骤,从附接到固定部分的麦克风阵列输入所述语音;以及根据估计的话语方向驱动所述能移动部分的步骤。
根据本技术的一个方面,固定部分设置在预定位置,能移动部分能相对于固定部分移动,麦克风阵列附接到固定部分,话语方向估计单元基于来自说话者的语音来估计话语方向,从麦克风阵列输入所述语音,并且驱动单元根据估计的话语方向驱动所述能移动部分。
本发明的效果
如上所述,本技术的一个方面使得可以促进估计话语方向。注意,此处描述的有利效果不一定是限制性的,并且可以应用本说明书中描述的任何效果。
附图说明
图1是示出语音输入装置的一个实施方式的物理配置的透视图;
图2是示出麦克风阵列的配置的示图;
图3是示出语音输入装置的一个实施方式的物理配置的透视图;
图4是示出语音输入装置的电气配置的框图;
图5是示出话语方向估计单元的配置的框图;
图6是示出语音输入处理的流程图;
图7是示出话语方向估计处理的流程图;
图8是示出第一音乐处理的流程图;
图9是示出水平角估计处理的流程图;
图10是示出第二音乐处理的流程图;
图11是示出估计范围的示图;
图12是示出空间谱的特征的示图;
图13是示出空间谱的特征的示图;
图14是示出空间谱的特征的示图;
图15是示出个人计算机的配置示例的框图。
具体实施方式
下面将描述用于执行本技术的实施方式。注意,将按照以下顺序进行描述。
1.语音输入装置的物理配置(图1至3)
2.语音输入装置的电气配置(图4和5)
3.语音输入装置的操作(图6至11)
4.空间谱的特征(图12至14)
5.计算机(图15)
6.其他
<语音输入装置的物理配置>
(图1至3)
首先,将参考图1至3描述语音输入装置的物理配置。图1是示出语音输入装置的一个实施方式的物理配置的透视图。图2是示出麦克风阵列的配置的示图。
如图1所示,该实施方式的语音输入装置1包括大致圆柱形的外壳11,并且麦克风阵列12设置在其外周侧表面下方。如图2所示,麦克风阵列12包括多个(在图2的示例中为八个)麦克风13,麦克风13以基本水平的环形形状设置,并且沿着半径从中心指向外周。注意,麦克风阵列12的多个麦克风13可以线性或三维设置。
在外壳11上方,形成能相对于外壳11移动的能移动部分14。能移动部分14由用作驱动单元的内置伺服电机53驱动(如稍后参考图4所述),并且可在水平面内移动(在该示例中可旋转)。即,设置在预定位置以便与桌子或地板接触的外壳11不旋转,而是形成所谓的固定部分。即使能移动部分14旋转,设置在外壳11中的麦克风阵列12也不旋转。
注意,通过使用地磁传感器、陀螺仪传感器等的传感器信息,即使能移动部分14移动,包括麦克风阵列12的外壳11也可以保持在原始位置。
能移动部分14也形成为大致圆柱形,并且显示单元15设置在能移动部分14的前表面上。在该示例中,在显示单元15上显示面部的图片,这指示该表面是前表面。旋转能移动部分14,使得例如显示单元15指向话语方向。在能移动部分14中,扬声器16容纳在显示单元15的后侧。扬声器16向用户输出声音,例如,消息。
语音输入装置1设置在空间21中,例如,在房间中。
图3是示出语音输入装置的一个实施方式的物理配置的透视图。语音输入装置1也可以如图3所示配置。在图3的语音输入装置1中,大致圆柱形外壳11的下端11B和上端11T具有大直径并向外突出。其间的部分具有小直径并且向内凹陷。然后,能移动部分14可旋转地设置在凹陷部分中。在该示例中,麦克风阵列12设置在外壳11的上端11T中。因此,即使能移动部分14旋转,麦克风阵列12也不旋转。显示单元15形成在能移动部分14上,并且扬声器16设置在后侧。
语音输入装置1安装在例如智能扬声器、语音代理、机器人等中,并且具有在从周围声源(例如,人)发出语音的情况下估计发出语音的话语方向的功能。估计的方向用于在话语方向上引导装置的前表面。
<语音输入装置的电气配置>
(图4和5)
接下来,参考图4,将描述语音输入装置的电气配置。图4是示出语音输入装置的电气配置的框图。
图4的语音输入装置1包括麦克风阵列12、信号处理单元51、主控制单元52、伺服电机53、能移动部分14和扬声器16。
处理来自麦克风阵列12的信号的信号处理单元51包括话语方向估计单元71、信号强调单元72、噪声抑制单元73和回声消除单元74。话语方向估计单元71基于来自麦克风阵列12的信号来估计话语方向。信号强调单元72强调目标声音信号。噪声抑制单元73抑制包括在目标声音信号中的噪声分量。回声消除单元74执行消除从麦克风阵列12输入的信号中包括的回声分量的处理。
主控制单元52包括语音识别引擎81和操作确定单元82。语音识别引擎81从输入信号中识别语音。操作确定单元82基于所识别的语音中包括的内容来确定要执行的操作。
注意,在主控制单元52经由互联网等连接到云61并且存在语音识别引擎的情况下,代替内部语音识别引擎81,可以使用外部语音识别引擎来执行语音识别处理。
在操作确定单元82指示伺服电机53驱动能移动部分14的情况下,伺服电机53响应于该指令驱动能移动部分14。例如,在图1或3所示的示例中,能移动部分14旋转到预定位置。
接下来,将参考图5描述话语方向估计单元71的配置。图5是示出话语方向估计单元的配置的框图。
图5的话语方向估计单元71包括频率转换单元101、第一音乐处理单元102、水平角估计单元103、第二音乐处理单元104和第二峰值检测单元105。
频率转换单元101对从麦克风阵列12输入的声学信号执行频率转换。用作第一估计单元的第一音乐处理单元102基于从频率转换单元101输入的频域信号来确定各个频率的信号的相关矩阵的特征值和特征向量。此外,第一音乐处理单元102在相对于从麦克风阵列12观看的话语方向的仰角固定为预定的常数值的状态下,在整个水平角上对空间谱执行操作。
水平角估计单元103根据第一音乐处理单元102对其执行操作的空间谱来计算阈值。此外,水平角估计单元103检测具有超过阈值的峰值的空间谱,并且估计和检测对应于空间谱的方向,作为话语方向(第一水平角θ^)。
由第一音乐处理单元102获得的各个频率的信号的相关矩阵的特征向量提供给用作第二估计单元的第二音乐处理单元104。关于由水平角估计单元103估计的第一水平角θ^,第二音乐处理单元104基于特征向量计算在第一水平角θ^附近的有限预定范围内的水平角和整个仰角处的空间谱。
第二峰值检测单元105检测由第二音乐处理单元104计算的预定范围内的水平角和仰角的空间谱的峰值,并且估计对应于峰值的方向,作为最终话语方向(θout
Figure BDA0002439151620000071
)。
第一音乐处理单元102包括第一相关矩阵计算单元411、特征值分解单元412、频率权重计算单元413、传递函数存储单元414和第一空间谱计算单元415。此外,第一音乐处理单元102包括频率信息集成单元416和第二相关矩阵计算单元417。然而,这种配置用于使用GEVD-MUSIC的情况。在使用SEVD-MUSIC的情况下,省略第二相关矩阵计算单元417。GEVD表示广义特征值分解,SEVD表示标准特征值分解。
第一相关矩阵计算单元411为每个时间帧计算各个频率的目标信号的相关矩阵。第二相关矩阵计算单元417为每个时间帧计算各个频率的噪声信号的相关矩阵。特征值分解单元412对相关矩阵的特征值和特征向量执行操作。频率权重计算单元413计算表示每个频率的空间谱的贡献度的频率权重。在语音从某个方向到达的情况下,特征值的分布会产生不平衡,只有声源数量的特征值变大。
传递函数存储单元414预先存储传递函数向量。第一空间谱计算单元415使用平角θ相关的特征向量和传递函数向量来计算空间谱,指示从水平角θ的方向的声音到达程度。频率信息集成单元416基于频率权重整合第一空间谱。
水平角估计单元103包括阈值更新单元451和第一峰值检测单元452。阈值更新单元451计算用于确定是否采用空间谱的峰值作为检测结果的阈值。第一峰值检测单元452检测峰值超过阈值的空间谱的方向。
第二音乐处理单元104包括传递函数存储单元481、第二空间谱计算单元482和频率信息集成单元483。传递函数存储单元481预先存储传递函数向量。第二空间谱计算单元482计算空间谱,指示从预定水平角和仰角的方向的声音到达程度。频率信息集成单元483计算每个频率的空间谱的加权平均值。
<语音输入装置的操作>
(图6至11)
接下来,将参考图6描述语音输入装置1的操作。图6是示出语音输入处理的流程图。在步骤S1,麦克风阵列12输入语音。即,输入说话者发出的语音。在步骤S2,话语方向估计单元71执行话语方向估计处理。稍后将参考图7至11描述其细节。通过该操作,估计说话者发出语音的方向(水平角和仰角)。
在步骤S3,信号强调单元72强调信号。即,强调了被估计为话语方向的方向上的语音分量。在步骤S4,噪声抑制单元73抑制噪声分量并提高SN。
在步骤S5中,语音识别引擎81(或云61中存在的外部语音识别引擎)执行从信号处理单元51提供的语音信号中识别语音的处理。识别结果根据需要转换成文本。在步骤S6,操作确定单元82确定操作。即,确定对应于所识别的语音的内容的操作。然后,在步骤S7中,操作确定单元82控制伺服电机53来驱动能移动部分14。此外,在步骤S8中,操作确定单元82向扬声器16提供信号并输出语音。
通过该操作,例如,在识别出来自说话者的问候“你好”的情况下,能移动部分14在说话者的方向上旋转,并且从扬声器16向说话者发出问候“你好,你好吗?”。
在步骤S9,回声消除单元74消除回声。即,从扬声器16输出的语音可以延迟预定时间,并由麦克风阵列12收集,作为与其他声音混合的回声。回声消除单元74使用从扬声器16输出的语音信号作为参考信号,以从麦克风阵列12收集的信号中消除回声分量。
在语音输入装置1中,即使能移动部分14旋转,使得前表面指向说话者,麦克风阵列12也不旋转。因此,麦克风阵列12的传递函数在能移动部分14旋转之前和之后不会改变。因此,无需再次学习传递函数,就可以快速且正确地估计话语方向。
接下来,将参考图7描述话语方向估计处理。图7是示出话语方向估计处理的流程图。
在步骤S101中,频率转换单元101对从麦克风阵列12输入的声学信号执行频率转换。即,声学信号从时基域的信号转换成频域的信号。例如,对每一帧进行执行离散傅立叶变换(DFT)或短时傅立叶变换(STFT)的处理。例如,帧长度可以是32ms,帧偏移可以是10ms。
在步骤S102中,第一音乐处理单元102执行第一音乐处理。将参考图8描述第一音乐处理的细节。图8是示出第一音乐处理的流程图。
在图8的步骤S131中,第一相关矩阵计算单元411计算第一相关矩阵。第一相关矩阵是每个时间帧的各个频率的目标声音信号的相关矩阵,并且其每个元素表示每个麦克风13的相关性。基于以下等式(1)对第一相关矩阵执行操作。在等式(1)中,TR表示用于计算相关矩阵的帧长度,并且向量zω,τ表示时间帧τ中频率ω的信号。H表示埃尔米特换位。
[等式1]
Figure BDA0002439151620000091
在步骤S132中,第二相关矩阵计算单元417计算第二相关矩阵。第二相关矩阵是每个时间帧的各个频率的噪声信号的相关矩阵,并且基于以下等式(2)来计算。
[等式2]
Figure BDA0002439151620000101
在等式(2)中,TK表示用于计算相关矩阵的帧长度,并且使用Δt,使得不使用等式(1)的Rω,t和等式(2)的Kω,t所共有的时间帧的信号。αω,τ是一个权重,通常可以是1,但在需要根据声源类型改变权重的情况下,可以防止所有权重变为零,如等式(3)所示。
[等式3]
Figure BDA0002439151620000102
根据等式(3),第二相关矩阵计算单元417基于已经应用了过去权重的第二空间相关矩阵,依次更新已经应用了权重的第二空间相关矩阵,该第二空间相关矩阵在后续阶段通过特征值分解单元412进行广义特征值分解。这种更新等式使得可以长时间使用静态噪声分量。此外,在权重是从0到1的连续值的情况下,随着在更久以前计算第二空间相关矩阵,权重集成的次数增加并且权重变得更小,因此随着稍后产生静态噪声分量,而应用更大的权重。因此,随着在最近的时间将较大的权重应用于静态噪声分量,该静态噪声分量被认为接近目标声音后面的静态噪声分量,第二空间相关矩阵的计算变得可能。
在步骤S133中,特征值分解单元412执行特征值分解。即,特征值分解单元412基于从第二相关矩阵计算单元417提供的加权的第二空间相关矩阵和从第一相关矩阵计算单元411提供的第一空间相关矩阵来执行广义特征值分解。例如,由下面的等式(4)计算特征值和特征向量。
[等式4]
Rω,teω,t,i=λω,t,iKω,teω,t,i…(4)
(i=1,…,M)
在等式(4)中,λi表示由广义特征值分解确定的第i个最大特征值向量,ei表示对应于λi的特征向量,并且M表示麦克风13的数量。
在使用SEVD的情况下,Kω,t如等式(5)所示设置。
[等式5]
Kω,t=I…(5)
在使用GEVD的情况下,通过使用满足以下等式(6)的矩阵Φω,t,转换等式(4),如等式(7)和(8)所示。这将导致SEVD问题,由等式(7)和(8)确定特征值和特征向量。
[等式6]
Figure BDA0002439151620000111
Figure BDA0002439151620000112
fω,t,i=Φω,teω,t,i…(8)
等式(7)中的Φ-H ω,t是白化矩阵。通过用静态噪声分量白化Rω,t,即通过去除静态噪声分量,获得等式(7)左侧括号中的部分。
在步骤S134中,第一空间谱计算单元415基于以下等式(9)和(10)计算第一空间谱Pn ω,θ,t。即,第一空间谱计算单元415通过使用对应于来自最小一个的M-N个特征值的特征向量ei和转向向量aθ来计算表示来自方向θ的声音到达程度的空间谱Pn ω,θ,t。从特征值分解单元412提供特征向量ei。转向矢量aθ是关于方向θ的传递函数,是假设在方向θ上存在声源而预先获得的传递函数,并且预先存储在传递函数存储单元414中。
[等式7]
Figure BDA0002439151620000113
Figure BDA0002439151620000114
N表示声源数量,θ表示仰角固定时计算空间谱的水平方向。
在步骤S135中,频率权重计算单元413计算表示每个频率的空间谱的贡献度的频率权重。在声音从某个方向到达的情况下,特征值的分布会产生不平衡,只有声源数量的特征值变大。例如,由以下等式(11)计算频率权重wω,t。λi是通过广义特征值分解获得的第i个最大特征值,等式(11)中分子的特征值表示最大特征值。
[等式8]
Figure BDA0002439151620000121
在步骤S136中,频率信息集成单元416通过以下等式(12)和(13)计算每个频率的第一空间谱的加权平均P-n θ,t。从第一空间谱计算单元415提供第一空间谱Pn ω,θ,t,从频率权重计算单元413提供频率权重wω,t
[等式9]
Figure BDA0002439151620000122
Figure BDA0002439151620000123
注意,当θ'在水平方向θ的整个范围内变化时,等式(13)中的第二项是最小化等式(13)中的logP-n θ',t,在该水平方向,在仰角固定的情况下计算空间谱。
虽然在等式(12)的运算中确定调和平均值,但是也可以确定算术平均值或几何平均值。通过等式(13)的运算,最小值被归一化为0。该运算中的日志基数是任意的,例如,可以使用Napier常数。等式(13)的运算产生了在后续阶段在第一峰值检测单元452中将与声源无关的峰值抑制到阈值或更小的效果。
如上所述,第一空间谱的加权平均P^n θ,t由第一音乐处理单元102的第一音乐处理来计算。
回到图7,在步骤S102中的第一音乐处理(图8的处理)之后,水平角估计单元103在步骤S103中执行水平角估计处理。将参考图9描述水平角估计处理。图9是示出水平角估计处理的流程图。
在步骤S161中,阈值更新单元451计算阈值。即,从第一音乐处理单元102的频率信息集成单元416输出的第一空间谱的加权平均P^n θ,t中,通过例如以下等式(14)和(15)来计算用于确定是否执行峰值检测的阈值Pth θ,t。αth、βth和γth均为常数,θ表示扫描方向的数量。
[等式10]
Figure BDA0002439151620000131
Figure BDA0002439151620000132
该阈值Pth θ,t产生的效果是去除不在该方向但具有小峰值的声源,或者去除从某个方向继续响铃的声音。目标语音通常是用于操纵装置的简短命令或话语,并且被认为不会持续很长时间。
接下来,在步骤S162中,第一峰值检测单元452检测第一峰值。即,在从频率信息集成单元416输出的第一空间谱的加权平均P^n θ,t中,检测到峰值超过从阈值更新单元451输出的阈值Pth θ,t的那些阈值。然后,当仰角固定时,输出对应于具有检测到的峰值的第一空间谱的加权平均P^n θ,t的水平角θ^,作为话语方向(第一水平角)。
如上所述,在图7的步骤S103中,通过水平角估计单元103的水平角估计处理来估计第一水平角θ^,该第一水平角是当仰角固定时的话语方向(图9的处理)。
接下来,在图7的步骤S103中的水平角估计处理之后,第二音乐处理单元104在步骤S104中执行第二音乐处理。将参考图10描述第二音乐处理的细节。图10是示出第二音乐处理的流程图。
在步骤S181中,第二空间谱计算单元482计算第二空间谱。即,通过使用对应于由特征值分解单元412获得的特征向量ei中较小的一个的M-N特征值λi的特征向量ei和作为方向(θ~,
Figure BDA0002439151620000141
)的传递函数的转向向量
Figure BDA0002439151620000142
来计算第二空间谱。例如,通过以下等式(16)执行第二空间谱
Figure BDA0002439151620000143
的计算。
[等式11]
Figure BDA0002439151620000144
相对于仰角固定时声源的估计方向θ^,θ~是在估计的方向θ^附近的有限范围(θ^±s)。即,θ^-s<θ~<θ^+s。即,估计仰角的范围不是360°的整个水平角的范围,而是最初估计的第一水平角θ^附近的有限范围。φ表示用于计算空间谱的仰角方向。
图11是示出估计范围的示图。如图11所示,估计仰角的范围不是360°的整个水平角的范围,而是最初估计的第一水平角θ^(θ^±s)附近的有限范围。因此,可以减少操作量。结果,甚至操作资源不高(操作能力不高)的装置也可以实时执行操作。本技术甚至可以应用于用户可能存在的方向完全未知的情况(在没有信息指示用户在相机等的视角内或者像可佩戴装置一样预先“用户在这个方向”的情况下)。
第二空间谱是表示从方向(θ~,
Figure BDA0002439151620000145
)的声音到达程度的空间谱。方向(θ~,
Figure BDA0002439151620000146
)的转向矢量
Figure BDA0002439151620000147
预先存储在传递函数存储单元481中。从第一音乐处理单元102的特征值分解单元412提供特征向量ei
在步骤S182中,频率信息集成单元483通过以下等式(17)和(18)为每个频率计算第二空间谱的加权平均
Figure BDA0002439151620000148
从第二空间谱计算单元482提供第二空间谱
Figure BDA0002439151620000149
从第一音乐处理单元102的频率权重计算单元413提供频率权重wω,t
[等式12]
Figure BDA0002439151620000151
Figure BDA0002439151620000152
通过第二音乐处理单元104的上述第二音乐处理,计算每个频率的第二空间谱的加权平均
Figure BDA0002439151620000153
回到图7,当步骤S104的第二音乐处理(图10的处理)结束时,第二峰值检测单元105在步骤S105中检测峰值。即,在第二音乐处理单元104输出的加权平均空间谱中,检测到具有最大值的空间谱,并且输出对应于该空间谱的水平角(第二水平角θout)和仰角
Figure BDA0002439151620000154
作为话语方向(θout,
Figure BDA0002439151620000155
)。
如上所述,通过旋转能移动部分14并在估计的话语方向上转动显示单元15,可以指示接收到来自该方向的语音。
在该示例中,由于执行了通过音乐方法的操作,所以可以准确地确定话语方向。此外,估计水平角和仰角的范围不是360°的整个水平角的范围,而是最初估计的第一水平角θ^(θ^±s)附近的有限范围。因此,可以减少操作量。结果,即使操作资源不高(操作能力不高)的装置也可以实时执行操作。
<空间谱的特征>
(图12至14)
接下来,将参考图12至14描述空间谱的特征。图12至图14是示出空间谱的特征的示图。
如图12所示,第二空间谱的加权平均
Figure BDA0002439151620000156
在话语方向θs上具有峰值。在具有一个声源的环境中,该空间谱在话语方向的水平角θi处具有尖峰。然而,在不断产生噪声的环境中,例如,如图13所示,不仅在话语方向θs上,而且在噪声方向θn上,可能出现两个或更多个峰值。此外,出现谱失真,这使得阻止清楚地确定峰值。
因此,在语音输入装置1中,如参考等式(7)所述,通过广义特征值分解来白化噪声。因为这使得可以白化空间有色噪声,所以当使用所获得的新特征向量来执行通过音乐方法的处理时,如图14所示,可以从空间谱中比在话语方向θs中更多地抑制噪声方向θn中的峰值。
在话语方向估计单元71如图5所示配置的情况下,不需要在外壳11中设置麦克风阵列12,作为固定部分,因为具有低操作资源的装置可以实时执行操作。然而,如果麦克风阵列12作为固定部分设置在外壳11中,则可以使用具有较低操作能力的装置来估计说话者的方向。
然后,可以预先学习上述等式(2)的噪声信号的相关矩阵Kω,t,或者可以在依次更新时根据具有特定时间宽度的噪声部分信息来计算和保存。即使能移动部分14旋转,如果麦克风阵列12的设置、话语方向和空间中的位置关系在旋转前后没有改变,则在此之前学习的空间信息可以原样使用,性能不会由于操作而劣化,并且不会发生不必要的混淆。然后,可以稳定地使用诸如呼叫和语音识别等应用。
三维设置麦克风阵列12有利于准确估计话语方向,尽管操作量将会增加。然而,通过将麦克风阵列12附接到固定部分,如图1至图3所示,即使采用麦克风阵列12设置在平面中并且操作量较小的方法,也可以精确地估计话语方向。这样的结果是成本降低。
相关矩阵Kω,t的顺序学习是估计使用环境中的噪声特征。例如,当诸如电视广播或无线电广播等声音持续流动时,在该方向上的噪声信息累积在相关矩阵Kω,t中。结果,当检测到人的话语时,不太可能错误地检测到电视或无线电的方向。需要一些时间在这个相关矩阵Kω,t中积累足够的信息。
如果麦克风阵列12不是固定的而是旋转的,则在旋转之后立即重置麦克风阵列12和空间之间的位置关系。当执行用于检测紧接在旋转之后的用户(或者在另一方向上的新用户)的话语的方向估计时,如果使用迄今为止已经学习的相关矩阵Kω,t,则在相关矩阵Kω,t中还没有学习到关于来自电视或无线电广播的噪声的方向和强度的信息。因此,紧接在麦克风阵列12旋转之后,难以精确地估计话语方向。
然而,如果麦克风阵列12是固定的,则不会出现这样的问题,因为没有重置麦克风阵列12和空间之间的位置关系。具体地,如果能移动部分14相对于旋转中心对称地形成为圆柱形,即使考虑到能移动部分14的反射,麦克风阵列12和空间之间的位置关系在旋转前后也不会改变。
此外,可以考虑这样的配置,其中,麦克风阵列12旋转,并且根据驱动麦克风阵列12的伺服电机的旋转轴的旋转步数来计算旋转角度,并且通过旋转角度来校正估计的方向。然而,如果麦克风阵列12是固定的,则这种校正处理变得不必要。
<计算机>
(图15)
上述一系列类型的处理可以由硬件执行,或者可以由软件执行。在这种情况下,例如,每个装置包括如图15所示的个人计算机。图15是示出个人计算机的配置示例的框图。
在图15中,中央处理单元(CPU)921根据存储在只读存储器(ROM)922中的程序或者从存储单元928加载到随机存取存储器(RAM)923的程序来执行各种类型的处理。RAM 923还存储CPU 921根据需要执行各种类型的处理等所需的数据。
CPU 921、ROM 922和RAM 923经由总线924相互连接。输入输出接口925也连接到总线924。
包括键盘、鼠标等的输入单元926、包括诸如CRT或LCD、扬声器等显示器的输出单元927、包括硬盘等的存储单元928、以及包括调制解调器、终端适配器等的通信单元929连接到输入输出接口925。通信单元929经由网络(例如,互联网)执行通信处理。
必要时,驱动器930也连接到输入输出接口925。适当地安装诸如磁盘、光盘、磁光盘或半导体存储器等可移除介质931。根据需要,从其中读取的计算机程序安装在存储单元48中。
注意,在本说明书中,描述要记录在记录介质上的程序的步骤不仅包括根据列出的顺序在时间序列基础上执行的处理,还包括不一定在时间序列基础上执行而是并行或单独执行的处理。
此外,本技术的实施方式不限于上述实施方式,并且在不脱离本技术的精神的情况下,可以进行各种修改。
<其他>
本技术还可以具有以下配置。
(1)一种语音输入装置,包括:
固定部分,其设置在预定位置;
能移动部分,其能相对于固定部分移动;
麦克风阵列,其附接到固定部分;
话语方向估计单元,被配置为基于来自说话者的语音来估计话语方向,从麦克风阵列输入所述语音;以及
驱动单元,被配置为根据估计的话语方向驱动所述能移动部分。
(2)根据上述(1)所述的语音输入装置,还包括
控制单元,被配置为识别来自说话者的语音,从麦克风阵列输入所述语音,并且基于识别的结果来控制前驱动单元。
(3)根据上述(1)或(2)所述的语音输入装置,其中,
所述控制单元包括内部或外部语音识别引擎,其识别来自说话者的语音。
(4)根据上述(1)至(3)中任一项所述的语音输入装置,其中,
在麦克风阵列中,多个麦克风设置在一个平面中。
(5)根据上述(1)至(4)中任一项所述的语音输入装置,其中,
所述能移动部分相对于旋转中心对称。
(6)根据上述(1)至(5)中任一项所述的语音输入装置,其中,
所述话语方向估计单元包括:
第一估计单元,被配置为根据来自说话者的语音信号来估计第一水平角,该第一水平角是话语方向上的水平角;以及
第二估计单元,被配置为在第一水平角附近的预定范围内相对于第一水平角估计第二水平角和仰角,所述第二水平角是话语方向上的水平角。
(7)一种语音输入装置的语音输入方法,包括:
固定部分,其设置在预定位置;
能移动部分,其能相对于固定部分移动;以及
麦克风阵列,其附接到固定部分;
所述语音输入方法包括:
基于来自说话者的语音来估计话语方向的步骤,从附接到固定部分的麦克风阵列输入所述语音;以及
根据估计的话语方向驱动所述能移动部分的步骤。
(8)一种用于使计算机执行语音输入装置的语音输入处理的程序,包括:
固定部分,其设置在预定位置;
能移动部分,其能相对于固定部分移动;以及
麦克风阵列,其附接到固定部分;
所述语音输入处理包括:
基于来自说话者的语音来估计话语方向的步骤,从附接到固定部分的麦克风阵列输入所述语音;以及
根据估计的话语方向驱动所述能移动部分的步骤。
附图标记列表
1 语音输入装置
11 外壳
12 麦克风阵列
13 麦克风
14 能移动部分
15 显示单元
16 扬声器
51 信号处理单元
52 主控制单元
71 话语方向估计单元
72 信号强调单元
73 噪声抑制单元
74 回声消除单元
81 语音识别引擎
82 操作确定单元

Claims (8)

1.一种语音输入装置,包括:
固定部分,设置在预定位置;
能移动部分,能相对于所述固定部分移动;
麦克风阵列,附接到所述固定部分;
话语方向估计单元,被配置为基于来自说话者的语音来估计话语方向,所述语音是从所述麦克风阵列输入的;以及
驱动单元,被配置为根据估计的话语方向驱动所述能移动部分。
2.根据权利要求1所述的语音输入装置,还包括
控制单元,被配置为识别来自说话者的所述语音,所述语音是从所述麦克风阵列输入的;并且被配置为基于识别的结果来控制前驱动单元。
3.根据权利要求2所述的语音输入装置,其中,
所述控制单元包括识别来自所述说话者的所述语音的内部或外部语音识别引擎。
4.根据权利要求3所述的语音输入装置,其中,
在所述麦克风阵列中,多个麦克风设置在一个平面中。
5.根据权利要求4所述的语音输入装置,其中,
所述能移动部分相对于旋转中心对称。
6.根据权利要求1所述的语音输入装置,其中,
所述话语方向估计单元包括:
第一估计单元,被配置为根据来自所述说话者的所述语音的信号来估计第一水平角,所述第一水平角是话语方向上的水平角;以及
第二估计单元,被配置为在所述第一水平角附近的预定范围内相对于所述第一水平角估计第二水平角和仰角,所述第二水平角是话语方向上的水平角。
7.一种语音输入装置的语音输入方法,所述语音输入装置包括:
固定部分,设置在预定位置;
能移动部分,能相对于所述固定部分移动;以及
麦克风阵列,附接到所述固定部分;
所述语音输入方法包括:
基于来自说话者的语音来估计话语方向的步骤,所述语音是从附接到所述固定部分的所述麦克风阵列输入的;以及
根据估计的话语方向驱动所述能移动部分的步骤。
8.一种用于使计算机执行语音输入装置的语音输入处理的程序,所述语音输入装置包括:
固定部分,设置在预定位置;
能移动部分,能相对于所述固定部分移动;以及
麦克风阵列,附接到所述固定部分;
所述语音输入处理包括:
基于来自说话者的语音来估计话语方向的步骤,所述语音是从附接到所述固定部分的所述麦克风阵列输入的;以及
根据估计的话语方向驱动所述能移动部分的步骤。
CN201880065077.3A 2017-10-11 2018-09-27 语音输入装置和方法以及程序 Withdrawn CN111194464A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017197869 2017-10-11
JP2017-197869 2017-10-11
PCT/JP2018/035842 WO2019073803A1 (ja) 2017-10-11 2018-09-27 音声入力装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN111194464A true CN111194464A (zh) 2020-05-22

Family

ID=66100726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880065077.3A Withdrawn CN111194464A (zh) 2017-10-11 2018-09-27 语音输入装置和方法以及程序

Country Status (5)

Country Link
US (1) US11310593B2 (zh)
EP (1) EP3696811A4 (zh)
JP (1) JPWO2019073803A1 (zh)
CN (1) CN111194464A (zh)
WO (1) WO2019073803A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112075088B (zh) * 2018-05-18 2022-06-28 索尼公司 信号处理装置、信号处理方法和计算机可读介质
CN109068234A (zh) * 2018-10-29 2018-12-21 歌尔科技有限公司 一种音频设备定向发声方法、装置、音频设备
US11276399B2 (en) * 2019-04-11 2022-03-15 Lg Electronics Inc. Guide robot and method for operating the same

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6456428A (en) * 1987-08-27 1989-03-03 Oki Electric Ind Co Ltd Control system for camera by sound
JP2001337694A (ja) 2000-03-24 2001-12-07 Akira Kurematsu 音源位置推定方法、音声認識方法および音声強調方法
EP1715717B1 (en) 2004-02-10 2012-04-18 Honda Motor Co., Ltd. Moving object equipped with ultra-directional speaker
US8583282B2 (en) * 2005-09-30 2013-11-12 Irobot Corporation Companion robot for personal interaction
JP2007221300A (ja) * 2006-02-15 2007-08-30 Fujitsu Ltd ロボット及びロボットの制御方法
JP5170440B2 (ja) * 2006-05-10 2013-03-27 本田技研工業株式会社 音源追跡システム、方法、およびロボット
JP4872871B2 (ja) 2007-09-27 2012-02-08 ソニー株式会社 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP5253278B2 (ja) 2009-04-08 2013-07-31 株式会社東芝 多次元データ識別装置、多次元データ識別方法、及び信号到来方向推定装置
JP4928592B2 (ja) 2009-08-31 2012-05-09 東芝テック株式会社 画像処理装置及びプログラム
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
WO2013015461A1 (ko) 2011-07-22 2013-01-31 엘지전자 주식회사 음원 방향 탐지 장치 및 이를 포함하는 감시 카메라
US9516412B2 (en) * 2014-03-28 2016-12-06 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9621984B1 (en) * 2015-10-14 2017-04-11 Amazon Technologies, Inc. Methods to process direction data of an audio input device using azimuth values
KR102392113B1 (ko) 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
US11151992B2 (en) * 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
CN107199572B (zh) * 2017-06-16 2020-02-14 山东大学 一种基于智能声源定位与语音控制的机器人系统及方法
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10649060B2 (en) * 2017-07-24 2020-05-12 Microsoft Technology Licensing, Llc Sound source localization confidence estimation using machine learning
KR102174598B1 (ko) * 2019-01-14 2020-11-05 한국과학기술원 회절 인지를 통한 비가시선 음원 위치 추적 방법 및 시스템

Also Published As

Publication number Publication date
JPWO2019073803A1 (ja) 2020-11-05
EP3696811A4 (en) 2020-11-25
WO2019073803A1 (ja) 2019-04-18
EP3696811A1 (en) 2020-08-19
US11310593B2 (en) 2022-04-19
US20200329308A1 (en) 2020-10-15

Similar Documents

Publication Publication Date Title
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
US9460732B2 (en) Signal source separation
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US20160071526A1 (en) Acoustic source tracking and selection
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
CN111418012B (zh) 用于处理音频信号的方法和音频处理设备
JP2019008134A (ja) 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
WO2015065682A1 (en) Selective audio source enhancement
US20120069714A1 (en) Sound direction estimation apparatus and sound direction estimation method
CN111194464A (zh) 语音输入装置和方法以及程序
Lee et al. DNN-based feature enhancement using DOA-constrained ICA for robust speech recognition
Valin Auditory system for a mobile robot
Asano et al. Detection and separation of speech event using audio and video information fusion and its application to robust speech interface
JP6888627B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN112824925A (zh) 使用两个麦克风进行轻型全360度音频源位置检测
Li et al. Multichannel online dereverberation based on spectral magnitude inverse filtering
Díaz et al. Assessing the effect of visual servoing on the performance of linear microphone arrays in moving human-robot interaction scenarios
WO2022178157A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
EP4295360A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
CN112075088B (zh) 信号处理装置、信号处理方法和计算机可读介质
KR20230084154A (ko) 동적 분류기를 사용한 사용자 음성 활동 검출
CN110858485A (zh) 语音增强方法、装置、设备及存储介质
Ogawa et al. Speech enhancement using a square microphone array in the presence of directional and diffuse noise
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200522

WW01 Invention patent application withdrawn after publication