CN111052228B - 用于语音识别的方法和装置 - Google Patents
用于语音识别的方法和装置 Download PDFInfo
- Publication number
- CN111052228B CN111052228B CN201780094599.1A CN201780094599A CN111052228B CN 111052228 B CN111052228 B CN 111052228B CN 201780094599 A CN201780094599 A CN 201780094599A CN 111052228 B CN111052228 B CN 111052228B
- Authority
- CN
- China
- Prior art keywords
- devices
- voice
- clock
- time
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000000926 separation method Methods 0.000 claims abstract description 29
- 230000001360 synchronised effect Effects 0.000 claims description 15
- 238000012880 independent component analysis Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
提供了用于语音识别的方法和装置。所述语音识别方法包括:接收语音信息,所述语音信息是通过配置在连接在一起的多个装置上的多个语音采集装置来采集,其中所述多个装置包括至少一个移动装置;以及对通过所述多个语音采集装置采集到的所述语音信息实行语音分离与识别过程。所述语音识别装置包括:处理器,所述处理器被配置成:获得连接在一起的多个装置间的时钟差,其中所述多个装置中的每一者被配置成具有语音采集装置;获得语音信息,所述语音信息是通过配置在所述多个装置中的所述每一者上的所述语音采集装置来采集;以及基于所述多个装置间的所述时钟差,对通过所述语音采集装置采集到的语音信息实行语音分离与识别过程。
Description
技术领域
本发明大体上涉及用于语音识别的方法和装置。
背景技术
如今,语音控制应用于越来越多的领域中,例如应用于车辆领域中。语音识别逻辑是用于实现语音控制的典型元件。一般的车辆具有一个传声器。当有两个或更多个说话人同时说话或在车辆中有噪声时,一般的语音识别逻辑不能有效地分离混合的语音,这影响语音识别率。目前,实现准确地语音分离的一种方法是创建传声器阵列,另一方法是通过独立分量分析(Independent ComponentAnalysis,ICA)、频域独立分量分析(FrequencyDomain Independent Component Analysis,FDICA)或其他扩展算法来分离混合的语音。然而,前面提及的所有这些方法需要传声器的数目至少等于语音源的数目,这意味着当前车辆应添加更多传声器以实现语音分离,然而,这将导致成本增加。
发明内容
在一实施方案中,提供一种用于语音识别的方法,所述方法包括:接收语音信息,所述语音信息是通过配置在连接在一起的多个装置上的多个语音采集装置来采集,其中所述多个装置包括至少一个移动装置;以及对通过所述多个语音采集装置采集到的所述语音信息实行语音分离与识别过程。
在一些实施方案中,所述方法还包括:确定所述多个装置中的一者与所述多个装置中的剩余装置中的一者之间的时钟差。
在一些实施方案中,确定所述多个装置中的一者与所述多个装置中的所述剩余装置中的一者之间的所述时钟差包括:获得所述多个装置中的每一者的时钟;以及获得所述多个装置中的一者与所述多个装置中的所述剩余装置中的一者之间的时钟差。
在一些实施方案中,确定所述多个装置中的一者与所述多个装置中的所述剩余装置中的一者之间的所述时钟差包括:第一装置在第一时间点向第二装置发送测试消息;所述第一装置在第三时间点从所述第二装置接收反馈消息,其中所述反馈消息至少包括所述第二装置的接收所述测试消息的第二时间点和发送所述反馈消息的第四时间点;以及基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差;其中所述第一装置是所述多个装置中的一者,并且所述第二装置是所述多个装置中的所述剩余装置中的一者。
在一些实施方案中,对通过所述多个语音采集装置采集到的所述语音信息实行所述语音分离与识别过程包括:基于所述多个装置间的所述时钟差来使通过所述多个语音采集装置采集到的所述语音信息同步;分离所述同步的语音信息;以及识别所述分离的语音信息。
在一些实施方案中,使通过所述多个语音采集装置采集到的所述语音信息同步包括:基于第一装置与参考装置之间的时钟差来使第一语音信息同步;其中所述第一语音信息是通过配置在所述第一装置上的第一语音采集装置采集;所述参考装置是所述多个装置中的一者,并且所述第一装置是所述多个装置中的所述剩余装置中的一者。
在一些实施方案中,所述方法还包括:传输采集信息以开始通过所述多个语音采集装置来采集语音信息。
在一实施方案中,提供一种用于语音识别的方法,所述方法包括:获得连接在一起的多个装置间的时钟差,其中所述多个装置中的每一者被配置成具有语音采集装置;获得语音信息,所述语音信息是通过配置在所述多个装置中的所述每一者上的所述语音采集装置来采集;以及基于所述时钟差,对通过所述多个语音采集装置采集到的所述语音信息实行语音分离与识别过程。
在一些实施方案中,获得所述时钟差包括:获得由第一装置发送测试消息的第一时间点;获得由第二装置接收所述测试消息的第二时间点;获得由所述第一装置接收反馈消息的第三时间点;获得由所述第二装置发送所述反馈消息的第四时间点;以及基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差;其中所述第一装置是所述多个装置中的一者,并且所述第二装置是所述多个装置中的剩余装置中的一者。
在一些实施方案中,对通过所述多个语音采集装置采集到的所述语音信息实行所述语音分离与识别过程包括:基于所述多个装置间的所述时钟差来使所述语音信息同步,所述语音信息是通过配置在所述多个装置中的每一者上的所述语音采集装置来采集;分离所述同步的语音信息;以及识别所述分离的语音信息。
在一实施方案中,提供一种语音识别装置,所述语音识别装置包括:处理器,所述处理器被配置成:获得连接在一起的多个装置间的时钟差,其中所述多个装置中的每一者被配置成具有语音采集装置;获得语音信息,所述语音信息是通过配置在所述多个装置中的所述每一者上的所述语音采集装置来采集;以及基于所述多个装置间的所述时钟差,对通过所述语音采集装置采集到的语音信息实行语音分离与识别过程。
在一些实施方案中,所述处理器确定所述时钟差包括:获得第一装置向第二装置发送测试消息时所在的第一时间点;获得所述第二装置接收所述测试消息时所在的第二时间点;获得第一语音识别装置从所述第二装置接收反馈消息时所在的第三时间点;获得所述第二装置发送所述反馈消息时所在的第四时间点;以及基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差;其中所述第一装置是所述多个装置中的一者,并且所述第二装置是所述多个装置中的剩余装置中的一者。
在一些实施方案中,所述处理器实行语音分离与识别过程包括:基于所述多个装置间的所述时钟差来使所述语音信息同步,所述语音信息是通过配置在所述多个装置中的每一者上的所述语音采集装置来采集;分离所述同步的语音信息;以及识别所述分离的语音信息。
在一些实施方案中,所述语音识别装置还包括语音采集电路,所述语音采集电路被配置成采集所述语音信息。
在一些实施方案中,所述语音识别装置还包括连接电路,所述连接电路被配置成经由WIFI、蓝牙或红外光与装置连接。
在一实施方案中,提供一种存储介质,所述存储介质具有存储在其中的计算机指令,其中所述计算机指令一旦执行,以上方法即执行。
通过应用配置在至少一个移动装置上的至少一个语音采集装置以用于采集语音,可以在不在应用环境中添加任何更多的固定传声器的情况下提高所述应用环境中的语音识别率。
附图说明
本发明的先前和其他特征将结合随附图式从以下描述及附加的权利要求书变得更加明显。将理解,这些图式仅描绘根据本发明的几个实施方案,并且因此不应被视为对本发明的范围的限制,通过使用随附图式,将关于额外独特性及细节来描述本发明。
图1根据本发明的一实施方案示意性地图示用于语音识别的方法的流程图;
图2根据本发明的一实施方案示意性地图示用于语音识别的场景;
图3根据本发明的一实施方案示意性地图示用于确定时钟差的方法的流程图;
图4根据本发明的另一实施方案示意性地图示用于确定时间差的方法的流程图;
图5根据本发明的一实施方案示意性地图示用于确定时钟差的场景;
图6根据本发明的一实施方案示意性地图示用于语音识别的系统。
具体实施方式
在以下详细描述中,将参考附图,所述附图形成详细描述之一部分。在图式中,类似的符号通常识别类似部件,除非上下文另有规定。在详细描述、图式和权利要求书中所描述的说明性实施方案不意味是限制性的。在不背离本文呈现的标的的精神或范围的情况下,可以利用其他实施方案,并且可以作出其他改变。将容易理解,如本文中大体上描述的和在图中说明的,本发明的多个方面可以用广泛多种不同的配置来布置、替代、组合和设计,所述配置是明确预期的并且构成本发明的部分。
图1根据本发明的一实施方案示意性地图示用于语音识别的方法的流程图,其中语音识别包括言语识别、声音识别和/或噪声识别。
参考图1,在S101中,将多个装置连接在一起,其中所述多个装置中的每一者被配置成具有至少一个语音采集装置。
出于示例性目的,图2根据本发明的一实施方案示意性地图示车辆中的用于语音识别的场景。尤其在所安装的固定传声器的数目小于车辆可以承载的乘客的数目的车辆中。在图2中提供的场景中,两名乘客,乘客1和乘客2,存在于车辆中。车辆配备车载传声器4并且由车载主机5控制。配备上部智能电话传声器31和下部智能电话传声器32的智能电话3是由所述乘客中的一者或驾驶员(图2中未示出所述驾驶员)携带到车辆中。
参考图2,车载主机5和智能电话3连接在一起。
在一些实施方案中,选取智能电话3作为实例。在一些实施方案中,任何其他移动装置可以用于此目的,例如,平板计算机、膝上计算机等,所述移动装置配备可以采集周围声音和噪声的语音采集装置或任何其他传感器,并且可以连接到车辆以处理数据传输。在一些实施方案中,车载主机5和智能电话3可以至少经由WIFI、蓝牙或红外光连接。
在一些实施方案中,车载主机5和智能电话3可以自动地或手动地连接。在一些实施方案中,连接过程可以响应于驾驶员或乘客的指令而开始。驾驶员或乘客的指令可以经由键盘输入、言语输入、手势输入和类似方式接收。
在一些实施方案中,连接过程可以在驾驶员或乘客进入车辆中后立即自动开始。
在一些实施方案中,连接建立过程可以通过车辆起始。举例来说,参考图2,智能电话3可以在所述智能电话携带到车辆中后立即连接到车辆的车载主机5。或者,连接建立过程可以通过移动装置中的任一者起始。举例来说,参考图2,当智能电话3被携带到车辆中时,连接建立请求可以被发送到车辆的车载主机5以请求连接建立。
参考图1,在S103,通过配置在所述多个装置上的多个语音采集装置来采集语音信息。
参考图2,在连接在车载主机5与智能电话3之间建立之后,智能电话3的上部智能电话传声器31和下部智能电话传声器32均可以准备好采集车辆中的语音信息。固定在车辆上的车载传声器4也可以启动以采集车辆中的语音信息。
在一些实施方案中,采集到的语音信息包括但不限于由驾驶员或两名乘客发出的语音。车辆内外的噪声也可能混在语音信息中。因此,采集到的语音信息可能是混合的语音信息。
在一些实施方案中,语音采集过程可以通过采集信息来起始。采集信息可以在连接建立之后手动地或自动地起始,使得多个语音采集装置中的每一者开始采集语音。在一些实施方案中,采集信息也可以在一条件下起始,所述条件例如通过车载主机5来检测语音和类似条件。
在一些实施方案中,智能电话3中的录音机(图2中未示出所述录音机)可以用于控制语音的采集。
在一些实施方案中,语音信息可以包括时刻信息,所述时刻信息在语音分离与识别过程中可能有用。举例来说,所述时刻信息可以包括开始时刻和停止时刻,所述时刻信息是匹配由不同语音采集装置记录的两个或更多语音信息必需的。语音信息的时刻可以根据语音采集装置的时钟来记录。
在一些实施方案中,语音采集装置的时钟可以基于移动装置或移动装置配置所在的车辆的时钟。举例来说,关于通过智能电话3采集到的语音信息,智能电话3的时钟是语音信息的时钟。或者,关于通过车载传声器4采集到的语音信息,车辆的时钟是语音信息的时钟,其中车辆的时钟可以是车载主机5的时钟。
实际上,不同装置的时钟大不一样,这将降低语音识别的准确度。因此,应对采集到的语音信息执行同步过程,以提高语音识别率的准确度。举例来说,通过执行同步过程,开始时刻或停止时刻应变得同步。然而,为了实行同步过程,应确定通过不同装置采集到的语音信息之间的时钟差。
参考图1,在S105中,获得第一多个装置之间的时钟差。在一些实施方案中,可以获得所述多个装置中的一者与所述多个装置的剩余装置中的一者之间的时钟差。
图3根据本发明的一实施方案示意性地图示用于确定时钟差的方法的流程图。
在S301中,获得所述多个装置中的每一者的时钟。
参考图2,车载主机5获得智能电话3的时钟和所述车载主机自身的时钟。
在一些实施方案中,获取过程可以自动地执行,或获取过程可以响应于车载主机5的请求而执行。
参考图3,在S303中,基于所述多个装置中的每一者的所述时钟,获得所述多个装置中的一者与所述多个装置中的剩余装置中的一者之间的时钟差。
参考图2,在获得智能电话3的时钟之后,可以确定智能电话4与车载主机5之间的时钟差。举例来说,时钟差可以根据方程式(1)来确定:
X=Ta-Tb (1)
其中X表示智能电话3与车载主机5之间的时钟差,Ta表示智能电话3的时钟,Tb表示车载主机5的时钟。
在一些实施方案中,时钟差确定过程可以在连接过程被执行后立即执行。
在一些实施方案中,时钟差确定过程可以在接收到采集信息之后执行。
在一些实施方案中,参考图2,除了图2中示出的装置之外,还存在也被配置成采集汽车中的语音信息的IPAD(图2中未示出)。智能电话3与IPAD之间的时钟差可以通过智能电话3(或IPAD)来确定。然后,智能电话3的时钟和智能电话3与IPAD之间的时钟差可以通过智能电话3发送到车载主机5。在一些实施方案中,智能电话3与IPAD之间的时钟差、智能电话3与车载主机5之间的时钟差和IPAD与车载主机5之间的时钟差全部可以通过车载主机5确定。
图4根据本发明的另一实施方案示意性地图示用于确定时钟差的方法的流程图。
在S401,第一装置在第一时间点向第二装置发送测试消息。
参考图2,一旦连接建立,即通过车载主机5向智能电话3发送测试消息。在一些实施方案中,连接建立请求和发送测试消息的第一时间点可以包括在测试消息中。
参考图4,在S403中,所述第一装置在第三时间点从所述第二装置接收反馈消息。
参考图2,响应于测试消息,由智能电话3向车载主机5发送反馈消息。在一些实施方案中,接收测试消息的第二时间点和发送反馈消息的第四时间点可以包括在反馈消息中。在一些实施方案中,连接建立成功响应也可以包括在反馈消息中。
在一些实施方案中,接收反馈消息的第三时间点可以由车载主机5记录。
参考图4,在S405中,基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差。
在一些实施方案中,假设智能电话3的时钟比车载主机5的时钟快X分钟。如图5所示,在传输测试消息和反馈消息之后,可以获得以下方程式(2):
其中T指代智能电话3与车载主机5之间的数据传输时间。
因此,时钟差可以根据方程式(3)来确定:
X=[(t4-t3)-(t1-t2)]/2 (3)
其中X表示智能电话3的时钟与车载主机5的时钟之间的时钟差,t1表示通过车载主机5发送测试消息的第一时间点,t2表示通过智能电话3接收测试消息的第二时间点,t3表示通过车载主机5接收反馈消息的第三时间点,并且t4表示通过智能电话3发送反馈消息的第四时间点。
在一些实施方案中,如果根据方程式(3)计算的X的值为正,则可以确定智能电话3的时钟比车载主机5的时钟快X分钟。在这种情况下,通过智能电话3的上部智能电话传声器31和下部智能电话传声器32采集到的语音信息的开始时刻和停止时刻比通过车辆的车载传声器4采集到的语音信息早X分钟,即使上部智能电话传声器31、下部智能电话传声器32和车载传声器4同时对语音采集信息作出响应。
否则,如果根据方程式(3)计算的X的值为负,则可以确定智能电话3的时钟比车载主机5的时钟慢X分钟。在这种情况下,通过智能电话3的上部智能电话传声器31和下部智能电话传声器32采集到的语音信息的开始时刻和停止时刻比通过车辆的车载传声器4采集到的语音信息晚X分钟,即使上部智能电话传声器31、下部智能电话传声器32和车载传声器4同时对语音采集信息作出响应。
在以上实施方案中,当车载主机5的时钟被视为参考时钟时,时钟差是由车载主机5确定,其中车载主机5可以被视为参考装置。在一些实施方案中,当智能电话3的时钟被视为参考时钟时,时钟差也可以由智能电话3确定,其中智能电话3可以被视为参考装置。在一些实施方案中,当第三平台的时钟被视为参考时钟时,时钟差确定过程甚至可以在所述第三平台上实行。
参考图1,在S107中,在获得所述多个装置间的所述时钟差之后,基于所述时钟差,对所述语音信息实行同步过程。
可以对参考时钟实行所述同步过程,所述参考时钟不同于车辆全部所述多个装置的时钟。举例来说,参考时钟可以是车辆所在的时区的标准时间。车辆的位置可以通过固定在车辆上的定位装置来确定,或可以通过车辆中的配置在移动装置上的定位装置来确定。定位装置可以包括GPS或具有定位功能的其他装置。在一些实施方案中,所述多个装置中的一个时钟可以充当参考时钟。举例来说,参考图2,参考时钟可以是车载主机5或智能电话3的时钟。
参考图2,同步过程包括:基于智能电话3的时钟与车载主机5的时钟之间的时钟差来使通过智能电话3和车载传声器4采集到的语音信息同步。通过智能电话3采集到的语音信息是通过上部智能电话传声器31和下部智能电话传声器32来采集。在本文中,车载主机5的时钟被视为参考时钟。可以根据方程式(3)获得智能电话3的同步的语音信息:
T1'=T1+X (3)
其中T1’表示同步的语音信息,T1表示通过智能电话3采集到的语音信息,X表示智能电话3的时钟与车载主机5的时钟之间的时钟差。
参考图1,在S109,分离所述同步的语音信息。
本领域的技术人员可以理解,在语音分离过程期间,需要语音采集装置的数目不小于语音源的数目。通过应用配置在至少一个移动装置上的至少一个语音采集装置用于采集语音,在不在车辆中添加任何固定传声器的情况下满足对语音采集装置的数目的要求,并且语音识别率得以改进。
参考图2,响应于采集信息,智能电话3的上部智能电话传声器31和下部智能电话传声器32开始采集语音。与此同时,车载传声器4也开始采集语音。当采集周期期满时,第一语音信息由上部智能电话传声器31和下部智能电话传声器32产生,并且第二语音信息由车载传声器4产生。在接收到由智能电话3发送的第一语音信息和由车载传声器4发送的第二语音信息之后,车载主机5可以对车载主机5的时钟与智能电话3的时钟之间的时钟差实行同步过程。
在执行同步过程之后,车载主机5可以另外对同步的第一语音信息和同步的第二语音信息实行分离过程,以从混合语音分离出语音。由于语音采集装置的数目不少于车辆中的乘客的数目,因此车载主机5可以准确地分离每个乘客的语音。分离的语音信息一对一地对应于车辆中的乘客。举例来说,分离的第一语音信息可以主要对应于乘客1的语音,而分离的第二语音信息可以主要对应于乘客2的语音。
在一些实施方案中,分离过程可以经由聚类和/或统计处理来执行。
在一些实施方案中,通过使用上部智能电话传声器31和下部智能电话传声器32,获得噪声减少更好的第一语音信息。
在一些实施方案中,采集周期可以是缺省的。在一些实施方案中,采集周期可以包括在采集信息中。
参考图1,在S111中,识别所述分离的语音信息。
在一些实施方案中,语音分离与识别过程可以经由退化解混估计技术(Degenerate Unmixing Estimation Technique,DUET)、独立分量分析方法和其扩展算法来执行。
在一些实施方案中,语音识别过程可以经由频域独立分量分析(FDICA)方法执行。
参考图2,分离与识别过程可以在车载主机5上实行。在一些实施方案中,分离与识别过程可以在智能电话3上实行。
在一些实施方案中,分离与识别过程甚至可以在第三平台上实行。同步的语音信息可以经由有线和/或无线方法传输到实行分离与识别过程的第三平台。在一些实施方案中,无线传输方法可以通过蓝牙连接、WIFI连接和类似连接来实现。
请注意,一旦多个装置被连接在一起,即可以多次地实行语音采集与识别过程,并且不需要在所述多次之间连接所述多个装置。然而,在所述多次的语音采集与识别过程中,所述多个装置处在连接状态中。
根据本发明,还提供一种语音识别装置,所述语音识别装置包括处理器。所述处理器被配置成:获得连接在一起的多个装置间的时钟差,其中多个语音采集装置被配置在所述多个装置上;获得语音信息,所述语音信息是通过所述多个语音采集装置来采集;以及基于所述时钟差,对通过所述多个语音采集装置采集到的语音信息实行语音分离与识别过程。
在一些实施方案中,所述处理器确定所述时钟差包括:获得所述多个装置中的每一者的时钟;基于所述多个装置中的每一者的所述时钟,获得所述多个装置中的一者与所述多个装置中的剩余装置中的任何一者之间的时钟差。
在一些实施方案中,所述处理器确定所述时钟差包括:获得第一装置向第二装置发送测试消息时所在的第一时间点;获得所述第二装置接收所述测试消息时所在的第二时间点;获得所述第一语音识别装置从所述第二装置接收反馈消息时所在的第三时间点;获得所述第二装置发送所述反馈消息时所在的第四时间点;以及基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差;其中所述第一装置是所述多个装置中的一者,并且所述第二装置是所述多个装置中的所述剩余部分中的一者。关于获得所述多个装置的时钟差的详细信息可以参考关于图3和图4的以上描述。
在一些实施方案中,所述处理器实行语音分离与识别过程包括:基于所述多个装置间的所述时钟差来使通过所述多个语音采集装置采集到的所述语音信息同步;分离所述同步的语音信息;以及识别所述分离的语音信息。关于实行语音分离与识别过程的详细信息可以参考关于图1的以上描述。
在一些实施方案中,用于语音识别的所述装置还包括语音采集电路,所述语音采集电路被配置用于采集所述语音信息。
在一些实施方案中,用于语音识别的所述装置还包括连接电路,所述连接电路被配置成经由WIFI、蓝牙或红外光与装置连接。
出于示例性目的,图6根据本发明的一实施方案示意性地图示用于语音识别的系统。在一些实施方案中,用于语音识别的系统包括上部智能电话传声器81、下部智能电话传声器82、车载传声器93和处理器91。在一些实施方案中,所述系统还包括连接电路10,所述连接电路被配置成经由WIFI、蓝牙或红外光与智能电话8连接。参考图6,连接电路10还包括车载主机连接模块92和智能电话连接模块83,其中车载主机连接模块92可以配置在车载主机9上,并且智能电话连接模块83可以配置在智能电话8上。参考图6,处理器91被配置成执行语音分离与识别过程。
在一些实施方案中,处理器91被配置成获得车载主机9与智能电话8之间的时钟差。
在一些实施方案中,处理器91被配置成:基于智能电话8的时钟与车载主机9的时钟之间的时钟差来使通过智能电话8和车载传声器93采集到的语音信息同步;以及分离并且识别车辆中的由不同乘客发出的语音。因此,车载主机9可以准确并且快速地由不同乘客经由语音发出的不同命令。
尽管各种态样和实施方案已在本文中公开,但是本领域的技术人员将容易了解其他方面和实施方案。本文中公开的各种方面和实施方案是用于说明目的并且不意图为限制性的,并且真正的范围和精神是通过权利要求书来指示。
Claims (10)
1.一种用于语音识别的方法,其特征在于,包括:
接收语音信息,所述语音信息是通过配置在连接在一起的多个装置上的多个语音采集装置来采集,其中所述多个装置包括至少一个移动装置;
确定所述多个装置中的一者与所述多个装置中的剩余装置中的一者之间的时钟差;以及
基于所述时钟差,对通过所述多个语音采集装置采集到的所述语音信息实行语音分离与识别过程,
所述确定所述多个装置中的一者与所述多个装置中的所述剩余装置中的一者之间的所述时钟差包括:
第一装置在第一时间点向第二装置发送测试消息;
所述第一装置在第三时间点从所述第二装置接收反馈消息,其中所述反馈消息至少包括所述第二装置的接收所述测试消息的第二时间点和发送所述反馈消息的第四时间点;以及
基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差;
其中所述第一装置是所述多个装置中的一者,并且所述第二装置是所述多个装置中的所述剩余装置中的一者。
2.根据权利要求1所述的方法,其特征在于,对通过所述多个语音采集装置采集到的所述语音信息实行所述语音分离与识别过程包括:
基于所述多个装置间的所述时钟差来使通过所述多个语音采集装置采集到的所述语音信息同步;
分离所述同步的语音信息;以及
识别所述分离的语音信息。
3.根据权利要求2所述的方法,其特征在于,使通过所述多个语音采集装置采集到的所述语音信息同步包括:
基于第一装置与参考装置之间的时钟差来使第一语音信息同步;
其中所述第一语音信息是通过配置在所述第一装置上的第一语音采集装置采集;
所述参考装置是所述多个装置中的一者,并且所述第一装置是所述多个装置中的所述剩余装置中的一者。
4.根据权利要求1所述的方法,其特征在于,还包括:
传输采集信息以开始通过所述多个语音采集装置来采集语音信息。
5.一种用于语音识别的方法,其特征在于,包括:
获得连接在一起的多个装置间的时钟差,其中所述多个装置中的每一者被配置成具有语音采集装置;
获得语音信息,所述语音信息是通过配置在所述多个装置中的所述每一者上的所述语音采集装置来采集;以及
基于所述时钟差,对通过所述多个语音采集装置采集到的所述语音信息实行语音分离与识别过程,所述获得所述时钟差包括:
获得由第一装置发送测试消息的第一时间点;
获得由第二装置接收所述测试消息的第二时间点;
获得由所述第一装置接收反馈消息的第三时间点;
获得由所述第二装置发送所述反馈消息的第四时间点;以及
基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差;
其中所述第一装置是所述多个装置中的一者,并且所述第二装置是所述多个装置中的剩余装置中的一者。
6.根据权利要求5所述的方法,其特征在于,对通过所述多个语音采集装置采集到的所述语音信息实行所述语音分离与识别过程包括:
基于所述多个装置间的所述时钟差来使所述语音信息同步,所述语音信息是通过配置在所述多个装置中的每一者上的所述语音采集装置来采集;
分离所述同步的语音信息;以及
识别所述分离的语音信息。
7.一种语音识别装置,其特征在于,包括:
处理器,所述处理器被配置成:
获得连接在一起的多个装置间的时钟差,其中所述多个装置中的每一者被配置成具有语音采集装置;
获得语音信息,所述语音信息是通过配置在所述多个装置中的所述每一者上的所述语音采集装置来采集;以及
基于所述多个装置间的所述时钟差,对通过所述语音采集装置采集到的语音信息实行语音分离与识别过程,所述处理器确定所述时钟差包括:
获得第一装置向第二装置发送测试消息时所在的第一时间点;
获得所述第二装置接收所述测试消息时所在的第二时间点;
获得第一语音采集装置从所述第二装置接收反馈消息时所在的第三时间点;
获得所述第二装置发送所述反馈消息时所在的第四时间点;以及
基于所述第一时间点、所述第二时间点、所述第三时间点和所述第四时间点,确定所述第一装置的时钟与所述第二装置的时钟之间的时钟差;
其中所述第一装置是所述多个装置中的一者,并且所述第二装置是所述多个装置中的剩余装置中的一者。
8.根据权利要求7所述的语音识别装置,其特征在于,所述处理器实行语音分离与识别过程包括:
基于所述多个装置间的所述时钟差来使所述语音信息同步,所述语音信息是通过配置在所述多个装置中的每一者上的所述语音采集装置来采集;
分离所述同步的语音信息;以及
识别所述分离的语音信息。
9.根据权利要求7所述的语音识别装置,其特征在于,还包括语音采集电路,所述语音采集电路被配置成采集所述语音信息。
10.根据权利要求7所述的语音识别装置,其特征在于,还包括连接电路,所述连接电路被配置成经由WIFI、蓝牙或红外光与装置连接。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/103846 WO2019061117A1 (en) | 2017-09-28 | 2017-09-28 | METHOD AND DEVICE FOR VOICE RECOGNITION |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111052228A CN111052228A (zh) | 2020-04-21 |
CN111052228B true CN111052228B (zh) | 2023-09-05 |
Family
ID=65900396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780094599.1A Active CN111052228B (zh) | 2017-09-28 | 2017-09-28 | 用于语音识别的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11532302B2 (zh) |
EP (1) | EP3688751B1 (zh) |
CN (1) | CN111052228B (zh) |
WO (1) | WO2019061117A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4107723A4 (en) * | 2020-02-21 | 2023-08-23 | Harman International Industries, Incorporated | METHOD AND SYSTEM TO IMPROVE VOTING SEPARATION BY ELIMINATION OF OVERLAP |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103811013A (zh) * | 2012-11-07 | 2014-05-21 | 中国移动通信集团公司 | 噪声抑制方法、装置、电子设备和通信处理方法 |
WO2015157013A1 (en) * | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
CN105590624A (zh) * | 2014-11-10 | 2016-05-18 | 现代自动车株式会社 | 车辆中的语音识别系统及其方法 |
US9570071B1 (en) * | 2012-03-26 | 2017-02-14 | Amazon Technologies, Inc. | Audio signal transmission techniques |
CN106717023A (zh) * | 2015-02-16 | 2017-05-24 | 松下知识产权经营株式会社 | 车载用音响处理装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9113240B2 (en) * | 2008-03-18 | 2015-08-18 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
US9431013B2 (en) * | 2013-11-07 | 2016-08-30 | Continental Automotive Systems, Inc. | Co-talker nulling for automatic speech recognition systems |
US9706299B2 (en) * | 2014-03-13 | 2017-07-11 | GM Global Technology Operations LLC | Processing of audio received at a plurality of microphones within a vehicle |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US11314214B2 (en) * | 2017-09-15 | 2022-04-26 | Kohler Co. | Geographic analysis of water conditions |
US11416209B2 (en) * | 2018-10-15 | 2022-08-16 | Sonos, Inc. | Distributed synchronization |
US10681463B1 (en) * | 2019-05-17 | 2020-06-09 | Sonos, Inc. | Wireless transmission to satellites for multichannel audio system |
-
2017
- 2017-09-28 EP EP17927221.6A patent/EP3688751B1/en active Active
- 2017-09-28 CN CN201780094599.1A patent/CN111052228B/zh active Active
- 2017-09-28 US US16/643,803 patent/US11532302B2/en active Active
- 2017-09-28 WO PCT/CN2017/103846 patent/WO2019061117A1/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9570071B1 (en) * | 2012-03-26 | 2017-02-14 | Amazon Technologies, Inc. | Audio signal transmission techniques |
CN103811013A (zh) * | 2012-11-07 | 2014-05-21 | 中国移动通信集团公司 | 噪声抑制方法、装置、电子设备和通信处理方法 |
WO2015157013A1 (en) * | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
CN105590624A (zh) * | 2014-11-10 | 2016-05-18 | 现代自动车株式会社 | 车辆中的语音识别系统及其方法 |
CN106717023A (zh) * | 2015-02-16 | 2017-05-24 | 松下知识产权经营株式会社 | 车载用音响处理装置 |
Non-Patent Citations (1)
Title |
---|
Ryutaro Sakanashi etc.Speech enhancement with ad-hoc microphone array using single source activity.《2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference》.2014,第1-6页. * |
Also Published As
Publication number | Publication date |
---|---|
WO2019061117A1 (en) | 2019-04-04 |
EP3688751A4 (en) | 2021-05-12 |
EP3688751B1 (en) | 2022-12-28 |
CN111052228A (zh) | 2020-04-21 |
US11532302B2 (en) | 2022-12-20 |
EP3688751A1 (en) | 2020-08-05 |
US20200234703A1 (en) | 2020-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9900685B2 (en) | Creating an audio envelope based on angular information | |
US11557306B2 (en) | Method and system for speech enhancement | |
US20200160861A1 (en) | Apparatus and method for processing voice commands of multiple talkers | |
WO2014064324A1 (en) | Multi-device speech recognition | |
JP2013007764A (ja) | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム | |
CN109509465A (zh) | 语音信号的处理方法、组件、设备及介质 | |
KR20140058127A (ko) | 음성인식장치 및 음성인식방법 | |
WO2016183825A1 (zh) | 一种定位声音发出位置的方法和终端设备 | |
CN110402584B (zh) | 车内通话控制装置、车内通话系统以及车内通话控制方法 | |
CN105049802B (zh) | 一种语音识别执法记录仪及其识别方法 | |
KR20230118089A (ko) | 사용자 스피치 프로파일 관리 | |
JP6295884B2 (ja) | 情報提案システム | |
US11315572B2 (en) | Speech recognition device, speech recognition method, and recording medium | |
CN111052228B (zh) | 用于语音识别的方法和装置 | |
US9791925B2 (en) | Information acquisition method, information acquisition system, and non-transitory recording medium for user of motor vehicle | |
JP2019091247A (ja) | 車両管理システム、確認情報送信システム、情報管理システム、車両管理プログラム、確認情報送信プログラムおよび情報管理プログラム | |
JP6387287B2 (ja) | 不明事項解消処理システム | |
KR20200041642A (ko) | 차량용 음성인식 시스템 및 그 제어 방법 | |
US11057734B2 (en) | Geospecific information system and method | |
US11217242B2 (en) | Detecting and isolating competing speech for voice controlled systems | |
US20160314787A1 (en) | Speech recognition apparatus and computer program product for speech recognition | |
US9858918B2 (en) | Root cause analysis and recovery systems and methods | |
US20240212357A1 (en) | Information processing apparatus and method | |
JP7123581B2 (ja) | 情報処理方法及び情報処理装置 | |
TWI823195B (zh) | 智慧推薦方法及系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |