CN102483918B - 声音识别装置 - Google Patents
声音识别装置 Download PDFInfo
- Publication number
- CN102483918B CN102483918B CN200980161199.3A CN200980161199A CN102483918B CN 102483918 B CN102483918 B CN 102483918B CN 200980161199 A CN200980161199 A CN 200980161199A CN 102483918 B CN102483918 B CN 102483918B
- Authority
- CN
- China
- Prior art keywords
- sound
- voice recognition
- detection unit
- source direction
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000009471 action Effects 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 44
- 238000010586 diagram Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004321 preservation Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- User Interface Of Digital Computer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Toys (AREA)
Abstract
本发明提供一种声音识别装置。判定部(13)判定在输入到包括多个麦克风的声音输入部(50)的音中,由于说话者的动作而产生的信号音是否包含规定的强度以上。在判定部(13)的判定是真的情况下,音源方向推测部(14)推测包含所述信号音的音的音源方向。声音识别部(16)判定从所推测出的所述音源方向到来的音是否与预先登记的声音模型一致。
Description
技术领域
本发明涉及声音识别装置。
背景技术
有探测说话者发出的声音,并将麦克风阵列的指向方向设定为发出该声音的方向的声音识别装置(参照专利文献1)。
该声音识别装置通过判定输入声音的声压和时间是否超过规定的阈值,推测声音的音源方向,设定麦克风阵列的指向方向。并且,对来自指向方向的声音进行强调,并进行声音识别。
专利文献1:日本特开2002-366191号公报
发明内容
但是,专利文献1的声音识别装置有时识别到说话者发出的声音以外的音(例如,关门声等噪音)。其结果,有时将麦克风阵列的指向方向设定为这样的音的音源方向,而无法高精度地进行声音识别。
本发明是鉴于上述课题而完成的,其目的在于提供一种能够高精度地进行声音识别的声音识别装置。
本发明的一方面的声音识别装置,其特征在于,具备:判定部,判定在输入到包括多个麦克风的声音输入部的音中,是否包含规定的强度以上的1000Hz以上的频率;音源方向推测部,在所述判定部的判定是真的情况下,推测包含1000Hz以上的频率的所述音的音源方向;以及声音识别部,判定从所推测出的所述音源方向到来的音是否与预先登记的声音模型一致。
根据本发明,能够提供能够高精度地进行声音识别的声音识别装置。
附图说明
图1是本发明的第1实施方式的声音识别装置的框图。
图2是示出声音识别装置中的麦克风阵列的配置例的示意图。
图3是示出声音识别装置的处理流程的一个例子的流程图。
图4是示出所输入的噪音、人的声音、拍响手的音的频率分布的一个例子的示意图。
图5是示出拍响手掌的音的时间变化的图。
图6是示出操作命令的数据库的一个例子的图。
图7是示出操作命令的数据库的另一例子的图。
图8是本发明的第1实施方式的声音识别装置的变形例1的框图。
图9是本发明的第2实施方式的声音识别装置的框图。
图10是示出声音识别装置的处理流程的一个例子的流程图。
图11是示出将手掌拍响两次的音的时间变化的一个例子的图。
(符号说明)
10、100:声音识别装置;11:麦克风阵列;12:存储部;13、113:判定部;14:音源方向推测部;15:指向性控制部;16:声音识别部;17:设备控制部;18:显示部;20:电视接收机;21、22:麦克风;29:框体;50:声音输入部;150:提取部
具体实施方式
以下,参照附图,详细说明本发明的实施方式。
在本说明书中,对同样的要素附加同一符号而适宜地省略详细的说明。
(第1实施方式)
第1实施方式的声音识别装置10通过探测由于说话者的动作而产生的音(以下称为“信号音”),将声音输入部中包含的麦克风阵列的指向方向设定为信号音的音源方向,识别来自说话者的声音,控制电视接收机等电子设备。在信号音中,例如,包括拍响手掌等多个身体的部位的音、弹手指的音、用手指或手等身体的部位敲打物体的音等。在本实施方式中,将拍响手掌的音用作信号音。
图1是第1实施方式的声音识别装置的框图。本实施方式的声音识别装置10具备声音输入部50、存储部12、判定部13、音源方向推测部14、指向性控制部15、声音识别部16、设备控制部17以及显示部18。
声音输入部50包括1个或者多组的麦克风阵列。
在本实施方式中,声音输入部50包括1个麦克风阵列11。
声音输入部50输入声音识别装置的外部的音、人的声音(voice),作为音数据保存到存储部12。
存储部12除了音数据以外,还储存为了后述的声音识别部16识别声音而所需的声音模型。
判定部13判定在存储部12中保存的音数据中是否包含有满足后述的规定的条件的音数据。
音源方向推测部14根据由判定部13判定的判定结果,推测该音数据的音源方向(发出信号音的方向)。
指向性控制部15将麦克风阵列11的指向方向设定为音源方向推测部14推测出的音源方向。
在麦克风阵列11的指向方向的设定完成之后,指向性控制部15向声音识别部16输出识别开始命令。
声音识别部16接收来自指向性控制部15的识别开始命令。
声音识别部16根据使用由指向性控制部15设定了指向方向的麦克风阵列11而得到的音数据,识别说话者的声音,决定向电子设备的操作命令。
设备控制部17将与声音识别部16识别出的声音对应的命令提供给成为操作对象的电子设备(未图示)。
显示部18对说话者通知声音识别部16处于正在接收声音的状态。
声音识别装置10例如内置于成为操作对象的电子设备、或者连接到电子设备的外部。在本实施方式中,将成为操作对象的电子设备设为电视接收机20,但不限于此。例如,也可以应用于个人计算机、录像机、空调、车载设备等在使用中通过接收来自说话者的操作而发挥性能的电子设备。
判定部13、音源方向推测部14、指向性控制部15、声音识别部16以及设备控制部17能够通过中央运算处理装置(CPU)执行计算机可读取的存储器中储存的程序来实现。
存储部12既可以设置于声音识别装置10的内部,也可以设置于声音识别装置10的外部。
以下,详述本实施方式的声音识别装置10。
图2是示出声音识别装置10中的麦克风阵列11的配置例的示意图。
在本实施方式中,麦克风阵列11包括2个麦克风21、22,但也可以包括3个以上。
例如,在电视接收机20的框体29的上部,与框体29的上边平行地设置有麦克风阵列11。
麦克风21、22能够将所输入的音变换为电信号。
麦克风21、22能够将指向方向设定到说话者通常视听电视接收机20的位置。
图4是示出输入到麦克风21、22的噪音、人的声音、拍响手的音的频率分布的一个例子的示意图。
图4中的横轴表示频率(0Hz至8000Hz),纵轴表示音的强度。在图4中,噪音的强度在0Hz至8000Hz的频率中呈现大致一样的分布。人的声音的强度在0Hz至1000Hz的频率中呈现比噪音大的值,但在2000Hz以上的频率中呈现与噪音同样的分布。
拍响手的音的强度相比于噪音和人的声音,在1000Hz至8000Hz的频率中呈现大的值。
图5是示出拍响手掌的音的频率为4000Hz的分量的时间变化的一个例子的图。横轴以秒数单位表示时间,纵轴表示音的强度。
在本实施方式中,声音识别装置10将这样的说话者拍响手掌的音检测为信号音,设定麦克风阵列11的指向方向。
图3是示出声音识别装置10的处理流程的一个例子的流程图。
处理流程从麦克风阵列11的指向方向的设定被解除的状态开始。
声音识别装置10使用麦克风21、22,接收来自说话者的音、声音(S101)。
将由麦克风21、22变换为电信号的音作为针对每个频率整理后的音数据,分别在存储部12中保存固定时间(S102)。
保存音数据的时间既可以预先设定,也可以说话者任意地设定。
在存储部12中,保存图5中的时间0(s)至T(s)的音。在图5中,在时间0(s)至T(s)的期间存在强度超过规定的阈值的峰值。
判定部13判定是否设定了麦克风阵列11的指向方向(S103)。
在步骤S103中的判定部13的判定是“否”的情况下,判定部13从存储部12中保存的音数据中检索规定的频率的音数据,判定音数据的强度是否为规定的阈值(以下,规定强度阈值)以上。由此,判定是否探测到信号音(S104)。
规定强度阈值既可以根据信号音预先设定,也可以说话者任意地设定。
例如,如图5所示,判定部13能够判定在0(s)至T(s)这样的固定时间的期间内频率4000Hz的音数据是否有一次成为规定强度阈值以上。
由图4可知,例如,通过将规定强度阈值设为比噪音、人的声音的强度大、且比拍响手的音的强度小的值,判定部13能够区分信号音、例如噪音和拍响手的音、或者人的声音和拍响手掌的音。
判定部13用于判定是否为信号音的频率既可以是1个,也可以是多个。
例如,判定部13既可以使用4000Hz的频率来判定,也可以使用3000Hz和5000Hz等多个频率来判定。在使用多个频率的情况下,对判定中使用的全部频率的强度是否为规定强度阈值以上进行判定。
在步骤S104中的判定部13的判定是“否”的情况下,判定部13对存储部12输出新的音数据的保存开始信号。
返回步骤S101,存储部12重新临时保存音数据。
在步骤S104中的判定部13的判定为“是”的情况下,音源方向推测部14根据存储部12中保存的音数据,推测超过了规定强度阈值的音的音源方向(S105)。
在音源方向的推测中,能够使用计算输入到麦克风阵列11(麦克风21、22)的音的到来时间差的方法、波束成形法等公知的手法。
指向性控制部15对麦克风阵列11输出控制信号,将麦克风阵列11的指向方向为设定音源方向推测部14推测出的音源方向(信号音的方向)(S106)。
通过设定指向方向,麦克风阵列11对来自所设定的方向的音进行强调并接收。
在麦克风阵列11的指向性的设定中,能够使用以延迟和阵列为代表的固定型、以Griffith-Jim型阵列为代表的自适应型等方法。
在麦克风阵列11的指向方向的设定完成之后,指向性控制部15对显示部18输出通知开始信号。
显示部18接收来自指向性控制部15的通知开始信号,对说话者通知声音识别部16是接收声音的状态的情况。例如,也可以将显示部18设为LED,并通过LED的点亮来对说话者进行通知。或者,也可以显示于显示器来对说话者进行通知。
在将麦克风阵列11的指向方向设定为信号音的方向的设定完成之后,指向性控制部15对存储部12输出新的音数据的保存开始信号。
返回步骤S101,存储部12接收来自指向性控制部15的保存开始信号,再次开始保存输入到麦克风阵列11的音。
在S103中的判定部13的判定为“是”的情况下,判定部13与步骤S104同样地,进一步判定是否探测到信号音(S107)。
在S107中的判定部13的判定为“是”的情况下,转移到步骤S105。
在S107中的判定部13的判定是“否”的情况下,声音识别部16使用存储部12中保存的音数据,进行声音识别(S108)。
声音识别部16提取存储部12中保存的与音数据一致的声音模型,决定与声音模型对应的操作命令(S109)。
图6是存储部12储存的操作命令的数据库的一个例子的图。图7是存储部12储存的操作命令的数据库的另一例子的图。数据库包括输入声音的声音模型、和与其对应的操作命令。声音模型不仅是日语,而且也可以是英语等日语以外的语言。
例如,在输入了“えぬえいちけ一”这样的声音的情况下,声音识别部16从存储部12检索与“えぬえいちけ一”这样的声音一致的声音模型,决定与声音模型对应的“使频道成为1”这样的向电子设备本体的操作命令(图6)。例如,在输入了“weather report”这样的声音的情况下,声音识别部16从存储部12检索与“weather report”这样的声音一致的声音模型,决定提示与声音模型对应的“显示今天的天气预报”这样的信息的操作命令(图7)。
图6、图7所示的声音模型并非发音符号,而是用单词来表示的。
在存储部12储存的操作命令的数据库中,也可以使多个声音模型与一个操作命令对应。例如,也可以如图6所示,使“いつちやん(channel one)”和“えぬえいちけ一(nhk)”与“使频道成为1”这样的操作命令对应。
在电子设备是电视接收机20的情况下,通过在电视接收机20中设置在声音识别部16接收声音的期间使来自电视接收机20的扬声器的输出声音成为OFF的功能、回波抵消功能,能够进一步提高声音识别部16的识别精度。
声音识别部16判定是否决定了操作命令(S110)。
在S110中的声音识别部16的判定为“是”的情况下,声音识别部16将操作信号输出到设备控制部17。
设备控制部17接收来自声音识别部16的操作信号,将声音识别部16所决定的操作命令提供给电子设备,进行电子设备的控制(S111)。
指向性控制部15对麦克风阵列11输出控制信号,解除麦克风阵列11的指向方向的设定(S112)。
在S110中的声音识别部16的判定是“否”的情况下,声音识别部16对存储部12输出新的音数据的保存开始信号。
返回步骤S101,存储部12再次开始保存输入到麦克风阵列11的音。
通过以上的处理,能够提供能够高精度地进行声音识别的声音识别装置。
在本实施方式中,在音源方向的推测和声音的识别中,使用了相同的麦克风阵列11,但不限于此。例如,也可以在音源方向的推测中使用与麦克风阵列11独立的2个以上的麦克风,并在声音的识别中使用麦克风阵列11。
在本实施方式中,叙述了在判定部13判定了信号音之后设定麦克风阵列11的指向方向、并识别来自说话者的声音的声音识别装置,但本发明不限于此。
(变形例1)
例如,还有在说话者发出信号音之后,在固定时间内输入声音的例子。
图8是本发明的第1实施方式的声音识别装置的变形例1的框图。
指向性控制部15被置换为提取部150。提取部150从存储部12中强调并提取来自音源方向推测部14所推测出的音源方向的音数据。
这样的处理流程(未图示)如下所述。
将信号音的音数据和说话者为了操作电子设备而发出的声音(以下,操作声音)的音数据临时保存于存储部12。判定部13判定信号音。音源方向推测部14推测信号音的音源方向。提取部150从存储部12中保存的音数据中提取来自音源方向推测部14推测出的信号音的音源方向的音数据并进行强调。例如,提取部150也可以对存储部12中保存的麦克风21、22的音数据校正根据信号音的音源方向计算的时间量,并进行同相化,从而对来自信号音的音源方向的音数据进行强调。声音识别部16识别声音。声音识别部16决定操作命令。设备控制部17将操作命令提供给电子设备,并控制电子设备。
由此,即使没有设定麦克风阵列11的指向方向,也能够对声音识别部16提供实质上与设定了指向方向的情况大致等同的音数据,所以声音识别部16能够高精度地识别来自说话者的声音。因此,在该情况下,麦克风21、22优选为无指向性的麦克风。
(变形例2)
变形例1的声音识别装置10还能够设为以下的方式。
例如,还有首先接收来自说话者的操作声音,之后,在固定时间内接收来自说话者的信号音的例子。在该情况下,在存储部12中一起保存操作声音的音数据和信号音的音数据。判定部13判定信号音。音源方向推测部14推测信号音的音源方向。提取部150从存储部12中保存的音数据中检索在信号音的音数据之前存储的音数据,对来自音源方向推测部14推测出的音源方向的音数据进行强调并提取。声音识别部16识别声音。声音识别部16决定操作命令。设备控制部17将操作命令提供给电子设备,并控制电子设备。
由此,不仅是说话者在发出了信号音之后发出了操作声音的情况,而且即使在发出了操作声音之后发出了信号音的情况下,声音识别装置也能够识别声音,能够提高操作性。
(第2实施方式)
图9是本发明的第2实施方式的声音识别装置的框图。
如图9所示,本实施方式的声音识别装置100代替第1实施方式的声音识别装置10中的判定部13而具备判定部113的点与第1实施方式不同。对于判定部113的说明,后述。
声音识别装置100是将人类希望引起他人的关注时进行的、“将手掌拍响两次”这样的习惯的音用作信号音(以下,信号音1),从而推测说话者存在的方向、对来自该方向的声音进行强调并识别的声音识别装置。声音识别装置100例如把将手掌拍响三次的音用作信号音2,从而解除一次设定的麦克风阵列11的指向方向的设定,并重新开始接收音。
在声音识别装置100中,判定部113的判定内容与声音识别装置10不同。
图10是示出声音识别装置100的处理流程的一个例子的流程图。
在以下说明的处理流程中,省略了关于与声音装置10的处理流程同样的步骤的说明。
如图10所示,在声音识别装置100的处理流程中,在步骤S107与步骤S108之间有步骤S800的情况、以及步骤S104、步骤S107的处理内容与声音识别装置10的处理流程不同。
图11是示出将手掌拍响两次的音的时间变化的一个例子的图。
在图11中,在时间0(s)至T(s)的期间,存在2个强度超过规定的阈值的峰值。
判定部113从存储部12中保存的音数据中检索1000Hz以上的频率的音数据,判定音数据的强度在固定时间内是否有两次成为规定强度阈值以上(S104)。
例如,如图11所示,判定部113判定在0(s)至T(s)这样的固定时间的期间,频率4000Hz的音数据是否有两次成为规定强度阈值以上。
通过判定部113判定1000Hz以上的频率的音数据的强度是否在固定时间内有两次超过规定强度阈值,判定部113能够判定为有信号音1。
步骤S107中的处理也是同样的
根据以上的处理,通过将人类在希望引起他人的关注时进行的、“将手掌拍响两次”这样的习惯的音用作信号音,能够高精度地进行声音识别。能够更高精度地与关门的音等突发地产生的噪音区别。
在步骤S107中的判定部113的判定是“否”的情况下,判定部113从存储部12中保存的音数据中检索1000Hz以上的频率的音数据,判定音数据的强度是否有三次成为规定强度阈值以上(S800)。
通过判定部113判定1000Hz以上的频率的音数据的强度在固定时间内是否有三次超过规定强度阈值,判定部113能够判定为有信号音2。
在步骤S800中的判定部113的判定为“是”的情况下,转移到步骤S112,指向性控制部15对麦克风阵列11输出控制信号,解除麦克风阵列11的指向方向的设定。
判定部113对存储部12输出新的音数据的保存开始信号。
返回步骤S101,存储部12重新临时保存音数据。
在步骤S800中的判定部113的判定是“否”的情况下,转移到步骤S108。
在以上的处理中,通过说话者改变拍响手的次数,声音识别装置100能够设定麦克风阵列的指向方向、或解除设定。
对于设为信号音2的拍响手掌的音,只要是两次以外,则也可以并非三次。
Claims (3)
1.一种声音识别装置,其特征在于,具备:
判定部,判定在输入到包括多个麦克风的声音输入部的音中,是否包含强度为规定阈值以上且频率为1000Hz以上的信号音;
音源方向推测部,在所述判定部的判定是真的情况下,推测包含强度为规定阈值以上的频率的所述音的音源方向;以及
声音识别部,判定从所推测出的所述音源方向到来的音是否与预先登记的声音模型一致,
输入到包括所述多个麦克风的声音输入部的音含有由于说话者的动作而产生的信号音。
2.一种声音识别装置,其特征在于,具备:
判定部,判定在输入到包括多个麦克风的声音输入部的音中,是否包含强度为规定阈值以上且频率为1000Hz以上的信号音;
音源方向推测部,在所述判定部的判定是真的情况下,推测包含强度为规定阈值以上的频率的所述音的音源方向;
指向性控制部,将所述麦克风的指向方向设定为所推测出的所述音源方向;以及
声音识别部,识别从所设定的所述指向方向到来的声音,
输入到包括所述多个麦克风的声音输入部的音含有由于说话者的动作而产生的信号音。
3.根据权利要求1或2所述的声音识别装置,其特征在于,
所述判定部还判定在规定的时间内是否两次检测到包含强度为规定阈值以上的频率的所述音。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/005905 WO2011055410A1 (ja) | 2009-11-06 | 2009-11-06 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102483918A CN102483918A (zh) | 2012-05-30 |
CN102483918B true CN102483918B (zh) | 2014-08-20 |
Family
ID=43969656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980161199.3A Expired - Fee Related CN102483918B (zh) | 2009-11-06 | 2009-11-06 | 声音识别装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8762145B2 (zh) |
JP (1) | JP5622744B2 (zh) |
CN (1) | CN102483918B (zh) |
WO (1) | WO2011055410A1 (zh) |
Families Citing this family (182)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP5695447B2 (ja) | 2011-03-01 | 2015-04-08 | 株式会社東芝 | テレビジョン装置及び遠隔操作装置 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9301073B2 (en) * | 2012-06-08 | 2016-03-29 | Apple Inc. | Systems and methods for determining the condition of multiple microphones |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
JP5367134B1 (ja) * | 2012-07-19 | 2013-12-11 | 日東紡音響エンジニアリング株式会社 | 騒音識別装置及び騒音識別方法 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN102945672B (zh) * | 2012-09-29 | 2013-10-16 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP2016521382A (ja) * | 2013-05-13 | 2016-07-21 | トムソン ライセンシングThomson Licensing | マイクロフォンの音声を分離するための方法、装置、およびシステム |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
KR101475862B1 (ko) | 2013-09-24 | 2014-12-23 | (주)파워보이스 | 사운드 코드를 인코딩하는 인코딩 장치 및 방법, 사운드 코드를 디코딩하는 디코딩 장치 및 방법 |
JP5996603B2 (ja) * | 2013-10-31 | 2016-09-21 | シャープ株式会社 | サーバ、発話制御方法、発話装置、発話システムおよびプログラム |
WO2015072816A1 (ko) * | 2013-11-18 | 2015-05-21 | 삼성전자 주식회사 | 디스플레이 장치 및 제어 방법 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN104214890A (zh) * | 2014-01-20 | 2014-12-17 | 美的集团股份有限公司 | 通过语音控制空调器送风的方法及空调器 |
CN103994541B (zh) * | 2014-04-21 | 2017-01-04 | 美的集团股份有限公司 | 基于语音控制的风向切换方法和系统 |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN104267618B (zh) * | 2014-07-31 | 2017-06-13 | 广东美的制冷设备有限公司 | 基于红外定位的语音控制方法和系统 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
CN105864952B (zh) * | 2015-01-19 | 2019-06-21 | Tcl空调器(中山)有限公司 | 空调器及空调器的控制方法 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN105242556A (zh) * | 2015-10-28 | 2016-01-13 | 小米科技有限责任公司 | 智能设备的语音控制方法、装置、控制设备及智能设备 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105788599B (zh) * | 2016-04-14 | 2019-08-06 | 北京小米移动软件有限公司 | 语音处理方法、路由器及智能语音控制系统 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
CN106328128A (zh) * | 2016-08-16 | 2017-01-11 | 成都市和平科技有限责任公司 | 一种基于语音识别技术的教学系统及方法 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN108419168A (zh) * | 2018-01-19 | 2018-08-17 | 广东小天才科技有限公司 | 拾音设备的指向性拾音方法、装置、拾音设备及存储介质 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10560737B2 (en) | 2018-03-12 | 2020-02-11 | Amazon Technologies, Inc. | Voice-controlled multimedia device |
US10847176B2 (en) * | 2018-03-12 | 2020-11-24 | Amazon Technologies, Inc. | Detection of TV state using sub-audible signal |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
KR20200043075A (ko) * | 2018-10-17 | 2020-04-27 | 삼성전자주식회사 | 전자 장치 및 그 제어방법, 전자 장치의 음향 출력 제어 시스템 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109640112B (zh) * | 2019-01-15 | 2021-11-23 | 广州虎牙信息科技有限公司 | 视频处理方法、装置、设备及存储介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111609515A (zh) * | 2020-05-26 | 2020-09-01 | 珠海格力电器股份有限公司 | 一种空调外机去除蜂巢的方法及空调外机 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112770224B (zh) * | 2020-12-30 | 2022-07-05 | 上海移远通信技术股份有限公司 | 车内音源采集系统及方法 |
JP7111206B2 (ja) * | 2021-02-17 | 2022-08-02 | 日本電信電話株式会社 | 話者方向強調装置、話者方向強調方法、およびプログラム |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3069036U (ja) * | 1999-10-28 | 2000-05-30 | 株式会社タイメクス | 手拍子検出装置 |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
US6449593B1 (en) * | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
GB2364121B (en) * | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
US6820056B1 (en) * | 2000-11-21 | 2004-11-16 | International Business Machines Corporation | Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system |
JP2002247569A (ja) * | 2001-02-20 | 2002-08-30 | Nippon Syst Design Kk | エンドレスフレームメモリを用いた姿見 |
JP3771812B2 (ja) * | 2001-05-28 | 2006-04-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ロボットおよびその制御方法 |
DE10133126A1 (de) * | 2001-07-07 | 2003-01-16 | Philips Corp Intellectual Pty | Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle |
JP3940662B2 (ja) * | 2001-11-22 | 2007-07-04 | 株式会社東芝 | 音響信号処理方法及び音響信号処理装置及び音声認識装置 |
JP4195267B2 (ja) * | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
US7418392B1 (en) * | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
KR100754384B1 (ko) * | 2003-10-13 | 2007-08-31 | 삼성전자주식회사 | 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템 |
US20090018828A1 (en) * | 2003-11-12 | 2009-01-15 | Honda Motor Co., Ltd. | Automatic Speech Recognition System |
US8271200B2 (en) * | 2003-12-31 | 2012-09-18 | Sieracki Jeffrey M | System and method for acoustic signature extraction, detection, discrimination, and localization |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
WO2006059806A1 (ja) * | 2004-12-03 | 2006-06-08 | Honda Motor Co., Ltd. | 音声認識装置 |
JP4729927B2 (ja) * | 2005-01-11 | 2011-07-20 | ソニー株式会社 | 音声検出装置、自動撮像装置、および音声検出方法 |
JP4247195B2 (ja) | 2005-03-23 | 2009-04-02 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
JP2007121579A (ja) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | 操作装置 |
JP2007221300A (ja) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ロボット及びロボットの制御方法 |
US8103504B2 (en) * | 2006-08-28 | 2012-01-24 | Victor Company Of Japan, Limited | Electronic appliance and voice signal processing method for use in the same |
CN100527185C (zh) * | 2006-08-28 | 2009-08-12 | 日本胜利株式会社 | 电子设备及其使用的声音信号处理方法 |
JP4234746B2 (ja) | 2006-09-25 | 2009-03-04 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
JP2010072507A (ja) | 2008-09-22 | 2010-04-02 | Toshiba Corp | 音声認識検索装置及び音声認識検索方法 |
JP5646146B2 (ja) | 2009-03-18 | 2014-12-24 | 株式会社東芝 | 音声入力装置、音声認識システム及び音声認識方法 |
JP5771002B2 (ja) | 2010-12-22 | 2015-08-26 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 |
-
2009
- 2009-11-06 CN CN200980161199.3A patent/CN102483918B/zh not_active Expired - Fee Related
- 2009-11-06 WO PCT/JP2009/005905 patent/WO2011055410A1/ja active Application Filing
- 2009-11-06 JP JP2011539182A patent/JP5622744B2/ja not_active Expired - Fee Related
-
2012
- 2012-03-26 US US13/430,264 patent/US8762145B2/en not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
JP特开2007-121579A 2007.05.17 |
JP特开2007-221300A 2007.08.30 |
Also Published As
Publication number | Publication date |
---|---|
US8762145B2 (en) | 2014-06-24 |
CN102483918A (zh) | 2012-05-30 |
US20120245932A1 (en) | 2012-09-27 |
JP5622744B2 (ja) | 2014-11-12 |
WO2011055410A1 (ja) | 2011-05-12 |
JPWO2011055410A1 (ja) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102483918B (zh) | 声音识别装置 | |
US11042616B2 (en) | Detection of replay attack | |
US10964339B2 (en) | Low-complexity voice activity detection | |
US10373609B2 (en) | Voice recognition method and apparatus | |
US10720166B2 (en) | Voice biometrics systems and methods | |
US11037574B2 (en) | Speaker recognition and speaker change detection | |
US9583102B2 (en) | Method of controlling interactive system, method of controlling server, server, and interactive device | |
US11056118B2 (en) | Speaker identification | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
CN109920419B (zh) | 语音控制方法和装置、电子设备及计算机可读介质 | |
US20150120304A1 (en) | Speaking control method, server, speaking device, speaking system, and storage medium | |
CN108711429B (zh) | 电子设备及设备控制方法 | |
JPWO2019171732A1 (ja) | 情報処理装置、情報処理方法、プログラム及び情報処理システム | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
CN105049802B (zh) | 一种语音识别执法记录仪及其识别方法 | |
CN112185425B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
KR20210148057A (ko) | 음성 인식 방법 및 이에 사용되는 장치 | |
US11081115B2 (en) | Speaker recognition | |
CN113921026A (zh) | 语音增强方法和装置 | |
US11341974B2 (en) | Authenticating received speech | |
US20060015338A1 (en) | Voice recognition method with automatic correction | |
US10818298B2 (en) | Audio processing | |
KR20190064384A (ko) | 서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법 | |
CN113270099A (zh) | 智能语音提取方法、装置、电子设备及存储介质 | |
CN115579012A (zh) | 语音识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140820 Termination date: 20161106 |
|
CF01 | Termination of patent right due to non-payment of annual fee |