CN105308679A - 用于识别与语音命令相关联的位置以控制家用电器的方法和系统 - Google Patents
用于识别与语音命令相关联的位置以控制家用电器的方法和系统 Download PDFInfo
- Publication number
- CN105308679A CN105308679A CN201380076839.7A CN201380076839A CN105308679A CN 105308679 A CN105308679 A CN 105308679A CN 201380076839 A CN201380076839 A CN 201380076839A CN 105308679 A CN105308679 A CN 105308679A
- Authority
- CN
- China
- Prior art keywords
- voice command
- feature
- room
- voice
- recorded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的方法。所述方法包括以下步骤:接收由用户进行的语音命令;记录所接收的语音命令;采样所记录的语音命令,以及从所记录的语音命令中提取特征;通过将语音命令的提取的特征与特征参考进行比较来确定房间标签,其中房间标签与特征参考相关联;将房间标签指定给语音命令;以及根据所述语音命令来控制位于指定房间中的家用电器。
Description
技术领域
本发明涉及一种用于在家庭环境中识别与语音命令相关联的位置以控制家用电器的方法和系统。更具体地,本发明涉及一种用于使用机器学习方法来识别用户在何处发出语音命令并且然后对与用户在同一房间中的家用电器执行语音命令的动作的方法和系统。
背景技术
如今通过移动电话上的语音命令进行的个人助理应用越来越受欢迎。这种类型的应用使用自然语言处理来回答问题、提出建议、以及通过将请求委托给目的地电视机或STB(机顶盒)来对诸如电视机之类的家用电器执行动作。
然而,在具有一个以上电视机的典型家庭环境中,如果应用仅识别出用户向移动电话说出“打开电视”,那么在没有与说出语音命令的地点相关的适当位置信息的情况下决定应当打开哪个电视机是很含糊的。因此,基于用户命令的背景来确定将要控制哪个电视机的附加方法是必要的。
在本申请中提出的解决方案解决了在家庭环境中存在多个电视机时当前技术的通过语音命令进行的个人助理应用无法正确地识别需要控制哪个电视机的难题。
通过提出利用所记录的“打开电视”语音命令提取特征并且通过用分类方法分析该特征来识别说出“打开电视”的语音命令的地点的方法,所提出的方法能够找到与语音命令相关联的位置并且然后打开同一房间中的电视。
家用电器包括多个电视机、空调设备、照明设备等。
作为相关技术,US20100332668A1公开了一种用于检测电子装置之间的接近度的方法和系统。
发明内容
根据本发明的一方面,提供了一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的方法,该方法包括以下步骤:接收由用户进行的语音命令;记录所接收的语音命令;采样所记录的语音命令,以及从所记录的语音命令中提取特征;通过将语音命令的提取的特征与特征参考进行比较来确定房间标签,其中房间标签与特征参考相关联;将房间标签指定给语音命令;以及根据所述语音命令来控制位于指定房间中的家用电器。
根据本发明的另一方面,提供了一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的系统,该系统包括:接收器,用于接收由用户进行的语音命令;记录器,用于记录所接收的语音命令;以及控制器,其被配置为:采样所记录的语音命令,以及从所记录的语音命令中提取特征;通过将语音命令的提取的特征与特征参考进行比较来确定房间标签,其中房间标签与特征参考相关联;将房间标签指定给语音命令;以及根据语音命令来控制位于指定房间中的家用电器。
附图说明
根据结合附图的以下描述,本发明的这些和其它方面、特征和优点将变得显而易见,附图中:
图1示出了根据本发明的实施例的在家庭环境中的不同房间中存在一个以上电视机的示例性情况;
图2示出了说明根据本发明的实施例的分类方法的示例性流程图;以及
图3示出了说明根据本发明的实施例的系统的示例性框图。
具体实施方式
在以下描述中,将描述本发明的实施例的各个方面。为了解释的目的,阐述了具体配置和细节,以便提供彻底的理解。然而,对于本领域技术人员而言还将显而易见的是,可以在没有在此呈现的具体细节的情况下实现本发明。
图1示出了在家庭环境101中的不同房间103、105、107、109中存在一个以上电视机111、113、115、117的情况。在家庭环境101下,如果用户119向移动电话121仅指示“打开电视”,则移动电话上基于语音命令系统的个人助理应用不可能确定需要控制哪个电视机。
为了解决该问题,本发明在用户指示“打开电视”的语音命令时考虑周边声学(surroundingacoustic),并且将语音命令与诸如语音特征和命令时间之类的其周边之间的现有相关性应用到语音命令理解中,以便用机器学习方法识别指示语音命令的地点并且然后打开同一房间中的电视。
在本发明中,个人助理应用包括语音分类系统,该语音分类系统结合了三个处理阶段:1.语音记录,2.特征提取和3.分类。已经使用了包括诸如过零率(zero-crossingrate)、信号带宽、频谱质心和信号能量之类的低级别参数的各种信号特征。从自动语音识别器继承的另一组所使用的特征是规定的梅尔倒频谱系数(MFCC:mel-frequencycepstralcoefficients)。这意味着语音分类模块将结合具有节奏和音高内容的表示的标准特征。
1.语音记录
每次用户指示“打开电视”的语音命令时,个人助理应用记录该语音命令,并且然后向特征分析模块提供所记录的音频以便进一步处理。
2.特征分析
为了得到高精度的位置分类,根据本发明的系统以8KHz采样率来采样所记录的音频,并且然后例如按一秒钟窗将它划分成段。然后,在该系统的算法中将该一秒钟音频段看作基本分类单元,并且将该一秒钟音频段进一步分割成四十个25ms不重叠的帧。基于一秒钟音频段中的这四十个帧来提取每个特征。然后,系统选择能够识别由不同房间中的不同环境对所记录的音频所产生的效果的好特征。
将要提取和分析的若干基本特征包括:音频平均值,其衡量音频段矢量的平均值;音频传播,其衡量所记录的音频段频谱的传播;过零率比例,其对音频段波形的符号改变的次数进行计数;短时能量比例,其通过使用均方根的计算来描述音频段的短时能量。此外,提出为所记录的语音命令也选择两个更高级的特征:MFCC和混响效果系数。
MFCC(梅尔倒频谱系数)用极少的系数来表示频谱的形状。倒频谱被定义为频谱的对数的傅立叶变换。梅尔倒频谱是在梅尔频带上计算的频谱,而不是傅立叶频谱。可以根据以下步骤来计算MFCC:
1.对音频信号进行傅里叶变换;
2.将上面所获得的频谱的功率映射到梅尔刻度(scale)上;
3.在每个梅尔频率处求功率的对数;
4.对一列梅尔对数功率进行离散余弦变换;
5.将所得到的频谱的幅度作为MFCC。
同时,不同房间对所记录的语音命令产生不同的混响效果。取决于在具有不同大小和环境设置的不同房间中每个新音节有多远才被浸没(submerge)到混响噪声中,所记录的音频具有变化的听觉感知。提出根据以下步骤从音频记录中提取混响特征:
1.执行短时傅立叶变换以将音频信号变换成2D时频表示,在该2D时频表示中混响特征在时间维度上显现为频谱特征的模糊;
2.通过将表示2D时频性质的图像变换到可以执行有效边缘检测和表征的小波域来定量地估计混响的量;
3.以这种方式提取所得到的混响时间的定量估计与物理测量强相关,并且被看作混响效果系数。
此外,还可以考虑与所记录的语音命令相关联的其它非语音特征。当存在用户趋向于在不同日子的同一时间在特定房间中观看电视的模式时,所述其它非语音特征例如包括记录语音命令时的时间。
3.分类
得到在上述步骤中提取的特征之后,提出使用多类分类器来识别在哪个房间中记录了音频剪辑。这意味着,当用户向移动电话说出“打开电视”的语音命令时,移动电话上的个人助理软件可以通过分析与所记录的音频相关的特征来成功地识别出在哪个房间(例如,房间1、房间2或房间3)给出语音命令,并且然后打开相关联的房间中的电视。
提出使用k最近邻方案作为本发明中的学习算法。形式上,在给定一组输入特征X的情况下,系统需要预测输出变量Y。在我们的设定中,如果记录的语音命令与房间1相关联,则Y是1,如果记录的语音命令与房间2相关联,则Y是2,等等,而X是从记录的语音命令中提取的特征值的矢量。
用于参考的训练样本是多维特征空间中的语音特征矢量,每个用于参考的训练样本具有房间1、房间2和房间3的类标签。处理的训练阶段仅由存储特征矢量以及用于参考的训练样本的类标签组成。将训练样本用作参考以便对输入的语音命令进行分类。训练阶段可以被设定为预定时段。或者,可以在训练阶段之后累积参考。在参考表中,特征与房间标签相关。
在分类阶段,通过将在k最近邻训练参考之中最频繁的房间标签指定给所记录的语音命令的特征来对记录的语音命令进行分类。因此,可以从分类结果中得到在其中记录音频流的房间。然后,可以通过移动电话上的嵌入式红外通信器件来打开对应房间中的电视。
此外,还可以在本发明所公开的思想中采用包括决策树和概率图形模型的其它分类策略。
在图2中示出了说明整个语音命令记录、特征提取和分类过程的图。
图2示出了说明根据本发明的实施例的分类方法的示例性流程图201。
首先,用户在诸如移动电话的移动装置上指示诸如“打开电视”的语音命令。
在步骤205,系统记录该语音命令。
在步骤207,系统对所记录的语音命令进行采样和特征提取。
在步骤209,系统基于语音特征矢量以及诸如记录时间之类的其它特征来根据L最近邻类算法将房间标签指定给该语音命令。包含特征和相关房间标签的参考表被用于此例程。
在步骤211,系统控制与该语音命令的房间标签对应的房间中的电视。
图3示出了根据本发明的实施例的系统301的示例性框图。系统301可以是移动电话、计算机系统、平板、便携式游戏机、智能电话等。系统301包括CPU(中央处理单元)303、麦克风309、存储装置305、显示器311和红外通信器件313。如图3所示,可以将诸如RAM(随机存取存储器)之类的存储器307连接到CPU303。
存储装置305被配置为存储软件程序和数据,以便CPU303来驱动和操作如上面所解释的过程。
麦克风309被配置为检测用户的命令语音。
显示器311被配置为向系统301的用户可视地呈现文本、图像、视频和其它任何内容。
红外通信器件313被配置为基于语音命令的房间标签将命令发送到任何家用电器。可以用其它通信器件来代替红外通信器件。可替换地,通信器件可以将命令发送到控制所有家用电器的中央系统。
系统可以指示任何家用电器,诸如电视机、空调设备、照明设备,等等。
基于本文的教导,相关领域的普通技术人员可以很容易地确定本原理的这些和其它特征和优点。应当理解的是,可以以各种形式的硬件、软件、固件、专用处理器或其组合来实现本原理的教导。
最优选地,可以将本原理的教导实现为硬件和软件的组合。而且,可以将软件实现为在程序存储单元上有形地体现的应用程序。可以将应用程序上载到包括任何适当架构的机器,并且由所述机器执行应用程序。优选地,在具有诸如一个或多个中央处理单元(“CPU”)、随机存取存储器(“RAM”)和输入/输出(“I/O”)接口之类的硬件的计算机平台上实现所述机器。计算机平台还可以包括操作系统和微指令代码。在此所描述的各种过程和功能可以是可以由CPU执行的微指令代码的一部分或应用程序的一部分或其任何组合。此外,可以将诸如附加数据存储单元之类的各种其它外围单元连接到计算机平台。
应当进一步理解的是,由于优选地以软件实现附图中所描述的一些组成系统组件和方法,因此取决于编程本原理的方式,系统组件或过程功能块之间的实际连接可能会不同。在此给出了教导,相关领域的普通技术人员将能够设想本原理的这些和类似的实现或配置。
虽然在此已经参考附图描述了说明性实施例,但应当理解的是,本原理不限制于这些精确的实施例,并且可以由相关领域的普通技术人员在不脱离本原理的范围和精神的情况下在其中进行各种改变和修改。意图将所有这些改变和修改包括在如在所附权利要求中所阐述的本原理的范围内。
Claims (8)
1.一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的方法,所述方法包括以下步骤:
接收由用户进行的语音命令;
记录所接收的语音命令;
采样所记录的语音命令,以及从所记录的语音命令中提取特征;
通过将语音命令的提取的特征与特征参考进行比较来确定房间标签,其中所述房间标签与所述特征参考相关联;
将所述房间标签指定给所述语音命令;以及
根据所述语音命令来控制位于指定房间中的家用电器。
2.如权利要求1所述的方法,基于K最近邻算法来执行确定房间标签的步骤。
3.如权利要求1或2所述的方法,其中,所述特征包括语音特征和非语音特征。
4.如权利要求3所述的方法,其中,语音特征是MFCC(梅尔倒频谱系数)和混响效果系数,并且非语音特征是记录所述语音命令时的时间。
5.一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的系统,所述系统包括:
接收器,用于接收由用户进行的语音命令;
记录器,用于记录所接收的语音命令;以及
控制器,其被配置为:
采样所记录的语音命令,以及从所记录的语音命令中提取特征;
通过将语音命令的提取的特征与特征参考进行比较来确定房间标签,其中所述房间标签与所述特征参考相关联;
将所述房间标签指定给所述语音命令;以及
根据所述语音命令来控制位于指定房间中的家用电器。
6.如权利要求5所述的系统,其中,所述控制器基于K最近邻算法来确定所述房间标签。
7.如权利要求5或6所述的系统,其中,所述特征包括语音特征和非语音特征。
8.如权利要求7所述的系统,其中,语音特征是MFCC(梅尔倒频谱系数)和混响效果系数,并且非语音特征是记录所述语音命令时的时间。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2013/076345 WO2014190496A1 (en) | 2013-05-28 | 2013-05-28 | Method and system for identifying location associated with voice command to control home appliance |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105308679A true CN105308679A (zh) | 2016-02-03 |
Family
ID=51987857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380076839.7A Pending CN105308679A (zh) | 2013-05-28 | 2013-05-28 | 用于识别与语音命令相关联的位置以控制家用电器的方法和系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20160125880A1 (zh) |
EP (1) | EP3005346A4 (zh) |
JP (1) | JP2016524724A (zh) |
KR (1) | KR20160014625A (zh) |
CN (1) | CN105308679A (zh) |
WO (1) | WO2014190496A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106571141A (zh) * | 2015-10-12 | 2017-04-19 | 三星电子株式会社 | 处理基于语音代理的控制命令的设备和方法及代理器装置 |
CN107528753A (zh) * | 2017-08-16 | 2017-12-29 | 捷开通讯(深圳)有限公司 | 智能家居语音控制方法、智能设备及具有存储功能的装置 |
CN108023934A (zh) * | 2016-11-01 | 2018-05-11 | 三星电子株式会社 | 电子装置及其控制方法 |
CN109754795A (zh) * | 2017-11-08 | 2019-05-14 | 哈曼国际工业有限公司 | 接近感知语音代理 |
CN110097885A (zh) * | 2018-01-31 | 2019-08-06 | 深圳市锐吉电子科技有限公司 | 一种语音控制方法及系统 |
CN110925944A (zh) * | 2019-11-27 | 2020-03-27 | 珠海格力电器股份有限公司 | 空调系统的控制方法、控制装置和空调系统 |
CN113874795A (zh) * | 2019-05-31 | 2021-12-31 | 苹果公司 | 互联家庭环境中的多用户设备 |
CN114208117A (zh) * | 2019-07-29 | 2022-03-18 | 西门子工业公司 | 用于控制房间的条件的楼宇自动化系统 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105137937B (zh) * | 2015-08-28 | 2018-08-21 | 青岛海尔科技有限公司 | 一种智能物联家电的控制方法、装置及智能物联家电 |
US20190057703A1 (en) * | 2016-02-29 | 2019-02-21 | Faraday&Future Inc. | Voice assistance system for devices of an ecosystem |
US9996164B2 (en) | 2016-09-22 | 2018-06-12 | Qualcomm Incorporated | Systems and methods for recording custom gesture commands |
US11276395B1 (en) * | 2017-03-10 | 2022-03-15 | Amazon Technologies, Inc. | Voice-based parameter assignment for voice-capturing devices |
US11594229B2 (en) | 2017-03-31 | 2023-02-28 | Sony Corporation | Apparatus and method to identify a user based on sound data and location information |
KR102421255B1 (ko) * | 2017-10-17 | 2022-07-18 | 삼성전자주식회사 | 음성 신호를 제어하기 위한 전자 장치 및 방법 |
JPWO2019082630A1 (ja) * | 2017-10-23 | 2020-12-03 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
CN110727200A (zh) * | 2018-07-17 | 2020-01-24 | 珠海格力电器股份有限公司 | 一种智能家居设备的控制方法及终端设备 |
CN109145124B (zh) * | 2018-08-16 | 2022-02-25 | 格力电器(武汉)有限公司 | 信息的存储方法、装置、存储介质及电子装置 |
US11133004B1 (en) * | 2019-03-27 | 2021-09-28 | Amazon Technologies, Inc. | Accessory for an audio output device |
CN110782875B (zh) * | 2019-10-16 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音韵律处理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060203105A1 (en) * | 2003-09-17 | 2006-09-14 | Venugopal Srinivasan | Methods and apparatus to operate an audience metering device with voice commands |
US20070288242A1 (en) * | 2006-06-12 | 2007-12-13 | Lockheed Martin Corporation | Speech recognition and control system, program product, and related methods |
WO2008091433A1 (en) * | 2007-01-26 | 2008-07-31 | Sony Ericsson Mobile Communications Ab | User interface for an electronic device used as a home controller |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
CN101681494A (zh) * | 2007-06-15 | 2010-03-24 | 奥林巴斯株式会社 | 便携式电子设备、程序及信息存储介质 |
US20100332235A1 (en) * | 2009-06-29 | 2010-12-30 | Abraham Ben David | Intelligent home automation |
CN102641198A (zh) * | 2012-04-27 | 2012-08-22 | 浙江大学 | 基于无线网络和声音定位的盲人环境感知方法 |
CN202632077U (zh) * | 2012-05-24 | 2012-12-26 | 李强 | 一种智能家居总控主机 |
CN102970323A (zh) * | 2011-09-19 | 2013-03-13 | 微软公司 | 通过无线局域网对移动通信设备的远程访问 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6400310B1 (en) * | 1998-10-22 | 2002-06-04 | Washington University | Method and apparatus for a tunable high-resolution spectral estimator |
JP2003204282A (ja) * | 2002-01-07 | 2003-07-18 | Toshiba Corp | 無線通信機能付きヘッドセット、これを用いたコミュニケーション記録システム、およびコミュニケーション制御方式を選択可能なヘッドセットシステム |
US7016884B2 (en) * | 2002-06-27 | 2006-03-21 | Microsoft Corporation | Probability estimate for K-nearest neighbor |
JP3836815B2 (ja) * | 2003-05-21 | 2006-10-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
US7505902B2 (en) * | 2004-07-28 | 2009-03-17 | University Of Maryland | Discrimination of components of audio signals based on multiscale spectro-temporal modulations |
US8108204B2 (en) * | 2006-06-16 | 2012-01-31 | Evgeniy Gabrilovich | Text categorization using external knowledge |
US8502876B2 (en) * | 2006-09-12 | 2013-08-06 | Storz Endoskop Producktions GmbH | Audio, visual and device data capturing system with real-time speech recognition command and control system |
DE602007004185D1 (de) * | 2007-02-02 | 2010-02-25 | Harman Becker Automotive Sys | System und Verfahren zur Sprachsteuerung |
US8380499B2 (en) * | 2008-03-31 | 2013-02-19 | General Motors Llc | Speech recognition adjustment based on manual interaction |
US9253560B2 (en) * | 2008-09-16 | 2016-02-02 | Personics Holdings, Llc | Sound library and method |
CN101753871A (zh) * | 2008-11-28 | 2010-06-23 | 康佳集团股份有限公司 | 一种语音遥控电视机系统 |
CN101794126A (zh) * | 2009-12-15 | 2010-08-04 | 广东工业大学 | 一种无线智能家电语音控制系统 |
CN101867742A (zh) * | 2010-05-21 | 2010-10-20 | 中山大学 | 一种基于声控控制下的电视系统 |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US8825020B2 (en) * | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
US9368104B2 (en) * | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
CN103456301B (zh) * | 2012-05-28 | 2019-02-12 | 中兴通讯股份有限公司 | 一种基于环境声音的场景识别方法及装置及移动终端 |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
-
2013
- 2013-05-28 JP JP2016515589A patent/JP2016524724A/ja not_active Withdrawn
- 2013-05-28 CN CN201380076839.7A patent/CN105308679A/zh active Pending
- 2013-05-28 US US14/894,518 patent/US20160125880A1/en not_active Abandoned
- 2013-05-28 KR KR1020157034002A patent/KR20160014625A/ko not_active Application Discontinuation
- 2013-05-28 WO PCT/CN2013/076345 patent/WO2014190496A1/en active Application Filing
- 2013-05-28 EP EP13885491.4A patent/EP3005346A4/en not_active Withdrawn
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060203105A1 (en) * | 2003-09-17 | 2006-09-14 | Venugopal Srinivasan | Methods and apparatus to operate an audience metering device with voice commands |
US20070288242A1 (en) * | 2006-06-12 | 2007-12-13 | Lockheed Martin Corporation | Speech recognition and control system, program product, and related methods |
WO2008091433A1 (en) * | 2007-01-26 | 2008-07-31 | Sony Ericsson Mobile Communications Ab | User interface for an electronic device used as a home controller |
CN101681494A (zh) * | 2007-06-15 | 2010-03-24 | 奥林巴斯株式会社 | 便携式电子设备、程序及信息存储介质 |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
US20100332235A1 (en) * | 2009-06-29 | 2010-12-30 | Abraham Ben David | Intelligent home automation |
CN102970323A (zh) * | 2011-09-19 | 2013-03-13 | 微软公司 | 通过无线局域网对移动通信设备的远程访问 |
CN102641198A (zh) * | 2012-04-27 | 2012-08-22 | 浙江大学 | 基于无线网络和声音定位的盲人环境感知方法 |
CN202632077U (zh) * | 2012-05-24 | 2012-12-26 | 李强 | 一种智能家居总控主机 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106571141A (zh) * | 2015-10-12 | 2017-04-19 | 三星电子株式会社 | 处理基于语音代理的控制命令的设备和方法及代理器装置 |
CN106571141B (zh) * | 2015-10-12 | 2021-12-28 | 三星电子株式会社 | 处理基于语音代理的控制命令的设备和方法及代理器装置 |
CN108023934A (zh) * | 2016-11-01 | 2018-05-11 | 三星电子株式会社 | 电子装置及其控制方法 |
CN107528753A (zh) * | 2017-08-16 | 2017-12-29 | 捷开通讯(深圳)有限公司 | 智能家居语音控制方法、智能设备及具有存储功能的装置 |
CN109754795A (zh) * | 2017-11-08 | 2019-05-14 | 哈曼国际工业有限公司 | 接近感知语音代理 |
CN110097885A (zh) * | 2018-01-31 | 2019-08-06 | 深圳市锐吉电子科技有限公司 | 一种语音控制方法及系统 |
CN113874795A (zh) * | 2019-05-31 | 2021-12-31 | 苹果公司 | 互联家庭环境中的多用户设备 |
CN114208117A (zh) * | 2019-07-29 | 2022-03-18 | 西门子工业公司 | 用于控制房间的条件的楼宇自动化系统 |
CN110925944A (zh) * | 2019-11-27 | 2020-03-27 | 珠海格力电器股份有限公司 | 空调系统的控制方法、控制装置和空调系统 |
CN110925944B (zh) * | 2019-11-27 | 2021-02-12 | 珠海格力电器股份有限公司 | 空调系统的控制方法、控制装置和空调系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3005346A4 (en) | 2017-02-01 |
EP3005346A1 (en) | 2016-04-13 |
KR20160014625A (ko) | 2016-02-11 |
JP2016524724A (ja) | 2016-08-18 |
WO2014190496A1 (en) | 2014-12-04 |
US20160125880A1 (en) | 2016-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105308679A (zh) | 用于识别与语音命令相关联的位置以控制家用电器的方法和系统 | |
US10957339B2 (en) | Speaker recognition method and apparatus, computer device and computer-readable medium | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US11862176B2 (en) | Reverberation compensation for far-field speaker recognition | |
JP2021086154A (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US10861480B2 (en) | Method and device for generating far-field speech data, computer device and computer readable storage medium | |
EP2700071B1 (en) | Speech recognition using multiple language models | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
WO2017084360A1 (zh) | 一种用于语音识别方法及系统 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US20190005962A1 (en) | Speaker identification | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
US20140161270A1 (en) | Room identification using acoustic features in a recording | |
WO2014114048A1 (zh) | 一种语音识别的方法、装置 | |
CN109616098B (zh) | 基于频域能量的语音端点检测方法和装置 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
US20200279568A1 (en) | Speaker verification | |
CN104505103B (zh) | 语音质量评价设备、方法和系统 | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别系统 | |
CN104103280A (zh) | 基于动态时间归整算法的离线语音端点检测的方法和装置 | |
Shuiping et al. | Design and implementation of an audio classification system based on SVM | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
GB2576960A (en) | Speaker recognition | |
CN110675858A (zh) | 基于情绪识别的终端控制方法和装置 | |
CN110085264A (zh) | 语音信号检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160203 |