CN102246228A - 声音识别系统 - Google Patents
声音识别系统 Download PDFInfo
- Publication number
- CN102246228A CN102246228A CN200980150365XA CN200980150365A CN102246228A CN 102246228 A CN102246228 A CN 102246228A CN 200980150365X A CN200980150365X A CN 200980150365XA CN 200980150365 A CN200980150365 A CN 200980150365A CN 102246228 A CN102246228 A CN 102246228A
- Authority
- CN
- China
- Prior art keywords
- sound
- markov model
- data
- frequency domain
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 25
- 238000009826 distribution Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 19
- 230000006835 compression Effects 0.000 claims description 16
- 238000007906 compression Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000008676 import Effects 0.000 claims description 6
- 238000003909 pattern recognition Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 241001269238 Data Species 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 abstract description 2
- 230000003936 working memory Effects 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 11
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000855 fermentation Methods 0.000 description 2
- 230000004151 fermentation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100188553 Arabidopsis thaliana OCT4 gene Proteins 0.000 description 1
- 241000581364 Clinitrachus argentatus Species 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 208000036364 Normal newborn Diseases 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B31/00—Predictive alarm systems characterised by extrapolation or other computation using updated historic data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Emergency Management (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Burglar Alarm Systems (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
我们描述了一种数字声音识别系统,该系统包括:用于存储马尔柯夫模型的非易失性存储器;储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;在所述非易失性存储器中存储所述第一马尔柯夫模型;输入限定干扰频域数据的干扰声音数据;使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值;输入限定第三声音频域数据的第三声音数据;确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及根据所述概率输出声音识别数据。
Description
发明领域
本发明涉及用于识别声音的系统、方法和计算机程序代码,并涉及这种技术的应用。
发明背景
已经具有了基本声音识别系统,但还存在对改善技术的需要。可在以下文献中找到背景现有技术:US2006/227237;WO99/56214;WO2008/016360;US5,276,629;Goldmann,R(2006),“Extracting High level semantics by means ofspeech audio and image primitives in surveillance”;Gonzalez,L(2006),“Enhancingvideo surveillance with audio events”;以及Mitchell,C.J(2007),“Aligning MusicGenre Taxonomies”,博士论文,Anglia Ruskin大学。
为了进一步仅仅用于理解本发明,参考以下公开:
-Ipsotek有限公司在2008年11月20公开的国际专利申请
PCT/GB2008/001679,数据处理装置;
-Valentino Franco等在2006年7月20日公开的WO2006/075352A,监视方法以及使用所述方法的监视设备;
-IBM的美国专利申请US2006/22737A;
-IBM的国际专利申请WO2008/016360A;
-摩托罗拉有限公司的美国专利申请US2003/088411A1;以及
-Arakawi Kaoru的美国专利申请US2002/135485。
发明简介
根据本发明的第一方面,因此提供一种数字声音识别系统,该系统包括:用于存储马尔柯夫模型的非易失性存储器;储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;在所述非易失性存储器中存储所述第一马尔柯夫模型;输入限定干扰频域数据的干扰声音数据;使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值;输入限定第三声音频域数据的第三声音数据;确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及根据所述概率输出声音识别数据。
由频域数据产生用于马尔柯夫模型的平均值及方差数据。在一些实施方式中,系统例如由模数转换器输入时域中的声音数据,并且随后将其转换为频域。然而,附加地或备选地,系统可对压缩声音数据进行处理,例如已经编码为频域信息的MP3数据。这可包括关于下面其他方面所述的子带扫描。
在执行时间至频率转换的实施方式中,可应用一系列的时间至频率转换,例如快速傅立叶变换、在连续的、优选地为重叠的时间帧或时间窗上的操作,例如具有10毫秒重叠的20毫秒窗口的快速傅里叶变换。这些执行变成多个频率范围或带的变换,例如在某范围内的四分之一倍频子带分解(quarter octavesub-band decomposition),所述范围取决于欲识别的声音,例如在大约1-10KHz的范围内。可选地,时间-频率变换之后,可执行归一化步骤以减少输入信号振幅中的有效的改变。在实施方式中,还可在对马尔柯夫模型产生所述平均值和方差值之前应用可选的统计分解,特别用于简化所述模拟特征(modelledfeatures)。该统计分解可包括例如主成分分析(PCA)或独立成分分析(ICA)。这在应用质量差的麦克风并且/或正识别复杂声音时尤其有帮助。
在实施方式中,马尔柯夫模型包括通过多个状态及转换描述的不间断隐蔽型马尔柯夫模型,具有用于状态之间的转换的相关概率。这种表示能抵抗音频采样速度中的变化、压缩的使用,以及相对较差质量的声音数据的输入。在系统的实施方式中,限定第二样本频域数据的第二样本声音数据,可用于产生用于第二马尔柯夫模型的第二组平均值以及方差值,并且干扰声音数据(其可与不同于用于所述第一马尔柯夫模型的干扰声音数据)可用于更新该第二模型。以这种方式,可对应于欲识别声音限定多个不同马尔柯夫模型的每一个,并且随后可使输入(第三)声音数据有效地适合于所存储马尔柯夫模型的每一个以识别最紧密匹配的模型。在实施方式中,可以以协方差矩阵的方式表达并处理平均值和方差值。
干扰声音数据可例如包括:欲识别声音的通常的背景声音;这通常将取决于欲识别声音。例如,在一个应用中,为了例如在医院急诊室识别一个人何时变得具有攻击性,这种设施的通常背景噪音可用作为干扰声音数据。备选地,在一个应用中为了探测汽车停车场中汽车窗户何时被打碎(此时欲识别声音可包括打碎窗户的声音及/或汽车警报声),干扰声音数据可例如包括汽车发动机或交通噪音。通常干扰声音数据可包括欲识别声音的通常背景噪音,和一个或多个具体预期的干扰声音中的一个或两者,具体预期的干扰声音例如为在户外区域的紧急鸣笛。在明确的实施中,可简单地从来自第一或每个样本声音的平均值及方差值中扣除由干扰声音样本,更特别地由用于干扰声音样本的频域数据确定的平均及方差值。
在系统的实施方式中,通过一组频率范围或频域带限定马尔柯夫模型的状态,所述频率范围或频域带包括由频域数据限定的频域范围或带。每个状态可通过一个或多个(高斯)分布表示,每个分布以一个平均值和一个方差值为特征。该系统可包括用户界面,以使得用户例如在系统安装时能限定多个模型状态和每个状态应用的多个高斯分布中的一个或两者。
一般地说,通过分解为频率带而处理输入样本声音,并且可选地例如使用PCA/ICA去相关(de-correlated),并且随后该数据与每个马尔柯夫模型比较以对欲识别的输入声音产生对数似然比(LLR)数据。然后(硬)置信度阈值可用于确定声音是否已被识别;如果对两个或多个存储的马尔柯夫模型探测到一个“适合”,该系统则优选地选择最大的概率。如技术人员应当理解的,通过将欲识别声音与由马尔柯夫模型预料的期望频域数据进行有效比较而使声音“适合”一个模型。通过基于干扰(其包括背景)噪音校正/更新模型中的平均值及方差减少假阳性。
因此根据一个相关方面,本发明提供一种识别声音的方法,该方法包括:使用声音的一个样本配置马尔柯夫模型;输入用于所述欲识别声音的背景或干扰声音的样本;通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别;并且使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
本发明还提供一种产生欲识别声音的马尔柯夫模型的方法,其包括:使用声音的一个样本配置马尔柯夫模型;输入用于所述欲识别声音的背景或干扰声音的样本;以及通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别。
在一个补充方面本发明提供一种用于识别声音的系统,该系统包括:用于使用声音的一个样本配置马尔柯夫模型的装置;用于输入用于所述欲识别声音的背景或干扰声音的样本的工具;用于通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别的工具;以及一种工具,用于使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
本发明进一步提供一种声音放大或变换系统,该系统包括:输入声音的声音输入单元;识别所述声音是否适合一种模型的声音识别系统;以及响应于所述识别选择性放大(amply)或变换所述声音的放大器。
优选地所述模型包括如上所述产生的马尔柯夫模型,尽管根据本申请可能不需要对干扰噪音进行校正。
一个优选的应用为在婴儿监护仪或警报器中,其中当识别到特定声音,尤其相对于婴儿啼哭而言较安静的声音时,调整婴儿监护仪的音量。这种声音可例如包括呼吸停止及/或窒息(以及因此在实施方式中,欲识别的“声音”为期望声音的缺失)。在这种系统的执行中,在声音输入和放大的及/或转换的声音之间包括一延迟,即使只有一个较短的延迟,以使得能调整欲识别声音以及因而调整识别声音的音量或振幅。
在另一个应用中,特别如上所述的马尔柯夫模型,应用在包括至少一个摄像机的安全系统中,以使得能响应于对例如破碎的玻璃、汽车警报或枪声的特定类型声音的识别控制或移动该摄像机。
因此在又一方面,提供于一种安全摄像机系统,其具有至少一个可控摄像机、至少一个捕获声音的麦克风,并包括识别所述声音是否适合马尔柯夫模型的声音识别系统,该系统进一步包括摄像机控制器以响应于一声音识别移动所述摄像机,所述声音具有大于适合所述马尔柯夫模型的阈值概率的概率。
在一个实施方式中,这种安全摄像机系统,或使用至少一个摄像机的在此描述的各方面的任何其他实施方式,特定声音的探测可产生例如目前CCTV系统的系统中的一些实际触发(practical triggers)。这些可包括以下的任何一个或多个:
-摄像机的自动移动或缩放以使得声音源对例如为CCTV安全操作者的操作者更明显,例如汽车警报发生于摄像机视野外并且移动该摄像机使得操作者可监控所述状况;
-对安全人员触发可听得见或可视警报,包括在监视器上文本显示该系统已探测的声音或者声音警报;
-自动重放其中探测到声音的记录音频及/或视频,例如自动播放预定持续时间,如10秒钟的音频及/或视频,其中间包括某人具有攻击性的记录;
-预先记录及事后记录声音周围的音频用于由安全人员作为证据使用;
-结合视频分析警报使用使得恐慌探测(许多人奔跑以及许多尖叫相当于恐慌);以及
-在探测到声音的区域附近重放音频或视频警告。
在一些优选实施方式中,所应用的麦克风结合在系统的一个或多个摄像机内。这种麦克风通常质量较差,但在实施方式中,我们应用改善的声音识别技术使得差质量的输入数据能被使用,而即使如此也能准确识别一个或多个声音。作为响应可例如使摄像机执行朝音频的泛运动或旋转(在后者情况中,优选应用两个或多个摄像机/麦克风以将识别噪音的源做三角测量(triangulate))。
在又一个相关方面,提供一种电话网络,其具有多个耦合至交换机或网络控制器的电话,每个所述电话具有收听本地声音的麦克风,所述电话网络包括识别所述声音是否适合模型的声音识别系统,该系统进一步包括控制器以使所述电话的所述麦克风能够或不能够作为所述声音识别系统的输入单元用于监控在所述电话位置的声音。
一般地说,在实施方式中,一组连接至PBX(private branch exchange用户交换机)的电话可用作为分布式接入/干扰者探测系统,通过控制所述电话以使它们的各自麦克风能在建筑物空置时探测声音。然后,特别如上所述的声音识别系统可用于识别以干扰者为特征的声音,并且本地或远程地提供报警或警报。
在又一方面,提供一种用于提供室内协助的援助装置,该援助装置具有捕获声音的麦克风,以及识别所述声音是否适合模型的声音识别系统,以及耦合至所述声音识别系统的控制器,用于识别指定用于援助的请求的声音,并且响应于所述识别发起与帮助者的通讯。
如上所述的援助装置在应用具有通常通过电话线的通讯链接的中央室内控制器类型的系统中具有特定应用,以使得用户,通常为老年人,能携带具有报警按钮的移动设备,用于通过按压所述按钮向朋友、邻居、亲戚或医疗工作者寻求帮助。所述移动设备通常提供在系索上,并且可经常地取下。特别是如上所述类型的声音识别系统,可结合在基本单元中以探测一个或多个触发词或声音,例如鼓掌或大声求援,并且随后警告帮助者。以这种方式,基本单元可在如果已被移除,或者偶然忘记移动单元时提供后备支持。
本领域技术人员将认识到在上述声音识别系统的实施方式中,可在用于目标应用之前对背景噪音/干扰产生并校正一个或多个马尔柯夫模型。因而目标应用系统不需要包括建立及构造所述系统的代码。
因此在又一方面,本发明提供数字声音识别系统,该系统包括:用于存储马尔柯夫模型的非易失性存储器;存储处理器控制代码的存储程序存储器;声音数据输入单元;耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:输入限定声音频域数据的声音数据;确定所述声音频域数据适合至少所述第一马尔柯夫模型模型的概率;以及根据所述概率输出声音识别数据。
技术人员也将认同在一些应用中可不需要对干扰进行马尔柯夫模型校正。
因而本发明还进一步提供一种数字声音识别系统,本系统包括:用于存储马尔柯夫模型的非易失性存储器;储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;在所述非易失性存储器中存储所述第一马尔柯夫模型;输入限定第三声音频域数据的第三声音数据;确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及根据所述概率输出声音识别数据;其中所述声音数据包括表示所述频域中声音的压缩声音数据。
本发明还提供实施上述系统及方法的处理器控制代码,尤其是例如磁盘、CD-或DVD-ROM、诸如只读存储器(Firmware)的可编程存储器的数据载体。实施本发明实施方式的代码(及/或数据)可包括例如C的常规程序设计语言的源、目标或可执行代码,或汇编代码、用于建立或控制ASIC(专用集成电路)或FPGA(可编程门阵列)的代码,或例如Verilog(商标)或VHDL(超高速集成电路硬件描述语言)的用于硬件描述语言的代码。如技术人员将理解的这种代码及/或数据可分步在多个耦合的彼此通讯的元件之间。
本发明进一步提供一种存储一个或多个马尔柯夫模型的数据载体,所述马尔柯夫模型具有产生并更新以补偿如上所述的背景/干扰的均值和方差。
我们描述的系统、方法及代码的各发面及实施方式可用于非可听得见的声音信号,尤其是次声和超声,并且在本说明书中提及的声音并不限于可听得见声音。
根据本发明的又一方面,提供一种数字声音识别系统,其包括:用于存储声音模型(例如马尔柯夫模型)的非易失性存储器(在本说明书中关于各发面及实施方式备选地称之为工作存储器);储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述非易失性存储器及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:输入压缩的音频数据流,所述压缩的音频数据流包括一系列的压缩音频数据块,所述块包括一组用于音频帧的系数,所述系数限定所述音频帧的多个频带中的音频能量;处理所述系数以识别所述系数中的一个或多个模式从而识别声音;以及响应于所述模式识别处理输出声音识别数据。
当试图以稳健且可扩展的方式(in a robust and scalable manner)从压缩音频格式中探测声音时,存在一些实际问题。在任何实施方式中,其中所述声音流可被解压缩为PCM(脉码调制)格式并且随后传递至分类系统,音频分析系统的第一级可对引入的未压缩PCM音频数据执行频率分析。然而,最近的音频压缩的格式可包括该音频详细的频率描述,例如该音频在何处存储为有损压缩系统的一部分。通过直接使用压缩格式的该频率信息,即在上述又一方面的实施方式中的子带扫描,可通过不进行解压缩以及随后对该音频进行频率分析获得可观的计算节省。这可意味着可使用明显降低的计算要求而探测声音。进一步有利地,其可使得声音探测系统的应用更好的可扩展性并且使得其能操作其他技术不能操作的具有有限计算能力的设备。
可进一步提供数字声音识别系统,其中所述系数包括离散余弦变换(DCT)或改进的DCT系数。
可进一步提供数字声音识别系统,其中所述压缩音频数据流为MPEG标准数据流,尤其是MPEG4标准数据流。
可进一步提供数字声音识别系统,其中所述模式识别处理包括使用适合所述预处理声音的马尔柯夫模型的处理。
在本发明该方面的实施方式中,压缩音频数据流的处理有利于快速声音识别及(平行)处理多个数据流的可扩展性。在一些优选实施方式中,所述压缩音频数据流为MPEG标准数据流,例如MPEG1层3音频流或MPEG2AAC(高级音频编码)层数据流。在优选实施方式中,数据流为MPEG4封装。因而,如技术人员将理解的,数据流可包括视频及音频数据的交错块、如上所述处理所述音频数据块。在实施方式中,音频数据块提供用于音频帧的数据,例如20毫秒的帧,并且包括数据汇总(data summary)部分,其对一较宽组频带的每一个限定能量,紧跟着一组DCT(离散余弦变换)系数,尤其是MDCT(改善的DCT)系数。在一些优选实施方式中,对(M)DCT系数执行模式识别处理。然而,技术人员将理解,备选格式的压缩音频数据可用于例如基于小波的压缩(使用小波作为基函数)。在该技术的优选实施方式中,所应用的压缩为有损的而不是无损的。如前面所述,模式识别处理的优选实施方式应用适合预处理声音的马尔柯夫模型。
附图简介
现在将仅通过范例的方式、参考附图进一步描述本发明的这些及其他方面,其中:
图1示出建立以产生马尔柯夫模型的系统。
图2示出如何由压缩数据的一个范例产生马尔柯夫模型。
图3示出建立为使用产生的马尔柯夫模型用于声音识别的系统。
图4示出如何更新用作部分声音识别系统的马尔柯夫模型。
图5示出位于CCTV系统中的系统优选实施方式的一个范例。
图6示出位于婴儿监护系统中的系统优选实施方式的一个范例。
图7示出位于室内协助系统中的系统优选实施方式的一个范例。
图8示出位于办公电话PBX系统中的系统优选实施方式的一个范例。
应当注意在附图中每个“1/4Oct频带”标记可备选地为“子带频率集”。
优选实施方式的详细描述
图1-8示出所述系统及该系统的各种优选实施方式。参考图1,其示出主要系统流程图及用于产生马尔柯夫模型的相关方程式。
图1分成描述系统的两个主要部分的两节。通过将许多相同类型声音的实例传入该系统而产生模型参数。现在限定了所述两个部分,以及它们相关的数学函数。左边部分可以和可从压缩音频格式的频谱系数获得的数据互换。其优势在于改善可执行时间并改善系统可扩展性。
现在参考图2,其示出与声音识别系统一起使用的典型音频压缩系统的系统图。因此图2示出与通用mpeg音频压缩流或文件一起使用的该系统的一个范例。使用帧分析器以获得存储在压缩音频的帧中的频率系数,在该范例中频率分量由一组预过滤的PCM音频数据存储在改进的离散余弦变换MDCT中。然后这些频率系数可映射到限定于图1左边部分的分组频带,在该处所述主系统接管操作。
现在将描述用于未压缩的频谱分解的互补,但是平行的系统。在图1中为频谱分解的各部分的定义,其中w为窗口,l为帧的数目,以及H为样本中窗口的前进(每跳大小(hop-size)),尽管具有许多窗口类型,海宁窗在此用作为良好的通用窗口。随后将时间-频率矩阵构造为XLK,并且对该时间-频率矩阵应用归一化。这采用L2标准(norm),其中r1为L2标准的增益值,为单位频谱向量,K为频谱系数的数目并且L为帧数。
为了进一步从实践的角度说明,用于44.1千赫信号的时间频率矩阵可以是具有512重叠的1024点FFT(1024 point FFT with a 512 overlap)。其大约为具有10毫秒重叠的20毫秒窗口。然后将由此产生的512频率区分成子带,例如范围在62.5至8000Hz之间的四分之一倍频提供30个子带,下面列出的是所述频带的下限:
0,62.5,74.32544469,88.38834765,105.1120519,125,148.6508894,176.7766953,210.2241038,250,297.3017788,353.5533906,420.4482076,500,594.6035575,707.1067812,840.8964153,1000,1189.207115,1414.213562,1681.792831,2000,2378.41423,2828.427125,3363.585661,4000,4756.82846,5656.854249,6727.171322,8000
使用查询表从压缩或未压缩的频带映射到新的子带表示带。对于给定的抽样率及STFT尺寸实例,对于每个支持的抽样率/bin号对(bin number pair)所述阵列可由(Bin尺寸÷2)×6的阵列组成。行对应于所述bin号(中心)-STFT尺寸或频率系数的数目。第一个两列确定下部及上部四分之一倍频bin索引号。接着的四列确定应当置入相应四分之一倍频bin中的bin大小的比例,所述四分之一倍频bin从在第一栏中限定的下部四分之一倍频开始至在第二栏中限定的上部四分之一倍频。例如,如果所述bin与两个四分之一倍频范围重叠,3和4列将具有总和为1的比例值,并且5和6列将具有零。如果一个bin与超过一个的子带重叠,更多的列将具有成比例的大小值。该范例模拟了人类听觉系统中的临界频带。然后通过概述的归一化方法处理这种简化的时间/频率表示。通过10ms的每跳大小递增地移动所述帧位置,而对所有帧重复这种处理。所述重叠窗口(每跳大小不等于窗口尺寸)改善了系统的时间分辨率。这作为信号频率的适当表示而得到采用,其用于概括声音的感知特性。随后归一化阶段将每个帧进行子带分解并且除以每个子带中平均功率的平方根。所述平均值由所有频带中的总能量除以频带的个数而得到计算。该归一化的时间频率矩阵传递到系统的下一部分,在该处其含义是,可产生方差和转换以全面特征化声音频率分布及时间趋势。声音特征化的下一个阶段需要进一步限定。使用不间断隐蔽型马尔柯夫模型获取平均值,对该模型需要方差和转换。可通过λ=(A,B,∏)而将马尔柯夫模型完全地特征化,其中A为状态转换概率矩阵,B为观察概率矩阵并且∏为状态初始概率矩阵,在更多的正式词汇中:
其中aij≡P(qt+1=Sj|qt=Si)
∏=[πi]其中πi≡P(q1=Si)
其中q为状态值,O为观察值。在图1中系统需要产生状态转换概率矩阵,我们模型中的状态实际为通过一组平均值及方差数据特征化的频率分布,然而用于此的格式定义将在后面介绍。产生模型参数是使观察序列的概率最大化的问题。Baum-Welch算法为期待的最大化过程,其已用于仅仅这样做。它是迭代的算法,其中每个迭代由两个部分组成,期望εt(i,j)和最大化γt(i)。在期望部分,εt(i,j)和γt(i),计算给定的当前模式值λ,并且随后在最大化中λ得到梯级再计算。这两步交替直至发生收敛。已得到显示的是在此交替过程中,P(O|λ)从不下降。假设指标变量为
期望
最大化
高斯的应用使得时间-频率矩阵特征的特征化。在每个状态单个高斯的情况下,他们成为状态。可使用Baum-Welch算法来获得隐藏马尔柯夫模型的转换矩阵以特征化信号的频率分布如何随时间改变。高斯可使用具有起始点的K-平均值的方法初始化,所述起始点用于成为选自样本数据的任意频率分布的族。
图3显示了主系统流程图以及用于对新声音分类的相关支持方程。因此图3解释了用于将新输入分类和适合声音条件-干扰中变化的系统操作。第一部分如先前解释进行操作。经过系统的该先前解释的部分后,前向算法可用于确定观测序列的最有可能的状态路径并产生关于对数似然值的概率,该对数似然值可用于分类进来的信号。向前和向后过程可用于自先前计算的模型参数获得这种值。实际上只需要向前的部分。向前变量αt(i)定义为观测部分序列{O1...Ot}直至时间t并且t时间处位于Si中的概率,给定模型λ
αt(i)≡P(O1...Ot,qt=Si|λ)
这可通过积累结果而计算出并且具有两个步骤,初始化和递归,如图3所示,αt(i)解释了第一t观测并在状态Si中终止,其乘以移动至状态Sj的概率aij,并且因为只有N个可能的先前状态,需要加和所有这种可能的先前Si。接着,术语bj(Ot+1)为产生下一个观测,频率分布的可能性,此时在状态Sj中在时间t+1处。具有这些变量,接着可以直接地计算频率分布序列的概率。
计算αt(i)具有阶O(N2T)并且避免计算序列概率的复杂问题。这些模型将在许多不同的声学条件下操作并且当它实际局限于当前范例时,其代表系统将接触到的所有声学条件,将执行模型的内部调整以使得该系统能在所有的这些不同的声学条件下操作。在图3中,这显示为背景方块。许多不同的方法可用于这种更新。图4中列出一种简单说明性的方法,其描述了对不同声学条件调整Markov模型。
图4对次波段取平均值,在这种情况下是用于最后T个秒数的四分之一倍频频率值,将他们的平均值与模型值相加以更新在该声学环境中的声音内部模型。
图5显示了对CCTV摄像头系统的系统操作图表,更特别地对CCTV系统一个典型的系统设置。这可包括一个自摄像头的压缩输入,其包含能使用帧分析器得到提取的系数。这个数据发送至处理器,该处理具有预导出的包括输出的模型参数,并且一组阈值用于对一组音频输入进行分类。然后其可用于切换不同的摄像头信息而得到显示或通过警报而引起注意。
现在在参考图6,其显示了与婴儿监控器振幅控制一起使用的系统操作。与描述过的系统识别能力相同或相似的系统,可用作振幅控制输入或光控制输入,用于对否则将丢失的声音引起注意。例如安静的并且否则可能错过的声音,例如呼吸困难、coeing或堵塞可被探测并使用,以控制回放音量。当探测到或未探测到关注的声音时,其功能类似于正常的婴儿监控仪但具有额外的引起其自己注意的特征。
图7显示了与家庭照顾护理系统一起使用的系统操作。与描述过相同或相似的声音识别系统可用作为家庭警报器用于替换应急开关以探测特定输入触发的帮助请求,所述特定输入例如为3次拍手声或3次鞋撞击地面。这将通过重复的暂停后被探测的模式操作,此处系统将确定其已探测到所述模式并且请求确认。一旦所述模式得到再次确认,系统将向操作者发送一个警报或向另一个人发送信息。
图8显示了与办公室电话系统一起使用的系统操作。与已描述的类似的声音识别系统可用于将公司或家庭电话网络转至干扰者探测系统,其中麦克风安装在电话底部用于免提通讯的方式并且所述麦克风基于计时器远程激活。该计时器可在例如晚上时间的特定时间激活电话麦克风并且随后意味着闯入的声音,例如窗户打破或一般的移动。接着触发警报并发送至摄像头系统以将摄像头指向那个位置、向操作者发送信息、控制系统以打开灯或向操作者或保安发送信息。
毫无疑问,技术人员将想到许多其他有效的备选方式。应当理解,本发明不局限于所描述的实施方式并且包含对本领域技术人员来说明显的修改,其位于在此随附的权利要求的精神和范围内。
Claims (27)
1.一种数字声音识别系统,该系统包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及用于执行所述处理器控制代码的所述存储程序的存储器的处理器,并且其中所述处理器控制代码包括代码以:
由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音
数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数
据限定所述第一样本在多个频率范围中的能量;
由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔
柯夫模型的第一组平均值以及方差值;
在所述非易失性存储器中存储所述第一马尔柯夫模型;
输入限定干扰频域数据的干扰声音数据;
使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值;
输入限定第三声音频域数据的第三声音数据;
确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及
根据所述概率输出声音识别数据。
2.如权利要求1所述的数字声音识别系统,其中所述处理器控制代码包括代码以:
输入用于多个不同欲识别声音的多个不同样本声音数据;
产生相应的多个所述马尔柯夫模型;
确定所述第三声音频域数据适合所述马尔柯夫模型的每一个的概率。
3.如权利要求1或2所述的数字声音识别系统,其中所述处理器控制代码包括代码以:
将所述声音数据从时域转变为频域以产生所述频域数据。
4.如权利要求1或2所述的数字声音识别系统,其中所述声音数据包括表示位于所述频域中的声音的压缩声音数据。
5.如前述任意一条权利要求中的数字声音识别系统,其中所述处理器控制代码包括代码以:
由所述干扰频域数据产生用于所述第一马尔柯夫模型的第二组平均值以及方差值;以及
使用所述第二组平均值以及方差值调整所述第一马尔柯夫模型的所述平均值以及方差值。
6.如权利要求5所述的数字声音识别系统,其中用于调整所述第一马尔柯夫模型的所述平局值以及方差值的所述代码包括代码,以从所述第一组平局值及平均值中扣除所述第二组平局值及方差值。
7.如前述任意一条权利要求中的数字声音识别系统,其中所述马尔柯夫模型的状态通过包括所述多个频域范围的一组频率范围限定,并且通过一个或多个分布表示,每个分布以一对平均值和方差值为特征。
8.如权利要求7所述的数字声音识别系统,其中所述分布包括高斯分布并且其中所述处理器控制代码包括代码以:
使得用户能限定所述马尔柯夫模型多个状态以及每个状态的多个高斯分布中的一个或两者,其中所述平均值及方差值包括所述高斯分布的平均值及方差值。
9.一种用于识别声音的方法,该方法包括:
使用声音的一个样本配置马尔柯夫模型;
输入用于所述欲识别声音的背景或干扰声音的样本;
通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别;以及
使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
10.一种用于识别声音的系统,该系统包括:
用于使用声音的一个样本配置马尔柯夫模型的装置;
用于输入用于所述欲识别声音的背景或干扰声音的样本的工具;
用于通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别的工具;
以及一种工具,用于使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过各所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
11.一种声音放大或变换系统,该系统包括:
输入声音的声音输入单元;
识别所述声音是否适合一种模型的声音识别系统;以及
响应于所述识别而选择性地放大或变换所述声音的放大器。
12.如权利要求11所述的声音放大或变换系统,进一步包括数字式延迟以匹配所述识别的处理时间。
13.如权利要求11或12所述的声音放大或变换系统,其中所述声音识别系统为权利要求1-8及10中任一条所述的系统。
14.一种包括权利要求11、12或13的系统的婴儿监护仪或报警器,其中所述声音包括由婴儿发出的声音。
15.一种安全摄像机系统,具有至少一个可控摄像机、至少一个捕获声音的麦克风,并包括识别所述声音是否适合马尔柯夫模型的声音识别系统,特别如权利要求1-8及10中任一项所述的系统,该系统进一步包括摄像机控制器以响应于一声音识别移动所述摄像机,所述声音具有大于适合所述马尔柯夫模型的阈值概率的概率。
16.一种电话网络,其具有多个耦合至交换机或网络控制器的电话,每个所述电话具有收听本地声音的麦克风,所述电话网络包括识别所述声音是否适合模型的声音识别系统,特别是如同权利要求1-8及10中任一条所述的系统,该系统进一步包括控制器以使所述电话的所述麦克风能够或不能够作为所述声音识别系统的输入单元用于监控在所述电话位置的声音。
17.一种包括如权利要求16所述的电话网络的安全系统,其中所述声音包括识别干扰者的声音。
18.一种用于提供室内协助的援助装置,该援助装置具有捕获声音的麦克风,以及识别所述声音是否适合一模型的声音识别系统,特别是如同权利要求1-8及10中任一条所述的系统,以及耦合至所述声音识别系统的控制器,用于识别指定用于援助的请求的声音,并且响应于所述识别而发起与帮助者的通讯。
19.一种数字声音识别系统,该系统包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:
输入限定声音频域数据的声音数据;
确定所述声音频域数据适合至少所述第一马尔柯夫模型的概率;以及
根据所述概率输出声音识别数据。
20.一种数字声音识别系统,该系统包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:
由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;
由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;
在所述非易失性存储器中存储所述第一马尔柯夫模型;
输入限定第三声音频域数据的第三声音数据;
确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及
根据所述概率输出声音识别数据;
其中所述声音数据包括表示位于所述频域中的声音的压缩声音数据。
21.一种数据载体,其携带着处理器控制代码以执行权利要求9的方法。
22.一种数据载体,其携带着使用权利要求9的方法构造并调整了的马尔柯夫模型。
23.一种产生欲识别声音的马尔柯夫模型的方法,包括:
使用声音的一个样本配置马尔柯夫模型;
输入用于所述欲识别声音的背景或干扰声音的样本;
通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别。
24.一种数字声音识别系统,该系统包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:
输入压缩的音频数据流,所述压缩的音频数据流包括一系列的压缩音频数据块,所述块包括一组用于音频帧的系数,所述系数限定所述音频帧的多个频带中的音频能量;
处理所述系数以识别所述系数中的一个或多个模式从而识别声音;以及响应于所述模式识别处理输出声音识别数据。
25.如权利要求24所述的数字声音识别系统,其中所述系数包括离散余弦变换(DCT)或改进的DCT系数。
26.如权利要求24或25所述的数字声音识别系统,其中所述压缩音频数据流为MPEG标准数据流,尤其是MPEG4标准数据流。
27.如权利要求24、25或26所述的数字声音识别系统,其中所述模式识别处理包括使用适合所述预识别声音的马尔柯夫模型的处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0822776.1A GB2466242B (en) | 2008-12-15 | 2008-12-15 | Sound identification systems |
GB0822776.1 | 2008-12-15 | ||
PCT/GB2009/051606 WO2010070314A1 (en) | 2008-12-15 | 2009-11-26 | Sound identification systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102246228A true CN102246228A (zh) | 2011-11-16 |
CN102246228B CN102246228B (zh) | 2014-06-18 |
Family
ID=40326080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980150365.XA Active CN102246228B (zh) | 2008-12-15 | 2009-11-26 | 声音识别系统 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8918343B2 (zh) |
CN (1) | CN102246228B (zh) |
GB (1) | GB2466242B (zh) |
WO (1) | WO2010070314A1 (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366738A (zh) * | 2012-04-01 | 2013-10-23 | 佳能株式会社 | 生成声音分类器和检测异常声音的方法和设备及监视系统 |
CN107481733A (zh) * | 2016-06-08 | 2017-12-15 | 福特全球技术公司 | 声信号的选择性放大 |
CN108701400A (zh) * | 2016-02-24 | 2018-10-23 | 柯尼卡美能达株式会社 | 被监视者监视装置、该方法以及该系统 |
CN109658953A (zh) * | 2019-01-12 | 2019-04-19 | 深圳先进技术研究院 | 一种婴儿哭声识别方法、装置及设备 |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
CN110322898A (zh) * | 2019-05-28 | 2019-10-11 | 平安科技(深圳)有限公司 | 婴儿哭声检测方法、装置及计算机可读存储介质 |
CN110431434A (zh) * | 2017-03-01 | 2019-11-08 | 索尔塔雷有限公司 | 用于检测目标声音的系统和方法 |
CN110785809A (zh) * | 2017-06-28 | 2020-02-11 | 思睿逻辑国际半导体有限公司 | 重放攻击的磁检测 |
CN110800053A (zh) * | 2017-06-13 | 2020-02-14 | 米纳特有限公司 | 基于音频数据获取事件指示的方法和设备 |
CN110853620A (zh) * | 2018-07-25 | 2020-02-28 | 音频分析有限公司 | 声音检测 |
US11694695B2 (en) | 2018-01-23 | 2023-07-04 | Cirrus Logic, Inc. | Speaker identification |
US11705135B2 (en) | 2017-10-13 | 2023-07-18 | Cirrus Logic, Inc. | Detection of liveness |
US11704397B2 (en) | 2017-06-28 | 2023-07-18 | Cirrus Logic, Inc. | Detection of replay attack |
US11714888B2 (en) | 2017-07-07 | 2023-08-01 | Cirrus Logic Inc. | Methods, apparatus and systems for biometric processes |
US11735202B2 (en) | 2019-01-23 | 2023-08-22 | Sound Genetics, Inc. | Systems and methods for pre-filtering audio content based on prominence of frequency content |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11748462B2 (en) | 2018-08-31 | 2023-09-05 | Cirrus Logic Inc. | Biometric authentication |
US11755701B2 (en) | 2017-07-07 | 2023-09-12 | Cirrus Logic Inc. | Methods, apparatus and systems for authentication |
US11829461B2 (en) | 2017-07-07 | 2023-11-28 | Cirrus Logic Inc. | Methods, apparatus and systems for audio playback |
US12026241B2 (en) | 2017-06-27 | 2024-07-02 | Cirrus Logic Inc. | Detection of replay attack |
US12135774B2 (en) | 2018-01-30 | 2024-11-05 | Cirrus Logic Inc. | Methods, apparatus and systems for biometric processes |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9286911B2 (en) * | 2008-12-15 | 2016-03-15 | Audio Analytic Ltd | Sound identification systems |
GB2466242B (en) | 2008-12-15 | 2013-01-02 | Audio Analytic Ltd | Sound identification systems |
GB2494511B (en) * | 2008-12-15 | 2013-09-04 | Audio Analytic Ltd | Sound identification systems |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
US9443511B2 (en) | 2011-03-04 | 2016-09-13 | Qualcomm Incorporated | System and method for recognizing environmental sound |
US9786275B2 (en) * | 2012-03-16 | 2017-10-10 | Yale University | System and method for anomaly detection and extraction |
EP3042377B1 (en) * | 2013-03-15 | 2023-01-11 | Xmos Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
WO2014147417A1 (en) | 2013-03-22 | 2014-09-25 | Audio Analytic Limited | Brand sonification |
KR102195897B1 (ko) * | 2013-06-05 | 2020-12-28 | 삼성전자주식회사 | 음향 사건 검출 장치, 그 동작 방법 및 그 동작 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체 |
US9591721B2 (en) * | 2013-08-19 | 2017-03-07 | Philips Lighting Holding B.V. | Enhancing experience of consumable goods |
US10922935B2 (en) * | 2014-06-13 | 2021-02-16 | Vivint, Inc. | Detecting a premise condition using audio analytics |
WO2016060296A1 (ko) * | 2014-10-15 | 2016-04-21 | 엘지전자 주식회사 | 음향 정보 녹음 장치 및 그 제어 방법 |
US9530408B2 (en) * | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
JP2016180791A (ja) * | 2015-03-23 | 2016-10-13 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US9805739B2 (en) | 2015-05-15 | 2017-10-31 | Google Inc. | Sound event detection |
US10778826B1 (en) * | 2015-05-18 | 2020-09-15 | Amazon Technologies, Inc. | System to facilitate communication |
US10564031B1 (en) | 2015-08-24 | 2020-02-18 | X Development Llc | Methods and systems for determining errors based on detected sounds during operation of a robotic device |
US9815203B1 (en) | 2015-08-24 | 2017-11-14 | X Development Llc | Methods and systems for adjusting operation of a robotic device based on detected sounds |
US20170168158A1 (en) * | 2015-10-02 | 2017-06-15 | Sound Solutions International Co., Ltd. | Ultrasonic noise based sonar |
CN107016999B (zh) * | 2015-10-16 | 2022-06-14 | 谷歌有限责任公司 | 热词识别 |
WO2017086937A1 (en) | 2015-11-17 | 2017-05-26 | Thomson Licensing | Apparatus and method for integration of environmental event information for multimedia playback adaptive control |
WO2018044553A1 (en) * | 2016-08-29 | 2018-03-08 | Tyco Fire & Security Gmbh | System and method for acoustically identifying gunshots fired indoors |
EP3301891B1 (en) | 2016-09-28 | 2019-08-28 | Nxp B.V. | Mobile device and method for determining its context |
WO2018097352A1 (ko) * | 2016-11-24 | 2018-05-31 | ㈜ 트라이너스 | 총소리 감지 및 영상촬영 방법 |
US11099059B2 (en) | 2017-01-12 | 2021-08-24 | Siemens Schweiz Ag | Intelligent noise mapping in buildings |
US10121109B2 (en) | 2017-04-07 | 2018-11-06 | International Business Machines Corporation | Flexible and self-adaptive classification of received audio measurements in a network environment |
US9870719B1 (en) | 2017-04-17 | 2018-01-16 | Hz Innovations Inc. | Apparatus and method for wireless sound recognition to notify users of detected sounds |
KR102068182B1 (ko) * | 2017-04-21 | 2020-01-20 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
LU100215B1 (de) * | 2017-05-12 | 2018-11-26 | Schellenberg Alfred Gmbh | Garagentorantrieb |
CN107274913B (zh) * | 2017-05-26 | 2020-09-11 | 广东美的厨房电器制造有限公司 | 一种声音识别方法及装置 |
CN107293301B (zh) * | 2017-05-27 | 2019-04-02 | 深圳大学 | 基于牙齿咬合声音的识别方法及系统 |
US11096005B2 (en) | 2017-08-02 | 2021-08-17 | Audio Analytic Ltd. | Sound reproduction |
US10518607B2 (en) * | 2017-08-28 | 2019-12-31 | Ford Global Technologies, Llc | Pollution event detection |
US10482901B1 (en) | 2017-09-28 | 2019-11-19 | Alarm.Com Incorporated | System and method for beep detection and interpretation |
US10091569B1 (en) * | 2017-10-13 | 2018-10-02 | Louroe Electronics | Smart microphone devices, systems, apparatuses, and methods |
US10529357B2 (en) | 2017-12-07 | 2020-01-07 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
US10249293B1 (en) | 2018-06-11 | 2019-04-02 | Capital One Services, Llc | Listening devices for obtaining metrics from ambient noise |
US10832673B2 (en) | 2018-07-13 | 2020-11-10 | International Business Machines Corporation | Smart speaker device with cognitive sound analysis and response |
US10832672B2 (en) | 2018-07-13 | 2020-11-10 | International Business Machines Corporation | Smart speaker system with cognitive sound analysis and response |
US10909847B1 (en) * | 2018-09-19 | 2021-02-02 | All Turtles Corporation | Building urban area noise pollution maps and mitigating noise from emergency vehicles |
US11222625B2 (en) * | 2019-04-15 | 2022-01-11 | Ademco Inc. | Systems and methods for training devices to recognize sound patterns |
US20210110843A1 (en) * | 2019-05-28 | 2021-04-15 | Utility Associates, Inc. | Systems and methods for detecting a gunshot |
US11568731B2 (en) * | 2019-07-15 | 2023-01-31 | Apple Inc. | Systems and methods for identifying an acoustic source based on observed sound |
KR20220034860A (ko) | 2019-08-15 | 2022-03-18 | 돌비 인터네셔널 에이비 | 수정된 오디오 비트스트림의 생성 및 처리를 위한 방법 및 디바이스 |
GB2615507A (en) * | 2021-07-30 | 2023-08-16 | Emission Solutions Ltd | Pollution emissions monitoring method and system |
US20230305797A1 (en) * | 2022-03-24 | 2023-09-28 | Meta Platforms Technologies, Llc | Audio Output Modification |
CN116386661B (zh) * | 2023-06-05 | 2023-08-08 | 成都启英泰伦科技有限公司 | 一种基于双注意力和数据增强的哭声检测模型训练方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1132982A (zh) * | 1995-04-06 | 1996-10-09 | 广州环保电子有限公司 | 一种远距离、多目标保安系统音像监控中心台 |
US20030088411A1 (en) * | 2001-11-05 | 2003-05-08 | Changxue Ma | Speech recognition by dynamical noise model adaptation |
CN1716329A (zh) * | 2004-06-29 | 2006-01-04 | 乐金电子(沈阳)有限公司 | 利用婴儿哭声频率的婴儿监视系统及其方法 |
US20060022737A1 (en) * | 2004-07-30 | 2006-02-02 | Infineon Technologies Ag | Device for the regulated delay of a clock signal |
WO2006075352A1 (en) * | 2005-01-14 | 2006-07-20 | Franco Valentini | Surveillance method and surveillance device operating with said method |
WO2008016360A1 (en) * | 2006-08-03 | 2008-02-07 | International Business Machines Corporation | Video surveillance system and method with combined video and audio recognition |
WO2008139203A2 (en) * | 2007-05-15 | 2008-11-20 | Ipsotek Ltd | Data processing apparatus |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5142657A (en) * | 1988-03-14 | 1992-08-25 | Kabushiki Kaisha Kawai Gakki Seisakusho | Apparatus for drilling pronunciation |
US5025809A (en) * | 1989-11-28 | 1991-06-25 | Cardionics, Inc. | Recording, digital stethoscope for identifying PCG signatures |
GB2262992B (en) * | 1990-06-21 | 1995-07-05 | Reynolds Software Inc | Method and apparatus for wave analysis and event recognition |
US5387955A (en) * | 1993-08-19 | 1995-02-07 | Eastman Kodak Company | Still camera with remote audio recording unit |
US6206829B1 (en) * | 1996-07-12 | 2001-03-27 | First Opinion Corporation | Computerized medical diagnostic and treatment advice system including network access |
US5495357A (en) * | 1994-02-14 | 1996-02-27 | Machina, Inc. | Apparatus and method for recording, transmitting, receiving and playing sounds |
US6067521A (en) | 1995-10-16 | 2000-05-23 | Sony Corporation | Interrupt correction of speech recognition for a navigation device |
US6035341A (en) | 1996-10-31 | 2000-03-07 | Sensormatic Electronics Corporation | Multimedia data analysis in intelligent video information management system |
US6182018B1 (en) * | 1998-08-25 | 2001-01-30 | Ford Global Technologies, Inc. | Method and apparatus for identifying sound in a composite sound signal |
US6826528B1 (en) | 1998-09-09 | 2004-11-30 | Sony Corporation | Weighted frequency-channel background noise suppressor |
US20010044719A1 (en) | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
JP3564501B2 (ja) * | 2001-03-22 | 2004-09-15 | 学校法人明治大学 | 乳幼児の音声解析システム |
US7330769B2 (en) * | 2001-05-15 | 2008-02-12 | Nintendo Software Technology Corporation | Parameterized interactive control of multiple wave table sound generation for video games and other applications |
US7106369B2 (en) * | 2001-08-17 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Continuous audio capture in an image capturing device |
US7623114B2 (en) * | 2001-10-09 | 2009-11-24 | Immersion Corporation | Haptic feedback sensations based on audio output from computer devices |
US6862359B2 (en) | 2001-12-18 | 2005-03-01 | Gn Resound A/S | Hearing prosthesis with automatic classification of the listening environment |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
WO2004017249A2 (en) * | 2002-08-14 | 2004-02-26 | Deja View, Inc. | Recording device that stores buffered digital signals to memory flashcards |
AU2003267006A1 (en) * | 2002-09-27 | 2004-04-19 | International Business Machines Corporation | System and method for enhancing live speech with information accessed from the world wide web |
SG140445A1 (en) * | 2003-07-28 | 2008-03-28 | Sony Corp | Method and apparatus for automatically recognizing audio data |
JP3913771B2 (ja) | 2004-07-23 | 2007-05-09 | 松下電器産業株式会社 | 音声識別装置、音声識別方法、及びプログラム |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
EP1810277A1 (fr) * | 2004-11-08 | 2007-07-25 | France Telecom S.A. | Procede de construction distribuee d'un modele de reconnaissance vocale , dispositif, serveur et programmes d'ordinateur pour mettre en uvre un tel procede |
US7509259B2 (en) * | 2004-12-21 | 2009-03-24 | Motorola, Inc. | Method of refining statistical pattern recognition models and statistical pattern recognizers |
US20060227237A1 (en) * | 2005-03-31 | 2006-10-12 | International Business Machines Corporation | Video surveillance system and method with combined video and audio recognition |
CN1889172A (zh) * | 2005-06-28 | 2007-01-03 | 松下电器产业株式会社 | 可增加和修正声音类别的声音分类系统及方法 |
JP2007034198A (ja) | 2005-07-29 | 2007-02-08 | Denso Corp | 音声認識システム及びそれに用いる携帯端末装置 |
US7516074B2 (en) * | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
WO2008061260A2 (en) * | 2006-11-18 | 2008-05-22 | Personics Holdings Inc. | Method and device for personalized hearing |
WO2008083315A2 (en) * | 2006-12-31 | 2008-07-10 | Personics Holdings Inc. | Method and device configured for sound signature detection |
DE102007008332A1 (de) * | 2007-02-16 | 2008-08-21 | Blue Lion Mobile Gmbh | Verfahren zum Abspielen einer Sounddatei auf einem Empfänger-Mobiltelefon mittels eines Sender-Mobiltelefons sowie Computerprogrammprodukt |
JP4531112B2 (ja) * | 2007-03-16 | 2010-08-25 | 富士通株式会社 | 情報選別方法、そのシステム、監視装置及びデータ集積装置 |
US20090238371A1 (en) * | 2008-03-20 | 2009-09-24 | Francis Rumsey | System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment |
US9253560B2 (en) * | 2008-09-16 | 2016-02-02 | Personics Holdings, Llc | Sound library and method |
GB2466242B (en) | 2008-12-15 | 2013-01-02 | Audio Analytic Ltd | Sound identification systems |
US9443511B2 (en) | 2011-03-04 | 2016-09-13 | Qualcomm Incorporated | System and method for recognizing environmental sound |
KR101315970B1 (ko) | 2012-05-23 | 2013-10-08 | (주)엔써즈 | 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 |
US9460720B2 (en) | 2013-08-28 | 2016-10-04 | Texas Instruments Incorporated | Powering-up AFE and microcontroller after comparing analog and truncated sounds |
US9177546B2 (en) | 2013-08-28 | 2015-11-03 | Texas Instruments Incorporated | Cloud based adaptive learning for distributed sensors |
US9390727B2 (en) | 2014-01-13 | 2016-07-12 | Facebook, Inc. | Detecting distorted audio signals based on audio fingerprinting |
-
2008
- 2008-12-15 GB GB0822776.1A patent/GB2466242B/en active Active
-
2009
- 2009-11-26 CN CN200980150365.XA patent/CN102246228B/zh active Active
- 2009-11-26 WO PCT/GB2009/051606 patent/WO2010070314A1/en active Application Filing
- 2009-11-26 US US13/128,588 patent/US8918343B2/en active Active
-
2014
- 2014-12-30 US US14/586,169 patent/US10586543B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1132982A (zh) * | 1995-04-06 | 1996-10-09 | 广州环保电子有限公司 | 一种远距离、多目标保安系统音像监控中心台 |
US20030088411A1 (en) * | 2001-11-05 | 2003-05-08 | Changxue Ma | Speech recognition by dynamical noise model adaptation |
CN1716329A (zh) * | 2004-06-29 | 2006-01-04 | 乐金电子(沈阳)有限公司 | 利用婴儿哭声频率的婴儿监视系统及其方法 |
US20060022737A1 (en) * | 2004-07-30 | 2006-02-02 | Infineon Technologies Ag | Device for the regulated delay of a clock signal |
WO2006075352A1 (en) * | 2005-01-14 | 2006-07-20 | Franco Valentini | Surveillance method and surveillance device operating with said method |
WO2008016360A1 (en) * | 2006-08-03 | 2008-02-07 | International Business Machines Corporation | Video surveillance system and method with combined video and audio recognition |
WO2008139203A2 (en) * | 2007-05-15 | 2008-11-20 | Ipsotek Ltd | Data processing apparatus |
Non-Patent Citations (3)
Title |
---|
MIZOBUCHI S ET AL: ""Camera control system using speech recognition technology", 《 WORLD CONFERENCE ON EDUCATIONAL MULTIMEDIA, HYPERMEDIA AND TELECOMMUNICATIONS》 * |
SCHMANDT C ET AL: ""Listenin" to domestic environments from remote locations", 《 INTERNATIONAL CONFERENCE ON AUDITORY DISPLAY》 * |
TZANETAKIS G ET AL: ""Sound analysis using MPEG compressed audio", 《 ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366738B (zh) * | 2012-04-01 | 2016-08-03 | 佳能株式会社 | 生成声音分类器和检测异常声音的方法和设备及监视系统 |
CN103366738A (zh) * | 2012-04-01 | 2013-10-23 | 佳能株式会社 | 生成声音分类器和检测异常声音的方法和设备及监视系统 |
CN108701400A (zh) * | 2016-02-24 | 2018-10-23 | 柯尼卡美能达株式会社 | 被监视者监视装置、该方法以及该系统 |
CN107481733A (zh) * | 2016-06-08 | 2017-12-15 | 福特全球技术公司 | 声信号的选择性放大 |
CN110431434A (zh) * | 2017-03-01 | 2019-11-08 | 索尔塔雷有限公司 | 用于检测目标声音的系统和方法 |
CN110800053A (zh) * | 2017-06-13 | 2020-02-14 | 米纳特有限公司 | 基于音频数据获取事件指示的方法和设备 |
US12026241B2 (en) | 2017-06-27 | 2024-07-02 | Cirrus Logic Inc. | Detection of replay attack |
CN110785809A (zh) * | 2017-06-28 | 2020-02-11 | 思睿逻辑国际半导体有限公司 | 重放攻击的磁检测 |
US11704397B2 (en) | 2017-06-28 | 2023-07-18 | Cirrus Logic, Inc. | Detection of replay attack |
US11829461B2 (en) | 2017-07-07 | 2023-11-28 | Cirrus Logic Inc. | Methods, apparatus and systems for audio playback |
US11755701B2 (en) | 2017-07-07 | 2023-09-12 | Cirrus Logic Inc. | Methods, apparatus and systems for authentication |
US11714888B2 (en) | 2017-07-07 | 2023-08-01 | Cirrus Logic Inc. | Methods, apparatus and systems for biometric processes |
US11705135B2 (en) | 2017-10-13 | 2023-07-18 | Cirrus Logic, Inc. | Detection of liveness |
US11694695B2 (en) | 2018-01-23 | 2023-07-04 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US12135774B2 (en) | 2018-01-30 | 2024-11-05 | Cirrus Logic Inc. | Methods, apparatus and systems for biometric processes |
CN110853620A (zh) * | 2018-07-25 | 2020-02-28 | 音频分析有限公司 | 声音检测 |
US11748462B2 (en) | 2018-08-31 | 2023-09-05 | Cirrus Logic Inc. | Biometric authentication |
CN109658953A (zh) * | 2019-01-12 | 2019-04-19 | 深圳先进技术研究院 | 一种婴儿哭声识别方法、装置及设备 |
US11735202B2 (en) | 2019-01-23 | 2023-08-22 | Sound Genetics, Inc. | Systems and methods for pre-filtering audio content based on prominence of frequency content |
US12106766B2 (en) | 2019-01-23 | 2024-10-01 | Sound Genetics, Inc. | Systems and methods for pre-filtering audio content based on prominence of frequency content |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
CN110322898A (zh) * | 2019-05-28 | 2019-10-11 | 平安科技(深圳)有限公司 | 婴儿哭声检测方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
GB2466242A (en) | 2010-06-23 |
US20110218952A1 (en) | 2011-09-08 |
CN102246228B (zh) | 2014-06-18 |
US8918343B2 (en) | 2014-12-23 |
GB0822776D0 (en) | 2009-01-21 |
WO2010070314A1 (en) | 2010-06-24 |
US10586543B2 (en) | 2020-03-10 |
US20150112678A1 (en) | 2015-04-23 |
GB2466242B (en) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102246228B (zh) | 声音识别系统 | |
US9286911B2 (en) | Sound identification systems | |
US10455325B2 (en) | Direction of arrival estimation for multiple audio content streams | |
US11164594B2 (en) | Abnormal sound detection system, artificial sound creation system, and artificial sound creating method | |
US10224019B2 (en) | Wearable audio device | |
CN109298642B (zh) | 采用智能音箱进行监控的方法及装置 | |
US20150043737A1 (en) | Sound detecting apparatus, sound detecting method, sound feature value detecting apparatus, sound feature value detecting method, sound section detecting apparatus, sound section detecting method, and program | |
US11380326B2 (en) | Method and apparatus for performing speech recognition with wake on voice (WoV) | |
CN101150788B (zh) | 自检式无线广播终端系统及其监控处理器 | |
CN115482830A (zh) | 语音增强方法及相关设备 | |
US9779731B1 (en) | Echo cancellation based on shared reference signals | |
JP2020524300A (ja) | 音声データに基づいてイベント指定を取得する方法およびデバイス | |
CN111653067A (zh) | 智能家居设备及基于音频的报警方法 | |
CN213042656U (zh) | 信息处理装置 | |
GB2494511A (en) | Digital sound identification | |
KR102034176B1 (ko) | 음성 인식을 통한 현장 응급 상황 인지 방법 및 이에 사용되는 관리 서버 | |
US20240304171A1 (en) | Echo reference prioritization and selection | |
CN113488031B (zh) | 确定电子设备的方法、装置、存储介质及电子装置 | |
CA2432751A1 (en) | Enhanced method and apparatus for integrated alarm monitoring system based on sound related events | |
CN107111921A (zh) | 用于有效的可听警报设置的方法和设备 | |
Hu et al. | An embedded audio–visual tracking and speech purification system on a dual-core processor platform | |
WO2024197594A1 (zh) | 音频监护方法、系统、设备以及计算机存储介质 | |
CN111179527A (zh) | 基于动态音频信息的报警方法、装置、系统及存储介质 | |
KR20030027925A (ko) | 음성인식을 이용한 구조요청 장치 및 그 방법 | |
CN109819210A (zh) | 一种安全监控的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230224 Address after: California, USA Patentee after: Yuan Platform Technology Co.,Ltd. Address before: Cambridge County, England Patentee before: Audio Analytic Ltd. |