CN101887720A - 声讯语义辨识系统及方法 - Google Patents
声讯语义辨识系统及方法 Download PDFInfo
- Publication number
- CN101887720A CN101887720A CN2009103022764A CN200910302276A CN101887720A CN 101887720 A CN101887720 A CN 101887720A CN 2009103022764 A CN2009103022764 A CN 2009103022764A CN 200910302276 A CN200910302276 A CN 200910302276A CN 101887720 A CN101887720 A CN 101887720A
- Authority
- CN
- China
- Prior art keywords
- unit
- audio
- spectral image
- audio communication
- semanteme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000012937 correction Methods 0.000 claims abstract description 22
- 238000003860 storage Methods 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 230000003595 spectral effect Effects 0.000 claims description 57
- 238000004891 communication Methods 0.000 claims description 52
- 238000012850 discrimination method Methods 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种声讯语义辨识系统,包括一声讯取样单元,用于采集若干具有相同语义的声音信号;一频谱转换单元,用于将每一声音信号转换为频谱图像;一频谱修正单元,用于修正每一频谱图像以获得若干具有相同宽度的频谱图像作为所述训练对象;一样本训练单元,用于对训练对象进行分析以得到所述声音信号的特征数据;一语义链接单元,用于对所述特征数据赋予语义;一存储单元,用于存储所述声音信号的特征数据及其语义;以及一比较辨识单元,用于根据存储单元中的特征数据辨识一后续出现的声讯指令的语义。本发明还提供一种声讯语义辨识方法,所述声讯语义辨识系统及方法可准确辨识声讯指令的语义。
Description
技术领域
本发明涉及一种声讯语义辨识系统及方法。
背景技术
目前,声讯控制技术可应用于各种电子设备中,以通过对电子设备下达声音指令,从而自动控制电子设备的动作,这些电子设备包括但不限于机器人、电动玩具、手机、家电装置等。声讯控制过程中,常常出现受控的电子设备不能准确判断声讯指令所代表的含义而执行错误的动作,因此,如何能够提供一种能够准确辨识声讯指令的语义的声讯语义辨识技术,成为业界较为关注的问题。
发明内容
鉴于以上内容,有必要提供一种声讯语义辨识系统及方法,可准确辨识声讯指令所代表的含义。
一种声讯语义辨识系统,包括:
一声讯取样单元,用于采集若干具有相同语义的声音信号;
一频谱转换单元,用于将每一声音信号转换为频谱图像;
一频谱修正单元,用于对每一频谱图像进行修正以得到若干具有相同宽度的频谱图像作为训练对象;
一样本训练单元,用于对所述训练对象进行分析以得到所述声音信号的特征数据;
一语义链接单元,用于对所述特征数据赋予语义;
一存储单元,用于存储所述特征数据及其对应的语义;及
一辨识比较单元,用于根据所述存储单元中的特征数据判断后续出现的声讯指令的语义。
一种声讯语义辨识方法,包括以下步骤:
一声讯取样单元采集若干声音信号;
一频谱转换单元将每一声音信号转换为频谱图像;
一频谱修正单元修正每一频谱图像以获得若干具有相同宽度的频谱图像作为训练对象;
一样本训练单元对训练对象进行分析以得到所述声音信号的特征数据;
一语义链接单元对所述特征数据赋予语义;
一存储单元存储所述声音信号的特征数据及其语义;以及
一比较辨识单元根据存储单元中的特征数据辨识一后续出现的声讯指令的语义。
所述声讯语义辨识系统及方法通过所述频谱转换单元将声音信号转换为频谱图像,该频谱图像经修正、分析、语义链接后产生具有语义的特征数据,供后续的声讯指令进行比较,可准确判断声讯指令的语义。
附图说明
图1是本发明声讯语义辨识系统较佳实施方式的模块图。
图2为由图1中的频谱转换单元及频谱修正单元所得到的声讯频谱图。
图3是本发明声讯语义辨识方法较佳实施方式的流程图。
具体实施方式
下面结合附图及较佳实施方式对本发明作进一步详细描述:
请参照图1,本发明声讯语义辨识系统1的较佳实施方式包括一声讯取样单元10、一频谱转换单元11、一频谱修正单元12、一样本训练单元13、一语义链接单元14、一存储单元15及一比较辨识单元16。
所述声讯取样单元10用于对一发声源所发出的若干声音信号进行采样,所述若干声音信号为人或物体重复发出的、语义相同且长度接近的声音,其包含但不限于人声、音乐声、敲击声等。
请继续参考图2,所述频谱转换单元11用于通过对所述若干声音信号进行频谱分析以将所述声讯取样单元10所获得的每一声音信号转换为频谱图像20。图2中以三个重复发出的声音信号“向左转”为例,得到三个频谱图像20,由图2可知,每一声音信号“向左转”的频谱图像20的形状之间略有差异,造成该现象的原因是由于发声源在多次发声时不会产生完全相同的声音信号。
所述频谱修正单元12通过对所述频谱转换单元11所得到的每一频谱图像20的起始位置A及结束位置B进行标示后,再将每一频谱图像20进行缩放修正以得到若干具有相同宽度的频谱图像,以方便对所述声音信号进行后续的分析。
所述样本训练单元13将若干修正后的具有相同宽度的频谱图像作为训练对象30,通过对所述若干训练对象30进行分析以得到具有该语义的声音信号的特征数据,例如,所述样本训练单元13可对一定数量的训练对象30进行叠加统计后得到一特征数据,该特征数据可包括若干概率数据,每一概率数据表示具有该语义的声音信号的若干训练对象30出现在一图像区域中的概率,如,将所述训练对象30所在的图像范围(图2中,所述图像范围为所述训练对象30所在的实线框部分)划分为若干区域,所述训练对象30出现在每一区域中的概率即为一概率数据。所述特征数据作为代表具有该语义的声音信号的特征数据,以与后续出现的声讯指令的频谱图像进行比较;所述特征数据也可为其他类型的数据。按照上述的方法,所述样本训练单元13可得到若干具有不同语义的声音信号的特征数据。
所述语义链接单元14用于将所述特征数据与对应的声音信号所代表的语义进行链接,即,对所述特征数据赋予语义。
所述存储单元15用于存储若干具有不同语义的声音信号的特征数据及其对应的语义。
当所述声讯取样单元10后续采集到一声讯指令时,所述声讯指令经所述频谱转换单元11转换为频谱图像,再经所述频谱修正单元12修正为与所述训练对象30相同的宽度,该声讯指令经过修正后的频谱图像传输至所述比较辨识单元16;所述比较辨识单元16用于在所述存储单元15中寻找一与所述声讯指令最接近的声音信号的特征数据,并将该最接近的声音信号的特征数据与所述声讯指令经过修正后的频谱图像进行比较,以判断所述声讯指令是否与所述存储单元15中的该特征数据所对应的声音信号相同,当判断出所述声讯指令与所述存储单元15中的声音信号相同时,所述声讯语义辨识系统1便可确定所述声讯指令的语义。
本实施方式中,判断所述声讯指令经过修正后的频谱图像是否与该特征数据相符合的条件可由用户自行设定,例如,可设定当所述修正后的频谱图像与该特征数据相符合的程度达到90%以上时,便判定所述声讯指令和与该特征数据所对应的声音信号相同。
请继续参照图3,本发明声讯语义辨识方法的较佳实施方式应用于图1中的声讯语义辨识系统1,所述声讯语义辨识方法包括以下步骤:
步骤S1:所述声讯取样单元10对若干声音信号进行采样,所述若干声音信号为人或物体重复发出的、语义相同且长度接近的声音。
步骤S2:所述频谱转换单元11通过对若干声音信号进行频谱分析以将所述声讯取样单元10所获得的若干声音信号转换为若干频谱图像20。
步骤S3:所述频谱修正单元12获得若干具有相同宽度的所述声音信号的训练对象30。本实施方式中,所述频谱修正单元12通过对所述频谱转换单元11所得到的每一频谱图像20的起始位置A及结束位置B进行标示后,再将每一频谱图像20进行缩放修正以得到若干具有相同宽度的频谱图像作为所述训练对象30。
步骤S4:所述样本训练单元13对若干训练对象30进行分析以得到所述若干声音信号的特征数据。如,所述样本训练单元13对一定数量的训练对象30进行概率统计后即可得到所述声音信号的特征数据。
步骤S5:所述语义链接单元14将所述声音信号的特征数据与所述声音信号所代表的语义进行链接,即对所述特征数据赋予语义。
步骤S6:所述存储单元15存储所述声音信号的特征数据及其所对应的语义。按照上述方法对其它声音信号进行采样,即可得到若干具有不同语义的特征数据,所述若干具有不同语义的特征数据均被存储于所述存储单元15内。
步骤S7:所述比较辨识单元16根据所述存储单元14存储的特征数据辨识一后续出现的声讯指令的语义。本实施方式中,所述比较辨识单元16在所述存储单元15中寻找一与所述声讯指令最接近的声音信号的特征数据,用来与所述声讯指令修正后的频谱图像进行比较,以判断所述声讯指令是否与所述存储单元15中的一特征数据所对应的声音信号相同,如果所述声讯指令修正后的频谱图像与该特征数据达到相符合的条件时,如,所述声讯指令修正后的频谱图像与该特征数据相符台的程度满足一设定值时,所述声讯语义辨识系统1便可确定所述声讯指令的含义。所述声讯指令的语义便可确定为该特征数据所链接的语义。所述设定值可由用户自行设定,如90%或80%。
所述声讯语义辨识系统及方法可通过所述频谱转换单元11将声音信号转换为频谱图像20,该频谱图像经所述频谱修正单元12的修正、所述样本训练单元13的分析计算及所述语义链接单元14进行语义链接后产生所述特征数据,以与后续的声讯指令的频谱图像进行比较,可准确判断所述声讯指令的语义。
Claims (6)
1.一种声讯语义辨识系统,包括:
一声讯取样单元,用于采集若干具有相同语义的声音信号;
一频谱转换单元,用于将每一声音信号转换为频谱图像;
一频谱修正单元,用于对每一频谱图像进行修正以得到若干具有相同宽度的频谱图像作为训练对象;
一样本训练单元,用于对所述训练对象进行分析以得到所述声音信号的特征数据;
一语义链接单元,用于对所述特征数据赋予语义;
一存储单元,用于存储所述特征数据及其对应的语义;及
一辨识比较单元,用于根据所述存储单元中的特征数据判断后续出现的声讯指令的语义。
2.如权利要求1所述的声讯语义辨识系统,其特征在于:所述若干声音信号为若干重复发出的长度接近的声音。
3.如权利要求1所述的声讯语义辨识系统,其特征在于:所述频谱修正单元通过将每一频谱图像的起始位置以及结束位置进行标示后进行比例缩放,以得到对应的训练对象。
4.如权利要求1所述的声讯语义辨识系统,其特征在于:所述特征数据包括若干概率数据,每一概率数据用以表示所述若干训练对象出现在一图像范围中一对应区域中的概率。
5.一种声讯语义辨识方法,包括以下步骤:
一声讯取样单元采集若干具有相同语义的声音信号;
一频谱转换单元将每一声音信号转换为频谱图像;
一频谱修正单元修正每一频谱图像以获得若干具有相同宽度的频谱图像作为训练对象;
一样本训练单元对训练对象进行分析以得到所述声音信号的特征数据;
一语义链接单元对所述特征数据赋予语义;
一存储单元存储所述声音信号的特征数据及其语义;以及
一比较辨识单元根据存储单元中的特征数据辨识一后续出现的声讯指令的语义。
6.如权利要求5所述的声讯语义辨识方法,其特征在于:所述声讯语义辨识方法还包括以下步骤:
所述声讯取样单元采集所述声讯指令;
所述频谱转换单元将所述声讯指令转换为频谱图像;
所述频谱修正单元修正声讯指令的频谱图像;
所述比较辨识单元接收所述声讯指令修正后的的频谱图像;
所述比较辨识单元在所述存储单元中寻找一与所述声讯指令最接近的声音信号的特征数据,用来与所述声讯指令修正后的频谱图像进行比较,当比较出所述声讯指令修正后的频谱图像与该特征数据达到相符合的条件时,所述声讯指令的语义确定为该特征数据所对应的语义。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009103022764A CN101887720A (zh) | 2009-05-13 | 2009-05-13 | 声讯语义辨识系统及方法 |
US12/538,836 US20100292988A1 (en) | 2009-05-13 | 2009-08-10 | System and method for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009103022764A CN101887720A (zh) | 2009-05-13 | 2009-05-13 | 声讯语义辨识系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101887720A true CN101887720A (zh) | 2010-11-17 |
Family
ID=43069242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009103022764A Pending CN101887720A (zh) | 2009-05-13 | 2009-05-13 | 声讯语义辨识系统及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20100292988A1 (zh) |
CN (1) | CN101887720A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598790A (zh) * | 2013-10-30 | 2015-05-06 | 鸿富锦精密工业(深圳)有限公司 | 手持装置解锁系统、方法及手持装置 |
CN105931650A (zh) * | 2016-04-20 | 2016-09-07 | 深圳市航盛电子股份有限公司 | 一种基于音频特征提取的自适应降噪方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4489435A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Method and apparatus for continuous word string recognition |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US6134527A (en) * | 1998-01-30 | 2000-10-17 | Motorola, Inc. | Method of testing a vocabulary word being enrolled in a speech recognition system |
US6219642B1 (en) * | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
JP2001117579A (ja) * | 1999-10-21 | 2001-04-27 | Casio Comput Co Ltd | 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体 |
US7016839B2 (en) * | 2002-01-31 | 2006-03-21 | International Business Machines Corporation | MVDR based feature extraction for speech recognition |
JP2005148151A (ja) * | 2003-11-11 | 2005-06-09 | Mitsubishi Electric Corp | 音声操作装置 |
US7299181B2 (en) * | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
WO2006004050A1 (ja) * | 2004-07-01 | 2006-01-12 | Nippon Telegraph And Telephone Corporation | 特定音響信号含有区間検出システム及びその方法並びにプログラム |
CN101197131B (zh) * | 2006-12-07 | 2011-03-30 | 积体数位股份有限公司 | 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法 |
US7983916B2 (en) * | 2007-07-03 | 2011-07-19 | General Motors Llc | Sampling rate independent speech recognition |
US9293130B2 (en) * | 2008-05-02 | 2016-03-22 | Nuance Communications, Inc. | Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit |
-
2009
- 2009-05-13 CN CN2009103022764A patent/CN101887720A/zh active Pending
- 2009-08-10 US US12/538,836 patent/US20100292988A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598790A (zh) * | 2013-10-30 | 2015-05-06 | 鸿富锦精密工业(深圳)有限公司 | 手持装置解锁系统、方法及手持装置 |
CN105931650A (zh) * | 2016-04-20 | 2016-09-07 | 深圳市航盛电子股份有限公司 | 一种基于音频特征提取的自适应降噪方法 |
CN105931650B (zh) * | 2016-04-20 | 2019-11-29 | 深圳市航盛电子股份有限公司 | 一种基于音频特征提取的自适应降噪方法 |
Also Published As
Publication number | Publication date |
---|---|
US20100292988A1 (en) | 2010-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108511000B (zh) | 一种测试智能音箱唤醒词识别率的方法及系统 | |
CN107591152B (zh) | 基于耳机的语音控制方法、装置及其设备 | |
CN110718235B (zh) | 异常声音检测的方法、电子设备及存储介质 | |
CN103745722A (zh) | 一种语音交互智能家居系统及语音交互方法 | |
TW201218023A (en) | Efficient gesture processing | |
CN111796790B (zh) | 一种音效调节方法、装置、可读存储介质及终端设备 | |
WO2019128829A1 (zh) | 动作执行方法、装置、存储介质及电子装置 | |
CN110910865B (zh) | 语音转换方法和装置、存储介质及电子装置 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
CN105188008B (zh) | 一种测试音频输出单元的方法及装置 | |
CN203689892U (zh) | 视唱场所专用个人音频数据调备装置 | |
CN111415675B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN104464016A (zh) | 电缆设备移动智能巡检系统及巡检方法 | |
CN101887720A (zh) | 声讯语义辨识系统及方法 | |
CN103957531B (zh) | 采用智能通信终端进行信号测试的方法和装置 | |
KR102614038B1 (ko) | 순차적인 활동 지능형 개인 보조 | |
CN109410920A (zh) | 用于获取信息的方法及装置 | |
KR20230013024A (ko) | 무선 네트워크의 적응적 라디오 구성 | |
CN108814584A (zh) | 心电信号检测方法、终端和计算机可读存储介质 | |
CN115494739B (zh) | 一种智能音响与智能家居联动方法及联动系统 | |
CN105276752A (zh) | 基于音频信号的空调器运行参数调节方法和系统 | |
CN102684795B (zh) | 一种射频信号自动采集处理装置及其方法 | |
CN117169812A (zh) | 一种基于深度学习和波束形成的声源定位方法 | |
CN113488068B (zh) | 音频异常检测方法、装置及计算机可读存储介质 | |
CN109990889B (zh) | 一种录音机器人的控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20101117 |