CN104658549A - 用于识别语音的预处理装置及其方法 - Google Patents
用于识别语音的预处理装置及其方法 Download PDFInfo
- Publication number
- CN104658549A CN104658549A CN201410392228.XA CN201410392228A CN104658549A CN 104658549 A CN104658549 A CN 104658549A CN 201410392228 A CN201410392228 A CN 201410392228A CN 104658549 A CN104658549 A CN 104658549A
- Authority
- CN
- China
- Prior art keywords
- interval
- quiet
- length
- voice signal
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000007781 pre-processing Methods 0.000 title abstract 3
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 238000004904 shortening Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种用于识别语音的预处理装置及其方法,所述装置包括:末端静音区间检测部,其用于检测包含在语音信号中的末端静音区间的长度;基准末端静音区间存储部,其用于存储基准末端静音区间的长度;以及末端静音区间调整部,其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。根据本发明,在识别语音时考虑用户的声响预处理语音信号,使得末端静音区间保持一定,从而提高语音识别性能。
Description
技术领域
本发明涉及一种用于识别语音的预处理装置及其方法,尤其涉及识别语音时考虑用户的声响预处理语音信号,使得末端静音区间(TrailingSilence)保持一定,以提高语音识别性能的用于识别语音的预处理装置及其方法。
背景技术
现在随着电子装置的智能化发展,越来越多地通过语音对装置进行控制。
为了控制上述利用语音的装置,需要识别语音并理解语言,因此对语音识别传感器或语音识别装置的研究增多。
例如,现在随着出台关于禁止车辆行驶过程中收看数字多媒体广播(DMB)或操作导航仪的道路交通法修正案,对导航仪的语音识别功能的关注度进一步上升。
识别语音需大量消耗装置资源(即CPU或存储器资源)。从而如导航仪等资源并不充分的便携装置,为了尽可能降低装置的资源消耗,并且为了确保正确的信号处理,需要进行处理使得能够准确地检测到可能的语音输入区间。
现有语音识别装置(或者语音识别引擎)为能够准确地检测到上述语音识别区间而采用的一种处理方法是包含末端静音(Trailing Silence)区间的方法。
在此,所述末端静音区间指输出用于告知用户开始输入用于识别的语音的开始音(例如:嘟嘟(BEEP)音)至实际输入语音信号的时间,或者音节与音节之间的无音区间。
例如,启动语音识别时,当用户为了正常的信号处理而按语音识别装置(例:导航仪)的语音识别启动键时,所述语音识别装置输出语音识别开始音(例:嘟嘟(BEEP)音)。因此,用户听到所述开始音后输入语音(或是语音命令),所述语音识别装置处理所述开始音输出后输入的语音信号,以分析语音(或是语音命令)。
所以,利用如上述方式(即,输出开始音后输入语音的方式)执行语音识别时,若如图1中的(b)所示地在所述开始音输出之前先输入语音,或者如图1中的(c)所示地在输出所述开始音后经过特定时间时输入语音,那么所述语音识别装置不能正确执行信号处理,无法准确地识别语音。即有语音识别率降低的问题。
换言之,利用如上所述的方式(即,输出开始音后输入语音的方式)执行语音识别时,如图1中的(a)所示,需要根据所述语音识别装置输入包含适当长度的末端静音区间的语音信号。但是当所述末端静音区间因用户的声响而变长或变短时,与包括适当长度的末端静音区间的情况相比,具有语音识别率降低的问题。
本发明的背景技术公开在韩国授权专利10-0714721号(授权日:2007年04月27日,语音区间检测方法及其装置)。
发明内容
技术问题
本发明为了解决上述问题,目的在于提供一种识别语音时考虑用户的声响预处理语音信号,使得末端静音(Trailing Silence)区间保持一定,以提高语音识别性能的用于识别语音的预处理装置及其方法。
技术方案
根据本发明的一个侧面,本发明提供一种用于识别语音的预处理装置,其包括:末端静音区间检测部,其用于检测包含在语音信号中的末端静音区间的长度;基准末端静音区间存储部,其用于存储基准末端静音区间的长度;以及末端静音区间调整部,其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。
本发明的特征在于,所述末端静音区间是输出语音识别开始音后,从通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
本发明的另一特征在于,所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时,通过延长所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
本发明的又一特征在于,所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度长于基准末端静音区间的长度时,通过缩短所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
本发明的又一特征在于,所述末端静音区间调整部在调整所述末端静音区间时,通过添加或删除所述语音信号开始的初始部分的区间进行调整。
根据本发明的另一侧面,本发明提供一种用于识别语音的预处理方法,其特征在于,包括:接收语音信号的步骤;检测包含在所述语音信号中的末端静音区间的长度的步骤;以及按照预先设定的基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的步骤。
本发明的另一特征在于,所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是,在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时,通过延长所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
本发明的又一特征在于,所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是,在从所述语音信号检测到的末端静音区间的长度长于基准末端静音区间的长度时,通过缩短所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
本发明的又一特征在于,所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是,在调整所述末端静音区间时,通过添加或删除所述语音信号开始的初始部分的区间进行调整。
本发明的特征在于,所述末端静音区间是输出语音识别开始音后,至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
技术效果
根据本发明,在识别语音时考虑用户的声响预处理语音信号,使得末端静音区间保持一定,从而提高语音识别性能。
附图说明
图1为说明现有语音识别装置中包含在接收到的语音信号中的末端静音区间的长度所对应的语音识别率的示意图;
图2为显示本发明的一个实施例的语音识别装置的大致构成的示意图;
图3为说明本发明的一个实施例的用于识别语音的预处理方法的流程图;
图4为上述图3中说明末端静音区间的调整方法的语音信号的示意图;
图5为显示本发明的一个实施例的调整包含在语音信号中的末端静音区间长度的情况和没有调整时的情况的语音识别率比较表格。
附图标记说明
MIC : 语音输入部 110 : 模数转换部(AD转换部)
120 : 末端静音区间预处理部 121 : 末端静音区间检测部
122 : 末端静音区间调整部 123 : 基准末端静音区间存储部
130 : 信号预处理部 140 : 语音识别部
具体实施方式
以下,参考附图说明本发明的用于识别语音的预处理装置及其方法的一个实施例。
此过程中,附图所示的线条的宽度或构成要素的大小等,为了说明的明确性和便利性有可能放大显示。另外,后述的用语是考虑到本发明的功能而定义的用语,根据使用者、运营者的意图和惯例可有所不同。所以对这些用语的定义应以本说明书全篇内容为准。
图2为显示本发明的一个实施例的语音识别装置的大致构成的示意图。
如图2所示,本发明的一个实施例的语音识别装置包括语音输入部MIC、模数转换部(AD转换部)110、末端静音区间预处理部120、信号预处理部130以及语音识别部140。
所述语音输入部MIC是用于接收用户的语音的构成要素,例如相当于麦克风。
所述模数转换部110将从所述语音输入部MIC输出的用户语音信号转换为易于处理的数字信号。
所述末端静音区间预处理部120包括:检测包含在所述语音信号中的末端静音区间(时间)的长度的末端静音区间检测部121,存储基准末端静音区间(时间)长度的基准末端静音区间存储部123,按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的末端静音区间调整部122。
因此,所述末端静音区间预处理部120从变换为所述数字信号的用户的语音信号中检测末端静音区间(时间),并将包含在所述语音信号中的所述末端静音区间调整成基准末端静音区间的长度。
例如,当从所述语音信号中检测的末端静音区间的长度短于基准末端静音区间的长度时,通过延长所述语音信号中的末端静音区间的长度,以调整成基准末端静音区间的长度。相反,当从所述语音信号中检测的末端静音区间的长度长于基准末端静音区间的长度时,通过缩短所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
这时,所述末端静音区间预处理部120可利用如微处理器或者数字信号处理器等一种控制构件实现,以软件方式处理所述末端静音区间的调整。
在此,所述末端静音区间是从输出语音识别开始音(嘟嘟(BEEP)音)后至通过所述语音输入部MIC检测到的语音信号中输入有实际的用户语音的时间的区间,考虑到便利性,本实施例中将所述末端静音区间假设为100ms进行说明。这时,所述实际用户的语音输入的点是语音信号中预先设定的临界值(Threshold Level)以上的点。
所述信号预处理部130接收所述末端静音区间经过预处理后的语音信号,以执行信号预处理。
即,对所述语音信号执行消除噪音及自动增益调节等识别语音所需的信号预处理作业。
所述语音识别部140识别经过所述信号预处理后的语音信号。
即,识别相应于所述语音信号的命令的含义。换言之判断相当于所述语音的命令。
另外,在本实施例中省略与本发明的技术主题无直接关联的所述信号预处理部130及所述语音识别部140的具体说明。
图3为说明本发明的一个实施例的用于语音识别的预处理方法的流程图,图4为所述图3中说明末端静音区间的调整方法的语音信号的示意图。
以下,参考图3和图4说明包含在所述语音信号中的末端静音区间的长度调整方法。
在步骤S101中,所述末端静音区间预处理部120接收变换为所述数字信号的语音信号。
并且在步骤S102中,检测包含在所述语音信号中的末端静音区间的长度。
这时,包含在所述语音信号的末端静音区间的长度可能如图4中的(a)所示,短于基准末端静音区间的长度(例如:100ms),或可能如图4中的(b)所示,长于基准末端静音区间的长度。
因此当如图4中的(a)所示,从语音信号中检测的末端静音区间的长度短(例如:20ms)的情况下,在步骤S103中所述末端静音区间预处理部120按照基准末端静音区间的长度(例如:100ms)增加末端静音区间的长度(例如:80ms),以进行调整。
同样,当如图4中的(b)所示,从语音信号检测的末端静音区间的长度长(例如:200ms)的情况下,在步骤S103中所述末端静音区间预处理部120按照基准末端静音区间的长度(例如:100ms)去除末端静音区间的部分长度(例如:100ms)。
这时,所述末端静音区间的调整部分是语音信号开始的初始部分。
如上所述,通过末端静音区间预处理部120,按照基准末端静音区间的长度调整包含在语音信号中的末端静音区间的长度,从而能够提高语音识别率。
图5为显示比较本发明的一个实施例的调整包含在语音信号中的末端静音区间的长度的情况与未调整时的情况的语音识别率比较表格。
如图5所示,当包含在语音信号中的末端静音区间的长度比基准末端静音区间的长度(例如:100ms)短(例如:20ms)或长(例如:200ms)时,语音识别率为90%,处于低水平,但是当利用本发明的方法,按照基准末端静音区间的长度(例如:100ms)调整包含在语音信号中的末端静音区间的长度时,可以确认到语音识别率提高到95%。
以上,参考附图所示的实施例对本发明做了说明,但这只是例子,本发明所属领域的普通技术人员应该理解,可以由此实现多种变更及均等的其他实施例。因此,本发明的技术保护范围应以本发明的技术方案的范围为准。
Claims (10)
1.一种用于识别语音的预处理装置,其特征在于,包括:
末端静音区间检测部,其用于检测包含在语音信号中的末端静音区间的长度;
基准末端静音区间存储部,其用于存储基准末端静音区间的长度;以及
末端静音区间调整部,其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。
2.根据权利要求1所述的用于识别语音的预处理装置,其特征在于:
所述末端静音区间是输出语音识别开始音后,至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
3.根据权利要求1所述的用于识别语音的预处理装置,其特征在于:
所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时,通过延长所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
4.根据权利要求3所述的用于识别语音的预处理装置,其特征在于:
所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度长于基准末端静音区间的长度时,通过缩短所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
5.根据权利要求1所述的用于识别语音的预处理装置,其特征在于:
所述末端静音区间调整部在调整所述末端静音区间时,通过添加或删除所述语音信号开始的初始部分的区间进行调整。
6.一种用于识别语音的预处理方法,其特征在于,包括:
接收语音信号的步骤;
检测包含在所述语音信号中的末端静音区间的长度的步骤;以及
按照预先设定的基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的步骤。
7.根据权利要求6所述的用于识别语音的预处理方法,其特征在于:
所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是,在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时,通过延长所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
8.根据权利要求7所述的用于识别语音的预处理方法,其特征在于:
所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是,在从所述语音信号检测到的末端静音区间的长度长于基准末端静音区间的长度时,通过缩短所述语音信号的末端静音区间的长度,以调整成基准末端静音区间的长度。
9.根据权利要求6所述的用于识别语音的预处理方法,其特征在于:
所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是在调整所述末端静音区间时,通过添加或删除所述语音信号开始的初始部分的区间进行调整。
10.根据权利要求6所述的用于识别语音的预处理方法,其特征在于:
所述末端静音区间是输出语音识别开始音后,至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2013-0139068 | 2013-11-15 | ||
KR1020130139068A KR102238979B1 (ko) | 2013-11-15 | 2013-11-15 | 음성 인식을 위한 전처리 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104658549A true CN104658549A (zh) | 2015-05-27 |
CN104658549B CN104658549B (zh) | 2018-04-10 |
Family
ID=51429168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410392228.XA Active CN104658549B (zh) | 2013-11-15 | 2014-08-11 | 用于识别语音的预处理装置及其方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9437217B2 (zh) |
EP (1) | EP2874148B1 (zh) |
KR (1) | KR102238979B1 (zh) |
CN (1) | CN104658549B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427870A (zh) * | 2015-12-23 | 2016-03-23 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102495517B1 (ko) * | 2016-01-26 | 2023-02-03 | 삼성전자 주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
KR102241970B1 (ko) * | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
US10979331B2 (en) | 2017-05-16 | 2021-04-13 | Apple Inc. | Reducing startup delays for presenting remote media items |
CN112542159B (zh) * | 2020-12-01 | 2024-04-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
FI20206336A1 (en) * | 2020-12-18 | 2022-06-19 | Elisa Oyj | A computer-implemented method and device for detecting silence in speech recognition |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764584A (ja) * | 1993-08-27 | 1995-03-10 | Olympus Optical Co Ltd | 音声情報の再生速度自動調整装置 |
CN1343966A (zh) * | 2000-09-12 | 2002-04-10 | 日本先锋公司 | 声音识别系统 |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
US20070019931A1 (en) * | 2005-07-19 | 2007-01-25 | Texas Instruments Incorporated | Systems and methods for re-synchronizing video and audio data |
KR100714721B1 (ko) * | 2005-02-04 | 2007-05-04 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US20110106283A1 (en) * | 2008-07-14 | 2011-05-05 | Everhear Partners, Inc. | Child's media player with automatic wireless synchronization from content servers with adult management and content creation |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05130252A (ja) * | 1991-11-05 | 1993-05-25 | Hitachi Ltd | デイジタル信号受け渡しシステムとデイジタル音声信号処理回路及び信号変換回路 |
JPH0698398A (ja) * | 1992-06-25 | 1994-04-08 | Hitachi Ltd | 音声の無音区間検出伸長装置及び音声の無音区間検出伸長方法 |
KR100373329B1 (ko) * | 1999-08-17 | 2003-02-25 | 한국전자통신연구원 | 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법 |
KR100677950B1 (ko) * | 2005-06-09 | 2007-02-05 | 주식회사 아이웨어 | 음성신호를 보존하는 재생속도 가변 장치 및 방법 |
JP4872690B2 (ja) * | 2007-02-01 | 2012-02-08 | 沖電気工業株式会社 | 音声合成方法、音声合成プログラム、音声合成装置 |
US20100312469A1 (en) * | 2009-06-05 | 2010-12-09 | Telenav, Inc. | Navigation system with speech processing mechanism and method of operation thereof |
JP5966326B2 (ja) * | 2010-12-07 | 2016-08-10 | ヤマハ株式会社 | マスカ音出力装置、マスカ音出力システム、およびプログラム |
EP2595146A1 (en) * | 2011-11-17 | 2013-05-22 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
-
2013
- 2013-11-15 KR KR1020130139068A patent/KR102238979B1/ko active IP Right Grant
-
2014
- 2014-08-11 CN CN201410392228.XA patent/CN104658549B/zh active Active
- 2014-09-02 EP EP14183149.5A patent/EP2874148B1/en active Active
- 2014-09-11 US US14/484,084 patent/US9437217B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764584A (ja) * | 1993-08-27 | 1995-03-10 | Olympus Optical Co Ltd | 音声情報の再生速度自動調整装置 |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
CN1343966A (zh) * | 2000-09-12 | 2002-04-10 | 日本先锋公司 | 声音识别系统 |
KR100714721B1 (ko) * | 2005-02-04 | 2007-05-04 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US20070019931A1 (en) * | 2005-07-19 | 2007-01-25 | Texas Instruments Incorporated | Systems and methods for re-synchronizing video and audio data |
US20110106283A1 (en) * | 2008-07-14 | 2011-05-05 | Everhear Partners, Inc. | Child's media player with automatic wireless synchronization from content servers with adult management and content creation |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427870A (zh) * | 2015-12-23 | 2016-03-23 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
CN105427870B (zh) * | 2015-12-23 | 2019-08-30 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104658549B (zh) | 2018-04-10 |
EP2874148B1 (en) | 2017-03-29 |
KR20150056276A (ko) | 2015-05-26 |
US20150142430A1 (en) | 2015-05-21 |
KR102238979B1 (ko) | 2021-04-12 |
EP2874148A1 (en) | 2015-05-20 |
US9437217B2 (en) | 2016-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104658549A (zh) | 用于识别语音的预处理装置及其方法 | |
US8554564B2 (en) | Speech end-pointer | |
US9818407B1 (en) | Distributed endpointing for speech recognition | |
KR20180084392A (ko) | 전자 장치 및 그의 동작 방법 | |
US20160055847A1 (en) | System and method for speech validation | |
US20140337031A1 (en) | Method and apparatus for detecting a target keyword | |
WO2007115088A3 (en) | A system and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy | |
CN105261357A (zh) | 基于统计模型的语音端点检测方法及装置 | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
US20080172225A1 (en) | Apparatus and method for pre-processing speech signal | |
US20230223014A1 (en) | Adapting Automated Speech Recognition Parameters Based on Hotword Properties | |
EP3252765A1 (en) | Noise suppression in a voice signal | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
JPWO2003107326A1 (ja) | 音声認識方法及びその装置 | |
CN106920558B (zh) | 关键词识别方法及装置 | |
CN105513606A (zh) | 语音信号处理方法、装置和系统 | |
US20150039312A1 (en) | Controlling speech dialog using an additional sensor | |
CN111768800B (zh) | 语音信号处理方法、设备及存储介质 | |
US20230317080A1 (en) | Dialogue system and control method thereof | |
WO2017119901A1 (en) | System and method for speech detection adaptation | |
US20200321022A1 (en) | Method and apparatus for detecting an end of an utterance | |
KR101610152B1 (ko) | 차량용 음성 인식 시스템 및 그 방법 | |
JPH07225592A (ja) | 有音区間検出装置 | |
CN116072104A (zh) | 语音性别识别方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |