CN101753709A - 语音辅助输入系统及方法 - Google Patents
语音辅助输入系统及方法 Download PDFInfo
- Publication number
- CN101753709A CN101753709A CN200810306184A CN200810306184A CN101753709A CN 101753709 A CN101753709 A CN 101753709A CN 200810306184 A CN200810306184 A CN 200810306184A CN 200810306184 A CN200810306184 A CN 200810306184A CN 101753709 A CN101753709 A CN 101753709A
- Authority
- CN
- China
- Prior art keywords
- voice
- sample
- auxiliary
- voice signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 abstract 2
- 210000001072 colon Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
一种语音辅助输入系统,该系统运行于手机中,该手机还包括语音样本数据库,该语音样本数据库用于存储各样本及各样本相应的语音信号的特征参数,该系统包括:获取模块,用于当启动语音辅助输入系统时,获取所输入的语音信号;前置处理模块,用于对所获取的语音信号进行前置处理;特征撷取模块,用于撷取所述前置处理后语音信号中的特征参数;计算模块,用于根据所撷取的特征参数计算所述语音样本数据库中各样本的机率;及生成模块,用于根据所述计算的结果生成待选样本列表。本发明还提供一种语音辅助输入方法。
Description
技术领域
本发明涉及一种输入系统及方法,尤其涉及一种语音辅助输入系统及方法。
背景技术
随着通讯技术的发展,各类用于通讯的电子产品成本越来越低,市场价格也随之下降,从而得以更普遍的应用,例如,手机的普及率越来越高,成为广大用户日常生活中不可缺少的通讯工具。在使用手机的过程中,手机的短信息功能的利用率相当高。
目前,手机短信息的输入法主要依赖拼音输入和手动选字来完成,但是如果需要输入标点符号或者阿拉伯数字,则需要切换输入法来选取所需要的标点符号或者阿拉伯数字。用户需要花费时间切换输入法来寻找所需要的符号及阿拉伯数字。
发明内容
鉴于以上内容,有必要提供一种语音辅助输入系统,可以通过语音输入来获取所需的内容,省去了手动切换输入法的步骤,达到快速输入的目的。
此外,还有必要提供一种语音辅助输入方法,可以通过语音输入来获取所需的内容,省去了手动切换输入法的步骤,达到快速输入的目的。
一种语音辅助输入系统,该系统运行于手机中,该手机还包括语音样本数据库,该语音样本数据库用于存储各样本及各样本相应的语音信号的特征参数,该系统包括:获取模块,用于当启动语音辅助输入系统时,获取所输入的语音信号;前置处理模块,用于对所获取的语音信号进行前置处理;特征撷取模块,用于撷取所述前置处理后语音信号中的特征参数;计算模块,用于根据所撷取的特征参数计算所述语音样本数据库中各样本的机率;及生成模块,用于根据所述计算的结果生成待选样本列表。
一种语音辅助输入方法,应用于手机中,该手机包括语音样本数据库,该语音样本数据库用于存储各样本及各样本相应的语音信号的特征参数,该方法包括如下步骤:当启动手机的语音辅助输入系统时,获取所输入的语音信号;对所获取的语音信号进行前置处理;撷取所述前置处理后语音信号中的特征参数;根据所撷取的特征参数计算语音样本数据库中各样本的机率;及根据所述计算的结果生成待选样本列表。
相较于现有技术,所述的语音辅助输入系统及方法,可以对所输入的语音信号进行处理并撷取该语音信号中的特征参数,将所撷取的特征参数与手机中的语音样本进行比对计算,根据计算的结果生成待选样本列表以供用户选择,避免了手动输入时需切换输入法的步骤,节省了大量时间,达到快速输入的目的。
附图说明
图1是本发明语音辅助输入系统的应用环境图。
图2是本发明语音辅助输入系统的功能模块图。
图3是本发明语音辅助输入方法的较佳实施方式的流程图。
图4是本发明的端点检测的能量检测方法示意图。
具体实施方式
如图1所示,是本发明语音辅助输入系统的较佳实施方式的应用环境图。该语音辅助输入系统10运行于手机1中,该手机1还包括语音样本数据库12。所述语音样本数据库12用于存储各样本及各样本相应的语音信号特征参数。所述样本包括,但不限于,标点符号及阿拉伯数字,例如:冒号、逗号、分号、句号及0、1、2、3、4、5、6、7、8、9。所述语音辅助输入系统10可以对所输入的语音信号进行处理并撷取该语音信号中的特征参数,将所撷取的特征参数与手机1中的语音样本数据库12中的各样本的语音信号特征参数进行比对计算,根据计算的结果生成待选样本列表以供用户选择。
如图2所示,是本发明语音辅助输入系统的功能模块图。所述的语音辅助输入系统10包括:获取模块100、前置处理模块102、参数撷取模块104、识别模块106及生成模块108。
所述获取模块100用于当启动语音辅助输入系统时,获取所输入的语音信号。例如,若用户口语输入“冒号”,则获取模块100则获取该“冒号”的语音信号。
所述前置处理模块102用于对所获取的语音信号进行前置处理。所述前置处理是指对原始语音进行处理,使处理后的信号更能反映语音的本质特征。所述前置处理包括,但不限于,端点检测和预强调。所述端点检测的方法包括,但不限于,能量检测法。所述能量检测法是指在一段语音信号中,判断有声、无声区域的方法。因为静音部分得能量一定比有声部分低,因此可以设置一个门槛值,能量值大于该门槛值的部分即为有声区域,能量值小于该门槛值的部分为无声区域。如图4所示的能量检测方法示意图,若设置门槛值为5,图中N1至N2段的能量值大于5,即为有声部区域,N1为语音信号的起始点,N2为语音信号的结束点。所述预强调是指对语音信号中衰减的高频信号进行补偿。因为声音从人的嘴唇发出后,声音频率较高的部分会衰减,所以需要用预强调对衰减的部分进行补偿。预强调就是让声音通过一个高通滤波器来补偿高频的损失。
所述特征撷取模块104用于撷取所述前置处理后语音信号中的特征参数。所述特征参数包括,但不限于,频谱和音高。所述频谱是指从将语音信号经过傅立叶装换后的语音信号中取得的参数;所述音高是指语音信号的波形图中基本周期的长度。
所述计算模块106用于根据所撷取的特征参数计算语音样本数据库12中各样本的机率。所述计算的方法包括,但不限于,动态时间轴校准。所述动态时间轴校准是指根据所输入的语音信号的特征参数与各样本的特征参数进行比对计算,以得到各样本的语音信号特征参数与所撷取的特征参数相同的机率。
所述生成模块108用于根据所述计算的结果生成待选样本列表。所述待选样本列表是指所述计算的机率最大前几名的样本列表,例如:机率最大前3名的样本列表、机率最大前4名的样本列表。若用户输入语音信号为“冒号”,语音样本数据库12中计算出的机率最大的第1名到第4名为“:”, “·”, “。”, “、”,则生成待选样本列表1:2· 3。4、。用户可在该待选样本列表中选取所需要的内容。
如图3所示,是本发明语音辅助输入方法的较佳实施方式的流程图。
步骤S10,启动手机1的语音辅助输入系统10。
步骤S12,获取模块100获取用户输入的语音信号。例如,若用户口语输入“冒号”,则获取模块100则获取该“冒号”的语音信号。
步骤S14,前置处理模块102对所获取的语音信号进行前置处理。所述前置处理包括,但不限于,端点检测和预强调。所述端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点和结束点。所述端点检测的方法包括,但不限于,能量检测法。所述能量检测法是在一段语音信号中,判断有声、无声区域的方法。因为静音部分得能量一定比有声部分低,因此可以设置一个门槛值,能量值大于该门槛值的起始点为端点检测的起始点,能量值小于该门槛值的起始点为端点检测的起始点。如图4所示,图4为语音信号的能量图,若设置门槛值为5,图中N1至N2段的能量值大于5,即为有声部区域,N1为语音信号的起始点,N2为语音信号的结束点。所述预强调是指对语音信号中衰减的高频信号进行补偿。因为声音从人的嘴唇发出后,声音频率较高的部分会衰减,所以需要用预强调对衰减的部分进行补偿。预强调就是让声音通过一个高通滤波器来补偿高频的损失。
步骤S16,特征撷取模块104撷取所述前置处理后语音信号中的特征参数。所述特征参数包括,但不限于,频谱和音高。所述频谱是指从将语音信号经过傅立叶装换后的语音信号中取得的参数;所述音高是指语音信号的波形图中基本周期的长度。
步骤S18,计算模块106根据所撷取的特征参数计算语音样本数据库12中各样本的机率。所述计算的方法包括,但不限于,动态时间轴校准。所述动态时间轴校准是指根据所输入的语音信号的特征参数与各样本的特征参数进行比对计算,以得到各样本的语音信号特征参数与所撷取的特征参数相同的机率。
步骤S20,生成模块108根据所述计算的结果生成待选样本列表。所述待选样本列表是指所述计算的机率最大的前几名样本的列表,例如:机率最大前3名的样本列表、机率最大前4名的样本列表。若用户输入语音信号为“冒号”,语音样本数据库12中计算出的机率最大的第1名到第4名为“:”,“·”,“。”,“、”,则生成待选样本列表1:2·3。4、。用户可在该待选样本列表中选取所需要的内容。
以上实施方式仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施方式对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换都不应脱离本发明技术方案的精神和范围。
Claims (9)
1.一种语音辅助输入系统,该系统运行于手机中,该手机还包括语音样本数据库,该语音样本数据库用于存储各样本及各样本相应的语音信号的特征参数,其特征在于,该系统包括:
获取模块,用于当启动语音辅助输入系统时,获取所输入的语音信号;
前置处理模块,用于对所获取的语音信号进行前置处理;
特征撷取模块,用于撷取所述前置处理后语音信号中的特征参数;
计算模块,用于根据所撷取的特征参数计算所述语音样本数据库中各样本的机率;及
生成模块,用于根据所述计算的结果生成待选样本列表。
2.如权利要求1所述的语音辅助输入系统,其特征在于,所述前置处理包括端点检测和预强调。
3.如权利要求2所述的语音辅助输入系统,其特征在于,所述端点检测的方法包括能量检测方法。
4.如权利要求1所述的语音辅助输入系统,其特征在于,所述特征参数包括频谱和音高。
5.如权利要求1所述的语音辅助输入系统,其特征在于,所述待选样本列表至少包括计算模块所计算的结果中机率最大的样本。
6.一种语音辅助输入方法,应用于手机中,该手机包括语音样本数据库,该语音样本数据库用于存储各样本及各样本相应的语音信号的特征参数,其特征在于,该方法包括如下步骤:
当启动手机的语音辅助输入系统时,获取所输入的语音信号;
对所获取的语音信号进行前置处理;
撷取所述前置处理后的语音信号中的特征参数;
根据所撷取的特征参数计算语音样本数据库中各样本的机率;及
根据所述计算的结果生成待选样本列表。
7.如权利要求6所述的语音辅助输入方法,其特征在于,所述前置处理包括步骤:
端点检测,即在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点和结束点;
预强调,即对语音中衰减的高频信号进行补偿。
8.如权利要求6所述的语音辅助输入方法,其特征在于,所述特征参数包括频谱和音高。
9.如权利要求6所述的语音辅助输入方法,其特征在于,所述待选样本列表至少包括所计算的结果中机率最大的样本。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810306184A CN101753709A (zh) | 2008-12-11 | 2008-12-11 | 语音辅助输入系统及方法 |
US12/547,642 US20100153110A1 (en) | 2008-12-11 | 2009-08-26 | Voice recognition system and method of a mobile communication device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810306184A CN101753709A (zh) | 2008-12-11 | 2008-12-11 | 语音辅助输入系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101753709A true CN101753709A (zh) | 2010-06-23 |
Family
ID=42241598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810306184A Pending CN101753709A (zh) | 2008-12-11 | 2008-12-11 | 语音辅助输入系统及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20100153110A1 (zh) |
CN (1) | CN101753709A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102881283A (zh) * | 2011-07-13 | 2013-01-16 | 三星电子(中国)研发中心 | 用于语音处理的方法与系统 |
CN103595852A (zh) * | 2012-08-14 | 2014-02-19 | 中兴通讯股份有限公司 | 一种语音辅助输入方法及装置 |
CN107799114A (zh) * | 2017-04-26 | 2018-03-13 | 珠海智牧互联科技有限公司 | 一种猪只咳嗽声音识别方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9042867B2 (en) | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
US9697836B1 (en) * | 2015-12-30 | 2017-07-04 | Nice Ltd. | Authentication of users of self service channels |
CN109146450A (zh) | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
US10592649B2 (en) | 2017-08-09 | 2020-03-17 | Nice Ltd. | Authentication via a dynamic passphrase |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4538295A (en) * | 1982-08-16 | 1985-08-27 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
US4833714A (en) * | 1983-09-30 | 1989-05-23 | Mitsubishi Denki Kabushiki Kaisha | Speech recognition apparatus |
JPH03123399A (ja) * | 1989-10-06 | 1991-05-27 | Ricoh Co Ltd | 音声認識装置 |
US20080154600A1 (en) * | 2006-12-21 | 2008-06-26 | Nokia Corporation | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition |
-
2008
- 2008-12-11 CN CN200810306184A patent/CN101753709A/zh active Pending
-
2009
- 2009-08-26 US US12/547,642 patent/US20100153110A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102881283A (zh) * | 2011-07-13 | 2013-01-16 | 三星电子(中国)研发中心 | 用于语音处理的方法与系统 |
CN102881283B (zh) * | 2011-07-13 | 2014-05-28 | 三星电子(中国)研发中心 | 用于语音处理的方法与系统 |
CN103595852A (zh) * | 2012-08-14 | 2014-02-19 | 中兴通讯股份有限公司 | 一种语音辅助输入方法及装置 |
CN107799114A (zh) * | 2017-04-26 | 2018-03-13 | 珠海智牧互联科技有限公司 | 一种猪只咳嗽声音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20100153110A1 (en) | 2010-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112863547B (zh) | 虚拟资源转移处理方法、装置、存储介质及计算机设备 | |
US9769296B2 (en) | Techniques for voice controlling bluetooth headset | |
CN101753709A (zh) | 语音辅助输入系统及方法 | |
EP2994910B1 (en) | Method and apparatus for detecting a target keyword | |
EP3998557A1 (en) | Audio signal processing method, model training method, and related apparatus | |
JP2018205751A (ja) | 音声プロファイルの管理および発話信号の生成 | |
US9984679B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
KR20180025121A (ko) | 메시지 입력 방법 및 장치 | |
CN103095911A (zh) | 一种通过语音唤醒寻找手机的方法及系统 | |
CN104123938A (zh) | 语音控制系统、电子装置及语音控制方法 | |
CN103903612A (zh) | 一种实时语音识别数字的方法 | |
CN102543073A (zh) | 一种沪语语音识别信息处理方法 | |
CN101345055A (zh) | 语音处理器和通信终端设备 | |
CN108039181A (zh) | 一种声音信号的情感信息分析方法和装置 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN109559744B (zh) | 语音数据的处理方法、装置及可读存储介质 | |
CN111613223B (zh) | 语音识别方法、系统、移动终端及存储介质 | |
CN116798431A (zh) | 一种跨模态多特征融合的音频语音识别方法 | |
Nguyen et al. | Vietnamese voice recognition for home automation using MFCC and DTW techniques | |
TWI428819B (zh) | 語音輔助輸入系統及方法 | |
US12080315B2 (en) | Audio signal processing method, model training method, and related apparatus | |
CN118197303B (zh) | 一种智能语音识别与情感分析系统及方法 | |
CN101165776B (zh) | 用于生成语音谱的方法 | |
CN111292739B (zh) | 一种语音控制方法、装置、存储介质及空调 | |
CN110853765A (zh) | 一种基于环境可视的智能人机交互系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100623 |