CN101876887A - 语音输入方法及装置 - Google Patents

语音输入方法及装置 Download PDF

Info

Publication number
CN101876887A
CN101876887A CN 201010187345 CN201010187345A CN101876887A CN 101876887 A CN101876887 A CN 101876887A CN 201010187345 CN201010187345 CN 201010187345 CN 201010187345 A CN201010187345 A CN 201010187345A CN 101876887 A CN101876887 A CN 101876887A
Authority
CN
China
Prior art keywords
voice
database
input
speech
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010187345
Other languages
English (en)
Inventor
刘彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 201010187345 priority Critical patent/CN101876887A/zh
Publication of CN101876887A publication Critical patent/CN101876887A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种计算机语音输入技术,特别的涉及将说话语音转变为相应文字的语音输入方法及装置。首要目的在于提供一种能够降低语音识别错误率、并且具有智能识别功能的语音输入方法,一种语音输入方法,具有如下步骤:1)由语音收集器收入用户发出的语音;2)把收集到语音中的噪音过滤掉;3)根据语音-字词数据库辨认出相应文字;4)根据输入的上下文对输入的文字进行更正,以获得正确的文字;5)将得到的全部输入文字显示出来或者输入文件。本发明提供了一个高分辨率和高质量的语音输入技术,使得计算机和其他电子器件的语音输入的错误率大大降低,语音输入文字成为一项可以普遍接受使用。

Description

语音输入方法及装置
技术领域
本发明涉及一种计算机语音输入技术,特别的涉及将说话语音转变为相应文字的语音输入方法及装置。
背景技术
计算机的出现给人们书写文字和写作提供了巨大的方便,它使得任何稍微懂得计算机的人都可以方便地写任何文件、书信。迄今为止,用计算机书写文字的最好和使用最为普遍的方法是用键盘。但是这方法有两个缺点,一是速度慢,尤其是用户键盘输入中文,因为键盘本质上是为输入西方文字而设计的;二是要求使用者有必要的键盘输入的训练和技巧,尤其是具有较高输入速度要求的时候。
由于用键盘输入文字速度慢,而人们说话的速度远远快于键盘输入的速度,所以它不适于做会议、谈话的记录。而对于没有经过专门训练的人,用键盘来快速输入篇幅比较长的中文,是一项非常困难的工作。
美国的IBM公司在过去一些年做了不少语音识别和语音合成的研究工作,在此基础上开发出了名为“VIAVOICE”的语音识别技术和产品。它是个开发成熟而使用较广的技术,目前已应用在许多公司的手机和其它电子产品上,用于接收用户发出的语音指令。但是该技术识别短语和单词的量有限,识别的正确率约在50-70%之间。由于错误比例太大,使用起来很不方便,所以除了用在手机指令系统,其他使用场合很少见到。此外其他几个公司也做过类似语音输入的尝试,结果并不比IBM技术更好,因此其技术基本不为市场所接受,产品也无人问津。
VIAVOICE和其他现存语音识别与输入技术内容总的来说,都是用查字典(数据库)的方式完成的。即对一种语言,建立一个词汇发音与对应词汇文字的尽可能完全的数据库。用户说出的话被话筒收入后,输入计算机转为数值音频信号。对于相应于音频信号中每个字词的音素,其技术通过查找数据库把相应的词寻找出来,由此把语音输入转换为文字。其工作过程由图1所示。
然而由于对应一个音素,往往有多个字或者词,而仅凭查数据库无法确定应该取哪一个,所以上述产品都默认采取数据库中的第一个字或词。这样难免发生较高的错误率,见图1,在“中国,古老而美丽的国家“这样一句话语音输入中,出现了两处错误。
VIAVOICE和其他现存语音识别与输入技术的另外一个出错的来源是噪音的干扰。当人说出的话语通过话筒输入电脑而转化为数值音素时,由于话筒质量问题、音频采集过程和数模转化,不可避免地都会产生噪音,这些噪音叠加在语音信号上,在输入音素中占相当大的比例,从而导致伪语音输入信号,必然导致语音识别容易出现错误。
中国国家知识产权局公开的申请号为01144523.8发明专利申请公开说明书公开了一种语音输入方法及装置,其主要功能面向手提数字电子设备的语言指令系统,语言都较为简短,但是该技术与VIAVOICE一样,存在上文所述的不足。
发明内容
本发明的首要目的在于提供一种能够降低语音识别错误率、并且具有智能识别功能的语音输入方法,其次在于提供一种能够实现语音输入高识别率、智能识别输入的装置。
实现本发明目的的技术方案是:
一种语音输入方法,具有如下步骤:
1)由语音收集器收入用户发出的语音;
2)把收集到语音中的噪音过滤掉;
3)根据语音-字词数据库辨认出相应文字;
4)根据输入的上下文对输入的文字进行更正,以获得正确的文字;
5)将得到的全部输入文字显示出来或者输入文件。
上述步骤2)包括如下步骤:
a、将语音收集器中的语音电流信号转换成数字音频信号;
b、将数字音频信号进行Z变换,过滤掉说话频率之外的频率;
c、将剩余的音频信号进行Z变换的逆变换,得到过滤后的语音信号。
上述步骤3)中语音-字词数据库包括吴语字数据库、广东话音字数据库、四川话音字数据库、普通话音字数据库、英国英语数据库和美国英语数据库。
上述步骤3)和4)中由智能语音识别器进行判断识别,判断时由智能语音识别器的智能语言识别核心读入字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容数据库,以选择最合适的字词。
上述文章领域、风格和内容信息数据库随着识别语音内容的不断增多而不断将输入内容信息补充到自身数据库中。
一种语音输入装置,包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述语音收集器与数模转换音卡连接,数模转换音卡与Z变换集成电路模块连接,Z变换集成电路模块与存储器连接,智能语音识别器与存储器连接,显示模块与存储器连接。
上述智能语音识别器具有智能语言识别核心,存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库,上述智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库连接。
本发明具有如下好处:
1、提供了一个高分辨率和高质量的语音输入技术,使得计算机和其他电子器件的语音输入的错误率大大降低,语音输入文字成为一项可以普遍接受使用,代替键盘输入的一项快速简单的文字输入和文章书写的方式;
2、使用本发明技术,可使用计算机和其他电子器材(如手机,掌上电脑等)对会议,交谈做实时快速的记录,大大提高这类场合的文字记录的速度。
3、使用本发明技术,可以使得各行各业的人们快速简单地用口述的方式书写,进行文章报道、产品说明,而不需要经过专门的训练。
4、使用本发明技术可以使得机器、电器准确地听懂人的语言指令,避免低分辨率的指令输入系统可能有的由听错指令造成错误的情况。
5、此发明技术还可以使得聋哑人“读懂”他人说的话,即他人说的话在他随身携带的电子器件上自动转化成文字并显示出来。
附图说明
图1为本发明之前语音输入步骤示意图。
图2为本发明语音输入过程示意图。
图3为本发明进行语音智能识别过程示意图。
具体实施方式
见图2和图3,本发明装置包括高质量的输入话筒、高分辨率的数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述输入话筒与数模转换音卡连接,数模转换音卡与Z变换集成电路模块连接,Z变换集成电路模块与存储器连接,智能语音识别器与存储器连接,显示模块与存储器连接。智能语音识别器具有智能语言识别核心,存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库各个单元,智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库各单元连接。
在语音输入过程中,用户的说话通过输入话筒转化成电流信号,并输入到数模转换音卡中,转换成数字音频信号。由于语音输入环境及技术处理问题,数字音频信号中混有噪音,分背景噪音、话筒反映噪音和数模转换噪音,这些噪音会影响对语音的判断,并可能造成语音识别的错误。Z变换集成电路用来对经过数字音频信号进行Z变换及Z变换的逆变换,Z变换为数学上的离散数值变换,经过Z变换后的数字音频信号由原来的按时间领域分布改变为按频率领域分布,这样可以方便的区分出噪音频率和需要输入的语音频率,并把噪音频率去除,然后再进行Z变换的逆变换,把过滤后的音频信号回复到按时间领域分布的状态,此时原来存在的噪音被去除了。
语音的识别工作由语音识别器完成,语音识别器中存有多种话音数据库,包括吴语音字数据库、广东话音字数据库、四川话音字数据库、普通话音字数据库、英国英语数据库和美国英语数据库,这些数据库可以由用户选择使用,可以设定默认的使用数据库种类或者设定两个以上的数据库作为使用范围。
经过过滤的语音数字音频信号由语音识别器进行识别,首先对语音进行判断,将代表单个独立词的音素区分开,然后对照选定的话音字数据库,找出对应该因素的字、词,由于限定了语音字数据库,可以较准确的找出对应的字、词。当用户说完一个句子或者一个段落时,智能语音识别器需要再次对这个句子或者段落进行整体识别,参照上下文确定每一个字、词。此时智能语音识别器的智能语言识别核心需要调用字词数据库、语法数据库、惯用法数据库和判断文章的领域、风格与内容信息数据库的相关内容,对句子或者段落的不流畅、有歧义的地方进行纠正,以获得最符合语音来源者本意的文字,并且最终通过显示单元显示出来,当然也可以将这些文字材料直接输出到用户选择的通道,比如直接存入文件,或者通过网络传送出去。
智能语言识别核心调用的文章的领域、风格与内容信息数据库能够在识别过程中,随着输入的语言增多而不断补充其内容,这些增加的内容又可以被智能语言识别核心调用,即领域、风格与内容信息数据库具有自我学习功能。

Claims (7)

1.一种语音输入方法,具有如下步骤:
1)由语音收集器收入用户发出的语音;
2)把收集到语音中的噪音过滤掉;
3)根据语音-字词数据库辨认出相应文字;
4)根据输入的上下文对输入的文字进行更正,以获得正确的文字;
5)将得到的全部输入文字显示出来或者输入文件。
2.根据权利要求1所述的语音输入方法,其特征在于:上述步骤2)包括如下步骤:
a、将语音收集器中的语音电流信号转换成数字音频信号;
b、将数字音频信号进行Z变换,过滤掉说话频率之外的频率;
c、将剩余的音频信号进行Z变换的逆变换,得到过滤后的语音信号。
3.根据权利要求1所述的语音输入方法,其特征在于:上述步骤3)中语音-字词数据库包括吴语字数据库、广东话音字数据库、四川话音字数据库、普通话音字数据库、英国英语数据库和美国英语数据库。
4.根据权利要求1所述的语音输入方法,其特征在于:上述步骤3)和4)中由智能语音识别器进行判断识别,判断时由智能语音识别器的智能语言识别核心读入字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容数据库,以选择最合适的字词。
5.根据权利要求4所述的语音输入方法,其特征在于:上述文章领域、风格和内容信息数据库随着识别语音内容的不断增多而不断将输入内容信息补充到自身数据库中。
6.一种可以实现权利要求1所述方法的语音输入装置,其特征在于:包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述语音收集器与数模转换音卡连接,数模转换音卡与Z变换集成电路模块连接,Z变换集成电路模块与存储器连接,智能语音识别器与存储器连接,显示模块与存储器连接。
7.根据权利要求6所述的语音输入装置,其特征在于:上述智能语音识别器具有智能语言识别核心,存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库,上述智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库连接。
CN 201010187345 2010-07-26 2010-07-26 语音输入方法及装置 Pending CN101876887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010187345 CN101876887A (zh) 2010-07-26 2010-07-26 语音输入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010187345 CN101876887A (zh) 2010-07-26 2010-07-26 语音输入方法及装置

Publications (1)

Publication Number Publication Date
CN101876887A true CN101876887A (zh) 2010-11-03

Family

ID=43019453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010187345 Pending CN101876887A (zh) 2010-07-26 2010-07-26 语音输入方法及装置

Country Status (1)

Country Link
CN (1) CN101876887A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074150A (zh) * 2011-01-12 2011-05-25 无锡工艺职业技术学院 一种聋哑人与外界交流用语句语音相互转换装置
CN103455530A (zh) * 2012-10-25 2013-12-18 河南省佰腾电子科技有限公司 随身携带式创建个性化语音对应文本文字数据库的装置
CN104361888A (zh) * 2014-11-28 2015-02-18 上海斐讯数据通信技术有限公司 通过振动信号告知听障人士语音信息的装置及方法
CN105678145A (zh) * 2016-01-04 2016-06-15 上海斐讯数据通信技术有限公司 一种智能终端及其解锁方法
CN106648097A (zh) * 2016-12-22 2017-05-10 北京云知声信息技术有限公司 语音输入方法及装置
CN107004331A (zh) * 2015-02-24 2017-08-01 Nec平台株式会社 Pos终端、产品信息登记方法以及存储产品信息登记程序的非暂时性计算机可读介质
WO2017152824A1 (zh) * 2016-03-07 2017-09-14 陈勇 个性语音录入器
CN107180629A (zh) * 2017-06-28 2017-09-19 长春煌道吉科技发展有限公司 一种语音采集识别方法与系统
CN107209901A (zh) * 2015-01-23 2017-09-26 雅马哈株式会社 信息提供系统、信息提供方法以及管理装置
CN108257602A (zh) * 2018-01-30 2018-07-06 海信集团有限公司 车牌号字符串矫正方法、装置、服务器和终端
CN112399017A (zh) * 2020-11-16 2021-02-23 广东商路信息科技有限公司 Ip话机语音输入编辑短信的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1235312A (zh) * 1998-05-13 1999-11-17 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1235312A (zh) * 1998-05-13 1999-11-17 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074150A (zh) * 2011-01-12 2011-05-25 无锡工艺职业技术学院 一种聋哑人与外界交流用语句语音相互转换装置
CN103455530A (zh) * 2012-10-25 2013-12-18 河南省佰腾电子科技有限公司 随身携带式创建个性化语音对应文本文字数据库的装置
CN104361888A (zh) * 2014-11-28 2015-02-18 上海斐讯数据通信技术有限公司 通过振动信号告知听障人士语音信息的装置及方法
CN107209901A (zh) * 2015-01-23 2017-09-26 雅马哈株式会社 信息提供系统、信息提供方法以及管理装置
CN107209901B (zh) * 2015-01-23 2021-10-15 雅马哈株式会社 信息提供系统、信息提供方法以及管理装置
US10453045B2 (en) 2015-02-24 2019-10-22 Nec Platforms, Ltd. POS terminal, product information registration method, and non-transitory computer readable medium storing product information registration program
CN111522484A (zh) * 2015-02-24 2020-08-11 Nec平台株式会社 Pos终端、产品信息登记方法以及存储产品信息登记程序的非暂时性计算机可读介质
CN111522485B (zh) * 2015-02-24 2023-04-14 Nec平台株式会社 Pos终端、产品信息登记方法以及存储产品信息登记程序的非暂时性计算机可读介质
CN107004331A (zh) * 2015-02-24 2017-08-01 Nec平台株式会社 Pos终端、产品信息登记方法以及存储产品信息登记程序的非暂时性计算机可读介质
CN111522484B (zh) * 2015-02-24 2023-04-14 Nec平台株式会社 Pos终端、产品信息登记方法以及存储产品信息登记程序的非暂时性计算机可读介质
CN111522485A (zh) * 2015-02-24 2020-08-11 Nec平台株式会社 Pos终端、产品信息登记方法以及存储产品信息登记程序的非暂时性计算机可读介质
CN107004331B (zh) * 2015-02-24 2020-07-03 Nec平台株式会社 Pos终端、产品信息登记方法以及存储产品信息登记程序的非暂时性计算机可读介质
CN105678145A (zh) * 2016-01-04 2016-06-15 上海斐讯数据通信技术有限公司 一种智能终端及其解锁方法
WO2017152824A1 (zh) * 2016-03-07 2017-09-14 陈勇 个性语音录入器
CN106648097B (zh) * 2016-12-22 2020-07-28 北京云知声信息技术有限公司 语音输入方法及装置
CN106648097A (zh) * 2016-12-22 2017-05-10 北京云知声信息技术有限公司 语音输入方法及装置
CN107180629B (zh) * 2017-06-28 2020-04-28 长春煌道吉科技发展有限公司 一种语音采集识别方法与系统
CN107180629A (zh) * 2017-06-28 2017-09-19 长春煌道吉科技发展有限公司 一种语音采集识别方法与系统
CN108257602A (zh) * 2018-01-30 2018-07-06 海信集团有限公司 车牌号字符串矫正方法、装置、服务器和终端
CN112399017A (zh) * 2020-11-16 2021-02-23 广东商路信息科技有限公司 Ip话机语音输入编辑短信的方法及系统

Similar Documents

Publication Publication Date Title
CN101876887A (zh) 语音输入方法及装置
CN111369996B (zh) 一种特定领域的语音识别文本纠错方法
CN103578471B (zh) 语音辨识方法及其电子装置
CN103578464B (zh) 语言模型的建立方法、语音辨识方法及电子装置
CN102723080B (zh) 一种语音识别测试系统及方法
CN103578465B (zh) 语音辨识方法及电子装置
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
CN103578467A (zh) 声学模型的建立方法、语音辨识方法及其电子装置
CN102760436B (zh) 一种语音词库筛选方法
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
US20120203553A1 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
CN102831195B (zh) 个性化语音采集与语义确定系统及其方法
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
CN1901041B (zh) 语音字典形成方法、语音识别系统及其方法
CN111402892A (zh) 一种基于语音识别的会议记录模板生成方法
Al-Anzi et al. Synopsis on Arabic speech recognition
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
CN112786024B (zh) 水处理领域无专业语音数据条件下的语音命令识别方法
Jelinek A real-time, isolated-word, speech recognition system for dictation transcription
Mousa et al. Sub-lexical language models for German LVCSR
CN116110370A (zh) 基于人机语音交互的语音合成系统及相关设备
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
CN111427996A (zh) 一种人机交互文本中抽取日期时间的方法和装置
CN106228984A (zh) 语音识别信息获取方法
KR100868709B1 (ko) 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20101103