CN101876887A

CN101876887A - 语音输入方法及装置

Info

Publication number: CN101876887A
Application number: CN 201010187345
Authority: CN
Inventors: 刘彤
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-07-26
Filing date: 2010-07-26
Publication date: 2010-11-03

Abstract

本发明涉及一种计算机语音输入技术，特别的涉及将说话语音转变为相应文字的语音输入方法及装置。首要目的在于提供一种能够降低语音识别错误率、并且具有智能识别功能的语音输入方法，一种语音输入方法，具有如下步骤：1)由语音收集器收入用户发出的语音；2)把收集到语音中的噪音过滤掉；3)根据语音-字词数据库辨认出相应文字；4)根据输入的上下文对输入的文字进行更正，以获得正确的文字；5)将得到的全部输入文字显示出来或者输入文件。本发明提供了一个高分辨率和高质量的语音输入技术，使得计算机和其他电子器件的语音输入的错误率大大降低，语音输入文字成为一项可以普遍接受使用。

Description

语音输入方法及装置

技术领域

本发明涉及一种计算机语音输入技术，特别的涉及将说话语音转变为相应文字的语音输入方法及装置。

背景技术

计算机的出现给人们书写文字和写作提供了巨大的方便，它使得任何稍微懂得计算机的人都可以方便地写任何文件、书信。迄今为止，用计算机书写文字的最好和使用最为普遍的方法是用键盘。但是这方法有两个缺点，一是速度慢，尤其是用户键盘输入中文，因为键盘本质上是为输入西方文字而设计的；二是要求使用者有必要的键盘输入的训练和技巧，尤其是具有较高输入速度要求的时候。

由于用键盘输入文字速度慢，而人们说话的速度远远快于键盘输入的速度，所以它不适于做会议、谈话的记录。而对于没有经过专门训练的人，用键盘来快速输入篇幅比较长的中文，是一项非常困难的工作。

美国的IBM公司在过去一些年做了不少语音识别和语音合成的研究工作，在此基础上开发出了名为“VIAVOICE”的语音识别技术和产品。它是个开发成熟而使用较广的技术，目前已应用在许多公司的手机和其它电子产品上，用于接收用户发出的语音指令。但是该技术识别短语和单词的量有限，识别的正确率约在50-70％之间。由于错误比例太大，使用起来很不方便，所以除了用在手机指令系统，其他使用场合很少见到。此外其他几个公司也做过类似语音输入的尝试，结果并不比IBM技术更好，因此其技术基本不为市场所接受，产品也无人问津。

VIAVOICE和其他现存语音识别与输入技术内容总的来说，都是用查字典(数据库)的方式完成的。即对一种语言，建立一个词汇发音与对应词汇文字的尽可能完全的数据库。用户说出的话被话筒收入后，输入计算机转为数值音频信号。对于相应于音频信号中每个字词的音素，其技术通过查找数据库把相应的词寻找出来，由此把语音输入转换为文字。其工作过程由图1所示。

然而由于对应一个音素，往往有多个字或者词，而仅凭查数据库无法确定应该取哪一个，所以上述产品都默认采取数据库中的第一个字或词。这样难免发生较高的错误率，见图1，在“中国，古老而美丽的国家“这样一句话语音输入中，出现了两处错误。

VIAVOICE和其他现存语音识别与输入技术的另外一个出错的来源是噪音的干扰。当人说出的话语通过话筒输入电脑而转化为数值音素时，由于话筒质量问题、音频采集过程和数模转化，不可避免地都会产生噪音，这些噪音叠加在语音信号上，在输入音素中占相当大的比例，从而导致伪语音输入信号，必然导致语音识别容易出现错误。

中国国家知识产权局公开的申请号为01144523.8发明专利申请公开说明书公开了一种语音输入方法及装置，其主要功能面向手提数字电子设备的语言指令系统，语言都较为简短，但是该技术与VIAVOICE一样，存在上文所述的不足。

发明内容

本发明的首要目的在于提供一种能够降低语音识别错误率、并且具有智能识别功能的语音输入方法，其次在于提供一种能够实现语音输入高识别率、智能识别输入的装置。

实现本发明目的的技术方案是：

一种语音输入方法，具有如下步骤：

1)由语音收集器收入用户发出的语音；

2)把收集到语音中的噪音过滤掉；

3)根据语音-字词数据库辨认出相应文字；

4)根据输入的上下文对输入的文字进行更正，以获得正确的文字；

5)将得到的全部输入文字显示出来或者输入文件。

上述步骤2)包括如下步骤：

a、将语音收集器中的语音电流信号转换成数字音频信号；

b、将数字音频信号进行Z变换，过滤掉说话频率之外的频率；

c、将剩余的音频信号进行Z变换的逆变换，得到过滤后的语音信号。

上述步骤3)中语音-字词数据库包括吴语字数据库、广东话音字数据库、四川话音字数据库、普通话音字数据库、英国英语数据库和美国英语数据库。

上述步骤3)和4)中由智能语音识别器进行判断识别，判断时由智能语音识别器的智能语言识别核心读入字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容数据库，以选择最合适的字词。

上述文章领域、风格和内容信息数据库随着识别语音内容的不断增多而不断将输入内容信息补充到自身数据库中。

一种语音输入装置，包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块，上述语音收集器与数模转换音卡连接，数模转换音卡与Z变换集成电路模块连接，Z变换集成电路模块与存储器连接，智能语音识别器与存储器连接，显示模块与存储器连接。

上述智能语音识别器具有智能语言识别核心，存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库，上述智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库连接。

本发明具有如下好处：

1、提供了一个高分辨率和高质量的语音输入技术，使得计算机和其他电子器件的语音输入的错误率大大降低，语音输入文字成为一项可以普遍接受使用，代替键盘输入的一项快速简单的文字输入和文章书写的方式；

2、使用本发明技术，可使用计算机和其他电子器材(如手机，掌上电脑等)对会议，交谈做实时快速的记录，大大提高这类场合的文字记录的速度。

3、使用本发明技术，可以使得各行各业的人们快速简单地用口述的方式书写，进行文章报道、产品说明，而不需要经过专门的训练。

4、使用本发明技术可以使得机器、电器准确地听懂人的语言指令，避免低分辨率的指令输入系统可能有的由听错指令造成错误的情况。

5、此发明技术还可以使得聋哑人“读懂”他人说的话，即他人说的话在他随身携带的电子器件上自动转化成文字并显示出来。

附图说明

图1为本发明之前语音输入步骤示意图。

图2为本发明语音输入过程示意图。

图3为本发明进行语音智能识别过程示意图。

具体实施方式

见图2和图3，本发明装置包括高质量的输入话筒、高分辨率的数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块，上述输入话筒与数模转换音卡连接，数模转换音卡与Z变换集成电路模块连接，Z变换集成电路模块与存储器连接，智能语音识别器与存储器连接，显示模块与存储器连接。智能语音识别器具有智能语言识别核心，存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库各个单元，智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库各单元连接。

在语音输入过程中，用户的说话通过输入话筒转化成电流信号，并输入到数模转换音卡中，转换成数字音频信号。由于语音输入环境及技术处理问题，数字音频信号中混有噪音，分背景噪音、话筒反映噪音和数模转换噪音，这些噪音会影响对语音的判断，并可能造成语音识别的错误。Z变换集成电路用来对经过数字音频信号进行Z变换及Z变换的逆变换，Z变换为数学上的离散数值变换，经过Z变换后的数字音频信号由原来的按时间领域分布改变为按频率领域分布，这样可以方便的区分出噪音频率和需要输入的语音频率，并把噪音频率去除，然后再进行Z变换的逆变换，把过滤后的音频信号回复到按时间领域分布的状态，此时原来存在的噪音被去除了。

语音的识别工作由语音识别器完成，语音识别器中存有多种话音数据库，包括吴语音字数据库、广东话音字数据库、四川话音字数据库、普通话音字数据库、英国英语数据库和美国英语数据库，这些数据库可以由用户选择使用，可以设定默认的使用数据库种类或者设定两个以上的数据库作为使用范围。

经过过滤的语音数字音频信号由语音识别器进行识别，首先对语音进行判断，将代表单个独立词的音素区分开，然后对照选定的话音字数据库，找出对应该因素的字、词，由于限定了语音字数据库，可以较准确的找出对应的字、词。当用户说完一个句子或者一个段落时，智能语音识别器需要再次对这个句子或者段落进行整体识别，参照上下文确定每一个字、词。此时智能语音识别器的智能语言识别核心需要调用字词数据库、语法数据库、惯用法数据库和判断文章的领域、风格与内容信息数据库的相关内容，对句子或者段落的不流畅、有歧义的地方进行纠正，以获得最符合语音来源者本意的文字，并且最终通过显示单元显示出来，当然也可以将这些文字材料直接输出到用户选择的通道，比如直接存入文件，或者通过网络传送出去。

智能语言识别核心调用的文章的领域、风格与内容信息数据库能够在识别过程中，随着输入的语言增多而不断补充其内容，这些增加的内容又可以被智能语言识别核心调用，即领域、风格与内容信息数据库具有自我学习功能。

Claims

1.一种语音输入方法，具有如下步骤：

1)由语音收集器收入用户发出的语音；

2)把收集到语音中的噪音过滤掉；

3)根据语音-字词数据库辨认出相应文字；

5)将得到的全部输入文字显示出来或者输入文件。

2.根据权利要求1所述的语音输入方法，其特征在于：上述步骤2)包括如下步骤：

a、将语音收集器中的语音电流信号转换成数字音频信号；

3.根据权利要求1所述的语音输入方法，其特征在于：上述步骤3)中语音-字词数据库包括吴语字数据库、广东话音字数据库、四川话音字数据库、普通话音字数据库、英国英语数据库和美国英语数据库。

4.根据权利要求1所述的语音输入方法，其特征在于：上述步骤3)和4)中由智能语音识别器进行判断识别，判断时由智能语音识别器的智能语言识别核心读入字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容数据库，以选择最合适的字词。

5.根据权利要求4所述的语音输入方法，其特征在于：上述文章领域、风格和内容信息数据库随着识别语音内容的不断增多而不断将输入内容信息补充到自身数据库中。

6.一种可以实现权利要求1所述方法的语音输入装置，其特征在于：包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块，上述语音收集器与数模转换音卡连接，数模转换音卡与Z变换集成电路模块连接，Z变换集成电路模块与存储器连接，智能语音识别器与存储器连接，显示模块与存储器连接。

7.根据权利要求6所述的语音输入装置，其特征在于：上述智能语音识别器具有智能语言识别核心，存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库，上述智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库连接。