CN104424942A

CN104424942A - 一种提高文字语音输入准确率的方法

Info

Publication number: CN104424942A
Application number: CN201310388697.XA
Authority: CN
Inventors: 张凯; 张立扬
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-09-02
Filing date: 2013-09-02
Publication date: 2015-03-18

Abstract

本发明为一种提高文字语音输入准确率的方法，所述方法包括：1)在接收语音输入入口的语音信息同时，对该信息也进行同步实时的文字或拼音的特征值键盘输入操作；2)结束语音输入和键盘输入后，获得的两方面信息，可以在本地硬件上进行识别和相互验证，或者上传至语音云，由语音云对上述两方面信息进行识别和相互验证；3)获取识别结果，并将识别结果输送到用户端。

Description

一种提高文字语音输入准确率的方法

技术领域

本发明属于计算机信息处理领域，尤其涉及一种提高文字语音输入准确率的方法。

背景技术

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入。特别在语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：

1、语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。

2、声学模型与模式匹配(识别算法)：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较，得到最佳的识别结果。

3、语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小词表语音识别系统，往往不需要语言处理部分。

主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成：

1)信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

2)统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。

3)发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

4)语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

语音识别的基本过程根据实际中的应用不同，语音识别系统可以分为：特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取。提取的特征参数必须满足以下的要求：

(1)提取的特征参数能有效地代表语音特征，具有很好的区分性；

(2)各阶参数之间有良好的独立性；

(3)特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。

在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。

即使过程如此复杂，在语音输入转换为对应的文字系统，其准确性仍然有待提高。本发明为提高语音输入转换为对应的文字的准确率提供了新的解决方案。

发明内容

本发明为一种提高文字语音输入准确率的方法，所述方法包括：1)在接收语音输入入口的语音信息同时，对该信息也进行同步实时的文字或拼音的特征值键盘输入操作；2)结束语音输入和键盘输入后，获得的两方面信息，可以在本地硬件上进行识别和相互验证，或者上传至语音云，由语音云对上述两方面信息进行识别和相互验证；3)获取识别结果，并并将识别结果传输到用户端。可适用的键盘可以是个人电脑的键盘，也可以是在触摸屏幕上全键盘式虚拟触摸键盘，或者两个不同字母在一个按键上的虚拟触摸键盘，或者全部字母集中在9个虚拟触摸键盘的九宫格虚拟触摸键盘。尤其适合于汉语由语音识别转换为相应文字的过程。

当使用本发明提供的高语音识别文字输入准确率的方法，在用于汉语拼音输入时，键盘输入操作时，文字或拼音的特征值为触摸或者点击目标文字语音拼音的声母。操作步骤为，首先点击键盘上这一个目标汉字的拼音声母时，同步接收这一个目标汉字的读音，当目标汉字的读音结束同时，同步结束点击键盘的动作，然后在下一个汉字输入时重复上述步骤，直至一个词组或完整句完成。完成操作后，可以点击某个功能键表示结束语音输入和键盘输入结束，然后，将两方面的信息在本地或者语音云上进行识别和相互验证操作。对于在虚拟触摸键盘上，推荐在触摸屏幕上滑动的方式表示结束语音输入和键盘输入结束，然后，将两方面的信息在本地或者语音云上进行识别和相互验证操作。

本发明的新颖之处在于，，使用本发明提供的方法，可以保证单个文字发音和键盘输入的该文字的特征值，例如文字拼音的声母，存在一一对应的关系，大大减少了系统识别的难度。本发明的新颖之处在于，在进行汉语语音识别过程中，输入的单词或者句子声母串，可以进行人工智能上下文分析可能性，也可以提高文字的正确率。

本发明新颖之处在于，键盘输入本身的非连续性，可以控制发音的节奏，保用系统使用者以非连续的方式提供语音信息，大大提高了语音信息的可辨识度。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

需要在普通计算机上通过语音识别文字输入方法，输入汉字句子“语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式、概率论和信息论、发声机理和听觉机理、人工智能等等识别等多学科技术的一项综合性技术”。

首先点击普通个人键盘上按下目标汉字“语“拼音的声母“Y”时，同步发出“语“的读音，系统接收这一个目标汉字的读音，当目标汉字“语“的读音结束同时，同步结束点击键盘的动作，然后在下一个汉字“言”输入，重复上述步骤，直至上述整句完成。完成操作后，可以点击回车表示结束语音输入和键盘输入结束，然后，将两方面的信息在本地或者上传语音云上进行识别和相互验证操作。系统完成上述工作后，将结果传输到用户端。

实施例二

需要触屏式智能手机的虚拟键盘上，通过语音识别文字输入方法，输入汉字句子“语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式、概率论和信息论、发声机理和听觉机理、人工智能等等识别等多学科技术的一项综合性技术”。

首先虚拟键盘上，按下目标汉字“语“拼音的声母“Y”，保持触摸状态，同步发出“语“的读音，系统接收这一个目标汉字的读音，当目标汉字“语“的读音结束同时，手指离开触摸屏幕，同步结束点击键盘的动作，然后在下一个汉字“言”输入，重复上述步骤，直至上述整句完成。然后，在触摸屏幕上滑动的方式表示结束语音输入和键盘输入结束，然后，将两方面的信息在本地或者上传语音云上进行识别和相互验证操作。系统完成上述工作后，将结果传输到用户端。

Claims

1.一种提高文字语音输入准确率的方法，其特征在于，所述方法包括：

系统设立有语音输入的入口和键盘输入的入口，在语音输入的入口用于接收目标文字的语音类信息，键盘输入的入口用于接收目标文字的拼音类信息，两方面信息流输入同步进行、收集同步进行、接收同步进行；

结束语音输入和键盘结束输入后获得的两方面信息，或在本地硬件上相互验证、进行识别，或者上传至语音云，由语音云对上述两方面信息相互验证和进行识别，也可以先在本地硬件上进行识别和相互验证后，将处理结果上传至语音云，再进一步相互验证和进行识别；

获取识别结果，并将识别结果传输到用户端。

2.如权利要求1所述的文字输入方法，其特征在于，所述的键盘可以是个人电脑的键盘，也可以是在触摸屏幕上的全键盘式虚拟触摸键盘，或者两个不同字母在一个按键上的虚拟触摸键盘，或者全部字母集中在9个虚拟触摸键盘的九宫格键盘。

3.如权利要求1所述的提高文字语音输入准确率的方法，其特征在于，所述方法可用于汉字拼音的输入。

4.如权利要求3所述的文字输入方法，其特征在于，在用于汉语拼音输入时，在输入、收集、接收目标字、词组或者整句所发的语音的时，同步只输入、收集、接收相对应的键盘上字、词组或者整句中每个字的的声母信息。

5.如权利要求1到所述的文字输入方法，其特征在于，由于键盘输入为非连续过程，为了达到同步的效果，导致每个词发音结束后必须相应的有空白期。

6.如权利要求4所述的文字输入方法，其特征在于，完成操作后，可以点击某个功能键表示结束语音输入和键盘输入结束，可以继续进行识别和相互验证操作。

7.如权利要求4所述的文字输入方法，其特征在于，完成操作后，在虚拟触摸屏幕上，可以用滑动的方式表示语音输入和键盘输入均结束，就可以继续进行识别和相互验证操作。