CN104424942A - 一种提高文字语音输入准确率的方法 - Google Patents

一种提高文字语音输入准确率的方法 Download PDF

Info

Publication number
CN104424942A
CN104424942A CN201310388697.XA CN201310388697A CN104424942A CN 104424942 A CN104424942 A CN 104424942A CN 201310388697 A CN201310388697 A CN 201310388697A CN 104424942 A CN104424942 A CN 104424942A
Authority
CN
China
Prior art keywords
keyboard
input
information
phonetic
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310388697.XA
Other languages
English (en)
Inventor
张凯
张立扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310388697.XA priority Critical patent/CN104424942A/zh
Publication of CN104424942A publication Critical patent/CN104424942A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Input From Keyboards Or The Like (AREA)

Abstract

本发明为一种提高文字语音输入准确率的方法,所述方法包括:1)在接收语音输入入口的语音信息同时,对该信息也进行同步实时的文字或拼音的特征值键盘输入操作;2)结束语音输入和键盘输入后,获得的两方面信息,可以在本地硬件上进行识别和相互验证,或者上传至语音云,由语音云对上述两方面信息进行识别和相互验证;3)获取识别结果,并将识别结果输送到用户端。

Description

一种提高文字语音输入准确率的方法
技术领域
本发明属于计算机信息处理领域,尤其涉及一种提高文字语音输入准确率的方法。 
背景技术
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入。特别在语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: 
1、语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 
2、声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 
3、语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。 
主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成: 
1)信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。 
2)统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。 
3)发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。 
4)语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。 
语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理包括预滤波、采样和 量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取。提取的特征参数必须满足以下的要求: 
(1)提取的特征参数能有效地代表语音特征,具有很好的区分性; 
(2)各阶参数之间有良好的独立性; 
(3)特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。 
在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。 
即使过程如此复杂,在语音输入转换为对应的文字系统,其准确性仍然有待提高。本发明为提高语音输入转换为对应的文字的准确率提供了新的解决方案。 
发明内容
本发明为一种提高文字语音输入准确率的方法,所述方法包括:1)在接收语音输入入口的语音信息同时,对该信息也进行同步实时的文字或拼音的特征值键盘输入操作;2)结束语音输入和键盘输入后,获得的两方面信息,可以在本地硬件上进行识别和相互验证,或者上传至语音云,由语音云对上述两方面信息进行识别和相互验证;3)获取识别结果,并并将识别结果传输到用户端。可适用的键盘可以是个人电脑的键盘,也可以是在触摸屏幕上全键盘式虚拟触摸键盘,或者两个不同字母在一个按键上的虚拟触摸键盘,或者全部字母集中在9个虚拟触摸键盘的九宫格虚拟触摸键盘。尤其适合于汉语由语音识别转换为相应文字的过程。 
当使用本发明提供的高语音识别文字输入准确率的方法,在用于汉语拼音输入时,键盘输入操作时,文字或拼音的特征值为触摸或者点击目标文字语音拼音的声母。操作步骤为,首先点击键盘上这一个目标汉字的拼音声母时,同步接收这一个目标汉字的读音,当目标汉字的读音结束同时,同步结束点击键盘的动作,然后在下一个汉字输入时重复上述步骤,直至一个词组或完整句完成。完成操作后,可以点击某个功能键表示结束语音输入和键盘输入结束,然后,将两方面的信息在本地或者语音云上进行识别和相互验证操作。对于在虚拟触摸键盘上,推荐在触摸屏幕上滑动的方式表示结束语音输入和键盘输入结束,然后,将两方面的信息在本地或者语音云上进行识别和相互验证操作。 
本发明的新颖之处在于,,使用本发明提供的方法,可以保证单个文字发音和键盘输入的该文字的特征值,例如文字拼音的声母,存在一一对应的关系,大大减少了系统识别的难度。本发明的新颖之处在于,在进行汉语语音识别过程中,输入的单词或者句子声母串,可以进行人工智能上下文分析可能性,也可以提高文字的正确率。 
本发明新颖之处在于,键盘输入本身的非连续性,可以控制发音的节奏,保用系统使用者以非连续的方式提供语音信息,大大提高了语音信息的可辨识度。 
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。 
实施例一 
需要在普通计算机上通过语音识别文字输入方法,输入汉字句子“语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式、概率论和信息论、发声机理和听觉机理、人工智能等等识别等多学科技术的一项综合性技术”。 
首先点击普通个人键盘上按下目标汉字“语“拼音的声母“Y”时,同步发出“语“的读音,系统接收这一个目标汉字的读音,当目标汉字“语“的读音结束同时,同步结束点击键盘的动作,然后在下一个汉字“言”输入,重复上述步骤,直至上述整句完成。完成操作后,可以点击回车表示结束语音输入和键盘输入结束,然后,将两方面的信息在本地或者上传语音云上进行识别和相互验证操作。系统完成上述工作后,将结果传输到用户端。 
实施例二 
需要触屏式智能手机的虚拟键盘上,通过语音识别文字输入方法,输入汉字句子“语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式、概率论和信息论、发声机理和听觉机理、人工智能等等识别等多学科技术的一项综合性技术”。 
首先虚拟键盘上,按下目标汉字“语“拼音的声母“Y”,保持触摸状态,同步发出“语“的读音,系统接收这一个目标汉字的读音,当目标汉字“语“的读音结束同时,手指离开触摸屏幕,同步结束点击键盘的动作,然后在下一个汉字“言”输入,重复上述步骤,直至上述整句完成。然后,在触摸屏幕上滑动的方式表示结束语音输入和键盘输入结束,然后,将两方面的信息在本地或者上传语音云上进行识别和相互验证操作。系统完成上述工作后,将结果传输到用户端。 

Claims (7)

1.一种提高文字语音输入准确率的方法,其特征在于,所述方法包括:
系统设立有语音输入的入口和键盘输入的入口,在语音输入的入口用于接收目标文字的语音类信息,键盘输入的入口用于接收目标文字的拼音类信息,两方面信息流输入同步进行、收集同步进行、接收同步进行;
结束语音输入和键盘结束输入后获得的两方面信息,或在本地硬件上相互验证、进行识别,或者上传至语音云,由语音云对上述两方面信息相互验证和进行识别,也可以先在本地硬件上进行识别和相互验证后,将处理结果上传至语音云,再进一步相互验证和进行识别;
获取识别结果,并将识别结果传输到用户端。
2.如权利要求1所述的文字输入方法,其特征在于,所述的键盘可以是个人电脑的键盘,也可以是在触摸屏幕上的全键盘式虚拟触摸键盘,或者两个不同字母在一个按键上的虚拟触摸键盘,或者全部字母集中在9个虚拟触摸键盘的九宫格键盘。
3.如权利要求1所述的提高文字语音输入准确率的方法,其特征在于,所述方法可用于汉字拼音的输入。
4.如权利要求3所述的文字输入方法,其特征在于,在用于汉语拼音输入时,在输入、收集、接收目标字、词组或者整句所发的语音的时,同步只输入、收集、接收相对应的键盘上字、词组或者整句中每个字的的声母信息。
5.如权利要求1到所述的文字输入方法,其特征在于,由于键盘输入为非连续过程,为了达到同步的效果,导致每个词发音结束后必须相应的有空白期。
6.如权利要求4所述的文字输入方法,其特征在于,完成操作后,可以点击某个功能键表示结束语音输入和键盘输入结束,可以继续进行识别和相互验证操作。
7.如权利要求4所述的文字输入方法,其特征在于,完成操作后,在虚拟触摸屏幕上,可以用滑动的方式表示语音输入和键盘输入均结束,就可以继续进行识别和相互验证操作。
CN201310388697.XA 2013-09-02 2013-09-02 一种提高文字语音输入准确率的方法 Pending CN104424942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310388697.XA CN104424942A (zh) 2013-09-02 2013-09-02 一种提高文字语音输入准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310388697.XA CN104424942A (zh) 2013-09-02 2013-09-02 一种提高文字语音输入准确率的方法

Publications (1)

Publication Number Publication Date
CN104424942A true CN104424942A (zh) 2015-03-18

Family

ID=52973739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310388697.XA Pending CN104424942A (zh) 2013-09-02 2013-09-02 一种提高文字语音输入准确率的方法

Country Status (1)

Country Link
CN (1) CN104424942A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843523A (zh) * 2016-12-12 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的文字输入方法和装置
CN108292477A (zh) * 2016-08-01 2018-07-17 霍尼韦尔国际公司 用于偷听数据或语音通信的便携式数据链路装备
CN111261142A (zh) * 2020-01-17 2020-06-09 滨州学院 一种基于单片机的非特定语音识别智能开关系统
CN111339121A (zh) * 2018-12-18 2020-06-26 上海睿计信息技术股份有限公司 一种基于语义分析的智能词组录入系统
CN112860349A (zh) * 2021-03-10 2021-05-28 北京小米移动软件有限公司 输入模式的开启方法、装置及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292477A (zh) * 2016-08-01 2018-07-17 霍尼韦尔国际公司 用于偷听数据或语音通信的便携式数据链路装备
CN108292477B (zh) * 2016-08-01 2021-10-29 霍尼韦尔国际公司 用于偷听数据或语音通信的便携式数据链路装备
CN106843523A (zh) * 2016-12-12 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的文字输入方法和装置
CN106843523B (zh) * 2016-12-12 2020-09-22 百度在线网络技术(北京)有限公司 基于人工智能的文字输入方法和装置
CN111339121A (zh) * 2018-12-18 2020-06-26 上海睿计信息技术股份有限公司 一种基于语义分析的智能词组录入系统
CN111261142A (zh) * 2020-01-17 2020-06-09 滨州学院 一种基于单片机的非特定语音识别智能开关系统
CN112860349A (zh) * 2021-03-10 2021-05-28 北京小米移动软件有限公司 输入模式的开启方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN102708862B (zh) 触控辅助的实时语音识别系统及其同步解码方法
CN109331470B (zh) 基于语音识别的抢答游戏处理方法、装置、设备及介质
CN103680498A (zh) 一种语音识别方法和设备
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN109545197B (zh) 语音指令的识别方法、装置和智能终端
CN112837401B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN109377981B (zh) 音素对齐的方法及装置
CN102122507A (zh) 一种运用人工神经网络进行前端处理的语音检错方法
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105261246A (zh) 一种基于大数据挖掘技术的英语口语纠错系统
CN110853629A (zh) 一种基于深度学习的语音识别数字的方法
CN104424942A (zh) 一种提高文字语音输入准确率的方法
KR102607373B1 (ko) 음성감성 인식 장치 및 방법
JP2016062069A (ja) 音声認識方法、及び音声認識装置
CN110010136A (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN103219007A (zh) 语音识别方法及装置
CN110852075A (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
CN110853669B (zh) 音频识别方法、装置及设备
US8219386B2 (en) Arabic poetry meter identification system and method
CN105869622B (zh) 中文热词检测方法和装置
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Zhang Kai

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice

Addressee: Zhang Kai

Document name: Notification that Application Deemed to be Withdrawn

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150318