CN116339655A - 一种基于语音识别的文本打印方法及系统 - Google Patents
一种基于语音识别的文本打印方法及系统 Download PDFInfo
- Publication number
- CN116339655A CN116339655A CN202310333276.0A CN202310333276A CN116339655A CN 116339655 A CN116339655 A CN 116339655A CN 202310333276 A CN202310333276 A CN 202310333276A CN 116339655 A CN116339655 A CN 116339655A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- voice
- text printing
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007639 printing Methods 0.000 title claims abstract description 259
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000000463 material Substances 0.000 claims abstract description 117
- 238000010276 construction Methods 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 46
- 241000282461 Canis lupus Species 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 9
- 230000002441 reversible effect Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 241000282421 Canidae Species 0.000 claims description 6
- 230000000739 chaotic effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/12—Digital output to print unit, e.g. line printer, chain printer
- G06F3/1201—Dedicated interfaces to print systems
- G06F3/1223—Dedicated interfaces to print systems specifically adapted to use a particular technique
- G06F3/1237—Print job management
- G06F3/1253—Configuration of print job parameters, e.g. using UI at the client
- G06F3/1257—Configuration of print job parameters, e.g. using UI at the client by using pre-stored settings, e.g. job templates, presets, print styles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/12—Digital output to print unit, e.g. line printer, chain printer
- G06F3/1201—Dedicated interfaces to print systems
- G06F3/1223—Dedicated interfaces to print systems specifically adapted to use a particular technique
- G06F3/1237—Print job management
- G06F3/1253—Configuration of print job parameters, e.g. using UI at the client
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于文本打印技术领域,公开了一种基于语音识别的文本打印方法及系统。所述的方法包括如下步骤:构建文本打印模板数据库;构建混合语言语音识别模型;实时采集语音音频数据,并进行语音识别;匹配对应的若干文本打印模板;选择一种文本打印模板;将实时的语音文本数据与选择的文本打印模板进行融合;对实时的文本打印数据材料进行文本打印。所述的系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机。本发明解决了现有技术存在的智能化程度低,语音识别效果差,识别效率低下,以及缺乏有机结合的问题。
Description
技术领域
本发明属于文本打印技术领域,具体涉及一种基于语音识别的文本打印方法及系统。
背景技术
打印机作为办公用具,是计算机的输出设备之一,用于将计算机处理结果打印在相关介质上,随着科技技术和计算机硬件的发展,打印机正向轻、薄、短、小、低功耗、高速度和智能化方向发展,其功能越来越丰富。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技技术。近年来,语音识别技术取得显著进步,开始从实验室走向市场,语音识别技术越来越多的进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
现有的打印机实现了将计算机存储的数据文件进行打印的简单功能,智能化程度低,已经无法满足市场的需求,虽然现有技术中,已经出现了将语音识别技术与打印机相结合的技术方案,但是现有结合方案的语音识别效果差,识别效率低下,无法做到实时识别和打印,影响用户的使用体验,并且现有技术的语音识别与打印机的结合方法还处于研究的初步阶段,仅仅实现了将语音识别结果使用打印机进行打印的简单指令,缺乏有机结合。
发明内容
为了解决现有技术存在的智能化程度低,语音识别效果差,识别效率低下,以及缺乏有机结合的问题,本发明目的在于提供一种基于语音识别的文本打印方法及系统。
本发明所采用的技术方案为:
一种基于语音识别的文本打印方法,包括如下步骤:
构建包含若干语言类型和若干文本打印模板的文本打印模板数据库;
构建混合语言语音识别模型;
实时采集语音音频数据,并将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型;
根据实时的语言类型,在文本打印模板数据库匹配对应的若干文本打印模板;
根据实时的语音文本数据,在若干文本打印模板中选择一种文本打印模板;
将实时的语音文本数据与选择的文本打印模板进行融合,得到实时的文本打印数据材料;
根据实时的语音文本数据,对实时的文本打印数据材料进行文本打印,得到实时的文本打印纸质材料。
进一步地,语音文本数据为控制指令、标识数据、打印文本数据、其中两种数据的组合或全部三种数据的组合,其中,控制指令用于选择文本打印模板或开启文本打印任务,标识数据用于选择预设的文本打印数据材料进行文本打印,打印文本数据用于与选择的文本打印模板进行融合,生成对应的文本打印数据材料。
进一步地,方法还包括如下步骤:
构建包含若干预设的文本打印数据材料的文本打印数据材料库;
为文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据;
将实时的语音文本数据中包含的标识数据与所有预设的标识数据进行匹配,得到匹配的标识数据;
在文本打印数据材料库中提取匹配的标识数据对应的预设的文本打印数据材料;
根据实时的语音文本数据中包含的控制指令,对预设的文本打印数据材料进行文本打印,得到预设的文本打印纸质材料。
进一步地,语言类型包括中文、英文以及中英文混合;
文本打印模板包括中文的文本打印模板、英文的文本打印模板、中英文混合且中文为主语言的文本打印模板以及中英文混合且英文为主语言的文本打印模板。
进一步地,构建混合语言语音识别模型,包括如下步骤:
采集均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,并组合中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,得到混合语言语音训练样本集;
使用DBN-CTC-IGWO-RNN-LM算法,构建初始的混合语言语音识别模型;
将混合语言语音训练样本集输入初始的混合语言语音识别模型进行优化训练,得到最优的混合语言语音识别模型。
进一步地,混合语言语音识别模型包括使用DBN-CTC-IGWO算法构建的语音字符识别子模型和使用RNN-LM算法构建的语音文本识别子模型;
语音字符识别子模型采用DBN网络作为模型基本网络结构,DBN网络包括一个输入层、若干隐含层以及一个输出层,DBN网络若干隐含层的神经元初始连接权值和阈值使用IGWO寻优算法进行优化,DBN网络该输出层将预训练好的Elman神经网络作为分类器,且DBN网络的该输出层的输出端设置有CTC算法;
语音文本识别子模型的输入层与语音文本识别子模型的输出端连接,且语音文本识别子模型的输出层用于输出语音文本数据和语言类型。
进一步地,引入Circle混沌序列初始化和动态反向学习策略对传统的灰狼寻优算法进行优化,得到IGWO寻优算法;
Circle混沌序列初始化公式为:
式中,xi+1,j+1为Circle混沌映射灰狼种群初始位置;xi,j为随机生成灰狼种群初始位置;mod(·)为mod函数;i为个体指示量;j为维度指示量;
动态反向学习策略的公式为:
x'ij(t)=k(aj(t)+bj(t))-xij(t)
式中,x'ij(t)、xij(t)分别为第i灰狼个体第j维的反向位置和正向位置;aj(t)、bj(t)分别为当前灰狼种群第j维的上界和下界;k为递减惯性因子,k=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
IGWO寻优算法的公式为:
式中,X(t+1)为t+1时刻人工灰狼进行猎捕活动移动的位置;X1、X2、X3、Xω分别为最优领导者狼α、β、δ以及随机狼ω的位置;D1、D2、D3、Dω分别为人工灰狼到α、β、δ、ω狼的距离;A1、A2、A3、Aω均为收敛影响系数向量,由收敛因子a决定;W1、W2均为位置定位系数,W1=w·r,W2=(1-w)·r,w为位置定位因子,根据迭代次数决定且与迭代次数负相关,且w∈(0,1],r为[0,1]之间的随机数;i为参数指示量;t为时刻指示量。
进一步地,实时采集语音音频数据,并将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型,包括如下步骤:
实时采集语音音频数据,得到实时的语音音频数据,并对实时的语音音频数据进行预处理,得到预处理后的语音音频数据;
将预处理后的语音音频数据输入混合语言语音识别模型,使用语音字符识别子模型进行字符识别,得到若干语音字符数据;
将若干语音字符数据输入语音文本识别子模型进行文本处理,得到实时的语音文本数据和语言类型。
一种基于语音识别的文本打印系统,应用于文本打印方法,系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机,存储单元分别与数据库构建单元、模型构建单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机连接,模型构建单元与外部的语料数据库连接;
数据库构建单元,用于接收用户上传的若干语言类型的若干文本打印模板,根据若干语言类型的若干文本打印模板,构建文本打印模板数据库,并将文本打印模板数据库存储至存储单元;
模型构建单元,用于采集外部的语料数据库中均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,并根据中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,使用DBN-CTC-IGWO-RNN-LM算法,构建混合语言语音识别模型,并将混合语言语音识别模型的模型元数据存储至存储单元;
语音音频采集单元,用于实时采集语音音频数据,并将实时的语音音频数据至存储单元;
语音识别应用单元,用于提取存储单元存储的混合语言语音识别模型的模型元数据,对混合语言语音识别模型的模型元数据进行重构,得到重构的混合语言语音识别模型,提取存储单元存储的实时的语音音频数据,将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型,并将实时的语音文本数据和语言类型存储至存储单元;实时的语音文本数据包括实时的控制指令、标识数据以及打印文本数据;
模板匹配单元,用于提取存储单元存储的实时的语言类型,根据实时的语言类型,在文本打印模板数据库匹配对应的若干文本打印模板;
模板选择单元,用于提取存储单元存储的实时的语音文本数据,根据实时的语音文本数据中包含的控制指令,在文本打印模板数据库中匹配的若干文本打印模板中选择一种文本打印模板;
数据融合单元,用于提取存储单元存储的实时的语音文本数据和模板选择单元选择的文本打印模板,将实时的语音文本数据的打印文本数据与文本打印模板数据库中选择的文本打印模板进行融合,得到实时的文本打印数据材料,并将实时的文本打印数据材料存储至存储单元;
打印机,用于提取存储单元存储的实时的语音文本数据和实时的文本打印数据材料,根据实时的语音文本数据中包含的控制指令,对实时的文本打印数据材料进行文本打印,得到实时的文本打印纸质材料;
存储单元,用于存储文本打印模板数据库、混合语言语音识别模型的模型元数据、实时的语音音频数据、实时的语音文本数据、实时的语言类型以及实时的文本打印数据材料。
进一步地,系统还包括材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元,材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元均与存储单元连接;
材料库构建单元,用于接收用户上传的若干预设的文本打印数据材料,根据若干预设的文本打印数据材料,构建文本打印数据材料库,并将文本打印数据材料库存储至存储单元;
标识数据设置单元,用于为存储单元中文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据;
标识数据匹配单元,用于提取存储单元存储的实时的语音文本数据,将实时的语音文本数据中包含的标识数据与文本打印数据材料库中所有预设的标识数据进行匹配,得到匹配的标识数据,并将匹配的标识数据存储至存储单元;
数据材料提取单元,用于提取存储单元存储的匹配的标识数据,根据匹配的标识数据,在文本打印数据材料库中提取对应的预设的文本打印数据材料,并将预设的文本打印数据材料存储至存储单元;
打印机,还用于提取存储单元存储的预设的文本打印数据材料,根据实时的语音文本数据中包含的控制指令,对预设的文本打印数据材料进行文本打印,得到预设的文本打印纸质材料。
本发明的有益效果为:
本发明提供的一种基于语音识别的文本打印方法及系统,构建了混合语言语音识别模型对用户的多种语言的语音音频数据进行实时、准确的识别,提高了语音识别效率和效果,构建文本打印模板数据库提供多种多样的文本打印模板,实现了语音文本数据与文本打印模板的融合打印,提高了打印效果和用户使用体验,采用语音指令控制文本打印流程,避免了手动操作,提高了智能化程度,实现了语音识别与打印机的有机结合。
本发明的其他有益效果将在具体实施方式中进一步进行说明。
附图说明
图1是本发明中基于语音识别的文本打印方法的流程框图。
图2是本发明中基于语音识别的文本打印系统的结构框图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步阐释。
实施例1:
如图1所示,本实施例提供一种基于语音识别的文本打印方法,包括如下步骤:
构建包含若干语言类型和若干文本打印模板的文本打印模板数据库;
文本打印模板包括中文的文本打印模板、英文的文本打印模板、中英文混合且中文为主语言的文本打印模板以及中英文混合且英文为主语言的文本打印模板;每种语言类型均设置有若干样式的文本打印模板,提高了用户的使用体验,并且适用于多种语言类型,当中文为主语言时,文本打印模板主体为中文,可选择采用小字号的英文注释;
构建混合语言语音识别模型,包括如下步骤:
采集均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,并组合中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,得到混合语言语音训练样本集;
使用DBN-CTC-IGWO-RNN-LM算法,构建初始的混合语言语音识别模型;
混合语言语音识别模型包括使用DBN-CTC-IGWO算法构建的语音字符识别子模型和使用循环神经网络语言模型(language Modeling and Recurrent Neural Network,RNN-LM)算法构建的语音文本识别子模型;
语音字符识别子模型采用深度信念网络(Deep Belief Network,DBN)作为模型基本网络结构,DBN网络包括一个输入层、若干隐含层以及一个输出层,DBN网络若干隐含层的神经元初始连接权值和阈值使用改进灰狼(Improved Grey Wolf OptimizationAlgorithm,IGWO)寻优算法进行优化,DBN网络该输出层将预训练好的Elman神经网络作为分类器,且DBN网络的该输出层的输出端设置有连接主义时间分类(ConnectionistTemporal Classification,CTC)算法,CTC算法常用在语音识别、文本识别等领域的算法,用来解决输入和输出序列长度不一、无法对齐的问题;
语音文本识别子模型的输入层与语音文本识别子模型的输出端连接,且语音文本识别子模型的输出层用于输出语音文本数据和语言类型;
DBN网络若干隐含层能够准确的学习混合语言语音训练样本的音频数据特征,提高语音识别的准确性和实时性,而Elman神经网络作为分类器,能够提高了语音识别的识别效率和效果;
引入Circle混沌序列初始化和动态反向学习策略对传统的灰狼寻优算法进行优化,得到IGWO寻优算法;
Circle混沌序列初始化公式为:
式中,xi+1,j+1为Circle混沌映射灰狼种群初始位置;xi,j为随机生成灰狼种群初始位置;mod(·)为mod函数;i为个体指示量;j为维度指示量;
动态反向学习策略的公式为:
x'ij(t)=k(aj(t)+bj(t))-xij(t)
式中,x'ij(t)、xij(t)分别为第i灰狼个体第j维的反向位置和正向位置;aj(t)、bj(t)分别为当前灰狼种群第j维的上界和下界;k为递减惯性因子,k=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
IGWO寻优算法的公式为:
式中,X(t+1)为t+1时刻人工灰狼进行猎捕活动移动的位置;X1、X2、X3、Xω分别为最优领导者狼α、β、δ以及随机狼ω的位置;D1、D2、D3、Dω分别为人工灰狼到α、β、δ、ω狼的距离;A1、A2、A3、Aω均为收敛影响系数向量,由收敛因子a决定;W1、W2均为位置定位系数,W1=w·r,W2=(1-w)·r,w为位置定位因子,根据迭代次数决定且与迭代次数负相关,且w∈(0,1],r为[0,1]之间的随机数;i为参数指示量;t为时刻指示量;
在迭代前期,位置定位系数W1维持在较高的数值,保证了灰狼种群在全局的捕猎能力和搜索能力,在迭代后期,位置定位系数W2维持在较高的数值,保证了灰狼种群在局部的攻击能力,因此,IGWO寻优算法能够提高DBN网络的收敛性能和收敛速度,避免了DBN神经网络早熟和陷入局部最优值,提高了语音识别的准确性和效率;
将混合语言语音训练样本集输入初始的混合语言语音识别模型进行优化训练,得到最优的混合语言语音识别模型;
实时采集语音音频数据,并将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型,包括如下步骤:
实时采集语音音频数据,得到实时的语音音频数据,并对实时的语音音频数据进行预处理,得到预处理后的语音音频数据;预处理包括高斯降噪处理,用于去除环境声对关键语音的干扰,提高了语音识别的准确性;
将预处理后的语音音频数据输入混合语言语音识别模型,使用语音字符识别子模型进行字符识别,得到若干语音字符数据;
将若干语音字符数据输入语音文本识别子模型进行文本处理,得到实时的语音文本数据和语言类型;
语音文本数据为控制指令、标识数据、打印文本数据、其中两种数据的组合或全部三种数据的组合,其中,控制指令用于选择文本打印模板或开启文本打印任务,标识数据用于选择预设的文本打印数据材料进行文本打印,打印文本数据用于与选择的文本打印模板进行融合,生成对应的文本打印数据材料;
当未收到文本打印的控制指令之前,实时进行语音识别,只有收到文本打印的控制指令,才开始打印,保证了文本打印的流程流畅性和完整性;
语言类型包括中文、英文以及中英文混合;
根据实时的语言类型,在文本打印模板数据库匹配对应的若干文本打印模板;
根据实时的语音文本数据,在若干文本打印模板中选择一种文本打印模板;
将实时的语音文本数据与选择的文本打印模板进行融合,得到实时的文本打印数据材料;
根据实时的语音文本数据,对实时的文本打印数据材料进行文本打印,得到实时的文本打印纸质材料。
作为优选,方法还包括如下步骤:
构建包含若干预设的文本打印数据材料的文本打印数据材料库;
为文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据;
将实时的语音文本数据中包含的标识数据与所有预设的标识数据进行匹配,得到匹配的标识数据;
在文本打印数据材料库中提取匹配的标识数据对应的预设的文本打印数据材料;
根据实时的语音文本数据中包含的控制指令,对预设的文本打印数据材料进行文本打印,得到预设的文本打印纸质材料;
为语音识别的文本打印方法提供一种快速、准确的预设的文本打印纸质材料打印功能,通过标识数据在文本打印数据材料库进行检索,能够满足在无需文本输入或预设文本的打印任务。
实施例2:
如图2所示,本实施例提供一种基于语音识别的文本打印系统,应用于文本打印方法,系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机,存储单元分别与数据库构建单元、模型构建单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机连接,模型构建单元与外部的语料数据库连接;
数据库构建单元,用于接收用户上传的若干语言类型的若干文本打印模板,根据若干语言类型的若干文本打印模板,构建文本打印模板数据库,并将文本打印模板数据库存储至存储单元;
模型构建单元,用于采集外部的语料数据库中均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,并根据中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,使用DBN-CTC-IGWO-RNN-LM算法,构建混合语言语音识别模型,并将混合语言语音识别模型的模型元数据存储至存储单元;
语音音频采集单元,用于实时采集语音音频数据,并将实时的语音音频数据至存储单元;
语音识别应用单元,用于提取存储单元存储的混合语言语音识别模型的模型元数据,对混合语言语音识别模型的模型元数据进行重构,得到重构的混合语言语音识别模型,提取存储单元存储的实时的语音音频数据,将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型,并将实时的语音文本数据和语言类型存储至存储单元;实时的语音文本数据包括实时的控制指令、标识数据以及打印文本数据;
模板匹配单元,用于提取存储单元存储的实时的语言类型,根据实时的语言类型,在文本打印模板数据库匹配对应的若干文本打印模板;
模板选择单元,用于提取存储单元存储的实时的语音文本数据,根据实时的语音文本数据中包含的控制指令,在文本打印模板数据库中匹配的若干文本打印模板中选择一种文本打印模板;
数据融合单元,用于提取存储单元存储的实时的语音文本数据和模板选择单元选择的文本打印模板,将实时的语音文本数据的打印文本数据与文本打印模板数据库中选择的文本打印模板进行融合,得到实时的文本打印数据材料,并将实时的文本打印数据材料存储至存储单元;
打印机,用于提取存储单元存储的实时的语音文本数据和实时的文本打印数据材料,根据实时的语音文本数据中包含的控制指令,对实时的文本打印数据材料进行文本打印,得到实时的文本打印纸质材料;
存储单元,用于存储文本打印模板数据库、混合语言语音识别模型的模型元数据、实时的语音音频数据、实时的语音文本数据、实时的语言类型以及实时的文本打印数据材料。
进一步地,系统还包括材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元,材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元均与存储单元连接;
材料库构建单元,用于接收用户上传的若干预设的文本打印数据材料,根据若干预设的文本打印数据材料,构建文本打印数据材料库,并将文本打印数据材料库存储至存储单元;
标识数据设置单元,用于为存储单元中文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据;
标识数据匹配单元,用于提取存储单元存储的实时的语音文本数据,将实时的语音文本数据中包含的标识数据与文本打印数据材料库中所有预设的标识数据进行匹配,得到匹配的标识数据,并将匹配的标识数据存储至存储单元;
数据材料提取单元,用于提取存储单元存储的匹配的标识数据,根据匹配的标识数据,在文本打印数据材料库中提取对应的预设的文本打印数据材料,并将预设的文本打印数据材料存储至存储单元;
打印机,还用于提取存储单元存储的预设的文本打印数据材料,根据实时的语音文本数据中包含的控制指令,对预设的文本打印数据材料进行文本打印,得到预设的文本打印纸质材料。
本发明提供的一种基于语音识别的文本打印方法及系统,构建了混合语言语音识别模型对用户的多种语言的语音音频数据进行实时、准确的识别,提高了语音识别效率和效果,构建文本打印模板数据库提供多种多样的文本打印模板,实现了语音文本数据与文本打印模板的融合打印,提高了打印效果和用户使用体验,采用语音指令控制文本打印流程,避免了手动操作,提高了智能化程度,实现了语音识别与打印机的有机结合。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (10)
1.一种基于语音识别的文本打印方法,其特征在于:包括如下步骤:
构建包含若干语言类型和若干文本打印模板的文本打印模板数据库;
构建混合语言语音识别模型;
实时采集语音音频数据,并将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型;
根据实时的语言类型,在文本打印模板数据库匹配对应的若干文本打印模板;
根据实时的语音文本数据,在若干文本打印模板中选择一种文本打印模板;
将实时的语音文本数据与选择的文本打印模板进行融合,得到实时的文本打印数据材料;
根据实时的语音文本数据,对实时的文本打印数据材料进行文本打印,得到实时的文本打印纸质材料。
2.根据权利要求1所述的一种基于语音识别的文本打印方法,其特征在于:所述的语音文本数据为控制指令、标识数据、打印文本数据、其中两种数据的组合或全部三种数据的组合,其中,控制指令用于选择文本打印模板或开启文本打印任务,标识数据用于选择预设的文本打印数据材料进行文本打印,打印文本数据用于与选择的文本打印模板进行融合,生成对应的文本打印数据材料。
3.根据权利要求2所述的一种基于语音识别的文本打印方法,其特征在于:所述的方法还包括如下步骤:
构建包含若干预设的文本打印数据材料的文本打印数据材料库;
为文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据;
将实时的语音文本数据中包含的标识数据与所有预设的标识数据进行匹配,得到匹配的标识数据;
在文本打印数据材料库中提取匹配的标识数据对应的预设的文本打印数据材料;
根据实时的语音文本数据中包含的控制指令,对预设的文本打印数据材料进行文本打印,得到预设的文本打印纸质材料。
4.根据权利要求1所述的一种基于语音识别的文本打印方法,其特征在于:所述的语言类型包括中文、英文以及中英文混合;
所述的文本打印模板包括中文的文本打印模板、英文的文本打印模板、中英文混合且中文为主语言的文本打印模板以及中英文混合且英文为主语言的文本打印模板。
5.根据权利要求4所述的一种基于语音识别的文本打印方法,其特征在于:构建混合语言语音识别模型,包括如下步骤:
采集均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,并组合中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,得到混合语言语音训练样本集;
使用DBN-CTC-IGWO-RNN-LM算法,构建初始的混合语言语音识别模型;
将混合语言语音训练样本集输入初始的混合语言语音识别模型进行优化训练,得到最优的混合语言语音识别模型。
6.根据权利要求5所述的一种基于语音识别的文本打印方法,其特征在于:所述的混合语言语音识别模型包括使用DBN-CTC-IGWO算法构建的语音字符识别子模型和使用RNN-LM算法构建的语音文本识别子模型;
所述的语音字符识别子模型采用DBN网络作为模型基本网络结构,所述的DBN网络包括一个输入层、若干隐含层以及一个输出层,DBN网络所述的若干隐含层的神经元初始连接权值和阈值使用IGWO寻优算法进行优化,DBN网络所述的输出层将预训练好的Elman神经网络作为分类器,且DBN网络的该输出层的输出端设置有CTC算法;
所述的语音文本识别子模型的输入层与语音文本识别子模型的输出端连接,且语音文本识别子模型的输出层用于输出语音文本数据和语言类型。
7.根据权利要求6所述的一种基于语音识别的文本打印方法,其特征在于:引入Circle混沌序列初始化和动态反向学习策略对传统的灰狼寻优算法进行优化,得到所述的IGWO寻优算法;
Circle混沌序列初始化公式为:
式中,xi+1,j+1为Circle混沌映射灰狼种群初始位置;xi,j为随机生成灰狼种群初始位置;mod(·)为mod函数;i为个体指示量;j为维度指示量;
动态反向学习策略的公式为:
x'ij(t)=k(aj(t)+bj(t))-xij(t)
式中,x'ij(t)、xij(t)分别为第i灰狼个体第j维的反向位置和正向位置;aj(t)、bj(t)分别为当前灰狼种群第j维的上界和下界;k为递减惯性因子,k=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
IGWO寻优算法的公式为:
式中,X(t+1)为t+1时刻人工灰狼进行猎捕活动移动的位置;X1、X2、X3、Xω分别为最优领导者狼α、β、δ以及随机狼ω的位置;D1、D2、D3、Dω分别为人工灰狼到α、β、δ、ω狼的距离;A1、A2、A3、Aω均为收敛影响系数向量,由收敛因子a决定;W1、W2均为位置定位系数,W1=w·r,W2=(1-w)·r,w为位置定位因子,根据迭代次数决定且与迭代次数负相关,且w∈(0,1],r为[0,1]之间的随机数;i为参数指示量;t为时刻指示量。
8.根据权利要求6所述的一种基于语音识别的文本打印方法,其特征在于:实时采集语音音频数据,并将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型,包括如下步骤:
实时采集语音音频数据,得到实时的语音音频数据,并对实时的语音音频数据进行预处理,得到预处理后的语音音频数据;
将预处理后的语音音频数据输入混合语言语音识别模型,使用语音字符识别子模型进行字符识别,得到若干语音字符数据;
将若干语音字符数据输入语音文本识别子模型进行文本处理,得到实时的语音文本数据和语言类型。
9.一种基于语音识别的文本打印系统,应用于如权利要求1-8任一所述的文本打印方法,其特征在于:所述的系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机,所述的存储单元分别与数据库构建单元、模型构建单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机连接,所述的模型构建单元与外部的语料数据库连接;
数据库构建单元,用于接收用户上传的若干语言类型的若干文本打印模板,根据若干语言类型的若干文本打印模板,构建文本打印模板数据库,并将文本打印模板数据库存储至存储单元;
模型构建单元,用于采集外部的语料数据库中均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,并根据中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集,使用DBN-CTC-IGWO-RNN-LM算法,构建混合语言语音识别模型,并将混合语言语音识别模型的模型元数据存储至存储单元;
语音音频采集单元,用于实时采集语音音频数据,并将实时的语音音频数据至存储单元;
语音识别应用单元,用于提取存储单元存储的混合语言语音识别模型的模型元数据,对混合语言语音识别模型的模型元数据进行重构,得到重构的混合语言语音识别模型,提取存储单元存储的实时的语音音频数据,将实时的语音音频数据输入混合语言语音识别模型进行语音识别,得到实时的语音文本数据和语言类型,并将实时的语音文本数据和语言类型存储至存储单元;所述的实时的语音文本数据包括实时的控制指令、标识数据以及打印文本数据;
模板匹配单元,用于提取存储单元存储的实时的语言类型,根据实时的语言类型,在文本打印模板数据库匹配对应的若干文本打印模板;
模板选择单元,用于提取存储单元存储的实时的语音文本数据,根据实时的语音文本数据中包含的控制指令,在文本打印模板数据库中匹配的若干文本打印模板中选择一种文本打印模板;
数据融合单元,用于提取存储单元存储的实时的语音文本数据和模板选择单元选择的文本打印模板,将实时的语音文本数据的打印文本数据与文本打印模板数据库中选择的文本打印模板进行融合,得到实时的文本打印数据材料,并将实时的文本打印数据材料存储至存储单元;
打印机,用于提取存储单元存储的实时的语音文本数据和实时的文本打印数据材料,根据实时的语音文本数据中包含的控制指令,对实时的文本打印数据材料进行文本打印,得到实时的文本打印纸质材料;
存储单元,用于存储文本打印模板数据库、混合语言语音识别模型的模型元数据、实时的语音音频数据、实时的语音文本数据、实时的语言类型以及实时的文本打印数据材料。
10.根据权利要求9所述的一种基于语音识别的文本打印系统,其特征在于:所述的系统还包括材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元,所述的材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元均与存储单元连接;
材料库构建单元,用于接收用户上传的若干预设的文本打印数据材料,根据若干预设的文本打印数据材料,构建文本打印数据材料库,并将文本打印数据材料库存储至存储单元;
标识数据设置单元,用于为存储单元中文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据;
标识数据匹配单元,用于提取存储单元存储的实时的语音文本数据,将实时的语音文本数据中包含的标识数据与文本打印数据材料库中所有预设的标识数据进行匹配,得到匹配的标识数据,并将匹配的标识数据存储至存储单元;
数据材料提取单元,用于提取存储单元存储的匹配的标识数据,根据匹配的标识数据,在文本打印数据材料库中提取对应的预设的文本打印数据材料,并将预设的文本打印数据材料存储至存储单元;
打印机,还用于提取存储单元存储的预设的文本打印数据材料,根据实时的语音文本数据中包含的控制指令,对预设的文本打印数据材料进行文本打印,得到预设的文本打印纸质材料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310333276.0A CN116339655A (zh) | 2023-03-30 | 2023-03-30 | 一种基于语音识别的文本打印方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310333276.0A CN116339655A (zh) | 2023-03-30 | 2023-03-30 | 一种基于语音识别的文本打印方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116339655A true CN116339655A (zh) | 2023-06-27 |
Family
ID=86892789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310333276.0A Pending CN116339655A (zh) | 2023-03-30 | 2023-03-30 | 一种基于语音识别的文本打印方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116339655A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117524193A (zh) * | 2024-01-08 | 2024-02-06 | 浙江同花顺智能科技有限公司 | 中英混合语音识别系统训练方法、装置、设备及介质 |
-
2023
- 2023-03-30 CN CN202310333276.0A patent/CN116339655A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117524193A (zh) * | 2024-01-08 | 2024-02-06 | 浙江同花顺智能科技有限公司 | 中英混合语音识别系统训练方法、装置、设备及介质 |
CN117524193B (zh) * | 2024-01-08 | 2024-03-29 | 浙江同花顺智能科技有限公司 | 中英混合语音识别系统训练方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600047B (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN109326283B (zh) | 非平行文本条件下基于文本编码器的多对多语音转换方法 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
US20220309348A1 (en) | Method for generating personalized dialogue content | |
CN108763284A (zh) | 一种基于深度学习和主题模型的问答系统实现方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111177366A (zh) | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111477220B (zh) | 一种面向家居口语环境的神经网络语音识别方法及系统 | |
CN111046178B (zh) | 一种文本序列生成方法及其系统 | |
CN112417894A (zh) | 一种基于多任务学习的对话意图识别方法及识别系统 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN106557165B (zh) | 智能设备的动作模拟交互方法和装置及智能设备 | |
CN111159345A (zh) | 一种中文知识库答案获取方法及其装置 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN116339655A (zh) | 一种基于语音识别的文本打印方法及系统 | |
CN114490991A (zh) | 基于细粒度局部信息增强的对话结构感知对话方法及系统 | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114444481B (zh) | 一种新闻评论的情感分析与生成方法 | |
CN113011196B (zh) | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |