CN116339655A

CN116339655A - 一种基于语音识别的文本打印方法及系统

Info

Publication number: CN116339655A
Application number: CN202310333276.0A
Authority: CN
Inventors: 魏鹏飞; 贾英莉
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-27

Abstract

本发明属于文本打印技术领域，公开了一种基于语音识别的文本打印方法及系统。所述的方法包括如下步骤：构建文本打印模板数据库；构建混合语言语音识别模型；实时采集语音音频数据，并进行语音识别；匹配对应的若干文本打印模板；选择一种文本打印模板；将实时的语音文本数据与选择的文本打印模板进行融合；对实时的文本打印数据材料进行文本打印。所述的系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机。本发明解决了现有技术存在的智能化程度低，语音识别效果差，识别效率低下，以及缺乏有机结合的问题。

Description

一种基于语音识别的文本打印方法及系统

技术领域

本发明属于文本打印技术领域，具体涉及一种基于语音识别的文本打印方法及系统。

背景技术

打印机作为办公用具，是计算机的输出设备之一，用于将计算机处理结果打印在相关介质上，随着科技技术和计算机硬件的发展，打印机正向轻、薄、短、小、低功耗、高速度和智能化方向发展，其功能越来越丰富。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技技术。近年来，语音识别技术取得显著进步，开始从实验室走向市场，语音识别技术越来越多的进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

现有的打印机实现了将计算机存储的数据文件进行打印的简单功能，智能化程度低，已经无法满足市场的需求，虽然现有技术中，已经出现了将语音识别技术与打印机相结合的技术方案，但是现有结合方案的语音识别效果差，识别效率低下，无法做到实时识别和打印，影响用户的使用体验，并且现有技术的语音识别与打印机的结合方法还处于研究的初步阶段，仅仅实现了将语音识别结果使用打印机进行打印的简单指令，缺乏有机结合。

发明内容

为了解决现有技术存在的智能化程度低，语音识别效果差，识别效率低下，以及缺乏有机结合的问题，本发明目的在于提供一种基于语音识别的文本打印方法及系统。

本发明所采用的技术方案为：

一种基于语音识别的文本打印方法，包括如下步骤：

构建包含若干语言类型和若干文本打印模板的文本打印模板数据库；

构建混合语言语音识别模型；

实时采集语音音频数据，并将实时的语音音频数据输入混合语言语音识别模型进行语音识别，得到实时的语音文本数据和语言类型；

根据实时的语言类型，在文本打印模板数据库匹配对应的若干文本打印模板；

根据实时的语音文本数据，在若干文本打印模板中选择一种文本打印模板；

将实时的语音文本数据与选择的文本打印模板进行融合，得到实时的文本打印数据材料；

根据实时的语音文本数据，对实时的文本打印数据材料进行文本打印，得到实时的文本打印纸质材料。

进一步地，语音文本数据为控制指令、标识数据、打印文本数据、其中两种数据的组合或全部三种数据的组合，其中，控制指令用于选择文本打印模板或开启文本打印任务，标识数据用于选择预设的文本打印数据材料进行文本打印，打印文本数据用于与选择的文本打印模板进行融合，生成对应的文本打印数据材料。

进一步地，方法还包括如下步骤：

构建包含若干预设的文本打印数据材料的文本打印数据材料库；

为文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据；

将实时的语音文本数据中包含的标识数据与所有预设的标识数据进行匹配，得到匹配的标识数据；

在文本打印数据材料库中提取匹配的标识数据对应的预设的文本打印数据材料；

根据实时的语音文本数据中包含的控制指令，对预设的文本打印数据材料进行文本打印，得到预设的文本打印纸质材料。

进一步地，语言类型包括中文、英文以及中英文混合；

文本打印模板包括中文的文本打印模板、英文的文本打印模板、中英文混合且中文为主语言的文本打印模板以及中英文混合且英文为主语言的文本打印模板。

进一步地，构建混合语言语音识别模型，包括如下步骤：

采集均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集，并组合中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集，得到混合语言语音训练样本集；

使用DBN-CTC-IGWO-RNN-LM算法，构建初始的混合语言语音识别模型；

将混合语言语音训练样本集输入初始的混合语言语音识别模型进行优化训练，得到最优的混合语言语音识别模型。

进一步地，混合语言语音识别模型包括使用DBN-CTC-IGWO算法构建的语音字符识别子模型和使用RNN-LM算法构建的语音文本识别子模型；

语音字符识别子模型采用DBN网络作为模型基本网络结构，DBN网络包括一个输入层、若干隐含层以及一个输出层，DBN网络若干隐含层的神经元初始连接权值和阈值使用IGWO寻优算法进行优化，DBN网络该输出层将预训练好的Elman神经网络作为分类器，且DBN网络的该输出层的输出端设置有CTC算法；

语音文本识别子模型的输入层与语音文本识别子模型的输出端连接，且语音文本识别子模型的输出层用于输出语音文本数据和语言类型。

进一步地，引入Circle混沌序列初始化和动态反向学习策略对传统的灰狼寻优算法进行优化，得到IGWO寻优算法；

Circle混沌序列初始化公式为：

式中，x_i+1,j+1为Circle混沌映射灰狼种群初始位置；x_i,j为随机生成灰狼种群初始位置；mod(·)为mod函数；i为个体指示量；j为维度指示量；

动态反向学习策略的公式为：

x'_ij(t)＝k(a_j(t)+b_j(t))-x_ij(t)

式中，x'_ij(t)、x_ij(t)分别为第i灰狼个体第j维的反向位置和正向位置；a_j(t)、b_j(t)分别为当前灰狼种群第j维的上界和下界；k为递减惯性因子，k＝0.9-0.5D/D_max；D、D_max分别为当前迭代次数和最大迭代次数；t为时刻指示量；

IGWO寻优算法的公式为：

式中，X(t+1)为t+1时刻人工灰狼进行猎捕活动移动的位置；X₁、X₂、X₃、X_ω分别为最优领导者狼α、β、δ以及随机狼ω的位置；D₁、D₂、D₃、D_ω分别为人工灰狼到α、β、δ、ω狼的距离；A₁、A₂、A₃、A_ω均为收敛影响系数向量，由收敛因子a决定；W₁、W₂均为位置定位系数，W₁＝w·r，W₂＝(1-w)·r，w为位置定位因子，根据迭代次数决定且与迭代次数负相关，且w∈(0,1]，r为[0,1]之间的随机数；i为参数指示量；t为时刻指示量。

进一步地，实时采集语音音频数据，并将实时的语音音频数据输入混合语言语音识别模型进行语音识别，得到实时的语音文本数据和语言类型，包括如下步骤：

实时采集语音音频数据，得到实时的语音音频数据，并对实时的语音音频数据进行预处理，得到预处理后的语音音频数据；

将预处理后的语音音频数据输入混合语言语音识别模型，使用语音字符识别子模型进行字符识别，得到若干语音字符数据；

将若干语音字符数据输入语音文本识别子模型进行文本处理，得到实时的语音文本数据和语言类型。

一种基于语音识别的文本打印系统，应用于文本打印方法，系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机，存储单元分别与数据库构建单元、模型构建单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机连接，模型构建单元与外部的语料数据库连接；

数据库构建单元，用于接收用户上传的若干语言类型的若干文本打印模板，根据若干语言类型的若干文本打印模板，构建文本打印模板数据库，并将文本打印模板数据库存储至存储单元；

模型构建单元，用于采集外部的语料数据库中均设置有语言类型标签的中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集，并根据中文语音训练样本集、英文语音训练样本集以及中英文混合语音训练样本集，使用DBN-CTC-IGWO-RNN-LM算法，构建混合语言语音识别模型，并将混合语言语音识别模型的模型元数据存储至存储单元；

语音音频采集单元，用于实时采集语音音频数据，并将实时的语音音频数据至存储单元；

语音识别应用单元，用于提取存储单元存储的混合语言语音识别模型的模型元数据，对混合语言语音识别模型的模型元数据进行重构，得到重构的混合语言语音识别模型，提取存储单元存储的实时的语音音频数据，将实时的语音音频数据输入混合语言语音识别模型进行语音识别，得到实时的语音文本数据和语言类型，并将实时的语音文本数据和语言类型存储至存储单元；实时的语音文本数据包括实时的控制指令、标识数据以及打印文本数据；

模板匹配单元，用于提取存储单元存储的实时的语言类型，根据实时的语言类型，在文本打印模板数据库匹配对应的若干文本打印模板；

模板选择单元，用于提取存储单元存储的实时的语音文本数据，根据实时的语音文本数据中包含的控制指令，在文本打印模板数据库中匹配的若干文本打印模板中选择一种文本打印模板；

数据融合单元，用于提取存储单元存储的实时的语音文本数据和模板选择单元选择的文本打印模板，将实时的语音文本数据的打印文本数据与文本打印模板数据库中选择的文本打印模板进行融合，得到实时的文本打印数据材料，并将实时的文本打印数据材料存储至存储单元；

打印机，用于提取存储单元存储的实时的语音文本数据和实时的文本打印数据材料，根据实时的语音文本数据中包含的控制指令，对实时的文本打印数据材料进行文本打印，得到实时的文本打印纸质材料；

存储单元，用于存储文本打印模板数据库、混合语言语音识别模型的模型元数据、实时的语音音频数据、实时的语音文本数据、实时的语言类型以及实时的文本打印数据材料。

进一步地，系统还包括材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元，材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元均与存储单元连接；

材料库构建单元，用于接收用户上传的若干预设的文本打印数据材料，根据若干预设的文本打印数据材料，构建文本打印数据材料库，并将文本打印数据材料库存储至存储单元；

标识数据设置单元，用于为存储单元中文本打印数据材料库中每个预设的文本打印数据材料设置预设的标识数据；

标识数据匹配单元，用于提取存储单元存储的实时的语音文本数据，将实时的语音文本数据中包含的标识数据与文本打印数据材料库中所有预设的标识数据进行匹配，得到匹配的标识数据，并将匹配的标识数据存储至存储单元；

数据材料提取单元，用于提取存储单元存储的匹配的标识数据，根据匹配的标识数据，在文本打印数据材料库中提取对应的预设的文本打印数据材料，并将预设的文本打印数据材料存储至存储单元；

打印机，还用于提取存储单元存储的预设的文本打印数据材料，根据实时的语音文本数据中包含的控制指令，对预设的文本打印数据材料进行文本打印，得到预设的文本打印纸质材料。

本发明的有益效果为：

本发明提供的一种基于语音识别的文本打印方法及系统，构建了混合语言语音识别模型对用户的多种语言的语音音频数据进行实时、准确的识别，提高了语音识别效率和效果，构建文本打印模板数据库提供多种多样的文本打印模板，实现了语音文本数据与文本打印模板的融合打印，提高了打印效果和用户使用体验，采用语音指令控制文本打印流程，避免了手动操作，提高了智能化程度，实现了语音识别与打印机的有机结合。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于语音识别的文本打印方法的流程框图。

图2是本发明中基于语音识别的文本打印系统的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，本实施例提供一种基于语音识别的文本打印方法，包括如下步骤：

文本打印模板包括中文的文本打印模板、英文的文本打印模板、中英文混合且中文为主语言的文本打印模板以及中英文混合且英文为主语言的文本打印模板；每种语言类型均设置有若干样式的文本打印模板，提高了用户的使用体验，并且适用于多种语言类型，当中文为主语言时，文本打印模板主体为中文，可选择采用小字号的英文注释；

构建混合语言语音识别模型，包括如下步骤：

混合语言语音识别模型包括使用DBN-CTC-IGWO算法构建的语音字符识别子模型和使用循环神经网络语言模型(language Modeling and Recurrent Neural Network，RNN-LM)算法构建的语音文本识别子模型；

语音字符识别子模型采用深度信念网络(Deep Belief Network，DBN)作为模型基本网络结构，DBN网络包括一个输入层、若干隐含层以及一个输出层，DBN网络若干隐含层的神经元初始连接权值和阈值使用改进灰狼(Improved Grey Wolf OptimizationAlgorithm，IGWO)寻优算法进行优化，DBN网络该输出层将预训练好的Elman神经网络作为分类器，且DBN网络的该输出层的输出端设置有连接主义时间分类(ConnectionistTemporal Classification，CTC)算法，CTC算法常用在语音识别、文本识别等领域的算法，用来解决输入和输出序列长度不一、无法对齐的问题；

语音文本识别子模型的输入层与语音文本识别子模型的输出端连接，且语音文本识别子模型的输出层用于输出语音文本数据和语言类型；

DBN网络若干隐含层能够准确的学习混合语言语音训练样本的音频数据特征，提高语音识别的准确性和实时性，而Elman神经网络作为分类器，能够提高了语音识别的识别效率和效果；

引入Circle混沌序列初始化和动态反向学习策略对传统的灰狼寻优算法进行优化，得到IGWO寻优算法；

Circle混沌序列初始化公式为：

动态反向学习策略的公式为：

x'_ij(t)＝k(a_j(t)+b_j(t))-x_ij(t)

IGWO寻优算法的公式为：

式中，X(t+1)为t+1时刻人工灰狼进行猎捕活动移动的位置；X₁、X₂、X₃、X_ω分别为最优领导者狼α、β、δ以及随机狼ω的位置；D₁、D₂、D₃、D_ω分别为人工灰狼到α、β、δ、ω狼的距离；A₁、A₂、A₃、A_ω均为收敛影响系数向量，由收敛因子a决定；W₁、W₂均为位置定位系数，W₁＝w·r，W₂＝(1-w)·r，w为位置定位因子，根据迭代次数决定且与迭代次数负相关，且w∈(0,1]，r为[0,1]之间的随机数；i为参数指示量；t为时刻指示量；

在迭代前期，位置定位系数W₁维持在较高的数值，保证了灰狼种群在全局的捕猎能力和搜索能力，在迭代后期，位置定位系数W₂维持在较高的数值，保证了灰狼种群在局部的攻击能力，因此，IGWO寻优算法能够提高DBN网络的收敛性能和收敛速度，避免了DBN神经网络早熟和陷入局部最优值，提高了语音识别的准确性和效率；

将混合语言语音训练样本集输入初始的混合语言语音识别模型进行优化训练，得到最优的混合语言语音识别模型；

实时采集语音音频数据，并将实时的语音音频数据输入混合语言语音识别模型进行语音识别，得到实时的语音文本数据和语言类型，包括如下步骤：

实时采集语音音频数据，得到实时的语音音频数据，并对实时的语音音频数据进行预处理，得到预处理后的语音音频数据；预处理包括高斯降噪处理，用于去除环境声对关键语音的干扰，提高了语音识别的准确性；

将若干语音字符数据输入语音文本识别子模型进行文本处理，得到实时的语音文本数据和语言类型；

语音文本数据为控制指令、标识数据、打印文本数据、其中两种数据的组合或全部三种数据的组合，其中，控制指令用于选择文本打印模板或开启文本打印任务，标识数据用于选择预设的文本打印数据材料进行文本打印，打印文本数据用于与选择的文本打印模板进行融合，生成对应的文本打印数据材料；

当未收到文本打印的控制指令之前，实时进行语音识别，只有收到文本打印的控制指令，才开始打印，保证了文本打印的流程流畅性和完整性；

语言类型包括中文、英文以及中英文混合；

作为优选，方法还包括如下步骤：

根据实时的语音文本数据中包含的控制指令，对预设的文本打印数据材料进行文本打印，得到预设的文本打印纸质材料；

为语音识别的文本打印方法提供一种快速、准确的预设的文本打印纸质材料打印功能，通过标识数据在文本打印数据材料库进行检索，能够满足在无需文本输入或预设文本的打印任务。

实施例2：

如图2所示，本实施例提供一种基于语音识别的文本打印系统，应用于文本打印方法，系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机，存储单元分别与数据库构建单元、模型构建单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机连接，模型构建单元与外部的语料数据库连接；

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于语音识别的文本打印方法，其特征在于：包括如下步骤：

构建混合语言语音识别模型；

2.根据权利要求1所述的一种基于语音识别的文本打印方法，其特征在于：所述的语音文本数据为控制指令、标识数据、打印文本数据、其中两种数据的组合或全部三种数据的组合，其中，控制指令用于选择文本打印模板或开启文本打印任务，标识数据用于选择预设的文本打印数据材料进行文本打印，打印文本数据用于与选择的文本打印模板进行融合，生成对应的文本打印数据材料。

3.根据权利要求2所述的一种基于语音识别的文本打印方法，其特征在于：所述的方法还包括如下步骤：

4.根据权利要求1所述的一种基于语音识别的文本打印方法，其特征在于：所述的语言类型包括中文、英文以及中英文混合；

所述的文本打印模板包括中文的文本打印模板、英文的文本打印模板、中英文混合且中文为主语言的文本打印模板以及中英文混合且英文为主语言的文本打印模板。

5.根据权利要求4所述的一种基于语音识别的文本打印方法，其特征在于：构建混合语言语音识别模型，包括如下步骤：

6.根据权利要求5所述的一种基于语音识别的文本打印方法，其特征在于：所述的混合语言语音识别模型包括使用DBN-CTC-IGWO算法构建的语音字符识别子模型和使用RNN-LM算法构建的语音文本识别子模型；

所述的语音字符识别子模型采用DBN网络作为模型基本网络结构，所述的DBN网络包括一个输入层、若干隐含层以及一个输出层，DBN网络所述的若干隐含层的神经元初始连接权值和阈值使用IGWO寻优算法进行优化，DBN网络所述的输出层将预训练好的Elman神经网络作为分类器，且DBN网络的该输出层的输出端设置有CTC算法；

所述的语音文本识别子模型的输入层与语音文本识别子模型的输出端连接，且语音文本识别子模型的输出层用于输出语音文本数据和语言类型。

7.根据权利要求6所述的一种基于语音识别的文本打印方法，其特征在于：引入Circle混沌序列初始化和动态反向学习策略对传统的灰狼寻优算法进行优化，得到所述的IGWO寻优算法；

Circle混沌序列初始化公式为：

动态反向学习策略的公式为：

x'_ij(t)＝k(a_j(t)+b_j(t))-x_ij(t)

IGWO寻优算法的公式为：

8.根据权利要求6所述的一种基于语音识别的文本打印方法，其特征在于：实时采集语音音频数据，并将实时的语音音频数据输入混合语言语音识别模型进行语音识别，得到实时的语音文本数据和语言类型，包括如下步骤：

9.一种基于语音识别的文本打印系统，应用于如权利要求1-8任一所述的文本打印方法，其特征在于：所述的系统包括数据库构建单元、模型构建单元、存储单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机，所述的存储单元分别与数据库构建单元、模型构建单元、语音音频采集单元、语音识别应用单元、模板匹配单元、模板选择单元、数据融合单元以及打印机连接，所述的模型构建单元与外部的语料数据库连接；

语音识别应用单元，用于提取存储单元存储的混合语言语音识别模型的模型元数据，对混合语言语音识别模型的模型元数据进行重构，得到重构的混合语言语音识别模型，提取存储单元存储的实时的语音音频数据，将实时的语音音频数据输入混合语言语音识别模型进行语音识别，得到实时的语音文本数据和语言类型，并将实时的语音文本数据和语言类型存储至存储单元；所述的实时的语音文本数据包括实时的控制指令、标识数据以及打印文本数据；

10.根据权利要求9所述的一种基于语音识别的文本打印系统，其特征在于：所述的系统还包括材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元，所述的材料库构建单元、标识数据设置单元、标识数据匹配单元以及数据材料提取单元均与存储单元连接；