CN116564286A

CN116564286A - 语音录入方法、装置、存储介质及电子设备

Info

Publication number: CN116564286A
Application number: CN202310484289.8A
Authority: CN
Inventors: 王少康
Original assignee: New Oriental Education Technology Group Co ltd
Current assignee: New Oriental Education Technology Group Co ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-08

Abstract

本公开涉及一种语音录入方法、装置、存储介质及电子设备，该语音录入方法包括：获取语音信号；将语音信号输入训练完成的语音识别模型，得到训练完成的语音识别模型输出的目标文本，其中，训练完成的语音识别模型包括声学模型和语言模型，声学模型用于根据表征语音信号的特征向量确定对应的音素序列，语言模型用于确定音素序列对应的候选文本序列的概率；基于扩展接口，将目标文本录入表格。通过该语音录入方法，可以结合声学模型以及语言模型提高所确定的目标文本的准确性，并且在通过语音转文本的方式自动录入数据的过程中，提高语音录入效率，进而提高数据录入效率。

Description

语音录入方法、装置、存储介质及电子设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种语音录入方法、装置、存储介质及电子设备。

背景技术

在日常工作中，常常涉及到登记或者统计成绩等数据、转录客服电话、自动添加字幕、生成会议纪要以及为媒体资产生成元数据、创建完全可搜索的存档等工作。这些工作不但涉及重复性操作，而且工作量通常较大。

目前，老师、会计出纳以及文职办公人员大多仍采用纯手工录入信息的方式，这种方式耗费了工作人员大量的时间和精力，数据录入效率低，并且人工录入数据的错误率也较高。

发明内容

本公开的目的是提供一种语音录入方法、装置、存储介质及电子设备，以解决相关技术中存在的问题。

为了实现上述目的，本公开实施例的第一方面提供一种语音录入方法，所述方法包括：

获取语音信号；

将所述语音信号输入训练完成的语音识别模型，得到所述训练完成的语音识别模型输出的目标文本，其中，所述训练完成的语音识别模型包括声学模型和语言模型，所述声学模型用于根据表征所述语音信号的特征向量确定对应的音素序列，所述语言模型用于确定所述音素序列对应的候选文本序列的概率；

基于扩展接口，将所述目标文本录入表格。

可选地，所述训练完成的语音识别模型通过如下步骤确定所述语音信号对应的目标文本：

对所述语音信号进行预处理，得到分帧后的音频流；

确定所述分帧后的音频流对应的特征向量；

将所述特征向量输入所述声学模型，得到所述声学模型输出的音素序列；

通过字典确定所述音素序列对应的候选文本序列；

将所述候选文本序列输入所述语言模型，得到所述语言模型输出的每一所述候选文本序列对应的文本概率；

将文本概率最大的候选文本序列确定为所述目标文本。

可选地，所述对所述语音信号进行预处理，得到分帧后的音频流，包括：

对所述语音信号进行语音活动检测，得到有效语音信号；

通过移动窗口函数对所述有效语音信号进行分帧，得到所述分帧后的音频流。

可选地，所述确定所述分帧后的音频流对应的特征向量，包括：

确定所述分帧后的音频流对应的线性预测倒谱系数特征或梅尔倒谱系数特征。

可选地，所述语音识别模型还包括反馈模块，所述反馈模块用于在所述语音识别模型的训练过程中，对语音信号样本进行自学习。

可选地，所述反馈模块包括稀疏自编码器。

可选地，所述扩展接口由第三方模块提供。

根据本公开实施例的第二方面，提供一种语音录入装置，所述装置包括：

获取模块，用于获取语音信号；

输入模块，用于将所述语音信号输入训练完成的语音识别模型，得到所述训练完成的语音识别模型输出的目标文本，其中，所述训练完成的语音识别模型包括声学模型和语言模型，所述声学模型用于根据表征所述语音信号的特征向量确定对应的音素序列，所述语言模型用于确定所述音素序列对应的文本序列的概率；

录入模块，用于基于扩展接口，将所述目标文本录入表格。

根据本公开实施例的第三方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述语音录入方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面中任一项所述语音录入方法的步骤。

通过上述技术方案，以人机交互的方式获取到用户输入的语音信号，并将语音信号输入训练完成的语音识别模型，从而得到语音信号对应的目标文本，在此基础上，可以通过扩展接口将目标文本自动录入表格。其中，训练完成的语音识别模型包括用于根据表征语音信号的特征向量确定对应的音素序列的声学模型，以及用于确定音素序列对应的候选文本序列的概率的语言模型，由此可以结合声学模型以及语言模型提高所确定的目标文本的准确性，并且在通过语音转文本的方式自动录入数据的过程中，提高语音录入效率，进而提高数据录入效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一示例性实施例示出的一种语音录入方法的流程图。

图2是本公开一示例性实施例示出的一种语音录入装置的框图。

图3是本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

相关技术由业务人员手工将数据录入表格，在这个过程中涉及由人工核实汉字以及数字等信息，并在确认无误后手动录入Excel表格中。然而手工录入速度慢、办公效率低，整个流程繁琐且耗时。

有鉴于此，本公开提供一种语音录入方法、装置、存储介质及电子设备，以人机交互的方式获取到用户输入的语音信号，并将语音信号输入训练完成的语音识别模型，从而得到语音信号对应的目标文本，在此基础上，可以通过扩展接口将目标文本自动录入表格。其中训练完成的语音识别模型包括用于根据表征语音信号的特征向量确定对应的音素序列的声学模型，以及用于确定音素序列对应的候选文本序列的概率的语言模型，由此可以结合声学模型以及语言模型提高所确定的目标文本的准确性，并且在通过语音转文本的方式自动录入数据的过程中，提高语音录入效率，进而提高数据录入效率。

其中，所涉及的自动语音识别(Automatic Speech Recognition，ASR)技术是以语音为研究对象、通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言的技术。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别模型本质上是一种模式识别系统，可以包括特征提取、模式匹配、以及参考模式库等三个基本单元。在通过语音识别模型进行语音识别的过程中，首先对输入的语音信号进行预处理，然后提取语音信号的声学特征，在此基础上建立语音识别所需的模板。在识别过程中可以根据语音识别的模型，将语音模板与输入的语音信号的特征进行比较，并根据一定的搜索和匹配策略，找出一系列最优的与输入语音相匹配的模板。然后根据此模板的定义，通过查表给出识别结果。其中，识别结果的优劣与特征的选择、语音模型的好坏、以及模板的准确是否都有直接的关系。

图1是本公开一示例性实施例示出的一种语音录入方法的流程图，该语音录入方法可以应用于电子设备，其中，电子设备例如可以为终端设备或者服务器，终端设备可以为手机、平板电脑、笔记本电脑、智能穿戴设备、以及学习机等，服务器可以为独立的物理服务器，也可以为多个物理服务器构成的服务器集群或者分布式系统。如图1所示，该语音录入方法可以包括如下步骤：

步骤S101，获取语音信号。

其中，语音信号可以是从用户的口述音频中采集的，也可以是从语音文件中读取的。在一种可能的实现方式中，可以通过人机交互的方式实时获取用户输入的音频流。

步骤S102，将语音信号输入训练完成的语音识别模型，得到训练完成的语音识别模型输出的目标文本。

其中，训练完成的语音识别模型包括声学模型和语言模型，声学模型用于根据表征语音信号的特征向量确定对应的音素序列，语言模型用于确定音素序列对应的候选文本序列的概率。

应说明的是，基于语音信号，可以通过相关的声学特征提取算法，将语音信号每一帧的波形转换为包含声音信息的多维向量，从而得到表征语音信号的特征向量。在此基础上，可以将表征语音信号的特征向量输入声学模型，从而确定对应的音素序列。不难理解的是，声学模型输出的音素序列可以有多种，例如可以为涉及多音字不同读音的音素序列。由此，可以通过语言模型确定音素序列对应的候选文本序列的概率，从而确定概率最大的候选文本序列，也即目标文本。

还应说明的是，语音识别模型的训练可以是离线完成的。示例地，对预先收集好的海量语音、语言数据库进行信号处理以及知识挖掘，在此基础上获取语音识别模型所包括的声学模型以及语言模型，得到训练完成的语音识别模型。基于训练完成的语音识别模型，可以在线进行语音识别，实现对用户语音的实时自动识别。

步骤S103，基于扩展接口，将目标文本录入表格。

可以理解的是，在确定语音信号对应的目标文本的基础上，可以基于扩展接口将目标文本自动录入表格。

采用本公开的这种技术方案，可以通过自动语音识别技术，将用户的口述音频或语音文件转换为可编辑文本，也即将连续的音频流实时转换为文本，从而为用户提供方便快捷的语音转文本服务，并且通过扩展接口将文本自动录入表格中，从而提高了数据录入效率，实现快速登记数据、减少低效工作、以及缩减日常办公的工作量。

应说明的是，训练完成的语音识别模型所包括的声学模型可以通过对语音数据进行训练获得，在声学模型的训练过程中，输入可以为表征语音信号的特征向量，输出可以为音素序列。训练完成的语音识别模型所包括的语言模型可以通过对大量文本信息进行训练，得到单个字或者词语相互关联的概率，也即各个文本序列的概率。

在一些实施方式中，训练完成的语音识别模型可以通过如下步骤确定语音信号对应的目标文本：

对语音信号进行预处理，得到分帧后的音频流；

确定分帧后的音频流对应的特征向量；

将特征向量输入声学模型，得到声学模型输出的音素序列；

通过字典确定音素序列对应的候选文本序列；

将候选文本序列输入所述语言模型，得到语言模型输出的每一候选文本序列对应的文本概率；

将文本概率最大的候选文本序列确定为目标文本。

其中，字典可以包括语音识别模型所能处理的词汇集及其发音，从而提供声学模型与语言模型建模单元间的映射。例如针对中文，字典可以包括拼音以及与拼音对应的汉字，针对英文，字典可以包括音标以及与音标对应的单词。

应说明的是，用户口述的音频以及语音文件中通常包括一些静音帧以及噪声等干扰，由此可以对语音信号进行预处理，从而得到消除干扰的分帧后的音频流。在此基础之上，可以通过相关的声学特征提取算法，确定分帧后的音频流对应的特征向量。示例地，通过线性预测倒谱系数(Linear Predictive CepstralCoefficients，LPCCs)或者梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)算法，可以将每一帧波形转换为包含声音信息的多维向量，也即确定分帧后的音频流对应的线性预测倒谱系数特征或者梅尔倒谱系数特征。之后，可以将表征音频信号的特征向量输入声学模型，得到声学模型输出的音素序列，并通过字典确定音素序列对应的候选文本序列。由此，可以将候选文本序列输入语言模型，得到语言模型输出的每一候选文本序列对应的文本概率，从而将文本概率最大的候选文本序列确定为目标文本。

示例地，在获取到文本“我是机器人”对应的语音信号的基础上，可以通过线性预测倒谱系数或者梅尔频率倒谱系数等相关声学特征提取算法，将该语音信号每一帧的波形转换为包含声音信息的多维向量，也即表征语音信号的特征向量。之后，将表征语音信号的特征向量输入声学模型，可以得到对应的音素序列[wosijiqirn]。在此基础上，可以通过字典确定该音素序列对应的候选文本中的汉字，例如窝：wo；我：wo；是：si；机：ji；器：qi；人：rn，由此得到候选文本序列。为了消解多音字等问题，可以通过语言模型确定每一候选文本序列对应的文本概率，例如我：0.0786；是：0.0546；我是：0.0898；机器：0.0967；机器人：0.6785。由此，可以将文本概率最大的候选文本序列确定为目标文本，也即得到目标文本：我是机器人。

此外，还可以通过其他声学特征提取算法来确定分帧后的音频流对应的特征向量，本公开对此不作具体限定。

在一些实施方式中，上述对语音信号进行预处理，得到分帧后的音频流的步骤可以包括：

对语音信号进行语音活动检测，得到有效语音信号；

通过移动窗口函数对有效语音信号进行分帧，得到分帧后的音频流。

可以理解的是，通过对语音信号进行语音活动检测(Voice Activity Detection，VAD)，可以识别语音信号的静音帧，从而切除首尾端的静音，降低干扰。在识别到语音信号的静音帧的基础上，可以通过移动窗口函数将语音信号切开成多段语音信号，每一小段语音信号可以为一帧，由此可以得到分帧后的音频流。

通过语音活动检测技术以及移动窗口函数，可以有效降低静音帧以及噪声等干扰，从而使得通过相关的声学特征提取算法对分帧后的音频流进行特征提取所得到的特征向量的质量更佳，由此可以提升语音识别模型的识别准确率。

在一些实施方式中，语音识别模型还包括反馈模块，该反馈模块用于在语音识别模型的训练过程中，对语音信号样本进行自学习。

应说明的是，语音识别模型的识别过程可以被视作前端以及后端两大模块。其中前端模块可以用于进行端点检测，从而去除多余的静音以及非说话声音，前端模块还可以用于降噪以及特征提取等。后端模块可以利用训练好的声学模型以及语言模型对用户输入的语音信号对应的特征向量进行统计模式识别，也即解码，从而得到语音信号对应的文字信息。在后端模块中，还可以包括自适应的反馈模块，该反馈模块可以在语音识别模型的训练过程中，对语音信号样本进行自学习，从而对声学模型和语音模型进行必要的校正，进一步提高训练完成的语音识别模型识别的准确率。

在一种可能的实现方式中，反馈模块可以包括稀疏自编码器，由此可以将稀疏自编码器和回归分类器串联起来，实现对语音信号样本进行自学习。

在一些实施方式中，上述步骤S103中的扩展接口可以由第三方模块提供。示例地，针对Python编程语言，可以由第三方模块xlwt提供扩展接口，从而通过相关Python库将目标文本写入表格中。由此，可以直接采用第三方模块提供的相关服务，实现成绩的快速录入以及统计类数据入账等特定业务需求。

值得说明的是，在互联网大数据背景下，利用现代信息技术开展高效快捷便民服务工作，已经势在必行。本公开实施例提供的技术方案基于自动语音识别技术识别用户输入的语音信号，并将识别到的目标文本转录到表格中，由此可以协助业务人员(老师、会计出纳以及文职办公人员等)录入成绩、登记入账、以及生成会议纪要等工作，大大地节省了人工录入以及存储的成本负担，在优化业务流程的同时，极大地提高了办公效率，通过结合声学模型以及语言模型的语音识别模型提高识别的准确性以及数据录入效率，增强了用户体验。

通过上述技术方案，以人机交互的方式获取到用户输入的语音信号，并将语音信号输入训练完成的语音识别模型，从而得到语音信号对应的目标文本，在此基础上，可以通过扩展接口将目标文本自动录入表格。其中训练完成的语音识别模型包括用于根据表征语音信号的特征向量确定对应的音素序列的声学模型，以及用于确定音素序列对应的候选文本序列的概率的语言模型，由此可以结合声学模型以及语言模型提高所确定的目标文本的准确性，并且在通过语音转文本的方式自动录入数据的过程中，提高语音录入效率，进而提高数据录入效率。

基于同一发明构思，本公开还提供一种语音录入装置，参见图2，图2是本公开一示例性实施例示出的一种语音录入装置的框图。如图2所示，该语音录入装置200包括：

获取模块201，用于获取语音信号；

输入模块202，用于将语音信号输入训练完成的语音识别模型，得到训练完成的语音识别模型输出的目标文本，其中，训练完成的语音识别模型包括声学模型和语言模型，声学模型用于根据表征语音信号的特征向量确定对应的音素序列，语言模型用于确定音素序列对应的文本序列的概率；

录入模块203，用于基于扩展接口，将目标文本录入表格。

可选地，语音录入装置200还包括确定模块，该确定模块用于通过如下步骤确定语音信号对应的目标文本：

对语音信号进行预处理，得到分帧后的音频流；

确定分帧后的音频流对应的特征向量；

将特征向量输入声学模型，得到声学模型输出的音素序列；

通过字典确定音素序列对应的候选文本序列；

将候选文本序列输入语言模型，得到语言模型输出的每一候选文本序列对应的文本概率；

将文本概率最大的候选文本序列确定为目标文本。

可选地，确定模块用于：

对语音信号进行语音活动检测，得到有效语音信号；

可选地，确定模块用于：

确定分帧后的音频流对应的线性预测倒谱系数特征或梅尔倒谱系数特征。

可选地，语音识别模型还包括反馈模块，反馈模块用于在语音识别模型的训练过程中，对语音信号样本进行自学习。

可选地，反馈模块包括稀疏自编码器。

可选地，扩展接口由第三方模块提供。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种电子设备300的框图。如图3所示，该电子设备300可以包括：处理器301，存储器302。该电子设备300还可以包括多媒体组件303，输入/输出(I/O)接口304，以及通信组件305中的一者或多者。

其中，处理器301用于控制该电子设备300的整体操作，以完成上述的语音录入方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件305可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音录入方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音录入方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器302，上述程序指令可由电子设备300的处理器301执行以完成上述的语音录入方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音录入方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音录入方法，其特征在于，所述方法包括：

获取语音信号；

基于扩展接口，将所述目标文本录入表格。

2.根据权利要求1所述的方法，其特征在于，所述训练完成的语音识别模型通过如下步骤确定所述语音信号对应的目标文本：

对所述语音信号进行预处理，得到分帧后的音频流；

确定所述分帧后的音频流对应的特征向量；

通过字典确定所述音素序列对应的候选文本序列；

将文本概率最大的候选文本序列确定为所述目标文本。

3.根据权利要求2所述的方法，其特征在于，所述对所述语音信号进行预处理，得到分帧后的音频流，包括：

对所述语音信号进行语音活动检测，得到有效语音信号；

4.根据权利要求2所述的方法，其特征在于，所述确定所述分帧后的音频流对应的特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述语音识别模型还包括反馈模块，所述反馈模块用于在所述语音识别模型的训练过程中，对语音信号样本进行自学习。

6.根据权利要求5所述的方法，其特征在于，所述反馈模块包括稀疏自编码器。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述扩展接口由第三方模块提供。

8.一种语音录入装置，其特征在于，所述装置包括：

获取模块，用于获取语音信号；

录入模块，用于基于扩展接口，将所述目标文本录入表格。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。