CN118016079B

CN118016079B - 一种智能语音转写方法及系统

Info

Publication number: CN118016079B
Application number: CN202410405996.8A
Authority: CN
Inventors: 张忠; 李治强; 杨静; 陈聪; 何杰
Original assignee: Guangzhou Aesop Technology Co ltd
Current assignee: Guangzhou Aesop Technology Co ltd
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-06-07
Anticipated expiration: 2044-04-07
Also published as: CN118016079A

Abstract

本发明涉及语音转写技术领域，具体涉及一种智能语音转写方法及系统，该方法包括：采集语音数据得到离散语音序列，将离散语音序列划分为各信号区，获取各信号区的高频序列与低频序列，获取各信号区的语音低频相似度及语音低频信号纯净指数，利用经验模态分解算法获取各信号区的高频序列的各本征模态分量，获取低频序列及各本征模态分量的频谱包络线，构建各信号区的语音信号区失真系数，结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写。本发明旨在提高语音转写的准确率，降低噪音干扰。

Description

一种智能语音转写方法及系统

技术领域

本发明涉及语音转写技术领域，具体涉及一种智能语音转写方法及系统。

背景技术

自动语音识别技术是人机交互技术中的重要技术之一。自动语音识别系统在语音助手或听写工具等人机交互系统中普遍存在。智能语音转写方法是指将音频数据通过算法识别转换为文本数据，然而，音频转换文本的准确率受到音频中噪声的严重影响，语音去噪能够改善语音质量，降低噪声污染，提高语音转写时的准确率。

其中SG（Savitzky-Golay smoothing）多项式滤波算法是一种常用的语音去噪技术，SG滤波算法通过局部多项式拟合后的数据代替原数据实现平滑、去噪。然而在语音数据复杂的环境中，SG多项式滤波算法存在对多项式阶数较为敏感的缺陷。采用SG滤波去噪时，较大的阶数能够更好地适应数据的曲线特征，但会导致平滑后的数据失去部分细节信息。较小的阶数则能更好的保留数据的细节信息，但可能无法适应复杂的数据曲线变化，都容易造成语音转写错误。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种智能语音转写方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种智能语音转写方法，该方法包括以下步骤：

采集语音数据，将语音数据进行采样得到离散语音序列；

根据离散语音序列中的元素分布特征得到离散语音序列中各元素的语音边界影响系数；根据各元素的语音边界影响系数得到离散语音序列的各信号区；根据各信号区内元素的频域特征得到各信号区的高频序列与低频序列；根据各信号区内元素与低频序列中元素的关系得到各信号区的语音低频相似度；结合各信号区的语音低频相似度及信号区内元素的语音边界影响系数得到各信号区的语音低频信号纯净指数；利用经验模态分解算法获取各信号区的高频序列的各本征模态分量；结合频域分析算法得到低频序列及各本征模态分量的频谱包络线；根据各本征模态分量的频谱包络线与低频序列的频谱包络线的关系及各信号区的语音低频信号纯净指数得到各信号区的语音信号区失真系数；结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写；

所述根据离散语音序列中的元素分布特征得到离散语音序列中各元素的语音边界影响系数，表达式为：

式中，表示离散语音序列中第i个元素的语音边界影响系数，/>表示以离散语音序列中第i个元素为中心的预设局部邻域内的元素数量，/>表示离散语音序列中的第i个元素，/>表示第i个元素的预设局部邻域内的第j个元素，/>表示第i个元素的预设局部邻域构成的数据序列，/>表示求均值函数，/>表示求方差函数，/>为以自然常数为底数的指数函数。

优选的，所述根据各元素的语音边界影响系数得到离散语音序列的各信号区，包括：

将离散语音序列中语音边界影响系数的归一化值大于等于预设阈值的元素作为语音边界点，将相邻两个语音边界点之间的所有元素作为一个信号区。

优选的，所述根据各信号区内元素的频域特征得到各信号区的高频序列与低频序列，包括：

将各信号区的所有元素作为小波包分解算法的输入，输出为各信号区中各元素对应的高频值与低频值，将所有高频值按对应信号区元素顺序组成高频序列，将所有低频值按对应信号区元素顺序组成低频序列。

优选的，所述根据各信号区内元素与低频序列中元素的关系得到各信号区的语音低频相似度，表达式为：

式中，表示信号区/>的语音低频相似度，/>表示信号区/>中的第k个元素，/>表示信号区/>中所有元素的均值，/>表示信号区/>中的第k个元素对应的低频值，/>表示信号区/>的低频序列的所有元素均值，/>表示信号区/>中的所有元素数量。

优选的，所述结合各信号区的语音低频相似度及信号区内元素的语音边界影响系数得到各信号区的语音低频信号纯净指数，包括：

以低频序列中各元素为中心，构建预设尺寸的局部邻域，计算局部邻域内所有元素的香农熵，计算各信号区中任一元素的语音边界影响系数与所述任一元素在低频序列中对应元素的所述香农熵的差值绝对值，计算所述差值绝对值与预设大于0的调参系数的和值，计算各信号区的语音低频相似度与对应信号区元素的所述和值的比值，将各信号区中所有元素的所述比值的和值作为各信号区的语音低频信号纯净指数。

优选的，所述结合频域分析算法得到低频序列及各本征模态分量的频谱包络线，包括：

将低频序列及各本征模态分量进行离散傅里叶变换，得到低频序列及各本征模态分量的频谱图，将各频谱图利用局部最大值算法获取各频谱图的频谱包络线，作为对应低频序列及各本征模态分量的频谱包络线。

优选的，所述根据各本征模态分量的频谱包络线与低频序列的频谱包络线的关系及各信号区的语音低频信号纯净指数得到各信号区的语音信号区失真系数，包括：

计算各信号区内低频序列的频谱包络线与各本征模态分量的频谱包络线的皮尔逊相关系数，信号区的语音信号区失真系数/>的表达式为：

式中，为信号区/>的预设邻近信号区数量，/>、/>分别表示信号区/>、信号区/>的语音低频信号纯净指数，/>、/>分别表示信号区/>、信号区/>所述皮尔逊相关系数最大值对应的本征模态分量，/>、/>分别表示信号区/>、信号区/>的高频序列，/>为预设大于0的调节参数，/>为皮尔逊相关系数函数。

优选的，所述结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写，包括：

计算各信号区的语音信号区失真系数的归一化值，计算所述归一化值的相反数与1的和值，将所述和值与预设值的乘积的四舍五入取整值作为SG滤波算法的阶数，结合各信号区的所述阶数利用SG滤波算法对各信号区的数据进行去噪，将去噪后的离散语音序列进行非线性拟合得到连续语音数据，将连续语音数据利用语音转文本算法进行语音转写。

第二方面，本发明实施例还提供了一种智能语音转写系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明至少具有如下有益效果：

本发明通过分析语音数据的短时波动幅度，计算离散语音序列中各元素的语音边界影响系数，基于语音边界影响系数划分得到各信号区，有效减少了SG多项式滤波算法中的边界效应影响；然后采用小波包分解得到低频序列和高频序列，基于低频序列与离散语音序列的相似关系，构建语音低频信号纯净指数；最后基于语音数据的波动复杂特性结合高频序列，计算语音信号区失真系数，进一步获得SG多项式滤波的阶数，减少了语音数据波动的影响，保留细节信息的同时具有更好的平滑效果。弥补了传统SG算法无法适应复杂的数据曲线变化，降低去噪效果，导致转写成文本时错误率较高的缺陷，有效提高了转写文本的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种智能语音转写方法的步骤流程图；

图2为语音转写指标获取流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种智能语音转写方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种智能语音转写方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种智能语音转写方法的步骤流程图，该方法包括以下步骤：

步骤S001，采集会议语音数据，并对语音数据进行预处理。

本实施例以会议中智能语音转写为例，对语音数据进行分析，提出一种更高效、精准的语音转写方法。由于会议所处环境的噪声会严重影响会议质量，实时、精准转写会议发言内容变得尤为重要。

首先，通过麦克风采集会议中的语音数据。由于语音数据属于连续信号，为方便后续的计算与分析，对采集的语音数据进行采样处理。采样的目的是将连续的语音数据转化为离散的语音数据，每隔相同的时间间隔对语音数据进行一次采样，时间间隔为1ms，实施者可根据实际情况自行设定，本实施例对此不做限制。将采样后的语音数据作为离散语音序列。

步骤S002，获取离散语音序列中各元素的语音边界影响系数，基于语音边界影响系数划分各信号区，构建各信号区的语音低频信号纯净指数；基于语音数据的波动复杂特性，构建各信号区的语音信号区失真系数。

具体的，本实施例首先采集语音数据得到离散语音序列，将离散语音序列划分为各信号区，获取各信号区的高频序列与低频序列，获取各信号区的语音低频相似度及语音低频信号纯净指数，利用经验模态分解算法获取各信号区的高频序列的各本征模态分量，获取低频序列及各本征模态分量的频谱包络线，构建各信号区的语音信号区失真系数，结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写，具体语音转写指标获取流程图如图2所示。各信号区的语音信号区失真系数的构建过程具体为：

语音数据在短时间的能量变化不一致，说话时的语音数据分布集中，表现为数据上下波动幅度较大，静音时的语音数据上下波动幅度较小。因此，可根据能量大小区分语音数据中的语音部分和非语音部分。

由于SG多项式滤波算法存在具有边界效应的缺陷，由于SG滤波算法是通过对预设窗口内的数据点进行多项式拟合实现数据的平滑和去噪，因此在窗口边界处缺少足够的数据点而导致多项式拟合存在误差。若窗口的边界位于语音数据的语音部分，将导致去噪效果降低。

为减少边界效应的影响，首先以离散语音序列中各元素为中心划分局部邻域，局部邻域的长度为20，实施者可根据实际情况自行设定，本实施例对此不做限制，计算离散语音序列中各元素的语音边界影响系数，表达式为：

当第i个元素的局部邻域内的元素分布不集中时，第i个元素与其他元素差异越大，值越大，同时第i个元素越远离局部邻域内的均值，/>也越大。且由于元素分布的离散特征使得/>越大，/>越小，导致最后计算的语音边界影响系数越大，说明第i个元素越可能处于语音部分和非语音部分的分界点。

由于语音部分和非语音部分的语音边界影响系数相对偏小，而边界处的语音边界影响系数偏大，为了快速提取语音部分，将所有元素的语音边界影响系数采用最大最小化方法进行归一化处理，将归一化后的语音边界影响系数大于等于预设阈值的元素记为语音边界点，本实施例中/>，实施者可根据实际情况自行设定，本实施例对此不做限制。最大最小化方法为现有公知技术，具体过程不再赘述。

针对离散语音序列，将其中相邻两个语音边界点之间的元素作为一个信号区，该信号区可能属于语音部分或非语音部分，以此得到各信号区。

由于传统滤波算法在追求去噪的同时会带来信号衰减和畸变，是因为算法在去噪迭代的过程中，对不同变化程度的语音数据采用相同的参数进行统一处理，进而导致对语音数据的误判，将一部分语音数据作为噪声滤除。针对该问题，本实施例采用小波包分解算法将各信号区中的元素分解为低频值和高频值。

小波包分解算法的输入为各信号区内的所有元素，输出为各信号区中各元素对应的高频值与低频值，本实施例中小波包分解算法的分解层数为一层。小波包分解算法为现有公知技术，具体过程不再赘述，将各信号区的所有高频值按对应信号区中的元素顺序排列作为高频序列，将各信号区的所有低频值按对应信号区中的元素顺序排列作为低频序列。结合语音边界影响系数构建各信号区的语音低频信号纯净指数，表达式为：

式中，表示信号区/>的语音低频相似度，/>表示信号区/>中的第k个元素，/>表示信号区/>中所有元素的均值，/>表示信号区/>中的第k个元素对应的低频值，/>表示信号区/>的低频序列的所有元素均值，/>表示信号区/>中的所有元素数量；

表示信号区/>的语音低频信号纯净指数，/>表示信号区/>内第k个元素的语音边界影响系数，/>信号区/>内第k个元素对应低频值在低频序列中的预设局部邻域，本实施例中局部邻域的长度为20，/>为香农熵函数，/>为预设大于0的调节参数，本实施例中，实施者可根据实际情况自行设定，本实施例对此不做限制。

若值越小，说明小波包分解的低频值越接近语音数据，且当低频值或语音数据在信号区内的变化程度越低，计算的/>、/>值越小，使得/>值越大，则说明分解的低频序列与信号区中的所有元素相似度越高。若/>与/>越接近，值越小，最后所得语音低频信号纯净指数越高。表明采集的语音数据所包含的噪声量越小，即语音数据本身越纯净。

此外，为了根据语音数据的波动复杂特性，对SG多项式滤波算法中的阶数进行自适应调整，进一步对高频序列进行分析处理。本实施例采用集合经验模态分解（EnsembleEmpircal Mode Decomposition，EEMD）算法，将高频序列分解成多个本征模态分量，EEMD算法的输入为各信号区的高频序列，输出为多个本征模态分量和余项，本实施例设置本征模态分量的个数为6。将分解得到的本征模态分量分别记为L1，L2，L3，，L6。EEMD算法为现有公知技术，具体过程本实施例不做详细赘述。

由于小波包分解得到的高频序列存在噪声数据，为充分提取高频序列中的语音信息。对L1，L2，L3，，L6中的每个本征模态分量进行快速傅里叶变换，获取对应的频谱图，快速傅里叶变换的输入为各本征模态分量数据，输出为各个本征模态分量的频谱图。然后对每个频谱图采用局部最大值法计算频谱的包络线，由此，得到了每个本征模态分量的频谱包络线，将L1至L6对应的频谱包络线分别记为R1，R2，R3，/>，R6。快速傅里叶变换和局部最大值法为公知技术，具体过程不再赘述。

对低频序列同样进行傅里叶变换，对低频序列的频谱图采用局部最大值法获取低频序列的频谱包络线，记为S。由于R1，R2，R3，，R6中与S相似度最高的频谱包络线对应的本征模态分量表示高频序列的主要语音信息，本实施例分别计算R1，R2，R3，/>，R6与S的皮尔逊相关系数。将皮尔逊相关系数最大值的频谱包络线对应的本征模态分量记为Ls。根据Ls以及语音低频信号纯净指数构建各信号区的语音信号区失真系数，表达式为：

式中，表示信号区/>的语音信号区失真系数，/>为信号区/>的预设邻近信号区数量，本实施例中/>，实施者可根据实际情况自行设定，本实施例对此不做限制，/>、分别表示信号区/>、信号区/>的语音低频信号纯净指数，/>、/>分别表示信号区、信号区/>所述皮尔逊相关系数最大值对应的本征模态分量，/>、/>分别表示信号区、信号区/>的高频序列，/>为预设大于0的调节参数，/>为皮尔逊相关系数函数。

若值越小，说明信号区/>内的高频序列中包含的语音信息越少，通过小波包分解后的低频序列中的真实语音信息越多，计算的/>值越大，会议中的噪声出现通常具有瞬时性，例如麦克风尖锐杂音或物体碰撞等，这些噪声对语音转写的影响较大。若邻近信号区内的/>越接近，最后得语音信号区失真系数/>越小，说明会议环境越良好。

步骤S003，结合各信号区的语音信号区保真系数及滤波算法、语音转文本算法完成语音转写。

在应用SG多项式滤波进行去噪时，较低的多项式阶数可以产生较平滑的拟合曲线，但可能无法很好地捕捉数据中的细节和变化。较高的多项式阶数可以更好地拟合复杂的数据，但可能会引入噪声和震荡，因此，在进行智能语音转写语音去噪时，需要结合语音环境，分析语音数据特征，自适应选择最优的多项式阶数，以提高语音转写准确率。

将所有信号区的语音信号区失真系数采用Z-Score方法进行归一化，Z-Score方法的输入为所有信号区的语音信号区失真系数，输出为各语音信号区失真系数对应的归一化结果，记为。Z-Score归一化方法为现有公知技术，具体过程不再赘述。然后对每个信号区的语音数据进行去噪，SG算法的阶数为/>的四舍五入取整值，其中m为预设值，且由于SG算法的阶数通常为1到5之间，因此m的值域为1到4之间，本实施例中m=4，窗口尺寸为9，实施者可根据实际情况自行设定，本实施例对此不做限制，将各信号区的语音数据去噪后，得到去噪后的离散语音序列，将离散语音序列利用最小二乘法拟合为非线性连续语音数据。最后将非线性连续语音数据采用IBM Watson Speech to Text技术转化成文本数据，以此实现智能语音转写。最小二乘法及IBM Watson Speech to Text均为现有公知技术，具体过程不再赘述。

基于与上述方法相同的发明构思，本发明实施例还提供了一种智能语音转写系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种智能语音转写方法中任意一项所述方法的步骤。

综上所述，本发明实施例基于语音数据的波动复杂特性结合高频序列，计算语音信号区失真系数，获得SG多项式滤波的阶数，减少了语音数据波动的影响，保留细节信息的同时具有更好的平滑效果。弥补了传统SG算法无法适应复杂的数据曲线变化，降低去噪效果，导致转写成文本时错误率较高的缺陷，有效提高了转写文本的正确率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能语音转写方法，其特征在于，该方法包括以下步骤：

采集语音数据，将语音数据进行采样得到离散语音序列；

2.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述根据各元素的语音边界影响系数得到离散语音序列的各信号区，包括：

3.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述根据各信号区内元素的频域特征得到各信号区的高频序列与低频序列，包括：

4.根据权利要求3所述的一种智能语音转写方法，其特征在于，所述根据各信号区内元素与低频序列中元素的关系得到各信号区的语音低频相似度，表达式为：

5.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述结合各信号区的语音低频相似度及信号区内元素的语音边界影响系数得到各信号区的语音低频信号纯净指数，包括：

6.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述结合频域分析算法得到低频序列及各本征模态分量的频谱包络线，包括：

7.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述根据各本征模态分量的频谱包络线与低频序列的频谱包络线的关系及各信号区的语音低频信号纯净指数得到各信号区的语音信号区失真系数，包括：

8.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写，包括：

9.一种智能语音转写系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任意一项所述方法的步骤。