CN118212910A

CN118212910A - 一种语音识别文本断句方法、装置、计算机设备及介质

Info

Publication number: CN118212910A
Application number: CN202310511944.4A
Authority: CN
Inventors: 平恒; 刘桐
Original assignee: And Cloud Hong Kong Technology Co ltd
Current assignee: And Cloud Hong Kong Technology Co ltd
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2024-06-18

Abstract

本发明提供一种语音识别文本断句方法、装置、计算机设备及介质，涉及语言处理领域，该方法包括：获取流式语音信号及其对应的视频信号；从所述流式语音信号中提取文本特征、时间特征以及声学特征；从所述视频信号中提取唇动特征；将所述文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，得到断句结果。通过本发明提供的语音识别文本断句方法，基于流式语音信号，提取文本特征、时间特征和声学特征，以根据语音信号，准备识别语音信号中的特征，提取唇动特征，将唇动特征和其他特征融合，利用唇动特征进行视觉分析，减少环境噪音对语音信号的干扰，提高噪音环境下断句模型的效果，增强模型鲁棒性，提高断句结果准确性。

Description

一种语音识别文本断句方法、装置、计算机设备及介质

技术领域

本发明涉及语言处理领域，具体涉及一种语音识别文本断句方法、装置、计算机设备及存储介质。

背景技术

目前，随着语音识别技术的快速发展，语音交互的产品层出不穷。在智能座舱场景下，通过语音识别和图像视频分析，识别舱内人员的需求，并执行相应的动作。因此，如何准确地理解用户的需求，并对用户的需求进行断句成为一个关键问题。

在现有技术中，通常采用自动语音识别技术(Automatic Speech Recognition，ASR)将用户的需求转换成文本数据，基于该文本数据利用预先设定好的规则或模型进行断句。然而，这种方式依赖自动语音识别技术的效果，在嘈杂的环境，自动语音识别技术出错率较高，导致断句结果不准确。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中自动识别语音技术出错率较高，导致断句结果不准确的问题，从而提供一种语音识别文本断句方法、装置、计算机设备及介质。

根据第一方面，本发明提供一种语音识别文本断句方法，所述方法包括：

获取流式语音信号及其对应的视频信号；

从所述流式语音信号中提取文本特征、时间特征以及声学特征；

从所述视频信号中提取唇动特征；

将所述文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，得到断句结果。

在一实施例中，从所述流式语音信号中提取文本特征，包括：

获取预设的断句特征表；

从所述流式语音信号中提取文本信息，并将文本信息和所述预设的断句特征表进行对比，得到文本特征。

在一实施例中，所述时间特征包括：流式语音信号的帧长、帧移、采样率、时长、能量、频率以及语速。

在一实施例中，所述声学特征包括：声谱特征、频域特征、谱包络特征、时域特征以及语音韵律特征，所述从所述流式语音信号中提取声学特征，包括：

对所述流式语音信号进行分段处理；

对分段处理后的流式语音信号进行傅里叶变换和自相关分析，得到相应的频谱；

从所述频谱中提取声谱特征、频域特征以及谱包络特征；

利用预设公式，分别计算各段流式语音信号的时域特征；

基于基频提取算法提取各分段处理后的流式语音信号的语音韵律特征。

在一实施例中，所述从所述视频信号中提取唇动特征，包括：

从所述视频信号中提取唇部图像，并对所述唇部图像进行灰度及去噪处理；

基于边缘检测算法，从灰度及去噪处理后的唇部图像中提取唇部轮廓；

对唇部轮廓进行分析，得到唇动特征。

在一实施例中，所述对唇部轮廓进行分析，得到唇动特征，包括：

计算所述唇部轮廓对应的唇部面积，并提取对应的唇形特征；

对所述唇部轮廓进行跟踪，得到唇部运动特征；

基于机器学习算法对所述唇部面积、唇形特征和所述唇部运动特征进行分析，得到唇动特征，所述唇动特征包括唇开和唇闭。

在一实施例中，在将所述文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，得到断句结果之前，所述方法还包括：

基于双向长短期记忆网络和条件随机场模型构建断句模型；

将带有断句标签的流式语音信号及对应的视频信号集合输入到断句模型中，对所述断句模型进行训练。

根据第二方面，本发明提供一种语音识别文本断句装置，所述装置包括：

获取模块，用于获取流式语音信号及其对应的视频信号；

第一提取模块，用于从所述流式语音信号中提取文本特征、时间特征以及声学特征；

第二提取模块，用于从所述视频信号中提取唇动特征；

得到模块，用于将所述文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，得到断句结果。

根据第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面及其可选实施方式中任一项所述的语音识别文本断句方法。

根据第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的语音识别文本断句方法。

本发明技术方案，具有如下优点：

本发明实施例提供了一种语音识别文本断句方法，基于流式语音信号，提取文本特征、时间特征和声学特征，以根据语音信号，准备识别语音信号中的特征，从视频信号中提取唇动特征，将唇动特征和文本特征、时间特征、声学特征的融合，利用断句模型得到断句结果，利用唇动特征进行视觉分析，从而减少环境噪音对语音信号的干扰，有效提高在有噪音的环境下断句模型的效果，增强模型的鲁棒性，提高断句结果的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提出的一种语音识别文本断句方法的流程图；

图2是本发明实施例提出的断句整体实现流程图；

图3是本发明实施例提出的断句模型的整体架构图；

图4是本发明实施例提出的一种语音识别文本断句装置的结构框图；

图5是本发明实施例提出的一种计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，利用图像视频分析、语音识别以及自然语言处理检测准确理解用户的语音，分析用户的需求成为一个关键问题。在现有技术中，利用声学特征进行断句。例如，利用设定的语音停顿时间阈值做断句或根据人的语速调整时间阈值进行断句。然而，利用声学特征进行断句易受到环境噪声的影响。

为了准确对语音识别文本进行断句，本发明实施例中提供一种语音识别文本断句方法，如图1所示，该方法包括如下步骤S101至步骤S104。

步骤S101：获取流式语音信号及其对应的视频信号。

在本发明实施例中，可以通过获取语音信号，并对语音信号进行流式语音分析，得到流式语音信号，还可以直接基于麦克风采集流式语音信号，获取深度传感器采集的流式语音信号对应的视频信号。

步骤S102：从流式语音信号中提取文本特征、时间特征以及声学特征。

在本发明实施例中，基于流式语音识别技术从流式语音信号中提取文本数据，并计算其文本特征，利用预设公式计算流式语音信号的时间特征，利用声学模型计算流式语音信号的声学特征。

步骤S103：从视频信号中提取唇动特征。

在本发明实施例中，提取视频信号中的唇动特征，可以通过获取视频信号中的关键帧，根据关键帧获取人脸关键点中唇部区域的关键点，利用关键点的相对位置做归一化处理，利用二分类模型提取唇动特征。

唇动特征为低维度的特征，计算量较小，因此通过唇动特征进行断句分析能够加快断句的处理速度，提高断句效率。

步骤S104：将文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，得到断句结果。

在本发明实施例中，预先对断句模型进行训练，断句模型可以为双向长短期记忆网络和条件随机场模型，也可以为Transformer模型和条件随机场模型，还可以为其他能实现该功能的模型，此处不作限定。

如图2所示，将文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，获得断句结果，并将断句结果返回至服务端进行处理。

在智能座舱环境下，利用唇动特征进行视觉分析，能够避免环境噪声的影响，以增加断句结果的准确性。断句模型将从流式语音信号和视频信号中提取的文本数据进行断句，例如文本数据为“打开车窗车门开开”，那么断句模型的结果为“【打开车窗】【车门开开】”。

通过上述实施例，基于流式语音信号，提取文本特征、时间特征和声学特征，以根据语音信号，准备识别语音信号中的特征，从视频信号中提取唇动特征，将唇动特征和文本特征、时间特征、声学特征的融合，利用断句模型得到断句结果，利用唇动特征进行视觉分析，从而减少环境噪音对语音信号的干扰，有效提高在有噪音的环境下断句模型的效果，增强模型的鲁棒性，提高断句结果的准确性。

具体地，在一实施例中，上述步骤S102中从流式语音信号中提取文本特征，具体包括如下步骤：

步骤S1021：获取预设的断句特征表。

步骤S1022：从流式语音信号中提取文本信息，并将文本信息和预设的断句特征表进行对比，得到文本特征。

在本发明实施例中，预先基于训练数据统计得到断句特征表，断句特征表中记录每个文本的断句特征，根据该表能够获得每个时刻下的文本断句特征值。从流式语音信号中提取文本信息，将文本信息和断句特征表进行对比，根据对比结果得到文本特征。

从流式语音信号中提取文本特征，以便于根据文本特征进行分析，从而有效提高断句结果的准确率。

具体地，断句特征值包括该字处于句子开始的概率、该字处于句子末尾的概率、每个字是前一句的后置字的概率以及每个字是下一句的前置字的概率。

该字处于句子开始的概率＝该字处于句子开始的次数/该字出现的总次数。该字处于句子末尾的概率＝该字处于句子末尾的次数/该字出现的总次数。每个字是前一句的后置字的概率＝该字是前一句后面字的次数/该字出现的总次数。每个字是下一句的前置字的概率＝该字是下一句前面字的次数/该字出现的总次数。

具体地，在一实施例中，上述步骤S102中的时间特征包括：流式语音信号的帧长、帧移、采样率、时长、能量、频率以及语速。

具体地，帧长是流式语音信号进行数字化处理时，将语音信号分割成一帧一帧的长度，一般帧长为10-30ms之间。

帧移是每一帧之间的时间间隔，通常来说，帧移与帧长相等、或比帧长略短、或为帧长的一半。

采样率是流式语音信号在时间轴上的采样速度，即每秒采样的次数，通常采样率为8kHz、16kHz、22.05kHz以及44.1kHz等。

时长是流式语音信号的持续时间，常常以秒为单位。

能量是流式语音信号的能量，即每一帧语音信号的平方和，通常用来表示语音信号的强度。

频率是流式语音信号中包含的声音波形的频率，通常用来表示语音信号的音调和音色。

语速是流式语音信号中人说话的速度，通过用每分钟说话的词数来表示。

具体地，声学特征包括：声谱特征、频域特征、谱包络特征、时域特征以及语音韵律特征，在一实施例中，上述步骤S102中从流式语音信号中提取声学特征，具体包括如下步骤：

步骤S1023：对流式语音信号进行分段处理。

步骤S1024：对分段处理后的流式语音信号进行傅里叶变换和自相关分析，得到相应的频谱。

步骤S1025：从频谱中提取声谱特征、频域特征以及谱包络特征。

步骤S1026：利用预设公式，分别计算各段流式语音信号的时域特征。

步骤S1027：基于基频提取算法提取各分段处理后的流式语音信号的语音韵律特征。

在本发明实施例中，将流式语音信号分成若干段，对每一段进行短时傅里叶变换，得到各段的频谱。

对流式语音信号进行倒谱分析，先对流式语音信号进行预加重处理，再进行自相关分析，从频谱中提取声谱特征、频域特征以及谱包络特征，声谱特征包括频谱、功率谱、倒谱系数以及梅尔频率倒谱系数等。频域特征包括频带能量以及频带平均值等。谱包络特征包括线性预测系数(Linear Prediction Coefficient，LPC)等。

对流式语音信号进行取对数处理，再进行离散余弦变换(DCT for DiscreteCosine Transform)处理，得到梅尔频率倒谱系数((Mel-Frequency CepstralCoefficients，MFCC)。

时域特征包括短时能量、短时过零率以及短时自相关系数等，利用预设计算各段流式语音信号的时域特征，可以参照现有技术中计算能量和过零率的方式加以实现，在此不再进行赘述。

基于自相关法或Yin算法等算法，提取流式语音信号的语音韵律特征，语音韵律特征包括基频以及语音韵律轮廓等。

具体地，在一实施例中，上述步骤S103中从视频信号中提取唇动特征，具体包括如下步骤：

步骤S1031：从视频信号中提取唇部图像，并对唇部图像进行灰度及去噪处理。

步骤S1032：基于边缘检测算法，从灰度及去噪处理后的唇部图像中提取唇部轮廓。

步骤S1033：对唇部轮廓进行分析，得到唇动特征。

在本发明实施例中，通过摄像机或其他视频采集设备获取视频信号，从视频信号中提取若干唇部图像，对唇部图像进行灰度化、去噪处理，以便于从唇部图像中进行特征提取。

基于Canny算法以及Sobel算法等边缘检测算法，从灰度和去噪处理后的唇部图像中提取唇部轮廓，对唇部轮廓进行分析，以得到唇动特征，从而根据唇动特征对用户的需求进行分析。唇动特征可以提供语音额外的语音信息，便于在有噪音的环境下提取特征，从而提高断句结果的准确性。

具体地，在一实施例中，上述步骤S1033中对唇部轮廓进行分析，得到唇动特征，具体包括如下步骤：

步骤S10331：计算唇部轮廓对应的唇部面积，并提取对应的唇形特征。

步骤S10332：对唇部轮廓进行跟踪，得到唇部运动特征。

步骤S10333：基于机器学习算法对唇部面积、唇形特征和唇部运动特征进行分析，得到唇动特征，唇动特征包括唇开和唇闭。

在本发明实施例中，利用多边形面积计算公式计算唇部轮廓对应的唇部面积，利用形状描述符对唇形特征进行提取，例如，利用图像矩(Hu Moments，Hu矩)以及Zernike矩进行唇形特征提取。

其中，图像矩是图像像素强度的加权平均值，Zernike矩是基于Zernike多项式的正交化函数，一般情况下，把Zernike矩的模作为特征来描述物体形状。对唇部轮廓的变化进行跟踪，可以得到唇部的运动轨迹，以得到唇部运动特征，例如唇部张合程度以及唇形变化速度等。基于支持向量机以及神经网络等机器学习算法对唇部面积、唇形特征和唇部运动特征进行分类分析，得到唇动特征，例如，唇开或唇闭等特征。

具体地，在一实施例中，本发明实施例提供的语音识别文本断句方法还包括如下步骤：

步骤S201：基于双向长短期记忆网络和条件随机场模型构建断句模型。

步骤S202：将带有断句标签的流式语音信号及对应的视频信号集合输入到断句模型中，对断句模型进行训练。

在本发明实施例中，如图3所示，基于双向长短期记忆网络(Bi-directional LongShort-Term Memory，BiLSTM)和条件随机场(Conditional Random Fields，CRF)构建断句模型。其中，BiLSTM模型由前向LSTM和后向LSTM组合而成，用于建模上下文信息。CRF是给定一组输入序列条件下另一组输出序列的条件概率分布模型，用于理解上下文相关信息。

对断句模型进行训练，将带有断句标签的流式语音信号及对应的视频信号集合作为模型训练的输入信息，以使得断句模型自动学习语音结构和模式，更具有灵活性，易于维护，断句模型能够对文本特征、时间特征、声学特征以及唇动特征进行断句。

需要说明的是，文本特征、时间特征、声学特征以及唇动特征均为一种向量，提取词向量特征，可以通过分词、建立此表、构建词向量以及转换文本实现。具体地，分词为将文本分解为单独的词语，通常使用自然语言处理工具来完成，自然语言处理工具可以为jieba分词等其他工具实现。建立词表为将所有不同的词语列成一个词表，每个词语对应唯一的索引。构建词向量为将每个词语表示为一个向量，通常使用词嵌入模型来进行每个词语的向量表示，词嵌入模型可以为Word2Vec或GloVe等其他模型。转换文本为将文本中的每个词语对应的向量替换，得到文本对应的词向量。

基于相同发明构思，本发明还提供一种语音识别文本断句装置。

图4是根据一示例性实施例提出的一种语音识别文本断句装置的结构框图。如图4所示，该装置包括：

获取模块101，用于获取流式语音信号及其对应的视频信号。具体内容参见上述步骤S101的相关描述，在此不再进行赘述。

第一提取模块102，用于从流式语音信号中提取文本特征、时间特征以及声学特征。具体内容参见上述步骤S102的相关描述，在此不再进行赘述。

第二提取模块103，用于从视频信号中提取唇动特征。具体内容参见上述步骤S103的相关描述，在此不再进行赘述。

得到模块104，用于将文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，得到断句结果。具体内容参见上述步骤S104的相关描述，在此不再进行赘述。

本发明实施例提供的语音识别文本断句装置，基于流式语音信号，提取文本特征、时间特征和声学特征，以根据语音信号，准备识别语音信号中的特征，从视频信号中提取唇动特征，将唇动特征和文本特征、时间特征、声学特征的融合，利用断句模型得到断句结果，利用唇动特征进行视觉分析，从而减少环境噪音对语音信号的干扰，有效提高在有噪音的环境下断句模型的效果，增强模型的鲁棒性，提高断句结果的准确性。

上述基于语音识别文本断句装置的具体限定以及有益效果可以参见上文中对于语音识别文本断句方法的限定，在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图5所示，该设备包括一个或多个处理器1310以及存储器1320，存储器1320包括持久内存、易失内存和硬盘，图5中以一个处理器1310为例。该设备还可以包括：输入装置1330和输出装置1340。

处理器1310、存储器1320、输入装置1330和输出装置1340可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器1310可以为中央处理器(Central Processing Unit，CPU)。处理器1310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1320作为一种非暂态计算机可读存储介质，包括持久内存、易失内存和硬盘，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的语音识别文本断句方法对应的程序指令/模块。处理器1310通过运行存储在存储器1320中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述任意一种语音识别文本断句方法。

存储器1320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据、需要使用的数据等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器1320可选包括相对于处理器1310远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1330可接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键信号输入。输出装置1340可包括显示屏等显示设备。

一个或者多个模块存储在存储器1320中，当被一个或者多个处理器1310执行时，执行如图1所示的语音识别文本断句方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见如图1所示的实施例中的相关描述。

本发明实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种语音识别文本断句方法，其特征在于，所述方法包括：

获取流式语音信号及其对应的视频信号；

从所述视频信号中提取唇动特征；

2.根据权利要求1所述的方法，其特征在于，从所述流式语音信号中提取文本特征，包括：

获取预设的断句特征表；

3.根据权利要求1所述的方法，其特征在于，所述时间特征包括：流式语音信号的帧长、帧移、采样率、时长、能量、频率以及语速。

4.根据权利要求1所述的方法，其特征在于，所述声学特征包括：声谱特征、频域特征、谱包络特征、时域特征以及语音韵律特征，所述从所述流式语音信号中提取声学特征，包括：

对所述流式语音信号进行分段处理；

从所述频谱中提取声谱特征、频域特征以及谱包络特征；

利用预设公式，分别计算各段流式语音信号的时域特征；

5.根据权利要求1所述的方法，其特征在于，所述从所述视频信号中提取唇动特征，包括：

对唇部轮廓进行分析，得到唇动特征。

6.根据权利要求5所述的方法，其特征在于，所述对唇部轮廓进行分析，得到唇动特征，包括：

对所述唇部轮廓进行跟踪，得到唇部运动特征；

7.根据权利要求1所述的方法，其特征在于，在将所述文本特征、时间特征、声学特征以及唇动特征输入到预先训练好的断句模型中，得到断句结果之前，所述方法还包括：

基于双向长短期记忆网络和条件随机场模型构建断句模型；

8.一种语音识别文本断句装置，其特征在于，所述装置包括：

获取模块，用于获取流式语音信号及其对应的视频信号；

第二提取模块，用于从所述视频信号中提取唇动特征；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的语音识别文本断句方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的语音识别文本断句方法。