CN113380238A

CN113380238A - 处理音频信号的方法、模型训练方法、装置、设备和介质

Info

Publication number: CN113380238A
Application number: CN202110645151.2A
Authority: CN
Inventors: 周毅; 左声勇
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-10
Also published as: JP2022120024A; US20220301547A1; EP4033484A2; EP4033484A3; KR20220082790A

Abstract

本公开提供了一种处理音频信号的方法、语音识别模型的训练方法、语义识别模型的训练方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及语音识别、自然语言处理和深度学习领域。处理音频信号的方法包括：识别待处理音频信号，获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句，该待处理音频信号是基于预定文本获得的；确定预定文本中与目标语音段相关联的第二语句；比对第一语句和第二语句，获得第一比对结果；以及基于第二语句和第一比对结果，对目标语音段进行标注，获得具有第一标注数据的语音段。其中，第一标注数据包括第二语句和指示第一比对结果的第一数据。

Description

处理音频信号的方法、模型训练方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及语音识别、自然语言处理和深度学习领域，更具体地涉及一种处理音频信号的方法、语音识别模型的训练方法、语义识别模型的训练方法、装置、电子设备和存储介质。

背景技术

随着电子技术的发展，为用户提供智能化服务的智能语音技术得到快速发展。为了得到良好的智能语音模型，需要依赖大量标注有正确语句的语音段。但通常一个音频会包括多个语音段，为了得到该多个语音段，需要对该音频进行切割，并对切割得到的语音段标注正确语句。相关技术中由人工对该音频进行切割和标注，但由于音频通常为连续录制的长度较长的音频，该人工方式存在效率低、人工成本高等问题。

发明内容

提供了一种提高标注效率和标注信息多样性的处理音频信号的方法，并基于得到的具有标注数据的语音段，提出一种语音识别模型的训练方法和一种语义识别模型的训练方法。

根据本公开的一个方面，提供了一种处理音频信号的方法，包括：识别待处理音频信号，获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句，其中，待处理音频信号是基于预定文本获得的；确定预定文本中与目标语音段相关联的第二语句；比对第一语句和第二语句，获得第一比对结果；以及基于第二语句和第一比对结果，对目标语音段进行标注，获得具有第一标注数据的语音段，其中，第一标注数据包括第二语句和指示第一比对结果的第一数据。

根据本公开的另一个方面，提供了一种语音识别模型的训练方法，包括：以第一样本语音段作为语音识别模型的输入，获得与第一样本语音段相关联的第一预测语句，该第一样本语音段具有第二标注数据，第二标注数据包括实际语句和指示第一样本语音段的第一样本类型的第四数据；以及基于实际语句、第一预测语句和第一样本类型，对语音识别模型进行训练，其中，第一样本语音段是采用上述的处理音频信号的方法获得的，第一样本类型与第一比对结果相关联。

根据本公开的另一个方面，提供了一种语义识别模型的训练方法，包括：以第二样本语音段作为语音识别模型的输入，获得与第二样本语音段相关联的第二预测语句，第二样本语音段具有第三标注数据，第三标注数据包括实际语义信息和指示第二样本语音段的第二样本类型的第五数据；以第二预测语句作为语义识别模型的输入，获得第二预测语句的预测语义信息；以及基于预测语义信息、实际语义信息和第二样本类型，对语义识别模型进行训练，其中，第二样本语音段是上述的处理音频信号的方法获得的，第二样本类型与第二比对结果相关联。

根据本公开的另一个方面，提供了一种处理音频信号的装置，包括：音频识别模块，用于识别待处理音频信号，获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句，其中，待处理音频信号是基于预定文本获得的；关联语句确定模块，用于确定预定文本中与目标语音段相关联的第二语句；语句比对模块，用于比对第一语句和第二语句，获得第一比对结果；以及语音标注模块，用于基于第二语句和第一比对结果，对目标语音段进行标注，获得具有第一标注数据的语音段，其中，第一标注数据包括第二语句和指示第一比对结果的第一数据。

根据本公开的另一个方面，提供了一种语音识别模型的训练装置，包括：第一语句预测模块，用于以第一样本语音段作为语音识别模型的输入，获得与第一样本语音段相关联的第一预测语句，第一样本语音段具有第二标注数据，第二标注数据包括实际语句和指示第一样本语音段的第一样本类型的第四数据；以及第一模型训练模块，用于基于实际语句、第一预测语句和第一样本类型，对语音识别模型进行训练，其中，第一样本语音段是采用上述的处理音频信号的装置获得的，第一样本类型与第一比对结果相关联。

根据本公开的另一个方面，提供了一种语义识别模型的训练方法，包括：第二语句预测模块，用于以第二样本语音段作为语音识别模型的输入，获得与第二样本语音段相关联的第二预测语句，第二样本语音段具有第三标注数据，第三标注数据包括实际语义信息和指示第二样本语音段的第二样本类型的第五数据；语义预测模块，用于以第二预测语句作为语义识别模型的输入，获得第二预测语句的预测语义信息；以及第二模型训练模块，用于基于预测语义信息、实际语义信息和第二样本类型，对语义识别模型进行训练，其中，第二样本语音段是采用上述的处理音频信号的装置获得的，第二样本类型与第二比对结果相关联。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的以下至少一种方法：处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的以下至少一种方法：处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的以下至少一种方法：处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的处理音频信号的方法、模型训练方法、装置、设备和介质的应用场景示意图；

图2是根据本公开实施例的处理音频信号的方法的流程示意图；

图3是根据本公开实施例的识别待处理音频信号的原理示意图；

图4是根据本公开实施例的处理音频信号的原理示意图；

图5是根据本公开另一实施例的处理音频信号的方法的流程示意图；

图6是根据本公开实施例的语音识别模型的训练方法的流程示意图；

图7是根据本公开实施例的语义识别模型的训练方法的流程示意图；

图8是根据本公开实施例的处理音频信号的装置的结构框图；

图9是根据本公开实施例的语音识别模型的训练装置的结构框图；

图10是根据本公开实施例的语义识别模型的训练装置的结构框图；以及

图11是用来实现本公开实施例的各方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种处理音频信号的方法，该方法包括音频识别阶段、语句确定阶段、语句比对阶段和语音标注阶段。在音频识别阶段中，识别待处理音频信号，获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句，其中，待处理音频信号是基于预定文本获得的。在语句确定阶段，确定预定文本中与目标语音段相关联的第二语句。在语句比对阶段，比对第一语句和第二语句，获得第一比对结果。在语音标注阶段，基于第二语句和第一比对结果，对目标语音段进行标注，获得具有第一标注数据的语音段。其中，第一标注数据包括第二语句和指示第一比对结果的第一数据。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的处理音频信号的方法、模型训练方法、装置、设备和介质的应用场景示意图。

如图1所示，该应用场景100包括终端设备110，该终端设备可以为具有处理功能的任意电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该终端设备110例如可以对输入的音频信号120进行处理，具体可以对音频信号120中的语音段进行识别，并根据识别结果预测与音频信号中语音段相关联的语句，并根据预测的语句确定录制语音段所依据的自然语句。该终端设备110还可以对语句段标注该自然语句，得到标注语音段130。该标注语音段可以用于作为训练样本，训练智能语音系统。

根据本公开的实施例，如图1所示，该应用场景100还可以包括服务器140。终端设备110可以通过网络与服务器140通信连接，网络可以包括有线或无线通信链路。

示例性地，服务器140可以用于训练智能语音系统。在训练之前，可以自终端设备110处获取标注语音段130，以作为训练样本。其中，智能语音系统150例如可以包括语音识别功能和语义识别功能，以实现对用户语音的语义理解。

示例性地，服务器140训练得到的智能语音系统150例如可以安装于智能手机160、智能音响170和智能车辆180等智能设备中，以实现与用户的语音交互，提高用户体验。

示例性地，服务器例如可以是提供各种服务的服务器，例如可以为对终端设备110上运行的应用程序提供支持的后台管理服务器。例如，该服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

在一实施例中，终端设备110与服务器140例如可以为同一设备，该设备中具有多个处理模块，以由任一处理模块识别音频信号120得到标注语音段，除该任一处理模块外的其他处理模块对智能语音系统150进行训练。

应该理解，图1中的终端设备、服务器和智能设备的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、服务器和智能设备。

以下将结合图2～图6对本公开实施例的分类模型的训练方法进行详细描述。

图2是根据本公开实施例的处理音频信号的方法的流程示意图。

如图2所示，该实施例的处理音频信号的方法200可以包括操作S210～操作S240。

在操作S210，识别待处理音频信号，获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句，其中，待处理音频信号是基于预定文本获得的。

根据本公开的实施例，待处理音频信号例如可以通过录制朗读预定文本的语音得到。该预定文本中包括至少一个自然语句，待处理音频信号中的目标语音段可以为朗读至少一个自然语句中任一自然语句得到的音频。该实施例可以采用已有的音频切割工具对待处理音频信号进行切割，获得至少一个目标语音段。随后采用已有语音识别技术来识别切割得到的目标语音段，得到与目标语音段分别对应的语句，作为与目标语音段相关联的第一语句。其中，已有语音识别技术例如可以包括卷积神经网络和连接性时序分类(Connectionist Temporal Classification，CTC)方法构成的技术、语音文字转换(Speech-to-Text，STT)技术等。

在一实施例中，还可以基于语音端点检测方法来对待处理音频信号进行断句切分。其中，语音端点检测(Voice Activity Detection，VAD)又称语音活动检测、语音边界检测，可以在噪声环境中检测语音的存在与否。具体可以从音频信号中分离出语音信号和非语音信号，定位出语音信号的开始点和结束点，开始点和结束点可以称为端点。

根据本公开的实施例，待处理音频信号可以为预先录制并存储于预定存储空间的音频信号。在一实施例中，该待处理音频信号还可以为存储在具有语音处理功能的应用程序包的某个目录下，以在处理时方便调用。或者，该待处理音频信号可以实时地录制得到，本公开对此不做限定。

可以理解的是，上述获得目标语音段和第一语句的方法仅作为示例以利于理解本公开，本公开对此不做限定。

在操作S220，确定预定文本中与目标语音段相关联的第二语句。

根据本公开的实施例，可以将预定文本中与第一语句的相似度最高的语句作为与目标语音段相关联的第二语句。其中，相似度例如可以采用词频-逆文本频率(TermFrequency-inverse Document Frequency，TF-IDF)算法、编辑距离(Levenshtein)等算法来确定。

可以理解的是，上述确定第二语句的方法仅作为示例以利于理解本公开，本公开对此不做限定。

在操作S230，比对第一语句和第二语句，获得第一比对结果。

根据本公开的实施例，例如可以将操作S220得到的第一语句与第二语句之间的相似度作为第一比对结果。或者，可以根据相似度与第一阈值之间的大小关系来确定第一比对结果。例如，若相似度低于第一阈值，则可以确定第一比对结果为第一语句不准确。若相似度不低于第一阈值，则可以确定第一比对结果为第一语句准确。其中，第一阈值可以根据实际需求进行设定，本公开对此不做限定。

在一实施例中，还可以将第一语句和第二语句逐字符的进行比对，在第一语句和第二语句完全相同时，确定第一比对结果为第一语句准确，否则确定第一语句不准确。可以理解的是，该获得第一比对结果的方法仅作为示例以利于理解本公开，本公开对此不做限定。

在操作S240，基于第二语句和第一比对结果，对目标语音段进行标注，获得具有第一标注数据的语音段。

根据本公开的实施例，可以将第二语句和指示第一比对结果的第一数据作为语音段的标签，得到具有第一标注数据的语音段。其中，若第一比对结果为第一语句不准确，该指示第一比对结果的第一数据可以为0，否则可以为1。在将该具有第一标注数据的语音段作为训练样本时，该第一数据可以用于表征与第一比对结果相关联的样本类型，该样本类型为相对于语音识别模型的第一样本类型。例如，若第一比对结果为第一语句不准确，则第一数据可以表征样本类型为负样本，否则第一数据可以表征样本类型为正样本。可以理解的是，上述第一数据仅作为示例以利于理解本公开，本公开对此不做限定。

该实施例的处理音频信号的方法200可以实现对待处理音频信号中语音段的自动切割和自动标注，相较于相关技术中依赖于人工的方法，可以提高音频信号的处理效率，并在一定程度上避免因人工疲劳所导致的切割或标注不准确的情况。再者，该实施例的处理音频信号的方法200，通过对第一语句和第二语句进行比对，并基于比对结果标注音频段，可以有效区分作为正样本的语音段和作为负样本的语音段，因此在使用该具有标注数据的音频段训练智能语音系统中的语音识别模型时，可以省略额外采集负样本的过程，从而降低训练智能语音系统中语音识别模型时样本准备阶段的成本。或者，在训练智能语音系统中的语音识别模型时，可以仅选择可以从具有标注数据的目标语音段中挑选可以作为正样本的语音段，来对模型进行训练。

图3是根据本公开实施例的识别待处理音频信号的原理示意图。

在一实施例中，在识别待处理音频信号时，可以采用文件流(stream)的形式来读取待处理音频信号，并对读取的音频信号进行实时地检测和识别。通过该方式，可以使得本公开的处理音频信号的方法适用于实时采集音频信号的场景，同时可以尽可能地缓解因系统故障等导致的向模型训练提供的训练样本量较少的情况。

示例性地，如图3所示，该实施例300在识别待处理音频信号301时，可以以文件流形式读取待处理音频信号301，以检测待处理音频信号301中目标语音段的起始点和终止点302。例如可以将读取的待处理音频信号301输入语音端点检测模型310中，来检测目标语音段的起始点和终止点。

若检测到目标语音段的起始点，可以对后续读取的音频信号进行识别，直至检测到目标语音段的终止点。通过对该后续读取的音频信号的识别，可以获得与目标语音段相关联的第一语句304。

在检测到目标语音段的起始点和终止点302后，可以基于该起始点和终止点302从待处理音频信号301中提取目标语音段303。例如可以将起始点和终止点302之间读取的音频信号作为目标语音段303。例如可以在检测到起始点后，建立新的文件，将起始点之后读取的音频信号写入该新的文件中，在检测到终止点后，则停止对该新的文件的写操作。则新的文件中写入的数据即为目标音频段。在对目标音频段进行标注时，例如可以是以第一标注数据作为该新的文件的文件名，完成对目标音频段的标注。

在一实施例中，还可以在得到目标语音段303后，将目标语音段303输入语音识别模型320中，经由该语音识别模型320处理后，得到第一语句304。其中，该语音识别模型320可以为预先训练的模型，例如可以为基于前述的卷积神经网络和CTC方法构建的声学模型或者可以为基于注意力机制的循环神经网络模型等。其中，循环神经网络模型例如可以为Seq2Seq模型等，本公开对此不做限定。可以理解的是，该语音识别模型320为独立于智能语音系统的其他模型，但可以与智能语音系统中的语音识别模型具有相似的架构。

在一实施例中，在对目标语音段进行标注时，还可以基于起始点和终止点302，对目标语音段303进行标注。具体地，可以向目标语音段303标注指示起始点和终止点的第三数据。例如，第三数据可以包括起始点和终止点各自与待处理音频信号的起始点之间的时间间隔。通过该第三数据的标注，可以在后续使用中，基于该第三数据，快速方便地定位到目标语音段。

根据本公开的实施例，在预定文本包括多个自然语句时，待处理音频信号可以相应地包括多个目标语音段。若以文件流形式读取待处理音频信号，则可以通过前述识别待处理音频信号的方法依次得到多个语句。其中，在多个自然语句顺序排列的情况下，由于待处理音频通常是顺序朗读该顺序排列的多个自然语句得到的音频，因此该依次得到的多个语句应与多个自然语句一一对应。该实施例在确定预定文本中与目标语音段相关联的第二语句时，可以先确定在以文件流形式读取待处理音频信号的过程中，获得的第一语句相对于获得的与多个目标语音段分别相关联的多个语句的获得次序，并确定多个自然语句中排在该获得次序的自然语句为与第一语句相对应的第二语句，即与目标语音段相关联的第二语句。

图4是根据本公开实施例的处理音频信号的原理示意图。

根据本公开的实施例，预定文本除了包括自然语句外，例如还可以记载有自然语句的语义信息。该实施例可以采用第二语句的语义信息来标注目标音频段，从而可以使得具有标注数据的目标音频段还可以作为智能语音系统中语义识别模型的训练样本，从而在需要对训练智能语音系统进行训练时，无需分别准备语音识别模型和语义识别模型的训练样本。

示例性地，如图4所示，该实施400在处理音频信号时，可以以文本流形式读取待处理音频信号401，将读取的音频信号输入语音端点检测模型410中，检测目标语音段的起始点和终止点，从而将起始点和终止点之间读取的音频信号作为目标语音段402。若语音端点检测模型410检测到目标语音段的起始点，则将后续读取的音频信号输入语音识别模型420以进行识别，直至检测到目标语音段的终止点。将语音识别模型420基于输入的音频信号识别得到的信息作为第一语句403。在得到第一语句403后，可以从预定文本404中查找对应的语句，作为与目标语音段相关联的第二语句405。

在得到第二语句405后，可以从预定文本404获取该第二语句405的第二语义信息408。同时还可以将第一语句403与第二语句405进行比对，得到第一比对结果406。在标注目标音频段时，还可以基于该获取到的第二语义信息408对目标音频段进行标注。从而使得目标音频段的第一标注数据还包括该第二语义信息，使得标注得到的目标音频段可以作为智能语音系统中语义识别模型的训练样本。

在一实施例中，在得到第一语句403后，还可以提取第一语句403的语义信息，获得第一语义信息。在一实施例中，可以将第一语句403输入语义识别模型430中，经由该语义识别模型430处理而得到第一语义信息407。

其中，语义识别模型430可以为预训练得到的深度学习文本分类模型，例如fastText模型、TextCNN模型、TextRNN模型、注意力机制的TextRNN模型、或TextRCNN模型等，本公开对此不做限定。需要说明的是，该语义识别模型430为独立于智能语音系统的模型，该语义识别模型430可以与智能语音系统中的语义识别模型具有相似的架构。预定文本中自然语句的语义信息可以是采用该语义识别模型430识别自然语句得到的。

在得到第一语义信息407后，该实施例可以比对第一语义信息407和第二语义信息708，获得第二比对结果409。具体可以是计算第一语义信息407和第二语义信息408之间的相似度。根据该相似度与第二阈值之间的大小关系来确定第二比对结果409。例如，若第一语义信息和第二语义信息之间的相似度低于第二阈值，则可以确定第二比对结果为第一语义信息不准确。若第一语义信息和第二语义信息之间的相似度不低于第二阈值，则可以确定第二比对结果为第一语义信息准确。其中，第二阈值可以根据实际需求进行设定，本公开对此不做限定。

此种情况下，还可以基于第二比对结果对目标语音段进行标注。具体地，前述对目标语音段进行标注的操作可以为：基于第二语句、第二语义信息、第一比对结果和第二比对结果，对目标语音段进行标注。从而使得目标语音段的第一标注数据还包括第二语义信息和指示第二比对结果的第二数据。其中，第二比对结果为第一语义信息不准确，该指示第二比对结果的第二数据可以为0，否则可以为1。在将该具有第一标注数据的语音段作为训练样本时，该第二数据还可以用于表征与第二比对结果相关联的样本类型，该样本类型为相对于语义识别模型的第二样本类型。例如，若第二比对结果为第一语义信息不准确，则第二数据可以表征第二样本类型为负样本，否则第二数据可以表征第二样本类型为正样本。可以理解的是，上述第二数据的形式仅作为示例以利于理解本公开，本公开对此不做限定。

该实施例400的处理音频信号的方法，通过对第一语义信息和第二语义信息进行比对，并基于比对结果标注音频段，可以有效区分作为正样本的语音段和作为负样本的语音段，因此可以在使用该具有标注数据的音频段训练智能语音系统中的语义识别模型时，省略额外采集负样本的过程，从而降低训练智能语音系统中语义识别模型时样本准备阶段的成本。

图5是根据本公开另一实施例的处理音频信号的方法的流程示意图。

如图5所示，在一实施例500中，该实施例的处理音频信号的方法除了前文描述的操作S210～操作S240外，还可以包括操作S550～操作S570。其中，操作S550～操作S560可以在任意时机执行。操作S570可以在操作S210～操作S240执行的过程中周期性地执行。

在操作S550，确定待处理音频信号的存储容量。

根据本公开的实施例，可以通过调用存储待处理音频信号的存储设备提供的API接口来读取存储该待处理音频信号的存储容量。可以理解的是，该存储容量的确定方法仅作为示例以利于理解本公开，本公开对此不做限定。

在操作S560，基于存储容量，确定处理待处理音频信号的预测时长。

根据本公开的实施例，可以将存储容量与执行该处理音频信号的方法的设备的数据消耗速度相除得到的值作为预测时长。其中，数据消耗速度指单位时间内可以处理的数据量。

在操作S570，在处理待处理音频信号的过程中，基于处理待处理音频信号的起始时刻、当前时刻和所述预测时长，确定处理待处理音频信号所需的剩余时长。

根据本公开的实施例可以先确定当前时刻与起始时刻之间的时长，作为已用时长，将预测时长与已用时长之间的差值作为处理待处理音频信号所需的剩余时长。

在得到剩余时长后，该实施例还可以显示该剩余时长，以便于技术人员实时地了解音频信号的处理进度，因此便于技术人员安排其他工作。

在得到具有第一标注数据的目标音频段后，可以将该标注了的目标音频段作为训练样本，对语音识别模型和/或语义识别模型进行训练。基于此，本公开还提供了一种语音识别模型的训练方法，以下将结合图6对该方法进行详细描述。

图6是根据本公开实施例的语音识别模型的训练方法的流程示意图。

如图6所示，该实施例的语音识别模型的训练方法600可以包括操作S610～操作S620。

在操作S610，以第一样本语音段作为语音识别模型的输入，获得与第一样本语音段相关联的第一预测语句。

其中，第一样本语音段具有第二标注数据，该第二标注数据包括实际语句和指示第一样本语音段的第一样本类型的第四数据。在一实施例中，该第一样本语音段可以为前文标注得到的具有第一标注数据的目标语音段，此处的第二标注数据即为前文描述的第一标注数据，实际语句为前文描述的第二语句，第四数据为前文描述的第一数据。第一样本类型与前文描述的第一比对结果相关联，关联关系如前文所示，在此不再赘述。

其中，语音识别模型可以为智能语音系统中的模型，该语音识别模型与前文描述的独立于智能语音系统的语音识别模型的结构类似，在此不再赘述。

在操作S620，基于实际语句、第一预测语句和第一样本类型，对语音识别模型进行训练。

该实施例可以先基于实际语句、第一预测语句和第一样本类型，确定语音识别模型的损失函数的取值。随后根据该语音识别模型的损失函数的取值，采用梯度下降算法或反向传播算法对语音识别模型进行训练。可以理解的是，训练语音识别模型的方法与已有技术类似，在此不再赘述。

本公开还提供了一种语义识别模型的训练方法，以下将结合图7对该方法进行详细描述。

图7是根据本公开实施例的语义识别模型的训练方法的流程示意图。

如图7所示，该实施例的语义识别模型的训练方法700可以包括操作S710～操作S730。

在操作S710，以第二样本语音段作为语音识别模型的输入，获得与第二样本语音段相关联的第二预测语句。

其中，第二样本语音段具有第三标注数据，第三标注数据包括实际语义信息和指示第二样本语音段的第二样本类型的第五数据。在一实施例中，第二样本语音段可以为前文基于第二语义信息、第二语句、第一比对结果和第二比对结果标注得到的目标语音段。该第三标注数据为前文描述的包括第二语义信息和第二数据的第一标注数据。相应地，实际语义信息为第二语义信息，第五数据为指示第二比对结果的第二数据。第二样本类型与前文描述的第二比对结果相关联，关联关系如前文所示，在此不再赘述。

该操作S710与前文描述的获得第一预测语句的操作类似，在此不再赘述。

在操作S720，以第二预测语句作为语义识别模型的输入，获得第二预测语句的预测语义信息。

其中，语义识别模型可以为智能语音系统中的模型，该语义识别模型与前文描述的独立于智能语音系统的语义识别模型的结构类似，在此不再赘述。该第二预测语句经由语义识别模型的处理，可以由语义识别模型输出预测语义信息。

在操作S730，基于预测语义信息、实际语义信息和第二样本类型，对语义识别模型进行训练。

该实施例可以先基于实际语义信息、预测语义信息和第二样本类型，确定语义识别模型的损失函数的取值。随后根据该语义识别模型的损失函数的取值，采用梯度下降算法或反向传播算法对语义识别模型进行训练。可以理解的是，训练语义识别模型的方法与已有技术类似，在此不再赘述。

基于本公开提供的处理音频信号的方法，本公开还提供了一种处理音频信号的装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的处理音频信号的装置的结构框图。

如图8所示，该实施例的处理音频信号的装置800可以包括音频识别模块810、关联语句确定模块820、语句比对模块830和语音标注模块840。

音频识别模块810用于识别待处理音频信号，获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句，其中，待处理音频信号是基于预定文本获得的。在一实施例中，音频识别模块810可以用于执行前文描述的操作S210，在此不再赘述。

关联语句确定模块820用于确定所预定文本中与目标语音段相关联的第二语句。在一实施例中，关联语句确定模块820可以用于执行前文描述的操作S220，在此不再赘述。

语句比对模块830用于比对第一语句和第二语句，获得第一比对结果。在一实施例中，语句比对模块830可以用于执行前文描述的操作S230，在此不再赘述。

语音标注模块840用于基于第二语句和第一比对结果，对目标语音段进行标注，获得具有第一标注数据的语音段。其中，第一标注数据包括第二语句和指示第一比对结果的第一数据。在一实施例中，语音标注模块840可以用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，预定文本还包括第二语句的第二语义信息。上述处理音频信号的装置800还可以包括语义提取模块和语义比对模块。语义提取模块用于提取第一语句的语义信息，获得第一语义信息。语义比对模块用于比对第一语义信息和第二语义信息，获得第二比对结果。上述语音标注模块840具体可以用于基于第二语句、第二语义信息、第一比对结果和第二比对结果，对目标语音段进行标注。其中，第一标注数据还包括第二语义信息和指示第二比对结果的第二数据。

根据本公开的实施例，上述音频识别模块810可以包括音频读取子模块、语音检测子模块、识别子模块和语音提取子模块。音频读取子模块用于以文件流形式读取待处理音频信号。语音检测子模块用于在音频读取子模块读取待处理音频信号的过程中，检测目标语音段的起始点和终止点。识别子模块，用于响应于语音检测子模块检测到目标语音段的起始点，识别读取到的音频信号，并响应于语音检测子模块检测到目标语音段的终止点，停止音频信号的识别，以获得与目标语音段相关联的第一语句。语音提取子模块用于提取起始点和终止点之间的音频信号，获得目标语音段。

根据本公开的实施例，预定文本包括顺序排列的多个自然语句，待处理音频信号包括多个目标语音段。关联语句确定模块820可以包括次序确定子模块和语句确定子模块。次序确定子模块用于在音频读取子模块以文件流形式读取待处理音频信号的过程中，确定识别子模块获得第一语句相对于获得与多个目标语音段分别相关联的多个语句的次序。语句确定子模块用于确定多个自然语句中排在次序的自然语句，作为第二语句。

根据本公开的实施例，语音标注模块还用于：基于起始点和终止点，对目标语音段进行标注。其中，第一标注数据还包括指示起始点和终止点的第三数据。

根据本公开的实施例，上述处理音频信号的装置800还可以包括存储容量确定模块、预测时长确定模块和剩余时长确定模块。存储容量确定模块用于确定待处理音频信号的存储容量。预测时长确定模块用于基于存储容量，确定处理待处理音频信号的预测时长。剩余时长确定模块用于在装置处理待处理音频信号的过程中，基于处理待处理音频信号的起始时刻、当前时刻和预测时长，确定处理待处理音频信号所需的剩余时长。

基于本公开提供的语音识别模型的训练方法，本公开还提供了一种语音识别模型的训练装置，以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的语音识别模型的训练装置的结构框图。

如图9所示，该实施例的语音识别模型的训练装置900可以包括第一语句预测模块910和第一模型训练模块920。

第一语句预测模块910用于以第一样本语音段作为语音识别模型的输入，获得与第一样本语音段相关联的第一预测语句，该第一样本语音段具有第二标注数据，第二标注数据包括实际语句和指示第一样本语音段的第一样本类型的第四数据。其中，第一样本语音段可以是采用前文描述的处理音频信号的装置获得的，第一样本类型与第一比对结果相关联。在一实施例中，该第一语句预测模块910可以用于执行前文描述的操作S610，在此不再赘述。

第一模型训练模块920用于基于实际语句、第一预测语句和第一样本类型，对语音识别模型进行训练。在一实施例中，该第一模型训练模块920可以用于执行前文描述的操作S620，在此不再赘述。

基于本公开提供的语义识别模型的训练方法，本公开还提供了一种语义识别模型的训练装置，以下将结合图10对该装置进行详细描述。

图10是根据本公开实施例的语义识别模型的训练装置的结构框图。

如图10所示，该实施例的语义识别模型的训练装置1000可以包括第二语句预测模块1010、语义预测模块1020和第二模型训练模块1030。

第二语句预测模块1010用于以第二样本语音段作为语音识别模型的输入，获得与第二样本语音段相关联的第二预测语句，第二样本语音段具有第三标注数据，第三标注数据包括实际语义信息和指示第二样本语音段的第二样本类型的第五数据。其中，第二样本语音段可以是采用前文描述的处理音频信号的装置获得的，第二样本类型与第二比对结果相关联。在一实施例中，该第二语句预测模块1010可以用于执行前文描述的操作S710，在此不再赘述。

语义预测模块1020用于以第二预测语句作为语义识别模型的输入，获得第二预测语句的预测语义信息。在一实施例中，该语义预测模块1020可以用于执行前文描述的操作S720，在此不再赘述。

第二模型训练模块1030用于基于预测语义信息、实际语义信息和第二样本类型，对语义识别模型进行训练。在一实施例中，该第二模型训练模块1030可以用于执行前文描述的操作S730，在此不再赘述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开实施例的各方法的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如以下至少一种方法：处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。例如，在一些实施例中，处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法中的至少一种方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法中的至少一种方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行以下至少一种方法：处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种处理音频信号的方法，包括：

识别待处理音频信号，获得所述待处理音频信号中的目标语音段及与所述目标语音段相关联的第一语句，其中，所述待处理音频信号是基于预定文本获得的；

确定所述预定文本中与所述目标语音段相关联的第二语句；

比对所述第一语句和所述第二语句，获得第一比对结果；以及

基于所述第二语句和所述第一比对结果，对所述目标语音段进行标注，获得具有第一标注数据的语音段，

其中，所述第一标注数据包括所述第二语句和指示所述第一比对结果的第一数据。

2.根据权利要求1所述的方法，其中，所述预定文本还包括所述第二语句的第二语义信息；所述方法还包括：

提取所述第一语句的语义信息，获得第一语义信息；以及

比对所述第一语义信息和所述第二语义信息，获得第二比对结果，

其中，对所述目标语音段进行标注包括：基于所述第二语句、所述第二语义信息、所述第一比对结果和所述第二比对结果，对所述目标语音段进行标注；

其中，所述第一标注数据还包括所述第二语义信息和指示所述第二比对结果的第二数据。

3.根据权利要求1或2所述的方法，其中，识别待处理音频信号包括：

响应于以文件流形式读取所述待处理音频信号的过程中检测到目标语音段的起始点，识别读取到的音频信号；

响应于检测到所述目标语音段的终止点，停止所述音频信号的识别，以获得与所述目标语音段相关联的第一语句；以及

提取所述起始点和所述终止点之间的音频信号，获得所述目标语音段。

4.根据权利要求3所述的方法，其中，所述预定文本包括顺序排列的多个自然语句；所述待处理音频信号包括多个目标语音段；所述确定所述预定文本中与所述目标语音段相关联的第二语句包括：

在以文件流形式读取所述待处理音频信号的过程中，确定获得所述第一语句相对于获得与多个所述目标语音段分别相关联的多个语句的次序；以及

确定多个所述自然语句中排在所述次序的自然语句，作为所述第二语句。

5.根据权利要求3所述的方法，其中，对所述目标语音段进行标注还包括：

基于所述起始点和所述终止点，对所述目标语音段进行标注，

其中，所述第一标注数据还包括指示所述起始点和所述终止点的第三数据。

6.根据权利要求1或2所述的方法，还包括：

确定所述待处理音频信号的存储容量；

基于所述存储容量，确定处理所述待处理音频信号的预测时长；以及

在处理所述待处理音频信号的过程中，基于处理所述待处理音频信号的起始时刻、当前时刻和所述预测时长，确定处理所述待处理音频信号所需的剩余时长。

7.一种语音识别模型的训练方法，包括：

以第一样本语音段作为语音识别模型的输入，获得与所述第一样本语音段相关联的第一预测语句，所述第一样本语音段具有第二标注数据，所述第二标注数据包括实际语句和指示所述第一样本语音段的第一样本类型的第四数据；以及

基于所述实际语句、所述第一预测语句和所述第一样本类型，对所述语音识别模型进行训练，

其中，所述第一样本语音段是采用权利要求1～6中任一项所述的方法获得的，所述第一样本类型与所述第一比对结果相关联。

8.一种语义识别模型的训练方法，包括：

以第二样本语音段作为语音识别模型的输入，获得与所述第二样本语音段相关联的第二预测语句，所述第二样本语音段具有第三标注数据，所述第三标注数据包括实际语义信息和指示所述第二样本语音段的第二样本类型的第五数据；

以所述第二预测语句作为语义识别模型的输入，获得所述第二预测语句的预测语义信息；以及

基于所述预测语义信息、所述实际语义信息和所述第二样本类型，对所述语义识别模型进行训练，

其中，所述第二样本语音段是采用权利要求2～6中任一项所述的方法获得的，所述第二样本类型与所述第二比对结果相关联。

9.一种处理音频信号的装置，包括：

音频识别模块，用于识别待处理音频信号，获得所述待处理音频信号中的目标语音段及与所述目标语音段相关联的第一语句，其中，所述待处理音频信号是基于预定文本获得的；

关联语句确定模块，用于确定所述预定文本中与所述目标语音段相关联的第二语句；

语句比对模块，用于比对所述第一语句和所述第二语句，获得第一比对结果；以及

语音标注模块，用于基于所述第二语句和所述第一比对结果，对所述目标语音段进行标注，获得具有第一标注数据的语音段，

10.根据权利要求9所述的装置，其中，所述预定文本还包括所述第二语句的第二语义信息；所述装置还包括：

语义提取模块，用于提取所述第一语句的语义信息，获得第一语义信息；以及

语义比对模块，用于比对所述第一语义信息和所述第二语义信息，获得第二比对结果，

其中，所述语音标注模块用于：基于所述第二语句、所述第二语义信息、所述第一比对结果和所述第二比对结果，对所述目标语音段进行标注；

11.根据权利要求9或10所述的装置，其中，所述音频识别模块包括：

音频读取子模块，用于以文件流形式读取所述待处理音频信号；

语音检测子模块，用于在所述音频读取子模块读取所述待处理音频信号的过程中，检测目标语音段的起始点和终止点；

识别子模块，用于响应于所述语音检测子模块检测到目标语音段的起始点，识别读取到的音频信号；并响应于所述语音检测子模块检测到目标语音段的终止点，停止所述音频信号的识别，以获得与所述目标语音段相关联的第一语句；以及

语音提取子模块，用于提取所述起始点和所述终止点之间的音频信号，获得所述目标语音段。

12.根据权利要求11所述的装置，其中，所述预定文本包括顺序排列的多个自然语句；所述待处理音频信号包括多个目标语音段；所述关联语句确定模块包括：

次序确定子模块，用于在所述音频读取子模块以文件流形式读取所述待处理音频信号的过程中，确定所述识别子模块获得所述第一语句相对于获得与多个所述目标语音段分别相关联的多个语句的次序；以及

语句确定子模块，用于确定多个所述自然语句中排在所述次序的自然语句，作为所述第二语句。

13.根据权利要求11所述的装置，其中，所述语音标注模块还用于：

14.根据权利要求9或10所述的装置，还包括：

存储容量确定模块，用于确定所述待处理音频信号的存储容量；

预测时长确定模块，用于基于所述存储容量，确定处理所述待处理音频信号的预测时长；以及

剩余时长确定模块，用于在所述装置处理所述待处理音频信号的过程中，基于处理所述待处理音频信号的起始时刻、当前时刻和所述预测时长，确定处理所述待处理音频信号所需的剩余时长。

15.一种语音识别模型的训练装置，包括：

第一语句预测模块，用于以第一样本语音段作为语音识别模型的输入，获得与所述第一样本语音段相关联的第一预测语句，所述第一样本语音段具有第二标注数据，所述第二标注数据包括实际语句和指示所述第一样本语音段的第一样本类型的第四数据；以及

第一模型训练模块，用于基于所述实际语句、所述第一预测语句和所述第一样本类型，对所述语音识别模型进行训练，

其中，所述第一样本语音段是采用权利要求9～14中任一项所述的装置获得的，所述第一样本类型与所述第一比对结果相关联。

16.一种语义识别模型的训练装置，包括：

第二语句预测模块，用于以第二样本语音段作为语音识别模型的输入，获得与所述第二样本语音段相关联的第二预测语句，所述第二样本语音段具有第三标注数据，所述第三标注数据包括实际语义信息和指示所述第二样本语音段的第二样本类型的第五数据；

语义预测模块，用于以所述第二预测语句作为语义识别模型的输入，获得所述第二预测语句的预测语义信息；以及

第二模型训练模块，用于基于所述预测语义信息、所述实际语义信息和所述第二样本类型，对所述语义识别模型进行训练，

其中，所述第二样本语音段是采用权利要求10～14中任一项所述的装置获得的，所述第二样本类型与所述第二比对结果相关联。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～8中任一项所述的方法。