CN108039168B

CN108039168B - 声学模型优化方法及装置

Info

Publication number: CN108039168B
Application number: CN201711319840.4A
Authority: CN
Inventors: 汪旭; 高建清; 王智国; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2020-09-11
Anticipated expiration: 2037-12-12
Also published as: CN108039168A

Abstract

本发明实施例提供一种声学模型优化方法及装置，属于语音转写技术领域。方法包括：获取当前时刻之前预设长度时间段的音频数据；提取音频数据中的有效语音数据，确定有效语音数据对应的有效语音时长及有效转写文本；根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。由于相较于预先收集大量相关音频数据的方式，实时获取音频数据的方式对应的收集难度较小且工作量较小。另外，由于是在实际使用场景下实时获取讲话用户的音频数据，从而获取到的音频数据与实际使用场景之间相互匹配，且与讲话用户相互匹配，从而对声学模型进行优化时的优化效果更佳。

Description

声学模型优化方法及装置

技术领域

本发明实施例涉语音转写技术领域，更具体地，涉及一种声学模型优化方法及装置。

背景技术

随着语音识别技术的不断发展，语音转写也被越来越广泛地应用。语音转写主要是指将声音转化为文字，常用于会议纪要整理、客户电话录音分析以及庭审数据记录场景中。语音转写可极大地减少这些场景下的人工工作量，提升工作效率。目前在进行语音转写时，主要是通过声学模型与语言模型实现语音转写。其中，声学模型用于将语音的声学特征识别为音素或字词，语言模型用于将音素或字词解码成一个完整的转写文本。在使用声学模型之前，通常需要对声学模型进行优化。相关技术中主要是预先收集大量特定场景或特定讲话用户的相关音频数据对声学模型进行优化。

由于需要收集大量场景或说话人的相关音频数据，而这些相关音频数据收集难度较高且收集工作量较大，从而比较耗费时间。另外，由于预先收集到的相关音频数据可能与实际使用场景之间匹配程度不高，从而导致声学模型的识别效果不佳。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的声学模型优化方法及装置。

根据本发明实施例的第一方面，提供了一种声学模型优化方法，该方法包括：

获取当前时刻之前预设长度时间段的音频数据，预设长度时间段以当前时刻为截止时刻；

提取音频数据中的有效语音数据，确定有效语音数据对应的有效语音时长及有效转写文本；

根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。

本发明实施例提供的方法，通过获取当前时刻之前预设长度时间段的音频数据，提取音频数据中的有效语音数据，确定有效语音数据对应的有效语音时长及有效转写文本。根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。由于相较于预先收集大量相关音频数据的方式，实时获取音频数据的方式对应的收集难度较小且工作量较小。另外，由于是在实际使用场景下实时获取讲话用户的音频数据，从而获取到的音频数据与实际使用场景之间相互匹配，且与讲话用户相互匹配。因此，以实时获取到的音频数据对声学模型进行优化时的优化效果更佳。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，阈值区间被第一预设阈值及第二预设阈值划分成第一阈值区间、第二阈值区间及第三阈值区间；

第一阈值区间为大于第一预设阈值构成的无穷区间，第二阈值区间为大于第二预设阈值且小于第一预设阈值构成的区间，第三阈值区间为大于0且小于第二预设阈值构成的区间。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，根据语音时长所落入的阈值区间，确定参数更新规则，包括：

若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数；

若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的第一部分参数；

若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的第二部分参数；

其中，第一部分参数中的参数类型多于第二部分参数中的参数类型。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，声学模型的模型结构为深度神经网络结构，声学模型包括N个隐层和一个输出层，N为大于或等于1的整数；相应地，根据有效语音时长所落入的阈值区间，确定参数更新规则，包括：

若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为每个隐层的偏移向量以及输出层的权重矩阵和偏移向量；

若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为每个隐层的偏移向量。

结合第一方面的第三种可能的实现方式，在第五种可能的实现方式中，声学模型的模型结构为包含控制门的网络结构，声学模型包括N个隐层和一个输出层，每个隐层包括至少一个状态节点，每个状态节点包括至少一个控制门；相应地，根据语音时长所落入的阈值区间，确定参数更新规则，包括：

若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为指定状态节点中每个指定控制门的权重参数以及输出层的权重矩阵和偏移向量；

若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为指定状态节点中每个控制门的权重参数以及输出层的偏移向量。

根据本发明实施例的第二方面，提供了一种声学模型优化装置，该装置包括：

获取模块，用于获取当前时刻之前预设长度时间段的音频数据，预设长度时间段以当前时刻为截止时刻；

确定模块，用于提取音频数据中的有效语音数据，并确定有效语音数据对应的有效语音时长及有效转写文本；

更新模块，用于根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。

根据本发明实施例的第三方面，提供了一种声学模型优化设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的声学模型优化方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的声学模型优化方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种声学模型优化方法的流程示意图；

图2为本发明实施例的一种深度神经网络的结构示意图；

图3为本发明实施例的一种声学模型优化装置的框图；

图4为本发明实施例的一种声学模型优化设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

随着语音识别技术的不断发展，语音转写的效果变得越来越好，语音转写的应用场景也越来越广泛，常见的应用场景为会议纪要整理、法院检察院庭审数据记录或客服电话录音分析等。语音转写可以极大地减少这些场景下的人工工作量，从而显著提高工作效率。目前用户对语音转写结果的正确率一般都有比较高的要求，语音转写的正确与否直接影响用户的使用体验。目前的语音转写系统一般采用通用的声学模型与语言模型，在针对某些特定场景或特定讲话用户，需要预先收集特定场景或特定讲话用户的相关音频数据以对声学模型进行优化，数据收集难度大且工作量高。另外，声学模型的识别效果受到预先收集的相关音频数据与实际使用场景之间匹配程度的影响，只有当预先收集的相关音频数据与实际使用场景之间匹配程度较高时，声学模型才会具有比较好的识别效果。

针对上述情形，本发明实施例提供了一种声学模型优化方法。该方法可以用于语音转写场景，也可以用于需要用到声学模型的其它场景，本发明实施例对此不作具体限定。参见图1，该方法包括：101、获取当前时刻之前预设长度时间段的音频数据，预设长度时间段以当前时刻为截止时刻；102、提取音频数据中的有效语音数据，确定有效语音数据对应的有效语音时长及有效转写文本；103、根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。

相关技术在获取用于优化声学模型的数据时，主要是预先收集大量特定场景或特定讲话用户的相关音频数据。而在上述步骤101中，主要是实时获取音频数据，并在后续步骤中基于实时获取的音频数据实现声学模型优化。相较于相关技术中预先收集大量相关音频数据的方式，实时获取音频数据的方式对应的收集难度较小且工作量较小。

另外，在特定场景下用户讲话的上下文必然都是围绕场景展开，在内容、主题和声学特性上都会有很强的相关性。而对于特定讲话用户而言，其口音、说话风格、说话方式在一段待转写的音频数据中往往也不会有太大变化，上下文的关联性同样很强。基于上述原理，由于本发明实施例是在实际使用场景下实时获取特定讲话用户的音频数据，从而获取到的音频数据与实际使用场景之间相互匹配，且与特定讲话用户之间相互匹配。因此，以实时获取到的音频数据对声学模型进行优化会有更好的优化效果。

在上述步骤101中，由于预设长度时间段是以当前时刻为截止时刻，从而获取到的音频数据与预设长度时间段之间对应等同的时长。其中，预设长度时间段对应的时长可以根据需求进行设置，本发明实施例对此不作具体限定。在获取到当前时刻之前预设长度时间段的音频数据后，可以通过当前的声学模型以及语言模型，将获取到的音频数据转写为对应的转写文本。

例如，以应用场景为用户正在讲话且同步进行语音转写为例。若当前时刻为上午10点整，预设长度时间段对应的时长为2分钟，则可获取9点58分至10点整这个时间段内的音频数据。在获取到这段时间内的音频数据后，可通过当前的声学模型及语言模型，将获取到的音频数据转写为对应的转写文本。

由于获取到的音频数据中除了包含语音数据之外，还可能会包含噪音数据以及静音数据，而这些数据在进行语音转写时均为无效数据，且后续对声学模型进行优化时需要基于有效语音数据，从而在步骤102中，在获取到音频数据后，还可从音频数据中提取出有效语音数据，并可同时确定有效语音数据对应的有效语音时长及有效转写文本。

由于有效语音数据对应的有效语音时长的长短决定了有效语音数据的数据量大小，而在对声学模型进行优化时所使用的有效语音数据的数据量越大，则对声学模型中的参数进行更新时可更新更多的参数，也即更新的参数类型也越多。具体地，在对声学模型进行优化时，可以根据有效语音时长所落入的阈值区间，确定参数更新规则，从而通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。

其中，阈值区间的下界与上界的取值越大，则落入到该阈值区间的有效语音时长的取值也越大。该有效语音时长的取值越大(即语音时长越长)，则对声学模型进行优化时所使用的有效语音数据的数据量也越大，从而对声学模型中的参数进行更新时可更新的参数类型也越多。相应地，对于该阈值区间所确定的参数更新规则，该参数更新规则所指定参数的参数类型也越多。

反之，阈值区间的下界与上界的取值越小，则落入到该阈值区间的有效语音时长的取值也越小。该有效语音时长的取值越小(即语音时长越短)，则对声学模型进行优化时所使用的有效语音数据的数据量也越小，从而对声学模型中的参数进行更新时可更新的参数类型也越少。相应地，对于该阈值区间所确定的参数更新规则，该参数更新规则所指定参数的参数类型也越少。

基于上述原理，实际在对声学模型进行优化的过程中，可根据需求将阈值区间划分为多个，以进行不同程度的优化。其中，阈值区间的划分数量可以为3个，本发明实施例对此不作具体限定。另外，声学模型一般为神经网络模型，声学模型的结构可以分为输入层、隐层及输出层。相应地，在对声学模型中的参数进行更新时，可更新不同层中参数更新规则所指定的参数。

本发明实施例提供的方法，通过获取当前时刻之前预设长度时间段的音频数据，提取音频数据中的有效语音数据，并确定有效语音数据对应的有效语音时长及有效转写文本。根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。由于相较于预先收集大量相关音频数据的方式，实时获取音频数据的方式对应的收集难度较小且工作量较小。另外，由于是在实际使用场景下实时获取讲话用户的音频数据，从而获取到的音频数据与实际使用场景之间相互匹配，且与讲话用户相互匹配。因此，以实时获取到的音频数据对声学模型进行优化时的优化效果更佳。

基于上述实施例的内容，作为一种可选实施例，阈值区间可由第一预设阈值及第二预设阈值确定，阈值区间包括第一阈值区间、第二阈值区间及第三阈值区间；第一阈值区间为大于第一预设阈值，第二阈值区间为大于第二预设阈值且小于第一预设阈值，第三阈值区间为小于第二预设阈值。

例如，以第一预设阈值为600秒，第二预设阈值为300秒为例。(600，+∞)为第一阈值区间，(300，600)为第二阈值区间，(0，300)为第三阈值区间。

需要说明的是，除了按照上述方式划分为三个阈值区间之外，还可以根据需求划分为其它数量的阈值区间，且阈值区间两端的预设阈值也可以根据需求进行设置，本发明实施例对此不作具体限定。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据有效语音时长所落入的阈值区间，确定参数更新规则的方法作具体限定，包括但不限于：若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数；若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的第一部分参数；若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的第二部分参数；其中，第一部分参数中的参数类型多于第二部分参数中的参数类型。

具体地，在上述示例中，当有效语音时长大于第一预设阈值(如600秒)，也即落入第一阈值区间时，则说明对声学模型进行训练优化的数据已经较为充足，从而可更新声学模型中的全部参数，也即参数更新规则在声学模型中所指定的参数为声学模型中的全部参数。当有效语音时长大于第二预设阈值(如300秒)且小于第一预设阈值，也即落入第二阈值区间时，则说明用来进行模型训练的数据较少，模型训练容易不充分。如果用这种不充分的训练数据来更新全部的声学模型权重参数可能会出现过拟合或模型偏移的现象，从而影响模型的识别效果。因此，可以对声学模型中的第一部分参数进行更新。当有效语音时长小于第二预设阈值，也即落入第三阈值区间时，则说明用来进行模型训练的数据非常少，为了保证声学模型的训练优化效果，只对声学模型中的第二部分参数进行更新。

当有效语音时长落入第二阈值区间时，相较于落入第三阈值区间，用来进行模型训练的数据会更多，从而在对声学模型进行训练时，可更新更多类型的参数。相应地，第一部分参数中的参数类型多于第二部分参数中的参数类型。

本发明实施例提供的方法，通过根据有效语音时长所落入的阈值区间，确定用来进行声学模型训练的数据量，根据用来进行声学模型训练的数据量，选择相匹配的参数更新规则更新声学模型中的参数，从而能够针对性地选择合适的方案优化声学模型。

基于上述实施例的内容，考虑到实际实施过程中可能涉及到不同结构的声学模型，针对不同结构的声学模型，本发明实施例还提供了一种确定参数更新规则的方法。作为一种可选实施例，声学模型的模型结构可以为深度神经网络结构。其中，声学模型包括N个隐层和一个输出层，N为大于或等于1的整数。相应地，本发明实施例不对根据有效语音时长所落入的阈值区间，确定参数更新规则的方式作具体限定，包括但不限于：若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数；若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为每个隐层的偏移向量以及输出层的权重矩阵和偏移向量；若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为每个隐层的偏移向量。

如图2所示，图2为深度神经网络(Deep Neural Networks，DNN)结构。DNN结构包括一个输入层(Input Layer)、N个隐层(Hidden Layer)以及一个输出层(Output Layer)。为了便于说明，本发明实施例以输入层为第0层，且用l₀表示。输出层为第L层，且用l_L表示。相应地，输入层与输出层之间相连的隐层依次表示为l₁、l₂…l_L-1，且隐层的总数量为L-1。上述输入层、隐层以及输出层构成了L+1层的DNN结构。

对于上述L-1层的隐层，每一隐层的输出向量均为激活向量(theactivationvector)。以其中任一隐层为例，该隐层的激活向量可以用V^l表示，激活向量V^l的计算过程可如下公式表示：

V^l＝f(z^l)＝f(W^lV^l-1+b^l)

在上述公式中，V^l表示该隐层的激活向量，z^l表示该隐层的激励向量，函数f()表示该隐层的激活函数。其中，激励向量z^l可以通过如下公式表示：

z^l＝W^lV^l-1+b^l

在上述公式中，W^l表示该隐层的权重矩阵，b^l表示该隐层的偏移向量。V^l-1表示上一隐层输出的激活向量，且作为该隐层的输入向量。

由上述内容可知，对于深度神经网络结构的声学模型，权重矩阵与偏移向量是主要参数。相应地，若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在深度神经网络结构的声学模型中所指定的参数为声学模型中的全部参数。若有效语音时长所落入的阈值区间为第二阈值区间，则说明用于对声学模型进行训练的数据相对较少。由于权重矩阵的参数量较大，更新较为复杂，从而参数更新规则在深度神经网络结构的声学模型中所指定的参数可以为每个隐层的偏移向量以及输出层的权重矩阵和偏移向量。

若有效语音时长所落入的阈值区间为第三阈值区间，则说明用于训练声学模型的数据非常少。此时，可以保持输出层的权重矩阵和偏移向量不变，只更新隐层的偏移向量。相应地，参数更新规则在声学模型中指定的参数为每个隐层的偏移向量。

在上述实施例中，主要针对的是深度神经网络结构的声学模型。当然，除了深度神经网络结构之外，声学模型还可以为包含控制门的网络结构，如长短时记忆结构(LongShort-Term Memory，LSTM)或者神经网络与门控循环单元网络(Gated Recurrent Unit，GRU)。以LSTM结构为例，LSTM结构的声学模型包括一个输入层、N个隐层及一个输出层，每个隐层包括至少一个状态节点，每个状态节点包括至少一个控制门。相应地，作为一种可选实施例，本发明实施例不对根据语音时长所落入的阈值区间，确定参数更新规则的方式作具体限定，包括但不限于：若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数；若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为指定状态节点中每个指定控制门的权重参数以及输出层的权重矩阵和偏移向量；若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为指定状态节点中每个控制门的权重参数以及输出层的偏移向量。

其中，每一状态节点均可拓展成包含若干控制门的结构。控制门具体可以为输入门、遗忘门及输出门，本发明实施例对此不作具体限定。指定状态节点指的是对声学模型影响程度大于预设阈值的状态节点，指定控制门指的是与输入数据相连的控制门。

具体地，若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在LSTM结构的声学模型中所指定的参数为声学模型中的全部参数。若有效语音时长所落入的阈值区间为第二阈值区间，则说明用于对声学模型进行训练的数据相对较少，从而参数更新规则在深度神经网络结构的声学模型中所指定的参数可以为指定状态节点中每个指定控制门的权重参数以及输出层的权重矩阵和偏移向量。若有效语音时长所落入的阈值区间为第三阈值区间，则说明用于训练声学模型的数据非常少。此时，参数更新规则在声学模型中指定的参数为指定状态节点中每个控制门的权重参数以及输出层的偏移向量。

需要说明的是，DNN结构可以与LSTM结构或GRU结构结合，也即声学模型可以为深度神经网络结构，且每一隐层中的状态节点可至少包括一个控制门。相应地，若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数。若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为每一隐层的偏移向量、指定状态节点中每个指定控制门的权重参数以及输出层的权重矩阵和偏移向量。若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为每一隐层的偏移向量、指定状态节点中每个控制门的权重参数以及输出层的偏移向量。

其次，通过根据有效语音时长所落入的阈值区间，确定用来进行声学模型训练的数据量，根据用来进行声学模型训练的数据量，选择相匹配的参数更新规则更新声学模型中的参数，从而能够针对性地选择合适的方案优化声学模型。

最后，由于可针对性地选择合适的方案对目前存在的不同结构的声学模型进行优化，从而可提高后续的语音转写效果。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例提供了一种声学模型优化装置，该声学模型优化装置用于执行上述方法实施例中提供的声学模型优化方法。参见图3，该装置包括：

获取模块301，用于获取当前时刻之前预设长度时间段的音频数据，预设长度时间段以当前时刻为截止时刻；

确定模块302，用于提取音频数据中的有效语音数据，并确定有效语音数据对应的有效语音时长及有效转写文本；

更新模块303，用于根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。

作为一种可选实施例，阈值区间被第一预设阈值及第二预设阈值划分成第一阈值区间、第二阈值区间及第三阈值区间；

作为一种可选实施例，更新模块303，用于当有效语音时长所落入的阈值区间为第一阈值区间时，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数；若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的第一部分参数；若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的第二部分参数；其中，第一部分参数中的参数类型多于第二部分参数中的参数类型。

作为一种可选实施例，声学模型的模型结构为深度神经网络结构，声学模型包括N个隐层和一个输出层，N为大于或等于1的整数；相应地，更新模块303，用于当有效语音时长所落入的阈值区间为第一阈值区间时，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数；若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为每个隐层的偏移向量以及输出层的权重矩阵和偏移向量；若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为每个隐层的偏移向量。

作为一种可选实施例，声学模型的模型结构为包含控制门的网络结构，声学模型包括N个隐层和一个输出层，每个隐层包括至少一个状态节点，每个状态节点包括至少一个控制门；相应地，根据有效语音时长所落入的阈值区间，确定参数更新规则，包括：若有效语音时长所落入的阈值区间为第一阈值区间，则参数更新规则在声学模型中所指定的参数为声学模型中的全部参数；若有效语音时长所落入的阈值区间为第二阈值区间，则参数更新规则在声学模型中所指定的参数为指定状态节点中每个指定控制门的权重参数以及输出层的权重矩阵和偏移向量；若有效语音时长所落入的阈值区间为第三阈值区间，则参数更新规则在声学模型中所指定的参数为指定状态节点中每个控制门的权重参数以及输出层的偏移向量。

本发明实施例提供的装置，通过获取当前时刻之前预设长度时间段的音频数据，提取音频数据中的有效语音数据，并确定有效语音数据对应的有效语音时长及有效转写文本。根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。由于相较于预先收集大量相关音频数据的方式，实时获取音频数据的方式对应的收集难度较小且工作量较小。另外，由于是在实际使用场景下实时获取讲话用户的音频数据，从而获取到的音频数据与实际使用场景之间相互匹配，且与讲话用户相互匹配。因此，以实时获取到的音频数据对声学模型进行优化时的优化效果更佳。

本发明实施例提供了一种声学模型优化设备。参见图4，该设备包括：处理器(processor)401、存储器(memory)402和总线403；

其中，处理器401及存储器402分别通过总线403完成相互间的通信；

处理器401用于调用存储器402中的程序指令，以执行上述实施例所提供的声学模型优化方法，例如包括：获取当前时刻之前预设长度时间段的音频数据，预设长度时间段以当前时刻为截止时刻；提取音频数据中的有效语音数据，确定有效语音数据对应的有效语音时长及有效转写文本；根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的声学模型优化方法，例如包括：获取当前时刻之前预设长度时间段的音频数据，预设长度时间段以当前时刻为截止时刻；提取音频数据中的有效语音数据，确定有效语音数据对应的有效语音时长及有效转写文本；根据有效语音时长所落入的阈值区间，确定参数更新规则，通过有效语音数据及有效转写文本训练声学模型，以更新参数更新规则在声学模型中所指定的参数。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的声学模型优化设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种声学模型优化方法，其特征在于，包括：

获取当前时刻之前预设长度时间段的音频数据，所述预设长度时间段以所述当前时刻为截止时刻；

提取所述音频数据中的有效语音数据，确定所述有效语音数据对应的有效语音时长及有效转写文本；

根据所述有效语音时长所落入的阈值区间，确定参数更新规则，通过所述有效语音数据及所述有效转写文本训练声学模型，以更新所述参数更新规则在所述声学模型中所指定的参数；

其中，所述阈值区间的下界与上界的取值越大，所述参数更新规则所指定参数的参数类型越多；所述阈值区间的下界与上界的取值越小，所述参数更新规则所指定参数的参数类型越少。

2.根据权利要求1所述的方法，其特征在于，所述阈值区间被第一预设阈值及第二预设阈值划分成第一阈值区间、第二阈值区间及第三阈值区间；

所述第一阈值区间为大于所述第一预设阈值构成的无穷区间，所述第二阈值区间为大于所述第二预设阈值且小于所述第一预设阈值构成的区间，所述第三阈值区间为大于0且小于所述第二预设阈值构成的区间。

3.根据权利要求2所述的方法，其特征在于，所述根据所述有效语音时长所落入的阈值区间，确定参数更新规则，包括：

若所述有效语音时长所落入的阈值区间为第一阈值区间，则所述参数更新规则在所述声学模型中所指定的参数为所述声学模型中的全部参数；

若所述有效语音时长所落入的阈值区间为第二阈值区间，则所述参数更新规则在所述声学模型中所指定的参数为所述声学模型中的第一部分参数；

若所述有效语音时长所落入的阈值区间为第三阈值区间，则所述参数更新规则在所述声学模型中所指定的参数为所述声学模型中的第二部分参数；

其中，所述第一部分参数中的参数类型多于所述第二部分参数中的参数类型。

4.根据权利要求3所述的方法，其特征在于，所述声学模型的模型结构为深度神经网络结构，所述声学模型包括N个隐层和一个输出层，所述N为大于或等于1的整数；相应地，所述根据所述有效语音时长所落入的阈值区间，确定参数更新规则，包括：

若所述有效语音时长所落入的阈值区间为第二阈值区间，则所述参数更新规则在所述声学模型中所指定的参数为每个隐层的偏移向量以及所述输出层的权重矩阵和偏移向量；

若所述有效语音时长所落入的阈值区间为第三阈值区间，则所述参数更新规则在所述声学模型中所指定的参数为每个隐层的偏移向量。

5.根据权利要求3所述的方法，其特征在于，所述声学模型的模型结构为包含控制门的网络结构，所述声学模型包括N个隐层和一个输出层，每个隐层包括至少一个状态节点，每个状态节点包括至少一个控制门；相应地，所述根据所述有效语音时长所落入的阈值区间，确定参数更新规则，包括：

若所述有效语音时长所落入的阈值区间为第二阈值区间，则所述参数更新规则在所述声学模型中所指定的参数为指定状态节点中每个指定控制门的权重参数以及所述输出层的权重矩阵和偏移向量；

若所述有效语音时长所落入的阈值区间为第三阈值区间，则所述参数更新规则在所述声学模型中所指定的参数为指定状态节点中每个控制门的权重参数以及所述输出层的偏移向量。

6.一种声学模型优化装置，其特征在于，包括：

获取模块，用于获取当前时刻之前预设长度时间段的音频数据，所述预设长度时间段以所述当前时刻为截止时刻；

确定模块，用于提取所述音频数据中的有效语音数据，并确定所述有效语音数据对应的有效语音时长及有效转写文本；

更新模块，用于根据所述有效语音时长所落入的阈值区间，确定参数更新规则，通过所述有效语音数据及所述有效转写文本训练声学模型，以更新所述参数更新规则在所述声学模型中所指定的参数；

7.一种声学模型优化设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。