CN112687273A

CN112687273A - 一种语音转写方法及装置

Info

Publication number: CN112687273A
Application number: CN202011569238.8A
Authority: CN
Inventors: 张志伟; 雍文渊; 汪冬雪; 万欢; 刘江
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2021-04-20
Anticipated expiration: 2040-12-26
Also published as: CN112687273B

Abstract

本申请公开了一种语音转写方法及装置，该方法包括：在获取到第一声音采集设备在当前时刻下采集的第一当前声音信号之后，先根据该第一当前声音信号，确定该第一当前声音信号的声音能量；再判断该第一当前声音信号的声音能量是否高于该第一当前声音信号对应的转写阈值，以便在确定该第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值时，对第一当前声音信号进行语音转写。其中，第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的，且该第一历史声音信号是由该第一声音采集设备在第一历史时间段内采集的。如此能够在出现快速对话、抢话、插话等多人同时说话的现象时准确地获取到各个发言者的发言信息。

Description

一种语音转写方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音转写方法及装置。

背景技术

语音转写是指将声音采集设备(如，拾音器等)采集的声音信号携带的语音信息转写成文字信息的过程。另外，语音转写可以应用于多个应用场景中，尤其可以应用于多人交谈场景(例如，庭审等)中。

其中，多人交谈场景中通常部署有多个声音采集设备，以使每个声音采集设备均能够从该多人交谈场景采集到一路声音信号，从而使得该多人交谈场景中的全程交谈信息可以记录在由该多个声音采集设备采集的多路声音信号中。

然而，因现有的语音转写方法通常会先从多路声音信号中筛选出声音能量最大的一路声音信号，再对该声音能量最大的一路声音信号进行语音转写，使得在每个时间点下只能转写得到一个发言者的发言信息，如此导致在出现快速对话、抢话、插话等多人同时说话的现象时无法通过现有的语音转写方法得到多个发言者的发言信息，从而导致语音转写的准确性较低。

发明内容

本申请实施例的主要目的在于提供一种语音转写方法及装置，能够在出现快速对话、抢话、插话等多人同时说话的现象时准确地获取到各个发言者的发言信息，从而能够提高多人同时说话场景下语音转写的准确性。

本申请实施例提供了一种语音转写方法，所述方法包括：

获取第一当前声音信号；其中，所述第一当前声音信号是由第一声音采集设备在当前时刻下采集的；

根据所述第一当前声音信号，确定所述第一当前声音信号的声音能量；

在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的转写阈值时，对所述第一当前声音信号进行语音转写；其中，所述第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的；所述第一历史声音信号是由所述第一声音采集设备在第一历史时间段内采集的。

在一种可能的实施方式下，所述根据所述第一当前声音信号，确定所述第一当前声音信号的声音能量，包括：

在确定所述第一当前声音信号携带有语音信息时，根据所述第一当前声音信号，确定所述第一当前声音信号的声音能量。

在一种可能的实施方式下，当所述第一历史声音信号的个数为N时，所述第一当前声音信号对应的转写阈值的确定过程包括：

根据第1个第一历史声音信号的声音能量至第N个第一历史声音信号的声音能量，得到N个历史能量均值；其中，N为正整数；

将所述N个历史能量均值中最小值，确定为所述第一当前声音信号对应的转写阈值。

在一种可能的实施方式下，当i为正整数，且i≤N时，第i个历史能量均值的确定过程包括：

若i＝1，则根据第1个第一历史声音信号的声音能量，确定所述第i个历史能量均值；

若i≥2，则将第i个第一历史声音信号的声音能量和第i-1个历史能量均值进行加权求和，得到所述第i个历史能量均值。

在一种可能的实施方式下，所述方法还包括：

获取第二历史声音信号的声音能量；其中，所述第二历史声音信号是由所述第一声音采集设备在第二历史时间段内采集的；

根据所述第二历史声音信号的声音能量，确定所述第一当前声音信号对应的历史能量变化趋势；

根据所述第一当前声音信号对应的历史能量变化趋势，确定所述第一当前声音信号对应的能量参考值；

所述对所述第一当前声音信号进行语音转写，包括：

在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的能量参考值时，对所述第一当前声音信号进行语音转写。

在一种可能的实施方式下，所述根据所述第一当前声音信号对应的历史能量变化趋势，确定所述第一当前声音信号对应的能量参考值，包括：

在确定所述第一当前声音信号对应的历史能量变化趋势满足第一条件时，根据所述第一当前声音信号对应的历史能量变化趋势，确定所述第一当前声音信号对应的历史能量上升区段；

根据所述第一当前声音信号对应的历史能量上升区段，确定所述第一当前声音信号对应的能量参考值。

在一种可能的实施方式下，所述方法还包括：

获取第二当前声音信号的声音能量；其中，所述第二当前声音信号是由所述第二声音采集设备在所述当前时刻下采集的；

在确定所述第二当前声音信号的声音能量高于所述第二当前声音信号对应的转写阈值时，根据所述第一当前声音信号的声音能量和所述第二当前声音信号的声音能量，确定所述第一当前声音信号对应的能量排序序号；其中，所述第二当前声音信号对应的转写阈值是根据所述第二声音采集设备在第一历史时间段内采集的声音信号的声音能量确定的；

所述对所述第一当前声音信号进行语音转写，包括：

在确定所述第一当前声音信号对应的能量排序序号满足第二条件时，对所述第一当前声音信号进行语音转写。

在一种可能的实施方式下，所述方法还包括：

获取第三当前声音信号和所述第三当前声音信号的声音能量；其中，所述第三当前声音信号是由所述第三声音采集设备在所述当前时刻下采集的；

所述对所述第一当前声音信号进行语音转写，包括：

在确定所述第一声音采集设备的装设位置与所述第三声音采集设备的装设位置之间的距离低于预设距离阈值，所述第一当前声音信号与所述第三当前声音信号之间的相似度达到预设相似阈值，所述第三当前声音信号高于所述第三当前声音信号对应的转写阈值，且所述第一当前声音信号的声音能量高于所述第三当前声音信号的声音能量时，对所述第一当前声音信号进行语音转写；其中，所述第三当前声音信号对应的转写阈值是根据所述第三声音采集设备在第一历史时间段内采集的声音信号的声音能量确定的。

在一种可能的实施方式下，所述方法还包括：

在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的转写阈值时，将预设的第一标识值确定为所述第一当前声音信号的转写标识；

所述对所述第一当前声音信号进行语音转写，包括：

在确定各个第三历史声音信号的转写标识均为所述第一标识值时，对所述第一当前声音信号进行语音转写；其中，所述第三历史声音信号是由所述第一声音采集设备在第三历史时间段内采集的。

在一种可能的实施方式下，所述对所述第一当前声音信号进行语音转写，包括：

在确定无需对第四历史声音信号进行语音转写时，对所述第一当前声音信号和所述第五历史声音信号进行语音转写；其中，所述第四历史声音信号是由所述第一声音采集设备在距离所述当前时刻最近的历史时刻下采集的；所述第五历史声音信号是由所述第一声音采集设备在第四历史时间段内采集的。

在一种可能的实施方式下，所述方法还包括：

在确定所述第一当前声音信号的声音能量不高于所述第一当前声音信号对应的转写阈值，且确定第六历史声音信号属于已转写信号时，对所述第一当前声音信号进行语音转写；其中，所述第六历史声音信号是由所述第一声音采集设备在参考历史时刻下采集的，所述当前时刻与所述参考历史时刻之间的差值为预设延迟值；

在确定所述第一当前声音信号的声音能量不高于所述第一当前声音信号对应的转写阈值，且确定第六历史声音信号不属于已转写信号时，不对所述第一当前声音信号进行语音转写。

本申请实施例还提供了一种语音转写装置，所述装置包括：

第一获取单元，用于获取第一当前声音信号；其中，所述第一当前声音信号是由第一声音采集设备在当前时刻下采集的；

第一确定单元，用于根据所述第一当前声音信号，确定所述第一当前声音信号的声音能量；

语音转写单元，用于在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的转写阈值时，对所述第一当前声音信号进行语音转写；其中，所述第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的；所述第一历史声音信号是由所述第一声音采集设备在第一历史时间段内采集的。

基于上述技术方案，本申请具有以下有益效果：

本申请提供的语音转写方法中，在获取到第一声音采集设备在当前时刻下采集的第一当前声音信号之后，先根据该第一当前声音信号，确定该第一当前声音信号的声音能量；再判断该第一当前声音信号的声音能量是否高于该第一当前声音信号对应的转写阈值，以便在确定该第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值时，对第一当前声音信号进行语音转写。其中，第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的，且该第一历史声音信号是由该第一声音采集设备在第一历史时间段内采集的。

可见，本申请实施例可以根据第一当前声音信号的声音能量以及第一历史声音信号的声音能量，确定是否对第一当前声音信号进行语音转写。其中，因第一当前声音信号以及第一历史声音信号均是由第一声音采集设备采集获得的，使得第一声音采集设备对应的语音转写过程独立于其他声音采集设备对应的语音转写过程，从而使得第一声音采集设备对应的语音转写过程不受其他声音采集设备对应的语音转写过程的影响，进而使得多人交谈场景中各个声音采集设备对应的语音转写过程是独立且互不干扰的，如此能够实现同时对多个声音采集设备采集的声音信号进行语音转写，从而能够在出现快速对话、抢话、插话等多人同时说话的现象时准确地获取到各个发言者的发言信息，从而能够提高多人同时说话场景下语音转写的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的多人交谈场景示意图；

图2为本申请实施例提供的一种语音转写方法的流程图；

图3为本申请实施例提供的一种语音转写装置的结构示意图。

具体实施方式

为了便于理解本申请实施例提供的语音转写方法，下面结合图1所示的多人交谈场景进行说明。

在图1所示的多人交谈场景中共有10个参与者和10个声音采集设备，而且该10个参与者和10个声音采集设备之间的对应关系具体为：参与者1对应于声音采集设备1，以使该声音采集设备1能够主要用于采集该参与者1表达的语音信息；参与者2对应于声音采集设备2，以使该声音采集设备2能够主要用于采集该参与者2表达的语音信息；……；参与者10对应于声音采集设备10，以使该声音采集设备10能够主要用于采集该参与者10表达的语音信息。

需要说明的是，声音采集设备k也可以能够采集到除了参与者k表达的语音信息以外也可以采集到其他声音信息(例如，背景噪音，相邻参与者表达的语音信息等)。其中，k为正整数，k≤10。

基于图1所示多人交谈场景可知，在参与者1至参与者10的交谈过程中，可以利用本申请实施例提供的语音转写方法的任一实施方式对声音采集设备1至声音采集设备10实时采集的声音信号分别进行语音转写；而且声音采集设备k对应的语音转写过程具体可以为：当声音采集设备k在当前时刻下采集到声音信号k之后，先根据该声音信号k，确定该声音信号k的声音能量；再判断该声音信号k的声音能量是否高于该声音信号k对应的转写阈值，以便在确定该声音信号k的声音能量高于该声音信号k对应的转写阈值时，对该声音信号k进行语音转写。其中，声音信号k对应的转写阈值是根据声音采集设备k采集的历史声音信号确定的。

可见，声音采集设备k对应的语音转写过程只需考虑该声音采集设备k采集的当前声音信号以及历史声音信号即可，无需考虑除了声音采集设备k以外的其他声音采集设备采集的声音信号，使得该声音采集设备k对应的语音转写过程独立于其他声音采集设备，从而能够实现同时对多个声音采集设备采集的声音信号进行语音转写，从而能够在出现快速对话、抢话、插话等多人同时说话的现象时准确地获取到各个发言者的发言信息，进而能够提高多人同时说话场景下语音转写的准确性。

需要说明的是，本申请实施例不限定图1所示的多人交谈场景，可以是任一种多人交谈场景。例如，若图1所示的多人交谈场景为庭审，则参与者1和参与者3可以均为审判员，参与者2可以为审判长，参与者4可以为原告，参与者5和参与者6可以均为原告律师，参与者7和参与者8可以均为被告律师，参与者9可以为被告，参与者10可以为书记员。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例一

参见图2，该图为本申请实施例提供的一种语音转写方法的流程图。

本申请实施例提供的语音转写方法，包括S1-S3：

S1：获取第一当前声音信号。其中，该第一当前声音信号是由第一声音采集设备在当前时刻下采集的。

第一当前声音信号是指第一声音采集设备在当前时刻下采集的声音信号。

实际上，第一当前声音信号可能携带有语音信息，也可能没有携带任何语音信息(也就是，只携带有背景噪音)，故为了提高转写效率，在获取到第一当前声音信号之后，可以判断该第一当前声音信号是否携带有语音信息，若是，则执行下文S2；若否，则确定不对该第一当前声音信号进行语音转写(也就是，直接结束对第一当前声音信号的语音转写过程)。

需要说明的是，本申请实施例不限定步骤“判断该第一当前声音信号是否携带有语音信息”的实施方式，可以采用现有的或者未来出现的任一种能够对声音信号进行语音信息识别的方法进行实施。例如，步骤“判断该第一当前声音信号是否携带有语音信息”可以采用语音端点检测方法(Voice Activity Detection，VAD)进行实施。

第一声音采集设备是指第一当前声音信号的采集设备；而且本申请实施例不限定第一声音采集设备，例如，第一声音采集设备可以是任一种能够进行声音信号采集的设备(如，麦克风等)。

需要说明的是，若本申请实施例提供的语音转写方法应用于图1所示的多人交谈场景，则第一声音采集设备可以是声音采集设备1至声音采集设备10中的任一个，以使得在图1所示的多人交谈场景中装设的各个声音采集设备均可以采用本申请实施例提供的语音转写方法进行实时语音转写。

基于上述S1的相关内容可知，对于多人交谈场景(如图1所示的多人交谈场景)来说，在获取到第y个声音采集设备在当前时刻下采集的第y个声音信号之后，判断该第y个声音信号是否携带有语音信息，若携带有语音信息，则可以确定第y个声音采集设备在当前时刻下采集到了发言信息，故可以将第y个声音信号作为第一当前声音信号，以便能够利用下文部分或全部步骤(例如，S2-S3等)对该第y个声音信号进行语音转写；若未携带有语音信息，则可以确定第y个声音采集设备在当前时刻下没有采集到任何发言信息，使得第y个声音信号未携带有任何的有用信息，从而使得无需对该第y个声音信号进行语音转写，故可以直接结束对该第y个声音信号的语音转写过程。其中，y为正整数，y≤Y，Y表示多人交谈场景中声音采集设备的个数。

S2：根据第一当前声音信号，确定该第一当前声音信号的声音能量。

其中，第一当前声音信号的声音能量用于表征第一当前声音信号的强弱。

需要说明的是，本申请实施例不限定声音能量的确定方法，可以采用现有的或者未来出现的任一种声音能量计算方法进行实施。

基于上述S2的相关内容可知，在获取到第一当前声音信号(尤其是，携带有语音信息的第一当前声音信号)之后，可以计算该第一当前声音信号的声音能量，以使该第一当前声音信号的声音能量能够准确地表示出第一当前声音信号的强弱，以便后续能够基于该第一当前声音信号的声音能量，确定该第一当前声音信号是否需要进行语音转写。

S3：在确定第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值时，对该第一当前声音信号进行语音转写。

第一当前声音信号对应的转写阈值可以根据第一历史声音信号的声音能量确定，而且该第一历史声音信号是由第一声音采集设备在第一历史时间段内采集的。其中，第一历史声音信号的声音能量用于表征第一历史声音信号的强弱。

需要说明的是，本申请实施例不限定第一历史时间段，例如，第一历史时间段可以是距离当前时刻最近的历史时间段。另外，本申请实施例不限定第一历史声音信号的个数，而且第一历史声音信号的个数就是第一声音采集设备在第一历史时间段内采集到的声音信号的个数。例如，若第一声音采集设备在第一历史时间段内采集到N个声音信号，则可以将该N个声音信号均确定为第一历史声音信号，以使该第一历史声音信号的个数为N。其中，N为正整数。

还需要说明的是，对于N个第一历史声音信号来说，第j个第一历史声音信号的采集时间早于第j+1个第一历史声音信号的采集时间。其中，j为正整数，j+1≤N。

另外，本申请实施例不限定第一当前声音信号对应的转写阈值的确定过程，为了便于理解，下面结合示例进行说明。

作为示例，当第一历史声音信号的个数为N，且第j+1个第一历史声音信号的采集时刻早于第j个第一历史声音信号的采集时刻，j为正整数，j+1≤N时，该第一当前声音信号对应的转写阈值的确定过程可以包括步骤11-步骤12：

步骤11：根据第1个第一历史声音信号的声音能量至第N个第一历史声音信号的声音能量，得到N个历史能量均值。

其中，第i个历史能量均值用于表征从第1个第一历史声音信号的采集时刻到第i个第一历史声音信号的采集时刻之间的平均声音能量；而且该第i个历史能量均值可以根据第1个第一历史声音信号的声音能量至第i个第一历史声音信号的声音能量确定。其中，i为正整数，i≤N。

另外，本申请实施例不限定第i个历史能量均值的计算方式，例如，若i＝1，则可以根据第1个第一历史声音信号的声音能量，确定第i个历史能量均值；若i≥2，则可以将第1个第一历史声音信号的声音能量至第i个第一历史声音信号的声音能量的平均值，确定为第i个历史能量均值。

需要说明的是，本申请实施例也不限定第1个历史能量均值，例如，可以直接将第1个第一历史声音信号的声音能量，确定为第1个历史能量均值。又如，还可以将第1个第一历史声音信号的声音能量以及该第1个第一历史声音信号对应的至少一个邻近历史声音信号的声音能量之间的平均值，确定为第1个历史能量均值。其中，邻近历史声音信号的采集时刻早于第1个第一历史声音信号，而且该邻近历史声音信号的采集时刻与第1个第一历史声音信号的采集时刻之间的时间差小于预先设定的第一阈值。

此外，发明人在针对多人交谈场景的研究中发现，每个发言者在较短时间内的发音强弱基本保持一致，使得在较短时间内针对同一个发言者采集到的不同声音信号的声音能量基本相同，从而使得声音能量在该较短时间内不会出现剧烈的峰谷波动，如此使得第T+1时刻采集的声音信号的声音能量对第T时刻采集的声音信号的声音能量具有较强的依赖性，故为了提高第i个历史能量均值的准确性，可以利用指数加权移动平均值(Exponentially Weighted Moving-Average，EWMA)计算第i个历史能量均值。其中，T为正整数。

基于此，本申请实施例还提供了确定第i个历史能量均值的一种可能的实施方式，其具体可以包括：若i＝1，则根据第1个第一历史声音信号的声音能量，确定第i个历史能量均值；若i≥2，则将第i个第一历史声音信号的声音能量和第i-1个历史能量均值进行加权求和，得到第i个历史能量均值(如公式(1)所示)。

Average(i)＝α_i×E_i ^Period1+(1-α_i)×Average(i-1) (1)

式中，Average(i)为第i个历史能量均值；E_i ^Period1为第i个第一历史声音信号的声音能量；α_i为预先设定的第i个第一历史声音信号的声音能量的权重；Average(i-1)为第i-1个历史能量均值；i为正整数，i≥2，i≤N。

需要说明的是，本申请实施例不限定α₁至α_N这N个权重之间的关系，该N个权重可以相同，也可以不同。另外，本申请实施例也不限定Average(1)的计算过程，例如，可以采用上文确定第1个历史能量均值的任一实施方式进行实施。

可见，N个历史能量均值的确定过程具体可以为：根据第1个第一历史声音信号的声音能量，确定第1个历史能量均值；将第2个第一历史声音信号的声音能量和该第1个历史能量均值进行加权求和，得到第2个历史能量均值；将第3个第一历史声音信号的声音能量和该第2个历史能量均值进行加权求和，得到第3个历史能量均值；……(依次类推)；将第N个第一历史声音信号的声音能量和该第N-1个历史能量均值进行加权求和，得到第N个历史能量均值。

基于上述步骤11的相关内容可知，在获取到第一声音采集设备在第一历史时间段内采集的N个第一历史声音信号之后，可以根据该N个第一历史声音信号，确定N个历史能量均值，以使该N个历史能量均值能够准确地表示出第一声音采集设备在第一历史时间段内采集的声音信号的声音能量分布。

步骤12：将N个历史能量均值中最小值，确定为第一当前声音信号对应的转写阈值。

作为示例，当N＝10，第1个历史能量均值和第2个历史能量均值均高于第3个历史能量均值，而且第4个历史能量均值至第10个历史能量均值也均高于第3个历史能量均值时，因第3个历史能量均值是第1个历史能量均值至第10个历史能量均值中的最小值，故可以直接将第3个历史能量均值确定为第一当前声音信号对应的转写阈值。

可见，在根据N个第一历史声音信号确定出N个历史能量均值之后，可以从该N个历史能量均值中确定出最小值，并将该最小值确定为第一当前声音信号对应的转写阈值，以使该第一当前声音信号对应的转写阈值能够准确地表示出第一声音采集设备的采集对象(例如，图1中声音采集设备1的采集对象为参与者1)所具有的发音强度特征，以便后续能够依据该第一声音采集设备的采集对象所具有的发音强度特征来判断是否对该第一当前声音信号进行语音转写，如此能够有效地避免因第一声音采集设备的采集对象的声音较小导致错将该采集对象的声音信号作为背景噪音过滤出去，如此有利于提高语音转写的准确性。

基于上述步骤11至步骤12的相关内容可知，可以根据第一声音采集设备在第一历史时间段内采集的至少一个第一历史声音信号，确定第一当前声音信号对应的转写阈值，以使该第一当前声音信号对应的转写阈值能够更准确地描述出该第一当前声音信号进行语音转写时应该达到的最低声音能量。可见，因第一历史时间段接近第一当前声音信号的采集时刻，使得该在该第一历史时间段内采集的第一历史声音信号能够更准确地表征出该第一当前声音信号进行语音转写时应该达到的最低声音能量，如此有利于提高第一当前声音信号对应的转写阈值的准确性。

可见，在获取到第一当前声音信号的声音能量之后，可以将该第一当前声音信号的声音能量与该第一当前声音信号对应的转写阈值进行比对，以便在确定该第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值时，对该第一当前声音信号进行语音转写。

基于上述S1至S3的相关内容可知，在本申请提供的语音转写方法中，在获取到第一声音采集设备在当前时刻下采集的第一当前声音信号之后，先根据该第一当前声音信号，确定该第一当前声音信号的声音能量；再判断该第一当前声音信号的声音能量是否高于该第一当前声音信号对应的转写阈值，以便在确定该第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值时，对第一当前声音信号进行语音转写。其中，第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的，且该第一历史声音信号是由该第一声音采集设备在第一历史时间段内采集的。

方法实施例二

为了进一步提高语音转写性能(例如，语音转写效率和语音转写准确性)，还可以进一步地参考除了转写阈值以外的其他转写指标值，确定是否对第一当前声音信号进行语音转写。基于此，本申请实施例提供了语音转写方法的一种可能的实施方式，在该实施方式中，该语音转写方法除了包括上述S1-S2以外，还包括S4：

S4：在确定第一当前声音信号满足预设转写条件时，对第一当前声音信号进行语音转写。

其中，预设转写条件是指需要进行语音转写的声音信号所达到的条件，而且该预设转写条件可以预先设定。

另外，本申请实施例不限定预设转写条件，例如，该预设转写条件可以包括基础条件和附加条件，以使上文“满足预设转写条件”具体可以表示为“满足基础条件且满足附加条件”。

其中，基础条件可以为第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值。

附加条件可以包括下文第一子条件、第二子条件、第三子条件和第四子条件中的至少一个。可见，若附加条件包括W个子条件，则上文“满足附件条件”具体可以表示为“都满足该W个子条件”。其中，W为正整数。

为了便于理解上文附加条件，下面分别介绍第一子条件、第二子条件、第三子条件和第四子条件。

关于“第一子条件”的相关内容。

在一些情况(例如，背景噪音识别过程的识别准确性较差，或者，未进行背景噪音识别过程等等)下，第一当前声音信号可能只携带有背景噪音，使得该第一当前声音信号没有携带任何具有转写价值的语音信息，故为了提高语音转写效率，可以不对只携带有背景噪音的第一当前声音信号进行语音转写。

可见，在对第一当前声音信号进行语音转写之前，可以检测该第一当前声音信号是否为背景噪音。基于此，本申请实施例提供了“第一子条件”的一种可能的实施方式，其具体可以为：第一当前声音信号的声音能量高于第一当前声音信号对应的能量参考值。

其中，第一当前声音信号对应的能量参考值用于表征第一声音采集设备采集到带语音信息的声音信号的声音能量与第一声音采集设备采集到只带背景噪音的声音信号的声音能量之间的分界线。可见，若第一当前声音信号的声音能量高于第一当前声音信号对应的能量参考值，则表示该第一当前声音信号携带有语音信息；若第一当前声音信号的声音能量不高于第一当前声音信号对应的能量参考值，则表示该第一当前声音信号只携带有背景噪音。

另外，本申请实施例不限定第一当前声音信号对应的能量参考值的获取方式，例如，可以预先设定。

此外，发明人在对声音信号的研究中发现，对于用户从没有说话到开始说话的过渡期间来说，声音采集设备针对该用户采集的声音信号的声音能量呈现上升趋势；对于用户从说话到结束说话的过渡期间来说，声音采集设备针对该用户采集的声音信号的声音能量呈现下降趋势；对于用户一直没有说话期间来说，声音采集设备针对该用户采集的声音信号的声音能量呈现平稳状态。

可见，在一些情况下，可以根据声音采集设备历史采集的声音信号的声音能量的变化趋势，来确定该声音采集设备在当前时刻下采集的声音信号对应的能量参考值，以使该能量参考值能够准确地表示出携带有语音信息的声音信号的声音能量与只带背景噪音的声音信号的声音能量之间的分界线。

基于此，本申请实施例提供了一种确定第一当前声音信号对应的能量参考值的实施方式，其具体可以包括步骤21-步骤23：

步骤21：获取第二历史声音信号的声音能量。

其中，第二历史声音信号是由第一声音采集设备在第二历史时间段内采集的。

另外，本申请实施例不限定第二历史时间段，例如，第二历史时间段可以为[t_first，t_now)；其中，t_first是指从该第一声音采集设备开始采集声音信号的时刻(也就是，由第一声音采集设备针对多人交谈场景采集第一帧声音信号的时刻)；t_now是指当前时刻；而且第二历史时间段不包括当前时刻。

此外，本申请实施例不限定第二历史声音信号的个数，而且第二历史声音信号的个数就是第二声音采集设备在第二历史时间段内采集到的声音信号的个数。例如，若第二声音采集设备在第二历史时间段内采集到M₂个声音信号，则可以将该M₂个声音信号均确定为第二历史声音信号，以使该第二历史声音信号的个数为M₂。其中，M₂为正整数。

需要说明的是，对于M₂个第二历史声音信号来说，第m₂个第二历史声音信号的采集时间早于第m₂+1个第二历史声音信号的采集时间。其中，m₂为正整数，m₂+1≤M₂。

第二历史声音信号的声音能量用于表征第二历史声音信号的强弱。

步骤22：根据第二历史声音信号的声音能量，确定第一当前声音信号对应的历史能量变化趋势。

其中，第一当前声音信号对应的历史能量变化趋势用于描述第一声音采集设备在第二历史时间段内采集的声音信号的声音能量变化情况；而且本申请实施例不限定第一当前声音信号对应的历史能量变化趋势的表示方式，例如，可以利用第一当前声音信号对应的历史能量变化曲线进行表示。

另外，本申请实施例不限定历史能量变化趋势的确定过程，可以采用现有的或者未来出现的任一种能够变化趋势确定方法进行实施。

基于上述步骤22的相关内容可知，在获取到第二声音采集设备在第二历史时间段内采集到的M₂个第二历史声音信号之后，可以根据该M₂个第二历史声音信号，确定第一当前声音信号对应的历史能量变化趋势，以使该历史能量变化趋势能够准确地表示出该M₂个第二历史声音信号的声音能量的分布情况，从而使得该历史能量变化趋势能够准确地表示出第二声音采集设备已采集的声音信号的声音能量是否发生波动(例如，上升等)，进而使得后续能够基于该历史能量变化趋势，确定第一当前声音信号是否为背景噪音。

步骤23：根据第一当前声音信号对应的历史能量变化趋势，确定第一当前声音信号对应的能量参考值。

本申请实施例中，在获取到第一当前声音信号对应的历史能量变化趋势之后，可以先根据该第一当前声音信号对应的历史能量变化趋势，预测该第一当前声音信号是否为背景噪音；再在预测该第一当前声音信号为背景噪音时，将数值较大的预设能量值确定为该第一当前声音信号对应的能量参考值，以使该第一当前声音信号的声音能量远远低于该第一当前声音信号对应的能量参考值，从而使得无需对该第一当前声音信号进行语音转写；然而，在预测该第一当前声音信号不是背景噪音时，可以至少一个第二历史声音信号的声音能量，设定该第一当前声音信号对应的能量参考值，以使该第一当前声音信号对应的能量参考值能够准确地表示出在第一声音采集设备采集到携带有语音信息的声音信号时该声音信号的声音能量应该达到的最低值。

实际上，对于多人交谈场景中的各个声音采集设备来说，若该声音采集设备一直没有采集到语音信息(也就是，一直都在采集背景噪音)，则该声音采集设备在不同时刻下采集的声音信息的声音能量基本相同，使得根据由该声音采集设备在不同时刻下采集的声音信息的声音能量，确定的历史能量变化趋势几乎以一条水平直线进行呈现；然而，若该声音采集设备曾经采集到至少一帧语音信息，则在该声音采集设备采集到语音信息时的声音能量远远高于在该声音采集设备只采集到背景噪音时的声音能量，使得根据由该声音采集设备在不同时刻下采集的声音信息的声音能量，确定的历史能量变化趋势中存在声音能量呈上升变化的区段。

可见，本申请实施例可以通过判断第一当前声音信号对应的历史能量变化趋势中是否存在声音能量呈上升变化的区段的方式，来确定该第一当前声音信号是否为背景噪音。基于此，本申请实施例提供了步骤23的一种可能的实施方式，其具体可以包括步骤231-步骤234：

步骤231：判断第一当前声音信号对应的历史能量变化趋势是否满足第一条件，若是，则执行步骤232-步骤233；若否，则执行步骤234。

其中，第一条件用于表征第一声音采集设备在第二历史时间段内采集到至少一帧带语音信息的声音信号；而且该第一条件可以预先设定。

另外，本申请实施例不限定第一条件，例如，第一条件可以为在第一当前声音信号对应的历史能量变化趋势中存在至少一段声音能量上升区段。

基于上述步骤231的相关内容可知，在获取到第一当前声音信号对应的历史能量变化趋势之后，可以判断该第一当前声音信号对应的历史能量变化趋势是否满足第一条件；若满足，则表示该第一声音采集设备在第二历史时间段内采集到至少一帧带语音信息的声音信号，故可以利用下文步骤232和步骤233确定出该第一当前声音信号对应的能量参考值；若不满足，则表示该第一声音采集设备在第二历史时间段内一直采集到背景噪音，故可以利用下文步骤234确定出该第一当前声音信号对应的能量参考值。

步骤232：根据第一当前声音信号对应的历史能量变化趋势，确定第一当前声音信号对应的历史能量上升区段。

其中，第一当前声音信号对应的历史能量上升区段可以包括在第一当前声音信号对应的历史能量变化趋势中存在的至少一段声音能量上升区段。

本申请实施例中，在确定第一当前声音信号对应的历史能量变化趋势满足第一条件时，可以确定第一声音采集设备在第二历史时间段内采集到至少一帧带语音信息的声音信号，故可以根据该第一当前声音信号对应的历史能量变化趋势，确定第一当前声音信号对应的历史能量上升区段，以使该第一当前声音信号对应的历史能量上升区段用于表示出该第一声音采集设备采集的带语音信息的声音信号的声音能量与该第一声音采集设备采集的背景噪音的声音能量之间的差距。

步骤233：根据第一当前声音信号对应的历史能量上升区段，确定第一当前声音信号对应的能量参考值。

本申请实施例中，在获取到第一当前声音信号对应的历史能量上升区段之后，可以根据位于第一当前声音信号对应的历史能量上升区段中各个声音能量值，确定第一当前声音信号对应的能量参考值，以使该第一当前声音信号对应的能量参考值能够准确地表示出第一声音采集设备采集的带语音信息的声音信号应该达到的声音能量最低值。

需要说明的是，本申请实施例不限定步骤233的具体实施方式，例如，可以将第一当前声音信号对应的历史能量上升区段的声音能量平均值，确定为第一当前声音信号对应的能量参考值。又如，可以将第一当前声音信号对应的历史能量上升区段中前P个声音能量的平均值，确定为第一当前声音信号对应的能量参考值。其中，P为正整数，而且P可以预先设定(如P＝2)。

步骤234：将预设能量值确定为第一当前声音信号对应的能量参考值。

其中，预设能量值可以预先设定，而且该预设能量值可以是一个较大值(例如，+∞)

本申请实施例中，在确定第一当前声音信号对应的历史能量变化趋势不满足第一条件时，可以确定第一声音采集设备在第二历史时间段内一直在采集背景噪音，从而可以预测出第一当前声音信号也是背景噪音，故为了提高语音转写效率，可以将第一当前声音信号对应的能量参考值设定为一个数值较大的预设能量值，以便后续能够基于该第一当前声音信号对应的能量参考值，确定出不对该第一当前声音信号进行语音转写。

基于上述步骤21至步骤23的相关内容可知，可以先利用第一声音采集设备在第二历史时间段内采集的至少一个第二历史声音信号的声音能量，确定第一当前声音信号对应的历史能量变化趋势，以使该历史能量变化趋势能够准确的描述出第一声音采集设备是否曾经采集到过携带有语音信息的声音信号；再根据该历史能量变化趋势确定第一当前声音信号对应的能量参考值，以使该第一当前声音信号对应的能量参考值能够准确地表示出第一声音采集设备采集到带语音信息的声音信号的声音能量与第一声音采集设备采集到只带背景噪音的声音信号的声音能量之间的分界线，如此能够提高背景噪音的识别准确性，从而能够有效地减少对背景噪音进行语音转写，从而能够提高语音转写效率。

基于上述“第一子条件”的相关内容可知，在获取到第一当前声音信号的声音能量之后，可以将该第一当前声音信号的声音能量与第一当前声音信号对应的能量参考值进行比对，得到第一比对结果，以使该第一比对结果能够表示出第一当前声音信号是否为背景噪音，以便后续能够根据该第一比对结果，确定是否对对所述第一当前声音信号进行语音转写(例如，若上文预设转写条件包括基础条件和第一子条件，则可以在确定第一当前声音信号的声音能量高于第一当前声音信号对应的转写阈值，且确定该第一当前声音信号的声音能量高于第一当前声音信号对应的能量参考值时，对第一当前声音信号进行语音转写)。

关于“第二子条件”的相关内容。

对于多人交谈场景中声音采集设备来说，若该声音采集设备采集到携带有语音信息的声音信号，则该声音信号的声音能量较大；若该声音采集设备采集到只携带有背景噪音的声音信号，则该声音信号的声音能量较小。可见，在一些情况下，可以根据各个声音采集设备采集的语音信息的声音能量相对大小，从多个声音采集设备(例如，多人交谈场景中所有声音采集设备)在当前时刻下采集的声音信号中筛选出携带有语音信息的声音信号。

可见，在对第一当前声音信号进行语音转写之前，可以先对多个声音采集设备(例如，多人交谈场景中所有声音采集设备)在当前时刻下采集的声音信号进行声音能量排序，再根据排序结果确定携带有语音信息的声音信号。基于此，本申请实施例提供了“第二子条件”的一种可能的实施方式，其具体可以为：第一当前声音信号对应的能量排序序号满足第二条件。

其中，第一当前声音信号对应的能量排序序号用于描述第一当前声音信号的声音能量在第一当前信号集对应的能量排序结果中所处的排序位置。

第一当前信号集包括第一当前声音信号和至少一个第二当前声音信号。其中，第二当前声音信号是由第二声音采集设备在所述当前时刻下采集的。

需要说明的是，本申请实施例不限定第二声音采集设备，例如，第二声音采集设备可以用于表示在多人交谈场景中装设的除了第一声音采集设备以外其他任一声音采集设备。

第一当前信号集对应的能量排序结果用于描述第一当前信号集中所有声音信号的声音能量的排列顺序(例如，从高到低的排列顺序或者从低到高的排列顺序等)。

本申请实施例不限定第一当前声音信号对应的能量排序序号的获取过程，例如，在一种可能的实施方式下，第一当前声音信号对应的能量排序序号的获取过程具体可以包括步骤31-步骤32：

步骤31：获取第二当前声音信号的声音能量。

其中，第二当前声音信号的声音能量用于表征第二当前声音信号的强弱。

需要说明的是，本申请实施例也不限定第二声音采集设备的个数，例如，当在多人交谈场景中装设有Y个声音采集设备，且该Y个声音采集设备包括第一声音采集设备时，第二声音采集设备的个数可以为Y-1，使得第二当前声音信号的个数可以为Y-1。其中，Y为正整数。

步骤32：在确定第二当前声音信号的声音能量高于第二当前声音信号对应的转写阈值时，根据第一当前声音信号的声音能量和第二当前声音信号的声音能量，确定第一当前声音信号对应的能量排序序号。

其中，第二当前声音信号对应的转写阈值是根据第二声音采集设备在第一历史时间段内采集的声音信号的声音能量确定的。

需要说明的是，“第二当前声音信号对应的转写阈值”的获取方式与上文“第一当前声音信号对应的转写阈值”的获取方式类似，故“第二当前声音信号对应的转写阈值”的获取方式可以采用上文获取第一当前声音信号对应的转写阈值的任一实施方式进行实施。

基于上述步骤31至步骤32的相关内容可知，若第二当前声音信号的个数为R，则在获取到R个第二当前声音信号的声音能量之后，可以先将该R个第二当前声音信号的声音能量与该R个第二当前声音信号对应的转写阈值进行比对，得到R个比对结果(也就是，第r个比对结果用于表示第r个第二当前声音信号的声音能量是否高于该第r个第二当前声音信号对应的转写阈值；r为正整数，r≤R)；再根据该R个比对结果和第一当前声音信号，得到第一当前信号集，以使该第一当前声音信号包括第一当前声音信号和至少一个第二当前声音信号，从而使得第一当前声音信号中各个声音信号均高于该声音信号对应的转写阈值；最后，根据第一当前信号集中的所有声音信号的声音能量，将第一当前信号集中的所有声音信号进行排序，得到该第一当前信号集对应的能量排序结果，并从该第一当前信号集对应的能量排序结果中确定出第一当前声音信号对应的能量排序序号。

第二条件可以预先设定，尤其可以根据第一当前信号集所使用的排序方式进行设定。例如，若第一当前信号集中的所有声音信号按照声音能量从高到低的排列方式进行排序时，第二条件可以设定为高于第一序号阈值；若第一当前信号集中的所有声音信号按照声音能量从低到高的排列方式进行排序时，第二条件可以设定为低于第二序号阈值。其中，第一序号阈值和第二序号阈值均是预先设定的。

基于上述“第二子条件”的相关内容可知，在获取到第一当前声音信号的声音能量之后，可以根据该第一当前声音信号的声音能量和至少一个第二当前声音信号的声音能量，将该第一当前声音信号和至少一个第二当前声音信号按照声音能量进行排序，得到该第一当前声音信号对应的能量排序序号，以使该第一当前声音信号对应的能量排序序号能够准确地表示出第一当前声音信号在多人交谈场景中的相对大小，从而使得后续能够根据该第一当前声音信号对应的能量排序序号，确定是否对所述第一当前声音信号进行语音转写(例如，若上文预设转写条件包括基础条件和第二子条件，则可以在确定第一当前声音信号的声音能量高于所述第一当前声音信号对应的转写阈值，且确定第一当前声音信号对应的能量排序序号满足第二条件时，对第一当前声音信号进行语音转写)。

关于“第三子条件”的相关内容。

对于多人交谈场景中声音采集设备来说，因某些原因(例如，装设位置较近等)导致多个声音采集设备采集的声音信号携带有相同的语音信息，故为了避免针对同一个语音信息进行重复转写，本申请实施例提供了“第三子条件”的一种可能的实施方式，其具体可以为：第一声音采集设备的装设位置与第三声音采集设备的装设位置之间的距离低于预设距离阈值，第一当前声音信号与第三当前声音信号之间的相似度达到预设相似阈值，第三当前声音信号高于第三当前声音信号对应的转写阈值，且第一当前声音信号的声音能量高于第三当前声音信号的声音能量。

其中，第一声音采集设备的装设位置用于描述第一声音采集设备在多人交谈场景中的安装位置。

第三声音采集设备是由第三声音采集设备在当前时刻下采集的。需要说明的是，本申请实施例不限定第三声音采集设备，例如，第三声音采集设备可以用于表示在多人交谈场景中装设的除了第一声音采集设备以外其他任一声音采集设备。

第三声音采集设备的装设位置用于描述第三声音采集设备在多人交谈场景中的安装位置。

预设距离阈值用于表征能够采集到相同语音信息的两个声音采集设备之间的最大距离，而且该预设距离阈值可以预先根据应用场景设定。可见，若第一声音采集设备的装设位置与第三声音采集设备的装设位置之间的距离低于预设距离阈值，则确定第一声音采集设备与第三声音采集设备有可能采集到相同语音信息；若第一声音采集设备的装设位置与第三声音采集设备的装设位置之间的距离不低于预设距离阈值，则确定第一声音采集设备与第三声音采集设备不可能采集到相同语音信息。

第一当前声音信号与第三当前声音信号之间的相似度用于表征第一当前声音信号携带的语音信息与第三当前声音信号携带的语音信息之间的相似程度。另外，本申请实施例不限定第一当前声音信号与第三当前声音信号之间的相似度的计算方式，例如，可以利用任一种基于频域的相似度计算方法进行实施，也可以采用任一种基于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)的相似度计算方法进行实施。

预设相似阈值用于表征携带有相同语音信息的两个声音信号之间的相似程度的最小值，而且该预设相似阈值可以预先设定。可见，若第一当前声音信号与第三当前声音信号之间的相似度达到预设相似阈值，则表示该第一当前声音信号与第三当前声音信号携带有相同的语音信息；若第一当前声音信号与第三当前声音信号之间的相似度未达到预设相似阈值，则表示该第一当前声音信号与第三当前声音信号携带有不同的语音信息。

第三当前声音信号的声音能量用于表征第三当前声音信号的强弱。可见，若第一当前声音信号的声音能量高于第三当前声音信号的声音能量，则可以确定第一当前声音信号与声源之间的距离小于第三当前声音信号与声源之间的距离，故可以确定第一当前声音信号的质量比第三当前声音信号的质量好。

第三当前声音信号对应的转写阈值是根据第三声音采集设备在第一历史时间段内采集的声音信号的声音能量确定的。需要说明的是，“第三当前声音信号对应的转写阈值”的获取方式与上文“第一当前声音信号对应的转写阈值”的获取方式类似，故“第三当前声音信号对应的转写阈值”的获取方式可以采用上文获取第一当前声音信号对应的转写阈值的任一实施方式进行实施。

基于上述“第三子条件”的相关内容可知，对于多人交谈场景来说，可以先针对多个声音采集设备在当前时刻下采集的多个声音信号进行相似度计算，得到携带有相同语音信息的至少两个声音信号；再对该携带有相同语音信息的至少两个声音信号中具有最大声音能量的声音信号进行语音转写，如此能够有效地避免针对携带有同一个语音信息的多个声音信号进行重复转写的发生。

可见，在获取到第一当前声音信号的声音能量之后，可以先将多人交谈场景中除了第一声音采集设备以外的各个声音采集设备，均确定为第三声音采集设备；再将各个第三声音采集设备在当前时刻下采集的声音信号，确定为各个第三当前声音信号；然后，根据各个第三当前声音信号的声音能量、各个第三当前声音信号对应的转写阈值、各个第三当前声音信号的装设位置、各个第三当前声音信号、第一当前声音信号、第一当前声音信号的声音能量、第一当前声音信号的装设位置、以及第三子条件，确定是否对第一当前声音信号进行语音转写(例如，若上文预设转写条件包括基础条件和第三子条件，则可以在确定第一当前声音信号的声音能量高于第一当前声音信号对应的转写阈值，第一声音采集设备的装设位置与第三声音采集设备的装设位置之间的距离低于预设距离阈值，第一当前声音信号与第三当前声音信号之间的相似度达到预设相似阈值，第三当前声音信号高于第三当前声音信号对应的转写阈值，且第一当前声音信号的声音能量高于第三当前声音信号的声音能量时，对第一当前声音信号进行语音转写时，对第一当前声音信号进行语音转写)。

关于“第四子条件”的相关内容。

实际上，对于一帧声音信号来说，若距离该声音信号较近的历史声音信号携带有语音信息，则该声音信号携带有语音信息的可能性较大；若距离该声音信号较近的历史声音信号只携带有背景噪音，则该声音信号携带有语音信息的可能性较小。基于此，本申请实施例提供了一种“第四子条件”的实施方式，其具体可以为：各个第三历史声音信号的转写标识均为第一标识值。

其中，第三历史声音信号由第一声音采集设备在第三历史时间段内采集的，而且该第三历史时间段可以包括距离当前时刻较近的至少一个历史声音信号采集时刻。另外，第三历史声音信号的个数就是指第一声音采集设备在第三历史时间段内采集的声音信号的个数，而且本申请实施例不限定第三历史声音信号的个数(如，5个)。

转写标识用于唯一标识是否需要进行语音转写。另外，若转写标识为第一标识值，则表示需要进行语音转写；若转写标识不是第一标识值(例如，转写标识为第二标识值)，则表示不需要进行语音转写。可见，在确定一个声音信号需要进行语音转写时，可以将该声音信号的转写标识设定为第一标识值(例如，1)；而且在确定一个声音信号不需要进行语音转写时，可以将该声音信号的转写标识设定为第二标识值(例如，0)。例如，在确定第一当前声音信号满足预设转写条件时，可以将第一标识值确定为第一当前声音信号的转写标识；而且在确定第一当前声音信号不满足预设转写条件时，可以将第二标识值确定为第一当前声音信号的转写标识。其中，第二标识值完全不同于第一标识值。

基于上述“第四子条件”的相关内容可知，在获取到第一当前声音信号之后，可以先将第一声音采集设备在第三历史时间段内采集的各个声音信号，确定为各个第三历史声音信号；再分别判断各个第三历史声音信号的转写标识是否为第一标识值，得到各个第三历史声音信号对应的判断结果；最后，可以根据各个第三历史声音信号对应的判断结果，确定是否对所述第一当前声音信号进行语音转写(例如，若上文预设转写条件包括基础条件和第四子条件，则可以在确定第一当前声音信号的声音能量高于第一当前声音信号对应的转写阈值，且确定各个第三历史声音信号的转写标识均为第一标识值时，对第一当前声音信号进行语音转写)。

基于上述S4的相关内容可知，在获取到第一当前声音信号及其声音能量之后，可以根据该第一当前声音信号及其声音能量，确定第一当前声音信号是否满足预设转写条件，以便在确定该第一当前声音信号满足预设转写条件时，对第一当前声音信号进行语音转写。

另外，为了避免丢失语音开始位置携带的语音信息，若确定第一当前声音信号为语音开始位置，则可以同时对该第一当前声音信号以及采集时刻距离当前时刻比较近的历史声音信号进行语音转写。基于此，本申请实施例提供了语音转写方法的一种可能的实施方式，在该实施方式中，该语音转写方法除了包括上述部分或者全部步骤以外，还包括S5：

S5：在确定第一当前声音信号满足预设转写条件，且确定无需对第四历史声音信号进行语音转写时，对第一当前声音信号和第五历史声音信号进行语音转写。

其中，第四历史声音信号是由第一声音采集设备在距离当前时刻最近的历史时刻下采集的。也就是，第四历史声音信号是由第一声音采集设备采集的距离第一当前声音信号最近的历史声音信号。

“无需对第四历史声音信号进行语音转写”表示第四历史声音信号不满足预设转写条件。

第五历史声音信号是由第一声音采集设备在第四历史时间段内采集的。需要说明的是，本申请实施例不限定第四历史时间段，例如，第四历史时间段可以是距离当前时刻最近的历史时间段。另外，本申请实施例不限定第四历史声音信号的个数，而且第四历史声音信号的个数就是第四声音采集设备在第四历史时间段内采集到的声音信号的个数。例如，若第四声音采集设备在第四历史时间段内采集到Q个声音信号，则可以将该Q个声音信号均确定为第四历史声音信号，以使该第四历史声音信号的个数为Q。其中，Q为正整数(如，Q＝3)。

基于上述S5的相关内容可知，在确定第一当前声音信号满足预设转写条件，且确定无需对第四历史声音信号进行语音转写时，可以确定第一当前声音信号处于语音开始位置，故可以将该第一当前声音信号及其距离其较近的Q个第五历史声音信号进行语音转写，如此能够有效地避免丢失语音开始位置携带的语音信息，如此有利于提高语音转写的准确性。

此外，为了避免丢失语音结束位置携带的语音信息，可以延迟结束语音转写过程。基于此，本申请实施例提供了语音转写方法的一种可能的实施方式，在该实施方式中，该语音转写方法除了包括上述部分或者全部步骤以外，还包括S6和S7：

S6：在确定第一当前声音信号不满足预设转写条件，且确定第六历史声音信号属于已转写信号时，对第一当前声音信号进行语音转写。

第六历史声音信号是由第一声音采集设备在参考历史时刻下采集的，而且当前时刻与该参考历史时刻之间的差值为预设延迟值(也就是，当前时刻-参考历史时刻＝预设延迟值)。其中，预设延迟值可以预先设定。

已转写信号是指已经进行过语音转写的声音信号。可见，若第六历史声音信号属于已转写信号，则表示该第六历史声音信号已经进行过语音转写，从而可以表示该第六历史声音信号满足预设转写条件。

S7：在确定第一当前声音信号不满足预设转写条件，且确定第六历史声音信号不属于已转写信号时，不对第一当前声音信号进行语音转写。

基于上述S6至S7的相关内容可知，为了避免丢失语音结束位置携带的语音信息，可以按照预设延迟值，确定语音结束位置之后的多帧声音信号，并对该语音结束位置之后的多帧声音信号也进行语音转写。

另外，本申请实施例不限定语音转写方法的执行主体，例如，本申请实施例提供的语音转写方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

基于上述方法实施例提供的语音转写方法，本申请实施例还提供了一种语音转写装置，下面结合附图进行解释和说明。

装置实施例

装置实施例对语音转写装置进行介绍，相关内容请参见上述方法实施例。

参见图3，该图为本申请实施例提供的一种语音转写装置的结构示意图。

本申请实施例提供的语音转写装置300，包括：

第一获取单元301，用于获取第一当前声音信号；其中，所述第一当前声音信号是由第一声音采集设备在当前时刻下采集的；

第一确定单元302，用于根据所述第一当前声音信号，确定所述第一当前声音信号的声音能量；

语音转写单元303，用于在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的转写阈值时，对所述第一当前声音信号进行语音转写；其中，所述第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的；所述第一历史声音信号是由所述第一声音采集设备在第一历史时间段内采集的。

在一种可能的实施方式中，所述第一确定单元302，具体用于：在确定所述第一当前声音信号携带有语音信息时，根据所述第一当前声音信号，确定所述第一当前声音信号的声音能量。

在一种可能的实施方式中，当所述第一历史声音信号的个数为N时，所述第一当前声音信号对应的转写阈值的确定过程包括：

在一种可能的实施方式中，当i为正整数，且i≤N时，第i个历史能量均值的确定过程包括：

在一种可能的实施方式中，所述语音转写装置300还包括：

第二获取单元，用于获取第二历史声音信号的声音能量；其中，所述第二历史声音信号是由所述第一声音采集设备在第二历史时间段内采集的；

第二确定单元，用于根据所述第二历史声音信号的声音能量，确定所述第一当前声音信号对应的历史能量变化趋势；

第三确定单元，用于根据所述第一当前声音信号对应的历史能量变化趋势，确定所述第一当前声音信号对应的能量参考值；

所述语音转写单元303，包括：

第一转写子单元，用于在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的能量参考值时，对所述第一当前声音信号进行语音转写。

在一种可能的实施方式中，所述第三确定单元，具体用于：

在一种可能的实施方式中，所述语音转写装置300还包括：

第三获取单元，用于获取第二当前声音信号的声音能量；其中，所述第二当前声音信号是由所述第二声音采集设备在所述当前时刻下采集的；

第四确定单元，用于在确定所述第二当前声音信号的声音能量高于所述第二当前声音信号对应的转写阈值时，根据所述第一当前声音信号的声音能量和所述第二当前声音信号的声音能量，确定所述第一当前声音信号对应的能量排序序号；其中，所述第二当前声音信号对应的转写阈值是根据所述第二声音采集设备在第一历史时间段内采集的声音信号的声音能量确定的；

所述语音转写单元303，包括：

第二转写子单元，用于在确定所述第一当前声音信号对应的能量排序序号满足第二条件时，对所述第一当前声音信号进行语音转写。

在一种可能的实施方式中，所述语音转写装置300还包括：

第四获取单元，用于获取第三当前声音信号和所述第三当前声音信号的声音能量；其中，所述第三当前声音信号是由所述第三声音采集设备在所述当前时刻下采集的；

所述语音转写单元303，包括：

第三转写子单元，用于在确定所述第一声音采集设备的装设位置与所述第三声音采集设备的装设位置之间的距离低于预设距离阈值，所述第一当前声音信号与所述第三当前声音信号之间的相似度达到预设相似阈值，所述第三当前声音信号高于所述第三当前声音信号对应的转写阈值，且所述第一当前声音信号的声音能量高于所述第三当前声音信号的声音能量时，对所述第一当前声音信号进行语音转写；其中，所述第三当前声音信号对应的转写阈值是根据所述第三声音采集设备在第一历史时间段内采集的声音信号的声音能量确定的。

在一种可能的实施方式中，所述语音转写装置300还包括：

第五确定单元，用于在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的转写阈值时，将预设的第一标识值确定为所述第一当前声音信号的转写标识；

所述语音转写单元303，包括：

第四转写子单元，用于在确定各个第三历史声音信号的转写标识均为所述第一标识值时，对所述第一当前声音信号进行语音转写；其中，所述第三历史声音信号是由所述第一声音采集设备在第三历史时间段内采集的。

在一种可能的实施方式中，所述语音转写单元303，包括：

第五转写子单元，用于在确定无需对第四历史声音信号进行语音转写时，对所述第一当前声音信号和所述第五历史声音信号进行语音转写；其中，所述第四历史声音信号是由所述第一声音采集设备在距离所述当前时刻最近的历史时刻下采集的；所述第五历史声音信号是由所述第一声音采集设备在第四历史时间段内采集的。

在一种可能的实施方式中，所述语音转写装置300还包括：

第一处理单元，用于在确定所述第一当前声音信号的声音能量不高于所述第一当前声音信号对应的转写阈值，且确定第六历史声音信号属于已转写信号时，对所述第一当前声音信号进行语音转写；其中，所述第六历史声音信号是由所述第一声音采集设备在参考历史时刻下采集的，所述当前时刻与所述参考历史时刻之间的差值为预设延迟值；

第二处理单元，用于在确定所述第一当前声音信号的声音能量不高于所述第一当前声音信号对应的转写阈值，且确定第六历史声音信号不属于已转写信号时，不对所述第一当前声音信号进行语音转写。

进一步地，本申请实施例还提供了一种语音转写设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音转写方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音转写方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音转写方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音转写方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，当所述第一历史声音信号的个数为N时，所述第一当前声音信号对应的转写阈值的确定过程包括：

3.根据权利要求2所述的方法，其特征在于，当i为正整数，且i≤N时，第i个历史能量均值的确定过程包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述对所述第一当前声音信号进行语音转写，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一当前声音信号对应的历史能量变化趋势，确定所述第一当前声音信号对应的能量参考值，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述对所述第一当前声音信号进行语音转写，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述对所述第一当前声音信号进行语音转写，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述对所述第一当前声音信号进行语音转写，包括：

9.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

10.一种语音转写装置，其特征在于，所述装置包括：