CN110246500A

CN110246500A - 基于录音文件的语音识别方法及系统

Info

Publication number: CN110246500A
Application number: CN201910630473.2A
Authority: CN
Inventors: 王黎黎; 赵桦
Original assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-09-17

Abstract

本发明公开了一种基于录音文件的语音识别方法及系统，其中录音文件包括至少一静默段，静默段为录音文件中音频信号的强度低于预设阈值的数据，基于录音文件的语音识别方法包括：以静默段为切分点将录音文件切分成至少一语音切片数据；利用语音识别算法分别识别语音切片数据，并得到语音切片数据对应的识别结果；将识别结果进行拼接，得到录音文件的语音识别结果。本发明通过以静默段为切分点将录音文件切分成至少一语音切片数据；并利用语音识别算法分别识别语音切片数据，以得到语音切片数据对应的识别结果；将识别结果进行拼接，得到录音文件的语音识别结果，可使得语音识别不再受录音文件的时长限制，大大提高了识别的效率。

Description

基于录音文件的语音识别方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种基于录音文件的语音识别方法及系统。

背景技术

近年来，语音识别技术取得了显著进步，开始从实验室走向市场，而且在越来越多的领域得到广泛的应用。

语音识别的目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

但现在市面上的语音识别技术对识别的录音的时长都有限制，当录音的时长超过了识别的要求时，可能会识别失败甚至直接报错，给用户带来很不好的使用感受。

发明内容

本发明要解决的技术问题是为了克服现有技术中语音识别受限于录音时长的缺陷，提供一种基于录音文件的语音识别方法及系统。

本发明是通过下述技术方案来解决上述技术问题：

一种基于录音文件的语音识别方法，所述录音文件包括至少一静默段，所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据，所述基于录音文件的语音识别方法包括：

以所述静默段为切分点将所述录音文件切分成至少一语音切片数据；

利用语音识别算法分别识别所述语音切片数据，并得到所述语音切片数据对应的识别结果；

将所述识别结果进行拼接，得到所述录音文件的语音识别结果。

优选地，所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤之前还包括：

判断所述录音文件的总时长是否超过预设时长，若是，则执行所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤。

优选地，所述将所述识别结果进行拼接的步骤包括：

将所述识别结果按照所述语音切片数据在所述录音文件中的时间顺序进行拼接。

优选地，所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤包括：

依次获取所述录音文件中所述静默段的开始时间和结束时间；

根据所述静默段的开始时间和结束时间得到非静默段的开始时间和结束时间；

根据所述非静默段的开始时间和结束时间得到所述语音切片数据。

优选地，所述将所述录音文件进行切分的步骤包括：

利用多媒体视频处理工具获取所述录音文件中所述静默段的开始时间和结束时间，所述多媒体视频处理工具为FFmpeg。

一种基于录音文件的语音识别系统，所述录音文件包括至少一静默段，所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据，所述基于录音文件的语音识别系统包括切分模块、识别模块和拼接模块；

所述切分模块用于以所述静默段为切分点将所述录音文件切分成至少一语音切片数据；

所述识别模块用于利用语音识别算法分别识别所述语音切片数据，并得到所述语音切片数据对应的识别结果；

所述拼接模块用于将所述识别结果进行拼接，得到所述录音文件的语音识别结果。

优选地，所述基于录音文件的语音识别系统还包括判断模块，所述判断模块用于判断所述录音文件的总时长是否超过预设时长，若是，则调用切分模块。

优选地，所述拼接模块还用于将所述识别结果按照所述语音切片数据在所述录音文件中的时间顺序进行拼接。

优选地，所述切分模块还用于依次获取所述录音文件中所述静默段的开始时间和结束时间；

所述切分模块还用于根据所述静默段的开始时间和结束时间得到非静默段的开始时间和结束时间；

所述切分模块还用于根据所述非静默段的开始时间和结束时间得到所述语音切片数据。

优选地，所述切分模块还用于利用多媒体视频处理工具获取所述录音文件中所述静默段的开始时间和结束时间，所述多媒体视频处理工具为FFmpeg。

本发明的积极进步效果在于：

本发明通过以静默段为切分点将录音文件切分成至少一语音切片数据；并利用语音识别算法分别识别语音切片数据，以得到语音切片数据对应的识别结果；将识别结果进行拼接，得到录音文件的语音识别结果，可使得语音识别不再受录音文件的时长限制，大大提高了识别的效率。

附图说明

图1为本发明的实施例1的基于录音文件的语音识别方法的流程图。

图2为本发明的实施例1的基于录音文件的语音识别方法中步骤11的流程图。

图3为本发明的实施例1的基于录音文件的语音识别方法中语音切片数据的示意图。

图4为本发明的实施例2的基于录音文件的语音识别系统的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种基于录音文件的语音识别方法，录音文件包括至少一静默段，静默段为录音文件中音频信号的强度低于预设阈值的数据，如图1所示，基于录音文件的语音识别方法包括：

步骤10、判断录音文件的总时长是否超过预设时长，若是，则执行步骤11。

步骤11、以静默段为切分点将录音文件切分成至少一语音切片数据。

利用多媒体视频处理工具获取录音文件中静默段的静默音的开始时间和结束时间，多媒体视频处理工具为FFmpeg。

更具体地，如图2所示，步骤11包括：

步骤111、依次获取录音文件中静默段的开始时间和结束时间；

步骤112、根据静默段的开始时间和结束时间得到非静默段的开始时间和结束时间；

步骤113、根据非静默段的开始时间和结束时间得到语音切片数据。

具体地，以静默段为切分点将录音文件切分成至少一语音切片数据的基本流程，按照静默段的开始时间及结束时间来处理，从起始时间0到第一个静默段的开始时间作为第一片语音切片数据，从第一个静默段的结束时间开始到下一个静默段开始时间作为第二片语音切片数据，依次类推得到所有语音切片数据。

应用场景：

假设录音文件A，通过多媒体视频处理工具FFmpeg的静默音的检测后输出文件如下所示(数字部分为时间单位，单位为秒)：

silence_start:22.70

silence_end:25.71|silence_duration:3.01313

silence_start:28.84

silence_end:36.88|silence_duration:8.03613

silence_start:45.47

silence_end:49.33|silence_duration:3.8545

time＝00:00:56.80

如图3中椭圆部分为非静默段即有声音的语音切片数据。

其中，silence_start:22.70代表第一段静默音开始的时间点是22.70秒，silence_end:25.71代表第一段静默音结束的时间点是22.7045.47秒，silence_duration:3.01313代表第一段静默音持续的时长为3.01313秒。

具体分析流程如下：

(1)通过多媒体视频处理工具检测录音文件的静默音，并将检测结果以文件流的方式输出到控制台，以行读取的方式读取文件流得到每行文本并加以分析。

(2)设置语音切片数据的开始时间splitStartTime＝0，结束时间splitEndTime＝0，及包含“silence”关键字的文本outputData，设置默认值为空。

(3)检查文本中是否含有关键字“silence_start”，如果包含则得到静默音的开始时间并记作silenceStartTime，获取相应的文本内容并赋值给outputData。以splitStartTime为起始时间，持续silenceStartTime–splitStartTime时长，从而得到第一片语音切片数据，并将silenceStartTime赋给splitEndTime，记录入数据库。

(4)检查文本中是否含有关键字“silence_end”，如果包含，则得到静默结束时间并记作silenceEndTime，并将相应的文本内容赋值outputData。以silenceEndTime作为第二片语音切片数据的开始时间，即将silenceEndTime赋给splitStartTime。

(5)检查文本中是否含有录音总时长关键字“time＝”，如果包含，则得到录音总时长，记作totalTime，此时判断outputData是否含有关键字“silence_end”，如果包含则认为这是最后一片语音切片数据，从起始时间splitStartTime开始直到录音结束，从而得到最后一片语音切片数据，并将totalTime赋值给splitEndTime，记录入数据库；

(6)循环第(3)-(5)步，直到读到文本末尾，得到所有的有声音的语音切片数据。

本实施例通过工具检测出录音文件中静默音的开始及结束时间，根据这两个时间反向推导出每片有声音的语音切片数据的活动(有声音)的开始时间和结束时间，再使用工具按照录语音切片数据的开始时间和结束时间切分，从而得到每一片有声音的语音切片数据。

步骤12、利用语音识别算法分别识别语音切片数据，并得到语音切片数据对应的识别结果。

步骤13、将识别结果进行拼接，得到录音文件的语音识别结果。

将识别结果按照语音切片数据在录音文件中的时间顺序进行拼接。

本实施例通过以静默段为切分点将录音文件切分成至少一语音切片数据；并利用语音识别算法分别识别语音切片数据，以得到语音切片数据对应的识别结果；将识别结果进行拼接，得到录音文件的语音识别结果，可使得语音识别不再受录音文件的时长限制，大大提高了识别的效率。

实施例2

本实施例提供一种基于录音文件的语音识别系统，录音文件包括至少一静默段，静默段为录音文件中音频信号的强度低于预设阈值的数据，如图3所示，基于录音文件的语音识别系统包括判断模块21、切分模块22、识别模块23和拼接模块24。

判断模块21用于判断录音文件的总时长是否超过预设时长，若是，则调用切分模块22。

切分模块22用于以静默段为切分点将录音文件切分成至少一语音切片数据。

切分模块22还用于利用多媒体视频处理工具获取录音文件中静默段的开始时间和结束时间，多媒体视频处理工具为FFmpeg。

更具体地，切分模块22还用于依次获取录音文件中静默段的开始时间和结束时间；

切分模块22还用于根据静默段的开始时间和结束时间得到非静默段的开始时间和结束时间；

切分模块22还用于根据非静默段的开始时间和结束时间得到语音切片数据。

具体地，以静默段为切分点将录音文件切分成至少一语音切片数据的基本流程，按照静默段的开始时间及结束时间来处理，从0到第一个静默段的开始时间作为第一片语音切片数据，从第一个静默段的结束时间开始到下一个静默段开始时间作为第二片语音切片数据，依次类推得到所有语音切片数据。

应用场景：

silence_start:22.70

silence_end:25.71|silence_duration:3.01313

silence_start:28.84

silence_end:36.88|silence_duration:8.03613

silence_start:45.47

silence_end:49.33|silence_duration:3.8545

time＝00:00:56.80

如图3中椭圆部分为非静默段即有声音的语音切片数据。

具体分析流程如下：

识别模块23用于利用语音识别算法分别识别语音切片数据，并得到语音切片数据对应的识别结果；

拼接模块24用于将识别结果进行拼接，得到录音文件的语音识别结果。

更具体地，拼接模块24还用于将识别结果按照语音切片数据在录音文件中的时间顺序进行拼接。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于录音文件的语音识别方法，所述录音文件包括至少一静默段，所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据，其特征在于，所述基于录音文件的语音识别方法包括：

2.如权利要求1所述的基于录音文件的语音识别方法，其特征在于，所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤之前还包括：

3.如权利要求1所述的基于录音文件的语音识别方法，其特征在于，所述将所述识别结果进行拼接的步骤包括：

4.如权利要求1所述的基于录音文件的语音识别方法，其特征在于，所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤包括：

5.如权利要求4所述的基于录音文件的语音识别方法，其特征在于，所述将所述录音文件进行切分的步骤包括：

6.一种基于录音文件的语音识别系统，所述录音文件包括至少一静默段，所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据，其特征在于，所述基于录音文件的语音识别系统包括切分模块、识别模块和拼接模块；

7.如权利要求6所述的基于录音文件的语音识别系统，其特征在于，所述基于录音文件的语音识别系统还包括判断模块，所述判断模块用于判断所述录音文件的总时长是否超过预设时长，若是，则调用切分模块。

8.如权利要求6所述的基于录音文件的语音识别系统，其特征在于，所述拼接模块还用于将所述识别结果按照所述语音切片数据在所述录音文件中的时间顺序进行拼接。

9.如权利要求6所述的基于录音文件的语音识别系统，其特征在于，所述切分模块还用于依次获取所述录音文件中所述静默段的开始时间和结束时间；

10.如权利要求9所述的基于录音文件的语音识别系统，其特征在于，所述切分模块还用于利用多媒体视频处理工具获取所述录音文件中所述静默段的开始时间和结束时间，所述多媒体视频处理工具为FFmpeg。