CN106528715A

CN106528715A - 一种音频内容校核方法及装置

Info

Publication number: CN106528715A
Application number: CN201610951950.1A
Authority: CN
Inventors: 王金龙
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-03-22
Anticipated expiration: 2036-10-27
Also published as: CN106528715B

Abstract

本发明适用计算机技术领域，提供了一种音频内容校核方法及装置，该方法包括：接收待校核的音频文件，对音频文件进行语音识别，得到识别后的文本文件；将识别后的文本文件与音频文件关联的原始文本文件进行匹配，获取不匹配文字部分所在的文本位置；在音频文件中标记出文本位置对应的音频位置，输出标记后的音频文件，从而实现对音频文件全自动校核并标记，提高了音频文件的校核效率。

Description

一种音频内容校核方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种音频内容校核方法及装置。

背景技术

随着互联网技术的发展和移动终端(例如，MP3、MP4、智能手机等)的普及，音频小说、音频课件等音频文件被各行各业广泛采用，以方便用户使用可随身携带的这些移动终端或便携式设备播放音频文件，以收听小说或课件等，从而进一步解放用户的眼睛，成为用户日常生活中阅读小说或学习的方式之一。

目前，在制作音频小说、音频课件时，主要通过计算机或人工录制，从而实现从文字到音频的转化，然而，由于受到时间和成本控制，音频内容的校核大多采用人工方式，准确率不高，需要耗费较多的时间，因此，音频制作者很少对制作的音频内容进行后期校核，降低了音频小说或音频课件的质量，进而降低了用户体验。

发明内容

本发明的目的在于提供一种音频内容校核方法及装置，旨在解决由于现有技术无法提供一种有效的音频内容校核方法，导致音频校核效率低下的问题。

一方面，本发明提供了一种音频内容校核方法，所述方法包括下述步骤：

接收待校核的音频文件，对所述音频文件进行语音识别，得到识别后的文本文件；

将所述识别后的文本文件与所述音频文件关联的原始文本文件进行匹配，获取不匹配文字部分所在的文本位置；

在所述音频文件中标记出所述文本位置对应的音频位置，输出所述标记后的所述音频文件。

另一方面，本发明提供了一种音频内容校核装置，所述装置包括：

语音识别单元，用于接收待校核的音频文件，对所述音频文件进行语音识别，得到识别后的文本文件；

文本匹配单元，用于将所述识别后的文本文件与所述音频文件关联的原始文本文件进行匹配，获取不匹配文字部分所在的文本位置；以及

错误标记单元，用于在所述音频文件中标记出所述文本位置对应的音频位置，输出所述标记后的所述音频文件。

本发明在接收待校核的音频文件后，对音频文件进行语音识别，得到识别后的文本文件，将识别后的文本文件与音频文件关联的原始文本文件进行匹配，获取不匹配文字部分所在的文本位置，在音频文件中标记出文本位置对应的音频位置，输出标记后的音频文件，从而实现对音频文件全自动校核并标记，提高了音频文件的校核效率。

附图说明

图1是本发明实施例一提供的音频内容校核方法的实现流程图；

图2是本发明实施例二提供的音频内容校核装置的结构示意图；以及

图3是本发明实施例三提供的音频内容校核装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的音频内容校核方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收待校核的音频文件，对音频文件进行语音识别，得到识别后的文本文件。

本发明实施例适用于处理音视频文件的计算机设备或系统，以对音频文件内容进行校核。当计算机设备或系统接收到的是视频文件时，首先对视频文件进行预处理，提取其中的音频，并对音频进行降噪等处理，以得到较为干净的音频文件。

优选地，在对音频文件进行语音识别时，根据音频文件中的停顿标志将音频文件划分为多个音频段，记录每个音频段对应开始时间和停止时间，进而对多个音频段进行语音识别，得到多个音频段对应的文本文字，从而将音频段和文本文字对应起来。

在本发明实施例中，音频文件中的词语停顿标志是指单个词语对应的语音之间的分隔标志，音频文件中的语句停顿标志是指语句对应语音之间的分隔标志，这样音频文件可被划分或分割为单个词语语音段或语句语音段。具体地，词语停顿标志和语句停顿标志可以为静音音频段，进一步可根据静音音频段的时间长度来定义是词语停顿标志还是语句停顿标志，若时间较短，则为词语停顿标志，若时间较长则为语句停顿标志。当然，也可以采用其他标志进行标记。

因此，在将音频划分或分割为多个音频段时，优选地，可根据用户设置的校核精确度设置识别时检测的停顿标志，根据设置的停顿标志将音频文件划分为多个音频段。作为示例地，若用户需要得到较高精确度的校核结果时，则根据音频文件中的词语停顿标志将音频文件划分为多个音频段，该多个音频段与对应的词语对应。若用户只需得到语句粒度的精确度的校核结果时，则根据音频文件中的语句停顿标志将音频文件划分为多个音频段，该多个音频段与对应的语句对应。之后对对得到的多个音频段进行语音识别，得到多个音频段对应的文本文字。

进一步优选地，在将音频划分或分割为多个音频段时通过记录的每个音频段对应开始时间和停止时间，为对应的文本文字构建时间轴，以与音频文件进行关联，从而与音频文件的时间轴建立一一对应关系。

在步骤S102中，将识别后的文本文件与音频文件关联的原始文本文件进行匹配，获取不匹配文字部分所在的文本位置。

在本发明实施例中，待校核的音频文件是根据原始文本文件制作得到，因此，为了对制作的音频文件进行校核，将识别后的文本文件与音频文件的原始文本文件进行匹配，以获取不匹配文字部分所在的文本位置。

在步骤S103中，在音频文件中标记出文本位置对应的音频位置，输出标记后的音频文件。

在本发明实施例中，根据文本文字与音频段的对应关系，在音频文件中标记出文本位置对应的音频位置，从而实现对音频文件的自动校核，提高了校核效率。另外，可根据校核的精确度要求，通过在语音识别时设置检测的停顿标志将音频划分或分割为多个音频段，从而提高校核的灵活度和智能化程度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图2示出了本发明实施例二提供的音频内容校核装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

语音识别单元21，用于接收待校核的音频文件，对音频文件进行语音识别，得到识别后的文本文件；

文本匹配单元22，用于将识别后的文本文件与音频文件关联的原始文本文件进行匹配，获取不匹配文字部分所在的文本位置；以及

错误标记单元23，用于在音频文件中标记出文本位置对应的音频位置，输出所述标记后的所述音频文件。

优选地，如图3所示，语音识别单元21可包括：

音频划分单元211，用于根据音频文件中的停顿标志将音频文件划分为多个音频段，记录每个音频段对应的开始时间和停止时间；以及

语音识别子单元212，用于对多个音频段进行语音识别，得到多个音频段对应的文本文字。

进一步地，音频内容校核装置还可以包括：

文件关联单元30，用于通过记录的每个音频段对应的开始时间和停止时间，为对应的文本文字构建时间轴，以与音频文件进行关联。

在本发明实施例中，音频内容校核装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为计算机设备或系统的一个软、硬件单元，在此不用以限制本发明。音频内容校核装置的各单元的具体实施方式可参考实施例一对应步骤的描述，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频内容校核方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，对所述音频文件进行语音识别，得到识别后的文本文件的步骤，包括：

根据音频文件中的停顿标志将所述音频文件划分为多个音频段，记录每个音频段对应的开始时间和停止时间；

对所述多个音频段进行语音识别，得到所述多个音频段对应的文本文字。

3.如权利要求2所述的方法，其特征在于，在所述音频文件中标记出所述文本位置对应的音频位置的步骤之前，所述方法还包括：

通过所述记录的每个音频段对应的开始时间和停止时间，为所述对应的文本文字构建时间轴，以与所述音频文件进行关联。

4.如权利要求2所述的方法，其特征在于，所述停顿标志为词语停顿标志或语句停顿标志。

5.一种音频内容校核装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述语音识别单元包括：

音频划分单元，用于根据音频文件中的停顿标志将所述音频文件划分为多个音频段，记录每个音频段对应的开始时间和停止时间；以及

语音识别子单元，用于对所述多个音频段进行语音识别，得到所述多个音频段对应的文本文字。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

文件关联单元，用于通过所述记录的每个音频段对应的开始时间和停止时间，为所述对应的文本文字构建时间轴，以与所述音频文件进行关联。

8.如权利要求6所述的装置，其特征在于，所述停顿标志为词语停顿标志或语句停顿标志。