CN106528715A - 一种音频内容校核方法及装置 - Google Patents
一种音频内容校核方法及装置 Download PDFInfo
- Publication number
- CN106528715A CN106528715A CN201610951950.1A CN201610951950A CN106528715A CN 106528715 A CN106528715 A CN 106528715A CN 201610951950 A CN201610951950 A CN 201610951950A CN 106528715 A CN106528715 A CN 106528715A
- Authority
- CN
- China
- Prior art keywords
- audio
- text
- file
- audio file
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
本发明适用计算机技术领域,提供了一种音频内容校核方法及装置,该方法包括:接收待校核的音频文件,对音频文件进行语音识别,得到识别后的文本文件;将识别后的文本文件与音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置;在音频文件中标记出文本位置对应的音频位置,输出标记后的音频文件,从而实现对音频文件全自动校核并标记,提高了音频文件的校核效率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种音频内容校核方法及装置。
背景技术
随着互联网技术的发展和移动终端(例如,MP3、MP4、智能手机等)的普及,音频小说、音频课件等音频文件被各行各业广泛采用,以方便用户使用可随身携带的这些移动终端或便携式设备播放音频文件,以收听小说或课件等,从而进一步解放用户的眼睛,成为用户日常生活中阅读小说或学习的方式之一。
目前,在制作音频小说、音频课件时,主要通过计算机或人工录制,从而实现从文字到音频的转化,然而,由于受到时间和成本控制,音频内容的校核大多采用人工方式,准确率不高,需要耗费较多的时间,因此,音频制作者很少对制作的音频内容进行后期校核,降低了音频小说或音频课件的质量,进而降低了用户体验。
发明内容
本发明的目的在于提供一种音频内容校核方法及装置,旨在解决由于现有技术无法提供一种有效的音频内容校核方法,导致音频校核效率低下的问题。
一方面,本发明提供了一种音频内容校核方法,所述方法包括下述步骤:
接收待校核的音频文件,对所述音频文件进行语音识别,得到识别后的文本文件;
将所述识别后的文本文件与所述音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置;
在所述音频文件中标记出所述文本位置对应的音频位置,输出所述标记后的所述音频文件。
另一方面,本发明提供了一种音频内容校核装置,所述装置包括:
语音识别单元,用于接收待校核的音频文件,对所述音频文件进行语音识别,得到识别后的文本文件;
文本匹配单元,用于将所述识别后的文本文件与所述音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置;以及
错误标记单元,用于在所述音频文件中标记出所述文本位置对应的音频位置,输出所述标记后的所述音频文件。
本发明在接收待校核的音频文件后,对音频文件进行语音识别,得到识别后的文本文件,将识别后的文本文件与音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置,在音频文件中标记出文本位置对应的音频位置,输出标记后的音频文件,从而实现对音频文件全自动校核并标记,提高了音频文件的校核效率。
附图说明
图1是本发明实施例一提供的音频内容校核方法的实现流程图;
图2是本发明实施例二提供的音频内容校核装置的结构示意图;以及
图3是本发明实施例三提供的音频内容校核装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的音频内容校核方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收待校核的音频文件,对音频文件进行语音识别,得到识别后的文本文件。
本发明实施例适用于处理音视频文件的计算机设备或系统,以对音频文件内容进行校核。当计算机设备或系统接收到的是视频文件时,首先对视频文件进行预处理,提取其中的音频,并对音频进行降噪等处理,以得到较为干净的音频文件。
优选地,在对音频文件进行语音识别时,根据音频文件中的停顿标志将音频文件划分为多个音频段,记录每个音频段对应开始时间和停止时间,进而对多个音频段进行语音识别,得到多个音频段对应的文本文字,从而将音频段和文本文字对应起来。
在本发明实施例中,音频文件中的词语停顿标志是指单个词语对应的语音之间的分隔标志,音频文件中的语句停顿标志是指语句对应语音之间的分隔标志,这样音频文件可被划分或分割为单个词语语音段或语句语音段。具体地,词语停顿标志和语句停顿标志可以为静音音频段,进一步可根据静音音频段的时间长度来定义是词语停顿标志还是语句停顿标志,若时间较短,则为词语停顿标志,若时间较长则为语句停顿标志。当然,也可以采用其他标志进行标记。
因此,在将音频划分或分割为多个音频段时,优选地,可根据用户设置的校核精确度设置识别时检测的停顿标志,根据设置的停顿标志将音频文件划分为多个音频段。作为示例地,若用户需要得到较高精确度的校核结果时,则根据音频文件中的词语停顿标志将音频文件划分为多个音频段,该多个音频段与对应的词语对应。若用户只需得到语句粒度的精确度的校核结果时,则根据音频文件中的语句停顿标志将音频文件划分为多个音频段,该多个音频段与对应的语句对应。之后对对得到的多个音频段进行语音识别,得到多个音频段对应的文本文字。
进一步优选地,在将音频划分或分割为多个音频段时通过记录的每个音频段对应开始时间和停止时间,为对应的文本文字构建时间轴,以与音频文件进行关联,从而与音频文件的时间轴建立一一对应关系。
在步骤S102中,将识别后的文本文件与音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置。
在本发明实施例中,待校核的音频文件是根据原始文本文件制作得到,因此,为了对制作的音频文件进行校核,将识别后的文本文件与音频文件的原始文本文件进行匹配,以获取不匹配文字部分所在的文本位置。
在步骤S103中,在音频文件中标记出文本位置对应的音频位置,输出标记后的音频文件。
在本发明实施例中,根据文本文字与音频段的对应关系,在音频文件中标记出文本位置对应的音频位置,从而实现对音频文件的自动校核,提高了校核效率。另外,可根据校核的精确度要求,通过在语音识别时设置检测的停顿标志将音频划分或分割为多个音频段,从而提高校核的灵活度和智能化程度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例二:
图2示出了本发明实施例二提供的音频内容校核装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
语音识别单元21,用于接收待校核的音频文件,对音频文件进行语音识别,得到识别后的文本文件;
文本匹配单元22,用于将识别后的文本文件与音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置;以及
错误标记单元23,用于在音频文件中标记出文本位置对应的音频位置,输出所述标记后的所述音频文件。
优选地,如图3所示,语音识别单元21可包括:
音频划分单元211,用于根据音频文件中的停顿标志将音频文件划分为多个音频段,记录每个音频段对应的开始时间和停止时间;以及
语音识别子单元212,用于对多个音频段进行语音识别,得到多个音频段对应的文本文字。
进一步地,音频内容校核装置还可以包括:
文件关联单元30,用于通过记录的每个音频段对应的开始时间和停止时间,为对应的文本文字构建时间轴,以与音频文件进行关联。
在本发明实施例中,音频内容校核装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为计算机设备或系统的一个软、硬件单元,在此不用以限制本发明。音频内容校核装置的各单元的具体实施方式可参考实施例一对应步骤的描述,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种音频内容校核方法,其特征在于,所述方法包括下述步骤:
接收待校核的音频文件,对所述音频文件进行语音识别,得到识别后的文本文件;
将所述识别后的文本文件与所述音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置;
在所述音频文件中标记出所述文本位置对应的音频位置,输出所述标记后的所述音频文件。
2.如权利要求1所述的方法,其特征在于,对所述音频文件进行语音识别,得到识别后的文本文件的步骤,包括:
根据音频文件中的停顿标志将所述音频文件划分为多个音频段,记录每个音频段对应的开始时间和停止时间;
对所述多个音频段进行语音识别,得到所述多个音频段对应的文本文字。
3.如权利要求2所述的方法,其特征在于,在所述音频文件中标记出所述文本位置对应的音频位置的步骤之前,所述方法还包括:
通过所述记录的每个音频段对应的开始时间和停止时间,为所述对应的文本文字构建时间轴,以与所述音频文件进行关联。
4.如权利要求2所述的方法,其特征在于,所述停顿标志为词语停顿标志或语句停顿标志。
5.一种音频内容校核装置,其特征在于,所述装置包括:
语音识别单元,用于接收待校核的音频文件,对所述音频文件进行语音识别,得到识别后的文本文件;
文本匹配单元,用于将所述识别后的文本文件与所述音频文件关联的原始文本文件进行匹配,获取不匹配文字部分所在的文本位置;以及
错误标记单元,用于在所述音频文件中标记出所述文本位置对应的音频位置,输出所述标记后的所述音频文件。
6.如权利要求5所述的装置,其特征在于,所述语音识别单元包括:
音频划分单元,用于根据音频文件中的停顿标志将所述音频文件划分为多个音频段,记录每个音频段对应的开始时间和停止时间;以及
语音识别子单元,用于对所述多个音频段进行语音识别,得到所述多个音频段对应的文本文字。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
文件关联单元,用于通过所述记录的每个音频段对应的开始时间和停止时间,为所述对应的文本文字构建时间轴,以与所述音频文件进行关联。
8.如权利要求6所述的装置,其特征在于,所述停顿标志为词语停顿标志或语句停顿标志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610951950.1A CN106528715B (zh) | 2016-10-27 | 2016-10-27 | 一种音频内容校核方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610951950.1A CN106528715B (zh) | 2016-10-27 | 2016-10-27 | 一种音频内容校核方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106528715A true CN106528715A (zh) | 2017-03-22 |
CN106528715B CN106528715B (zh) | 2019-12-31 |
Family
ID=58325454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610951950.1A Active CN106528715B (zh) | 2016-10-27 | 2016-10-27 | 一种音频内容校核方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528715B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106998498A (zh) * | 2017-04-25 | 2017-08-01 | 努比亚技术有限公司 | 音视频卡顿的检测方法及装置 |
CN107291676A (zh) * | 2017-06-20 | 2017-10-24 | 广东小天才科技有限公司 | 截断语音文件的方法、终端设备及计算机存储介质 |
WO2019120247A1 (zh) * | 2017-12-20 | 2019-06-27 | 北京君林科技股份有限公司 | 一种文字校验方法及装置 |
CN110677614A (zh) * | 2019-10-15 | 2020-01-10 | 广州国音智能科技有限公司 | 信息处理方法、装置及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630448A (zh) * | 2008-07-15 | 2010-01-20 | 上海启态网络科技有限公司 | 语言学习客户端及系统 |
CN103198726A (zh) * | 2013-04-23 | 2013-07-10 | 李华 | 英语学习设备 |
CN204596192U (zh) * | 2015-05-12 | 2015-08-26 | 徐宏 | 一种应用于语文教学的背诵录入检查评分装置 |
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
-
2016
- 2016-10-27 CN CN201610951950.1A patent/CN106528715B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630448A (zh) * | 2008-07-15 | 2010-01-20 | 上海启态网络科技有限公司 | 语言学习客户端及系统 |
CN103198726A (zh) * | 2013-04-23 | 2013-07-10 | 李华 | 英语学习设备 |
CN204596192U (zh) * | 2015-05-12 | 2015-08-26 | 徐宏 | 一种应用于语文教学的背诵录入检查评分装置 |
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106998498A (zh) * | 2017-04-25 | 2017-08-01 | 努比亚技术有限公司 | 音视频卡顿的检测方法及装置 |
CN107291676A (zh) * | 2017-06-20 | 2017-10-24 | 广东小天才科技有限公司 | 截断语音文件的方法、终端设备及计算机存储介质 |
WO2019120247A1 (zh) * | 2017-12-20 | 2019-06-27 | 北京君林科技股份有限公司 | 一种文字校验方法及装置 |
CN109949828A (zh) * | 2017-12-20 | 2019-06-28 | 北京君林科技股份有限公司 | 一种文字校验方法及装置 |
CN109949828B (zh) * | 2017-12-20 | 2022-05-24 | 苏州君林智能科技有限公司 | 一种文字校验方法及装置 |
CN110677614A (zh) * | 2019-10-15 | 2020-01-10 | 广州国音智能科技有限公司 | 信息处理方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106528715B (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766482B (zh) | 信息推送及发送方法、装置、电子设备、存储介质 | |
CN106233374B (zh) | 用于检测用户定义的关键字的关键字模型生成 | |
CN104078044B (zh) | 移动终端及其录音搜索的方法和装置 | |
US20160179831A1 (en) | Systems and methods for textual content creation from sources of audio that contain speech | |
CN107464555B (zh) | 增强包含语音的音频数据的方法、计算装置和介质 | |
WO2018121275A1 (zh) | 一种智能硬件设备中的语音识别纠错方法和装置 | |
US8972260B2 (en) | Speech recognition using multiple language models | |
US8781831B2 (en) | System and method for standardized speech recognition infrastructure | |
US8909525B2 (en) | Interactive voice recognition electronic device and method | |
CN106528715A (zh) | 一种音频内容校核方法及装置 | |
CN102132341A (zh) | 鲁棒的媒体指纹 | |
US20170286049A1 (en) | Apparatus and method for recognizing voice commands | |
CA3158353A1 (en) | Audio-outputting method and system thereof | |
CN105488227A (zh) | 一种电子设备及其基于声纹特征处理音频文件的方法 | |
US20180005626A1 (en) | Obfuscating training data | |
CN104123115A (zh) | 一种音频信息处理方法及电子设备 | |
CN110310642B (zh) | 语音处理方法、系统、客户端、设备和存储介质 | |
WO2016197708A1 (zh) | 一种录音方法及终端 | |
CN104867494A (zh) | 一种录音文件的命名分类方法及系统 | |
US20120035919A1 (en) | Voice recording device and method thereof | |
CN104834738A (zh) | 录音文件存储方法及装置 | |
CN109492126B (zh) | 一种智能交互方法及装置 | |
CN106023990A (zh) | 一种基于投影设备的语音控制方法及装置 | |
CN113782026A (zh) | 一种信息处理方法、装置、介质和设备 | |
KR102536944B1 (ko) | 음성 신호 처리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |