CN106653029A - 一种音频批量分割方法及装置 - Google Patents

一种音频批量分割方法及装置 Download PDF

Info

Publication number
CN106653029A
CN106653029A CN201611100678.2A CN201611100678A CN106653029A CN 106653029 A CN106653029 A CN 106653029A CN 201611100678 A CN201611100678 A CN 201611100678A CN 106653029 A CN106653029 A CN 106653029A
Authority
CN
China
Prior art keywords
text
matched
audio
recording
audio frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611100678.2A
Other languages
English (en)
Inventor
王金龙
丁小响
吴小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201611100678.2A priority Critical patent/CN106653029A/zh
Publication of CN106653029A publication Critical patent/CN106653029A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用计算机技术领域,提供了一种音频批量分割方法及装置,所述方法包括:获取录音文本以及录音后的音频,将所述音频进行语音识别,得到对应的待匹配文本;将所述待匹配文本与所述录音文本进行匹配;根据预设匹配度,从所述音频中分割出对应的小音频段。本发明将录音后的音频通过语音识别得到待匹配文本,将待匹配文本与录音文本进行匹配后,从音频中分割出对应的小音频段,通过语音识别与文本匹配,实现将录音的音频,按录音文本的要求,直接批量分割成多个小音频段,无需逐个一一加标识再导出分割小音频段,从而提高拆分效率,节约人力成本以及降低出错率。

Description

一种音频批量分割方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种音频批量分割方法及装置。
背景技术
目前根据录音文本的内容录制对应的音频后,需要进行后期音频处理,将录音文本的内容分割成多个对应的小音频段,现有的音频分割方法是:把音频导入Audition音频处理软件中,通过人工一边看录音文本,一边听录音后的音频,同时将每小段加上标识,之后导出标记有标识的小音频段,从而完成音频拆分,该方法依赖人工进行分割,需要花费大量的时间,从而增加人力成本,另外,通过人工去边看录音文本边标记,需要一直集中注意力,否则出错率很高,后期还需要人工进行校正,保证正确率,效率极低。
发明内容
本发明的目的在于提供一种音频批量分割方法及装置,旨在解决现有技术中需要依赖人工对音频进行分割,导致人力成本过高、分割效率较低以及出错率较高的问题。
一方面,本发明提供了一种音频批量分割方法,所述方法包括下述步骤:
获取录音文本以及录音后的音频,将所述音频进行语音识别,得到对应的待匹配文本;
将所述待匹配文本与所述录音文本进行匹配;
根据预设匹配度,从所述音频中分割出对应的小音频段。
另一方面,本发明提供了一种音频批量分割装置,所述装置包括:
待匹配文本识别单元,用于获取录音文本以及录音后的音频,将所述音频进行语音识别,得到对应的待匹配文本;
文本匹配单元,用于将所述待匹配文本与所述录音文本进行匹配;以及
小音频分割单元,用于根据预设匹配度,从所述音频中分割出对应的小音频段。
在本发明实施例中,将录音后的音频通过语音识别得到待匹配文本,将待匹配文本与录音文本进行匹配后,从音频中分割出对应的小音频段,通过语音识别与文本匹配,实现将录音的音频,按录音文本的要求,直接批量分割成多个小音频段,无需逐个一一加标识再导出分割小音频段,从而提高拆分效率,节约人力成本以及降低出错率。
附图说明
图1是本发明实施例一提供的音频批量分割方法的实现流程图;以及
图2是本发明实施例二提供的音频批量分割装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的音频批量分割方法的实现流程图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,获取录音文本以及录音后的音频,将音频进行语音识别,得到对应的待匹配文本。
在本发明实施例中,根据已有的录音文本进行录音,得到录音后的音频,录音之后需要对该音频进行处理,通过语音识别技术得到识别后的待匹配文本,该待匹配文本是对应该音频识别出的文本数据。
进一步地,根据说话的时间间隔,将音频分割为临时音频段;
将临时音频段进行语音识别,得到对应的待匹配文本。
具体地,为了降低数据处理量,可以通过预处理将音频根据说话的时间间隔进行临时分割,得到临时音频段,然后对该临时音频段进行语音识别,得到对应的待匹配文本。
在步骤S102中,将待匹配文本与录音文本进行匹配。
在本发明实施例中,通过对音频进行语音识别得到待匹配文本,将待匹配文本与录音文本进行匹配。
进一步地,获取待匹配文本的字符串;
将待匹配文本的字符串与录音文本的字符串进行逐字符匹配。
具体地,获取待匹配文本的字符串,通过将待匹配文本的字符串与录音文本的字符串进行逐字符匹配,有效地保证了匹配的精确度,同时提高匹配效率。
在步骤S103中,根据预设匹配度,从音频中分割出对应的小音频段。
在本发明实施例中,将待匹配文本与录音文本进行匹配,根据预设匹配度,从音频中分割出对应的小音频段,该小音频段包括对应字、词、短语和\或句子的音频。
进一步地,当待匹配文本与录音文本的匹配度大于预设匹配度时,从音频中分割出对应的小音频段。
具体地,当待匹配文本与录音文本的匹配度为全完匹配时,从音频中分割出对应的小音频段,还可以通过预设匹配度,将大于预设匹配度的待匹配文本所对应的音频中分割出对应的小音频段。根据实际经验,可以将预设匹配度设定为60%-80%。
又进一步地,当待匹配文本与录音文本的匹配度小于预设匹配度时,从录音文本中提取出未匹配到的文本。
具体地,将待匹配文本与录音文本进行匹配,当待匹配文本与录音文本的匹配度小于预设匹配度时,从录音文本中提取出未匹配到的文本,以便于后期再次对该未匹配到的文本,进一步进行处理。
在本发明实施例中,将录音后的音频通过语音识别得到待匹配文本,将待匹配文本与录音文本进行匹配后,从音频中分割出对应的小音频段,通过语音识别与文本匹配,实现将录音的音频,按录音文本的要求,直接批量分割成多个小音频段,无需逐个一一加标识再导出分割小音频段,从而提高拆分效率,节约人力成本以及降低出错率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例二:
图2示出了本发明实施例二提供的音频批量分割装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分。在本发明实施例中,音频批量分割装置包括:待匹配文本识别单元21、文本匹配单元22以及小音频分割单元23,其中:
待匹配文本识别单元21,用于获取录音文本以及录音后的音频,将音频进行语音识别,得到对应的待匹配文本。
在本发明实施例中,根据已有的录音文本进行录音,得到录音后的音频,录音之后需要对该音频进行处理,通过语音识别技术得到识别后的待匹配文本,该待匹配文本是对应该音频识别出的文本数据。
进一步地,该待匹配文本识别单元21包括:临时分割单元211以及待匹配文本识别子单元212,其中:
临时分割单元211,用于根据说话的时间间隔,将音频分割为临时音频段;以及
待匹配文本识别子单元212,用于将临时音频段进行语音识别,得到对应的待匹配文本。
具体地,为了降低数据处理量,可以通过预处理将音频根据说话的时间间隔进行临时分割,得到临时音频段,然后对该临时音频段进行语音识别,得到对应的待匹配文本。
文本匹配单元22,用于将待匹配文本与录音文本进行匹配。
在本发明实施例中,通过对音频进行语音识别得到待匹配文本,将待匹配文本与录音文本进行匹配。
进一步地,该文本匹配单元22包括:字符串单元221以及文本匹配子单元222,其中:
字符串单元221,用于获取待匹配文本的字符串;以及
文本匹配子单元222,用于将待匹配文本的字符串与录音文本的字符串进行逐字符匹配。
具体地,获取待匹配文本的字符串,通过将待匹配文本的字符串与录音文本的字符串进行逐字符匹配,有效地保证了匹配的精确度,同时提高匹配效率。
小音频分割单元23,用于根据预设匹配度,从音频中分割出对应的小音频段。
在本发明实施例中,将待匹配文本与录音文本进行匹配,根据预设匹配度,从音频中分割出对应的小音频段,该小音频段包括对应字、词、短语和\或句子的音频。
进一步地,该小音频分割单元23,包括:
分割子单元231,用于当待匹配文本与录音文本的匹配度大于预设匹配度时,从音频中分割出对应的小音频段,该小音频段包括对应字、词、短语和\或句子的音频。
具体地,当待匹配文本与录音文本的匹配度为全完匹配时,从音频中分割出对应的小音频段,还可以通过预设匹配度,将大于预设匹配度的待匹配文本所对应的音频中分割出对应的小音频段。根据实际经验,可以将预设匹配度设定为60%-80%。
又进一步地,该小音频分割单元23,还包括:
提取单元232,用于当待匹配文本与录音文本的匹配度小于预设匹配度时,从录音文本中提取出未匹配到的文本。
具体地,将待匹配文本与录音文本进行匹配,当待匹配文本与录音文本的匹配度小于预设匹配度时,从录音文本中提取出未匹配到的文本,以便于后期再次对该未匹配到的文本,进一步进行处理。
在本发明实施例中,将录音后的音频通过语音识别得到待匹配文本,将待匹配文本与录音文本进行匹配后,从音频中分割出对应的小音频段,通过语音识别与文本匹配,实现将录音的音频,按录音文本的要求,直接批量分割成多个小音频段,无需逐个一一加标识再导出分割小音频段,从而提高拆分效率,节约人力成本以及降低出错率。
在本发明实施例中,音频批量分割装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。该装置各单元的实施方式具体可参考前述实施例一的描述,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音频批量分割方法,其特征在于,所述方法包括下述步骤:
获取录音文本以及录音后的音频,将所述音频进行语音识别,得到对应的待匹配文本;
将所述待匹配文本与所述录音文本进行匹配;
根据预设匹配度,从所述音频中分割出对应的小音频段。
2.如权利要求1所述的方法,其特征在于,所述获取录音文本以及录音后的音频,将所述音频进行语音识别,得到对应的待匹配文本的步骤,包括:
根据说话的时间间隔,将所述音频分割为临时音频段;
将所述临时音频段进行语音识别,得到对应的待匹配文本。
3.如权利要求1所述的方法,其特征在于,所述将所述待匹配文本与所述录音文本进行匹配的步骤,包括:
获取所述待匹配文本的字符串;
将所述待匹配文本的字符串与所述录音文本的字符串进行逐字符匹配。
4.如权利要求1所述的方法,其特征在于,所述预设匹配度,从所述音频中分割出对应的小音频段的步骤,包括:
当所述待匹配文本与所述录音文本的匹配度大于预设匹配度时,从所述音频中分割出对应的小音频段,所述小音频段包括对应字、词、短语和\或句子的音频。
5.如权利要求1所述的方法,其特征在于,所述预设匹配度,从所述音频中分割出对应的小音频段的步骤,还包括:
当所述待匹配文本与所述录音文本的匹配度小于预设匹配度时,从所述录音文本中提取出未匹配到的文本。
6.一种音频批量分割装置,其特征在于,所述装置包括:
待匹配文本识别单元,用于获取录音文本以及录音后的音频,将所述音频进行语音识别,得到对应的待匹配文本;
文本匹配单元,用于将所述待匹配文本与所述录音文本进行匹配;以及
小音频分割单元,用于根据预设匹配度,从所述音频中分割出对应的小音频段。
7.如权利要求6所述的装置,其特征在于,所述待匹配文本识别单元,包括:
临时分割单元,用于根据说话的时间间隔,将所述音频分割为临时音频段;以及
待匹配文本识别子单元,用于将所述临时音频段进行语音识别,得到对应的待匹配文本。
8.如权利要求6所述的装置,其特征在于,所述文本匹配单元,包括:
字符串单元,用于获取所述待匹配文本的字符串;以及
文本匹配子单元,用于将所述待匹配文本的字符串与所述录音文本的字符串进行逐字符匹配。
9.如权利要求6所述的装置,其特征在于,所述小音频分割单元,包括:
分割子单元,用于当所述待匹配文本与所述录音文本的匹配度大于预设匹配度时,从所述音频中分割出对应的小音频段,所述小音频段包括对应字、词、短语和\或句子的音频。
10.如权利要求6所述的装置,其特征在于,所述小音频分割单元,还包括:
提取单元,用于当所述待匹配文本与所述录音文本的匹配度小于预设匹配度时,从所述录音文本中提取出未匹配到的文本。
CN201611100678.2A 2016-12-02 2016-12-02 一种音频批量分割方法及装置 Pending CN106653029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611100678.2A CN106653029A (zh) 2016-12-02 2016-12-02 一种音频批量分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611100678.2A CN106653029A (zh) 2016-12-02 2016-12-02 一种音频批量分割方法及装置

Publications (1)

Publication Number Publication Date
CN106653029A true CN106653029A (zh) 2017-05-10

Family

ID=58819026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611100678.2A Pending CN106653029A (zh) 2016-12-02 2016-12-02 一种音频批量分割方法及装置

Country Status (1)

Country Link
CN (1) CN106653029A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291676A (zh) * 2017-06-20 2017-10-24 广东小天才科技有限公司 截断语音文件的方法、终端设备及计算机存储介质
CN108074570A (zh) * 2017-12-26 2018-05-25 安徽声讯信息技术有限公司 自动切割、传输、保存的语音识别方法
CN108962284A (zh) * 2018-07-04 2018-12-07 科大讯飞股份有限公司 一种语音录制方法及装置
CN110767217A (zh) * 2019-10-30 2020-02-07 爱驰汽车有限公司 音频分割方法、系统、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1524258A (zh) * 2001-05-25 2004-08-25 ʵ 把音频信号分割成听觉事件
CN1937032A (zh) * 2005-09-22 2007-03-28 财团法人工业技术研究院 切割语音数据序列的方法
CN1983276A (zh) * 2005-11-15 2007-06-20 国际商业机器公司 定位和检索以压缩数字格式存储的数据内容的方法和装置
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及系统、口语评测方法及系统
CN104900233A (zh) * 2015-05-12 2015-09-09 深圳市东方泰明科技有限公司 一种声音与文本全自动匹配对齐的方法
CN105161094A (zh) * 2015-06-26 2015-12-16 徐信 一种语音音频切分手动调整切分点的系统及方法
CN105653729A (zh) * 2016-01-28 2016-06-08 努比亚技术有限公司 一种录音文件索引的装置及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1524258A (zh) * 2001-05-25 2004-08-25 ʵ 把音频信号分割成听觉事件
CN1937032A (zh) * 2005-09-22 2007-03-28 财团法人工业技术研究院 切割语音数据序列的方法
CN1983276A (zh) * 2005-11-15 2007-06-20 国际商业机器公司 定位和检索以压缩数字格式存储的数据内容的方法和装置
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及系统、口语评测方法及系统
CN104900233A (zh) * 2015-05-12 2015-09-09 深圳市东方泰明科技有限公司 一种声音与文本全自动匹配对齐的方法
CN105161094A (zh) * 2015-06-26 2015-12-16 徐信 一种语音音频切分手动调整切分点的系统及方法
CN105653729A (zh) * 2016-01-28 2016-06-08 努比亚技术有限公司 一种录音文件索引的装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高红坤: ""基于SailAlign的中文语音文语对齐的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291676A (zh) * 2017-06-20 2017-10-24 广东小天才科技有限公司 截断语音文件的方法、终端设备及计算机存储介质
CN108074570A (zh) * 2017-12-26 2018-05-25 安徽声讯信息技术有限公司 自动切割、传输、保存的语音识别方法
CN108962284A (zh) * 2018-07-04 2018-12-07 科大讯飞股份有限公司 一种语音录制方法及装置
CN108962284B (zh) * 2018-07-04 2021-06-08 科大讯飞股份有限公司 一种语音录制方法及装置
CN110767217A (zh) * 2019-10-30 2020-02-07 爱驰汽车有限公司 音频分割方法、系统、电子设备和存储介质
CN110767217B (zh) * 2019-10-30 2022-04-12 爱驰汽车有限公司 音频分割方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
CN107423363B (zh) 基于人工智能的话术生成方法、装置、设备及存储介质
CN105931644B (zh) 一种语音识别方法及移动终端
CN104038804B (zh) 基于语音识别的字幕同步装置和方法
CN106653029A (zh) 一种音频批量分割方法及装置
US20150134320A1 (en) System and method for translating real-time speech using segmentation based on conjunction locations
GB2575611A (en) Systems and methods for model-assisted cohort selection
CN103544955A (zh) 识别语音的方法及其电子装置
US20140172419A1 (en) System and method for generating personalized tag recommendations for tagging audio content
CN105336329B (zh) 一种语音处理方法及系统
US9588967B2 (en) Interpretation apparatus and method
CN107943786B (zh) 一种中文命名实体识别方法及系统
CN108257592A (zh) 一种基于长短期记忆模型的人声分割方法及系统
CN104505090A (zh) 敏感词的语音识别方法和装置
CN103853703A (zh) 一种信息处理方法及电子设备
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
CN107564528B (zh) 一种语音识别文本与命令词文本匹配的方法及设备
CN103971684A (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
WO2020052069A1 (zh) 用于分词的方法和装置
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN110287364B (zh) 语音搜索方法、系统、设备及计算机可读存储介质
WO2019100458A1 (zh) 泰语音节切分的方法及装置
CN107680584B (zh) 用于切分音频的方法和装置
CN111881297A (zh) 语音识别文本的校正方法及装置
CN111160004A (zh) 一种断句模型的建立方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication