CN109740015A - 基于音频浓缩摘要的海量音频检索方法 - Google Patents
基于音频浓缩摘要的海量音频检索方法 Download PDFInfo
- Publication number
- CN109740015A CN109740015A CN201910019614.7A CN201910019614A CN109740015A CN 109740015 A CN109740015 A CN 109740015A CN 201910019614 A CN201910019614 A CN 201910019614A CN 109740015 A CN109740015 A CN 109740015A
- Authority
- CN
- China
- Prior art keywords
- audio
- file
- concentration
- abstract
- concentrated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于音频浓缩摘要的海量音频检索方法,涉及安防监控领域。本发明包括如下步骤:选择文件夹,生成多线程执行浓缩任务,打开待浓缩的文件,读取音频帧并解码,得到裸的PCM数据,使用VAD算法对PCM裸数据进行判定,并进行语音识别生成摘要信息和音频索引文件,提供音频的检索和播放功能。本发明通过使用多线程并行方式对海量音频数据所在的文件夹进行浓缩,提取出有价值的语音和文字信息,并生成包含摘要信息的音频索引文件,用户可输入文本关键字进行快速检索,并可播放检索结果中的音频数据,大大提高了工作效率。
Description
技术领域
本发明属于安防监控领域,特别是涉及一种基于音频浓缩摘要的海量音频检索方法。
背景技术
在安防监控领域,随着监控设备数量的爆炸性增长,其存储的录像数据也呈几何级增长。在公安、刑侦等应用场景下,如果采用人工的方式对这些海量录像数据进行分析,效率将是极其低下的,以至于错过最佳破案时机。因此,如何从这些海量录像数据中挖掘出有价值的信息,以供快速检索和查证,已成为用户非常迫切的需求。
在目前已授权的专利中,如专利申请号为【CN201210520403.X】的一种用于具有静止画面视频的视频浓缩方法、专利申请号为【CN201210142026.0】的一种快速视频浓缩摘要方法,大多采用的视频浓缩摘要技术,提取出其中的背景和运动目标,并重建成新的视频图像序列。但录像数据中除了视频,还有音频。音频数据是视频数据的重要补充,能够帮助办案人员更好地理解事实真相。在某些情况下,如视频信号丢失、视频画面模糊等,音频数据可能是唯一的线索和证据。音频数据的特点是:大部分时间内可能都是静音和噪音数据,只有少数时间内包含真正有用的语音信息。为了提高办案人员的工作效率,快速检索海量的音频数据,对音频进行浓缩摘要,是很有必要的。
发明内容
本发明的目的在于提供一种基于音频浓缩摘要的海量音频检索方法,通过使用多线程并行方式对海量音频数据所在的文件夹进行浓缩,提取出有价值的语音和文字信息,并生成包含摘要信息的音频索引文件,用户能够通过输入关键字进行快速检索,解决了现有的音频数据分析效率低、分析难度大的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于音频浓缩摘要的海量音频检索方法,包括如下步骤:
步骤S01:获取待浓缩文件夹内所有的录像文件和音频文件,并生成若干个线程并行进行浓缩任务;
步骤S02:在每一个浓缩任务中,打开一个待浓缩的文件;
步骤S03:读取一个音频帧并进行解码,获取裸的PCM音频数据;
步骤S04:使用VAD算法对一帧PCM裸数据进行判定,若判定为有效数据,则将本帧的序号作为摘要的起始序号;
步骤S05:继续对下一帧PCM裸数据进行判定,直到找到判定为无效数据的那一帧为止,将前一帧的序号作为摘要的结束序号;
步骤S06:对起始序列号和结束序列号之间的PCM裸数据进行语音识别,将识别的结果作为摘要的文字描述;
步骤S07:判断待浓缩文件内音频是否全部读完;
若是,则将所有生成的音频摘要信息保存到对应的音频索引文件中,将所有的音频数据保存到对应的浓缩文件中;
若否,则返回执行步骤S03;
步骤S08:每浓缩完成一个文件,将列出该文件以及对应的摘要信息;
步骤S09:输入文字作为关键字进行检索。
优选地,所述步骤S01中,每个线程浓缩若干个文件,当一个文件浓缩完成,则开始浓缩下一个文件。
优选地,所述步骤S02中,打开待浓缩文件时,需要对待浓缩文件进行检查,若文件不合法或没有音频数据,则忽略该待浓缩文件。
优选地,所述步骤S09中,在检索过程中,若某个音频摘要的文字描述与该关键字匹配,则加入到检索结果中;可播放检索结果中的音频摘要对应的音频数据,并跳转到原始文件中对应的位置周围继续播放。
本发明具有以下有益效果:
本发明通过使用多线程并行方式对海量音频数据所在的文件夹进行浓缩,提取出有价值的语音和文字信息,并生成包含摘要信息的音频索引文件,用户可输入文本关键字进行快速检索,并可播放检索结果中的音频数据,大大提高了工作效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于音频浓缩摘要的海量音频检索方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于音频浓缩摘要的海量音频检索方法,包括如下步骤:
步骤S01:获取待浓缩文件夹内所有的录像文件和音频文件,根据文件数量和CPU性能等条件生成若干个线程并行进行浓缩任务,因为每个线程浓缩若干个文件,一个文件浓缩完成后,继续浓缩下一个文件,由于文件数量巨大,因此采用多线程方式并发执行;
步骤S02:在每一个浓缩任务中,打开一个待浓缩的文件;
步骤S03:读取一个音频帧并进行解码,获取裸的PCM音频数据;
步骤S04:使用VAD算法对一帧PCM裸数据进行判定,若判定为有效数据,则将本帧的序号作为摘要的起始序号;
VAD算法即语音活动检测算法,又称语音端点检测;目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用;
步骤S05:继续对下一帧PCM裸数据进行判定,直到找到判定为无效数据的那一帧为止,将前一帧的序号作为摘要的结束序号;
步骤S06:对起始序列号和结束序列号之间的PCM裸数据进行语音识别,将识别的结果作为摘要的文字描述,这样便生成了一个完整的音频摘要,通过音频摘要中序号的对应关系,就可以很方便地从摘要中的某个位置定位到原始文件中对应的位置;
步骤S07:判断待浓缩文件内音频是否全部读完;
若是,则将所有生成的音频摘要信息保存到对应的音频索引文件中,将所有的音频数据保存到对应的浓缩文件中,这样在以后需要检索时,不用再进行浓缩了,直接解析该音频索引文件即可;
若否,则返回执行步骤S03;
步骤S08:每浓缩完成一个文件,将列出该文件以及对应的摘要信息,此时可以播放某个摘要对应的音频数据,也可以播放整个浓缩文件中的音频数据,如果播放过程中对某个位置的音频感兴趣,可以跳转到原始文件中对应的位置周围继续播放;
步骤S09:输入文字作为关键字进行检索。
其中,步骤S01中,每个线程浓缩若干个文件,当一个文件浓缩完成,则开始浓缩下一个文件。
其中,步骤S02中,打开待浓缩文件时,需要对待浓缩文件进行检查,若文件不合法或没有音频数据,则忽略该待浓缩文件。
其中,步骤S09中,在检索过程中,若某个音频摘要的文字描述与该关键字匹配,则加入到检索结果中;可播放检索结果中的音频摘要对应的音频数据,并跳转到原始文件中对应的位置周围继续播放;而对于已经进行过浓缩的文件夹,下次可以直接选择该文件夹进行音频数据的检索和播放。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.一种基于音频浓缩摘要的海量音频检索方法,其特征在于,包括如下步骤:
步骤S01:获取待浓缩文件夹内所有的录像文件和音频文件,并生成若干个线程并行进行浓缩任务;
步骤S02:在每一个浓缩任务中,打开一个待浓缩的文件;
步骤S03:读取一个音频帧并进行解码,获取裸的PCM音频数据;
步骤S04:使用VAD算法对一帧PCM裸数据进行判定,若判定为有效数据,则将本帧的序号作为摘要的起始序号;
步骤S05:继续对下一帧PCM裸数据进行判定,直到找到判定为无效数据的那一帧为止,将前一帧的序号作为摘要的结束序号;
步骤S06:对起始序列号和结束序列号之间的PCM裸数据进行语音识别,将识别的结果作为摘要的文字描述;
步骤S07:判断待浓缩文件内音频是否全部读完;
若是,则将所有生成的音频摘要信息保存到对应的音频索引文件中,将所有的音频数据保存到对应的浓缩文件中;
若否,则返回执行步骤S03;
步骤S08:每浓缩完成一个文件,将列出该文件以及对应的摘要信息;
步骤S09:输入文字作为关键字进行检索。
2.根据权利要求1所述的一种基于音频浓缩摘要的海量音频检索方法,其特征在于,所述步骤S01中,每个线程浓缩若干个文件,当一个文件浓缩完成,则开始浓缩下一个文件。
3.根据权利要求1所述的一种基于音频浓缩摘要的海量音频检索方法,其特征在于,所述步骤S02中,打开待浓缩文件时,需要对待浓缩文件进行检查,若文件不合法或没有音频数据,则忽略该待浓缩文件。
4.根据权利要求1所述的一种基于音频浓缩摘要的海量音频检索方法,其特征在于,所述步骤S09中,在检索过程中,若某个音频摘要的文字描述与该关键字匹配,则加入到检索结果中;可播放检索结果中的音频摘要对应的音频数据,并跳转到原始文件中对应的位置周围继续播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910019614.7A CN109740015A (zh) | 2019-01-09 | 2019-01-09 | 基于音频浓缩摘要的海量音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910019614.7A CN109740015A (zh) | 2019-01-09 | 2019-01-09 | 基于音频浓缩摘要的海量音频检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109740015A true CN109740015A (zh) | 2019-05-10 |
Family
ID=66364100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910019614.7A Pending CN109740015A (zh) | 2019-01-09 | 2019-01-09 | 基于音频浓缩摘要的海量音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740015A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724824A (zh) * | 2020-06-11 | 2020-09-29 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004105035A1 (en) * | 2003-05-26 | 2004-12-02 | Koninklijke Philips Electronics N.V. | System and method for generating audio-visual summaries for audio-visual program content |
CN101281534A (zh) * | 2008-05-28 | 2008-10-08 | 叶睿智 | 一种基于音频内容检索的多媒体资源检索方法 |
CN102650993A (zh) * | 2011-02-25 | 2012-08-29 | 北大方正集团有限公司 | 音视频文件的索引建立和检索方法、装置及系统 |
CN104391924A (zh) * | 2014-11-21 | 2015-03-04 | 南京讯思雅信息科技有限公司 | 一种混合音视频检索方法及系统 |
WO2016126769A1 (en) * | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Conference searching and playback of search results |
WO2016126770A2 (en) * | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Selective conference digest |
CN106446109A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 语音文件摘要的获取方法和装置 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN108305632A (zh) * | 2018-02-02 | 2018-07-20 | 深圳市鹰硕技术有限公司 | 一种会议的语音摘要形成方法及系统 |
CN108305622A (zh) * | 2018-01-04 | 2018-07-20 | 海尔优家智能科技(北京)有限公司 | 一种基于语音识别的音频摘要文本创建方法及其创建装置 |
-
2019
- 2019-01-09 CN CN201910019614.7A patent/CN109740015A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004105035A1 (en) * | 2003-05-26 | 2004-12-02 | Koninklijke Philips Electronics N.V. | System and method for generating audio-visual summaries for audio-visual program content |
CN101281534A (zh) * | 2008-05-28 | 2008-10-08 | 叶睿智 | 一种基于音频内容检索的多媒体资源检索方法 |
CN102650993A (zh) * | 2011-02-25 | 2012-08-29 | 北大方正集团有限公司 | 音视频文件的索引建立和检索方法、装置及系统 |
CN104391924A (zh) * | 2014-11-21 | 2015-03-04 | 南京讯思雅信息科技有限公司 | 一种混合音视频检索方法及系统 |
WO2016126769A1 (en) * | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Conference searching and playback of search results |
WO2016126770A2 (en) * | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Selective conference digest |
CN106446109A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 语音文件摘要的获取方法和装置 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN108305622A (zh) * | 2018-01-04 | 2018-07-20 | 海尔优家智能科技(北京)有限公司 | 一种基于语音识别的音频摘要文本创建方法及其创建装置 |
CN108305632A (zh) * | 2018-02-02 | 2018-07-20 | 深圳市鹰硕技术有限公司 | 一种会议的语音摘要形成方法及系统 |
Non-Patent Citations (1)
Title |
---|
叶昆: "互联网视听节目监管系统简介", 《大众科技》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724824A (zh) * | 2020-06-11 | 2020-09-29 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
CN111724824B (zh) * | 2020-06-11 | 2021-12-03 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085213B (zh) | 音频的异常监控方法、装置、设备和存储介质 | |
US20160132600A1 (en) | Methods and Systems for Performing Content Recognition for a Surge of Incoming Recognition Queries | |
CN103035247B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
US20190377956A1 (en) | Method and apparatus for processing video | |
US20170221488A1 (en) | Method and apparatus for generating voiceprint information | |
CN106960051B (zh) | 基于电子书的音频播放方法、装置和终端设备 | |
US20070212023A1 (en) | Video filtering system | |
US9465870B2 (en) | System and method for digital video retrieval involving speech recognition | |
JP5145939B2 (ja) | 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム | |
US8965916B2 (en) | Method and apparatus for providing media content | |
EP3403170A1 (en) | Methods and systems for search engines selection&optimization | |
US9472209B2 (en) | Deep tagging background noises | |
CN109979440B (zh) | 关键词样本确定方法、语音识别方法、装置、设备和介质 | |
CN104598502A (zh) | 获取播放视频中背景音乐信息的方法、装置及系统 | |
JP2006163877A (ja) | メタデータ生成装置 | |
Chen et al. | A multimodal data mining framework for soccer goal detection based on decision tree logic | |
US10114891B2 (en) | Method and system of audio retrieval and source separation | |
CN109740015A (zh) | 基于音频浓缩摘要的海量音频检索方法 | |
CN109889921B (zh) | 一种具备交互功能的音视频创建、播放方法及装置 | |
CN103152633A (zh) | 一种关键词的识别方法及装置 | |
CN107193922B (zh) | 一种信息处理的方法及装置 | |
KR100916310B1 (ko) | 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법 | |
US9609277B1 (en) | Playback system of video conference record and method for video conferencing record | |
Alghafli et al. | Identification and recovery of video fragments for forensics file carving | |
US11640426B1 (en) | Background audio identification for query disambiguation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |