CN101102240A - 一种音频、视频内容的采集方法和检索方法 - Google Patents
一种音频、视频内容的采集方法和检索方法 Download PDFInfo
- Publication number
- CN101102240A CN101102240A CNA2006100911626A CN200610091162A CN101102240A CN 101102240 A CN101102240 A CN 101102240A CN A2006100911626 A CNA2006100911626 A CN A2006100911626A CN 200610091162 A CN200610091162 A CN 200610091162A CN 101102240 A CN101102240 A CN 101102240A
- Authority
- CN
- China
- Prior art keywords
- sound
- fragment
- audio
- video content
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种音频、视频内容的采集方法和检索方法。针对现有技术中无法将音频、视频中的声音转化为文字,以及无法检索的问题而发明,提出一种音频、视频内容的采集方法包括:将声音分段,然后对每一声音片断进行识别。同时提出一种音频、视频内容的检索方法包括:将声音分段后识别,生成声音与文字的对应关系表,用户使用所需声音片断对用的文字在该对应关系表中进行检索。本发明提出的音频、视频内容的采集方法能够将声音转化为文字;本发明还提出一种音频、视频内容的检索方法,使用户能够在音频、视频文件中进行检索,解决了现有技术中无法检索的难题。
Description
技术领域
本发明涉及一种音频、视频内容的采集方法,以及一种音频、视频内容的检索方法。
背景技术
早在二十世纪末,科学家就预言二十一世纪将是信息的时代,特别是随着计算机技术和网络技术的发展,极大的扩展了信息的传播途径和速度。早期在图书馆中查阅大量的纸质文献的方法费时费力,将逐步被电子检索所替代,一台大型的存储服务器就可以超过一个规模庞大的图书馆的文献量。同时,随着技术的发展,信息不再仅仅包括了文字资料,更多将会是更为直观的音频文件、视频文件;其中视频文件也是音频文件与图像文件的结合。但是,现有技术无法将音频或视频文件中的声音转变为文字。
现有的检索方法在检索文字资料非常快捷方便,但是对于大量的音频文件和视频文件中的音频或视频文件却无能为力。例如,用户需要在一个长达数小时的音频或视频文件中检索其中的声音片断(例如其中的一句话或几句话),现有方法将无能为力,用户只能浪费大量时间通篇浏览整个音频或视频文件。如果用户无法得知自己所需的声音片断位于哪一个音频文件或视频文件中,面对大量的音频和视频文件,更是无从下手进行检索。
发明内容
针对现有技术中存在的缺点和不足,本发明的目的是提出一种音频、视频内容的采集方法,能够将音频、视频文件中的声音转化为文字;同时本发明还提出一种音频、视频内容的检索方法,能够使用户能够在音频或视频文件检索到自己所需的声音片断,以及该声音片断在该音频、视频文件中的准确位置。
为了达到上述目的,本发明提出一种音频、视频内容的采集方法,包括:
(1)将音频文件或视频文件中的声音文件分割成声音片断;
(2)将步骤(1)所得的每一声音片断进行识别,得到与声音对应的文字。
其中,所述步骤(1)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断。
其中,所述步骤(1)还包括:记录每一声音片断在该声音文件中对应的起始时间和结束时间。
其中,所述步骤(2)可以为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音片断对应的文字。
其中,所述步骤(2)还可以为:通过速记方法,将每一声音片断进行语音识别,得到与声音片断对应的文字。
同时,本发明还提出了一种音频、视频内容的检索方法,包括:
(A)将声音文件分割成声音片断,并记录所述的每一声音片断在该声音文件中对应的起始时间和结束时间;
(B)将步骤(A)所得的每一声音片断进行识别,得到与声音对应的文字;
(C)生成声音与文字的对应关系表,该对应关系表中包含声音片断对应的文字,以及每一声音片断在该声音文件中对应的起始时间和结束时间;
(D)用户使用所需声音片断对用的文字,在步骤(C)所得的生成声音与文字的对应关系表进行检索。
其中,所述步骤(A)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录每一声音片断在该声音文件中对应的起始时间和结束时间。
其中,所述步骤(B)具体为:通过语音识别软件或通过速记方法,将每一声音片断进行语音识别,得到与声音片断对应的文字。
其中,所述步骤(C)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该声音文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该声音文件中的起始时间和结束时间。
本发明提出的音频、视频内容的采集方法能够将声音转化为文字;本发明还提出一种音频、视频内容的检索方法,使用户能够在音频、视频文件中进行检索,解决了现有技术中无法检索的难题。
具体实施方式
下面对本发明做进一步说明。
本发明提出了一种音频、视频内容的采集方法,包括:
(1)将音频或视频文件分割成声音片断;
(2)将步骤(1)所得的每一声音片断进行语音识别,得到与声音对应的文字。
其中,所述步骤(1)可以为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。静音技术是现有对音频或视频文件进行分段的一种常用方法。静音技术能够检测到声音的停顿,如果停顿超过预先设定一间隔时间,则认为声音中的一句话结束。以此可以将音频或视频文件中的每一句话分割为一个声音片断。现有技术中分割声音片断的方法不限于静音技术,除此之外还有很多种,在此不一一赘述。
其中,步骤(1)还可以包括:,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。采用这种方式,可以获得每一声音片断位于音频或视频文件的准确位置。
其中,所述步骤(2)可以为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。现有语音识别软件非常成熟,多用于语音识别代替键盘输入。例如:IBM ViaVoice语音识别系统。作为优选,为了保证识别的准确性,可以在语音识别后进行校对。
其中,所述步骤(2)还可以为:通过速记方法,将每一声音片断进行语音识别,得到与声音片断对应的文字。
同时,本发明还提出了一种音频、视频内容的检索方法,包括:
(A)将声音文件分割成声音片断,并记录所述的每一声音片断在该声音文件中对应的起始时间和结束时间;
(B)将步骤(A)所得的每一声音片断进行识别,得到与声音对应的文字;
(C)生成声音与文字的对应关系表,该对应关系表中包含声音片断对应的文字,以及每一声音片断在该声音文件中对应的起始时间和结束时间;
(D)用户使用所需声音片断对用的文字,在步骤(C)所得的生成声音与文字的对应关系表进行检索。
其中,所述步骤(A)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
其中,所述步骤(B)可以为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。
其中,所述步骤(B)还可以为:通过速记方法,将每一声音片断进行语音识别,得到与声音片断对应的文字。
其中,所述步骤(C)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该音频或视频文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该音频或视频文件中的起始时间和结束时间。采用这种方法,可以方便用户检索。如果将每一声音片断各自生成一个对应关系表也可以实现发明目的,但是会为将来的检索带来麻烦。这种关系表可以采用多种格式存储:
例如:格式一:存储为关系数据库表
字段名称 | 字段类型 | 字段描述 |
序号 | 整型 | 系统唯一编号。 |
原文件编号 | 整型 | 根据原音视频文件信息产生此编号。 |
起始时间 | 时间类型 | 此片断的起始时间。 |
结束时间 | 时间类型 | 此片断的结束时间。 |
文本内容 | 文本类型 | 此片断的声音对应的文字内容 |
格式二:存储为xml格式
<?xml version=″1.0″encoding=″GB2312″?>
<VDELTA>
<VATTRIBUTE>
<field name=″序号″value=″00001″/>
<field name=″原文件编号″value=″1000123″/>
<field name=″起始时间″value=″00:10:05″/>
<field name=″结束时间″value=″00:10:12″/>
<field name=″文字内容″value=″郭广在这个问题上应该是有发言权的对″/>
</VATTRIBUTE>
</VDELTA>
例如:下面为一段音频文件的文稿内容与音频的播放时间的对应关系表,如下表:
序号 | 起始时间 | 结束时间 | 文字内容 |
2 | 00:00:05 | 00:00:19 | 郭广昌在这个问题上应该是有发言权的对不对, |
3 | 00:00:20 | 00:00:32 | 我想听听你的建议,到底是要夫妻创业呢,还是不创业? |
通过搜索“夫妻创业”两个字即可定位到序号为3的声音片断,即实现声音的快速检索。
Claims (9)
1、一种音频、视频内容的采集方法,包括:
(1)将音频文件或视频文件中的声音文件分割成声音片断;
(2)将步骤(1)所得的每一声音片断进行识别,得到与声音对应的文字。
2、根据权利要求1所述的音频、视频内容的采集方法,其特征在于,所述步骤(1)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断。
3、根据权利要求1或2所述的音频、视频内容的采集方法,其特征在于,所述步骤(1)还包括:记录每一声音片断在该声音文件中对应的起始时间和结束时间。
4、根据权利要求3所述的音频、视频内容的采集方法,其特征在于,所述步骤(2)具体为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音片断对应的文字。
5、根据权利要求3所述的音频、视频内容的采集方法,其特征在于,所述步骤(2)具体为:通过速记方法,将每一声音片断进行语音识别,得到与声音片断对应的文字。
6、一种音频、视频内容的检索方法,包括:
(A)将声音文件分割成声音片断,并记录所述的每一声音片断在该声音文件中对应的起始时间和结束时间;
(B)将步骤(A)所得的每一声音片断进行识别,得到与声音对应的文字;
(C)生成声音与文字的对应关系表,该对应关系表中包含声音片断对应的文字,以及每一声音片断在该声音文件中对应的起始时间和结束时间;
(D)用户使用所需声音片断对用的文字,在步骤(C)所得的生成声音与文字的对应关系表进行检索。
7、根据权利要求6所述的音频、视频内容的采集方法,其特征在于,所述步骤(A)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录每一声音片断在该声音文件中对应的起始时间和结束时间。
8、根据权利要求6或7所述的音频、视频内容的采集方法,其特征在于,所述步骤(B)具体为:通过语音识别软件或通过速记方法,将每一声音片断进行语音识别,得到与声音片断对应的文字。
9、根据权利要求8所述的音频、视频内容的采集方法,其特征在于,所述步骤(C)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该声音文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该声音文件中的起始时间和结束时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100911626A CN101102240A (zh) | 2006-07-04 | 2006-07-04 | 一种音频、视频内容的采集方法和检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100911626A CN101102240A (zh) | 2006-07-04 | 2006-07-04 | 一种音频、视频内容的采集方法和检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101102240A true CN101102240A (zh) | 2008-01-09 |
Family
ID=39036346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006100911626A Pending CN101102240A (zh) | 2006-07-04 | 2006-07-04 | 一种音频、视频内容的采集方法和检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101102240A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102724598A (zh) * | 2011-12-05 | 2012-10-10 | 新奥特(北京)视频技术有限公司 | 一种拆分新闻条目的方法 |
CN103116737A (zh) * | 2011-11-16 | 2013-05-22 | 北京同步科技有限公司 | 分布式视频图像识别系统及其图像识别方法 |
CN103336773A (zh) * | 2012-05-18 | 2013-10-02 | 徐信 | 一种音视频语音处理与检索的系统和方法 |
CN103365959A (zh) * | 2013-06-03 | 2013-10-23 | 深圳市爱渡飞科技有限公司 | 一种语音搜索方法及装置 |
CN103778204A (zh) * | 2014-01-13 | 2014-05-07 | 北京奇虎科技有限公司 | 基于语音分析的视频搜索方法、设备及系统 |
CN104023176A (zh) * | 2014-06-03 | 2014-09-03 | 华为技术有限公司 | 处理音频和图像信息的方法、装置和终端设备 |
US9009054B2 (en) | 2009-10-30 | 2015-04-14 | Sony Corporation | Program endpoint time detection apparatus and method, and program information retrieval system |
CN104572714A (zh) * | 2013-10-18 | 2015-04-29 | 英业达科技有限公司 | 学习影像的查询系统及其方法 |
CN105498168A (zh) * | 2015-12-07 | 2016-04-20 | 永康市玛马吉智能科技有限公司 | 一种通过语音控制跑步机的方法和装置 |
CN106021249A (zh) * | 2015-09-16 | 2016-10-12 | 展视网(北京)科技有限公司 | 一种基于内容的语音文件检索方法和系统 |
CN106095764A (zh) * | 2016-03-31 | 2016-11-09 | 乐视控股(北京)有限公司 | 一种动态图片处理方法及系统 |
WO2017162187A1 (zh) * | 2016-03-24 | 2017-09-28 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置和计算机存储介质 |
CN108806692A (zh) * | 2018-05-29 | 2018-11-13 | 深圳市云凌泰泽网络科技有限公司 | 一种音频内容查找及可视化播放方法 |
CN112040163A (zh) * | 2020-08-21 | 2020-12-04 | 上海阅目科技有限公司 | 一种支持音频解析的硬盘录像机 |
-
2006
- 2006-07-04 CN CNA2006100911626A patent/CN101102240A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9009054B2 (en) | 2009-10-30 | 2015-04-14 | Sony Corporation | Program endpoint time detection apparatus and method, and program information retrieval system |
CN103116737A (zh) * | 2011-11-16 | 2013-05-22 | 北京同步科技有限公司 | 分布式视频图像识别系统及其图像识别方法 |
CN103116737B (zh) * | 2011-11-16 | 2016-04-06 | 北京同步科技有限公司 | 分布式视频图像识别系统及其图像识别方法 |
CN102724598A (zh) * | 2011-12-05 | 2012-10-10 | 新奥特(北京)视频技术有限公司 | 一种拆分新闻条目的方法 |
CN103336773B (zh) * | 2012-05-18 | 2017-02-08 | 徐信 | 一种音视频语音处理与检索的系统和方法 |
CN103336773A (zh) * | 2012-05-18 | 2013-10-02 | 徐信 | 一种音视频语音处理与检索的系统和方法 |
CN103365959A (zh) * | 2013-06-03 | 2013-10-23 | 深圳市爱渡飞科技有限公司 | 一种语音搜索方法及装置 |
CN104572714A (zh) * | 2013-10-18 | 2015-04-29 | 英业达科技有限公司 | 学习影像的查询系统及其方法 |
CN103778204A (zh) * | 2014-01-13 | 2014-05-07 | 北京奇虎科技有限公司 | 基于语音分析的视频搜索方法、设备及系统 |
CN104023176A (zh) * | 2014-06-03 | 2014-09-03 | 华为技术有限公司 | 处理音频和图像信息的方法、装置和终端设备 |
CN106021249A (zh) * | 2015-09-16 | 2016-10-12 | 展视网(北京)科技有限公司 | 一种基于内容的语音文件检索方法和系统 |
CN105498168A (zh) * | 2015-12-07 | 2016-04-20 | 永康市玛马吉智能科技有限公司 | 一种通过语音控制跑步机的方法和装置 |
US10949462B2 (en) | 2016-03-24 | 2021-03-16 | Tencent Technology (Shenzhen) Company Limited | Audio identification method and apparatus, and computer storage medium |
WO2017162187A1 (zh) * | 2016-03-24 | 2017-09-28 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置和计算机存储介质 |
CN106095764A (zh) * | 2016-03-31 | 2016-11-09 | 乐视控股(北京)有限公司 | 一种动态图片处理方法及系统 |
CN108806692A (zh) * | 2018-05-29 | 2018-11-13 | 深圳市云凌泰泽网络科技有限公司 | 一种音频内容查找及可视化播放方法 |
CN112040163A (zh) * | 2020-08-21 | 2020-12-04 | 上海阅目科技有限公司 | 一种支持音频解析的硬盘录像机 |
CN112040163B (zh) * | 2020-08-21 | 2023-07-07 | 上海阅目科技有限公司 | 一种支持音频解析的硬盘录像机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101102240A (zh) | 一种音频、视频内容的采集方法和检索方法 | |
CN101101590A (zh) | 一种声音与文字对应关系表生成方法及定位方法 | |
Jarlbrink et al. | Cultural heritage as digital noise: nineteenth century newspapers in the digital archive | |
KR101255405B1 (ko) | 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체 | |
US8250469B2 (en) | Document layout extraction | |
US8117026B2 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
CN101382937B (zh) | 基于语音识别的多媒体资源处理方法及其在线教学系统 | |
JP4997601B2 (ja) | 音声データ検索用webサイトシステム | |
CN101464896A (zh) | 语音模糊检索方法及装置 | |
US20120215533A1 (en) | Method of and System for Error Correction in Multiple Input Modality Search Engines | |
CN101019121A (zh) | 对存储在数据库中的文档编制索引和进行检索的方法和系统 | |
US10572528B2 (en) | System and method for automatic detection and clustering of articles using multimedia information | |
CN113326387B (zh) | 一种会议信息智能检索方法 | |
JP5845764B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5296598B2 (ja) | 音声情報抽出装置 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN101770507A (zh) | 数据处理设备、数据处理方法和程序 | |
JP6429382B2 (ja) | コンテンツ推薦装置、及びプログラム | |
US20100146009A1 (en) | Method of DJ commentary analysis for indexing and search | |
CN101452468A (zh) | 基于用户制作的问答数据提供会话辞典服务的方法及系统 | |
CN111259645A (zh) | 一种裁判文书结构化方法及装置 | |
CN102136001B (zh) | 一种多媒体信息模糊检索方法 | |
US20080215597A1 (en) | Information processing apparatus, information processing system, and program | |
Fallucchi et al. | Enriching videos with automatic place recognition in google maps | |
JP4755122B2 (ja) | 画像辞書生成方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Liu Ke Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20080109 |