CN101102240A

CN101102240A - 一种音频、视频内容的采集方法和检索方法

Info

Publication number: CN101102240A
Application number: CNA2006100911626A
Authority: CN
Inventors: 王建波
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-07-04
Filing date: 2006-07-04
Publication date: 2008-01-09

Abstract

本发明提出了一种音频、视频内容的采集方法和检索方法。针对现有技术中无法将音频、视频中的声音转化为文字，以及无法检索的问题而发明，提出一种音频、视频内容的采集方法包括：将声音分段，然后对每一声音片断进行识别。同时提出一种音频、视频内容的检索方法包括：将声音分段后识别，生成声音与文字的对应关系表，用户使用所需声音片断对用的文字在该对应关系表中进行检索。本发明提出的音频、视频内容的采集方法能够将声音转化为文字；本发明还提出一种音频、视频内容的检索方法，使用户能够在音频、视频文件中进行检索，解决了现有技术中无法检索的难题。

Description

一种音频、视频内容的采集方法和检索方法

技术领域

本发明涉及一种音频、视频内容的采集方法，以及一种音频、视频内容的检索方法。

背景技术

早在二十世纪末，科学家就预言二十一世纪将是信息的时代，特别是随着计算机技术和网络技术的发展，极大的扩展了信息的传播途径和速度。早期在图书馆中查阅大量的纸质文献的方法费时费力，将逐步被电子检索所替代，一台大型的存储服务器就可以超过一个规模庞大的图书馆的文献量。同时，随着技术的发展，信息不再仅仅包括了文字资料，更多将会是更为直观的音频文件、视频文件；其中视频文件也是音频文件与图像文件的结合。但是，现有技术无法将音频或视频文件中的声音转变为文字。

现有的检索方法在检索文字资料非常快捷方便，但是对于大量的音频文件和视频文件中的音频或视频文件却无能为力。例如，用户需要在一个长达数小时的音频或视频文件中检索其中的声音片断(例如其中的一句话或几句话)，现有方法将无能为力，用户只能浪费大量时间通篇浏览整个音频或视频文件。如果用户无法得知自己所需的声音片断位于哪一个音频文件或视频文件中，面对大量的音频和视频文件，更是无从下手进行检索。

发明内容

针对现有技术中存在的缺点和不足，本发明的目的是提出一种音频、视频内容的采集方法，能够将音频、视频文件中的声音转化为文字；同时本发明还提出一种音频、视频内容的检索方法，能够使用户能够在音频或视频文件检索到自己所需的声音片断，以及该声音片断在该音频、视频文件中的准确位置。

为了达到上述目的，本发明提出一种音频、视频内容的采集方法，包括：

(1)将音频文件或视频文件中的声音文件分割成声音片断；

(2)将步骤(1)所得的每一声音片断进行识别，得到与声音对应的文字。

其中，所述步骤(1)具体为：通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断。

其中，所述步骤(1)还包括：记录每一声音片断在该声音文件中对应的起始时间和结束时间。

其中，所述步骤(2)可以为：通过语音识别软件，将每一声音片断进行语音识别，得到与声音片断对应的文字。

其中，所述步骤(2)还可以为：通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。

同时，本发明还提出了一种音频、视频内容的检索方法，包括：

(A)将声音文件分割成声音片断，并记录所述的每一声音片断在该声音文件中对应的起始时间和结束时间；

(B)将步骤(A)所得的每一声音片断进行识别，得到与声音对应的文字；

(C)生成声音与文字的对应关系表，该对应关系表中包含声音片断对应的文字，以及每一声音片断在该声音文件中对应的起始时间和结束时间；

(D)用户使用所需声音片断对用的文字，在步骤(C)所得的生成声音与文字的对应关系表进行检索。

其中，所述步骤(A)具体为：通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录每一声音片断在该声音文件中对应的起始时间和结束时间。

其中，所述步骤(B)具体为：通过语音识别软件或通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。

其中，所述步骤(C)具体为：生成声音与文字的对应关系表，所述的对应关系表中包括该声音文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该声音文件中的起始时间和结束时间。

本发明提出的音频、视频内容的采集方法能够将声音转化为文字；本发明还提出一种音频、视频内容的检索方法，使用户能够在音频、视频文件中进行检索，解决了现有技术中无法检索的难题。

具体实施方式

下面对本发明做进一步说明。

本发明提出了一种音频、视频内容的采集方法，包括：

(1)将音频或视频文件分割成声音片断；

(2)将步骤(1)所得的每一声音片断进行语音识别，得到与声音对应的文字。

其中，所述步骤(1)可以为：通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。静音技术是现有对音频或视频文件进行分段的一种常用方法。静音技术能够检测到声音的停顿，如果停顿超过预先设定一间隔时间，则认为声音中的一句话结束。以此可以将音频或视频文件中的每一句话分割为一个声音片断。现有技术中分割声音片断的方法不限于静音技术，除此之外还有很多种，在此不一一赘述。

其中，步骤(1)还可以包括：，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。采用这种方式，可以获得每一声音片断位于音频或视频文件的准确位置。

其中，所述步骤(2)可以为：通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。现有语音识别软件非常成熟，多用于语音识别代替键盘输入。例如：IBM ViaVoice语音识别系统。作为优选，为了保证识别的准确性，可以在语音识别后进行校对。

其中，所述步骤(A)具体为：通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。

其中，所述步骤(B)可以为：通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。

其中，所述步骤(B)还可以为：通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。

其中，所述步骤(C)具体为：生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。采用这种方法，可以方便用户检索。如果将每一声音片断各自生成一个对应关系表也可以实现发明目的，但是会为将来的检索带来麻烦。这种关系表可以采用多种格式存储：

例如：格式一：存储为关系数据库表

字段名称	字段类型	字段描述
字段名称	字段类型	字段描述	序号	整型	系统唯一编号。
原文件编号	整型	根据原音视频文件信息产生此编号。	序号	整型	系统唯一编号。
原文件编号	整型	根据原音视频文件信息产生此编号。	起始时间	时间类型	此片断的起始时间。
结束时间	时间类型	此片断的结束时间。	起始时间	时间类型	此片断的起始时间。

文本内容

文本类型

此片断的声音对应的文字内容

格式二：存储为xml格式

<？xml version＝″1.0″encoding＝″GB2312″？>

</VATTRIBUTE>

</VDELTA>

例如：下面为一段音频文件的文稿内容与音频的播放时间的对应关系表，如下表：

序号	起始时间	结束时间	文字内容
序号	起始时间	结束时间	文字内容	2	00:00:05	00:00:19	郭广昌在这个问题上应该是有发言权的对不对，
3	00:00:20	00:00:32	我想听听你的建议，到底是要夫妻创业呢，还是不创业？	2	00:00:05	00:00:19	郭广昌在这个问题上应该是有发言权的对不对，

通过搜索“夫妻创业”两个字即可定位到序号为3的声音片断，即实现声音的快速检索。

Claims

1、一种音频、视频内容的采集方法，包括：

(1)将音频文件或视频文件中的声音文件分割成声音片断；

2、根据权利要求1所述的音频、视频内容的采集方法，其特征在于，所述步骤(1)具体为：通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断。

3、根据权利要求1或2所述的音频、视频内容的采集方法，其特征在于，所述步骤(1)还包括：记录每一声音片断在该声音文件中对应的起始时间和结束时间。

4、根据权利要求3所述的音频、视频内容的采集方法，其特征在于，所述步骤(2)具体为：通过语音识别软件，将每一声音片断进行语音识别，得到与声音片断对应的文字。

5、根据权利要求3所述的音频、视频内容的采集方法，其特征在于，所述步骤(2)具体为：通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。

6、一种音频、视频内容的检索方法，包括：

7、根据权利要求6所述的音频、视频内容的采集方法，其特征在于，所述步骤(A)具体为：通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录每一声音片断在该声音文件中对应的起始时间和结束时间。

8、根据权利要求6或7所述的音频、视频内容的采集方法，其特征在于，所述步骤(B)具体为：通过语音识别软件或通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。

9、根据权利要求8所述的音频、视频内容的采集方法，其特征在于，所述步骤(C)具体为：生成声音与文字的对应关系表，所述的对应关系表中包括该声音文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该声音文件中的起始时间和结束时间。