CN101101590A - 一种声音与文字对应关系表生成方法及定位方法 - Google Patents
一种声音与文字对应关系表生成方法及定位方法 Download PDFInfo
- Publication number
- CN101101590A CN101101590A CNA2006100911664A CN200610091166A CN101101590A CN 101101590 A CN101101590 A CN 101101590A CN A2006100911664 A CNA2006100911664 A CN A2006100911664A CN 200610091166 A CN200610091166 A CN 200610091166A CN 101101590 A CN101101590 A CN 101101590A
- Authority
- CN
- China
- Prior art keywords
- sound
- audio
- fragment
- video file
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种声音与文字对应关系表生成方法及快速定位方法,针对现有技术无法对音频或视频文件精确检索的问题而发明,包括将声音分段、进行识别,然后生成声音与文字的对应关系表,该对应关系表中包含声音片断对应的文字,以及每一声音片断在该音频或视频文件中对应的起始时间和结束时间。该对应关系表提供了用户可以通过文字在音频或视频文件中进行检索的基础;同时该对应关系表中还包括有每一声音片断对于该音频或视频文件中的起始位置和结束位置,从而使用户检索到该声音片断后,可以快速的将该声音片断在该音频或视频文件中进行精确定位。
Description
技术领域
本发明涉及一种声音与文字对应关系表生成方法及快速定位方法。
背景技术
早在二十世纪末,科学家就预言二十一世纪将是信息的时代,特别是随着计算机技术和网络技术的发展,极大的扩展了信息的传播途径和速度。早期在图书馆中查阅大量的纸质文献的方法费时费力,将逐步被电子检索所替代,一台大型的存储服务器就可以超过一个规模庞大的图书馆的文献量。同时,随着技术的发展,信息不再仅仅包括了文字资料,更多将会是更为直观的音频文件、视频文件;其中视频文件也是音频文件与图像文件的结合。
现有的检索方法在检索文字资料非常快捷方便,但是对于大量的音频文件和视频文件中的音频或视频文件却无能为力。例如,用户需要在一个长达数小时的音频或视频文件中检索其中的声音片断(例如其中的一句话或几句话),现有方法将无能为力,用户只能浪费大量时间通篇浏览整个音频或视频文件。如果用户无法得知自己所需的声音片断位于哪一个音频文件或视频文件中,面对大量的音频和视频文件,更是无从下手进行检索。
发明内容
针对现有技术中存在的缺点和不足,本发明的目的是提出一种声音与文字对应关系表生成方法,使用户能够精确的对音频或视频文件进行检索;同时本发明还提出一种声音的快速定位方法,能够使用户检索到的所需的音频或视频文件后,将该段声音在整个音频或视频中进行快速定位。
为了达到上述目的,本发明提出了一种声音与文字对应关系表生成方法,包括:
(1)将音频文件或视频文件分割成片断,并记录所述的每一片断在该文件中对应的起始时间和结束时间;
(2)将步骤(1)所得的每一片断中的声音进行识别,得到与声音对应的文字;
(3)生成声音与文字的对应关系表,该对应关系表中包含片断对应的文字,以及该片断在该音频或视频文件中对应的起始时间和结束时间。
其中,所述步骤(1)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
其中,所述步骤(2)具体为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。
其中,所述步骤(3)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该音频或视频文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该音频或视频文件中的起始时间和结束时间。
同时,本发明还提出了还提出一种声音的快速定位方法,包括:
(A)将音频文件或视频文件分割成片断,并记录每一片断在该音频或视频文件中对应的起始时间和结束时间;
(B)将步骤(A)所得的每一片断中的声音进行识别,得到与声音对应的文字;
(C)生成声音与文字的对应关系表,该对应关系表中包含片断对应的文字,以及该片断在该音频或视频文件中对应的起始时间和结束时间;
(D)用户使用所需声音片断对用的文字,在步骤(C)所得的生成声音与文字的对应关系表进行检索,如果检索到匹配的声音片断,则进入步骤(E),否则步骤结束;
(E)读取检索到的声音片断,根据所述对应关系表中该声音片断想对于该音频或视频文件的起始时间和结束时间,在该音频或视频文件中进行定位。
其中,所述步骤(A)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
其中,所述步骤(B)具体为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。
其中,所述步骤(C)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该音频或视频文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该音频或视频文件中的起始时间和结束时间。
本发明提出了一种声音与文字对应关系表生成方法,与现有技术相比,本发明提出的对应关系表中包含有每一声音片断对应的文字,从而提供了用户可以通过文字在音频或视频文件中进行检索的基础;同时该对应关系表中还包括有每一声音片断对于该音频或视频文件中的起始位置和结束位置,从而使用户检索到该声音片断后,可以快速的将该声音片断在该音频或视频文件中进行精确定位。同时,本发明还提出了还提出一种声音的快速定位方法,使用上述的声音与文字对应关系表,根据其中的声音片断位于音频或视频文件中的起始时间和结束时间进行精确定位,当用户检索到所需的声音片断后,根据该片断的起始时间和结束时间,使用现有技术,即可实现将该声音片断对应的音频或视频文件自该起始时间点开始播放,直到结束时间点停止。
具体实施方式
下面对本发明做进一步说明。
本发明提出了一种声音与文字对应关系表生成方法,以及一种声音的快速定位方法,以解决现有技术中无法在音频或视频文件中进行精确检索和准确定位的问题。
其中,声音与文字对应关系表生成方法包括:
(1)将音频或视频文件分割成声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间;
(2)将步骤(1)所得的每一声音片断进行语音识别,得到与声音对应的文字;
(3)生成声音与文字的对应关系表,该对应关系表中包含声音片断对应的文字,以及每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
其中,所述步骤(1)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。静音技术是现有对音频或视频文件进行分段的一种常用方法。静音技术能够检测到声音的停顿,如果停顿超过预先设定一间隔时间,则认为声音中的一句话结束。以此可以将音频或视频文件中的每一句话分割为一个声音片断。现有技术中分割声音片断的方法不限于静音技术,除此之外还有很多种,在此不一一赘述。
其中,所述步骤(2)具体为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。现有语音识别软件非常成熟,多用于语音识别代替键盘输入。例如:IBM ViaVoice语音识别系统。作为优选,为了保证识别的准确性,可以在语音识别后进行校对。
其中,所述步骤(3)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该音频或视频文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该音频或视频文件中的起始时间和结束时间。采用这种方法,可以方便用户检索。如果将每一声音片断各自生成一个对应关系表也可以实现发明目的,但是会为将来的检索带来麻烦。这种关系表可以采用多种格式存储:
例如:格式一:存储为关系数据库表
字段名称 | 字段类型 | 字段描述 |
序号 | 整型 | 系统唯一编号。 |
原文件编号 | 整型 | 根据原音视频文件信息产生此编号。 |
起始时间 | 时间类型 | 此片断的起始时间。 |
结束时间 | 时间类型 | 此片断的结束时间。 |
文本内容 | 文本类型 | 此片断的声音对应的文字内容 |
格式二:存储为xml格式
<?xml version=″1.0″encoding=″GB2312″?>
<VDELTA>
<VATTRIBUTE>
<field name=″序号″value=″00001″/>
<field name=″原文件编号″value=″1000123″/>
<field name=″起始时间″value=″00:10:05″/>
<field name=″结束时间″value=″00:10:1″/>
<field name=″文字内容″value=″郭广在这个问题上应该是有发言权的对″/>
</VATTRIBUTE>
</VDELTA>
本发明还提出了一种声音的快速定位方法,包括:
(A)将音频或视频文件分割成声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间;
(B)将步骤(A)所得的每一声音片断进行语音识别,得到与声音对应的文字;
(C)生成声音与文字的对应关系表,该对应关系表中包含声音片断对应的文字,以及每一声音片断在该音频或视频文件中对应的起始时间和结束时间;
(D)用户使用所需声音片断对用的文字,在步骤(C)所得的生成声音与文字的对应关系表进行检索,如果检索到匹配的声音片断,则进入步骤(E),否则步骤结束;
(E)读取检索到的声音片断,根据所述对应关系表中该声音片断想对于该音频或视频文件的起始时间和结束时间,在该音频或视频文件中进行定位。
其中,所述步骤(A)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
其中,所述步骤(B)具体为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。
其中,所述步骤(C)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该音频或视频文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该音频或视频文件中的起始时间和结束时间。
例如:下面为一段音频文件的文稿内容与音频的播放时间的对应关系表,如下表:
序号 | 起始时间 | 结束时间 | 文字内容 |
2 | 00:00:05 | 00:00:19 | 郭广昌在这个问题上应该是有发言权的对不对, |
3 | 00:00:20 | 00:00:32 | 我想听听你的建议,到底是要夫妻创业呢,还是不创业? |
通过搜索“夫妻创业”两个字即可定位到序号为3的声音片断,即实现声音的快速定位。
Claims (8)
1、一种声音与文字对应关系表生成方法,包括:
(1)将音频文件或视频文件分割成片断,并记录所述的每一片断在该文件中对应的起始时间和结束时间;
(2)将步骤(1)所得的每一片断中的声音进行识别,得到与声音对应的文字;
(3)生成声音与文字的对应关系表,该对应关系表中包含片断对应的文字,以及该片断在该音频或视频文件中对应的起始时间和结束时间。
2、根据权利要求1所述的声音与文字对应关系表生成方法,其特征在于,所述步骤(1)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
3、根据权利要求1所述的声音与文字对应关系表生成方法,其特征在于,所述步骤(2)具体为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。
4、根据权利要求1或2或3所述的声音与文字对应关系表生成方法,其特征在于,所述步骤(3)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该音频或视频文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该音频或视频文件中的起始时间和结束时间。
5、一种声音的快速定位方法,包括:
(A)将音频文件或视频文件分割成片断,并记录每一片断在该音频或视频文件中对应的起始时间和结束时间;
(B)将步骤(A)所得的每一片断中的声音进行识别,得到与声音对应的文字;
(C)生成声音与文字的对应关系表,该对应关系表中包含片断对应的文字,以及该片断在该音频或视频文件中对应的起始时间和结束时间;
(D)用户使用所需声音片断对用的文字,在步骤(C)所得的生成声音与文字的对应关系表进行检索,如果检索到匹配的声音片断,则进入步骤(E),否则步骤结束;
(E)读取检索到的声音片断,根据所述对应关系表中该声音片断想对于该音频或视频文件的起始时间和结束时间,在该音频或视频文件中进行定位。
6、根据权利要求5所述的声音与文字对应关系表生成方法,其特征在于,所述步骤(A)具体为:通过静音技术,将音频或视频文件中的每一句话分割为一个声音片断,并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
7、根据权利要求6所述的声音与文字对应关系表生成方法,其特征在于,所述步骤(B)具体为:通过语音识别软件,将每一声音片断进行语音识别,得到与声音对应的文字。
8、根据权利要求5或6或7所述的声音与文字对应关系表生成方法,其特征在于,所述步骤(C)具体为:生成声音与文字的对应关系表,所述的对应关系表中包括该音频或视频文件的所有声音片断,以及每一声音片断对应的文字,以及每一声音片断在该音频或视频文件中的起始时间和结束时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100911664A CN101101590A (zh) | 2006-07-04 | 2006-07-04 | 一种声音与文字对应关系表生成方法及定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100911664A CN101101590A (zh) | 2006-07-04 | 2006-07-04 | 一种声音与文字对应关系表生成方法及定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101101590A true CN101101590A (zh) | 2008-01-09 |
Family
ID=39035865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006100911664A Pending CN101101590A (zh) | 2006-07-04 | 2006-07-04 | 一种声音与文字对应关系表生成方法及定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101101590A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101931698A (zh) * | 2010-08-12 | 2010-12-29 | 高常喜 | 一种手机的语音文件分段式点播系统及方法 |
CN102163379A (zh) * | 2010-02-24 | 2011-08-24 | 英业达股份有限公司 | 听写文章之校正语音的定位与播放系统及其方法 |
CN102789797A (zh) * | 2011-05-17 | 2012-11-21 | 富士通天株式会社 | 音响装置 |
CN103020048A (zh) * | 2013-01-08 | 2013-04-03 | 深圳大学 | 一种语言翻译方法及系统 |
CN103793446A (zh) * | 2012-10-29 | 2014-05-14 | 汤晓鸥 | 音乐视频的生成方法和系统 |
CN102073635B (zh) * | 2009-10-30 | 2015-08-26 | 索尼株式会社 | 节目端点时间检测装置和方法以及节目信息检索系统 |
CN107609149A (zh) * | 2017-09-21 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种视频定位方法和装置 |
CN109145149A (zh) * | 2018-08-16 | 2019-01-04 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN110264998A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记系统的音频定位方法 |
CN110265026A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种会议速记系统以及会议速记方法 |
CN110265027A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记系统的音频传输方法 |
CN110263313A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记的人机协同编辑方法 |
CN111353038A (zh) * | 2020-05-25 | 2020-06-30 | 深圳市友杰智新科技有限公司 | 数据展示方法、装置、计算机设备和存储介质 |
CN112182298A (zh) * | 2019-06-14 | 2021-01-05 | 珠海金山办公软件有限公司 | 一种信息处理的方法、装置、计算机存储介质及终端 |
CN112307255A (zh) * | 2019-08-02 | 2021-02-02 | 中移(苏州)软件技术有限公司 | 一种音频处理方法、装置、终端和计算机存储介质 |
CN113643691A (zh) * | 2021-08-16 | 2021-11-12 | 思必驰科技股份有限公司 | 远场语音留言交互方法及系统 |
-
2006
- 2006-07-04 CN CNA2006100911664A patent/CN101101590A/zh active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073635B (zh) * | 2009-10-30 | 2015-08-26 | 索尼株式会社 | 节目端点时间检测装置和方法以及节目信息检索系统 |
CN102163379A (zh) * | 2010-02-24 | 2011-08-24 | 英业达股份有限公司 | 听写文章之校正语音的定位与播放系统及其方法 |
CN102163379B (zh) * | 2010-02-24 | 2013-03-13 | 英业达股份有限公司 | 听写文章之校正语音的定位与播放系统及其方法 |
CN101931698A (zh) * | 2010-08-12 | 2010-12-29 | 高常喜 | 一种手机的语音文件分段式点播系统及方法 |
US8892229B2 (en) | 2011-05-17 | 2014-11-18 | Fujitsu Ten Limited | Audio apparatus |
CN102789797B (zh) * | 2011-05-17 | 2016-03-30 | 富士通天株式会社 | 音响装置 |
CN102789797A (zh) * | 2011-05-17 | 2012-11-21 | 富士通天株式会社 | 音响装置 |
CN103793446A (zh) * | 2012-10-29 | 2014-05-14 | 汤晓鸥 | 音乐视频的生成方法和系统 |
CN103793446B (zh) * | 2012-10-29 | 2019-03-01 | 汤晓鸥 | 音乐视频的生成方法和系统 |
CN103020048A (zh) * | 2013-01-08 | 2013-04-03 | 深圳大学 | 一种语言翻译方法及系统 |
CN107609149B (zh) * | 2017-09-21 | 2020-06-19 | 北京奇艺世纪科技有限公司 | 一种视频定位方法和装置 |
CN107609149A (zh) * | 2017-09-21 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种视频定位方法和装置 |
CN109145149A (zh) * | 2018-08-16 | 2019-01-04 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN109145149B (zh) * | 2018-08-16 | 2021-05-04 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN112182298A (zh) * | 2019-06-14 | 2021-01-05 | 珠海金山办公软件有限公司 | 一种信息处理的方法、装置、计算机存储介质及终端 |
CN110263313A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记的人机协同编辑方法 |
CN110265027A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记系统的音频传输方法 |
CN110265026A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种会议速记系统以及会议速记方法 |
CN110264998A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记系统的音频定位方法 |
CN110264998B (zh) * | 2019-06-19 | 2021-07-27 | 安徽声讯信息技术有限公司 | 一种用于会议速记系统的音频定位方法 |
CN110265026B (zh) * | 2019-06-19 | 2021-07-27 | 安徽声讯信息技术有限公司 | 一种会议速记系统以及会议速记方法 |
CN110263313B (zh) * | 2019-06-19 | 2021-08-24 | 安徽声讯信息技术有限公司 | 一种用于会议速记的人机协同编辑方法 |
CN112307255A (zh) * | 2019-08-02 | 2021-02-02 | 中移(苏州)软件技术有限公司 | 一种音频处理方法、装置、终端和计算机存储介质 |
CN111353038A (zh) * | 2020-05-25 | 2020-06-30 | 深圳市友杰智新科技有限公司 | 数据展示方法、装置、计算机设备和存储介质 |
CN113643691A (zh) * | 2021-08-16 | 2021-11-12 | 思必驰科技股份有限公司 | 远场语音留言交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101101590A (zh) | 一种声音与文字对应关系表生成方法及定位方法 | |
CN101102240A (zh) | 一种音频、视频内容的采集方法和检索方法 | |
US11960526B2 (en) | Query response using media consumption history | |
CN101464896B (zh) | 语音模糊检索方法及装置 | |
KR101255405B1 (ko) | 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체 | |
US8374845B2 (en) | Retrieving apparatus, retrieving method, and computer program product | |
CN101382937B (zh) | 基于语音识别的多媒体资源处理方法及其在线教学系统 | |
US20070156404A1 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
CN101470710B (zh) | 多媒体文件中的内容的定位方法 | |
JP5845764B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5296598B2 (ja) | 音声情報抽出装置 | |
CN101019121A (zh) | 对存储在数据库中的文档编制索引和进行检索的方法和系统 | |
CN1682279A (zh) | 利用语音识别访问和检索媒体文件的系统和方法 | |
CN102667773A (zh) | 搜索设备、搜索方法及程序 | |
KR20080043358A (ko) | 재생 디바이스의 동작을 제어하는 방법 및 시스템 | |
CN101770507A (zh) | 数据处理设备、数据处理方法和程序 | |
US20100146009A1 (en) | Method of DJ commentary analysis for indexing and search | |
CN101452468A (zh) | 基于用户制作的问答数据提供会话辞典服务的方法及系统 | |
US20120013805A1 (en) | Apparatus and method for displaying content | |
Newcomer et al. | Music discovery requirements: A guide to optimizing interfaces | |
Fallucchi et al. | Enriching videos with automatic place recognition in google maps | |
KR20010037652A (ko) | 오디오 색인화 장치 및 그 방법과 그를 이용한 오디오 검색 시스템 및 그 방법 | |
JP5910222B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN110986972A (zh) | 一种用于车载导航的信息处理方法及其装置 | |
JP2009147775A (ja) | 番組再生方法、装置、プログラム及び媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Liu Ke Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20080109 |