CN102117335B - 一种多媒体信息检索的方法 - Google Patents

一种多媒体信息检索的方法 Download PDF

Info

Publication number
CN102117335B
CN102117335B CN201110073050.9A CN201110073050A CN102117335B CN 102117335 B CN102117335 B CN 102117335B CN 201110073050 A CN201110073050 A CN 201110073050A CN 102117335 B CN102117335 B CN 102117335B
Authority
CN
China
Prior art keywords
information
confidence
time point
degree
marking information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110073050.9A
Other languages
English (en)
Other versions
CN102117335A (zh
Inventor
伍昕
吴鹏
刘赵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI TVMINING CULTURE MEDIA CO., LTD.
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201110073050.9A priority Critical patent/CN102117335B/zh
Publication of CN102117335A publication Critical patent/CN102117335A/zh
Application granted granted Critical
Publication of CN102117335B publication Critical patent/CN102117335B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多媒体信息检索的方法,首先采集音视频数据,获取音频数据的Lattice结果,根据时间点信息和匹配似然值打分信息,获得置信度打分信息,采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果,建立前向索引和后向索引,输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的入口位置以及对应的置信度打分信息,分别进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回候选位置列表以及对应的音视频位置处。采用了本发明的技术方案,能够对多媒体信息进行更彻底的标注,能够更加精细、快捷地索引和定位到感兴趣的位置。

Description

一种多媒体信息检索的方法
技术领域
本发明涉及多媒体技术领域,尤其涉及一种多媒体信息检索的方法。
背景技术
伴随信息时代的发展、多媒体资料的增多,新闻广播节目日益呈现海量化的规模。相对比传统的报纸、杂志、书籍等文本信息,以及先进的互联网的丰富文本信息,音视频数据等多媒体资料具有更加丰富、生动的展现形式,也更有利于人们轻松地接受。但是,由于多媒体资料的多和杂,如何便捷的获取感兴趣的内容成为一个亟待解决的课题。通常做的方法是,用人工对这些资料进行信息提取,这样做很费时费力,因此近年来涌现了很多基于人工智能的技术来应用于该领域,其中最热门的就是语音识别技术。语音识别技术是一种语音到文本的转换技术,而变成了文本之后,就可以利用搜索技术进行全方位的索引和检索。
语音识别有两种做法,一种是采取了最简单的方法,雇佣人工进行标注。利用人工收听、观看节目,从中提取最有用的信息,对于有些特别重要的片段,进行完整的语音识别工作。 
另一种是利用自动语音识别技术对音视频资料中的文本进行识别,就可以获得该段资料中的文本信息,把这些文本信息输入到数据库中,就可以方便的进行检索。 
人工语音识别的特点是没有技术门槛,系统搭建较简单,对人力的要求不高,具备初级语言功底的即可,但是整体效率较为低下,处理的数据量有限,语料仅限于本国语言。 
自动语音识别系统的特点是充分利用计算机资源,能处理较大规模的数据,降低人力成本,但缺点是一次性投入成本较高,甚至需要长期维护和修改,目前识别的质量距离人工识别还有一定的差距,在噪音、方言时性能下降较大。
而且常规的语音识别技术只能给出识别的最终汉字信息,在具体索引词的定位精度上需要人工的判断、费时费力,同时受到语音识别性能的限制,索引和搜索的准确率也是很难控制的。
发明内容
本发明的目的在于提出一种多媒体信息检索的方法,能够对多媒体信息进行更彻底的标注,能够更加精细、快捷地索引和定位到感兴趣的位置。
为达此目的,本发明采用以下技术方案:
一种多媒体信息检索的方法,包括以下步骤:
A、采集音视频数据;
B、获取音频数据的Lattice结果,包括时间点信息和匹配似然值打分信息,并转成多候选信息; 
C、根据时间点信息和匹配似然值打分信息,获得置信度打分信息;
D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;
E、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索引;
F、输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回;
G、分别进入到前向索引库的多候选信息中进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回大于置信度阈值的候选位置列表以及对应的音视频位置处。
步骤A还包括以下步骤:
将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。
步骤A中,采用电脑和电视卡的方式采集电视节目中的音频数据;采用收音机和声卡的方式采集广播信号中的音频数据。
采用了本发明的技术方案,深入挖掘语音识别过程中的各种信息和后处理技术,最终生成含有时间标注的多候选信息,以及对识别文本的置信度打分信息。识别后的这些信息,并不是简单的送入数据库,而是根据搜索引擎的原理,专门定制了可以利用置信度打分信息的最优化的前后向两级检索引擎,不仅能大大提高检索速度,还能根据识别的可靠度打分,对候选结果进行排序,优先返回把握大的位置,识别准确率往往能达到95%以上。对于索引内容,不仅仅是单一识别结果,还包含相似的多候选信息,能够最大限度的增加识别的数量。此外,返回的部分还将包含时间点信息,用户可以非常便捷的定位到某个字的音视频位置上。
附图说明
图1是本发明具体实施方式中多媒体信息检索的流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明具体实施方式中多媒体信息检索的流程图。如图1所示,该多媒体信息检索流程包括以下步骤:
步骤101、采集音视频数据。采用电脑和电视卡的方式采集电视节目中的音频数据,采用收音机和声卡的方式采集广播信号中的音频数据,然后将音频数据格式转成WINDOWS WAV格式(pcm无压缩),采样率为16千赫。
由于电视卡以及声卡录制的格式是确定的,只需要针对特定格式进行编程转码即可。
步骤102、获取音频数据的Lattice结果,包括时间点信息、静音信息和匹配似然值打分信息,并转成多候选信息。
和通常的识别结果不同,本具体实施方式的识别结果并不是常规意义上的最优结果(又称1-Best),而是语音识别中保留的较丰富的解码路径,又称Lattice格式结果。该格式的主要特点是:含有丰富的时间点和静音信息、以及匹配似然值打分信息,并可以转成逐词多候选信息,或者称为混淆网络,以及最优结果,混淆网络上可以得到比最优识别结果更好的性能。
步骤103、根据时间点信息和匹配似然值打分信息,计算得到评估识别效果的打分,也称置信度打分信息。
步骤104、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果。
步骤105、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索引。
在本步骤中,无论哪种搜索技术都充分利用了多候选信息,这种做法在搜索引擎中也是很少用到的,之所以增加了索引的内容,主要是因为语音识别可能出现识别错误,有些正确文本可能是包含在多候选信息中的。因此,有了多候选信息,可以大大提高整体的识别准确率。同时,考虑到单字的索引可以导致大量的候选结果,降低搜索效率,因此采用了多个字词组合的索引方法,可以在保证搜索质量的前提下,大大提高搜索效率。同时把原始信息进行有效的编码压缩生成前向索引,用于后期的精确匹配,两种检索都包含了时间点信息和置信度打分信息。
步骤106、用户输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回。
步骤107、分别进入到前向索引库的多候选信息中进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回大于置信度阈值的候选位置列表以及对应的音视频位置处,供用户浏览,完成一次检索。
通过本具体实施方式,可以对多媒体信息进行更彻底的标注和建库,后期查询能更加精细、快捷的索引和定位到感兴趣的位置。同时,利用多候选信息的索引,可以大大增加查找到的多媒体信息;利用置信度信息,可以过滤掉识别不是很好的多媒体信息,以上两个技术都可以有效地回避因为语音识别的错误带来的检索错误。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种多媒体信息检索的方法,其特征在于,包括以下步骤:
A、采集音视频数据;
B、获取音频数据的Lattice结果,包括时间点信息和匹配似然值打分信息,并转成多候选信息;
C、根据时间点信息和匹配似然值打分信息,获得置信度打分信息;
D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;
E、采用多候选信息、时间点信息和置信度打分信息合并建立前向索引和后向索引;
F、输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回;
G、分别进入到前向索引库的多候选信息中进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回大于置信度阈值的候选位置列表以及对应的音视频位置处。
2.根据权利要求1所述的一种多媒体信息检索的方法,其特征在于,步骤A还包括以下步骤:
将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。
3.根据权利要求1所述的一种多媒体信息检索的方法,其特征在于,步骤A中,采用电脑和电视卡的方式采集电视节目中的音频数据;采用收音机和声卡的方式采集广播信号中的音频数据。
CN201110073050.9A 2011-03-25 2011-03-25 一种多媒体信息检索的方法 Expired - Fee Related CN102117335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110073050.9A CN102117335B (zh) 2011-03-25 2011-03-25 一种多媒体信息检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110073050.9A CN102117335B (zh) 2011-03-25 2011-03-25 一种多媒体信息检索的方法

Publications (2)

Publication Number Publication Date
CN102117335A CN102117335A (zh) 2011-07-06
CN102117335B true CN102117335B (zh) 2014-01-22

Family

ID=44216105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110073050.9A Expired - Fee Related CN102117335B (zh) 2011-03-25 2011-03-25 一种多媒体信息检索的方法

Country Status (1)

Country Link
CN (1) CN102117335B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915403B (zh) * 2015-06-01 2018-07-27 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN111182354B (zh) * 2019-12-24 2022-05-10 中移(杭州)信息技术有限公司 视频评分推荐方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0801378B1 (en) * 1996-04-10 2002-12-18 Lucent Technologies Inc. Method and apparatus for speech recognition
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0801378B1 (en) * 1996-04-10 2002-12-18 Lucent Technologies Inc. Method and apparatus for speech recognition
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统

Also Published As

Publication number Publication date
CN102117335A (zh) 2011-07-06

Similar Documents

Publication Publication Date Title
CN102122506B (zh) 一种语音识别的方法
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
CN101382937A (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
CN113326387B (zh) 一种会议信息智能检索方法
CN107968959B (zh) 一种教学视频的知识点分割方法
CN101533401B (zh) 声音数据检索系统以及声音数据的检索方法
CN102799605A (zh) 一种广告监播方法和系统
CN102136001B (zh) 一种多媒体信息模糊检索方法
CN1870728A (zh) 自动加配字幕的方法和系统
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
CN102547139A (zh) 一种新闻视频节目切分方法、新闻视频编目方法及系统
JP5296598B2 (ja) 音声情報抽出装置
CN104991943A (zh) 音乐搜索方法及装置
CN104391924A (zh) 一种混合音视频检索方法及系统
CN113204669B (zh) 基于语音识别的短视频搜索推荐方法、系统及存储介质
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN104217718A (zh) 依据环境参数及群体趋向数据的语音识别方法和系统
Roy et al. Speaker identification based text to audio alignment for an audio retrieval system
Levin et al. Automated closed captioning for Russian live broadcasting
Damnati et al. Robust speaker turn role labeling of tv broadcast news shows
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
Lebourdais et al. Overlaps and gender analysis in the context of broadcast media
CN106550268B (zh) 视频处理方法和视频处理装置
CN102117335B (zh) 一种多媒体信息检索的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANGHAI TIANMAI JUYUAN CULTURE AND MEDIA CO., LTD

Free format text: FORMER OWNER: TVMINING (BEIJING) MEDIA TECHNOLOGY CO., LTD.

Effective date: 20141226

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100007 DONGCHENG, BEIJING TO: 200436 ZHABEI, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20141226

Address after: 200436, No. 166, No. three, 6 Shanghai Road, Zhabei District, China

Patentee after: SHANGHAI TVMINING CULTURE MEDIA CO., LTD.

Address before: 100007, room 2, building 28, No. 816 East Main Street, Dongcheng District, Beijing, Andingmen

Patentee before: TVMining (Beijing) Media Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of multimedia information retrieval

Effective date of registration: 20201224

Granted publication date: 20140122

Pledgee: Inner Mongolia Huipu Energy Co.,Ltd.

Pledgor: SHANGHAI TIANMAI JUYUAN CULTURE MEDIA Co.,Ltd.

Registration number: Y2020990001505

PE01 Entry into force of the registration of the contract for pledge of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140122

Termination date: 20210325

CF01 Termination of patent right due to non-payment of annual fee