CN101281534A - 一种基于音频内容检索的多媒体资源检索方法 - Google Patents

一种基于音频内容检索的多媒体资源检索方法 Download PDF

Info

Publication number
CN101281534A
CN101281534A CNA2008100620738A CN200810062073A CN101281534A CN 101281534 A CN101281534 A CN 101281534A CN A2008100620738 A CNA2008100620738 A CN A2008100620738A CN 200810062073 A CN200810062073 A CN 200810062073A CN 101281534 A CN101281534 A CN 101281534A
Authority
CN
China
Prior art keywords
voice
keyword
retrieval
index
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100620738A
Other languages
English (en)
Other versions
CN100565532C (zh
Inventor
叶睿智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou micro network Co., Ltd.
Original Assignee
叶睿智
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 叶睿智 filed Critical 叶睿智
Priority to CNB2008100620738A priority Critical patent/CN100565532C/zh
Publication of CN101281534A publication Critical patent/CN101281534A/zh
Application granted granted Critical
Publication of CN100565532C publication Critical patent/CN100565532C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于音频内容检索的多媒体资源检索方法。包括如下步骤:1)预处理服务器将视频和音频转化为标准的待识别语音;2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;3)索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。本发明利用音频中关键词检出技术,获得了音视频资源内在的语意信息,对文本化的语意信息进行索引,提供了更全面可靠的音视频资源信息索引,可以让检索系统更准确的匹配到多媒体资源,并且定位到检索词在音视频中出现的精确位置。

Description

一种基于音频内容检索的多媒体资源检索方法
技术领域
本发明涉及一种基于音频内容检索的多媒体资源检索方法,特别是涉及用于检索包括视频、音频形式的资源,找到包含所检索信息的资源并给出所检索信息在资源中的定位。
背景技术
在当今数字化与网络化时代,多媒体数据已成为互联网信息高速公路上所传送数据的主要部分。音频、图像和视频等多媒体内容目前在互联网中占据15%,且该数字还在飞速增长。大容量高速存储系统为音视频的海量存储提供了基本保障,各行业对音视频的使用越来越广泛。如何从海量的音视频信息中获取有用的信息,即音视频信息资源的管理和检索显得日益重要,音视频已成为网络用户最频繁检索的资源之一。目前的主流搜索引擎如Google、Yahoo、Baidu等,已经较好地解决了对互联网络上文本内容的检索,但在音视频检索方面,这些搜索引擎目前仍依靠检索匹配多媒体资源相关的周边文本信息(例如资源文件名、资源标记、资源介绍文本等)来实现对文本的搜索。这使得音视频资源自身的内容没有被很好地识别,一些缺乏明确文本描述的有用资源被搜索引擎忽略。目前,常用的信息检索系统,例如数字图书馆系统、知识管理系统,也都面临着多媒体资源日益成为重要信息载体但缺乏有效检索手段的问题。解决这个问题的途径之一,就是利用语音识别技术从音视频资源的语音部分检索出可用文本表达的对应信息,再通过文本检索的方式去索引这些资源。
关键词识别就是在连续的无限制的自然语音流中识别出给定的关键词。它包括两个方面的基本内容,一个是关键词检出,一个是关键词确认。关键词检出是鉴别语音包含哪几个预先输入的关键词,是一个多元判决问题。而关键词确认则回答“是”还是“不是”包含这个关键词,是一个两元判决问题,本发明所述关键词识别技术特制指关键词检出。
美尔倒谱系数(Mel-FrequencyCepstrumCoefficients,MFCC)建立在傅立叶和倒谱分析基础上,反应了音频信号的频域特征。对短时音频帧中的采样点进行傅立叶变换,得到这个短时音频帧在每个频率上的能量大小,将整个频率带划分为n个子带,分别计算这n各子带上的总能量,就构成了这个短时音频帧的n个Mel系数。对提取出来的Mel系数再计算其对应的倒谱系数,就是Mel倒谱系数。倒谱分析是一种非线性信号处理技术,它是同态系统理论的基础,是专门处理通过卷积组合在一起的信号,后来被应用到语音信号的处理中。
隐马尔可夫(Hidden Markov Model,HMM)模型是一种基于转移概率和输出概率的随机模型。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时,为每一个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。对于文本无关的说话人识别一般采用各态历经型HMM,对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间归整,节约了判决时的计算时间和存储量。
基于隐马尔科夫模型的关键词识别进行技术是语音检索的一个非常重要的方面,它在语音的特定内容检索中占有重要位置,由于目前语音识别技术其鲁棒性和实用性方面的限制,利用连续语音识别建立大词汇量,任意关键词的识别器并不能达到理想的结果,无法很好的满足语音检索方面的应用要求。而关键词识别是相对可靠的技术,在语音检索的应用中有更好的应用前景。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于音频内容检索的多媒体资源检索方法
包括如下步骤:
1)预处理服务器将视频和音频转化为标准的待识别语音;
2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;
3)索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。
所述的预处理服务器将视频和音频转化为标准的待识别语音:视频和音频中带有一段或多段讲话语音,从输入的视频资源中采用音频分离技术提起出音频部分的数据,并保持了分离出来的音频和原有视频在时间轴方向的一致,音频数据经过数字降噪技术处理,能量过低的部分和包含杂音信号的语音段被处理成静音,转化后,音频输出为标准的待识别语音。
所述的语音识别服务器将训练语料训练成声学模型:训练语料采用标准汉语普通话朗读的广播语音,训练语料经过特征提取模块得到语音特征,特征类型采用美尔倒谱系数,语音特征经过声学模型训练得到隐马尔可夫声学模型。
所述的将待识别语音和声学模型匹配得到语意文本索引:待识别语音经过特征提取模块得到待识别语音美尔倒谱系数特征,路径搜索器读取待识别语音美尔倒谱系数特征,在隐马尔可夫声学模型的路径中进行最短路径识别,得到语音片段对应的语意文本;结合语音时间轴信息,输出包含语意文本和时间起止点数据的语意文本索引。
所述的索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果:对语音识别服务器输出的语意文本索引,进行倒排索引转化,得到以语意关键词为主键,关键词出现位置信息序列为键值的倒排索引条目,存储到索引库中,执行检索时,向检索服务器输入文本形式的关键词或关键词组合,根据检索关键词读取倒排索引条目,输出关键词出现位置信息序列。
所述的语意文本索引是一个二元对,包含了文本关键词、关键词在语音中一次出现的时间段起点和时间段终点数据。关键词索引是一个三元对,包含了关键词、关键词对应的视频和音频资源文件号、关键词在语音中一次出现的时间段起点和时间段终点数据。检索结果是描述了一系列包含所检索关键词的资源文件,以及在某个资源文件中,出现该关键词语音片段的一系列时间段信息。
本发明利用音频中关键词检出技术,获得了音视频资源内在的语意信息,对文本化的语意信息进行索引,提供了更全面可靠的音视频资源信息索引,可以让检索系统更准确的匹配到多媒体资源,并且定位到检索词在音视频中出现的精确位置。
附图说明
图1是根据本发明的音视频内容检索系统总体流程图;
图2是根据本发明的音视频预处理流程图;
图3是根据本发明的关键词识别流程图;
图4是根据本发明的索引归并流程图。
具体实施方式
基于音频内容检索的多媒体资源检索方法包括如下步骤:
1)预处理服务器将视频和音频转化为标准的待识别语音;如图1所示,视频资料1-1和语音资料1-2被输入到预处理服务器S1,经过预处理得到标准的待识别语料1-3。
2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;如图1所示,训练语料1-4被输入到语音识别服务器S2,训练得到声学模型,存储在S2中,待识别语料1-3和声学模型一起输入到语音识别服务器S2,匹配得到待识别语料1-3中的语意文本索引信息1-5。
3)索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。如图1所示,索引信息被输入到索引服务器S3,归并入倒排索引库;进行检索时,检索条件1-6输入到索引服务器S3,S3在索引库中匹配待检索条件中的关键词,得到匹配记录,归并匹配记录,最终返回检索结果1-7。
所述的预处理服务器将视频和音频转化为标准的待识别语音:视频和音频中带有一段或多段讲话语音,从输入的视频资源中采用音频分离技术提起出音频部分的数据,并保持了分离出来的音频和原有视频在时间轴方向的一致,音频数据经过数字降噪技术处理,能量过低的部分和包含杂音信号的语音段被处理成静音,转化后,音频输出为标准的待识别语音。如图2所示,输入的视频资料2-1,进过语音数据提取模块2-2,得到对应的音频资料数据;直接输入的音频资料2-3和视频提取的音频资料都进过降噪处理模块2-4,最终输出可用于识别的待识别语音2-5。
所述的语音识别服务器将训练语料训练成声学模型:训练语料采用标准汉语普通话朗读的广播语音,训练语料经过特征提取模块得到语音特征,特征类型采用美尔倒谱系数,语音特征经过声学模型训练得到隐马尔可夫声学模型。如图3所示,训练语料3-1经过语音预处理模块3-2、特征提取模块3-3,得到样本语音美尔倒谱系数特征数据;样本语音美尔倒谱系数特征数据输入到引擎训练和识别模块3-4训练出隐马尔可夫声学模型3-5;
所述的将待识别语音和声学模型匹配得到语意文本索引:待识别语音经过特征提取模块得到待识别语音美尔倒谱系数特征,路径搜索器读取待识别语音美尔倒谱系数特征,在隐马尔可夫声学模型的路径中进行最短路径识别,得到语音片段对应的语意文本;结合语音时间轴信息,输出包含语意文本和时间起止点数据的语意文本索引。如图3所示,待识别语音3-6经过语音预处理模块3-2、特征提取模块3-3,得到待识别语音美尔倒谱系数特征数据;待识别语音特征数据和隐马尔可夫声学模型3-5一起经过路径搜索匹配模块3-7得到识别语意文本索引3-8,其格式为二元对<KW,Ref>,其中包含了文本关键词KW、关键词在语音中一次出现的时间段起点和时间段终点数据Ref。
所述的索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果:对语音识别服务器输出的语意文本索引,进行倒排索引转化,得到以语意关键词为主键,关键词出现位置信息序列为键值的倒排索引条目,存储到索引库中。如图4所示,首先从语音识别模块输出的单个新增索引(格式为<KW,Ref>)提取出索引关键词KW,根据KW在现有索引库中查到倒排索引条目<KW,<Ref1,Ref2...Refn>>,再将新增索引和倒排索引条目合并,得到新条目<KW,<Ref1,Ref2...Refn,Refn+1>>,合并过程考虑索引的去重复。最后新条目被写回索引库。执行检索时,向检索服务器输入文本形式的关键词或关键词组合,根据检索关键词读取倒排索引条目,输出关键词出现位置信息序列。如图4所示,根据检索关键词KW,在现有索引库中查到倒排索引条目<KW,<Ref1,Ref2…Refn>>,作为检索结果返回。

Claims (8)

1、一种基于音频内容检索的多媒体资源检索方法,其特征在于包括如下步骤:
1)预处理服务器将视频和音频转化为标准的待识别语音;
2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;
3)索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。
2、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法,其特征在于所述的预处理服务器将视频和音频转化为标准的待识别语音:视频和音频中带有一段或多段讲话语音,从输入的视频资源中采用音频分离技术提起出音频部分的数据,并保持了分离出来的音频和原有视频在时间轴方向的一致,音频数据经过数字降噪技术处理,能量过低的部分和包含杂音信号的语音段被处理成静音,转化后,音频输出为标准的待识别语音。
3、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法,其特征在于所述的语音识别服务器将训练语料训练成声学模型:训练语料采用标准汉语普通话朗读的广播语音,训练语料经过特征提取模块得到语音特征,特征类型采用美尔倒谱系数,语音特征经过声学模型训练得到隐马尔可夫声学模型。
4、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法,其特征在于所述的将待识别语音和声学模型匹配得到语意文本索引:待识别语音经过特征提取模块得到待识别语音美尔倒谱系数特征,路径搜索器读取待识别语音美尔倒谱系数特征,在隐马尔可夫声学模型的路径中进行最短路径识别,得到语音片段对应的语意文本;结合语音时间轴信息,输出包含语意文本和时间起止点数据的语意文本索引。
5、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法,其特征在于所述的索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果:对语音识别服务器输出的语意文本索引,进行倒排索引转化,得到以语意关键词为主键,关键词出现位置信息序列为键值的倒排索引条目,存储到索引库中,执行检索时,向检索服务器输入文本形式的关键词或关键词组合,根据检索关键词读取倒排索引条目,输出关键词出现位置信息序列。
6、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法,其特征在于所述的语意文本索引是一个二元对,包含了文本关键词、关键词在语音中一次出现的时间段起点和时间段终点数据。
7、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法,其特征在于所述的关键词索引是一个三元对,包含了关键词、关键词对应的视频和音频资源文件号、关键词在语音中一次出现的时间段起点和时间段终点数据。
8、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法,其特征在于所述的检索结果是描述了一系列包含所检索关键词的资源文件,以及在某个资源文件中,出现该关键词语音片段的一系列时间段信息。
CNB2008100620738A 2008-05-28 2008-05-28 一种基于音频内容检索的多媒体资源检索方法 Expired - Fee Related CN100565532C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2008100620738A CN100565532C (zh) 2008-05-28 2008-05-28 一种基于音频内容检索的多媒体资源检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2008100620738A CN100565532C (zh) 2008-05-28 2008-05-28 一种基于音频内容检索的多媒体资源检索方法

Publications (2)

Publication Number Publication Date
CN101281534A true CN101281534A (zh) 2008-10-08
CN100565532C CN100565532C (zh) 2009-12-02

Family

ID=40014009

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2008100620738A Expired - Fee Related CN100565532C (zh) 2008-05-28 2008-05-28 一种基于音频内容检索的多媒体资源检索方法

Country Status (1)

Country Link
CN (1) CN100565532C (zh)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883079A (zh) * 2009-05-08 2010-11-10 上海聚力传媒技术有限公司 在互联网中用于加速点播多媒体内容的方法与装置
CN102067589A (zh) * 2009-05-18 2011-05-18 尹在敏 数字录像机系统及其应用方法
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN102375834A (zh) * 2010-08-17 2012-03-14 腾讯科技(深圳)有限公司 音频文件检索方法、系统和音频文件类型识别方法、系统
CN101996195B (zh) * 2009-08-28 2012-07-11 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102592628A (zh) * 2012-02-15 2012-07-18 张群 一种音视频播放文件的播放控制方法
CN102750366A (zh) * 2012-06-18 2012-10-24 海信集团有限公司 基于自然交互输入的视频搜索系统及方法和视频搜索服务器
CN102831213A (zh) * 2012-08-16 2012-12-19 广东小天才科技有限公司 一种学习内容的搜索方法、装置及电子产品
CN102833595A (zh) * 2012-09-20 2012-12-19 北京十分科技有限公司 一种信息传送的方法及装置
CN103581694A (zh) * 2012-07-19 2014-02-12 冠捷投资有限公司 具人声搜寻功能的智能电视、智能影音系统及人声搜寻的方法
CN103914530A (zh) * 2014-03-31 2014-07-09 北京中科模识科技有限公司 广播电视节目中违规广告的监测方法和系统
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统
CN104105002A (zh) * 2014-07-15 2014-10-15 百度在线网络技术(北京)有限公司 音视频文件的展示方法和装置
CN104239328A (zh) * 2013-06-18 2014-12-24 联想(北京)有限公司 多媒体处理方法及多媒体系统
US9009054B2 (en) 2009-10-30 2015-04-14 Sony Corporation Program endpoint time detection apparatus and method, and program information retrieval system
CN104572712A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 浏览多媒体文件的系统及方法
CN104572716A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 影音文件播放的系统及其方法
CN104599692A (zh) * 2014-12-16 2015-05-06 上海合合信息科技发展有限公司 录音方法及装置,录音内容搜索方法及装置
CN104618807A (zh) * 2014-03-31 2015-05-13 腾讯科技(北京)有限公司 多媒体播放方法、装置及系统
CN104994400A (zh) * 2015-07-06 2015-10-21 无锡天脉聚源传媒科技有限公司 一种获取主持人姓名用来索引视频的方法及装置
CN105336343A (zh) * 2015-10-28 2016-02-17 天脉聚源(北京)教育科技有限公司 一种信息查找方法及装置
CN105550308A (zh) * 2015-12-14 2016-05-04 联想(北京)有限公司 一种信息处理方法,检索方法及电子设备
CN105825849A (zh) * 2016-04-06 2016-08-03 普强信息技术(北京)有限公司 一种基于识别结果时间边界的时间位置关键词命中分析方法
CN105898204A (zh) * 2014-12-25 2016-08-24 支录奎 视频结构化智能录像机
CN105898498A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 视频同步方法及系统
CN105913838A (zh) * 2016-05-19 2016-08-31 努比亚技术有限公司 音频管理装置和方法
CN106096050A (zh) * 2016-06-29 2016-11-09 乐视控股(北京)有限公司 一种视频内容搜索的方法和装置
CN103581694B (zh) * 2012-07-19 2016-11-30 冠捷投资有限公司 具人声搜寻功能的智能电视、智能影音系统及人声搜寻的方法
CN106686401A (zh) * 2017-01-13 2017-05-17 山东鑫诚信电子科技有限公司 一种视频数据分布式存储与检索的方法及装置
CN107316638A (zh) * 2017-06-28 2017-11-03 北京粉笔未来科技有限公司 一种诗词背诵评测方法及系统、一种终端及存储介质
CN107534800A (zh) * 2014-12-01 2018-01-02 构造数据有限责任公司 用于连续介质片段识别的系统和方法
CN107609149A (zh) * 2017-09-21 2018-01-19 北京奇艺世纪科技有限公司 一种视频定位方法和装置
CN107798143A (zh) * 2017-11-24 2018-03-13 珠海市魅族科技有限公司 一种信息搜索方法、装置、终端及可读存储介质
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN108986792A (zh) * 2018-09-11 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及系统
CN109523990A (zh) * 2019-01-21 2019-03-26 未来电视有限公司 语音检测方法和装置
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN109785052A (zh) * 2018-12-26 2019-05-21 珠海横琴跨境说网络科技有限公司 基于暗数据挖掘的智能购物方法及系统
CN110232921A (zh) * 2019-06-21 2019-09-13 深圳市酷开网络科技有限公司 基于生活服务的语音操作方法、装置、智能电视及系统
CN110351183A (zh) * 2019-06-03 2019-10-18 阿里巴巴集团控股有限公司 即时通讯中的资源收藏方法以及装置
CN110867179A (zh) * 2019-11-12 2020-03-06 云南电网有限责任公司德宏供电局 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统
CN111125408A (zh) * 2019-10-11 2020-05-08 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111723236A (zh) * 2019-03-18 2020-09-29 百度在线网络技术(北京)有限公司 视频索引建立方法、装置、设备及计算机可读介质
CN113470627A (zh) * 2021-07-02 2021-10-01 因诺微科技(天津)有限公司 一种基于mvgg-ctc的关键词搜索方法
CN113744831A (zh) * 2021-08-20 2021-12-03 中国联合网络通信有限公司成都市分公司 一种线上医疗应用购买系统
CN114173191A (zh) * 2021-12-09 2022-03-11 上海开放大学 一种基于人工智能的多语言答疑方法和系统
CN115129923A (zh) * 2022-05-17 2022-09-30 荣耀终端有限公司 语音搜索方法、设备及存储介质

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883079A (zh) * 2009-05-08 2010-11-10 上海聚力传媒技术有限公司 在互联网中用于加速点播多媒体内容的方法与装置
CN102067589A (zh) * 2009-05-18 2011-05-18 尹在敏 数字录像机系统及其应用方法
CN101996195B (zh) * 2009-08-28 2012-07-11 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
US9009054B2 (en) 2009-10-30 2015-04-14 Sony Corporation Program endpoint time detection apparatus and method, and program information retrieval system
CN102375834B (zh) * 2010-08-17 2016-01-20 腾讯科技(深圳)有限公司 音频文件检索方法、系统和音频文件类型识别方法、系统
CN102375834A (zh) * 2010-08-17 2012-03-14 腾讯科技(深圳)有限公司 音频文件检索方法、系统和音频文件类型识别方法、系统
CN102074235B (zh) * 2010-12-20 2013-04-03 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN102592628A (zh) * 2012-02-15 2012-07-18 张群 一种音视频播放文件的播放控制方法
CN102750366A (zh) * 2012-06-18 2012-10-24 海信集团有限公司 基于自然交互输入的视频搜索系统及方法和视频搜索服务器
CN103581694A (zh) * 2012-07-19 2014-02-12 冠捷投资有限公司 具人声搜寻功能的智能电视、智能影音系统及人声搜寻的方法
CN103581694B (zh) * 2012-07-19 2016-11-30 冠捷投资有限公司 具人声搜寻功能的智能电视、智能影音系统及人声搜寻的方法
CN102831213B (zh) * 2012-08-16 2015-08-05 广东小天才科技有限公司 一种学习内容的搜索方法、装置及电子产品
CN102831213A (zh) * 2012-08-16 2012-12-19 广东小天才科技有限公司 一种学习内容的搜索方法、装置及电子产品
WO2014043969A1 (zh) * 2012-09-20 2014-03-27 北京酷云互动科技有限公司 一种信息传送的方法及装置
CN102833595A (zh) * 2012-09-20 2012-12-19 北京十分科技有限公司 一种信息传送的方法及装置
CN104239328A (zh) * 2013-06-18 2014-12-24 联想(北京)有限公司 多媒体处理方法及多媒体系统
CN104572712A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 浏览多媒体文件的系统及方法
CN104572716A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 影音文件播放的系统及其方法
CN103914530B (zh) * 2014-03-31 2017-02-15 北京中科模识科技有限公司 广播电视节目中违规广告的监测方法和系统
CN104618807A (zh) * 2014-03-31 2015-05-13 腾讯科技(北京)有限公司 多媒体播放方法、装置及系统
CN103914530A (zh) * 2014-03-31 2014-07-09 北京中科模识科技有限公司 广播电视节目中违规广告的监测方法和系统
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统
CN104105002B (zh) * 2014-07-15 2018-12-21 百度在线网络技术(北京)有限公司 音视频文件的展示方法和装置
CN104105002A (zh) * 2014-07-15 2014-10-15 百度在线网络技术(北京)有限公司 音视频文件的展示方法和装置
CN107534800B (zh) * 2014-12-01 2020-07-03 构造数据有限责任公司 用于连续介质片段识别的系统和方法
CN107534800A (zh) * 2014-12-01 2018-01-02 构造数据有限责任公司 用于连续介质片段识别的系统和方法
CN104599692B (zh) * 2014-12-16 2017-12-15 上海合合信息科技发展有限公司 录音方法及装置,录音内容搜索方法及装置
CN104599692A (zh) * 2014-12-16 2015-05-06 上海合合信息科技发展有限公司 录音方法及装置,录音内容搜索方法及装置
CN105898204A (zh) * 2014-12-25 2016-08-24 支录奎 视频结构化智能录像机
CN104994400A (zh) * 2015-07-06 2015-10-21 无锡天脉聚源传媒科技有限公司 一种获取主持人姓名用来索引视频的方法及装置
CN105336343A (zh) * 2015-10-28 2016-02-17 天脉聚源(北京)教育科技有限公司 一种信息查找方法及装置
CN105550308B (zh) * 2015-12-14 2019-07-26 联想(北京)有限公司 一种信息处理方法,检索方法及电子设备
CN105550308A (zh) * 2015-12-14 2016-05-04 联想(北京)有限公司 一种信息处理方法,检索方法及电子设备
CN105898498A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 视频同步方法及系统
CN105825849A (zh) * 2016-04-06 2016-08-03 普强信息技术(北京)有限公司 一种基于识别结果时间边界的时间位置关键词命中分析方法
CN105913838A (zh) * 2016-05-19 2016-08-31 努比亚技术有限公司 音频管理装置和方法
CN106096050A (zh) * 2016-06-29 2016-11-09 乐视控股(北京)有限公司 一种视频内容搜索的方法和装置
CN106686401A (zh) * 2017-01-13 2017-05-17 山东鑫诚信电子科技有限公司 一种视频数据分布式存储与检索的方法及装置
CN107316638A (zh) * 2017-06-28 2017-11-03 北京粉笔未来科技有限公司 一种诗词背诵评测方法及系统、一种终端及存储介质
CN107609149A (zh) * 2017-09-21 2018-01-19 北京奇艺世纪科技有限公司 一种视频定位方法和装置
CN107609149B (zh) * 2017-09-21 2020-06-19 北京奇艺世纪科技有限公司 一种视频定位方法和装置
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN107798143A (zh) * 2017-11-24 2018-03-13 珠海市魅族科技有限公司 一种信息搜索方法、装置、终端及可读存储介质
CN108986792A (zh) * 2018-09-11 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及系统
CN109785052A (zh) * 2018-12-26 2019-05-21 珠海横琴跨境说网络科技有限公司 基于暗数据挖掘的智能购物方法及系统
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN109523990A (zh) * 2019-01-21 2019-03-26 未来电视有限公司 语音检测方法和装置
CN109523990B (zh) * 2019-01-21 2021-11-05 未来电视有限公司 语音检测方法和装置
CN111723236A (zh) * 2019-03-18 2020-09-29 百度在线网络技术(北京)有限公司 视频索引建立方法、装置、设备及计算机可读介质
CN110351183A (zh) * 2019-06-03 2019-10-18 阿里巴巴集团控股有限公司 即时通讯中的资源收藏方法以及装置
CN110351183B (zh) * 2019-06-03 2021-06-08 创新先进技术有限公司 即时通讯中的资源收藏方法以及装置
CN110232921A (zh) * 2019-06-21 2019-09-13 深圳市酷开网络科技有限公司 基于生活服务的语音操作方法、装置、智能电视及系统
CN111125408A (zh) * 2019-10-11 2020-05-08 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN111125408B (zh) * 2019-10-11 2023-08-29 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN110867179A (zh) * 2019-11-12 2020-03-06 云南电网有限责任公司德宏供电局 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111429912B (zh) * 2020-03-17 2023-02-10 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN113470627A (zh) * 2021-07-02 2021-10-01 因诺微科技(天津)有限公司 一种基于mvgg-ctc的关键词搜索方法
CN113744831A (zh) * 2021-08-20 2021-12-03 中国联合网络通信有限公司成都市分公司 一种线上医疗应用购买系统
CN114173191A (zh) * 2021-12-09 2022-03-11 上海开放大学 一种基于人工智能的多语言答疑方法和系统
CN114173191B (zh) * 2021-12-09 2024-03-19 上海开放大学 一种基于人工智能的多语言答疑方法和系统
CN115129923A (zh) * 2022-05-17 2022-09-30 荣耀终端有限公司 语音搜索方法、设备及存储介质
CN115129923B (zh) * 2022-05-17 2023-10-20 荣耀终端有限公司 语音搜索方法、设备及存储介质

Also Published As

Publication number Publication date
CN100565532C (zh) 2009-12-02

Similar Documents

Publication Publication Date Title
CN100565532C (zh) 一种基于音频内容检索的多媒体资源检索方法
Chelba et al. Retrieval and browsing of spoken content
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
US7542966B2 (en) Method and system for retrieving documents with spoken queries
CN101510222B (zh) 一种多层索引语音文档检索方法
EP2252995B1 (en) Method and apparatus for voice searching for stored content using uniterm discovery
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
EP2135180A1 (en) Method and apparatus for distributed voice searching
Zhou et al. Towards spoken-document retrieval for the internet: Lattice indexing for large-scale web-search architectures
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
Cardillo et al. Phonetic searching vs. LVCSR: How to find what you really want in audio archives
Ikawa et al. Acoustic event search with an onomatopoeic query: measuring distance between onomatopoeic words and sounds.
Alexander et al. Audio features, precomputed for podcast retrieval and information access experiments
Sen et al. Audio indexing
Clements et al. Phonetic searching of digital audio
Bendib et al. Semantic ontologies for multimedia indexing (SOMI) Application in the e-library domain
Hsieh et al. Improved spoken document retrieval with dynamic key term lexicon and probabilistic latent semantic analysis (PLSA)
Chelba et al. Indexing uncertainty for spoken document search.
Charhad et al. Speaker identity indexing in audio-visual documents
Chang et al. Latent semantic retrieval of spoken documents over position specific posterior lattices
Kazemian et al. A critical assessment of spoken utterance retrieval through approximate lattice representations
Sugimoto et al. Effect of document expansion using web documents for spoken documents retrieval
Nishizaki et al. Web page collection using automatic document segmentation for spoken document retrieval
Feng Multilevel structured convolution neural network for speech keyword location and recognition: MSS‐Net

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HANGZHOU WISEZONE NETWORK CO., LTD.

Free format text: FORMER OWNER: YE RUIZHI

Effective date: 20101220

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 310013 EAST ROOM 326, SCIENCE AND TECHNOLOGY PARK A, ZHEJIANG UNIVERSITY, NO. 525, XIXI ROAD, XIHU DISTRICT, HANGZHOU CITY, ZHEJIANG PROVINCE TO: 310013 3/F, BUILDING 12, XIHU SHUYUAN SOFTWARE PARK, NO. 176, TIANMUSHAN ROAD, XIHU DISTRICT, HANGZHOU CITY, ZHEJIANG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20101220

Address after: Hangzhou City, Zhejiang province 310013 Xihu District Tianmushan Road No. 176 West Lake soyea Software Park 12 building 3 floor

Patentee after: Hangzhou micro network Co., Ltd.

Address before: 326 A East, room 525, Zhejiang University Science Park, Xixi Road, Xihu District, Zhejiang, Hangzhou 310013, China

Patentee before: Ye Ruizhi

DD01 Delivery of document by public notice

Addressee: Hangzhou micro network Co., Ltd.

Document name: Notification to Pay the Fees

DD01 Delivery of document by public notice

Addressee: Hangzhou micro network Co., Ltd.

Document name: Notification of Termination of Patent Right

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091202

Termination date: 20130528