CN104391924A - 一种混合音视频检索方法及系统 - Google Patents

一种混合音视频检索方法及系统 Download PDF

Info

Publication number
CN104391924A
CN104391924A CN201410668366.6A CN201410668366A CN104391924A CN 104391924 A CN104391924 A CN 104391924A CN 201410668366 A CN201410668366 A CN 201410668366A CN 104391924 A CN104391924 A CN 104391924A
Authority
CN
China
Prior art keywords
video
audio
audio frequency
eigenvector
scene frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410668366.6A
Other languages
English (en)
Inventor
马展
田海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING XUNSIYA INFORMATION TECHNOLOGY Co Ltd
Original Assignee
NANJING XUNSIYA INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING XUNSIYA INFORMATION TECHNOLOGY Co Ltd filed Critical NANJING XUNSIYA INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410668366.6A priority Critical patent/CN104391924A/zh
Publication of CN104391924A publication Critical patent/CN104391924A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种混合音视频检索方法及系统,方法包括:步骤(1)将任意视频数据分解成视频序列和音频序列;步骤(2)针对视频序列,通过场景分析提取有限场景帧;步骤(3)在有限场景帧上提取特征点组成表征该场景帧的特征矢量;步骤(4)针对音频序列,通过使用音频转文字的算法,将其转换成和音频时间轴匹配的文字串;步骤(5)根据音视频同步时间轴信息将步骤(3)所述场景帧的特征矢量和步骤(4)所述文字串匹配,作为元数据附加在原始视频数据头文件,开放给上层接口检索。本发明提出一种混合音视频检索系统。本发明通过综合视频特征提取,音频转文字,文字关键字自动传递,将海量视频数据检索效率和准确性大大提高。

Description

一种混合音视频检索方法及系统
技术领域
本发明涉及一种视频文件检索技术,尤其涉及一种混合音视频的检索方法和系统。
背景技术
日前,70%乃至更多的网络传输已被海量的多媒体数据,特别是视频数据占据。而这样的趋势还在继续。这样的多媒体数据包括视频,音频,文字,以及它们的聚合体。对于这样海量的数据,如何行之有效的检索是一件非常挑战的工作。
目前的检索系统主要技术包括:
纯文字关键字检索:该技术目前最为成熟,通过匹配检索的关键字获取相关信息,已被广泛商用,例如Google, Bing, Baidu等。主要优点是快速,技术成熟,但是对于图形图像需要定义统一的规则描述其内容,难度较大。
纯图像检索:该技术通过模式识别将上传图像作为特征矢量寻找数据库中匹配或者近似的图像。Google或者Baidu已经集成了相关的技术给用户进行图片匹配检索。此外,国际标准组织ISO/IEC针对图片检索的进行了图片特征矢量标准化工作,以期通过统一的格式来传输检索图片特征。主要优点是“所见即所得”,无需再通过文字进一步描述,但是检索效率和准确率都不及文字检索。
申请号为200810062073.8的专利申请公开了一种基于音频内容检索的多媒体资源检索方法。包括如下步骤:1)预处理服务器将视频和音频转化为标准的待识别语音;2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;3)索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。该发明利用音频中关键词检出技术,获得了音视频资源内在的语意信息,对文本化的语意信息进行索引,提供了全面可靠的音视频资源信息索引,可以让检索系统更准确的匹配到多媒体资源,并且定位到检索词在音视频中出现的精确位置。
申请号为201110073050.9的专利申请公开了一种多媒体信息检索的方法,首先采集音视频数据,获取音频数据的Lattice结果,根据时间点信息和匹配似然值打分信息,获得置信度打分信息,采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果,建立前向索引和后向索引,输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的入口位置以及对应的置信度打分信息,分别进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回候选位置列表以及对应的音视频位置处。采用了该发明的技术方案,能够对多媒体信息进行更彻底的标注,能够更加精细、快捷地索引和定位到感兴趣的位置。
申请号为201110073048.1的专利申请公开了一种多媒体信息模糊检索方法,首先采集音视频数据,获取音频数据的Lattice结果,根据时间点信息和匹配似然值打分信息,获得置信度打分信息,采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果,建立字词级和音素级索引库,生成原始信息库,输入待检索文本和时间点信息,转成音素序列,并利用音素混淆矩阵,获得类似的音素序列,拆分成多个音素组合,分别进入后向索引库进行查询,再进入原始信息库进行精确匹配,返回候选位置。采用该发明的技术方案,能够最大限度地增加检索到的数量,并在保证系统性能的前提下,极大提高检索速度。
但是上述方案的流程比较复杂,需要消耗较多的系统资源。除去上述方法,现有的流行的检索系统中还未有结合音频特征进行检索的文献公开。
发明内容
本发明所要解决的技术问题是针对背景技术的缺陷,从多媒体数据的内在联系出发,通过分析视频,图像,音频和相关文字的特征,提出一种高效精确的多媒体检索方法。
本发明为解决上述技术问题采用以下技术方案:
一种混合音视频检索方法,包括以下步骤:
步骤(1)、将任意视频数据分解成视频序列和音频序列;所述视频序列和音频序列中均包含音视频同步时间轴信息;
步骤(2)、针对视频序列,通过场景分析提取有限场景帧;
步骤(3)、在有限场景帧上提取特征点组成表征该场景帧的特征矢量;
步骤(4)、针对音频序列,通过使用音频转文字的算法,将其转换成和音频时间轴匹配的文字串;
步骤(5)、根据音视频同步时间轴信息将步骤(3)所述场景帧的特征矢量和步骤(4)所述文字串匹配,作为元数据附加在原始视频数据头文件,开放给上层接口检索。
作为本发明的一种混合音视频检索方法进一步的优化方案,步骤(2)中,有限场景帧是使用临近帧的像素误差分布进行场景分析提取获得。
作为本发明的一种混合音视频检索方法进一步的优化方案,步骤(3)中,特征点是使用SIFT算法提取获得。
作为本发明的一种混合音视频检索方法进一步的优化方案,步骤(4)中,音频转文字的算法为TranscribeMe。
作为本发明的一种混合音视频检索方法进一步的优化方案,步骤(5)中,在检索时,通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配,输出与特征矢量对应的视频流。
作为本发明的一种混合音视频检索方法进一步的优化方案,步骤(5)中,在检索时是通过关键字检索,通过输入关键字在文字串中找到匹配点,然后从匹配点输出对应的视频流。
本发明为解决上述技术问题还提出一种混合音视频检索系统,包括:
分解单元,用于将任意视频数据分解成视频序列和音频序列; 
视频特征获取单元,用于对分解出的视频序列通过场景分析提取有限场景帧,并在有限场景帧上提取特征点组成表征该场景帧的特征矢量;
音频特征获取单元,用于通过使用音频转文字的算法,将音频序列转换成和音频时间轴匹配的文字串;
匹配单元,根据音视频同步时间轴信息将视频特征获取单元获取的特征矢量和音频特征获取单元获取的文字串匹配,作为元数据附加在原始视频数据头文件。
作为本发明的一种混合音视频检索系统进一步的优化方案,还包括一检索单元,通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配,输出与特征矢量对应的视频流。
作为本发明的一种混合音视频检索系统进一步的优化方案,还包括一检索单元,通过输入关键字在文字串中找到匹配点,然后从匹配点输出对应的视频流。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出一种新型混合框架,通过综合视频特征提取(Video Feature Extraction),音频转文字(Audio-to-Text),文字关键字定位(Text Keywords Detection)等创新技术,将海量视频数据检索效率和准确性大大提高。
附图说明
图1是常见网络视频数据结构图。
图2是音频文字转化与时间轴匹配图。
图3是本发明的方法流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
如图1所示,图1 给出了常见的视频数据结构,里面包括视频图像序列(Video Frame Track)和相应的音频序列(Audio Track)。音频和视频序列在时间轴上同步,例如图中虚线框画出的音视频同步点在hh小时, mm分钟和ss秒。
由于视频图像的数据量庞大,并且整个视频理论上总是以有限个场景聚合而成。因此,本发明将分析视频图像序列,提取不同场景的代表帧来获取图像特征矢量。图1中黑色图像帧为该序列中所提取的场景帧。
如图2所示,图2给出了目前流行的音频至文字转换方法,例如TranscribeMe,转换过程中保持音视频时间轴对应关系不变。
本发明基准点着眼于现有的网络中丰富的视频和音频数据。虽然现在可以通过人为的方式对视频数据(例如YouTube)进行关键字标注,由于不可估计的庞大数据量,明显这是一个不现实的方案。但是,网络视频数据通常带有视频图像文件(Video Frame Track)和对应的音频文件(Audio Track)。而视频图像和对应的音频是该视频数据的完备描述。此外,为了利用文字检索的高效和快速,本发明将视频数据中音频文件首先进行文字转化,按照时间片分割和视频图像帧对应。一种方法是通过关键字检索,直接操作音频转化后的文字片,精确定位视频图像。另外,除去文字检索的方法,本发明还可以通过直接输入图片,检索类似或者相同的视频数据。为了达到这样的目的,本发明将视频图像提取特征,并将特征矢量化。图像特征矢量表征作为视频的描述进行检索定位。
本发明主要包括两大部分:第一部分将网络视频数据元数据提取,包括视频图像特征提取,音频文字片转换,该部分主要在服务器后代操作;第二部分是前台客户端检索,主要包括文字关键字和图片直接输入检索。
如图3所示,本发明具体实现步骤如下:
1、将任意视频数据分解成视频序列和视频序列;
2、针对视频序列,通过场景分析提取有限场景帧,场景帧的分析可以使用临近帧的像素误差分布;
3、在有限场景帧上提取特征点组成表征该场景帧的特征矢量,特征点的提取可以使用常用的SIFT算法 (也可以使用其他方法,例如SURF) ;
4、针对音频序列,通过使用音频转文字的算法,例如TranscribeMe(也可以使用其他方法,例如科大讯飞语音识别),将其转换成和音频时间轴匹配的文字串。
5、根据音视频同步时间轴信息将特征场景帧矢量和文字串匹配,作为元数据附加在原始视频数据头文件,开放给上层接口检索。
在第5步中,可以采用以下两种方式进行匹配:
A)直接图片检索可以将图片生成的特征矢量和头文件中视频场景帧矢量匹配;
B)输入关键字在文字串中找到匹配,然后从匹配点输出对应的视频流。
本发明还提出一种混合音视频检索系统,包括:
分解单元,用于将任意视频数据分解成视频序列和音频序列; 
视频特征获取单元,用于对分解出的视频序列通过场景分析提取有限场景帧,并在有限场景帧上提取特征点组成表征该场景帧的特征矢量;
音频特征获取单元,用于通过使用音频转文字的算法,将音频序列转换成和音频时间轴匹配的文字串;
匹配单元,根据音视频同步时间轴信息将视频特征获取单元获取的特征矢量和音频特征获取单元获取的文字串匹配,作为元数据附加在原始视频数据头文件。
本发明的一种混合音视频检索系统还包括一检索单元,通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配,输出与特征矢量对应的视频流。也可以通过输入关键字在文字串中找到匹配点,然后从匹配点输出对应的视频流。
本技术领域技术人员可以理解的是,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
本技术领域技术人员可以理解的是,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种混合音视频检索方法,其特征在于,包括以下步骤:
步骤(1)、将任意视频数据分解成视频序列和音频序列;所述视频序列和音频序列中均包含音视频同步时间轴信息;
步骤(2)、针对视频序列,通过场景分析提取有限场景帧;
步骤(3)、在有限场景帧上提取特征点组成表征该场景帧的特征矢量;
步骤(4)、针对音频序列,通过使用音频转文字的算法,将其转换成和音频时间轴匹配的文字串;
步骤(5)、根据音视频同步时间轴信息将步骤(3)所述场景帧的特征矢量和步骤(4)所述文字串匹配,作为元数据附加在原始视频数据头文件,开放给上层接口检索。
2.根据权利要求1所述的一种混合音视频检索方法,其特征在于,步骤(2)中,有限场景帧是使用临近帧的像素误差分布进行场景分析提取获得。
3.根据权利要求1所述的一种混合音视频检索方法,其特征在于,步骤(3)中,特征点是使用SIFT算法提取获得。
4.根据权利要求1所述的一种混合音视频检索方法,其特征在于,步骤(4)中,音频转文字的算法为TranscribeMe。
5.根据权利要求1所述的一种混合音视频检索方法,其特征在于,步骤(5)中,在检索时,通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配,输出与特征矢量对应的视频流。
6.根据权利要求1所述的一种混合音视频检索方法,其特征在于,步骤(5)中,在检索时是通过关键字检索,通过输入关键字在文字串中找到匹配点,然后从匹配点输出对应的视频流。
7.一种混合音视频检索系统,其特征在于,包括:
分解单元,用于将任意视频数据分解成视频序列和音频序列; 
视频特征获取单元,用于对分解出的视频序列通过场景分析提取有限场景帧,并在有限场景帧上提取特征点组成表征该场景帧的特征矢量;
音频特征获取单元,用于通过使用音频转文字的算法,将音频序列转换成和音频时间轴匹配的文字串;
匹配单元,根据音视频同步时间轴信息将视频特征获取单元获取的特征矢量和音频特征获取单元获取的文字串匹配,作为元数据附加在原始视频数据头文件。
8.根据权利要求7所述的一种混合音视频检索系统,其特征在于,还包括一检索单元,通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配,输出与特征矢量对应的视频流。
9.根据权利要求7所述的一种混合音视频检索系统,其特征在于,还包括一检索单元,通过输入关键字在文字串中找到匹配点,然后从匹配点输出对应的视频流。
CN201410668366.6A 2014-11-21 2014-11-21 一种混合音视频检索方法及系统 Pending CN104391924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410668366.6A CN104391924A (zh) 2014-11-21 2014-11-21 一种混合音视频检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410668366.6A CN104391924A (zh) 2014-11-21 2014-11-21 一种混合音视频检索方法及系统

Publications (1)

Publication Number Publication Date
CN104391924A true CN104391924A (zh) 2015-03-04

Family

ID=52609828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410668366.6A Pending CN104391924A (zh) 2014-11-21 2014-11-21 一种混合音视频检索方法及系统

Country Status (1)

Country Link
CN (1) CN104391924A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715033A (zh) * 2015-03-16 2015-06-17 太原理工大学 一种阶梯式音频检索方法
CN106407268A (zh) * 2015-08-25 2017-02-15 Tcl集团股份有限公司 一种基于覆盖率最优化法的内容检索方法及系统
WO2017107698A1 (zh) * 2015-12-25 2017-06-29 珠海赛纳打印科技股份有限公司 一种打印控制系统和方法
CN107124648A (zh) * 2017-04-17 2017-09-01 浙江德塔森特数据技术有限公司 通过智能终端识别广告视频来源的方法
CN107197327A (zh) * 2017-06-26 2017-09-22 广州天翌云信息科技有限公司 一种数字媒体制作方法
CN107534789A (zh) * 2015-06-25 2018-01-02 松下知识产权经营株式会社 影像同步装置及影像同步方法
CN107688571A (zh) * 2016-08-04 2018-02-13 上海德拓信息技术股份有限公司 多元化的视频检索方法
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN110223718A (zh) * 2019-06-18 2019-09-10 联想(北京)有限公司 一种数据处理方法、装置及存储介质
CN110585702A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种音画同步数据处理方法、装置、设备及介质
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统
CN111241335A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频广告检测方法、系统、移动终端及存储介质
CN112347303A (zh) * 2020-11-27 2021-02-09 上海科江电子信息技术有限公司 媒体视听信息流监测监管数据样本及其标注方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
WO2010077457A1 (en) * 2008-12-08 2010-07-08 Motorola, Inc. Method and apparatus for generating a multimedia-based query
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102087668A (zh) * 2011-02-17 2011-06-08 天擎华媒(北京)科技有限公司 一种自动获取音视频字幕和歌词并快速定位检索及个性化显示的方法
CN102650993A (zh) * 2011-02-25 2012-08-29 北大方正集团有限公司 音视频文件的索引建立和检索方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
WO2010077457A1 (en) * 2008-12-08 2010-07-08 Motorola, Inc. Method and apparatus for generating a multimedia-based query
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102087668A (zh) * 2011-02-17 2011-06-08 天擎华媒(北京)科技有限公司 一种自动获取音视频字幕和歌词并快速定位检索及个性化显示的方法
CN102650993A (zh) * 2011-02-25 2012-08-29 北大方正集团有限公司 音视频文件的索引建立和检索方法、装置及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715033A (zh) * 2015-03-16 2015-06-17 太原理工大学 一种阶梯式音频检索方法
CN107534789A (zh) * 2015-06-25 2018-01-02 松下知识产权经营株式会社 影像同步装置及影像同步方法
CN107534789B (zh) * 2015-06-25 2021-04-27 松下知识产权经营株式会社 影像同步装置及影像同步方法
CN106407268B (zh) * 2015-08-25 2020-08-18 Tcl科技集团股份有限公司 一种基于覆盖率最优化法的内容检索方法及系统
CN106407268A (zh) * 2015-08-25 2017-02-15 Tcl集团股份有限公司 一种基于覆盖率最优化法的内容检索方法及系统
WO2017107698A1 (zh) * 2015-12-25 2017-06-29 珠海赛纳打印科技股份有限公司 一种打印控制系统和方法
CN107688571A (zh) * 2016-08-04 2018-02-13 上海德拓信息技术股份有限公司 多元化的视频检索方法
CN107124648A (zh) * 2017-04-17 2017-09-01 浙江德塔森特数据技术有限公司 通过智能终端识别广告视频来源的方法
CN107197327A (zh) * 2017-06-26 2017-09-22 广州天翌云信息科技有限公司 一种数字媒体制作方法
CN107197327B (zh) * 2017-06-26 2020-11-13 广州天翌云信息科技有限公司 一种数字媒体制作方法
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN110223718A (zh) * 2019-06-18 2019-09-10 联想(北京)有限公司 一种数据处理方法、装置及存储介质
CN110223718B (zh) * 2019-06-18 2021-07-16 联想(北京)有限公司 一种数据处理方法、装置及存储介质
CN110585702A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种音画同步数据处理方法、装置、设备及介质
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统
CN111241335A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频广告检测方法、系统、移动终端及存储介质
CN112347303A (zh) * 2020-11-27 2021-02-09 上海科江电子信息技术有限公司 媒体视听信息流监测监管数据样本及其标注方法
CN112347303B (zh) * 2020-11-27 2024-06-14 上海科江电子信息技术有限公司 媒体视听信息流监测监管数据样本及其标注方法

Similar Documents

Publication Publication Date Title
CN104391924A (zh) 一种混合音视频检索方法及系统
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
CN108833973B (zh) 视频特征的提取方法、装置和计算机设备
US20220027634A1 (en) Video processing method, electronic device and storage medium
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
WO2019228267A1 (zh) 短视频的合成方法、装置、设备及存储介质
KR20210104571A (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
CN104809117B (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
CN110008378B (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
EP4207772A1 (en) Video processing method and apparatus
CN110839173A (zh) 一种音乐匹配方法、装置、终端及存储介质
CN111046225B (zh) 音频资源处理方法、装置、设备及存储介质
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
WO2013170587A1 (zh) 一种多媒体问答系统及方法
CN104036023A (zh) 一种融合上下文的树形视频语义索引建立方法
CN113094512B (zh) 一种工业生产制造中故障分析系统及方法
CN113806588A (zh) 搜索视频的方法和装置
KR102345401B1 (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
US10114891B2 (en) Method and system of audio retrieval and source separation
CN106550268B (zh) 视频处理方法和视频处理装置
CN118332086A (zh) 一种基于大语言模型的问答对生成方法和系统
WO2024188044A1 (zh) 视频标签生成方法、装置、电子设备及存储介质
CN106372083B (zh) 一种有争议性新闻线索自动发现的方法及系统
CN117216308B (zh) 基于大模型的搜索方法、系统、设备及介质
CN114637886A (zh) 一种基于多协议的机器视觉系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150304

WD01 Invention patent application deemed withdrawn after publication