CN103984772B - 文本检索字幕库生成方法和装置、视频检索方法和装置 - Google Patents

文本检索字幕库生成方法和装置、视频检索方法和装置 Download PDF

Info

Publication number
CN103984772B
CN103984772B CN201410244830.9A CN201410244830A CN103984772B CN 103984772 B CN103984772 B CN 103984772B CN 201410244830 A CN201410244830 A CN 201410244830A CN 103984772 B CN103984772 B CN 103984772B
Authority
CN
China
Prior art keywords
captions
video
sentence
languages
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410244830.9A
Other languages
English (en)
Other versions
CN103984772A (zh
Inventor
韩钧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410244830.9A priority Critical patent/CN103984772B/zh
Publication of CN103984772A publication Critical patent/CN103984772A/zh
Application granted granted Critical
Publication of CN103984772B publication Critical patent/CN103984772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本检索字幕库生成方法和装置、视频检索方法和装置。文本检索字幕库生成方法包括:根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕;将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库;视频检索方法包括:获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集;根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果。本发明通过在视频检索服务中增加字幕检索,优化了现有的视频检索服务,为用户提供了一种基于台词的视频字幕检索服务,提高了视频检索服务的个性化和便捷化。

Description

文本检索字幕库生成方法和装置、视频检索方法和装置
技术领域
本发明实施例涉及视频检索领域,尤其涉及一种文本检索字幕库生成方法和装置、视频检索方法和装置。
背景技术
随着互联网技术的不断发展,在网络带宽不断增长的今天,网络视频以其便捷的访问体验、多样化的影片来源以及实时的更新速度吸引了广大的用户,使得网络视频成为了用户网络生活中不可或缺的重要组成部分。
随着网络中的存在的各类视频的海量增长,视频用户往往通过视频检索的方式来获取感兴趣的视频内容。现有的视频检索服务主要通过视频用户输入的视频名称、视频格式、视频时长或者视频清晰度等信息,在视频库中查找满足搜索条件的视频并提供给用户。但是随着终端技术和网络视频技术的不断发展,传统的视频检索服务已经无法人们日益增长的个性化和便捷化需求。
发明内容
有鉴于此,本发明实施例提供一种文本检索字幕库生成方法和装置、视频检索方法和装置,以丰富现有的视频检索类型,优化现有的视频检索服务,提高视频检索服务的个性化和便捷化。
在第一方面,本发明实施例提供了一种文本检索字幕库的生成方法,包括:
根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个字幕文件中;将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库。
在第二方面,本发明实施例提供了一种视频的检索方法,包括:
获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句;根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果;
其中,所述文本检索字幕库包括至少一个字幕文件,所述字幕文件用于存储与视频对应的至少两个语种类型的语种检索字幕。
在第三方面,本发明实施例提供了一种文本检索字幕库的生成装置,包括:
语种检索字幕获取单元,用于根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个视频字幕文件中;文本检索字幕库生成单元,用于将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库。
在第四方面,本发明实施例提供了一种视频的检索装置,包括:
匹配字幕语句集获取单元,用于获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句;检索结果生成单元,用于根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果;其中,所述文本检索字幕库包括至少一个字幕文件,所述字幕文件用于存储与视频对应的至少两个语种类型的语种检索字幕。
本发明实施例通过根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕;将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库的技术手段,构造了针对多语种的文本检索字幕库,可以满足针对不同语种的字幕检索需求,可以为用户实现基于字幕的视频检索服务;通过获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集;根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果的技术手段,优化了现有的视频检索服务,为用户提供了一种基于字幕台词的视频检索服务,提高了视频检索服务的个性化和便捷化。
附图说明
图1是本发明第一实施例的一种文本检索字幕库的生成方法的流程图;
图2是本发明第二实施例的一种文本检索字幕库的生成方法的流程图;
图3是本发明第三实施例的一种文本检索字幕库的生成方法的流程图;
图4是本发明第四实施例的一种视频检索方法的流程图;
图5是本发明第四实施例的一种视频信息的显示示意图;
图6是本发明第四实施例的另一种视频信息的显示示意图;
图7是本发明第四实施例的另一种视频信息的显示示意图;
图8是本发明第五实施例的一种视频检索方法的流程图;
图9是本发明第六实施例的一种视频检索方法的流程图;
图10是本发明第六实施例的一种辅助字幕搜索信息输入界面的示意图;
图11是本发明第六实施例的另一种辅助字幕搜索信息输入界面的示意图;
图12是本发明第六实施例的另一种辅助字幕搜索信息输入界面的示意图;
图13是本发明第七实施例的一种文本检索字幕库的生成装置的结构图;
图14是本发明第八实施例的一种视频检索装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
首先将本发明各实施例的实现思路简述如下:网络视频服务商或者第三方字幕服务提供商预先建立文本检索字幕库,其中,文本检索字幕库中存储有与视频库中各个视频对应的至少两个语种类型的语种检索字幕。
当用户输入文本检索词后,网络视频服务商或者第三方字幕服务提供商查询上述文本检索字幕库,获取与文本检索词对应的至少一个匹配字幕语句集,并根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果提供给用户。
第一实施例
图1是本发明第一实施例的一种文本检索字幕库的生成方法的流程图,本实施例的方法可以由文本检索字幕库的生成装置来执行,该装置可通过硬件和/或软件的方式实现,一般可集成于服务器内,例如网络视频服务商或者第三方的字幕提供商控制的能够提供视频服务的视频服务器或者可以与视频服务器进行交互配合的字幕服务器。本实施例的方法具体包括如下操作:
110、根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个字幕文件中。
所述字幕,是指以文字形式显示电视、电影、舞台作品里面的对话等非影像内容,也泛指影视作品后期加工的文字。其中,网络视频中将视频的语音内容以字幕方式显示,可以帮助听力较弱的观众理解节目内容;也可以帮助翻译外语节目,让不理解该外语的观众,既能听见原作的声带,同时理解节目内容。
一般来说,视频字幕可以以独立文件的形式单独存储,也可以通过一定的处理机制内嵌于视频文件中。
在本实施例中,服务器根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕。其中,所述语种类型具体是指与文本字幕对应的语言种类。例如:中文、英文、韩文或者法文等。
在本实施例中,服务器至少需要预先设定两种语种类型,在实际应用中,也可以增加语种类型的数目,对此并不限定。其中,服务器获取的与视频对应的至少两个语种类型的语种检索字幕可以存储于一个字幕文件中,也可以存储于多个字幕文件中,对此并不限定。
举例而言,服务器根据预设的中文和英文两个语种类型,获取了与一个视频对应的中英文检索字幕,其中,上述中英文检索字幕可以存储于一个双语字幕文件中,也可以根据不同语种存储于两个字幕文件中。
在本实施例中,服务器可以通过获取所述视频自带的独立字幕文件的方式获取语种检索字幕;也可以通过使用光学字符识别(Optical Character Recognition,OCR)技术,获取所述视频的图像中展示的字幕文字内容的方式获取语种检索字幕;也可以通过在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件的方式获取语种检索字幕等,对此并不限定。
120、将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库。
在本实施例中,服务器获取视频库中与各视频对应的语种检索字幕的合集,并将所述语种检索字幕的合集作为文本检索字幕库。
其中,所述视频库可以存储于所述服务器中,也可以存储于与所述服务器相互配合的视频服务器中,对此并不限定;所述视频库中存储有至少一个视频。
在本实施例中,服务器分别获取与每个视频对应的语种检索字幕,将获取的语种检索字幕的合集,作为文本检索字幕库。
换言之,本实施例生成的文本检索字幕库中包括至少一个语种检索字幕,其中,一个语种检索字幕对应于视频库中的一个视频;一个语种检索字幕中包括至少两种语种类型的字幕;一个语种检索字幕可以存储于一个或者多个字幕文件中。
本发明实施例通过根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕;将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库的技术手段,构造了针对多语种的文本检索字幕库,可以满足针对不同语种的字幕检索需求,可以为用户实现基于字幕的视频检索服务。当视频用户希望获取视频中出现的名言、警句等经典台词以及获取出现这些经典台词视频场景时,服务器可以通过检索文本检索字幕库的方式,满足视频用户的个性化需求。
第二实施例
图2为本发明第二实施例的一种文本检索字幕库的生成方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕优化为:根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕;如果获取的所述视频字幕的语种类型数目等于预设的语种类型数目,将获取的所述视频字幕作为所述视频的语种检索字幕;如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成与未被获取的预设语种类型对应的翻译字幕;将生成的所述翻译字幕和获取的所述视频字幕的合集作为所述视频的语种检索字幕。
相应地,本实施例的方法具体包括如下操作:
210、根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕。
在本实施例中,服务器根据预设的语种类型,获取与视频对应的至少一种语种类型的视频字幕具体可以为:根据预设的语种类型,获取所述视频自带的独立字幕文件,作为所述视频字幕;和/或根据预设的语种类型,使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容,生成所述视频字幕;和/或根据预设的语种类型,在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件,作为所述视频字幕。
其中,服务器可以通过上述的一种方式来获取与视频对应的至少一种语种类型的视频字幕,也可以按照一定的顺序综合使用上述的多种方式来获取与视频对应的至少一种语种类型的视频字幕,对此并不限定。
220、判断获取的所述视频字幕的语种类型数目是否等于预设的语种类型数目:若是,执行230;否则,执行240。
在本实施例中,服务器在执行操作210后,获取的视频字幕的语种类型数目既有可能与预设的语种类型数目相同,也有可能少于预设的语种类型数目。举例而言,预先设定的语种类型为中文、英文和韩文,服务器获取的与一个视频对应的视频字幕既有可能为同时包括上述三种语种的字幕,也有可能仅包括上述三种语种的一种或者两种的字幕。
其中,如果判断获取的所述视频字幕的语种类型数目等于预设的语种类型数目,可以直接将获取的视频字幕作为视频的语种检索字幕;如果判断获取的所述视频字幕的语种类型数目小于预设的语种类型数目,可以通过获取的视频字幕,生成与未被获取的语种类型对应的视频字幕。
230、将获取的所述视频字幕作为所述视频的语种检索字幕,执行260。
240、使用获取的所述视频字幕,生成与未被获取的预设语种类型对应的翻译字幕,执行250。
在本实施例中,可以使用自动翻译工具,将获取的视频字幕中,与一种语种类型对应的字幕自动翻译为与未被获取的预设语种类型对应的翻译字幕。
举例而言,预先设定的语种类型为中文、英文和韩文,服务器获取的与一个视频对应的视频字幕中仅包括中文和英文的字幕,不包括韩文字幕。为了生成与该视频对应的韩文字幕,服务器可以使用自动翻译工具,将获取的中文字幕或者英文字幕自动翻译为缺少的韩文字幕。据此,自动翻译的韩文字幕可以和中文字幕和英文字幕一起作为与该视频对应的语种检索字幕。
250、将生成的所述翻译字幕和获取的所述视频字幕的合集作为所述视频的语种检索字幕,执行260。
260、将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库。
本发明实施例通过在获取的视频字幕的语种类型数目小于预设的语种类型数目时,使用获取的所述视频字幕,生成与未被获取的预设语种类型对应的翻译字幕的技术手段,使得在服务器仅能获取与预设的语种类型中与部分语种类型对应的视频字幕时,也可以通过自动生成的方式补齐与缺少的语种类型对应的视频字幕。进一步丰富了文本检索字幕库中的内容,进而可以为视频用户提供更为完善的字幕检索服务。
第三实施例
图3为本发明第三实施例的一种文本检索字幕库的生成方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕优化为:根据预设的语种类型,获取所述视频自带的独立字幕文件,作为所述视频字幕;和/或根据预设的语种类型,使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容,生成所述视频字幕;和/或根据预设的语种类型,在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件,作为所述视频字幕。为了提高根据视频字幕的不同获取方式获取的视频字幕的准确性和有效性,在实际应用时,对上述三种获取方式时进行使用排序。
总体思路如下:一般来说,如果视频自带有独立字幕文件,可以判断该独立字幕文件与视频的匹配程度最高,所以优选使用查找与视频对应的独立字幕文件的方式获取与预设语种类型对应的语种检索字幕。如果通过查找独立字幕文件的方式可以获取视频的语种检索字幕,则不必再采用其他方式查找字幕;否则,继续采取其他的方式获取视频字幕。因为光学字符识别技术的识别对象为视频图像中的字幕文字,其识别结果与视频的匹配程度也较好,可以将该方式作为第二优选方式来获取与预设语种类型对应的语种检索字幕,如果通过该方式也无法获取视频的语种检索字幕时,继续采用获取网络字幕文件的方式获取与预设语种类型对应的语种检索字幕。
相应地,本实施例的方法具体包括如下操作:
310、在视频库中依次获取一个视频。
在本实施例中,为了实现对视频库中存储的各个视频进行基于字幕的检索,需针对视频库中各个视频生成对应的语种检索字幕,进而生成文本检索字幕库。
320、判断视频库中存储所述视频的文件夹中是否包括与预设的语种类型对应的独立字幕文件:若是,执行330;否则,执行340。
330、将所述独立字幕文件作为与所述视频对应的视频字幕,执行350。
340、判断所述视频的图像中展示的字幕文字内容的语种类型是否与未获取的预设的语种类型相一致:若是,执行370;否则,执行3100。
350、判断获取的视频字幕的语种类型数目是否等于预设的语种类型数目:若是,执行360;否则,执行340。
360、将获取的视频字幕作为该视频的语种检索字幕,执行3170。
370、使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容,生成与未获取的预设语种类型对应的视频字幕,执行380。
380、判断获取的视频字幕的语种类型数目是否等于预设的语种类型数目:若是,执行390;否则,执行3100。
390、将获取的视频字幕作为该视频的语种检索字幕,执行3170。
3100、根据所述视频的标签信息,查找互联网中是否包括与所述视频未被获取的预设语种类型对应的网络字幕文件:若是,执行3110;否则,执行3180。
3110、获取所述网络字幕文件,作为与未获取的预设语种类型对应的视频字幕,执行3120。
3120、判断获取的视频字幕的语种类型数目是否等于预设的语种类型数目:若是,执行3130;否则,执行3140。
3130、将获取的视频字幕作为该视频的语种检索字幕,执行3170。
3140、判断是否获取到与该视频对应的视频字幕:若是,执行3150;否则,执行3190。
3150、使用视频字幕,生成与未被获取的预设语种类型对应的翻译字幕,执行3160。
3160、将生成的翻译字幕与获取的视频字幕的合集作为该视频的语种检索字幕,执行3170。
3170、判断是否遍历视库中的全部视频:若是,执行3180、否则,返回310。
3180、确定获取该视频的语种检索字幕失败。
本发明实施例通过对获取与视频对应的视频字幕的三种主要方式进行匹配度排序,优先选择字幕匹配度最高的方式获取视频字幕的技术手段,在尽可能提高字幕获取有效性的同时,保证了文本检索字幕库中语种检索字幕的准确度,进一步完善了基于字幕的视频检索服务,同时全部获取过程无需人为参与,自动化程度高。
在上述各实施例的基础上,所述如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成未被获取的预设语种类型的翻译字幕可以具体包括:计算获取的所述视频字幕的语种类型与未被获取的预设语种类型的易翻译权值;使用自动翻译工具,对与未被获取的预设语种类型易翻译权值最高的视频字幕进行翻译,生成与未被获取的预设语种类型对应的翻译字幕。这样设置的好处是,进一步提高了文本检索字幕库中翻译字幕的翻译准确度。
在本实施例中,易翻译权值为预设的权值,其表现了两个语种之间直接进行翻译的可靠性。该可靠性体现了后台翻译系统进行翻译的系统属性,比如:有的翻译系统中文翻译日文的可靠性比英文翻译日文的可靠性高,而有的翻译系统正好相反,其中,易翻译权值的设定过程本发明不进行详细阐述。可以理解的是,本领域技术人员可以在实际应用中对易翻译权值进行预设,对此并不限定。
举例而言,预设的语种类型为中文、韩文和英文,服务器获取了与一个视频对应的中文字幕和英文字幕,在使用特定自动翻译工具生成韩文字幕时,服务器根据与该自动翻译工具对应的预先设定的语种之间的易翻译权值(例如,设定中文与韩文的易翻译权值为0.8,英文与韩文的易翻译权值为0.2),选择使用中文字幕进行自动翻译,以生成对应的韩文字幕。
第四实施例
图4是本发明第四实施例的一种视频检索方法的流程图,本实施例的方法可以由视频检索装置来执行,该装置可通过硬件和/或软件的方式实现,一般可集成于服务器内,例如网络视频服务商或者检索服务提供商控制的能够提供视频检索服务的服务器,可以与存储文字检索字幕库的服务器进行交互。本实施例的方法具体包括如下操作:
410、获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句。
在本实施例中,服务器获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集。
在本实施例中,在文本检索字幕库中存储有与视频对应的包括至少两个语种类型的语种检索字幕,其中,所述语种检索字幕的语种类型与预设的语种类型相对应,并且所述语种检索字幕存储于一个或者多个字幕文件中。换言之,字幕文件中存储有与一种或者多种语种类型对应的视频字幕。且字幕文件由至少一个字幕语句构成。其中,字幕语句可以具体包括字幕中一个独立、完整的句子。
在本实施例中,服务器将输入检索词与文本检索字幕库中各个字幕文件中各个字幕语句进行匹配,如果服务器确定输入检索词与一个或多个连续的字幕语句相匹配后,可以直接将所述一个或者多个连续字幕语句作为匹配字幕语句集,也可以同时获取所述一个或者多个连续字幕语句前后的预定个数的字幕语句,构成匹配字幕语句集,对此并不限定。
其中,输入检索词即可能与同一字幕文件中位于不同位置的字幕语句相匹配,也可能与不同视频对应的不同字幕文件中的字幕语句相匹配。
在本实施例中,服务器可以通过字符串匹配算法将输入检索词与文本检索字幕库中各个字幕文件中各个字幕语句进行匹配。具体的,可以采Apostolico and Giancarlo算法、Turbo BM算法、或者Reverse Colussi算法等,对此并不限定。
420、根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果。
在本实施例中,服务器根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果。
字幕文件中的各字幕语句由于需要在视频的对应图像帧中进行显示,字幕文件中除了包括字幕语句之外,还同时包括字幕语句在视频中的位置,例如,与字幕语句对应的视频的起始时间节点和结束时间节点或者字幕语句对应的视频图像帧集合中对应的帧编号等。因此,在获取匹配字幕语句集后,服务器可以非常方便的获取与匹配字幕语句集对应的视频图像帧。
相应的,所述根据所述匹配字幕语句集获取对应的视频信息对应的视频信息可以具体包括:将所述匹配字幕语句集,作为所述视频信息,提供给用户;和/或,将与所述匹配字幕语句集对应的视频图像帧集合,作为所述视频信息,提供给用户,其中,所述视频图像帧集合中包括至少一个视频图像帧。
其中,视频图像帧集合可以以离散的视频图像帧的形式提供给用户,也可以以视频片段的形式提供给用户,对此并不限定。
在图5中示出了一种视频信息的显示示意图,如图5所示,当用户通过搜索引擎输入字幕检索词“Welcome to the real world”后,服务器查询文本检索字幕库,将与上述检索词相匹配的匹配字幕语句集提供给用户,优选的将与检索词相匹配的匹配字幕语句着重显示(例如,加下划线或者高亮显示等)。
在图6中示出了另一种视频信息的显示示意图,如图6所示,当用户通过搜索引擎输入字幕检索词“我本将心向明月”后,服务器查询文本检索字幕库,将与上述检索词相匹配的匹配字幕语句集,以及与所述匹配字幕语句集对应的视频图像帧集合同时提供给用户。
在图7中示出了另一种视频信息的显示示意图,如图7所示,当用户通过搜索引擎输入字幕检索词“我本将心向明月”后,服务器查询文本检索字幕库,获取与上述检索词相匹配的匹配字幕语句集,以及与所述匹配字幕语句集对应的视频图像帧集合,为了节约显示版面以及用户下载流量,在最初状态下只向用户提供匹配字幕语句集,只有当鼠标点击或者手指触摸到一个字幕语句上后,才会将对应的视频帧图像提供给用户。
本发明实施例通过获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集;根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果的技术手段,优化了现有的视频检索服务,为用户提供了一种基于字幕台词的视频检索服务,提高了视频检索服务的个性化和便捷化。当视频用户希望获取视频中出现的名言、警句等经典台词以及获取出现这些经典台词视频场景时,服务器可以通过检索文本检索字幕库的方式,满足视频用户的个性化需求。
第五实施例
图8为本发明第五实施例的一种视频检索方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集优化为:在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的相似度权重值;在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。优选的将操作在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集优化为:在所述匹配字幕语句所在的字幕文件中,以所述匹配字幕语句为中心,获取所述匹配字幕语句前后预定个数的字幕语句,与所述匹配字幕语句一起作为所述匹配字幕语句集。
相应地,本实施例的方法具体包括如下操作:
810、在文本检索字幕库的字幕文件中获取与输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的相似度权重值。
在本实施例中,服务器在获取与输入检索词的语种类似相匹配的至少一个字幕语句后,还要计算每一个相匹配的字幕语句与输入检索词的相似度权重值。其中,与输入检索词越接近的字幕语句,相似度权重值越高。
举例而言,输入检索词中包括四个中文词,如果输入检索词的四个中文词均与字幕语句相匹配,计算该字幕语句与所述输入检索词的相似度权重值为4/4=1,如果输入检索词中的三个中文词与字幕语句相匹配,计算该字幕语句与所述输入检索词的相似度权重值为3/4=0.75。当然,本领域技术人员可以理解的是,还可以采用其他的方式计算相匹配的字幕语句与输入检索词的相似度权重值,对此并不限定。
820、依次提取一个相匹配的字幕语句。
830、判断所述字幕语句与所述输入检索词的相似度权重值是否大于预定阈值:若是执行840,否则,执行860。
840、将所述字幕语句作为匹配字幕语句,执行850。
850、在所述匹配字幕语句所在的字幕文件中,以所述字幕语句为中心,获取该匹配字幕语句前后预定个数的字幕语句,与该匹配字幕语句一起作为匹配字幕语句集,执行860。
860、判断是否遍历全部相匹配字幕语句:若是,执行870,否则,返回820。
870、根据至少一个匹配字幕语句集获取对应的视频信息,作为输入检索词的检索结果,提供给用户。
本发明实施例通过计算字幕语句与输入检索词的相似度权重值,将权重值满足预定阈值条件的字幕语句作为匹配字幕语句,根据匹配字幕语句获取匹配字幕语句集的技术手段,提高了搜索结果命中用户实际需求的命中率,避免了对相似度低的搜索结果的推送,提高了用户体验。
第六实施例
图9为本发明第六实施例的一种视频检索方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集优化为:在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的第一相似权值;在所述文本检索字幕库的字幕文件中获取与所述相匹配的至少一个字幕语句不同语种类型的至少一个验证字幕语句;使用自动翻译工具,将所述输入检索词翻译为与所述验证字幕语句的语种类型相同的翻译检索词;计算所述至少一个验证字幕语句与所述翻译检索词的第二相似权值;根据所述第一相似权值与所述第二相似权值,计算所述相匹配的至少一个字幕语句的相似度权重值;在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。优选的将操作在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集优化为:在所述匹配字幕语句所在的字幕文件中,以所述匹配字幕语句为起点,获取所述匹配字幕语句后预定个数的字幕语句,与所述匹配字幕语句一起作为所述匹配字幕语句集。
相应地,本实施例的方法具体包括如下操作:
910、在文本检索字幕库的字幕文件中获取与输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的第一相似权值。
920、依次提取一个相匹配的字幕语句。
930、在所述文本检索字幕库的字幕文件中获取与所述相匹配的字幕语句不同语种类型的验证字幕语句。
940、使用自动翻译工具,将输入检索词翻译为与验证字幕语句的语种类型相同的翻译检索词。
950、计算所述验证字幕语句与所述翻译检索词的第二相似权值。
960、根据所述第一相似权值与所述第二相似权值,计算所述字幕语句与所述输入检索词的相似度权重值。
其中,可以直接将第一相似权值与第二相似权值的乘积,作为所述字幕语句与所述输入检索词的相似度权重值;也可以通过构造函数K=ak1+bk2的方式,计算所述字幕语句与所述输入检索词的相似度权重值。其中,K为相似度权重值;k1为第一相似权值;k2为第二相似权值;a、b为预设的比例系数。当然,还可以通过其他的方式计算相似度权重值,对此并不限定。
970、判断所述字幕语句与所述输入检索词的相似度权重值是否大于预定阈值:若是执行980,否则,执行9100。
980、将所述字幕语句作为匹配字幕语句,执行990。
990、在所述匹配字幕语句所在的字幕文件中,以所述匹配字幕语句为起点,获取所述匹配字幕语句后预定个数的字幕语句,与所述匹配字幕语句一起作为所述匹配字幕语句集,执行9100。
9100、判断是否遍历全部相匹配字幕语句:若是,执行9110,否则,返回920。
9110、根据至少一个匹配字幕语句集获取对应的视频信息,作为输入检索词的检索结果,提供给用户。
本发明实施例通过首先计算字幕语句与输入检索词的第一相似权值,之后计算验证字幕语句与翻译检索词的第二相似权值,根据第一相似权值和第二相似权值计算相似度权重值,并将相似度权重值满足预定阈值条件的字幕语句作为匹配字幕语句,根据匹配字幕语句获取匹配字幕语句集的技术手段,进一步的提高了搜索结果命中用户实际需求的命中率,避免了对相似度低的搜索结果的推送,进一步提高了用户体验。
在上述各实施例的基础上,还包括:获取辅助字幕搜索信息;所述获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集具体包括:在所述文本检索字幕库中获取与所述辅助字幕搜索信息对应的至少一个视频字幕文件;在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。这样设置的好处是:服务器通过接收用户输入的辅助字幕搜索信息,可以实现:将搜索范围从文本检索字幕缩小为与辅助字幕搜索信息对应的指定文本检索字幕子库(文本检索字幕库中的至少一个字幕文件),减少了字幕搜索时间,提高了字幕搜索效率;通过辅助字幕搜索信息可以对用户不关注的匹配字幕语句进行筛除,仅将满足用户搜索需求的匹配字幕语句提供给用户,提高了搜索结果命中率,减少了用户端的数据下载流量。
在图10中示出了一种辅助字幕搜索信息输入界面的示意图。如图10所示,用户可以通过搜索引擎输入框同时输入辅助字幕搜索信息(“喜剧片”)和输入检索词(“我本将心向明月”),服务器通过匹配识别技术,分别获取其中的辅助字幕搜索信息和输入检索词。获取文本检索字幕库中与所述辅助字幕搜索信息对应的至少一个视频字幕文件,在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。
其中,所述辅助字幕搜索信息可以包括:视频名称、视频剧情类型(例如:爱情片、科幻片、喜剧片等)或者视频剧集类型(例如:美剧、电影、韩剧等)等,当然,可以理解的是,辅助字幕搜素信息还可以包括其他类型的搜索信息,对此并不限定。
相应的,所述文本检索字幕库中与各个视频对应的视频字幕文件中同时包括与所述辅助检索信息对应的至少一个字幕标签信息。例如:与骇客帝国电影视频对应的视频字幕的字幕标签信息为“骇客帝国、电影、科幻”。
在图11中示出了另一种辅助字幕搜索信息输入界面的示意图。如图11所示,用户通过不同的输入框输入相应的辅助字幕搜索信息和输入检索词,服务器获取文本检索字幕库中与所述辅助字幕搜索信息对应的至少一个视频字幕文件,在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。
在图12中示出了另一种辅助字幕搜索信息输入界面的示意图。如图12所示,用户通过搜索引擎输入框输入相应的输入检索词,服务器根据当前获取的输入检索词,在文本检索字幕库中搜索与当前输入检索词相匹配的至少一个匹配字幕语句,并获取与所述匹配字幕语句对应的视频名称,在向下弹出的菜单中,将获取的视频名称提示给用户,如果用户选择菜单中的一个视频名称时,服务器将用户选择的视频名称作为辅助视频检索信息,并在与所述辅助视频检索信息对应的至少一个字幕文件中获取与输入检索词对应的匹配字幕语句。
第七实施例
在图13中示出了本发明第七实施例的一种文本检索字幕库的生成装置的结构图。如图13所示,所述装置包括:
语种检索字幕获取单元131,用于根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个视频字幕文件中。
文本检索字幕库生成单元132,用于将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库。
本发明实施例通过根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕;将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库的技术手段,构造了针对多语种的文本检索字幕库,可以满足针对不同语种的字幕检索需求,可以为用户实现基于字幕的视频检索服务。当视频用户希望获取视频中出现的名言、警句等经典台词以及获取出现这些经典台词视频场景时,服务器可以通过检索文本检索字幕库的方式,满足视频用户的个性化需求。
在上述各实施例的基础上,所述语种检索字幕获取单元具体可以包括:
视频字幕获取子单元,用于根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕;第一语种检索字幕生成子单元,用于如果获取的所述视频字幕的语种类型数目等于预设的语种类型数目,将获取的所述视频字幕作为所述视频的语种检索字幕;翻译字幕生成子单元,用于如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成未被获取的预设语种类型的翻译字幕,触发第二语种检索字幕生成子单元;第二语种检索字幕生成子单元,用于将所述翻译字幕生成子单元生成的所述翻译字幕和所述视频字幕获取子单元获取的所述视频字幕的合集作为所述视频的语种检索字幕。
在上述各实施例的基础上,所述视频字幕获取子单元具体可以用于:
根据预设的语种类型,获取所述视频自带的独立字幕文件,作为所述视频字幕;和/或根据预设的语种类型,使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容,生成所述视频字幕;和/或根据预设的语种类型,在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件,作为所述视频字幕。
本发明实施例所提供的文本检索字幕库的生成装置可用于执行本发明任意实施例提供的文本检索字幕库的生成方法,具备相应的功能模块,实现相同的有益效果。
第八实施例
在图14中示出了本发明第八实施例的一种视频检索装置的结构图。如图14所示,所述装置包括:
匹配字幕语句集获取单元141,用于获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句。
检索结果生成单元142,用于根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果。
其中,所述文本检索字幕库包括至少一个字幕文件,所述字幕文件用于存储与视频对应的至少两个语种类型的语种检索字幕。
本发明实施例通过获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集;根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果的技术手段,优化了现有的视频检索服务,为用户提供了一种基于字幕台词的视频检索服务,提高了视频检索服务的个性化和便捷化。当视频用户希望获取视频中出现的名言、警句等经典台词以及获取出现这些经典台词视频场景时,服务器可以通过检索文本检索字幕库的方式,满足视频用户的个性化需求。
在上述各实施例的基础上,所述检索结果生成单元具体可以用于:
将所述匹配字幕语句集,作为所述视频信息,提供给用户;和/或
将与所述匹配字幕语句集对应的视频图像帧集合,作为所述视频信息,提供给用户,其中,所述视频图像帧集合中包括至少一个视频图像帧。
在上述各实施例的基础上,所述匹配字幕语句集获取单元具体可以用于:
在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的第一相似权值;在所述文本检索字幕库的字幕文件中获取与所述相匹配的至少一个字幕语句不同语种类型的至少一个验证字幕语句;使用自动翻译工具,将所述输入检索词翻译为与所述验证字幕语句的语种类型相同的翻译检索词;计算所述至少一个验证字幕语句与所述翻译检索词的第二相似权值;根据所述第一相似权值与所述第二相似权值,计算所述相匹配的至少一个字幕语句的相似度权重值;在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。
在上述各实施例的基础上,所述装置还可以包括:辅助字幕搜索信息获取单元,用于获取辅助字幕搜索信息;所述匹配字幕语句集获取单元具体可以用于:在所述文本检索字幕库中获取与所述辅助字幕搜索信息对应的至少一个视频字幕文件;在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。
本发明实施例所提供的视频检索装置可用于执行本发明任意实施例提供的视频检索方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本检索字幕库的生成方法,其特征在于,包括:
根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个字幕文件中;
将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库;
其中,所述根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕包括:
根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕;
如果获取的所述视频字幕的语种类型数目等于预设的语种类型数目,将获取的所述视频字幕作为所述视频的语种检索字幕;
如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成与未被获取的预设语种类型对应的翻译字幕;
将生成的所述翻译字幕和获取的所述视频字幕的合集作为所述视频的语种检索字幕;
所述如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成未被获取的预设语种类型的翻译字幕包括:
计算获取的所述视频字幕的语种类型与未被获取的预设语种类型的易翻译权值;
使用自动翻译工具,对与未被获取的预设语种类型易翻译权值最高的视频字幕进行翻译,生成与未被获取的预设语种类型对应的翻译字幕;
所述根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕包括:
根据预设的语种类型,获取视频自带的独立字幕文件;
如果未通过获取视频自带的独立字幕文件的方式获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容;
如果未通过所述光学字符识别技术获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件,作为所述视频字幕。
2.一种视频的检索方法,其特征在于,包括:
获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句;
根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果;
其中,所述文本检索字幕库包括至少一个字幕文件,所述字幕文件用于存储与视频对应的至少两个语种类型的语种检索字幕;
所述根据所述匹配字幕语句集获取对应的视频信息包括:
将所述匹配字幕语句集,作为所述视频信息,提供给用户;以及
将与所述匹配字幕语句集对应的视频图像帧集合,作为所述视频信息,提供给用户,其中,所述视频图像帧集合中包括至少一个视频图像帧;
其中,在最初状态下只向用户提供匹配字幕语句集,当用户选择一个匹配字幕语句后,将对应的视频图像帧提供给用户。
3.根据权利要求2所述的方法,其特征在于,所述获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集还包括:
在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的相似度权重值;
在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。
4.根据权利要求2所述的方法,其特征在于,所述获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集包括:
在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的第一相似权值;
在所述文本检索字幕库的字幕文件中获取与所述相匹配的至少一个字幕语句不同语种类型的至少一个验证字幕语句;
使用自动翻译工具,将所述输入检索词翻译为与所述验证字幕语句的语种类型相同的翻译检索词;
计算所述至少一个验证字幕语句与所述翻译检索词的第二相似权值;
根据所述第一相似权值与所述第二相似权值,计算所述相匹配的至少一个字幕语句的相似度权重值;
在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。
5.根据权利要求3或4所述的方法,其特征在于,所述在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集包括:
在所述匹配字幕语句所在的字幕文件中,以所述匹配字幕语句为中心,获取所述匹配字幕语句前后预定个数的字幕语句,与所述匹配字幕语句一起作为所述匹配字幕语句集;或者
在所述匹配字幕语句所在的字幕文件中,以所述匹配字幕语句为起点,获取所述匹配字幕语句后预定个数的字幕语句,与所述匹配字幕语句一起作为所述匹配字幕语句集。
6.根据权利要求2所述的方法,其特征在于,还包括:
获取辅助字幕搜索信息;
所述获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集具体包括:
在所述文本检索字幕库中获取与所述辅助字幕搜索信息对应的至少一个视频字幕文件;
在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。
7.一种文本检索字幕库的生成装置,其特征在于,包括:
语种检索字幕获取单元,用于根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个视频字幕文件中;
文本检索字幕库生成单元,用于将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库;
所述语种检索字幕获取单元具体包括:
视频字幕获取子单元,用于根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕;
第一语种检索字幕生成子单元,用于如果获取的所述视频字幕的语种类型数目等于预设的语种类型数目,将获取的所述视频字幕作为所述视频的语种检索字幕;
翻译字幕生成子单元,用于如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成未被获取的预设语种类型的翻译字幕,触发第二语种检索字幕生成子单元;
第二语种检索字幕生成子单元,用于将所述翻译字幕生成子单元生成的所述翻译字幕和所述视频字幕获取子单元获取的所述视频字幕的合集作为所述视频的语种检索字幕;
所述翻译字幕生成子单元具体用于:
计算获取的所述视频字幕的语种类型与未被获取的预设语种类型的易翻译权值;
使用自动翻译工具,对与未被获取的预设语种类型易翻译权值最高的视频字幕进行翻译,生成与未被获取的预设语种类型对应的翻译字幕;
其中,所述视频字幕获取子单元具体用于:
根据预设的语种类型,获取视频自带的独立字幕文件;
如果未通过获取视频自带的独立字幕文件的方式获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容;
如果未通过所述光学字符识别技术获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件,作为所述视频字幕。
8.一种视频的检索装置,其特征在于,包括:
匹配字幕语句集获取单元,用于获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句;
检索结果生成单元,用于根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果;
其中,所述文本检索字幕库包括至少一个字幕文件,所述字幕文件用于存储与视频对应的至少两个语种类型的语种检索字幕;
所述检索结果生成单元具体用于:
将所述匹配字幕语句集,作为所述视频信息,提供给用户;以及
将与所述匹配字幕语句集对应的视频图像帧集合,作为所述视频信息,提供给用户,其中,所述视频图像帧集合中包括至少一个视频图像帧;
其中,在最初状态下只向用户提供匹配字幕语句集,当用户选择一个匹配字幕语句后,将对应的视频图像帧提供给用户。
9.根据权利要求8所述的装置,其特征在于,所述匹配字幕语句集获取单元具体用于:
在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的第一相似权值;
在所述文本检索字幕库的字幕文件中获取与所述相匹配的至少一个字幕语句不同语种类型的至少一个验证字幕语句;
使用自动翻译工具,将所述输入检索词翻译为与所述验证字幕语句的语种类型相同的翻译检索词;
计算所述至少一个验证字幕语句与所述翻译检索词的第二相似权值;
根据所述第一相似权值与所述第二相似权值,计算所述相匹配的至少一个字幕语句的相似度权重值;
在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。
10.根据权利要求8所述的装置,其特征在于,还包括:
辅助字幕搜索信息获取单元,用于获取辅助字幕搜索信息;
所述匹配字幕语句集获取单元具体用于:
在所述文本检索字幕库中获取与所述辅助字幕搜索信息对应的至少一个视频字幕文件;
在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。
CN201410244830.9A 2014-06-04 2014-06-04 文本检索字幕库生成方法和装置、视频检索方法和装置 Active CN103984772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410244830.9A CN103984772B (zh) 2014-06-04 2014-06-04 文本检索字幕库生成方法和装置、视频检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410244830.9A CN103984772B (zh) 2014-06-04 2014-06-04 文本检索字幕库生成方法和装置、视频检索方法和装置

Publications (2)

Publication Number Publication Date
CN103984772A CN103984772A (zh) 2014-08-13
CN103984772B true CN103984772B (zh) 2017-07-18

Family

ID=51276744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410244830.9A Active CN103984772B (zh) 2014-06-04 2014-06-04 文本检索字幕库生成方法和装置、视频检索方法和装置

Country Status (1)

Country Link
CN (1) CN103984772B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750791A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 一种图像检索方法及装置
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
US9848215B1 (en) * 2016-06-21 2017-12-19 Google Inc. Methods, systems, and media for identifying and presenting users with multi-lingual media content items
CN106294764A (zh) * 2016-08-11 2017-01-04 乐视控股(北京)有限公司 一种视频台词检索方法和装置
CN106303303A (zh) * 2016-08-17 2017-01-04 北京金山安全软件有限公司 一种媒体文件字幕的翻译方法、装置及电子设备
CN107066621B (zh) * 2017-05-11 2022-11-08 腾讯科技(深圳)有限公司 一种相似视频的检索方法、装置和存储介质
CN109670119A (zh) * 2018-12-29 2019-04-23 咪咕文化科技有限公司 一种数据处理方法、装置和计算机存储介质
CN109933691B (zh) * 2019-02-11 2023-06-09 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质
CN110035326A (zh) * 2019-04-04 2019-07-19 北京字节跳动网络技术有限公司 字幕生成、基于字幕的视频检索方法、装置和电子设备
CN114430832A (zh) * 2019-11-18 2022-05-03 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN112765460A (zh) * 2021-01-08 2021-05-07 北京字跳网络技术有限公司 会议信息查询方法、装置、存储介质、终端设备和服务器
CN113688283B (zh) * 2021-08-27 2023-09-05 北京奇艺世纪科技有限公司 一种视频字幕匹配程度的确定方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098447A (zh) * 2009-12-09 2011-06-15 新奥特(北京)视频技术有限公司 一种多语言字幕的播出方法和设备
CN103324685A (zh) * 2013-06-03 2013-09-25 大连理工大学 日语在线视频语料的视频片断检索方法
CN103686200A (zh) * 2013-12-27 2014-03-26 乐视致新电子科技(天津)有限公司 智能电视视频资源搜索的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3953886B2 (ja) * 2002-05-16 2007-08-08 セイコーエプソン株式会社 字幕抽出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098447A (zh) * 2009-12-09 2011-06-15 新奥特(北京)视频技术有限公司 一种多语言字幕的播出方法和设备
CN103324685A (zh) * 2013-06-03 2013-09-25 大连理工大学 日语在线视频语料的视频片断检索方法
CN103686200A (zh) * 2013-12-27 2014-03-26 乐视致新电子科技(天津)有限公司 智能电视视频资源搜索的方法和系统

Also Published As

Publication number Publication date
CN103984772A (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
CN103984772B (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
US10366169B2 (en) Real-time natural language processing of datastreams
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
Albanie et al. Bbc-oxford british sign language dataset
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
KR20210104571A (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
US20160140109A1 (en) Generation of a semantic model from textual listings
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
JP7312799B2 (ja) 情報抽出方法、抽出モデル訓練方法、装置及び電子機器
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
CN103069414A (zh) 信息处理设备、信息处理方法和程序
CN103052953A (zh) 信息处理设备、信息处理方法和程序
JP7228615B2 (ja) 映画・テレビドラマの内容検索方法及び装置
KR101285721B1 (ko) 웹 마이닝을 이용한 콘텐츠 태그 생성 시스템 및 방법
CN110753269B (zh) 视频摘要生成方法、智能终端及存储介质
CN113014988B (zh) 视频处理方法、装置、设备以及存储介质
CN113032673B (zh) 资源的获取方法、装置、计算机设备及存储介质
CN114254158B (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
CN110059224B (zh) 投影仪设备的视频检索方法、装置、设备及存储介质
KR20200098381A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
US11017015B2 (en) System for creating interactive media and method of operating the same
Li et al. Screencast tutorial video understanding
EP3905060A1 (en) Artificial intelligence for content discovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant