CN113326395A - 信息处理方法、装置、电子设备及存储介质 - Google Patents

信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113326395A
CN113326395A CN202110463298.XA CN202110463298A CN113326395A CN 113326395 A CN113326395 A CN 113326395A CN 202110463298 A CN202110463298 A CN 202110463298A CN 113326395 A CN113326395 A CN 113326395A
Authority
CN
China
Prior art keywords
information
subtitle
target
candidate
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110463298.XA
Other languages
English (en)
Inventor
郑国凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110463298.XA priority Critical patent/CN113326395A/zh
Publication of CN113326395A publication Critical patent/CN113326395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种信息处理方法、装置、电子设备及存储介质,属于通信技术领域。该方法主要包括获取第一图像,第一图像包括目标字幕;根据目标字幕,确定第一特征信息,第一特征信息包括字幕属性信息和与目标字幕语义相关的第一信息;根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕;显示与目标匹配字幕对应的音视频信息。

Description

信息处理方法、装置、电子设备及存储介质
技术领域
本申请属于通信技术领域,具体涉及一种信息处理方法、装置、电子设备及存储介质。
背景技术
随着互联网的持续发展,在用户面对浩如烟海的互联网信息如视频信息、文本信息、音频信息等时,如何快速、有效地找到自己需要的内容,已经成为亟需关注的话题。
目前,视频信息的搜索方式主要是基于视频的影片名、演员名及导演名等关键词搜索,或者是基于影视分类的视频搜索。但是,前者涉及的搜索方式,需要用户主动输入关键词,在一定程度上,增加了用户操作,降低信息搜索效率。后者涉及的视频搜索方式,常需要浏览完该影视分类下的大部分视频才能获取对用户有价值的内容,很难快速定位用户需要的视频信息。
发明内容
本申请实施例的目的是提供一种信息处理方法、装置、电子设备及存储介质,能够解决目前信息搜索操作繁琐、信息搜索效率和准确度低的问题。
第一方面,本申请实施例提供了一种信息处理方法,该方法可以包括:
获取第一图像,第一图像包括目标字幕;
根据目标字幕,确定第一特征信息,第一特征信息包括字幕属性信息和与目标字幕语义相关的第一信息;
根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕;
显示与目标匹配字幕对应的音视频信息。
第二方面,本申请实施例提供了一种信息处理装置,该装置可以包括:
获取模块,用于获取第一图像,第一图像包括目标字幕;
确定模块,用于根据目标字幕,确定第一特征信息,第一特征信息包括字幕属性信息和与目标字幕语义相关的第一信息;
筛选模块,用于根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕;
显示模块,用于显示与目标匹配字幕对应的音视频信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面所示的信息处理方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面所示的信息处理方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的信息处理方法的步骤。
在本申请实施例中,通过获取第一图像中的目标字幕,确定目标字幕的字幕属性信息和与目标字幕语义相关的第一信息,接着,根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕,并将与目标匹配字幕对应的音视频信息确定为包括第一图像的音视频。这样,当图像中的目标字幕与预设字幕信息中的字幕不能完全匹配时,也能够基于目标字幕筛选出部分匹配字幕,从而达到搜索包括部分匹配字幕的目标匹配字幕对应的音视频信息的目的,提高了搜索音视频信息的成功率。
另外,通过图片中的字幕信息,匹配音视频信息,无需用户对视频的影片名、演员名及导演名等关键词搜索,或者是基于影视分类进行记忆,在减少用户搜索信息的操作的同时,本申请实施例中提供的信息处理方法还可以拓宽信息搜索的场景,能够更加高效地匹配到音视频信息,提高信息搜索的效率。
附图说明
图1为本申请实施例提供的一种信息处理架构示意图;
图2为本申请实施例提供的一种信息处理方法的流程图;
图3为本申请实施例提供的一种信息处理的界面示意图;
图4为本申请实施例提供的另一种信息处理的界面示意图;
图5为本申请实施例提供的一种信息处理装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图;
图7为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
基于此,下面结合附图1,通过具体的实施例及其应用场景对本申请实施例提供的信息处理方法进行详细地说明。
本申请实施例提出一种信息处理架构,如图1所示,该信息处理架构可以包括电子设备。其中,电子设备可以提供播放音视频以及搜索音视频的功能。基于该信息处理架构,对本申请实施例提供的信息处理方法的应用场景进行说明。
在用户观看某一个图像如图1中的第一图像或者某个视频片段时,想了解该图像或者视频频段对应的音视频信息如该图像或者视频频段所属的电影或者电视剧的名称(或者电影或者电视剧的视频),可以通过对该图像或者某个视频片段中任意包括字幕的图像进行图像识别,确定该图像中目标字幕如“每天最重要的就是开心”。为了排除有些情况下字幕出现错字或者不同语言翻译出现的同义不同词的情况,在同一语义下覆盖更多的词汇,本申请实施例根据目标字幕,确定第一特征信息,第一特征信息包括字幕属性信息和与目标字幕语义相关的第一信息。这样,根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕,向用户推荐与目标匹配字幕对应的音视频信息如该图像所属的音视频名称如电影或者电视剧的名称、音视频的视频链接如电影或者电视剧的视频等、音视频简介等信息。
需要说明的是,本申请实施例中的字幕即目标字幕是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容,为影视作品后期加工的文本。在电影银幕或电子设备中播放类应用程序中播放的影视作品下方出现的解说文字以及种种文字,如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。
由此,通过获取第一图像中的目标字幕,确定目标字幕的字幕属性信息和与目标字幕语义相关的第一信息,接着,根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕,并将与目标匹配字幕对应的音视频信息确定为包括第一图像的音视频。这样,当图像中的目标字幕与预设字幕信息中的字幕不能完全匹配时,也能够基于目标字幕筛选出部分匹配字幕,从而达到搜索包括部分匹配字幕的目标匹配字幕对应的音视频信息的目的,提高了搜索音视频信息的成功率。
另外,通过图片中的字幕信息,匹配音视频信息,无需用户对视频的影片名、演员名及导演名等关键词搜索,或者是基于影视分类进行记忆,在减少用户搜索信息的操作的同时,本申请实施例中提供的信息处理方法还可以拓宽信息搜索的场景,能够更加高效地匹配到音视频信息,提高信息搜索的效率。信息处理信息处理
需要说明的是,本申请实施例提供的信息处理方法除了可以应用于上述涉及的通过图像中的目标字幕匹配该图片所属音视频信息的场景之外,还可以应用于根据图像中的特殊文本如商标、产品介绍、书籍中的部分文本,匹配该图像所属产品以及该特殊文本对应的书籍类别的场景。在此,本申请实施例提供的信息处理方法可以应用于任何通过局部特征搜索与局部特征对应的整体信息的场景。
根据上述应用场景,下面结合图2对本申请实施例提供的信息处理方法进行详细说明。
图2为本申请实施例提供的一种信息处理方法的流程图。
如图2所示,该信息处理方法可以应用于如图1所示的电子设备,基于此,具体可以包括如下步骤:
步骤210,获取第一图像,第一图像包括目标字幕。步骤220,根据目标字幕,确定第一特征信息,第一特征信息包括字幕属性信息和与目标字幕语义相关的第一信息。步骤230,根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕。步骤240,显示与目标匹配字幕对应的音视频信息。
这样,通过获取第一图像中的目标字幕,确定目标字幕的字幕属性信息和与目标字幕语义相关的第一信息,接着,根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕,并将与目标匹配字幕对应的音视频信息确定为包括第一图像的音视频。这样,当图像中的目标字幕与预设字幕信息中的字幕不能完全匹配时,也能够基于目标字幕筛选出部分匹配字幕,从而达到搜索包括部分匹配字幕的目标匹配字幕对应的音视频信息的目的,提高了搜索音视频信息的成功率。
另外,通过图片中的字幕信息,匹配音视频信息,无需用户对视频的影片名、演员名及导演名等关键词搜索,或者是基于影视分类进行记忆,在减少用户搜索信息的操作的同时,本申请实施例中提供的信息处理方法还可以拓宽信息搜索的场景,能够更加高效地匹配到音视频信息,提高信息搜索的效率。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及步骤210,获取第一图像,这里,第一图像可以是用户拍摄的图像,也可以是截屏图像,还可以是电子设备从某个视频频段中选取的任意包括字幕的图像。
这里,可以通过输入图片,通过光学字符识别(Optical Character Recognition,OCR)技术,识别出第一图片中的目标字幕T,如图3所示的第一图像中提取出字幕“每天最重要的就是开心”。
接着,涉及步骤220,在一种或者多种可选的实施例中,可能会出现预设字幕信息如字幕库中的字幕存在错误,或者,目标字幕本身出现错字,这样,不管是以上哪种情况,都会使得目标字幕不能成功匹配到字幕库中的字幕,导致无法完全匹配搜索词,同样导致搜索不到第一图像所属的音视频信息。由此,本申请实施例可以对目标字幕进行优化,即提取目标字幕的字幕属性信息和与目标字幕语义相关的第一信息,这样,即使在字幕库中匹配不到目标字幕的情况下,也可以根据目标字幕中的部分特征信息进行识别,使得提高匹配音视频信息的效率。
这里,第一特征信息中的字幕属性信息可以包括角色名称信息如角色名列表和目标关键词信息如关键词列表,该目标关键词的磁性可以包括下述中的至少一种:名词、动词、形容词。示例1:“每天最重要的就是开心”,提取出人名为空,关键词:[“每天”,“开心”]。第一特征信息中的与目标字幕语义相关的第一信息可以包括目标字幕的音节信息和目标字幕的向量信息。
与目标字幕语义相关的第一信息可以包括目标字幕的音节信息和目标字幕的向量信息。例如,“每天最重要的就是开心”的音节信息为“měi tiān zùi zhòng yào de jiùshì kāi xīn”,这里,通过音节信息匹配预设字幕信息,以防止目标字幕中出现错别字,导致目标字幕不能成功匹配到字幕库中的字幕的情况。另外,采用目标字幕的向量信息,可以计算目标字幕与每个候选字幕信息之间的文本相似度,这样,在目标字幕为其他语言类别即为非汉语言的语言如英语、阿拉伯语或者藏语等,需要将这些语言文本翻译成汉语言,然后在进行匹配字幕的过程,在此期间,在翻译成汉语言时都会出现同义不同字的情况,这样,通过计算目标字幕与每个候选字幕信息之间的文本相似度,可以确定与目标字幕同义的不同词,使得增加目标字幕匹配到目标匹配字幕的可能性。当然,除了可以应用在目标字幕为其他语言类别时,还可以应用于上述涉及的目标字幕中出现错别字,导致目标字幕不能成功匹配到字幕库中的字幕的情况。涉及步骤230,在一种或者多种可选的实施例中,该步骤230具体可以包括,从预设字幕信息中,筛选满足与目标字幕对应的预设词语长度值的预设候选字幕信息;根据第一特征信息,从预设候选字幕信息中筛选出满足预设条件的目标匹配字幕。
举例说明,计算出目标字幕T的长度L,过滤掉字幕库D中词语长度不在 [L-10,L+10]的字幕,得到字幕库D中与目标字幕T对应的新的预设候选字幕信息即候选字幕库D1。这里,[L-10,L+10]中涉及的10可以是根据情况设定的。需要说明的是,字幕库D的是一个数组,每个数组对应一个音视频的信息,其存储格式为:{“音视频名称”:[“音视频角色名”,“字幕1”,“字幕2”……]。
由此,本申请实施例提供的信息处理方法,可以在目标字幕与字幕库D中的字幕完全匹配的情况下,确定与目标字幕对应的音视频信息。
或者,可以在目标字幕与字幕库D中的字幕的匹配率大于预设匹配率即不完全匹配的情况下,可以根据目标字幕的第一特征信息,从字幕库D中筛选出满足预设条件的目标匹配字幕。
进一步地,上述涉及的根据第一特征信息,从预设候选字幕信息中筛选出满足预设条件的目标匹配字幕的步骤中,具体可以包括步骤2301-步骤2302:
步骤2301,在预设候选字幕信息的数量大于N的情况下,根据第一特征信息,确定N个预设候选字幕信息中每个预设候选字幕信息对应的匹配评分,其中,N为大于1的正整数。
这里,第一特征信息中的字幕属性信息可以包括角色名称信息如角色名列表M和目标关键词信息如关键词列表K,该目标关键词的磁性可以包括下述中的至少一种:名词、动词、形容词。示例1:“每天最重要的就是开心”,提取出人名为空,关键词K:[“每天”,“开心”]。第一特征信息中的与目标字幕语义相关的第一信息可以包括目标字幕的音节信息和目标字幕的向量信息。
其中,根据字幕属性信息,确定每个候选字幕信息的第一评分值,以及根据第一信息,确定每个候选字幕信息的第二评分值;
对第一评分值和第二评分值进行加权求和,得到每个预设候选字幕信息对应的匹配评分。
进一步地,在字幕属性信息包括角色名称信息和目标关键词信息的情况下,确定每个候选字幕信息的第一评分值的方式可以如下所示:
统计候选字幕信息中包括角色名称的候选字幕信息的第一子评分值,以及,统计候选字幕信息中包括目标关键词信息的候选字幕信息的第二子评分值;
对第一子评分值和第二子评分值进行加权求和,得到每个候选字幕信息的第一评分值。
这里,可以角色名称信息的文本和目标关键词信息的文本翻译成其相应的音节信息即拼音P。接着,根据拼音P计算统计候选字幕信息中包括角色名称的候选字幕信息的第一子评分值G(N),G(N)=G(N)+1,即对于候选字幕信息中的角色名列表n中的每个角色名,若出现在目标字幕的关键词列表N中,则对其进行累计加1,以得到候选字幕信息中包括角色名称的候选字幕信息的第一子评分值。同理,根据拼音P计算候选字幕信息中包括目标关键词信息的候选字幕信息的第二子评分值P(K),即对于候选字幕信息中的关键词列表k中的每个关键词,若出现在目标关键词信息K中,则Chit=Chit+1,P(N)=Chit/CK。其中,CK为目标字幕的目标关键词信息K的个数,以得到候选字幕信息中包括目标关键词信息的候选字幕信息的第二子评分值。
另外,在第一信息包括目标字幕的音节信息和目标字幕的向量信息的情况下,确定每个候选字幕信息的第二评分值的方式可以如下所示:
根据目标字幕的音节信息,在多个候选字幕信息中筛选第一候选字幕信息,并计算目标字幕的音节信息与第一候选字幕信息的音节信息的音节编辑距离,其中,第一候选字幕信息的音节信息与目标字幕的音节信息相同;
根据目标字幕的第一向量信息和每个候选字幕信息的第二向量信息,计算目标字幕与每个候选字幕信息之间的文本相似度;
对音节编辑距离和文本相似度进行加权求和,得到每个候选字幕信息的第二评分值。
其中,在计算目标字幕的音节信息与第一候选字幕信息的音节信息的音节编辑距离D(P)时,可以将其目标字幕T翻译成其相应的拼音P,如“每天最重要的就是开心”的拼音P为“měi tiān zùi zhòng yào de jiù shì kāi x īn”。基于此,P与p的音节编辑距离为x,则D(P)=0.01*x。
另外,在计算目标字幕与每个候选字幕信息之间的文本相似度S(T)、且目标字幕T为粤语字幕时,可以将目标字幕T与目标字幕对应的粤语字幕d都转换成向量的形式,并计算两者的余弦相似度。同时,若候选字幕信息D1中存在粤语的字幕,则将粤语字幕d翻译成汉语dc,并通过下述公式(1)计算目标字幕与每个候选字幕信息之间的文本相似度:
Figure RE-GDA0003192670050000091
其中,
Sim为相似度得分,Vec为向量,φ为第一预设权重(根据实际情况设定或者预先设定)。
基于上述的第一评分值和第二评分值,通过公式(2)确定每个预设候选字幕信息对应的匹配评分R(d):
R(d)=a*G(N)+b*P(K)+c*S(T)–d*D(P);其中,a为第二预设权重、b为第三预设权重、c为第三预设权重、d为第四预设权重;a,b,c,d的设置范围为[0,1],其值可以根据实际情况设定或者预先设定。
由此,上述涉及的方式可以当第一图片中的目标字幕与候选字幕信息不能完全匹配时,还能够通过筛选出的部分第一特征信息匹配音视频信息,在增加实际应用的同时,提高匹配效率。
步骤2302,将匹配评分大于或者等于预设匹配评分的预设候选字幕信息确定为目标匹配字幕。
这里,对于上述涉及的每个候选字幕信息的第一评分值R(d)进行排序,将其多个评分值中最大的评分值的预设候选字幕信息确定为目标匹配字幕,并将目标匹配字幕对应的音视频信息确定为最终的返回结果。即如图4所示,与第一图像中涉及的目标字幕“每天最重要的就是开心”所属的音视频文件为《逃学威龙2》。
然后,涉及步骤240,在一种或者多种可选的实施例中,除了可以通过目标字幕匹配音视频信息,为了提高匹配音视频信息的精度,本申请实施例还提供了一种根据目标字幕和目标字幕所在的第一图像匹配音视频信息。由此,在步骤240之前还可以包括:
在检测到第一图像中包括目标对象的第二特征信息时,在与目标匹配字幕对应的音视频信息中筛选包括第二特征信息的第二图像;
将第一图像和第二图像进行匹配,得到匹配结果。
基于此,该步骤240具体可以包括:
在匹配结果为第一图像和第二图像相同,且第二图像包括目标匹配字幕的情况下,显示音视频信息。
其中,在目标对象为人物对象时,第二特征信息为人物对象的生物特征图像信息和身份信息;在目标对象为地标对象时,第二特征信息为地标对象的图像信息和地标简介信息。
由此,通过获取第一图像中的目标字幕,确定目标字幕的字幕属性信息和与目标字幕语义相关的第一信息,接着,根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕,并将与目标匹配字幕对应的音视频信息确定为包括第一图像的音视频。这样,当图像中的目标字幕与预设字幕信息中的字幕不能完全匹配时,能够基于目标字幕筛选出部分匹配字幕,从而达到搜索包括部分匹配字幕的目标匹配字幕对应的音视频信息的目的,提高了搜索音视频信息的成功率。
另外,通过图片中的字幕信息,匹配音视频信息,无需用户对视频的影片名、演员名及导演名等关键词搜索,或者是基于影视分类进行记忆,在减少用户搜索信息的操作的同时,本申请实施例中提供的信息处理方法还可以拓宽信息搜索的场景,能够更加高效地匹配到音视频信息,提高信息搜索的效率。
需要说明的是,本申请实施例提供的信息处理方法,执行主体可以为信息处理装置,或者该信息处理装置中的用于执行信息处理的方法的控制模块。本申请实施例中以信息处理装置执行信息处理方法为例,说明本申请实施例提供的信息处理的装置。
基于相同的发明构思,本申请还提供了一种信息处理装置。具体结合图5 进行详细说明。
图5为本申请实施例提供的一种信息处理装置的结构示意图。
如图5所示,该信息处理装置50应用于如图1所示的电子设备,具体可以包括:
获取模块501,用于获取第一图像,第一图像包括目标字幕;
确定模块502,用于根据目标字幕,确定第一特征信息,第一特征信息包括字幕属性信息和与目标字幕语义相关的第一信息;
筛选模块503,用于根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕;
显示模块504,用于显示与目标匹配字幕对应的音视频信息。
下面对该信息处理装置50进行详细说明,具体如下所示:
在一个或者多个可能的实施例中,筛选模块503具体可以用于,从预设字幕信息中,筛选满足预设候选字幕信息,预设候选字幕信息为满足与目标字幕对应的预设词语长度值的字幕信息在预设候选字幕信息的数量大于N的情况下,根据第一特征信息,确定多个预设候选字幕信息中每个预设候选字幕信息对应的匹配评分,其中,N为大于1的正整数;
将匹配评分大于或者等于预设匹配评分的预设候选字幕信息确定为目标匹配字幕。
其中,筛选模块503具体可以用于,根据字幕属性信息,确定每个候选字幕信息的第一评分值,以及根据第一信息,确定每个候选字幕信息的第二评分值;
对第一评分值和第二评分值进行加权求和,得到每个预设候选字幕信息对应的匹配评分。
在一个或者多个可能的实施例中,筛选模块503具体可以用于,在字幕属性信息包括角色名称信息和目标关键词信息的情况下,统计候选字幕信息中包括角色名称的候选字幕信息的第一子评分值,以及,统计候选字幕信息中包括目标关键词信息的候选字幕信息的第二子评分值;
对第一子评分值和第二子评分值进行加权求和,得到每个候选字幕信息的第一评分值。
在一个或者多个可能的实施例中,筛选模块503具体可以用于,在第一信息包括目标字幕的音节信息和目标字幕的向量信息的情况下,根据目标字幕的音节信息,在多个候选字幕信息中筛选第一候选字幕信息,并计算目标字幕的音节信息与第一候选字幕信息的音节信息的音节编辑距离,其中,第一候选字幕信息的音节信息与目标字幕的音节信息相同;
根据目标字幕的第一向量信息和每个候选字幕信息的第二向量信息,计算目标字幕与每个候选字幕信息之间的文本相似度;
对音节编辑距离和文本相似度进行加权求和,得到每个候选字幕信息的第二评分值。
在一个或者多个可能的实施例中,该信息处理装置50还可以包括筛选模块,用于在检测到第一图像中包括目标对象的第二特征信息时,在与目标匹配字幕对应的音视频信息中筛选包括第二特征信息的第二图像;
将第一图像和第二图像进行匹配,得到匹配结果。基于此,显示模块504 具体可以用于,在匹配结果为第一图像和第二图像相同,且第二图像包括目标匹配字幕的情况下,显示音视频信息。
需要说明的是,在目标对象为人物对象时,第二特征信息为人物对象的生物特征图像信息和身份信息;在目标对象为地标对象时,第二特征信息为地标对象的图像信息和地标简介信息。
本申请实施例中的信息处理装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA) 等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage, NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的信息处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的信息处理装置能够实现图1至图4的方法实施例实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过获取第一图像中的目标字幕,确定目标字幕的字幕属性信息和与目标字幕语义相关的第一信息,接着,根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕,并将与目标匹配字幕对应的音视频信息确定为包括第一图像的音视频。这样,当图像中的目标字幕与预设字幕信息中的字幕不能完全匹配时,也能够基于目标字幕筛选出部分匹配字幕,从而达到搜索包括部分匹配字幕的目标匹配字幕对应的音视频信息的目的,提高了搜索音视频信息的成功率。
另外,通过图片中的字幕信息,匹配音视频信息,无需用户对视频的影片名、演员名及导演名等关键词搜索,或者是基于影视分类进行记忆,在减少用户搜索信息的操作的同时,本申请实施例中提供的信息处理方法还可以拓宽信息搜索的场景,能够更加高效地匹配到音视频信息,提高信息搜索的效率。
可选的,如图6所示,本申请实施例还提供一种电子设备60,包括处理器 601,存储器602,存储在存储器602上并可在处理器601上运行的程序或指令,该程序或指令被处理器601执行时实现上述信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图7为本申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710以及收音器711等部件。
本领域技术人员可以理解,电子设备700还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器710逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,在本申请实施例中,处理器710,用于获取第一图像,第一图像包括目标字幕;根据目标字幕,确定第一特征信息,第一特征信息包括字幕属性信息和与目标字幕语义相关的第一信息;根据第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕。
显示单元706,用于显示与目标匹配字幕对应的音视频信息。
在一个或者多个可能的实施例中,处理器710具体可以用于,从预设字幕信息中,筛选预设候选字幕信息,预设候选字幕信息为满足与目标字幕对应的预设词语长度值的字幕信息;
在预设候选字幕信息的数量大于N的情况下,根据第一特征信息,确定多个预设候选字幕信息中每个预设候选字幕信息对应的匹配评分,其中,N为大于1的正整数;
将匹配评分大于或者等于预设匹配评分的预设候选字幕信息确定为目标匹配字幕。
进一步地,处理器710具体可以用于,根据字幕属性信息,确定每个候选字幕信息的第一评分值,以及根据第一信息,确定每个候选字幕信息的第二评分值;
对第一评分值和第二评分值进行加权求和,得到每个预设候选字幕信息对应的匹配评分。
在一个或者多个可能的实施例中,处理器710具体可以用于,在字幕属性信息包括角色名称信息和目标关键词信息的情况下,统计候选字幕信息中包括角色名称的候选字幕信息的第一子评分值,以及,统计候选字幕信息中包括目标关键词信息的候选字幕信息的第二子评分值;
对第一子评分值和第二子评分值进行加权求和,得到每个候选字幕信息的第一评分值。
在一个或者多个可能的实施例中,处理器710具体可以用于,在第一信息包括目标字幕的音节信息和目标字幕的向量信息的情况下,根据目标字幕的音节信息,在多个候选字幕信息中筛选第一候选字幕信息,并计算目标字幕的音节信息与第一候选字幕信息的音节信息的音节编辑距离,其中,第一候选字幕信息的音节信息与目标字幕的音节信息相同;
根据目标字幕的第一向量信息和每个候选字幕信息的第二向量信息,计算目标字幕与每个候选字幕信息之间的文本相似度;
对音节编辑距离和文本相似度进行加权求和,得到每个候选字幕信息的第二评分值。
在一个或者多个可能的实施例中,处理器710还可以用于,在检测到第一图像中包括目标对象的第二特征信息时,在与目标匹配字幕对应的音视频信息中筛选包括第二特征信息的第二图像;
将第一图像和第二图像进行匹配,得到匹配结果。
基于此,显示单元706还可以包括:在匹配结果为第一图像和第二图像相同,且第二图像包括目标匹配字幕的情况下,显示音视频信息。
其中,在目标对象为人物对象时,第二特征信息为人物对象的生物特征图像信息和身份信息;在目标对象为地标对象时,第二特征信息为地标对象的图像信息和地标简介信息。
应理解的是,输入单元704可以包括图形处理器(Graphics Processing Unit,GPU)7041和麦克风7042,图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图像或视频的图像数据进行处理。显示单元706可包括显示面板7061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071,也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器709可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器710可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。其中,可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
另外,本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (14)

1.一种信息处理方法,其特征在于,包括:
获取第一图像,所述第一图像包括目标字幕;
根据所述目标字幕,确定第一特征信息,所述第一特征信息包括字幕属性信息和与所述目标字幕语义相关的第一信息;
根据所述第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕;
显示与所述目标匹配字幕对应的音视频信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕,包括:
从所述预设字幕信息中,筛选预设候选字幕信息,所述预设候选字幕信息为满足与所述目标字幕对应的预设词语长度值的字幕信息;
在所述预设候选字幕信息的数量大于N的情况下,根据第一特征信息,确定所述多个预设候选字幕信息中每个预设候选字幕信息对应的匹配评分,其中,N为大于1的正整数;
将匹配评分大于或者等于预设匹配评分的预设候选字幕信息确定为所述目标匹配字幕。
3.根据权利要求2所述的方法,其特征在于,所述根据第一特征信息,确定所述多个预设候选字幕信息中每个预设候选字幕信息对应的匹配评分,包括:
根据所述字幕属性信息,确定所述每个候选字幕信息的第一评分值,以及根据所述第一信息,确定所述每个候选字幕信息的第二评分值;
对所述第一评分值和所述第二评分值进行加权求和,得到每个预设候选字幕信息对应的匹配评分。
4.根据权利要求3所述的方法,其特征在于,所述字幕属性信息包括角色名称信息和目标关键词信息;所述根据所述字幕属性信息,确定所述每个候选字幕信息的第一评分值,包括:
统计所述候选字幕信息中包括所述角色名称的候选字幕信息的第一子评分值,以及,统计所述候选字幕信息中包括所述目标关键词信息的候选字幕信息的第二子评分值;
对所述第一子评分值和所述第二子评分值进行加权求和,得到所述每个候选字幕信息的第一评分值。
5.根据权利要求3所述的方法,其特征在于,所述第一信息包括所述目标字幕的音节信息和所述目标字幕的向量信息;所述根据所述第一信息,确定所述每个候选字幕信息的第二评分值,包括:
根据所述目标字幕的音节信息,在所述多个候选字幕信息中筛选第一候选字幕信息,并计算所述目标字幕的音节信息与所述第一候选字幕信息的音节信息的音节编辑距离,其中,所述第一候选字幕信息的音节信息与所述目标字幕的音节信息相同;
根据所述目标字幕的第一向量信息和所述每个候选字幕信息的第二向量信息,计算所述目标字幕与所述每个候选字幕信息之间的文本相似度;
对所述音节编辑距离和所述文本相似度进行加权求和,得到所述每个候选字幕信息的第二评分值。
6.根据权利要求1所述的方法,其特征在于,所述显示与所述目标匹配字幕对应的音视频信息之前,所述方法还包括:
在检测到所述第一图像中包括目标对象的第二特征信息时,在与所述目标匹配字幕对应的音视频信息中筛选包括所述第二特征信息的第二图像;
将所述第一图像和所述第二图像进行匹配,得到匹配结果;
所述显示与所述目标匹配字幕对应的音视频信息,包括:
在所述匹配结果为所述第一图像和所述第二图像相同,且所述第二图像包括目标匹配字幕的情况下,显示所述音视频信息;
其中,在所述目标对象为人物对象时,所述第二特征信息为人物对象的生物特征图像信息和身份信息;在所述目标对象为地标对象时,所述第二特征信息为所述地标对象的图像信息和地标简介信息。
7.一种信息处理装置,其特征在于,包括:
获取模块,用于获取第一图像,所述第一图像包括目标字幕;
确定模块,用于根据所述目标字幕,确定第一特征信息,所述第一特征信息包括字幕属性信息和与所述目标字幕语义相关的第一信息;
筛选模块,用于根据所述第一特征信息,从预设字幕信息中筛选出满足预设条件的目标匹配字幕;
显示模块,用于显示与所述目标匹配字幕对应的音视频信息。
8.根据权利要求7所述的装置,其特征在于,所述筛选模块具体用于,从所述预设字幕信息中,筛选预设候选字幕信息,所述预设候选字幕信息为满足与所述目标字幕对应的预设词语长度值的字幕信息;
在所述预设候选字幕信息的数量大于N的情况下,根据第一特征信息,确定所述多个预设候选字幕信息中每个预设候选字幕信息对应的匹配评分,其中,N为大于1的正整数;
将匹配评分大于或者等于预设匹配评分的预设候选字幕信息确定为所述目标匹配字幕。
9.根据权利要求8所述的装置,其特征在于,所述筛选模块具体用于,根据所述字幕属性信息,确定所述每个候选字幕信息的第一评分值,以及根据所述第一信息,确定所述每个候选字幕信息的第二评分值;
对所述第一评分值和所述第二评分值进行加权求和,得到每个预设候选字幕信息对应的匹配评分。
10.根据权利要求9所述的装置,其特征在于,所述筛选模块具体用于,在所述字幕属性信息包括角色名称信息和目标关键词信息的情况下,统计所述候选字幕信息中包括所述角色名称的候选字幕信息的第一子评分值,以及,统计所述候选字幕信息中包括所述目标关键词信息的候选字幕信息的第二子评分值;
对所述第一子评分值和所述第二子评分值进行加权求和,得到所述每个候选字幕信息的第一评分值。
11.根据权利要求9所述的装置,其特征在于,所述筛选模块具体用于,在所述第一信息包括所述目标字幕的音节信息和所述目标字幕的向量信息的情况下,根据所述目标字幕的音节信息,在所述多个候选字幕信息中筛选第一候选字幕信息,并计算所述目标字幕的音节信息与所述第一候选字幕信息的音节信息的音节编辑距离,其中,所述第一候选字幕信息的音节信息与所述目标字幕的音节信息相同;
根据所述目标字幕的第一向量信息和所述每个候选字幕信息的第二向量信息,计算所述目标字幕与所述每个候选字幕信息之间的文本相似度;
对所述音节编辑距离和所述文本相似度进行加权求和,得到所述每个候选字幕信息的第二评分值。
12.根据权利要求7所述的装置,其特征在于,所述信息处理装置还包括:筛选模块,用于在检测到所述第一图像中包括目标对象的第二特征信息时,在与所述目标匹配字幕对应的音视频信息中筛选包括所述第二特征信息的第二图像;
将所述第一图像和所述第二图像进行匹配,得到匹配结果;
所述显示模块具体用于,在所述匹配结果为所述第一图像和所述第二图像相同,且所述第二图像包括目标匹配字幕的情况下,显示所述音视频信息;
其中,在所述目标对象为人物对象时,所述第二特征信息为人物对象的生物特征图像信息和身份信息;在所述目标对象为地标对象时,所述第二特征信息为所述地标对象的图像信息和地标简介信息。
13.一种电子设备,其特征在于,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的信息处理方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的信息处理方法的步骤。
CN202110463298.XA 2021-04-23 2021-04-23 信息处理方法、装置、电子设备及存储介质 Pending CN113326395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110463298.XA CN113326395A (zh) 2021-04-23 2021-04-23 信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110463298.XA CN113326395A (zh) 2021-04-23 2021-04-23 信息处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113326395A true CN113326395A (zh) 2021-08-31

Family

ID=77413830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110463298.XA Pending CN113326395A (zh) 2021-04-23 2021-04-23 信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113326395A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090112020A (ko) * 2008-04-23 2009-10-28 엔에이치엔(주) 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법
CN110942070A (zh) * 2019-11-29 2020-03-31 北京奇艺世纪科技有限公司 内容展示方法、装置、电子设备及计算机可读存储介质
CN111079030A (zh) * 2019-12-24 2020-04-28 维沃移动通信有限公司 一种群组搜索方法及电子设备
CN111343512A (zh) * 2020-02-04 2020-06-26 聚好看科技股份有限公司 信息获取方法、显示设备及服务器
CN111611356A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息查找方法、装置、电子设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090112020A (ko) * 2008-04-23 2009-10-28 엔에이치엔(주) 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법
CN111611356A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息查找方法、装置、电子设备及可读存储介质
CN110942070A (zh) * 2019-11-29 2020-03-31 北京奇艺世纪科技有限公司 内容展示方法、装置、电子设备及计算机可读存储介质
CN111079030A (zh) * 2019-12-24 2020-04-28 维沃移动通信有限公司 一种群组搜索方法及电子设备
CN111343512A (zh) * 2020-02-04 2020-06-26 聚好看科技股份有限公司 信息获取方法、显示设备及服务器

Similar Documents

Publication Publication Date Title
Adnan et al. Limitations of information extraction methods and techniques for heterogeneous unstructured big data
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
US10198506B2 (en) System and method of sentiment data generation
TWI544350B (zh) Input method and system for searching by way of circle
US11580181B1 (en) Query modification based on non-textual resource context
US10311113B2 (en) System and method of sentiment data use
US20130018875A1 (en) System and method for ordering semantic sub-keys utilizing superlative adjectives
US20120047172A1 (en) Parallel document mining
US10282374B2 (en) System and method for feature recognition and document searching based on feature recognition
US9542934B2 (en) Systems and methods for using latent variable modeling for multi-modal video indexing
US9805120B2 (en) Query selection and results merging
Maharani et al. Aspect extraction in customer reviews using syntactic pattern
Amaresh et al. Video captioning using deep learning: an overview of methods, datasets and metrics
CN112631437A (zh) 信息推荐方法、装置及电子设备
JP2014229091A (ja) 文字入力用のプログラム
Chang How far we've come: Impact of 20 years of multimedia information retrieval
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
Park et al. A study of evaluation metrics and datasets for video captioning
CN113033163A (zh) 一种数据处理方法、装置和电子设备
CN113326395A (zh) 信息处理方法、装置、电子设备及存储介质
CN113177170B (zh) 评论展示方法、装置及电子设备
Yeh et al. A case for query by image and text content: searching computer help using screenshots and keywords
CN110580313A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN113360742A (zh) 推荐信息确定方法、装置及电子设备
US10176176B2 (en) Assistance for video content searches over a communication network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination