CN113420167A - 多媒体资源处理方法、装置、电子设备及存储介质 - Google Patents
多媒体资源处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113420167A CN113420167A CN202110529219.0A CN202110529219A CN113420167A CN 113420167 A CN113420167 A CN 113420167A CN 202110529219 A CN202110529219 A CN 202110529219A CN 113420167 A CN113420167 A CN 113420167A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- multimedia resource
- target object
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000001960 triggered effect Effects 0.000 claims abstract description 35
- 230000004044 response Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000003068 static effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开关于一种多媒体资源处理方法、装置、电子设备及存储介质,该方法包括:在多媒体资源展示过程中,响应于基于多媒体资源触发的对象查询指令,从多媒体资源中提取对象查询指令对应的对象查询信息;从预设对象信息库中查询与对象查询信息对应的目标对象信息;在多媒体资源的展示页面中展示目标对象信息。利用本公开实施例可以在保证多媒体资源展示的流畅性的基础上,大大提升目标对象信息查询效率。
Description
技术领域
本公开涉及互联网技术领域,尤其涉及一种多媒体资源处理方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展和多媒体资源的普及,直播视频、短视频、影视作品等多媒体资源已经成为一种有效的信息获取渠道。但用户在浏览多媒体资源的过程中常常会出现一些人像与人名对不上的场景,例如,用户观看影视作品的时候,出现的人物太多,用户不能很好的将人像和人名对应上,或者在视频直播过程中出现了一些用户不熟悉的客串嘉宾,或是台词和弹幕中有人名出现,用户不能很好的将人名和人像对应上。相关技术中,往往会截图搜索,用户截取视频中的某一帧图片或复制相应的人名,然后转到其他搜索应用或其他页面中,通过图片或人名进行查询人像或人名的信息;上述相关技术中的方式会打断用户的观看流程,存在信息查询效率较低,用户流失等问题。
发明内容
本公开提供一种多媒体资源处理方法、装置、电子设备及存储介质,以至少解决相关技术中的查询效率较低,用户流失等问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种多媒体资源处理方法,包括:
在多媒体资源展示过程中,响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息;
从预设对象信息库中查询与所述对象查询信息对应的目标对象信息;
在所述多媒体资源的展示页面中展示所述目标对象信息。
可选的,所述对象查询信息包括目标对象文本标识,所述响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息包括:
响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
在所述触发点位于所述多媒体资源的展示页面的文本区域的情况下,从所述文本区域提取所述目标对象文本标识。
可选的,所述响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息还包括:
确定所述文本区域对应的文本信息在所述多媒体资源中的展示方式;
所述从所述文本区域提取所述目标对象文本标识包括:
在所述展示方式为内嵌展示方式的情况下,获取所述文本区域对应的文本图像;
对所述文本图像进行文字识别,得到所述文本区域对应的文本信息;
对所述文本信息进行对象标识识别,得到所述目标对象文本标识。
可选的,所述从所述文本区域提取所述目标对象文本标识还包括:
在所述展示方式为非内嵌展示方式的情况下,获取所述文本区域对应的文本信息;
对所述文本信息进行对象标识识别,得到所述目标对象文本标识。
可选的,所述预设对象信息库包括预设数量个对象的对象信息,所述对象信息包括对象文本标识;所述从预设对象信息库中查询与所述对象查询信息对应的目标对象信息包括:
计算所述目标对象文本标识与预设对象信息库中对象文本标识间的第一相似度;
基于所述第一相似度从所述预设数量个对象的对象信息中确定所述目标对象信息。
可选的,所述对象查询信息包括目标对象图像,所述响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息包括:
响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
在所述触发点位于所述多媒体资源的展示页面的图像区域的情况下,获取所述多媒体资源中当前展示的目标图像;
从所述目标图像中提取所述目标对象图像。
可选的,所述从所述目标图像中提取所述目标对象图像包括:
截取所述目标图像中目标区域的区域图像,所述目标区域为以所述对象查询指令触发点为中心的预设区域;
对所述区域图像进行对象检测,得到所述目标对象图像。
可选的,所述预设对象信息库包括预设数量个对象的对象信息,所述对象信息包括对象图像;所述从预设对象信息库中查询与所述对象查询信息对应的目标对象信息包括:
计算目标对象图像与所述预设数量个对象的对象图像间的第二相似度;
基于所述第二相似度从所述预设数量个对象的对象信息中确定所述目标对象信息。
可选的,所述对象查询信息包括目标对象文本标识,所述响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息包括:
响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
在所述触发点位于所述多媒体资源的展示页面的图像区域和文本区域的相交区域的情况下,从所述相交区域提取所述目标对象文本标识。
根据本公开实施例的第二方面,提供一种多媒体资源处理装置,包括:
对象查询信息提取模块,被配置为执行在多媒体资源展示过程中,响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息;
目标对象信息查询模块,被配置为执行从预设对象信息库中查询与所述对象查询信息对应的目标对象信息;
目标对象信息展示模块,被配置为执行在所述多媒体资源的展示页面中展示所述目标对象信息。
可选的,所述对象查询信息包括目标对象文本标识,所述对象查询信息提取模块包括:
第一触发点确定单元,被配置为执行响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
第一对象文本标识提取单元,被配置为执行在所述触发点位于所述多媒体资源的展示页面的文本区域的情况下,从所述文本区域提取所述目标对象文本标识。
可选的,所述对象查询信息提取模块还包括:
展示方式确定单元,被配置为执行确定所述文本区域对应的文本信息在所述多媒体资源中的展示方式;
所述目标对象文本标识提取单元包括:
文本图像获取单元,被配置为执行在所述展示方式为内嵌展示方式的情况下,获取所述文本区域对应的文本图像;
文字识别单元,被配置为执行对所述文本图像进行文字识别,得到所述文本区域对应的文本信息;
第一对象标识识别单元,被配置为执行对所述文本信息进行对象标识识别,得到所述目标对象文本标识。
可选的,所述目标对象文本标识提取单元还包括:
文本信息获取单元,被配置为执行在所述展示方式为非内嵌展示方式的情况下,获取所述文本区域对应的文本信息;
第二对象标识识别单元,被配置为执行对所述文本信息进行对象标识识别,得到所述目标对象文本标识。
可选的,所述预设对象信息库包括预设数量个对象的对象信息,所述对象信息包括对象文本标识;所述目标对象信息查询模块包括:
第一相似度计算单元,被配置为执行计算所述目标对象文本标识与预设对象信息库中对象文本标识间的第一相似度;
第一目标对象信息确定单元,被配置为执行基于所述第一相似度从所述预设数量个对象的对象信息中确定所述目标对象信息。
可选的,所述对象查询信息包括目标对象图像,所述对象查询信息提取模块包括:
第二触发点确定单元,被配置为执行响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
目标图像获取单元,被配置为执行在在所述触发点位于所述多媒体资源的展示页面的图像区域的情况下,获取所述多媒体资源中当前展示的目标图像;
目标对象图像提取单元,被配置为执行从所述目标图像中提取所述目标对象图像。
可选的,所述目标对象图像提取单元包括:
区域图像截取单元,被配置为执行截取所述目标图像中目标区域的区域图像,所述目标区域为以所述对象查询指令触发点为中心的预设区域;
对象检测单元,被配置为执行对所述区域图像进行对象检测,得到所述目标对象图像。
可选的,所述预设对象信息库包括预设数量个对象的对象信息,所述对象信息包括对象图像;所述目标对象信息查询模块包括:
第二相似度计算单元,被配置为执行计算目标对象图像与所述预设数量个对象的对象图像间的第二相似度;
第二目标对象信息确定单元,被配置为执行基于所述第二相似度从所述预设数量个对象的对象信息中确定所述目标对象信息。
可选的,所述对象查询信息包括目标对象文本标识,所述对象查询信息提取模块包括:
第三触发点确定单元,被配置为执行响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
第二对象文本标识提取单元,被配置为执行在所述触发点位于所述多媒体资源的展示页面的图像区域和文本区域的相交区域的情况下,从所述相交区域提取所述目标对象文本标识。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上述第一方面中任一项所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。
根据本公开实施例的第五方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例的第一方面中任一所述方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在多媒体资源展示过程中,可以直接触发对象查询指令,且结合对象查询指令对应的对象查询信息,从预设对象信息库中查找目标对象信息,并将目标对象信息展示在多媒体资源的展示页面,可以在保证多媒体资源展示的流畅性的基础上,大大提升目标对象信息的查询效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种多媒体资源处理方法的流程图;
图2是根据一示例性实施例示出的一种从文本区域提取目标对象文本标识的流程图;
图3是根据一示例性实施例示出的一种多媒体资源所在播放页面的示意图;
图4是根据一示例性实施例示出的一种多媒体资源所在播放页面的示意图;
图5是根据一示例性实施例示出的一种展示有目标对象信息的多媒体资源的展示页面的示意图;
图6是根据一示例性实施例示出的一种展示有目标对象信息的多媒体资源的展示页面的示意图;
图7是根据一示例性实施例示出的一种多媒体资源处理装置框图;
图8是根据一示例性实施例示出的一种用于多媒体资源处理的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
图1是根据一示例性实施例示出的一种多媒体资源处理方法的流程图,如图1所示,该多媒体资源处理方法用于终端电子设备中,包括以下步骤。
在步骤S101中,在多媒体资源展示过程中,响应于基于多媒体资源触发的对象查询指令,从多媒体资源中提取对象查询指令对应的对象查询信息。
在一个具体的实施例中,多媒体资源可以包括但不限于直播视频、短视频、影视作品、图像等。在一个可选的实施例中,在多媒体资源为短视频、直播视频、影视作品等动态多媒体资源的情况下,上述多媒体资源展示过程中可以为动态媒体资源播放过程中。在另一个可选的实施例中,在多媒体资源为图像等静态媒体资源的情况下,上述多媒体资源展示过程中可以为静态媒体资源展示过程中。
在实际应用中,多媒体资源的展示页面中往往可以包括文本区域和图像区域。具体的,文本区域和图像区域均可以包括待查询对象的部分相关信息;本说明书实施例中,待查询对象可以包括但不限于人、物等。具体的,文本区域中待查询对象的部分相关信息可以为人名、物品名等文本信息;图像区域中的待查询对象的部分相关信息可以为人像、物品图像等图像信息。在一个具体的实施例中,例如在直播视频、影视作品等动态多媒体资源的展示页面中,文本区域往往是位于固定的区域,例如评论信息框、弹幕框所在区域。可选的,在文本区域固定的场景中,可以将展示页面中除文本区域以外的区域作为图像区域。
在一个具体的实施例中,上述对象查询信息可以包括目标对象文本标识,相应的,上述响应于基于多媒体资源触发的对象查询指令,从多媒体资源中提取对象查询指令对应的对象查询信息可以包括:响应于基于多媒体资源触发的对象查询指令,确定对象查询指令对应的触发点;在触发点位于多媒体资源的展示页面的文本区域的情况下,从文本区域提取目标对象文本标识。
在一个具体的实施例中,目标对象文本标识可以为目标对象的文本标识信息。具体的,例如文本区域出现的人名。相应的,可以从文本区域提取人名。
上述实施例中,在多媒体资源展示过程中,可以直接在多媒体资源的展示页面触发对象查询指令,且结合对象查询指令的触发点所在区域的划分,可以准确的从相应区域提取对象查询信息,在触发点位于文本区域的情况下,可以从文本区域提取用于进行对象信息查询的目标对象文本标识,进而可以在有效提取对象查询信息的基础上,避免对多媒体资源展示的中断,有效提升多媒体资源展示的流畅性。
在一个具体的实施例中,响应于基于多媒体资源触发的对象查询指令,从多媒体资源中提取对象查询指令对应的对象查询信息还可以包括:确定文本区域对应的文本信息在多媒体资源中的展示方式;
在一个具体的实施例中,文本信息在多媒体资源中的展示方式可以包括内嵌展示方式和非内嵌展示方式。具体的,内嵌展示方式的文本信息与多媒体资源为一个整体,一般的,在多媒体资源为视频、图像等格式的情况下,该内嵌展示方式的文本信息为图像格式。反之,非内嵌展示方式的文本信息与多媒体资源并非一个整体,该内嵌展示方式的文本信息为文本格式。
在一个可选的实施例中,如图2所示,上述从文本区域提取目标对象文本标识可以包括:
在步骤S201中,在展示方式为内嵌展示方式的情况下,获取文本区域对应的文本图像;
在步骤S203中,对文本图像进行文字识别,得到文本区域对应的文本信息;
在步骤S205中,对文本信息进行对象标识识别,得到目标对象文本标识。
在一个可选的实施例中,在展示方式为内嵌展示方式的情况下,可以截取上述文本区域的图像,作为用于进行文字识别的文本图像。在另一个可选的实施例中,在文本区域为评论信息框等可以划分成多个独立区域的情况下,可以将对象查询指令对应的触发点所在独立区域的图像,作为用于进行文字识别的文本图像。可选的,也可以在文本区域中以对象查询指令对应的触发点为中心,将预设范围(可以预先设置)内的区域图像,作为用于进行文字识别的文本图像。
在一个具体的实施例中,对文本图像进行文字识别,得到文本区域对应的文本信息可以包括但不限于结合OCR(Optical Character Recognition,光学字符识别)等技术实现。
进一步的,在得到文本信息之后,可以对文本信息进行对象标识识别,得到上述目标对象文本标识。在一个可选的实施例中,可以预先训练对象标识识别模型,基于对象标识识别模型对文本信息进行对象标识识别,得到上述目标对象文本标识。具体的,可以结合具有对象文本标识的标注信息的大量文本信息为训练数据,对第一预设神经网络进行训练,得到对象标识识别模型。在另一个可选的实施例中,在对象为人的情况下,对象文本标识往往可以包括姓和名,相应的,可以通过对文本信息进行姓的识别,并将姓之后的一个或多个字与该姓作为目标对象文本标识。
上述实施例中,在文本区域对应的文本信息在多媒体资源中的展示方式为内嵌展示方式的情况下,通过对文本区域对应的文本图像的文字识别,可以提取对应的文本信息,进而可以基于对文本信息的对象标识识别,精准地提取用于进行对象信息查询的目标对象文本标识。
在一个可选的实施例中,上述从文本区域提取目标对象文本标识可以包括:
在展示方式为非内嵌展示方式的情况下,获取文本区域对应的文本信息;
对文本信息进行对象标识识别,得到目标对象文本标识。
在一个具体的实施例中,在展示方式为非内嵌展示方式的情况下,往往可以直接获取到对应的文本信息。具体的,文本信息中可以包括一个或多个对象的文本标识。可选的,可以将多媒体资源的展示页面中文本区域的文本信息,作为用于进行对象标识识别的文本信息。可选的,在文本区域为评论信息框等可以划分成多个独立区域的情况下,可以将对象查询指令对应的触发点所在独立区域的文本信息,作为用于进行对象标识识别的文本信息。可选的,也可以在文本区域中以对象查询指令对应的触发点为中心,将预设范围(可以预先设置)对应区域的文本信息,作为用于进行对象标识识别的文本信息。
在一个具体的实施例中,以影视作品播放场景为例,如图3所示,图3是根据一示例性实施例示出的一种多媒体资源所在播放页面的示意图。具体的,其中,弹幕框100所在区域为文本区域,可选的,播放页面中除弹幕框100以外的区域可以为图像区域。在一个具体的实施例中,假设用户在观看影视作品时,弹幕中出现了用户对不上人像的人名,用户可以通过点击弹幕框100所在区域触发对象查询指令。
上述实施例中,在文本区域对应的文本信息在多媒体资源中的展示方式为非内嵌展示方式的情况下,通过对文本区域对应的文本信息的对象标识识别,可以精准的提取用于进行对象信息查询的目标对象文本标识。
在另一个具体的实施例中,上述对象查询信息包括目标对象图像,相应的,上述响应于基于多媒体资源触发的对象查询指令,从多媒体资源中提取对象查询指令对应的对象查询信息可以包括:响应于基于多媒体资源触发的对象查询指令,确定对象查询指令对应的触发点;在触发点位于多媒体资源的展示页面的图像区域的情况下,获取多媒体资源中当前展示的目标图像;从目标图像中提取目标对象图像。
在一个具体的实施例中,在多媒体资源为动态多媒体资源的情况下,可以将动态多媒体资源中当前播放(当前展示)的页面图像作为上述目标图像。在多媒体资源为静态多媒体资源的情况下,可以将静态多媒体资源中当前展示的页面图像作为上述目标图像。并从目标图像中提取目标对象图像。具体的,目标对象图像可以为目标对象所在区域的图像。
上述实施例中,在多媒体资源展示过程中,可以直接在多媒体资源的展示页面触发对象查询指令,且结合对象查询指令的触发点所在区域的划分,可以准确的从相应区域提取对象查询信息,在触发点位于图像区域的情况下,可以从图像区域提取用于进行对象信息查询的目标对象图像,在有效提取对象查询信息的基础上,可以避免对多媒体资源展示的中断,有效提升了多媒体资源展示的流畅性。
在一个可选的实施例中,从目标图像中提取目标对象图像可以包括:截取目标图像中目标区域的区域图像;对区域图像进行对象检测,得到目标对象图像。
在一个具体的实施例中,上述目标区域可以为以对象查询指令触发点为中心的预设区域;可以结合预先训练好的对象检测模型对区域图像进行对象检测,得到目标对象图像。可选的,区域图像中可以包括一个或多个对象,相应的,目标对象图像可以为一个或多个对象的图像。具体的,可以结合具有对象位置信息标注的对象训练图像为训练数据,对第二预设神经网络进行训练,得到对象检测模型。
在一个具体的实施例中,以直播视频场景为例,如图4所示,图4是根据一示例性实施例示出的一种多媒体资源所在播放页面的示意图。具体的,其中,评论信息框200所在区域为文本区域,可选的,播放页面中除评论信息框200以外的区域可以为图像区域。在一个具体的实施例中,假设用户在观看直播视频时,直播视频中出现了用户不熟悉的嘉宾(人像),用户可以基于图像区域中人像所在区域触发对象查询指令。
上述实施例中,通过截取目标图像中目标区域的区域图像,并对区域图像进行对象检测,可以精准的提取用于进行对象信息查询的目标对象图像。
在一个具体的实施例中,上述响应于基于多媒体资源触发的对象查询指令,从多媒体资源中提取对象查询指令对应的对象查询信息可以包括:响应于基于多媒体资源触发的对象查询指令,确定对象查询指令对应的触发点;在触发点位于多媒体资源的展示页面的图像区域和文本区域的相交区域的情况下,从相交区域提取目标对象文本标识。
在实际应用中,评论、弹幕等文本信息更新较快,可选的,在对象查询指令对应的触发点位于多媒体资源的展示页面的图像区域和文本区域的相交区域的情况下,可以优先提取目标对象文本标识。
本说明书实施例中,从相交区域提取目标对象文本标识可以参见上述从文本区域提取目标对象文本标识的具体细化,在此不再赘述。
上述实施例中,在对象查询指令的触发点位于文本区域和图像区域的相交区域的情况下,优先提取更新较快的目标对象文本标识,可以有效保证对象查询信息的提取准确率和效率。
在步骤S103中,从预设对象信息库中查询与对象查询信息对应的目标对象信息。
本说明书实施例中,上述预设对象信息库可以包括预设数量个对象的对象信息,具体的,每个对象的对象信息包括可以用于介绍该对象的相关信息。具体的,对象信息可以包括对象图像和对象文本信息,其中,对象文本信息可以包括对象文本标识和其他非对象文本标识的文本信息。具体的,对象图像和对象文本标识可以作为查询过程中的对象查询信息。在一个具体的实施例中,为了提升对对象表征的精准性,以及后续查询的效率和准确性,一个对象的对象图像和对象文本标识均可以有多个,以人为对象为例,对象图像可以包括一个人不同年龄段的图像,比如同一个人的青年人像、中年人像、老年人像;对象文本标识可以包括一个人的多个人名,如正式的姓名、昵称、代号等。
在实际应用中,可以预先通过人工标注或者机器学习方式,得到对象图像和对象文本信息间的对象关系。具体的,如影视作品中,人物文本信息往往可以预先获取,相应的,可以结合机器学习模型对影视作品进行人像识别,提取对应的人像,进而结合一一对应的人像和人物文本信息构建上述预设对象信息库。
在一个具体的实施例中,以上述对象查询信息为目标对象文本标识为例,上述从预设对象信息库中查询与对象查询信息对应的目标对象信息可以包括:计算目标对象文本标识与预设数量个对象的对象文本标识间的第一相似度;基于第一相似度从预设数量个对象的对象信息中确定目标对象信息。
在一个具体的实施例中,可以结合词向量模型确定目标对象文本标识和预设数量个对象的对象文本标识的词向量,相应的,可以将词向量间的距离作为上述第一相似度。具体的,词向量间的距离可以包括但不限于余弦距离、曼哈顿距离等。可选的,可以将预设数量个对象的对象文本标识中,与目标对象文本标识的第一相似度最高的对象文本标识所对应的对象信息作为目标对象信息。
上述实施例中,结合对象文本标识间的相似度,可以快速精确的从预设对象信息库中查询目标对象信息。
在一个具体的实施例中,以上述对象查询信息为目标对象图像为例,上述从预设对象信息库中查询与对象查询信息对应的目标对象信息可以包括:
计算目标对象图像与预设数量个对象的对象图像间的第二相似度;
基于第二相似度从预设数量个对象的对象信息中确定目标对象信息。
在一个具体的实施例中,可以结合特征提取模型提取目标对象图像与预设数量个对象的对象图像的特征信息(特征向量),相应的,可以将特征向量间的距离作为上述第二相似度。具体的,特征向量间的距离可以包括但不限于余弦距离、曼哈顿距离等。可选的,可以将预设数量个对象的对象图像中,与目标对象图像的第二相似度最高的对象图像所对应的对象信息作为目标对象信息。
上述实施例中,结合对象图像间的相似度,可以快速精确的从预设对象信息库中查询目标对象信息。
在步骤S105中,在多媒体资源的展示页面中展示目标对象信息。
在一个具体的实施例中,在获取到目标对象信息之后,可以在多媒体资源的展示页面中展示目标对象信息,以便在用户观看多媒体资料的同时,及时获取到当前展示的多媒体资源对应的对象信息。
在一个具体的实施例中,结合上述图3中影视作品的场景,如图5所示,图5是根据一示例性实施例示出的一种展示有目标对象信息的多媒体资源的展示页面的示意图。具体的,用户在点击“张三丰真帅”的文本区域后,可以触发对象查询指令,并提取“张三丰真帅”的文本信息,结合对文本信息“张三丰真帅”的对象识别,可以提取目标对象文本标识“张三丰”,相应的,可以基于“张三丰”与预设对象信息库中预设数量个人物的人名(对象文本标识)间相似度,来查询到“张三丰”的人物资料(对象信息),并展示“张三丰”的人物资料。
在一个具体的实施例中,结合上述图4中直播视频的场景,如图6所示,图6是根据一示例性实施例示出的一种展示有目标对象信息的多媒体资源的展示页面的示意图。具体的,用户在点击图像区域后,可以触发对象查询指令,并截取相应的区域图像,结合对区域图像的对象检测,可以提取目标对象图像,相应的,可以基于目标对象图像与预设对象信息库中预设数量个人物的人像(对象图像)间相似度,来查询到相应的人物资料(对象信息),并展示相应的人物资料。
由以上本说明书实施例提供的技术方案可见,本说明书在多媒体资源展示过程中,可以直接触发对象查询指令,且结合对象查询指令对应的对象查询信息,从预设对象信息库中查找目标对象信息,并将目标对象信息展示在多媒体资源的展示页面,可以在保证多媒体资源展示的流畅性的基础上,大大提升目标对象信息查询效率,进而可以避免对多媒体资源展示的中断和用户流失等问题。
图7是根据一示例性实施例示出的一种多媒体资源处理装置框图。参照图7,该装置包括:
对象查询信息提取模块710,被配置为执行在多媒体资源展示过程中,响应于基于多媒体资源触发的对象查询指令,从多媒体资源中提取对象查询指令对应的对象查询信息;
目标对象信息查询模块720,被配置为执行从预设对象信息库中查询与对象查询信息对应的目标对象信息;
目标对象信息展示模块730,被配置为执行在多媒体资源的展示页面中展示目标对象信息。
可选的,对象查询信息包括目标对象文本标识,对象查询信息提取模块710包括:
第一触发点确定单元,被配置为执行响应于基于多媒体资源触发的对象查询指令,确定对象查询指令对应的触发点;
第一对象文本标识提取单元,被配置为执行在触发点位于多媒体资源的展示页面的文本区域的情况下,从文本区域提取目标对象文本标识。
可选的,对象查询信息提取模块710还包括:
展示方式确定单元,被配置为执行确定文本区域对应的文本信息在多媒体资源中的展示方式;
目标对象文本标识提取单元包括:
文本图像获取单元,被配置为执行在展示方式为内嵌展示方式的情况下,获取文本区域对应的文本图像;
文字识别单元,被配置为执行对文本图像进行文字识别,得到文本区域对应的文本信息;
第一对象标识识别单元,被配置为执行对文本信息进行对象标识识别,得到目标对象文本标识。
可选的,目标对象文本标识提取单元还包括:
文本信息获取单元,被配置为执行在展示方式为非内嵌展示方式的情况下,获取文本区域对应的文本信息;
第二对象标识识别单元,被配置为执行对文本信息进行对象标识识别,得到目标对象文本标识。
可选的,预设对象信息库包括预设数量个对象的对象信息,对象信息包括对象文本标识;目标对象信息查询模块720包括:
第一相似度计算单元,被配置为执行计算目标对象文本标识与预设对象信息库中对象文本标识间的第一相似度;
第一目标对象信息确定单元,被配置为执行基于第一相似度从预设数量个对象的对象信息中确定目标对象信息。
可选的,对象查询信息包括目标对象图像,对象查询信息提取模块710包括:
第二触发点确定单元,被配置为执行响应于基于多媒体资源触发的对象查询指令,确定对象查询指令对应的触发点;
目标图像获取单元,被配置为执行在在触发点位于多媒体资源的展示页面的图像区域的情况下,获取多媒体资源中当前展示的目标图像;
目标对象图像提取单元,被配置为执行从目标图像中提取目标对象图像。
可选的,目标对象图像提取单元包括:
区域图像截取单元,被配置为执行截取目标图像中目标区域的区域图像,目标区域为以对象查询指令触发点为中心的预设区域;
对象检测单元,被配置为执行对区域图像进行对象检测,得到目标对象图像。
可选的,预设对象信息库包括预设数量个对象的对象信息,对象信息包括对象图像;目标对象信息查询模块720包括:
第二相似度计算单元,被配置为执行计算目标对象图像与预设数量个对象的对象图像间的第二相似度;
第二目标对象信息确定单元,被配置为执行基于第二相似度从预设数量个对象的对象信息中确定目标对象信息。
可选的,对象查询信息包括目标对象文本标识,对象查询信息提取模块710包括:
第三触发点确定单元,被配置为执行响应于基于多媒体资源触发的对象查询指令,确定对象查询指令对应的触发点;
第二对象文本标识提取单元,被配置为执行在触发点位于多媒体资源的展示页面的图像区域和文本区域的相交区域的情况下,从相交区域提取目标对象文本标识。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于多媒体资源处理的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体资源处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的多媒体资源处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的多媒体资源处理方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的多媒体资源处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种多媒体资源处理方法,其特征在于,包括:
在多媒体资源展示过程中,响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息;
从预设对象信息库中查询与所述对象查询信息对应的目标对象信息;
在所述多媒体资源的展示页面中展示所述目标对象信息。
2.根据权利要求1所述的多媒体资源处理方法,其特征在于,所述对象查询信息包括目标对象文本标识,所述响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息包括:
响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
在所述触发点位于所述多媒体资源的展示页面的文本区域的情况下,从所述文本区域提取所述目标对象文本标识。
3.根据权利要求2所述的多媒体资源处理方法,其特征在于,所述响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息还包括:
确定所述文本区域对应的文本信息在所述多媒体资源中的展示方式;
所述从所述文本区域提取所述目标对象文本标识包括:
在所述展示方式为内嵌展示方式的情况下,获取所述文本区域对应的文本图像;
对所述文本图像进行文字识别,得到所述文本区域对应的文本信息;
对所述文本信息进行对象标识识别,得到所述目标对象文本标识。
4.根据权利要求3所述的多媒体资源处理方法,其特征在于,所述从所述文本区域提取所述目标对象文本标识还包括:
在所述展示方式为非内嵌展示方式的情况下,获取所述文本区域对应的文本信息;
对所述文本信息进行对象标识识别,得到所述目标对象文本标识。
5.根据权利要求2至4任一所述的多媒体资源处理方法,其特征在于,所述预设对象信息库包括预设数量个对象的对象信息,所述对象信息包括对象文本标识;所述从预设对象信息库中查询与所述对象查询信息对应的目标对象信息包括:
计算所述目标对象文本标识与所述预设数量个对象的对象文本标识间的第一相似度;
基于所述第一相似度从所述预设数量个对象的对象信息中确定所述目标对象信息。
6.根据权利要求1所述的多媒体资源处理方法,其特征在于,所述对象查询信息包括目标对象图像,所述响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息包括:
响应于基于所述多媒体资源触发的对象查询指令,确定所述对象查询指令对应的触发点;
在所述触发点位于所述多媒体资源的展示页面的图像区域的情况下,获取所述多媒体资源中当前展示的目标图像;
从所述目标图像中提取所述目标对象图像。
7.一种多媒体资源处理装置,其特征在于,包括:
对象查询信息提取模块,被配置为执行在多媒体资源展示过程中,响应于基于所述多媒体资源触发的对象查询指令,从所述多媒体资源中提取所述对象查询指令对应的对象查询信息;
目标对象信息查询模块,被配置为执行从预设对象信息库中查询与所述对象查询信息对应的目标对象信息;
目标对象信息展示模块,被配置为执行在所述多媒体资源的展示页面中展示所述目标对象信息。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的多媒体资源处理方法。
9.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的多媒体资源处理方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至6中任一项所述的多媒体资源处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529219.0A CN113420167A (zh) | 2021-05-14 | 2021-05-14 | 多媒体资源处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529219.0A CN113420167A (zh) | 2021-05-14 | 2021-05-14 | 多媒体资源处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420167A true CN113420167A (zh) | 2021-09-21 |
Family
ID=77712338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110529219.0A Pending CN113420167A (zh) | 2021-05-14 | 2021-05-14 | 多媒体资源处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420167A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339442A (zh) * | 2021-12-31 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 多媒体频道的配置方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101621601A (zh) * | 2008-06-30 | 2010-01-06 | 株式会社理光 | 图像处理设备、图像形成设备、图像处理方法及计算机程序产品 |
CN103765441A (zh) * | 2011-09-06 | 2014-04-30 | 高通股份有限公司 | 使用图像区域的文本检测 |
CN104602128A (zh) * | 2014-12-31 | 2015-05-06 | 北京百度网讯科技有限公司 | 视频处理方法和视频处理装置 |
CN105279256A (zh) * | 2015-10-15 | 2016-01-27 | 梁穆典 | 一种地理信息和图像相结合的查询方法及系统 |
CN106028160A (zh) * | 2016-06-03 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法及其设备 |
CN107240047A (zh) * | 2017-05-05 | 2017-10-10 | 广州盈可视电子科技有限公司 | 一种教学视频的学分评估方法和装置 |
CN107480236A (zh) * | 2017-08-08 | 2017-12-15 | 深圳创维数字技术有限公司 | 一种信息查询方法、装置、设备和介质 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN111147891A (zh) * | 2019-12-31 | 2020-05-12 | 杭州威佩网络科技有限公司 | 视频画面中对象的信息的获取方法、装置及设备 |
CN111368101A (zh) * | 2020-03-05 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 多媒体资源信息的展示方法、装置、设备以及存储介质 |
CN111801690A (zh) * | 2018-02-20 | 2020-10-20 | 三星电子株式会社 | 用于识别字符的电子设备和方法 |
CN111797820A (zh) * | 2020-09-09 | 2020-10-20 | 北京神州泰岳智能数据技术有限公司 | 一种视频数据处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-14 CN CN202110529219.0A patent/CN113420167A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101621601A (zh) * | 2008-06-30 | 2010-01-06 | 株式会社理光 | 图像处理设备、图像形成设备、图像处理方法及计算机程序产品 |
CN103765441A (zh) * | 2011-09-06 | 2014-04-30 | 高通股份有限公司 | 使用图像区域的文本检测 |
CN104602128A (zh) * | 2014-12-31 | 2015-05-06 | 北京百度网讯科技有限公司 | 视频处理方法和视频处理装置 |
CN105279256A (zh) * | 2015-10-15 | 2016-01-27 | 梁穆典 | 一种地理信息和图像相结合的查询方法及系统 |
CN106028160A (zh) * | 2016-06-03 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法及其设备 |
CN107240047A (zh) * | 2017-05-05 | 2017-10-10 | 广州盈可视电子科技有限公司 | 一种教学视频的学分评估方法和装置 |
CN107480236A (zh) * | 2017-08-08 | 2017-12-15 | 深圳创维数字技术有限公司 | 一种信息查询方法、装置、设备和介质 |
CN111801690A (zh) * | 2018-02-20 | 2020-10-20 | 三星电子株式会社 | 用于识别字符的电子设备和方法 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN111147891A (zh) * | 2019-12-31 | 2020-05-12 | 杭州威佩网络科技有限公司 | 视频画面中对象的信息的获取方法、装置及设备 |
CN111368101A (zh) * | 2020-03-05 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 多媒体资源信息的展示方法、装置、设备以及存储介质 |
CN111797820A (zh) * | 2020-09-09 | 2020-10-20 | 北京神州泰岳智能数据技术有限公司 | 一种视频数据处理方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339442A (zh) * | 2021-12-31 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 多媒体频道的配置方法、装置、电子设备及存储介质 |
CN114339442B (zh) * | 2021-12-31 | 2023-11-07 | 北京达佳互联信息技术有限公司 | 多媒体频道的配置方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947967B (zh) | 图像识别方法、装置、存储介质和计算机设备 | |
US10032072B1 (en) | Text recognition and localization with deep learning | |
CN112330685B (zh) | 图像分割模型训练、图像分割方法、装置及电子设备 | |
US10664519B2 (en) | Visual recognition using user tap locations | |
CN109034069B (zh) | 用于生成信息的方法和装置 | |
WO2020211392A1 (zh) | 视频信息数据处理方法、装置、计算机设备和存储介质 | |
CN113204660B (zh) | 多媒体数据处理方法、标签识别方法、装置及电子设备 | |
CN113204659B (zh) | 多媒体资源的标签分类方法、装置、电子设备及存储介质 | |
CN113255354B (zh) | 搜索意图识别方法、装置、服务器及存储介质 | |
CN112818995B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN112183296A (zh) | 模拟票据图像生成、票据图像识别方法和装置 | |
CN113420203B (zh) | 对象推荐方法、装置、电子设备及存储介质 | |
CN113420167A (zh) | 多媒体资源处理方法、装置、电子设备及存储介质 | |
CN114926437A (zh) | 一种图像质量评价方法及装置 | |
CN114399699A (zh) | 目标推荐对象确定方法、装置、电子设备及存储介质 | |
CN113869099A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
Cao et al. | Localizing web videos using social images | |
CN115439922A (zh) | 对象行为识别方法、装置、设备及介质 | |
CN114996482B (zh) | 知识图谱构建、视频搜索方法、装置及电子设备 | |
US10402636B2 (en) | Identifying a resource based on a handwritten annotation | |
US20180276506A1 (en) | Information processing apparatus, method and computer program product | |
US10956493B2 (en) | Database comparison operation to identify an object | |
CN112685588B (zh) | 资源推荐方法、装置、设备和存储介质 | |
CN115052196A (zh) | 一种视频处理方法及相关设备 | |
CN111581493A (zh) | 视频推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |