CN114398517A - 视频数据获取方法及装置 - Google Patents

视频数据获取方法及装置 Download PDF

Info

Publication number
CN114398517A
CN114398517A CN202111664268.1A CN202111664268A CN114398517A CN 114398517 A CN114398517 A CN 114398517A CN 202111664268 A CN202111664268 A CN 202111664268A CN 114398517 A CN114398517 A CN 114398517A
Authority
CN
China
Prior art keywords
video
video data
word segmentation
subset
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111664268.1A
Other languages
English (en)
Inventor
卢家辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111664268.1A priority Critical patent/CN114398517A/zh
Publication of CN114398517A publication Critical patent/CN114398517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4015Image demosaicing, e.g. colour filter arrays [CFA] or Bayer patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本公开涉及计算机技术领域,尤其涉及一种视频数据获取方法及装置。其中,一种视频数据获取方法,包括:在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合,初始音视频数据包括初始音频数据和初始视频数据;若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合,分词子集中的各分词不满足音视频数据播放条件;对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。采用本公开,可以提高视频数据质量的同时提高用户的使用体验。

Description

视频数据获取方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种视频数据获取方法及装置。
背景技术
随着科学技术的发展,媒体行业的发展越发迅速,用户创造的音视频资源愈发丰富。然而用户创作的音视频数据中播放的内容并非全部都是健康的,为了达到在互联网上传播的要求,需要对音视频中播放的不健康的内容进行屏蔽。但是,终端对音视频中播放的不健康的内容进行屏蔽时,仅屏蔽不健康的音频数据,音视频中仍残留不健康的画面信息,使得用户获取的视频数据质量低下,进而影响用户使用体验。
发明内容
本公开提供一种视频数据获取方法及装置,以至少解决相关技术中获取的视频数据质量低下的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种视频数据获取方法,包括:
在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合,所述初始音视频数据包括所述初始音频数据和初始视频数据;
若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,所述分词子集中的所述各分词不满足音视频数据播放条件;
对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
可选的,所述若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,包括:
若获取到所述分词集合中的分词子集,则发出针对所述分词子集的第一提示信息;
若获取到针对所述第一提示信息的第一确认指令,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合。
可选的,所述对所述视频片段集合中各视频片段中的对应的人脸嘴巴图像进行模糊处理,得到目标视频数据,包括:
采用人工智能识别模型,获取所述视频片段集合中各视频片段对应的人脸嘴巴图像;
发出针对所述各视频片段对应的人脸嘴巴图像的第二提示信息;
若获取到针对所述第二提示信息的第二确认指令,对所述各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
可选的,所述对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据,包括:
获取所述视频片段集合中任一视频片段对应的人脸嘴巴图像;
在所述人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段;
遍历所述视频片段集合,在所述视频片段集合中的各视频片段中添加所述马赛克贴纸,得到目标视频片段集合;
基于所述目标视频片段集合,得到目标视频数据。
可选的,所述在所述人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段,包括:
在所述分词子集中,获取与所述人脸嘴巴图像对应的分词;
获取所述分词对应的分词类型;
获取与所述分词类型对应的马赛克贴纸;
在所述人脸嘴巴图像对应的图像位置添加所述马赛克贴纸。
可选的,所述若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,包括:
若获取到所述分词集合中的分词子集,则获取所述分词子集中任一分词对应的展示时间点;
在所述初始视频数据中获取与所述展示时间点对应的视频片段;
遍历所述分词子集,在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合。
可选的,在所述对所述视频片段集合中各视频片段中的人脸嘴巴图像进行模糊处理,得到目标视频数据之后,还包括:
对所述分词子集中所述各分词对应的音频数据进行转换处理,得到目标音频数据;
基于所述目标音频数据和所述目标视频数据,得到目标音视频数据。
根据本公开实施例的第二方面,提供一种视频数据获取装置,包括:
分词处理单元,被配置为执行在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合,所述初始音视频数据包括所述初始音频数据和初始视频数据;
片段获取单元,被配置为执行若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,所述分词子集中的所述各分词不满足音视频数据播放条件;
目标获取单元,被配置为执行对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
可选的,所述片段获取单元包括子集获取子单元和集合获取子单元,被配置为执行若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合时:
所述子集获取子单元,被配置为执行若获取到所述分词集合中的分词子集,则发出针对所述分词子集的第一提示信息;
所述集合获取子单元,被配置为执行若获取到针对所述第一提示信息的第一确认指令,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合。
可选的,所述目标获取单元包括模型识别子单元、信息提示子单元和图像处理子单元,被配置为执行对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据时:
所述模型识别子单元,被配置为执行采用人工智能识别模型,获取所述视频片段集合中各视频片段对应的人脸嘴巴图像;
所述信息提示子单元,被配置为执行发出针对所述各视频片段对应的人脸嘴巴图像的第二提示信息;
所述图像处理子单元,被配置为执行若获取到针对所述第二提示信息的第二确认指令,对所述各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
可选的,所述目标获取单元还包括图像获取子单元、贴纸添加子单元、集合遍历子单元和数据获取子单元,被配置为执行对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据时:
所述图像获取子单元,被配置为执行获取所述视频片段集合中任一视频片段对应的人脸嘴巴图像;
所述贴纸添加子单元,被配置为执行在所述人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段;
所述集合遍历子单元,被配置为执行遍历所述视频片段集合,在所述视频片段集合中的各视频片段中添加所述马赛克贴纸,得到目标视频片段集合;
所述数据获取子单元,被配置为执行基于所述目标视频片段集合,得到目标视频数据。
可选的,所述贴纸添加子单元,被配置为执行在所述人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段时,具体被配置为执行:
在所述分词子集中,获取与所述人脸嘴巴图像对应的分词;
获取所述分词对应的分词类型;
获取与所述分词类型对应的马赛克贴纸;
在所述人脸嘴巴图像对应的图像位置添加所述马赛克贴纸。
可选的,所述片段获取单元还包括时间获取子单元、视频获取子单元和子集遍历子单元,被配置为执行若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合时:
所述时间获取子单元,被配置为执行若获取到所述分词集合中的分词子集,则获取所述分词子集中任一分词对应的展示时间点;
所述视频获取子单元,被配置为执行在所述初始视频数据中获取与所述展示时间点对应的视频片段;
所述子集遍历子单元,被配置为执行遍历所述分词子集,在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合。
可选的,所述装置还包括音视频获取单元,被配置为执行在所述对所述视频片段集合中各视频片段中的人脸嘴巴图像进行模糊处理,得到目标视频数据之后:
对所述分词子集中所述各分词对应的音频数据进行转换处理,得到目标音频数据;
基于所述目标音频数据和所述目标视频数据,得到目标音视频数据。
根据本公开实施例的第三方面,提供一种终端,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述一方面中任一项所述的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述一方面中任一项所述的方法。
根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述一方面中任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在一些或者相关的实施例中,通过在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合;若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合;对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。因此,终端通过对初始音频数据对应的初始视频数据进行模糊处理,可以屏蔽初始音频数据对应的分词子集的视频数据,可以提升获取的视频数据的质量,进而可以提高用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种视频数据获取方法的背景示意图;
图2是根据一示例性实施例示出的一种视频数据获取方法的背景架构示意图;
图3是根据一示例性实施例示出的一种视频数据获取方法的流程图;
图4是根据一示例性实施例示出的一种视频数据获取方法的流程图;
图5是根据一示例性实施例示出的toast窗口的展示示意图;
图6是根据一示例性实施例示出的一种视频数据获取方法的流程图;
图7是根据一示例性实施例示出的人脸嘴巴图像对应的图像位置的示意图;
图8是根据一示例性实施例示出的不同分词类型对应的马赛克贴纸的示意图;
图9是根据一示例性实施例示出的一种视频数据获取装置的框图;
图10是根据一示例性实施例示出的一种视频数据获取装置的框图;
图11是根据一示例性实施例示出的一种视频数据获取装置的框图;
图12是根据一示例性实施例示出的一种视频数据获取装置的框图;
图13是根据一示例性实施例示出的一种视频数据获取装置的框图;
图14是根据一示例性实施例示出的一种视频数据获取装置的框图;
图15是根据一示例性实施例示出的一种终端的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着科学技术的发展,终端技术的日益成熟,提高了用户生产生活的便利性。终端应用场景中,当终端获取到用户创作的视频数据时,终端可以对视频中不健康的内容进行屏蔽。
根据一些实施例,图1是根据一示例性实施例示出的一种视频数据获取方法的背景示意图。如图1所示,用户需要对创作的音视频进行处理时,用户可以通过点击终端的视频处理应用程序。当终端检测到用户点击视频处理应用程序时,终端可以在显示屏上显示视频处理界面。用户可以通过视频处理界面向终端上传创造的音视频数据。当终端获取到用户创造的音视频数据时,终端可以获取到音视频数据对应的音频数据。进而,终端可以对获取的音频数据进行语音识别,并对识别出的不健康的音频数据进行屏蔽。例如,终端可以用“哔”声来对不健康的音频数据进行消声屏蔽。
在一些实施例中,终端仅能对识别出的不健康的音频数据进行屏蔽,但是视频中仍残留不健康的画面信息,例如说不健康内容的人物的嘴型信息。在这种情况下,即使终端对识别出的不健康的音频数据进行屏蔽,视频的观看者仍然能够从残留的画面信息中获取到不健康的内容,从而无法达成屏蔽不健康内容的目的,导致用户获取的视频数据质量低下,进而影响用户使用体验。
根据一些实施例,图2是根据一示例性实施例示出的一种视频获取方法的背景架构示意图。如图2所示,终端110设置视频处理应用程序。当终端110通过视频处理应用程序获取到用户创造的音视频数据时,终端110可以通过网络120将屏蔽后的音视频数据存储至服务器130。当用户需要观看屏蔽后的音视频数据时,终端可以获取并播放服务器130中存储的屏蔽后的音视频数据。
易于理解的是,该终端包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、第五代移动通信技术(5th generation mobile networks,5G)网络或未来演进网络中的终端设备等。该终端上可以安装操作系统,该操作系统是指可以运行在终端中的操作系统,是管理和控制终端硬件和终端应用的程序,是终端中不可或缺的系统应用。该操作系统包括但不限于安卓Android系统、IOS系统、Windows phone(WP)系统和Ubuntu移动版操作系统等。
根据一些实施例,该终端110可以通过网络120和服务器130连接。网络120用以在终端110和服务器130之间提供通信链路。网络120可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。应该理解,图2中的终端110、网络120和服务器130的数目仅仅是示意性的。根据现实需要,可以具有任意数目的终端、网络和服务器。比如服务器130可以是多个服务器组成的服务器集群等。用户可以使用终端110通过网络120与服务器130交互,以进行观看屏蔽后的音视频数据等。
图3是根据一示例性实施例示出的一种视频数据获取方法的流程图。如图3所示,视频数据获取方法例如可以应用于多媒体场景中,该方法可依赖于计算机程序实现,可运行于包括视频数据获取方法的装置上,包括以下步骤:
在步骤S11中,在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合;
根据一些实施例,初始音视频数据指的是用户创作的未经处理的音视频数据。初始音视频数据包括初始音频数据和初始视频数据。该初始音视频数据并不特指某一固定音视频数据。例如,当创作的用户发生变化时,该初始音视频数据也会发生变化。当初始音视频数据的内容发生变化时,该初始音视频数据也会发生变化。
在一些实施例中,初始音频数据指的是初始音视频数据对应的音频数据。该初始音频数据并不特指某一固定音频数据。例如,当初始音视频数据发生变化时,该初始音频数据也会发生变化。当创作的用户发生变化时,该初始音频数据也会发生变化。
在一些实施例中,初始视频数据指的是初始音视频数据对应的视频数据。该初始视频数据并不特指某一固定视频数据。例如,当初始音视频数据发生变化时,该初始视频数据也会发生变化。当创作的用户发生变化时,该初始视频数据也会发生变化。
根据一些实施例,文字信息指的是终端获取到初始音视频数据对应的初始音频数据时,对初始音频数据进行语音识别后得到的文字信息。该文字信息并不特指某一固定文字信息。例如,当初始音频数据发生变化时,该文字信息也会发生变化。
根据一些实施例,分词处理指的是将连续的文字信息按照一定的规范重新组合成多个分词的过程。分词处理的方法包括但不限于基于字符串匹配分词、基于理解分词和基于统计的分词。其中,基于字符串匹配分词通过按照一定的策略将待分析的文字信息与机器词典中的词条进行匹配。基于理解分词通过利用计算机模拟人对句子的理解,从而达到识别词语的效果。基于统计的分词通过利用统计机器学习模型学习词语切分的规律,从而实现对未知文字信息的切分。
在一些实施例中,分词集合指的是终端对初始音频数据对应的文字信息进行分词处理时得到的所有分词的集合。该分词集合并不特指某一固定集合。例如,当文字信息发生变化时,该分词集合也会发生变化。当分词处理的方法发生变化时,该分词集合也会发生变化。
易于理解的是,当用户需要对创作的初始音视频数据进行处理时,终端可以获取到初始音视频数据。当终端获取到初始音视频数据时,终端可以获取到初始音视频数据对应的初始音频数据。当终端获取到初始音频数据时,终端可以对初始音频数据进行语音识别,从而得到初始音频数据对应的文字信息。当终端获取到初始音频数据对应的文字信息时,终端可以对初始音频数据对应的文字信息进行分词处理,从而得到分词集合。
在步骤S12中,若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合;
根据一些实施例,分词子集指的是分词集合中不满足音视频数据播放条件的所有分词的集合。该分词子集并不特指某一固定子集。例如,当分词集合发生变化时,该分词子集也会发生变化。当音视频数据播放条件发生变化时,该分词子集也会发生变化。
在一些实施例中,音视频数据播放条件指的是音视频数据达到在互联网上传播的要求时需要满足的条件。该音视频数据播放条件并不特指某一固定条件。当终端获取到针对音视频数据播放条件的条件修改指令时,该音视频数据播放条件会发生相应变化。音视频数据播放条件包括但不限于不能出现不文明用语、敏感词等。
在一些实施例中,该音视频数据播放条件也可以为词库形式。例如,音视频数据播放条件可以为不文明用语词库和敏感词库,当终端检测到分词集合中任一分词为不文明用语词库和敏感词库中的词汇时,终端可以将该分词放入分词子集中。
在一些实施例中,视频片段集合指的是与分词子集中各分词对应的视频片段的集合。该视频片段集合并不特指某一固定集合。例如,当分词子集中分词的数量发生变化时,该视频片段集合也会发生变化。当分词子集中分词的内容发生变化时,该视频片段集合也会发生变化。
易于理解的是,当终端获取到分词集合时,终端可以获取到分词集合中不满足音视频数据播放条件的分词子集。当终端获取到分词子集时,终端可以在初始视频数据中获取与分词子集中各分词对应的视频片段集合。
在步骤S13中,对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
根据一些实施例,人脸嘴巴图像指的是终端获取到与分词对应的视频片段时,通过人脸识别,在视频片段对应的图像中检测到人脸嘴巴时的图像。该人脸嘴巴图像并不特指某一固定图像。例如,当视频片段中的人物发生变化时,该人脸嘴巴图像也会发生变化。当分词发生变化时,该人脸嘴巴图像也会发生变化。
在一些实施例中,模糊处理指的是对画面进行处理,从而令画面无法辨认的过程。该模糊处理并不特指某一固定模糊处理。模糊处理的方式包括但不限于高斯模糊图像、椒盐模糊图像、运动模糊图像、画马赛克、添加马赛克贴纸等等。当终端接收到针对模糊处理的方式的方式修改指令时,该模糊处理的方式会发生相应变化。
根据一些实施例,目标视频数据指的是终端对初始视频数据进行处理后,获取到的满足音视频数据播放条件的视频数据。该目标视频数据并不特指某一固定数据。例如,当初始视频数据发生变化时,该目标视频数据也会发生变化。当音视频数据播放条件发生变化时,该目标视频数据也会发生变化。
易于理解的是,当终端获取到与分词子集中各分词对应的视频片段集合时,终端可以获取视频片段集合中各视频片段对应的人脸嘴巴图像。当终端获取到人脸嘴巴图像时,终端可以对人脸嘴巴图像进行模糊处理,从而得到满足音视频数据播放条件的目标视频数据。
在一些或者相关的实施例中,通过在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合;若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合;对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。因此,终端通过对初始音频数据对应的初始视频数据进行模糊处理,可以屏蔽初始音频数据对应的分词子集的视频数据,可以提升获取的视频数据的质量,进而可以提高用户体验。
图4根据一示例性实施例示出的一种视频数据获取方法的流程图。如图4所示,视频数据获取方法例如可以应用于多媒体场景中,该方法可依赖于计算机程序实现,可运行于包括视频数据获取方法的装置上,该视频数据获取方法包括以下步骤:
在步骤S21中,在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合;
具体过程如上所述,此处不再赘述。
根据一些实施例,当用户需要对创作的初始音视频数据进行处理时,终端可以获取到初始音视频数据。其中,终端获取的初始音视频数据包括但不限于获取预先创作好的音视频数据、在有延时的视频直播中实时获取等。例如,终端可以获取到预先创作好的30min的初始音视频数据。终端也可以在有5min延时的视频直播中实时获取用户的初始音视频数据。
在一些实施例中,终端对初始音频数据进行语音识别的方法包括但不限于随机模型法、采用神经网络的方法、概率语法分析法等。其中,当采用随机模型法时,采用提取特征、训练模板、对模板进行分类及对模板进行判断的步骤来对语音进行识别。当采用神经网络的方法时,对音频数据进行特征提取,利用CTC(Connectionist TemporalClassification)将字符与音频数据,利用卷积神经网络(deep convolutional neuralnetworks,CNN)来处理图像并通过最大值池化来提取主要特征,加入定义好的CTC损失函数来进行训练。当采用概率语法分析法时,对于不同层次的知识利用相应层次的知识来解决。
例如,当终端获取到预先创作好的30min的初始音视频数据时,终端可以对这30min的初始音视频数据采用神经网络的方法进行语音识别,从而得到与这30min的初始音频数据对应的文字信息。当终端在有5min延时的视频直播中实时获取用户的初始音视频数据时,终端可以对实时获取的初始音视频数据进行实时的概率语法分析,从而实时获取初始音视频数据对应的文字信息。
易于理解的是,当用户需要对创作的初始音视频数据进行处理时,终端可以获取到初始音视频数据。当终端获取到初始音视频数据时,终端可以获取到初始音视频数据对应的初始音频数据。当终端获取到初始音频数据时,终端可以对初始音频数据进行语音识别,从而得到初始音频数据对应的文字信息。当终端获取到初始音频数据对应的文字信息时,终端可以对初始音频数据对应的文字信息进行分词处理,从而得到分词集合。
在步骤S22中,若获取到分词集合中的分词子集,则发出针对分词子集的第一提示信息;
具体过程如上所述,此处不再赘述。
根据一些实施例,第一提示信息指的是终端获取到分词集合中的分词子集时,终端用于提示用户检测到不满足音视频数据播放条件的分词时发出的信息。该第一提示信息并不特指某一固定信息。该第一提示信息包括但不限于弹窗提示信息、语音提示信息等等。该第一提示信息的显示时间包括但不限于永久显示,预设时间显示。当终端获取到针对第一提示信息的信息修改指令时,该第一提示信息也会相应变化。例如,当终端获取到分词集合中的分词子集时,终端可以弹出toast窗口,并在弹出5秒后停止显示,如图5所示。或者,当终端获取到分词集合中的分词子集时,终端可以发出“检测到当前视频里面包含不文明用语或者敏感词,是否需要屏蔽”的语音信息。
易于理解的是,当终端获取到分词集合时,终端可以获取到分词集合中不满足音视频数据播放条件的分词子集。当终端获取到分词集合中的分词子集时,终端可以发出针对分词子集的第一提示信息。
在步骤S23中,若获取到针对第一提示信息的第一确认指令,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合;
具体过程如上所述,此处不再赘述。
根据一些实施例,第一确认指令指的是用户获取到终端发出的第一提示信息时,选择需要对分词子集对应的视频片段集合进行屏蔽时发出的指令。该第一确认指令并不特指某一固定确认指令。该第一确认指令包括但不限于点击确认指令、语音确认指令等等。当终端获取到针对第一确认指令的修改指令时,该第一确认指令也会相应变化。例如,当用户点击toast窗口中的“是”按键时,终端可以获取针对第一提示信息的第一确认指令。或者,当用户说出“需要”的语音信息时,终端也可以获取针对第一提示信息的第一确认指令。
易于理解的是,当终端获取到针对分词子集的第一提示信息时,用户可以基于该第一提示信息,发出针对第一提示信息的第一确认指令。当终端获取到针对第一提示信息的第一确认指令时,终端可以在初始视频数据中获取与分词子集中各分词对应的视频片段集合。
在步骤S24中,采用人工智能识别模型,获取视频片段集合中各视频片段对应的人脸嘴巴图像;
具体过程如上所述,此处不再赘述。
根据一些实施例,人工智能识别模型指的是终端对获取到与分词对应的视频片段进行人脸识别时所用的模型。该人工智能识别模型并不特指某一固定模型。当终端通过人工智能识别模型对视频片段进行人脸识别时,终端可以获取到包含有人脸的图像或者视频流,并自动在图像中检测以及跟踪人脸,进而对检测到的人脸图像进行脸部识别,从而获取视频片段集合中各视频片段对应的人脸嘴巴图像。
在一些实施例中,人工智能识别模型可以通过使用Opencv来获取各视频片段对应的视频流,捕获视频流传输的图像。人工智能识别模型可以每隔预设帧取一帧做人脸识别,调用Dlib库中的人脸检测器来检测人脸,并通过Dlib的人脸关键点预测器来获得人脸的关键点,接下来使用Dlib的面部识别模型将获得的人脸的关键点转换成128D面部描述符,取含有嘴巴描述符的图像作为人脸嘴巴图像并打上标签。
易于理解的是,当终端获取到与分词子集中各分词对应的视频片段集合时,终端可以采用人工智能识别模型,获取视频片段集合中各视频片段对应的人脸嘴巴图像。
在步骤S25中,发出针对各视频片段对应的人脸嘴巴图像的第二提示信息;
根据一些实施例,第二提示信息指的是终端获取到视频片段集合中各视频片段对应的人脸嘴巴图像时发出的信息。该第二提示信息并不特指某一固定信息。该第二提示信息包括但不限于弹窗提示信息、语音提示信息等等。当终端获取到针对第二提示信息的信息修改指令时,该第二提示信息也会相应变化。例如,当终端获取到视频片段集合中各视频片段对应的人脸嘴巴图像时,终端可以弹出toast窗口。或者,当终端获取到视频片段集合中各视频片段对应的人脸嘴巴图像时,终端可以发出“检测到人脸嘴巴图像”的语音信息。
易于理解的是,当终端获取到视频片段集合中各视频片段对应的人脸嘴巴图像时,终端可以发出针对各视频片段对应的人脸嘴巴图像的第二提示信息。
在步骤S26中,若获取到针对第二提示信息的第二确认指令,对各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据;
具体过程如上所述,此处不再赘述。
根据一些实施例,第二确认指令指的是用户获取到终端发出的第二提示信息时,选择需要对人脸嘴巴图像进行模糊处理时发出的指令。该第二确认指令并不特指某一固定确认指令。该第二确认指令包括但不限于点击确认指令、语音确认指令等等。当终端获取到针对第二确认指令的修改指令时,该第二确认指令也会相应变化。例如,当用户点击toast窗口中的“是”按键时,终端可以获取针对第二提示信息的第二确认指令。或者,当用户说出“需要”的语音信息时,终端也可以获取针对第二提示信息的第二确认指令。
在一些实施例中,当终端通过画马赛克的方式对各视频片段对应的人脸嘴巴图像进行模糊处理时,终端可以通过将画面的色阶细节劣化并造成色块打乱的效果。当终端通过高斯模糊图像的方式对各视频片段对应的人脸嘴巴图像进行模糊处理时,终端可以依据高斯曲线对图像周围像素进行加权平均处理去掉图像细节使图像变得模糊。当终端通过椒盐模糊图像的方式对各视频片段对应的人脸嘴巴图像进行模糊处理时,终端可以在人脸嘴巴图像的嘴巴区域随机出现黑白点。
易于理解的是,当终端发出针对各视频片段对应的人脸嘴巴图像的第二提示信息时,用户可以基于该第二提示信息,发出针对第二提示信息的第二确认指令。当终端获取到针对第二提示信息的第二确认指令时,终端可以对各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
在步骤S27中,对分词子集中各分词对应的音频数据进行转换处理,得到目标音频数据;
根据一些实施例,转换处理指的是终端对分词子集中各分词对应的音频数据进行屏蔽处理的过程。该转换处理并不特指某一固定转换处理。终端可以用预设音频来替换分词子集中各分词对应的音频数据。例如,终端可以用“哔”声来替换分词子集中各分词对应的音频数据。
在一些实施例中,目标音频数据指的是终端对初始音频数据进行转换处理后,获取到的满足音视频数据播放条件的音频数据。该目标音频数据并不特指某一固定音频数据。例如,当分词子集发生变化时,该目标音频数据也会发生变化。当音视频数据播放条件发生变化时,该目标视频数据也会发生变化。
易于理解的是,当终端获取到分词子集时,终端可以对分词子集中各分词对应的音频数据进行转换处理,得到满足音视频数据播放条件的目标音频数据。
在步骤S28中,基于目标音频数据和目标视频数据,得到目标音视频数据。
根据一些实施例,目标音视频数据指的是终端对初始音视频数据进行转换处理后,获取到的满足音视频数据播放条件的音视频数据。该目标音视频数据并不特指某一固定音视频数据。例如,当初始音视频数据发生变化时,该目标音视频数据也会发生变化。当音视频数据播放条件发生变化时,该目标音视频也会发生变化。
在一些实施例中,当终端对初始音视频数据进行转换处理时,可以获取到满足音视频数据播放条件的目标音频数据和目标视频数据,终端可以将获取到的目标音频数据的音频轨和目标视频数据的视频轨集成在一起,从而获取到满足音视频数据播放条件的音视频数据。
易于理解的是,当终端获取到满足音视频数据播放条件的目标音频数据和目标视频数据时,终端可以基于目标音频数据和目标视频数据,得到满足音视频数据播放条件的目标音视频数据。
在一些或者相关的实施例中,在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合;若获取到分词集合中的分词子集,则发出针对分词子集的第一提示信息;若获取到针对第一提示信息的第一确认指令,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合;因此可以基于用户的选择确定是否获取分词子集中各分词对应的视频片段集合,可以提升视频片段集合获取的准确性,进而可以提高用户使用体验。采用人工智能识别模型,获取视频片段集合中各视频片段对应的人脸嘴巴图像;因此,发出针对各视频片段对应的人脸嘴巴图像的第二提示信息;若获取到针对第二提示信息的第二确认指令,对各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据;因此可以基于用户的选择确定是否对人脸嘴巴图像进行模糊处理,可以提升模糊处理的准确性,可以屏蔽初始音频数据对应的分词子集的视频数据,可以提升获取的视频数据的质量,进而可以提高用户使用体验。最后,对分词子集中各分词对应的音频数据进行转换处理,得到目标音频数据;基于目标音频数据和目标视频数据,得到目标音视频数据;因此,可以同时屏蔽初始音频数据对应的分词子集的音频数据和视频数据,可以提升获取的音视频数据的质量,进而可以提高用户体验。
图6根据一示例性实施例示出的一种视频数据获取方法的流程图。如图6所示,视频数据获取方法例如可以应用于多媒体场景中,该方法可依赖于计算机程序实现,可运行于包括视频数据获取方法的装置上,该视频数据获取方法包括以下步骤:
在步骤S31中,在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合;
具体过程如上所述,此处不再赘述。
在步骤S32中,若获取到分词集合中的分词子集,则获取分词子集中任一分词对应的展示时间点;
具体过程如上所述,此处不再赘述。
根据一些实施例,展示时间点指的是音频数据中分词对应的时间戳。在音视频数据中,音频数据与视频数据的时间戳同步。该展示时间点并不特指某一固定时间点。例如,当分词发生变化时,该展示时间点也会发生变化。当音频数据发生变化时,该展示时间点也会发生变化。
易于理解的是,当终端获取到分词集合时,终端可以获取到分词集合中不满足音视频数据播放条件的分词子集。当终端获取到分词集合中的分词子集时,终端可以获取分词子集中任一分词对应的展示时间点。
在步骤S33中,在初始视频数据中获取与展示时间点对应的视频片段;
根据一些实施例,视频片段指的是音视频数据中展示时间点同步的分词对应的视频片段。该视频片段并不特指某一固定片段。例如,当分词发生变化时,该视频片段也会发生变化。当展示时间点发生变化时,该视频片段也会发生变化。
易于理解的是,当终端获取分词子集中任一分词对应的展示时间点时,终端可以在初始视频数据中获取与展示时间点对应的视频片段。
在步骤S34中,遍历分词子集,在初始视频数据中获取与分词子集中各分词对应的视频片段集合;
根据一些实施例,遍历分词子集指的所示沿着预设的搜索路线,依次对分词子集中每个分词做一次访问。在访问任一分词时,获取该分词对应的展示时间点,进而获取与展示时间点对应的视频片段。将获取到的视频片段放入同一个集合中,从而获取与分词子集中各分词对应的视频片段集合。
在一些实施例中,遍历的方式包括但不限于前序遍历、中序遍历、后序遍历等。其中,当终端采用前序遍历时,访问结点的操作发生在遍历其左右子树之前。当终端采用中序遍历时,访问结点的操作发生在遍历其左右子树之中。当终端采用后序遍历时,访问结点的操作发生在遍历其左右子树之后。
易于理解的是,当终端获取到分词集合时,终端可以获取到分词集合中不满足音视频数据播放条件的分词子集。当终端获取到分词集合中的分词子集时,终端可以遍历分词子集,在初始视频数据中获取与分词子集中各分词对应的视频片段集合。
在步骤S35中,获取视频片段集合中任一视频片段对应的人脸嘴巴图像;
具体过程如上所述,此处不再赘述。
易于理解的是,当终端获取到与分词子集中各分词对应的视频片段集合时,终端可以获取视频片段集合中任一视频片段对应的人脸嘴巴图像。
在步骤S36中,在人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段;
根据一些实施例,人脸嘴巴图像对应的图像位置指的是对人脸嘴巴图像进行人脸识别时,识别出的嘴巴的区域。该图像位置并不特指某一固定位置。例如,当人脸嘴巴图像发生变化时,该图像位置也会发生变化。当分词发生变化时,该图像位置也会发生变化。
在一些实施例中,当终端对人脸嘴巴图像进行人脸识别时,若识别到人脸嘴巴图像中对应至少两个人脸时,终端可以基于每个人脸对应的嘴型、或者每个人脸对应的声纹特征确定与分词子集中各分词对应的人脸,进而获得与该人脸对应的嘴巴的区域,如图7所示,其中,虚线框内为识别出的人脸嘴巴图像对应的图像位置。
根据一些实施例,当终端获取视频片段集合中任一视频片段对应的人脸嘴巴图像时,终端可以在分词子集中,获取与人脸嘴巴图像对应的分词。进而,终端可以获取分词对应的分词类型,并且获取与分词类型对应的马赛克贴纸。当终端获取与分词类型对应的马赛克贴纸时,终端可以在人脸嘴巴图像对应的图像位置添加马赛克贴纸。因此可以针对不同的分词类型进行不同的模糊处理,可以提高视频数据的质量,进而可以提高用户的使用体验。
在一些实施例中,分词类型包括但不限于不文明用语、敏感词等。用户可以在图库中选择马赛克贴纸的样式,当终端接收到针对分词类型对应的马赛克贴纸的贴纸修改指令时,该马赛克贴纸会发生相应变化。例如,不文明用语对应的马赛克贴纸的样式可以为带×的圆形。敏感词对应的马赛克贴纸的样式可以为内部包含“秘密”文字的圆形,如图8所示。
易于理解的是,当终端获取视频片段集合中任一视频片段对应的人脸嘴巴图像时,终端可以识别出人脸嘴巴图像对应的嘴巴的图像位置。当终端获取到人脸嘴巴图像对应的嘴巴的图像位置时,终端可以在该图像位置添加马赛克贴纸,从而得到目标视频片段。
在步骤S37中,遍历视频片段集合,在视频片段集合中的各视频片段中添加马赛克贴纸,得到目标视频片段集合;
根据一些实施例,遍历视频片段集合指的所示沿着预设的搜索路线,依次对视频片段集合中每个视频片段做一次访问。在访问任一视频片段时,获取该视频片段对应的嘴巴的图像位置以及分词类型,进而获取与分词类型对应的马赛克贴纸,并在该图像位置放置对应的马赛克贴纸。将获取到的目标视频片段放入同一个集合中,从而获取目标视频片段集合。
易于理解的是,当终端获取到视频片段集合时,终端可以遍历视频片段集合,在视频片段集合中的各视频片段中添加马赛克贴纸,从而得到目标视频片段集合。
在步骤S38中,基于目标视频片段集合,得到目标视频数据。
易于理解的是,当终端获取到目标视频片段集合时,终端可以基于展示时间点,采用目标视频片段集合替换掉展示时间点对应的初始视频片段,从而得到目标视频数据。
在一些或者相关的实施例中,在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合;若获取到分词集合中的分词子集,则获取分词子集中任一分词对应的展示时间点;在初始视频数据中获取与展示时间点对应的视频片段;遍历分词子集,在初始视频数据中获取与分词子集中各分词对应的视频片段集合;因此可以提高视频片段集合获取的准确性,进而可以提高用户的使用体验。获取视频片段集合中任一视频片段对应的人脸嘴巴图像;在人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段;遍历视频片段集合,在视频片段集合中的各视频片段中添加马赛克贴纸,得到目标视频片段集合;基于目标视频片段集合,得到目标视频数据;因此可以对初始音频数据对应的初始视频数据进行模糊处理,可以屏蔽初始音频数据对应的分词子集的视频数据,可以提升获取的视频数据的质量,进而可以提高用户体验。
图9是根据一示例性实施例示出的一种视频数据获取装置的框图。参照图9,该视频数据获取装置900包括分词处理单元901,片段获取单元902和目标获取单元903。
分词处理单元901,被配置为执行在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合,初始音视频数据包括初始音频数据和初始视频数据;
片段获取单元902,被配置为执行若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合,分词子集中的各分词不满足音视频数据播放条件;
目标获取单元903,被配置为执行对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
根据一些实施例,图10是根据一示例性实施例示出的一种视频数据获取装置的框图。参照图10,片段获取单元902包括子集获取子单元912和集合获取子单元922,被配置为执行若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合时:
子集获取子单元912,被配置为执行若获取到分词集合中的分词子集,则发出针对分词子集的第一提示信息;
集合获取子单元922,被配置为执行若获取到针对第一提示信息的第一确认指令,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合。
根据一些实施例,图11是根据一示例性实施例示出的一种视频数据获取装置的框图。参照图11,目标获取单元9003包括模型识别子单元913、信息提示子单元923和图像处理子单元933,被配置为执行对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据时:
模型识别子单元913,被配置为执行采用人工智能识别模型,获取视频片段集合中各视频片段对应的人脸嘴巴图像;
信息提示子单元923,被配置为执行发出针对各视频片段对应的人脸嘴巴图像的第二提示信息;
图像处理子单元933,被配置为执行若获取到针对第二提示信息的第二确认指令,对各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
根据一些实施例,图12是根据一示例性实施例示出的一种视频数据获取装置的框图。参照图12,目标获取单元903还包括图像获取子单元943、贴纸添加子单元953、集合遍历子单元963和数据获取子单元973,被配置为执行对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据时:
图像获取子单元943,被配置为执行获取视频片段集合中任一视频片段对应的人脸嘴巴图像;
贴纸添加子单元953,被配置为执行在人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段;
集合遍历子单元963,被配置为执行遍历视频片段集合,在视频片段集合中的各视频片段中添加马赛克贴纸,得到目标视频片段集合;
数据获取子单元973,被配置为执行基于目标视频片段集合,得到目标视频数据。
根据一些实施例,贴纸添加子单元953,被配置为执行在人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段时,具体被配置为执行:
在分词子集中,获取与人脸嘴巴图像对应的分词;
获取分词对应的分词类型;
获取与分词类型对应的马赛克贴纸;
在人脸嘴巴图像对应的图像位置添加马赛克贴纸。
根据一些实施例,图13是根据一示例性实施例示出的一种视频数据获取装置的框图。参照图13,片段获取单元902还包括时间获取子单元932、视频获取子单元942和子集遍历子单元952,被配置为执行若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合时:
时间获取子单元932,被配置为执行若获取到分词集合中的分词子集,则获取分词子集中任一分词对应的展示时间点;
视频获取子单元942,被配置为执行在初始视频数据中获取与展示时间点对应的视频片段;
子集遍历子单元952,被配置为执行遍历分词子集,在初始视频数据中获取与分词子集中各分词对应的视频片段集合。
根据一些实施例,图14是根据一示例性实施例示出的一种视频数据获取装置的框图。参照图14,视频数据获取装置900还包括音视频获取单元904,被配置为执行在对视频片段集合中各视频片段中的人脸嘴巴图像进行模糊处理,得到目标视频数据之后:
对分词子集中各分词对应的音频数据进行转换处理,得到目标音频数据;
基于目标音频数据和目标视频数据,得到目标音视频数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一些或者相关的实施例中,通过分词处理单元在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合,初始音视频数据包括初始音频数据和初始视频数据;片段获取单元若获取到分词集合中的分词子集,则在初始视频数据中获取与分词子集中各分词对应的视频片段集合,分词子集中的各分词不满足音视频数据播放条件;目标获取单元对视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。因此,终端通过对初始音频数据对应的初始视频数据进行模糊处理,可以屏蔽初始音频数据对应的分词子集的视频数据,可以提升获取的视频数据的质量,进而可以提高用户体验。
请参见图15,是根据一示例性实施例示出的一种终端的框图。如图15所示,终端1500可以包括:至少一个处理器1501,至少一个网络接口1504,用户接口1503,存储器1505,至少一个通信总线1502。
其中,通信总线1502用于实现这些组件之间的连接通信。
其中,用户接口1503可以包括扬声器和显示屏,可选用户接口1503还可以包括标准的有线接口、无线接口。
其中,网络接口1504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1501可以包括一个或者多个处理核心。处理器1501利用各种借口和线路连接整个终端1500内的各个部分,通过运行或执行存储在存储器1505内的指令、程序、代码集或指令集,以及调用存储在存储器1505内的数据,执行终端1500的各种功能和处理数据。可选的,处理器1501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1501可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1501中,单独通过一块芯片进行实现。
其中,存储器1505可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1505可用于存储指令、程序、代码、代码集或指令集。存储器1505可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1505可选的还可以是至少一个位于远离前述处理器1501的存储装置。如图15所示,作为一种计算机存储介质的存储器1505中可以包括操作系统、网络通信模块、用户接口模块以及用于视频数据获取的应用程序。
在图15所示的终端1500中,用户接口1503主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1501可以用于调用存储器1505中存储的视频数据获取的应用程序,并具体执行图3-图8方法实施例中的各步骤。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序,且计算机程序被一个或多个处理器执行时,致使一个或多个处理器执行图3-图9方法实施例中的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

Claims (10)

1.一种视频数据获取方法,其特征在于,包括:
在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合,所述初始音视频数据包括所述初始音频数据和初始视频数据;
若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,所述分词子集中的所述各分词不满足音视频数据播放条件;
对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
2.根据权利要求1所述的方法,其特征在于,所述若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,包括:
若获取到所述分词集合中的分词子集,则发出针对所述分词子集的第一提示信息;
若获取到针对所述第一提示信息的第一确认指令,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述视频片段集合中各视频片段中的对应的人脸嘴巴图像进行模糊处理,得到目标视频数据,包括:
采用人工智能识别模型,获取所述视频片段集合中各视频片段对应的人脸嘴巴图像;
发出针对所述各视频片段对应的人脸嘴巴图像的第二提示信息;
若获取到针对所述第二提示信息的第二确认指令,对所述各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据,包括:
获取所述视频片段集合中任一视频片段对应的人脸嘴巴图像;
在所述人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段;
遍历所述视频片段集合,在所述视频片段集合中的各视频片段中添加所述马赛克贴纸,得到目标视频片段集合;
基于所述目标视频片段集合,得到目标视频数据。
5.根据权利要求4所述的方法,其特征在于,所述在所述人脸嘴巴图像对应的图像位置添加马赛克贴纸,得到目标视频片段,包括:
在所述分词子集中,获取与所述人脸嘴巴图像对应的分词;
获取所述分词对应的分词类型;
获取与所述分词类型对应的马赛克贴纸;
在所述人脸嘴巴图像对应的图像位置添加所述马赛克贴纸。
6.根据权利要求1所述的方法,其特征在于,所述若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,包括:
若获取到所述分词集合中的分词子集,则获取所述分词子集中任一分词对应的展示时间点;
在所述初始视频数据中获取与所述展示时间点对应的视频片段;
遍历所述分词子集,在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合。
7.根据权利要求1所述的方法,其特征在于,在所述对所述视频片段集合中各视频片段中的人脸嘴巴图像进行模糊处理,得到目标视频数据之后,还包括:
对所述分词子集中所述各分词对应的音频数据进行转换处理,得到目标音频数据;
基于所述目标音频数据和所述目标视频数据,得到目标音视频数据。
8.一种视频数据获取装置,其特征在于,包括:
分词处理单元,被配置为执行在初始音视频数据中,对初始音频数据对应的文字信息进行分词处理,得到分词集合,所述初始音视频数据包括所述初始音频数据和初始视频数据;
片段获取单元,被配置为执行若获取到所述分词集合中的分词子集,则在所述初始视频数据中获取与所述分词子集中各分词对应的视频片段集合,所述分词子集中的所述各分词不满足音视频数据播放条件;
目标获取单元,被配置为执行对所述视频片段集合中各视频片段对应的人脸嘴巴图像进行模糊处理,得到目标视频数据。
9.一种终端,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其特征在于,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
CN202111664268.1A 2021-12-31 2021-12-31 视频数据获取方法及装置 Pending CN114398517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111664268.1A CN114398517A (zh) 2021-12-31 2021-12-31 视频数据获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111664268.1A CN114398517A (zh) 2021-12-31 2021-12-31 视频数据获取方法及装置

Publications (1)

Publication Number Publication Date
CN114398517A true CN114398517A (zh) 2022-04-26

Family

ID=81229127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111664268.1A Pending CN114398517A (zh) 2021-12-31 2021-12-31 视频数据获取方法及装置

Country Status (1)

Country Link
CN (1) CN114398517A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320535A (zh) * 2023-04-14 2023-06-23 北京百度网讯科技有限公司 生成视频的方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347026A (zh) * 2011-07-04 2012-02-08 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统
CN105611386A (zh) * 2015-12-23 2016-05-25 小米科技有限责任公司 视频图像处理方法及装置
CN109819313A (zh) * 2019-01-10 2019-05-28 腾讯科技(深圳)有限公司 视频处理方法、装置及存储介质
CN110750677A (zh) * 2019-10-12 2020-02-04 腾讯科技(深圳)有限公司 基于人工智能的音视频识别方法、系统及存储介质和服务器
CN111008300A (zh) * 2019-11-20 2020-04-14 四川互慧软件有限公司 一种在音视频中基于关键词的时间戳定位搜索方法
CN113362832A (zh) * 2021-05-31 2021-09-07 多益网络有限公司 一种用于音视频人物的命名方法及相关装置
CN113838460A (zh) * 2020-12-31 2021-12-24 京东科技控股股份有限公司 视频语音识别方法、装置、设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347026A (zh) * 2011-07-04 2012-02-08 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统
CN105611386A (zh) * 2015-12-23 2016-05-25 小米科技有限责任公司 视频图像处理方法及装置
CN109819313A (zh) * 2019-01-10 2019-05-28 腾讯科技(深圳)有限公司 视频处理方法、装置及存储介质
CN110750677A (zh) * 2019-10-12 2020-02-04 腾讯科技(深圳)有限公司 基于人工智能的音视频识别方法、系统及存储介质和服务器
CN111008300A (zh) * 2019-11-20 2020-04-14 四川互慧软件有限公司 一种在音视频中基于关键词的时间戳定位搜索方法
CN113838460A (zh) * 2020-12-31 2021-12-24 京东科技控股股份有限公司 视频语音识别方法、装置、设备和存储介质
CN113362832A (zh) * 2021-05-31 2021-09-07 多益网络有限公司 一种用于音视频人物的命名方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320535A (zh) * 2023-04-14 2023-06-23 北京百度网讯科技有限公司 生成视频的方法、装置、电子设备及存储介质
CN116320535B (zh) * 2023-04-14 2024-03-22 北京百度网讯科技有限公司 生成视频的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111415399B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US20230103340A1 (en) Information generating method and apparatus, device, storage medium, and program product
CN110210310B (zh) 一种视频处理方法、装置和用于视频处理的装置
CN109474850B (zh) 运动像素视频特效添加方法、装置、终端设备及存储介质
CN111883107B (zh) 语音合成、特征提取模型训练方法、装置、介质及设备
CN109582825B (zh) 用于生成信息的方法和装置
CN112423081B (zh) 一种视频数据处理方法、装置、设备及可读存储介质
US20220132179A1 (en) Machine learning based media content annotation
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112399258A (zh) 直播回放视频生成播放方法、装置、存储介质及电子设备
CN107291704A (zh) 处理方法和装置、用于处理的装置
CN112399269A (zh) 视频分割方法、装置、设备及存储介质
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN110990534A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN113315979A (zh) 数据处理方法、装置、电子设备和存储介质
CN111144360A (zh) 多模信息识别方法、装置、存储介质及电子设备
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN114398517A (zh) 视频数据获取方法及装置
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN115439614B (zh) 虚拟形象的生成方法、装置、电子设备和存储介质
CN116229311B (zh) 视频处理方法、装置及存储介质
US11010562B2 (en) Visual storyline generation from text story
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination