CN111556335A - 一种视频贴纸处理方法及装置 - Google Patents
一种视频贴纸处理方法及装置 Download PDFInfo
- Publication number
- CN111556335A CN111556335A CN202010297623.5A CN202010297623A CN111556335A CN 111556335 A CN111556335 A CN 111556335A CN 202010297623 A CN202010297623 A CN 202010297623A CN 111556335 A CN111556335 A CN 111556335A
- Authority
- CN
- China
- Prior art keywords
- target
- sticker
- video
- text
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/036—Insert-editing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47205—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
Abstract
本发明公开了一种视频贴纸处理方法及装置。所述方法包括:分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本;将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧;在所述目标视频帧的默认位置或目标位置添加所述目标贴纸;其中,所述目标位置是根据所述人脸位置数据计算而获得。本发明能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置,实现智能选择和摆放目标贴纸,提高视频贴纸处理效率。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种视频贴纸处理方法及装置。
背景技术
自视频社交成为一种新兴的互联网社交方式后,各种各样的视频编辑软件应运而生。为了增强视频的娱乐效果,用户经常会应用视频编辑软件在视频中添加贴纸。在实际应用中,用户根据个人偏好需求从贴纸库中手动选择目标贴纸,从视频的视频帧中手动选择目标视频帧,并在目标视频帧中添加有目标贴纸后手动调整目标贴纸的摆放位置,以在视频的播放过程中,实现在目标视频帧中渲染显示目标贴纸。由于现有技术需要用户手动操作来对视频贴纸进行处理,增加了对视频贴纸的处理时间,导致视频贴纸处理效率低下。
发明内容
为克服现有技术的缺陷,本发明提供一种视频贴纸处理方法及装置,能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置,实现智能选择和摆放目标贴纸,提高视频贴纸处理效率。
为了解决上述技术问题,第一方面,本发明一实施例提供一种视频贴纸处理方法,包括:
分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本;
将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧;
在所述目标视频帧的默认位置或目标位置添加所述目标贴纸;其中,所述目标位置是根据所述人脸位置数据计算而获得。
进一步地,所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,具体为:
依序对所述待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时,得到对应视频帧的所述人脸位置数据;
对所述待处理视频进行语音识别,并在语音识别成功时,将识别的语音数据转换为文本数据,得到所述语音识别文本。
进一步地,所述将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧,具体为:
将对所述语音识别文本进行切词处理得到的文本词与所述贴纸库中每一贴纸的描述文本进行匹配,得到所述目标贴纸;
获取所述语音识别文本在所述待处理视频中的出现时间,将播放时间对应于所述出现时间的视频帧作为所述目标视频帧。
进一步地,所述在所述目标视频帧的默认位置或目标位置添加所述目标贴纸,还包括:
当所述目标贴纸在所述默认位置或所述目标位置的出现时长达到预设阈值时,移除所述目标贴纸。
进一步地,在所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本之后,还包括:
在所述目标视频帧的字幕位置添加所述语音识别文本。
第二方面,本发明一实施例提供一种视频贴纸处理装置,包括:
人脸和语音识别模块,用于分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本;
目标贴纸获取模块,用于将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧;
目标贴纸添加模块,用于在所述目标视频帧的默认位置或目标位置添加所述目标贴纸;其中,所述目标位置是根据所述人脸位置数据计算而获得。
进一步地,所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,具体为:
依序对所述待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时,得到对应视频帧的所述人脸位置数据;
对所述待处理视频进行语音识别,并在语音识别成功时,将识别的语音数据转换为文本数据,得到所述语音识别文本。
进一步地,所述将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧,具体为:
将对所述语音识别文本进行切词处理得到的文本词与所述贴纸库中每一贴纸的描述文本进行匹配,得到所述目标贴纸;
获取所述语音识别文本在所述待处理视频中的出现时间,将播放时间对应于所述出现时间的视频帧作为所述目标视频帧。
进一步地,所述目标贴纸添加模块,还用于当所述目标贴纸在所述默认位置或所述目标位置的出现时长达到预设阈值时,移除所述目标贴纸。
进一步地,所述视频贴纸处理装置,还包括语音识别文本添加模块,用于在所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本之后,在所述目标视频帧的字幕位置添加所述语音识别文本。
本发明的实施例,具有如下有益效果:
通过分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,进而将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧,从而在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸,完成视频贴纸处理。相比于现有技术,本发明的实施例通过对待处理视频进行人脸识别和语音识别,以当语音识别成功时,将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸,并根据语音识别文本获取目标视频帧,当人脸识别失败时,根据针对目标贴纸而预先设置的默认位置,在目标视频帧的默认位置添加目标贴纸,当人脸识别成功时,根据人脸位置数据计算得到目标位置,在目标视频帧的目标位置添加目标贴纸。本发明的实施例能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置,实现智能选择和摆放目标贴纸,提高视频贴纸处理效率。
附图说明
图1为本发明第一实施例中的一种视频贴纸处理方法的流程示意图;
图2为本发明第一实施例中的一种视频贴纸处理方法的另一流程示意图;
图3为本发明第二实施例中的一种视频贴纸处理装置的结构示意图;
图4为本发明第二实施例中的一优选实施例的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
请参阅图1-2。
如图1-2所示,第一实施例提供一种视频贴纸处理方法,包括步骤S1~S3:
S1、分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本。
S2、将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧。
S3、在目标视频帧的默认位置或目标位置添加目标贴纸;其中,目标位置是根据人脸位置数据计算而获得。
作为示例性的,用户通过用户终端上传待处理视频,由服务器在接收到待处理视频时,分别对待处理视频进行人脸识别和语音识别。若人脸识别成功,则可得到人脸位置数据,若语音识别成功,则可得到语音识别文本。其中,用户终端包括手机、电脑、平板等可与服务器连接的通信设备。
在本实施例的一优选实施方式中,在得到语音识别文本后,服务器可向用户终端下发语音识别文本,使得用户可通过用户终端确认语音识别文本。
当语音识别成功时,将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,与语音识别文本匹配成功的描述文本对应的贴纸即为目标贴纸。同时,根据语音识别文本获取目标视频帧。
在本实施例的一优选实施方式中,在得到目标贴纸后,服务器可向用户终端下发目标贴纸,使得用户可通过用户终端确认目标贴纸。在得到目标视频帧后,服务器可向用户终端下发目标视频帧,使得用户可通过用户终端确认目标视频帧。
在得到目标贴纸和目标视频帧后,结合人脸识别结果确定目标贴纸的添加位置,即当人脸识别失败时,根据针对目标贴纸而预先设置的默认位置,在目标视频帧的默认位置添加目标贴纸,当人脸识别成功时,根据人脸位置数据计算得到目标位置,在目标视频帧的目标位置添加目标贴纸。
其中,默认位置的设置过程可参考:当待处理视频人脸识别失败,即无法识别人脸或人脸矩形宽度小于手机屏幕宽度的30%时,首先在手机屏幕居中添加一个300*380的默认矩形,接着画出默认矩形的内切椭圆,内切椭圆上的点即为默认有效点,最后从所有默认有效点中随机筛选一个默认有效点作为默认位置。
其中,目标位置的计算过程可参考:当待处理视频人脸识别成功,即人脸矩形宽度大于手机屏幕宽度的30%时,首先将人脸矩形宽度加宽40%,人脸矩形上半部分加高60%,人脸矩形下半部分加高30%,确保整个人脸矩形宽度不小于手机屏幕宽度的65%。接着画出人脸矩形的内切椭圆,椭圆上的点为目标贴纸的备用点(等分为8~10个),在手机屏幕外的备用点为不可用点,在手机屏幕内的备用点为可用点。然后在每个可用点添加一个默认贴纸(贴纸宽度大于人脸矩形宽度的45%),若默认贴纸的放置面积超出手机屏幕20%,则对应的可用点为无效点,若默认贴纸的放置面积未超出手机屏幕20%,则对应的可用点为有效点。最后从所有有效点中随机筛选一个有效点作为目标位置。当有效点少于3个时,则居中一个width=80%playerWidth,height=70%playerHeight(安全区域的矩形),此时需要判断矩形中心点偏上或偏下高度是否大于手机屏幕高度的5%,若是则确定反向的有效点作为目标位置。
其中,目标贴纸旋转角度的选择过程可参考:若目标贴纸的添加位置在手机屏幕的左边,则其旋转角度为顺时针0~45°的随机角度,若目标贴纸的添加位置在手机屏幕的右边,则其旋转角度为逆时针0~45°的随机角度。
在本实施例的一优选实施方式中,在目标视频帧的默认位置或目标位置添加目标贴纸后,服务器可向用户终端下发添加有目标贴纸的目标视频帧,使得用户可通过用户终端确认视频贴纸处理。
本实施例通过分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,进而将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧,从而在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸,完成视频贴纸处理。
本实施例通过对待处理视频进行人脸识别和语音识别,以当语音识别成功时,将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸,并根据语音识别文本获取目标视频帧,当人脸识别失败时,根据针对目标贴纸而预先设置的默认位置,在目标视频帧的默认位置添加目标贴纸,当人脸识别成功时,根据人脸位置数据计算得到目标位置,在目标视频帧的目标位置添加目标贴纸。本实施例能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置,实现智能选择和摆放目标贴纸,提高视频贴纸处理效率。
在优选的实施例当中,所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,具体为:依序对待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时,得到对应视频帧的人脸位置数据;对待处理视频进行语音识别,并在语音识别成功时,将识别的语音数据转换为文本数据,得到语音识别文本。
作为示例性的,用户通过用户终端录制待处理视频,上传待处理视频的视频帧,由服务器在接收到待处理视频的视频帧时,按照待处理视频的视频帧接收顺序,依序对待处理视频的视频帧进行人脸识别,若对一视频帧的人脸识别成功,则判定待处理视频人脸识别成功,得到该视频帧的人脸位置数据,若对所有视频帧的人脸识别均失败,则判定待处理视频人脸识别失败。用户通过用户终端结束录制待处理视频,上传待处理视频的最后一视频帧,由服务器在接收到最后一视频帧时,对待处理视频进行语音识别,若语音识别成功,则将识别的语音数据转换为文本数据,得到语音识别文本,若语音识别失败,则退出视频贴纸处理。
本实施例通过依序对待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时得到对应视频帧的人脸位置数据,能够在用户录制待处理视频时即可对接收的视频帧进行人脸识别,且在得到人脸位置数据后无需对其余视频帧进行人脸识别,极大地缩短了待处理视频人脸识别的处理时间,从而提高视频贴纸处理效率。
在优选的实施例当中,所述将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧,具体为:将对语音识别文本进行切词处理得到的文本词与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸;获取语音识别文本在待处理视频中的出现时间,将播放时间对应于出现时间的视频帧作为目标视频帧。
作为示例性的,在得到语音识别文本后,由服务器对语音识别文本进行切词处理,得到文本词集合,并逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配,若所有匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
比如,将语音识别文本“好开心”从前往后进行切词处理,得到文本词集合{(“好”、“开”、“心”),(“好开”、“心”),(“好”、“开心”),(“好开心”)},分别将“好”、“开”、“心”、“好开”、“开心”、“好开心”与贴纸库中每一贴纸的描述文本进行匹配,若所有匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
在本实施例的一优选实施方式中,优先从文本长度最长的文本词的匹配结果中随机筛选一个贴纸作为目标贴纸。
比如,从“好开心”的匹配结果中随机筛选一个贴纸作为目标贴纸。
作为示例性的,在得到语音识别文本后,由服务器对语音识别文本进行切词处理,得到文本词集合,并按照文本词文本长度从长到短的顺序,逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配,若当前匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
比如,将语音识别文本“好开心”从前往后进行切词处理,得到文本词集合{(“好开心”),(“好开”、“心”),(“好”、“开心”),(“好”、“开”、“心”)},依序将“好开心”、“好开”、“开心”、“好”、“开”、“心”与贴纸库中每一贴纸的描述文本进行匹配,若当前匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
本实施例通过对语音识别文本进行切词处理,将得到的文本词与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸,能够有效增加贴纸匹配成功率,从而提高视频贴纸处理效率。
在本实施例的一优选实施方式中,在得到文本词集合后,服务器可向用户终端下发文本词集合,使得用户可通过用户终端确认文本词集合。
其中,下发文本词集合的数据结构可参考:{(文本词1,startTime,endTime),(文本词2,startTime,endTime),……},startTime表示对应文本词的开始时间,endTime表示对应文本词的结束时间。
在本实施例的一优选实施方式中,在得到匹配贴纸后,服务器可向用户终端下发匹配贴纸,使得用户可通过用户终端确认匹配贴纸。
其中,下发匹配贴纸的数据结构可参考:{(文本词1:匹配贴纸1),(文本词2,匹配贴纸2),……}。
在优选的实施例当中,所述在目标视频帧的默认位置或目标位置添加目标贴纸,还包括:当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时,移除目标贴纸。
作为示例性的,当在目标视频帧的默认位置或目标位置添加目标贴纸后,检测目标贴纸在默认位置或目标位置的出现时长,若目标贴纸在默认位置或目标位置的出现时长达到预设阈值,则从目标视频帧中移除目标贴纸。其中,预设阈值是根据实际需要而预先设置的,比如2秒。
本实施例通过当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时移除目标贴纸,能够避免目标贴纸在默认位置或目标位置停留过长而遮挡视频内容。
在优选的实施例当中,在所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本之后,还包括:在目标视频帧的字幕位置添加语音识别文本。
本实施例通过在目标视频帧的字幕位置添加语音识别文本,能够根据语音识别文本自动确定字幕的添加位置,从而提高视频编辑处理效率。
请参阅图3-4。
如图3所示,第二实施例提供一种视频贴纸处理装置,包括:人脸和语音识别模块21,用于分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本;目标贴纸获取模块22,用于将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧;目标贴纸添加模块23,用于在目标视频帧的默认位置或目标位置添加目标贴纸;其中,目标位置是根据人脸位置数据计算而获得。
作为示例性的,用户通过用户终端上传待处理视频,由人脸和语音识别模块21在接收到待处理视频时,分别对待处理视频进行人脸识别和语音识别。若人脸识别成功,则可得到人脸位置数据,若语音识别成功,则可得到语音识别文本。其中,用户终端包括手机、电脑、平板等可与服务器连接的通信设备。
在本实施例的一优选实施方式中,在得到语音识别文本后,可通过人脸和语音识别模块21向用户终端下发语音识别文本,使得用户可通过用户终端确认语音识别文本。
当语音识别成功时,通过目标贴纸获取模块22,将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,与语音识别文本匹配成功的描述文本对应的贴纸即为目标贴纸。同时,通过目标贴纸获取模块22,根据语音识别文本获取目标视频帧。
在本实施例的一优选实施方式中,在得到目标贴纸后,可通过目标贴纸获取模块22向用户终端下发目标贴纸,使得用户可通过用户终端确认目标贴纸。在得到目标视频帧后,可通过目标贴纸获取模块22向用户终端下发目标视频帧,使得用户可通过用户终端确认目标视频帧。
在得到目标贴纸和目标视频帧后,通过目标贴纸添加模块23,结合人脸识别结果确定目标贴纸的添加位置,即当人脸识别失败时,根据针对目标贴纸而预先设置的默认位置,在目标视频帧的默认位置添加目标贴纸,当人脸识别成功时,根据人脸位置数据计算得到目标位置,在目标视频帧的目标位置添加目标贴纸。
其中,默认位置的设置过程可参考:当待处理视频人脸识别失败,即无法识别人脸或人脸矩形宽度小于手机屏幕宽度的30%时,首先在手机屏幕居中添加一个300*380的默认矩形,接着画出默认矩形的内切椭圆,内切椭圆上的点即为默认有效点,最后从所有默认有效点中随机筛选一个默认有效点作为默认位置。
其中,目标位置的计算过程可参考:当待处理视频人脸识别成功,即人脸矩形宽度大于手机屏幕宽度的30%时,首先将人脸矩形宽度加宽40%,人脸矩形上半部分加高60%,人脸矩形下半部分加高30%,确保整个人脸矩形宽度不小于手机屏幕宽度的65%。接着画出人脸矩形的内切椭圆,椭圆上的点为目标贴纸的备用点(等分为8~10个),在手机屏幕外的备用点为不可用点,在手机屏幕内的备用点为可用点。然后在每个可用点添加一个默认贴纸(贴纸宽度大于人脸矩形宽度的45%),若默认贴纸的放置面积超出手机屏幕20%,则对应的可用点为无效点,若默认贴纸的放置面积未超出手机屏幕20%,则对应的可用点为有效点。最后从所有有效点中随机筛选一个有效点作为目标位置。当有效点少于3个时,则居中一个width=80%playerWidth,height=70%playerHeight(安全区域的矩形),此时需要判断矩形中心点偏上或偏下高度是否大于手机屏幕高度的5%,若是则确定反向的有效点作为目标位置。
其中,目标贴纸旋转角度的选择过程可参考:若目标贴纸的添加位置在手机屏幕的左边,则其旋转角度为顺时针0~45°的随机角度,若目标贴纸的添加位置在手机屏幕的右边,则其旋转角度为逆时针0~45°的随机角度。
在本实施例的一优选实施方式中,在目标视频帧的默认位置或目标位置添加目标贴纸后,可通过目标贴纸添加模块23向用户终端下发添加有目标贴纸的目标视频帧,使得用户可通过用户终端确认视频贴纸处理。
本实施例通过人脸和语音识别模块21,分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,进而通过目标贴纸获取模块22,将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧,从而通过目标贴纸添加模块23,在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸,完成视频贴纸处理。
本实施例通过对待处理视频进行人脸识别和语音识别,以当语音识别成功时,将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸,并根据语音识别文本获取目标视频帧,当人脸识别失败时,根据针对目标贴纸而预先设置的默认位置,在目标视频帧的默认位置添加目标贴纸,当人脸识别成功时,根据人脸位置数据计算得到目标位置,在目标视频帧的目标位置添加目标贴纸。本实施例能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置,实现智能选择和摆放目标贴纸,提高视频贴纸处理效率。
在优选的实施例当中,所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,具体为:依序对待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时,得到对应视频帧的人脸位置数据;对待处理视频进行语音识别,并在语音识别成功时,将识别的语音数据转换为文本数据,得到语音识别文本。
作为示例性的,用户通过用户终端录制待处理视频,上传待处理视频的视频帧,由人脸和语音识别模块21在接收到待处理视频的视频帧时,按照待处理视频的视频帧接收顺序,依序对待处理视频的视频帧进行人脸识别,若对一视频帧的人脸识别成功,则判定待处理视频人脸识别成功,得到该视频帧的人脸位置数据,若对所有视频帧的人脸识别均失败,则判定待处理视频人脸识别失败。用户通过用户终端结束录制待处理视频,上传待处理视频的最后一视频帧,由人脸和语音识别模块21在接收到最后一视频帧时,对待处理视频进行语音识别,若语音识别成功,则将识别的语音数据转换为文本数据,得到语音识别文本,若语音识别失败,则退出视频贴纸处理。
本实施例通过人脸和语音识别模块21,依序对待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时得到对应视频帧的人脸位置数据,能够在用户录制待处理视频时即可对接收的视频帧进行人脸识别,且在得到人脸位置数据后无需对其余视频帧进行人脸识别,极大地缩短了待处理视频人脸识别的处理时间,从而提高视频贴纸处理效率。
在优选的实施例当中,所述将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧,具体为:将对语音识别文本进行切词处理得到的文本词与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸;获取语音识别文本在待处理视频中的出现时间,将播放时间对应于出现时间的视频帧作为目标视频帧。
作为示例性的,在得到语音识别文本后,由目标贴纸获取模块22对语音识别文本进行切词处理,得到文本词集合,并逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配,若所有匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
比如,将语音识别文本“好开心”从前往后进行切词处理,得到文本词集合{(“好”、“开”、“心”),(“好开”、“心”),(“好”、“开心”),(“好开心”)},分别将“好”、“开”、“心”、“好开”、“开心”、“好开心”与贴纸库中每一贴纸的描述文本进行匹配,若所有匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
在本实施例的一优选实施方式中,优先从文本长度最长的文本词的匹配结果中随机筛选一个贴纸作为目标贴纸。
比如,从“好开心”的匹配结果中随机筛选一个贴纸作为目标贴纸。
作为示例性的,在得到语音识别文本后,由目标贴纸获取模块22对语音识别文本进行切词处理,得到文本词集合,并按照文本词文本长度从长到短的顺序,逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配,若当前匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
比如,将语音识别文本“好开心”从前往后进行切词处理,得到文本词集合{(“好开心”),(“好开”、“心”),(“好”、“开心”),(“好”、“开”、“心”)},依序将“好开心”、“好开”、“开心”、“好”、“开”、“心”与贴纸库中每一贴纸的描述文本进行匹配,若当前匹配结果中有贴纸的描述文本与文本词相匹配,则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸,若所有匹配结果中均没有贴纸的描述文本与文本词相匹配,则退出视频贴纸处理。
本实施例通过目标贴纸获取模块22,对语音识别文本进行切词处理,将得到的文本词与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸,能够有效增加贴纸匹配成功率,从而提高视频贴纸处理效率。
在本实施例的一优选实施方式中,在得到文本词集合后,可通过目标贴纸获取模块22向用户终端下发文本词集合,使得用户可通过用户终端确认文本词集合。
其中,下发文本词集合的数据结构可参考:{(文本词1,startTime,endTime),(文本词2,startTime,endTime),……},startTime表示对应文本词的开始时间,endTime表示对应文本词的结束时间。
在本实施例的一优选实施方式中,在得到匹配贴纸后,可通过目标贴纸获取模块22向用户终端下发匹配贴纸,使得用户可通过用户终端确认匹配贴纸。
其中,下发匹配贴纸的数据结构可参考:{(文本词1:匹配贴纸1),(文本词2,匹配贴纸2),……}。在优选的实施例当中,所述目标贴纸添加模块23,还用于当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时,移除目标贴纸。
在优选的实施例当中,目标贴纸添加模块23,还用于当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时,移除目标贴纸。
作为示例性的,当在目标视频帧的默认位置或目标位置添加目标贴纸后,检测目标贴纸在默认位置或目标位置的出现时长,若目标贴纸在默认位置或目标位置的出现时长达到预设阈值,则从目标视频帧中移除目标贴纸。其中,预设阈值是根据实际需要而预先设置的,比如2秒。
本实施例通过目标贴纸添加模块23,当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时移除目标贴纸,能够避免目标贴纸在默认位置或目标位置停留过长而遮挡视频内容。
如图4所示,在优选的实施例当中,所述视频贴纸处理装置,还包括语音识别文本添加模块24,用于在所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本之后,在目标视频帧的字幕位置添加语音识别文本。
本实施例通过语音识别文本添加模块24,在目标视频帧的字幕位置添加语音识别文本,能够根据语音识别文本自动确定字幕的添加位置,从而提高视频编辑处理效率。
综上所述,实施本发明的实施例,具有如下有益效果:
通过分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,进而将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据语音识别文本获取目标视频帧,从而在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸,完成视频贴纸处理。本发明的实施例通过对待处理视频进行人脸识别和语音识别,以当语音识别成功时,将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸,并根据语音识别文本获取目标视频帧,当人脸识别失败时,根据针对目标贴纸而预先设置的默认位置,在目标视频帧的默认位置添加目标贴纸,当人脸识别成功时,根据人脸位置数据计算得到目标位置,在目标视频帧的目标位置添加目标贴纸。本发明的实施例能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置,实现智能选择和摆放目标贴纸,提高视频贴纸处理效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
Claims (10)
1.一种视频贴纸处理方法,其特征在于,包括:
分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本;
将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧;
在所述目标视频帧的默认位置或目标位置添加所述目标贴纸;其中,所述目标位置是根据所述人脸位置数据计算而获得。
2.如权利要求1所述的视频贴纸处理方法,其特征在于,所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,具体为:
依序对所述待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时,得到对应视频帧的所述人脸位置数据;
对所述待处理视频进行语音识别,并在语音识别成功时,将识别的语音数据转换为文本数据,得到所述语音识别文本。
3.如权利要求1所述的视频贴纸处理方法,其特征在于,所述将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧,具体为:
将对所述语音识别文本进行切词处理得到的文本词与所述贴纸库中每一贴纸的描述文本进行匹配,得到所述目标贴纸;
获取所述语音识别文本在所述待处理视频中的出现时间,将播放时间对应于所述出现时间的视频帧作为所述目标视频帧。
4.如权利要求1所述的视频贴纸处理方法,其特征在于,所述在所述目标视频帧的默认位置或目标位置添加所述目标贴纸,还包括:
当所述目标贴纸在所述默认位置或所述目标位置的出现时长达到预设阈值时,移除所述目标贴纸。
5.如权利要求1所述的视频贴纸处理方法,其特征在于,在所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本之后,还包括:
在所述目标视频帧的字幕位置添加所述语音识别文本。
6.一种视频贴纸处理装置,其特征在于,包括:
人脸和语音识别模块,用于分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本;
目标贴纸获取模块,用于将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧;
目标贴纸添加模块,用于在所述目标视频帧的默认位置或目标位置添加所述目标贴纸;其中,所述目标位置是根据所述人脸位置数据计算而获得。
7.如权利要求6所述的视频贴纸处理装置,其特征在于,所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本,具体为:
依序对所述待处理视频的视频帧进行人脸识别,并在一视频帧人脸识别成功时,得到对应视频帧的所述人脸位置数据;
对所述待处理视频进行语音识别,并在语音识别成功时,将识别的语音数据转换为文本数据,得到所述语音识别文本。
8.如权利要求6所述的视频贴纸处理装置,其特征在于,所述将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配,得到目标贴纸,并根据所述语音识别文本获取目标视频帧,具体为:
将对所述语音识别文本进行切词处理得到的文本词与所述贴纸库中每一贴纸的描述文本进行匹配,得到所述目标贴纸;
获取所述语音识别文本在所述待处理视频中的出现时间,将播放时间对应于所述出现时间的视频帧作为所述目标视频帧。
9.如权利要求6所述的视频贴纸处理装置,其特征在于,所述目标贴纸添加模块,还用于当所述目标贴纸在所述默认位置或所述目标位置的出现时长达到预设阈值时,移除所述目标贴纸。
10.如权利要求6所述的视频贴纸处理装置,其特征在于,还包括语音识别文本添加模块,用于在所述分别对待处理视频进行人脸识别和语音识别,以在人脸识别成功时得到人脸位置数据,在语音识别成功时得到语音识别文本之后,在所述目标视频帧的字幕位置添加所述语音识别文本。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010297623.5A CN111556335A (zh) | 2020-04-15 | 2020-04-15 | 一种视频贴纸处理方法及装置 |
US16/935,167 US11218648B2 (en) | 2020-04-15 | 2020-07-21 | Video sticker processing method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010297623.5A CN111556335A (zh) | 2020-04-15 | 2020-04-15 | 一种视频贴纸处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111556335A true CN111556335A (zh) | 2020-08-18 |
Family
ID=72004362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010297623.5A Pending CN111556335A (zh) | 2020-04-15 | 2020-04-15 | 一种视频贴纸处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11218648B2 (zh) |
CN (1) | CN111556335A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113613067A (zh) * | 2021-08-03 | 2021-11-05 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及存储介质 |
US11705120B2 (en) * | 2019-02-08 | 2023-07-18 | Samsung Electronics Co., Ltd. | Electronic device for providing graphic data based on voice and operating method thereof |
WO2023160515A1 (zh) * | 2022-02-25 | 2023-08-31 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114125485B (zh) * | 2021-11-30 | 2024-04-30 | 北京字跳网络技术有限公司 | 图像处理方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105791692A (zh) * | 2016-03-14 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端 |
CN106210545A (zh) * | 2016-08-22 | 2016-12-07 | 北京金山安全软件有限公司 | 一种视频拍摄方法、装置及电子设备 |
CN109660855A (zh) * | 2018-12-19 | 2019-04-19 | 北京达佳互联信息技术有限公司 | 贴纸显示方法、装置、终端及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4310916B2 (ja) * | 2000-11-08 | 2009-08-12 | コニカミノルタホールディングス株式会社 | 映像表示装置 |
JP2014085796A (ja) * | 2012-10-23 | 2014-05-12 | Sony Corp | 情報処理装置およびプログラム |
KR102108893B1 (ko) * | 2013-07-11 | 2020-05-11 | 엘지전자 주식회사 | 이동 단말기 |
US10446189B2 (en) * | 2016-12-29 | 2019-10-15 | Google Llc | Video manipulation with face replacement |
-
2020
- 2020-04-15 CN CN202010297623.5A patent/CN111556335A/zh active Pending
- 2020-07-21 US US16/935,167 patent/US11218648B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105791692A (zh) * | 2016-03-14 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端 |
CN106210545A (zh) * | 2016-08-22 | 2016-12-07 | 北京金山安全软件有限公司 | 一种视频拍摄方法、装置及电子设备 |
CN109660855A (zh) * | 2018-12-19 | 2019-04-19 | 北京达佳互联信息技术有限公司 | 贴纸显示方法、装置、终端及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11705120B2 (en) * | 2019-02-08 | 2023-07-18 | Samsung Electronics Co., Ltd. | Electronic device for providing graphic data based on voice and operating method thereof |
CN113613067A (zh) * | 2021-08-03 | 2021-11-05 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及存储介质 |
WO2023011146A1 (zh) * | 2021-08-03 | 2023-02-09 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及存储介质 |
CN113613067B (zh) * | 2021-08-03 | 2023-08-22 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及存储介质 |
WO2023160515A1 (zh) * | 2022-02-25 | 2023-08-31 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210329176A1 (en) | 2021-10-21 |
US11218648B2 (en) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111556335A (zh) | 一种视频贴纸处理方法及装置 | |
CN110446115B (zh) | 直播互动方法、装置、电子设备及存储介质 | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
US10929683B2 (en) | Video processing method, apparatus and device | |
CN104618803B (zh) | 信息推送方法、装置、终端及服务器 | |
JP6968908B2 (ja) | コンテキスト取得方法及びコンテキスト取得デバイス | |
CN111785279A (zh) | 视频说话人的识别方法、装置、计算机设备及存储介质 | |
CN106982344B (zh) | 视频信息处理方法及装置 | |
CN112653902B (zh) | 说话人识别方法、装置及电子设备 | |
CN108920640B (zh) | 基于语音交互的上下文获取方法及设备 | |
CN111401238B (zh) | 一种视频中人物特写片段的检测方法及装置 | |
WO2023151424A1 (zh) | 视频的音画面播放速率调整方法及装置 | |
US20220201357A1 (en) | Limited-level picture detection method, device, display device and readable storage medium | |
CN105100647A (zh) | 一种校正字幕的方法及终端 | |
CN114120969A (zh) | 智能终端的语音识别功能测试方法、系统、电子设备 | |
US11889127B2 (en) | Live video interaction method and apparatus, and computer device | |
CN113705300A (zh) | 音转文训练语料的获取方法、装置、设备以及存储介质 | |
US20230109852A1 (en) | Data processing method and apparatus, device, and medium | |
US20160142456A1 (en) | Method and Device for Acquiring Media File | |
CN113613070A (zh) | 一种人脸视频处理方法、装置、电子设备及存储介质 | |
CN112487247A (zh) | 视频处理方法及视频处理装置 | |
CN111128190A (zh) | 一种表情匹配的方法及系统 | |
CN111013138A (zh) | 一种语音控制方法、装置、电子设备及存储介质 | |
CN113468319B (zh) | 一种基于互联网的多应用场景的会议交互系统及方法 | |
CN113938708B (zh) | 直播的音频纠错方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200818 |