CN104756502A - 通信设备之间的视频和音频共享的方法、设备和系统 - Google Patents
通信设备之间的视频和音频共享的方法、设备和系统 Download PDFInfo
- Publication number
- CN104756502A CN104756502A CN201280076949.9A CN201280076949A CN104756502A CN 104756502 A CN104756502 A CN 104756502A CN 201280076949 A CN201280076949 A CN 201280076949A CN 104756502 A CN104756502 A CN 104756502A
- Authority
- CN
- China
- Prior art keywords
- incarnation
- bit stream
- audio
- communication equipment
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013075 data extraction Methods 0.000 claims abstract description 11
- 238000009877 rendering Methods 0.000 claims abstract description 10
- 230000001360 synchronised effect Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 4
- 230000008921 facial expression Effects 0.000 description 8
- 238000013500 data storage Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013506 data mapping Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- MKYBYDHXWVHEJW-UHFFFAOYSA-N N-[1-oxo-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propan-2-yl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(C(C)NC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 MKYBYDHXWVHEJW-UHFFFAOYSA-N 0.000 description 1
- NIPNSKYNPDTRPC-UHFFFAOYSA-N N-[2-oxo-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 NIPNSKYNPDTRPC-UHFFFAOYSA-N 0.000 description 1
- 206010048232 Yawning Diseases 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Processing Or Creating Images (AREA)
Abstract
通信设备之间的视频和音频共享的设备、方法和系统可包括用于生成并发送包含与视频和音频有关的信息的分组的通信设备以及用于接收分组并再现与音频和视频有关的信息的另一通信设备。在某些实施例中,所述通信设备可包括:音频编码模块,用以将音频片编码成音频位流;化身数据提取模块,用以从视频片提取化身数据并生成化身数据位流;以及同步模块,用以生成用于使音频位流与化身参数流同步的同步信息。在某些实施例中,所述另一通信设备可包括:音频解码模块,用以将音频位流解码成已解码音频数据;化身动画模块,用以基于化身数据位流将化身模型形成动画以生成动画化身模型;以及同步和再现模块,用以通过利用同步信息使已解码音频数据和动画化身模型同步并将其再现。
Description
技术领域
本专利申请的实施例涉及视频和音频共享,更具体地涉及使用化身(Avatar)的视频和音频共享。
背景技术
无线通信技术为人们提供在无线网络上的越来越富含内容的信息共享。例如,人们可以在线(例如,电视会议)或离线(例如,即时消息)地传送和共享视频和音频。然而,高带宽消耗可显著地妨碍离线视频和音频共享的广泛使用。
附图说明
在附图中以示例的方式而非以限制的方式图示出本文所述的实施例。为了图示的简单和明了起见,图中所示的元素不一定按比例描绘。例如,某些元素的尺寸可能为了明了起见而相对于其他元素被放大。此外,在认为适当的情况下,在图之间已重复参考标记以指示相应或类似的元素。
图1图示出在两个通信设备之间共享视频和音频的系统的实施例。
图2图示出用于生成包含将被与另一通信设备共享的视频和音频信息的分组的一个通信设备的环境的实施例。
图3图示出用于接收分组并再现视频和音频信息的另一通信设备的环境的实施例。
图4图示出用于生成包含将被与另一通信设备共享的视频和音频信息的分组的一个通信设备的方法的实施例。
图5图示出用于接收分组并再现视频和音频信息的另一通信设备的方法的实施例。
具体实施方式
虽然实施例的概念易受到各种修改和替代形式,但在图中已以示例的方式示出了其具体示例性实施例并将在本文中详细地描述。然而,应理解的是不存在将本公开的概念限制于公开的特定形式的意图,而是相反地,意图是涵盖与本公开和所附权利要求书一致的所有修改、等价物以及替代。
在以下描述中,记载了多个具体细节,诸如逻辑实现、操作码、指定操作数的手段、资源划分/共享/复制实现、系统部件的类型和相互关系以及逻辑划分/集成选择,以便提供对本公开的更透彻理解。然而,本领域的技术人员将认识到的是可在没有此类具体细节的情况下实施本公开的实施例。在其他情况下,未详细地示出控制结构、门层级电路和全软件指令序列以便不使实施例含糊难懂。用包括的描述,本领域的技术人员将能够在没有过度实验的情况下实现适当的功能。
本说明书中的对“一个实施例”、“实施例”、“示例实施例”等的参考指示所描述的实施例可包括特定特征、结构或特性,但每个实施例可能不一定包括该特定特征、结构或特性。此外,此类短语不一定指代相同实施例。此外,当结合实施例来描述特定特征、结构或特性时认为与无论是否明确地描述的其他实施例相结合地实现此类特征、结构或特性在本领域的技术人员的知识内。
可用硬件、固件、软件或其任何组合来实现实施例。在计算机系统中实现的实施例可包括部件之间的一个或多个基于总线的互连和/或部件之间的一个或多个点到点互连。还可将实施例实现为由临时或非临时机器可读(例如,计算机可读)介质承载或存储在其上面的指令,该指令可被一个或多个处理器读取和执行。可将机器可读介质体现为用于以机器(例如,计算设备)可读的形式来存储或传输信息的任何设备、机制或物理结构。例如,可将机器可读介质体现为只读存储器(ROM);随机访问存储器(RAM);磁盘存储介质;光存储介质;闪速存储设备;小型或微型SD卡、记忆棒、电信号以及其他。
在图中,可为了便于描述而示出示意性元件的具体布置或排序,诸如表示设备、模块、指令块和数据元素的那些。然而,本领域的技术人员应理解到图中的示意性元件的具体顺序或布置并不意味着暗示要求处理的特定顺序或序列或者过程的分离。此外,在图中包括示意性元件并不意味着暗示在所有实施例中都要求此类元件,或者在某些实施例中此类元件所表示的特征可不被包括或与其他元件组合。
一般地,可使用任何适当形式的机器可读指令来实现用来表示指令块的示意性元件,机器可读指令诸如软件或固件应用、程序、函数、模块、例程、进程、过程、插件、小程序、小插件、代码段等,并且每个此类指令可使用适当的编程语言、库、应用编程接口(API)和/或其他软件开发工具来实现。例如,可使用Java、C++和/或其他编程语言来实现某些实施例。类似地,用来表示数据或信息的示意性元件可使用任何适当电子装置或结构来实现,电子装置或结构诸如寄存器、数据仓库、表格、记录、阵列、索引、散列、映射、树、列表、图、(任何文件类型的)文件、文件夹、目录、数据库等。
此外,在图中,在使用诸如实线或短划线或箭头之类的连接元素来图示出两个或更多其他示意性元件之间或之中的连接、关系或关联的情况下,任何此类连接元素的不存在并不意味着暗示无连接、关系或关联可以存在。换言之,在图中可能未示出元件之间的某些连接、关系或关联从而不使本公开含糊难懂。另外,为了便于举例说明,可使用单个连接元素来表示元件之间的多个连接、关系或关联。例如,在连接元素表示信号、数据或指令的通信的情况下,本领域的技术人员应理解的是此类元素可表示实现通信可能需要的一个或多个信号路径(例如,总线)。
图1图示出经由服务器103在两个通信设备101和102之间共享视频和音频的系统100的实施例。在实施例中,可通过网络、诸如无线网络或因特网将通信设备101与服务器103连接。类似地,还可通过网络将通信设备102与服务器103连接。,可将通信设备101体现而不限制为智能电话、蜂窝式电话、平板计算机、消费者电子设备、膝上型计算机、笔记本计算机、台式计算机、移动计算系统、工作站、网络设备、web设备、基于处理器的系统和/或被配置成生成包含与视频和音频有关的信息的将与通信设备102离线地共享的分组的任何其他通信设备。可将分组体现而不限制为即时消息、短消息或其他数据流。
在实施例中,通信设备101可包括处理器110、I/O子系统114、存储器116、数据储存器118、通信电路120以及一个或多个外围设备122。在某些实施例中,可将前述部件中的若干个结合在移动通信设备101的母板或主板上,而可经由例如外围端口将其他部件通信第耦合到母板。此外,应认识到的是移动通信设备101可包括其他部件、子部件以及通常在通信和/或计算设备中发现的设备,为了描述的明了起见而未在图1中示出它们。
可将通信设备101的处理器110体现为能够执行软件/固件的任何类型的处理器,诸如微处理器、数字信号处理器、微控制器等。处理器110被说明性地体现为具有处理器核112的单核处理器。然而,在其他实施例中,可将处理器110体现为具有多个处理器核112的多核处理器。另外,通信设备101可包括具有一个或多个处理器核112的附加处理器110。
可将通信设备101的I/O子系统114体现为将促进与处理器110和/或通信设备102的其他部件的输入/输出操作的电路和/或部件。在某些实施例中,可将I/O子系统114体现为存储器控制器集线器(MCH或“北桥”)、输入/输出控制器集线器(ICH或“南桥”)或平台控制器集线器(PCH)以及固件设备。在此类实施例中,可将I/O子系统114的固件设备体现为用于存储基本输入/输出系统(BIOS)数据和/或指令和/或其他信息的存储器设备(例如,在通信设备101的启动期间使用的BIOS驱动器)。然而,在其他实施例中,可使用具有其他配置的I/O子系统。例如,在某些实施例中,可将I/O子系统114体现为平台控制器集线器(PCH)。在此类实施例中,可将存储器控制器集线器(MCH)结合在处理器110中或否则与之相关联,并且处理器110可直接地与存储器116通信(如图1中的短划线所示)。另外,在其他实施例中,I/O子系统114可形成片上系统(SoC)的一部分并连同处理器110和通信设备101的其他部件一起结合在单个集成电路芯片上。
处理器110经由多个信号路径被通信地耦合到I/O子系统114。可将这些信号路径(和图1中所示的其他信号路径)体现为任何类型的信号路径,其能够促进移动通信设备101的部件之间的通信。例如,可将信号路径体现为任何数量的点到点链路、导线、线缆、指示灯、印刷电路板迹线、过孔、总线、中间设备等。
通信设备101的存储器116可被体现为或者否则包括一个或多个存储器设备或数据存储位置,包括例如动态随机访问存储器设备(DRAM)、同步动态随机访问存储器设备(SDRAM)、双数据速率同步动态随机访问存储器设备(DDR、SDRAM)、掩码只读存储器(ROM)设备、可擦可编程序ROM(EPROM)、电可擦可编程ROM(EEPROM)设备、闪速存储器设备和/或其他易失性和/或非易失性存储器设备。存储器116经由多个信号路径被通信地耦合到I/O子系统114。虽然在图1中仅图示出单个存储器设备116,但在其他实施例中移动通信设备101可包括附加存储器设备。可将各种数据和软件存储在存储器116中。例如,构成由处理器110执行的软件栈的一个或多个操作系统、应用、程序、库以及驱动器可在执行期间驻留在存储器116中。
可将数据储存器118体现为被配置用于数据的短期或长期存储的任何类型的一个或多个设备。例如,数据储存器118可包括任何一个或多个存储器设备和电路、存储卡、硬盘驱动器、固态驱动器或其他数据存储设备。
通信设备101的通信电路120可包括用于使能通信设备101与一个或多个设备或网络之间的通信的任何数量的设备和电路,如下面更详细地讨论的那样。可将通信电路120配置成使用用以通信的任何一个或多个通信协议或其组合,通信协议诸如例如蜂窝式通信协议(例如,宽带码分多址(W-CDMA))、无线网络通信协议(例如,Wi-Fi®、WiMAX)、无线个域网通信协议(例如,Bluetooth®)、有线网络通信协议(例如TCP/IP)和/或其他通信协议。
在某些实施例中,通信设备101还可包括一个或多个外围设备122。此类外围设备122可包括任何数量的附加输入/输出设备、接口设备和/或其他外围设备。例如,在某些实施例中,外围设备122可包括显示器、触摸屏、图形电路、键盘、扬声器系统和/或其他输入/输出设备、接口设备和/或外围设备。
用于接收分组并再现视频和音频的通信设备102可基本上类似于通信设备101并包括类似部件,其在图1中用公共参考编号方案来标识,例如处理器150、处理器核152、I/O子系统154、存储器156、数据储存器158、通信电路160和一个或多个外围设备162。同样地,通信设备101的部件的上文提供的描述同样地适用于通信设备102的那些类似部件,并且在这里未重复从而不使本公开含糊难懂。当然,应认识到的是在某些实施例中,系统100的通信设备101、102可彼此不同。例如,可将通信设备101和102体现为相互不同的各种类型的通信设备(例如,智能电话、平板计算机、膝上型计算机、笔记本计算机或其他通信设备),并包括通常在此类相应通信设备中发现的部件。
为了在保持出现在视频中的对象的面部表情和/或运动的逼真性的同时降低带宽消耗,通信设备101可从视频提取指示对象的面部表情和/或运动的化身数据,并且可在将分组打包之前向化身数据位流和/或音频位流中插入同步信息。通信设备101可将分组传输到服务器103,无论通信设备102是否被连接到服务器。
通信设备102可从服务器103接收分组,无论通信设备101是否被连接到服务器。借助于该同步信息,通信设备102可再现音频和基于化身数据形成动画的化身模型以表示其中在通信设备101处制作视频和音频的场景。
与通过即时消息来传输视频相比,上述方案可对以低得多的质量牺牲节省带宽资源有用,这至少部分地由于离线化身数据提取、化身动画以及化身数据位流和音频位流的同步。此外,化身动画可帮助保持秘密,如果消息发送者不想透露他/她的真实图像的话。
图2图示出用于生成将与通信设备102共享的分组的通信设备101的环境200的实施例。说明性环境200可包括音频记录模块201、视频捕捉模块202、音频编码模块203、化身数据提取模块204、2D/3D选择模块205、同步模块206、打包模块207、传输模块208等。
在实施例中,通信设备101的用户可指示向通信设备102发送消息,例如,即时消息或短消息。该消息可包括由音频记录模块201记录的一条音频和由视频捕捉模块202捕捉的一条视频,例如,所述音频和视频是在用户说话时记录和捕捉的。
音频编码模块203可在各种音频编码方案下将记录的音频编码成多个音频位流,各种音频编码方案诸如MPEG AAC、AC3等。化身数据提取模块204可基于化身技术从视频片提取化身数据。化身数据可包括化身参数,其指示出现在视频中的对象的面部表情和/或运动,对象诸如用户的头。
2D/3D选择模块205可选择用于化身动画的2D或3D维度。2D/3D选择结果可影响由化身数据提取模块204提取的化身参数。例如,在2D选择下,可将化身参数体现而不限制为与x轴平移、y轴平移、平面内旋转等有关的参数。然而,在3D选择下,可将化身参数体现而不限制为与平面外旋转、z轴平移等有关的参数。应理解的是2D和3D可具有公共的参数,诸如与对象的口、鼻、眼等的运动有关的参数。
化身数据提取模块204还可使用数据压缩方案将化身数据转换成一个或多个化身数据位流,其可利用其时间和空间冗余。
与在线视频和音频传送和共享相比,离线消息收发可允许化身数据提取模块204有更多的时间从捕捉的视频提取化身数据,其可以帮助改善通信设备102处的化身动画的质量。
同步模块206可生成用于使音频位流与化身数据位流同步的同步信息。可将该同步信息体现而不限制为时间标记(例如,时间戳)、同步符号等。同步模块206可基于音频编码模块203在编码之前对音频片进行采样的音频采样率以及化身数据提取模块204在提取之前对视频片进行采样的化身采样率来生成同步信息。同步模块206还可将同步信息插入音频位流和化身数据位流中。
应理解的是插入音频位流中的时间标记可不同于被插入化身位流中的时间标记。在该情况下,同步信息还可包括使音频位流中的时间标记与音频位流中的时间标记相关的相关信息。
打包模块207可将音频位流、化身数据位流和同步信息打包成一个或多个分组(例如,即时消息)。在打包期间,可将音频位流、化身数据位流和同步信息压缩以便进一步减小数据大小。在实施例中,该分组还可包括在视频中呈现的对象的标识符,以便帮助通信设备102检索对应于对象的化身模型。在另一实施例中,通信设备101可与包含音频和化身数据位流的分组分别地将包含化身模型的另一分组打包并将该分组发送到通信设备102。在实施例中,化身模型可以是对象的真实模型,例如用户的头。在另一实施例中,化身模型可以是对象的虚拟模型,诸如电影明星的头和猫的头。
传输模块208可将分组传输到服务器103,无论通信设备102是否被连接。
图3图示出用于接收分组并再现音频和化身动画的通信设备102的环境300的实施例。说明性环境300可包括接收模块301、解包模块302、音频解码模块303、化身动画模块304、同步和再现模块305、音频播放器306、视频显示器307等。
在实施例中,接收模块301可以接收包含音频位流、化身数据位流、同步信息、出现于在通信设备101处捕捉的视频中的对象的标识符等的分组。解包模块302可将分组解包成音频位流、化身数据位流、同步信息、对象标识符等。在解包期间,分组可以是未压缩的,以便获得上述数据或信息。
音频解码模块303可在各种音频解码方案下将音频位流解码成已解码音频数据,各种音频解码方案诸如MPEG、AAC、AC3等。化身动画模块304可基于化身数据位流将化身模型形成动画以生成动画化身模型。更特别地,化身动画模块304可检索对应于包括在分组中的对象标识符的化身模型。在实施例中,化身模型可以是对象的真实模型,诸如用户的头。在另一实施例中,化身模型可以是对象的虚拟模型,诸如猫的头。化身动画模块304可通过将化身数据映射在化身模型上而基于化身数据位流将化身模型形成动画。如果化身数据位流包括指示对象的面部表情和/或运动的化身参数,则化身动画模块可将该面部表情和/或运动映射在化身模型上。例如,化身动画模块可将源对象模型(例如,用户的脸)的稀疏关键点的运动动画参数变换到目标化身模型上,并且使得目标化身模型完成相同的动画,诸如微笑、惊奇、打哈欠等。
考虑到化身模型和化身参数可基于2D或3D选择而不同,化身动画模块304可进一步基于2D/3D选择结果来检索化身模型并使其形成动画,其可以是经由分组从通信设备101发送的。
同步和再现模块35可再现已解码音频数据和动画化身模型,同时使它们与同步信息同步。例如,如果同步信息是插入音频位流和化身数据位流中的时间戳,则同步和再现模块305可在两个时间戳之间再现从音频位流解码的数字音频数据的一部分,同时在相同的两个时间戳之间再现从化身数据位流形成动画的化身模型。
应理解的是被插入音频位流中的时间戳可不同于被插入化身位流中的时间戳。在该情况下,同步信息还可包括使音频位流中的时间戳与音频位流中的时间戳相关的相关信息,其可被同步和再现模块305用于同步。
音频播放器306和视频显示器307可播放再现的音频和化身视频,使得通信设备102的用户可从通信设备101的用户接收消息。
图4示出用于生成将与通信设备102共享的分组的通信设备101的方法的实施例,所述分组包含视频和音频信息。在框401中,音频记录模块201可记录音频片,并且在框402中,视频捕捉模块202可捕捉视频片。例如,通信设备101的记录仪和照相机101可在通信设备101的用户说话时记录音频并捕捉视频。
在框403中,音频编码模块203可在各种音频编码方案下将音频片编码成一个或多个音频位流,诸如MPEG、AAC、AC3等。在框404中,2D/3D选择模块205可选择用于化身动画的2D或3D。基于2D/3D选择结果,在框405中,化身数据提取模块204可从视频片提取化身数据并将化身数据转换成一个或多个化身数据位流。在实施例中,化身数据可包括化身参数,其指示出现在视频中的对象的面部表情和/或运动,对象诸如用户的头。
在框406中,同步模块206可生成用于使音频位流和化身数据位流同步的同步信息。可将该同步信息体现而不限制为时间标记(例如,时间戳)、同步符号等。在实施例中,同步模块206可基于音频编码模块203在编码之前对音频片进行采样的音频采样率以及化身数据提取模块204在提取之前对视频片进行采样的化身采样率来生成同步信息。同步模块206还可将同步信息插入音频位流和化身数据位流中。
应理解的是可将时间标记插入音频位流中且可不同于被插入化身位流中的时间标记。在该情况下,同步信息还可包括使插入音频位流中的时间标记与插入音频位流中的时间标记及相关的相关信息。
在框407中,打包模块207可将音频位流、化身数据位流和同步信息打包成一个或多个分组,诸如即时消息。在实施例中,该分组可包括其他信息,诸如对象标识符和/或2D/3D选择结果。在框408中,传输模块208可将分组传输到服务器,无论通信设备102是否被连接到服务器。在实施例中,打包模块207可将对应于对象的化身模型打包成另一分组,并将该分组单独地传输到服务器。在另一实施例中,可预先将化身模型安装在通信设备102中。化身模型可基于2D/3D选择而不同,诸如2D 化身模型或3D 化身模型。
图5图示出用于接收分组并再现视频和音频信息的通信设备102的方法的实施例。在框501中,接收模块301可将从服务器接收分组,无论通信设备101是否被连接到服务器。
在框502中,解包模块302将分组解包成音频位流、化身数据位流和同步信息。在实施例中,该解包模块302可从分组获得其他信息,诸如对象标识符和/或2D/3D选择结果。在框503中,音频解码模块303可将音频位流解码成已解码音频数据。在框504中,化身动画模块304可使用对象标识符和/或2D/3D选择结果来检索化身模型。
在框505中,化身动画模块304可通过将化身数据映射在化身模型上基于化身数据位流将化身模型形成动画以来生成动画化身模型。例如,如果化身数据包括指示出现在视频中的对象的面部表情和/或运动的化身参数,则可在化身模型上表示面部表情和/或运动。在框506中,同步和再现模块305可通过使用同步信息使已解码音频数据和动画化身模型同步并将已解码音频数据和动画化身模型再现。例如,如果同步信息是插入音频位流和化身数据位流中的时间戳,则同步和再现模块305可在两个时间戳之间再现从音频位流解码的数字音频数据的一部分,同时在相同的两个时间戳之间再现从化身数据位流形成动画的化身模型。
在框507中,音频播放器306可播放音频,并且视频显示器307可播放化身视频,使得通信设备102的用户可从通信设备101的用户接收消息。
虽然已在附图和先前的描述中详细地图示出并描述了本公开,但应认为此类图示和描述在性质上是示例性而非限制性的,应理解的是仅示出并描述了说明性实施例,并且期望保护与本公开和所记载的权利要求一致的所有改变和修改。
示例
下面提供在这里公开的设备、系统和方法的说明性示例。该设备、系统和方法的实施例可包括下面描述的示例中的任何一个或多个以及任何组合。
在示例1中,一种通信设备可包括音频编码模块,用以将音频片编码成音频位流;化身数据提取模块,用以从视频片提取化身数据并生成化身数据位流;以及同步模块,用以生成用于使音频位流与化身数据位流同步的同步信息。
在示例2中,根据示例1所述的化身数据,可包括指示出现在视频中的对象的运动和表情中的至少一个的化身参数。
在示例3中,根据示例1和2中的任一项所述的同步信息,可以是插入音频位流和化身数据位流中的时间标记。
在示例4中,根据示例1—3中的任一项所述的同步信息,可基于音频位流的采样率和化身数据位流的采样率而生成。
在示例5中,根据示例1—4中的任一项所述的通信设备,还可包括:打包模块,用以将音频位流、化身数据位流和同步信息打包成分组;以及传输模块,用以将分组传输到服务器,无论将要从服务器接收该分组的另一通信设备是否被连接。
在示例6中,根据示例1—5中的任一项所述的分组,可以是即时消息。
在示例7中,根据示例1—6中的任一项所述的分组,可包括出现在视频中的对象的标识符。
在示例8中,一种通信设备可包括音频解码模块,用以将音频位流解码成已解码音频数据;化身动画模块,用以基于化身数据位流将化身模型形成动画以生成动画化身模型;以及同步和再现模块,用以通过利用同步信息使已解码音频数据和动画化身模型同步并将它们再现。
在示例9中,根据示例8所述的同步信息,可以是插入音频位流和化身数据位流中的时间标记。
在示例10中,根据示例8—9中的任一项所述的通信设备,还可包括接收模块,用以从服务器接收分组,无论发送分组的另一通信设备是否被连接;以及解包模块,用以将分组解包成音频位流、化身数据位流和同步信息。
在示例11中,根据示例8—10中的任一项所述的化身动画模块,还可检索与出现在由另一通信设备捕捉的视频片中的对象相对应的化身模型。
在示例12中,根据示例8—11中的任一项所述的化身数据,可包括指示出现在由另一通信设备捕捉的视频片中的对象的运动和表情中的至少一个的化身参数。
在示例13中,根据示例8—12中的任一项所述的分组,还可包括用以标识出现在由另一通信设备捕捉的视频片中的对象的标识符。
在示例14中,根据示例8—13中的任一项所述的分组,可以是即时消息。
在示例15中,一种方法包括将音频片编码成音频位流;从视频片提取化身数据以生成化身数据位流;以及生成用于使音频位流与化身参数流同步的同步信息。
在示例16中,根据示例15所述的化身数据,包括指示出现在视频中的对象的运动和表情中的至少一个的化身参数。
在示例17中,根据示例15—16中的任一项的同步信息,是插入音频位流和化身数据位流中的时间标记。
在示例18中,根据示例15—17中的任一项所述的同步信息,基于音频位流的采样率和化身数据位流的采样率而生成。
在示例19中,根据示例15—18中的任一项所述的方法,还包括打包模块,用以将音频位流、化身数据位流和同步信息打包成分组;以及传输模块,用以将分组传输到服务器,无论将要从服务器接收该分组的另一通信设备是否被连接。
在示例20中,根据示例15—19中的任一项所述的分组,是即时消息。
在示例21中,根据示例15—20中的任一项所述的分组,还包括出现在视频中的对象的标识符。
在示例22中,一种方法包括将音频位流解码成已解码音频数据;基于化身数据位流将化身模型形成动画以生成动画化身模型;以及通过利用同步信息使已解码音频数据和动画化身模型同步并将它们再现。
在示例23中,根据示例22所述的同步信息,可以是插入音频位流和化身数据位流中的时间标记。
在示例24中,根据示例22—23中的任一项所述的方法,包括从服务器接收分组,无论发送分组的另一通信设备是否被连接;以及将分组解包成音频位流、化身数据位流和同步信息。
在示例25中,根据示例22—24中的任一项所述的化身动画模块,还检索与出现在由另一通信设备捕捉的视频片中的对象相对应的化身模型。
在示例26中,示例22—25中的任一项所述的化身数据,包括指示出现在由另一通信设备捕捉的视频片中的对象的运动和表情中的至少一个的化身参数。
在示例27中,根据示例22—26中的任一项所述的分组,还包括用以标识出现在由另一通信设备捕捉的视频片中的对象的标识符。
在示例28中,根据示例22—27中的任一项所述的分组,是即时消息。
在示例29中,一种机器可读介质,包括多个指令,其响应于被执行而导致通信设备执行示例15—21中的任一项所述的方法。
在示例30中,一种机器可读介质,包括多个指令,其响应于被执行而导致通信设备执行示例22—28中的任一项所述的方法。
Claims (30)
1. 一种通信设备,包括:
音频编码模块,用以将音频片编码成音频位流;
化身数据提取模块,用以从视频片提取化身数据并生成化身数据位流;以及
同步模块,用以生成用于使音频位流与化身参数流同步的同步信息。
2. 权利要求1的通信设备,其中,所述化身数据包括指示出现在视频中的对象的运动和表情中的至少一个的化身参数。
3. 权利要求1的通信设备,其中,所述同步信息是插入音频位流和化身数据位流中的时间标记。
4. 权利要求1的通信设备,其中,所述同步信息是基于音频位流的采样率和化身数据位流的采样率而生成的。
5. 权利要求1的通信设备,还包括:
打包模块,用以将音频位流、化身数据位流和同步信息打包成分组;以及
传输模块,用以将分组传输到服务器,无论将要从服务器接收该分组的另一通信设备是否被连接。
6. 权利要求5的通信设备,其中,所述分组是即时消息。
7. 权利要求5的通信设备,其中,所述分组进一步包括出现在视频中的对象的标识符。
8. 一种方法,包括:
将音频片编码成音频位流;
从视频片提取化身数据以生成化身数据位流;以及
生成用于使音频位流与化身参数流同步的同步信息。
9. 权利要求8的方法,其中,所述化身数据包括指示出现在视频中的对象的运动和表情中的至少一个的化身参数。
10. 权利要求8的方法,其中,所述同步信息是插入音频位流和化身数据位流中的时间标记。
11. 权利要求8的方法,其中,所述同步信息是基于音频位流的采样率和化身数据位流的采样率而生成的。
12. 权利要求8的方法,还包括:
打包模块,用以将音频位流、化身数据位流和同步信息打包成分组;以及
传输模块,用以将分组传输到服务器,无论将要从服务器接收该分组的另一通信设备是否被连接。
13. 权利要求12的方法,其中,所述分组是即时消息。
14. 权利要求12的方法,其中,所述分组进一步包括出现在视频中的对象的标识符。
15. 一种通信设备,包括:
音频解码模块,用以将音频位流解码成已解码音频数据;
化身动画模块,用以基于化身数据位流将化身模型形成动画以生成动画化身模型;以及
同步和再现模块,用以通过利用同步信息使已解码音频数据和动画化身模型同步并将它们再现。
16. 权利要求15的通信设备,其中,所述同步信息是插入音频位流和化身数据位流中的时间标记。
17. 权利要求15的通信设备,还包括:
接收模块,用以从服务器接收分组,无论发送分组的另一通信设备是否被连接;以及
解包模块,用以将分组解包成音频位流、化身数据位流和同步信息。
18. 权利要求15的通信设备,其中,所述化身动画模块进一步检索与出现在由另一通信设备捕捉的视频片中的对象相对应的化身模型。
19. 权利要求15的通信设备,其中,所述化身数据包括指示出现在由另一通信设备捕捉的视频片中的对象的运动和表情中的至少一个的化身参数。
20. 权利要求17的通信设备,其中,所述分组还包括用以标识出现在由另一通信设备捕捉的视频片中的对象的标识符。
21. 权利要求17的通信设备,其中,所述分组是即时消息。
22. 一种方法,包括:
将音频位流解码成已解码音频数据;
基于化身数据位流将化身模型形成动画以生成动画化身模型;以及
通过利用同步信息使已解码音频数据和动画化身模型同步并将它们再现。
23. 权利要求22的方法,其中,所述同步信息是插入音频位流和化身数据位流中的时间标记。
24. 权利要求22的方法,还包括:
从服务器接收分组,无论发送分组的另一通信设备是否被连接;以及
将分组解包成音频位流、化身数据位流和同步信息。
25. 权利要求22的方法,其中,所述化身动画模块进一步检索与出现在由另一方法捕捉的视频片中的对象相对应的化身模型。
26. 权利要求22的方法,其中,所述化身数据包括指示出现在由另一方法捕捉的视频片中的对象的运动和表情中的至少一个的化身参数。
27. 权利要求24的方法,其中,所述分组还包括用以标识出现在由另一通信设备捕捉的视频片中的对象的标识符。
28. 权利要求24的方法,其中,所述分组是即时消息。
29. 一种机器可读介质,包括多个指令,其响应于被执行而导致通信设备执行权利要求8—14中的任一项所述的方法。
30. 一种机器可读介质,包括多个指令,其响应于被执行而导致通信设备执行权利要求22—28中的任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2012/086260 WO2014089732A1 (en) | 2012-12-10 | 2012-12-10 | Method, apparatus and system of video and audio sharing among communication devices |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104756502A true CN104756502A (zh) | 2015-07-01 |
Family
ID=50933658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280076949.9A Pending CN104756502A (zh) | 2012-12-10 | 2012-12-10 | 通信设备之间的视频和音频共享的方法、设备和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10798142B2 (zh) |
CN (1) | CN104756502A (zh) |
WO (1) | WO2014089732A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299173A (zh) * | 2018-09-07 | 2019-02-01 | 平安科技(深圳)有限公司 | 数据传输方法、装置及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11438551B2 (en) * | 2020-09-15 | 2022-09-06 | At&T Intellectual Property I, L.P. | Virtual audience using low bitrate avatars and laughter detection |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1860504A (zh) * | 2003-09-30 | 2006-11-08 | 皇家飞利浦电子股份有限公司 | 用于视听内容合成的系统和方法 |
WO2007110679A2 (en) * | 2004-12-13 | 2007-10-04 | Radvision Ltd. | Systems and methods for incorporating video into voice-only call centers |
CN102663928A (zh) * | 2012-03-07 | 2012-09-12 | 天津大学 | 一种聋人学习说话的电子教学方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4109772B2 (ja) * | 1998-12-03 | 2008-07-02 | キヤノン株式会社 | データ処理方法及びその装置 |
US20040015610A1 (en) * | 2002-07-18 | 2004-01-22 | Sytex, Inc. | Methodology and components for client/server messaging system |
MX2007002632A (es) * | 2004-09-03 | 2007-07-05 | Parker Tsuhako | Metodo y aparato de producci??n de espacio de sonido fantasma de tres dimensiones con sonido grabado. |
US7580211B2 (en) * | 2004-11-02 | 2009-08-25 | Mediatek, Inc. | DVD recording |
US8421805B2 (en) * | 2006-02-09 | 2013-04-16 | Dialogic Corporation | Smooth morphing between personal video calling avatars |
KR101517001B1 (ko) * | 2008-12-09 | 2015-04-30 | 삼성전자주식회사 | 입력 장치 및 방법 |
-
2012
- 2012-12-10 WO PCT/CN2012/086260 patent/WO2014089732A1/en active Application Filing
- 2012-12-10 CN CN201280076949.9A patent/CN104756502A/zh active Pending
- 2012-12-10 US US14/128,996 patent/US10798142B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1860504A (zh) * | 2003-09-30 | 2006-11-08 | 皇家飞利浦电子股份有限公司 | 用于视听内容合成的系统和方法 |
WO2007110679A2 (en) * | 2004-12-13 | 2007-10-04 | Radvision Ltd. | Systems and methods for incorporating video into voice-only call centers |
WO2007110679A3 (en) * | 2004-12-13 | 2009-04-09 | Radvision Ltd | Systems and methods for incorporating video into voice-only call centers |
CN102663928A (zh) * | 2012-03-07 | 2012-09-12 | 天津大学 | 一种聋人学习说话的电子教学方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299173A (zh) * | 2018-09-07 | 2019-02-01 | 平安科技(深圳)有限公司 | 数据传输方法、装置及存储介质 |
CN109299173B (zh) * | 2018-09-07 | 2023-09-26 | 平安科技(深圳)有限公司 | 数据传输方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10798142B2 (en) | 2020-10-06 |
WO2014089732A1 (en) | 2014-06-19 |
US20150281309A1 (en) | 2015-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109348252B (zh) | 视频播放方法、视频传输方法、装置、设备及存储介质 | |
CN106131550B (zh) | 播放多媒体文件的方法及装置 | |
CN107645491A (zh) | 媒体流传输设备和媒体服务设备 | |
CN104918105B (zh) | 媒体文件的多屏播放方法、设备及系统 | |
CN104796448A (zh) | 网络系统的数据处理方法和装置 | |
CN108200447A (zh) | 直播数据传输方法、装置、电子设备、服务器及存储介质 | |
JP2009017535A (ja) | マルチメディア信号の符号化 | |
WO2005059694A2 (en) | Method and apparatus for buffering streaming media | |
KR20090053723A (ko) | 미디어 스트림에 데이터를 임베딩하는 방법 및 장치 | |
CN104602105A (zh) | 视频文件的播放方法及用户设备 | |
WO2007034829A1 (ja) | 映像作成装置および映像作成方法 | |
CN110166723A (zh) | 一种录屏中的音视频同步方法、电子设备、存储介质 | |
CN116210221A (zh) | Mpeg和gltf媒体的时间对齐 | |
CN110996160A (zh) | 视频处理方法、装置、电子设备及计算机可读取存储介质 | |
US20120284426A1 (en) | Method and system for playing a datapod that consists of synchronized, associated media and data | |
CN102819851A (zh) | 一种有声图片的计算机实现方法 | |
WO2021209044A1 (zh) | 多媒体数据收发方法、系统、处理器和播放器 | |
CN104756502A (zh) | 通信设备之间的视频和音频共享的方法、设备和系统 | |
WO2024098836A1 (zh) | 视频对齐方法及装置 | |
CN109874024A (zh) | 一种基于动态视频海报的弹幕处理方法、系统及存储介质 | |
WO2018094871A1 (zh) | 体感控制数据的生成、输出控制方法及装置 | |
CN101257500A (zh) | 媒体数据处理方法、装置及系统 | |
WO2022242268A1 (zh) | 信息处理方法和装置 | |
US20160255358A1 (en) | Method of Combining Image Files and Other Files | |
CN110636368B (zh) | 媒体播放方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150701 |
|
RJ01 | Rejection of invention patent application after publication |