CN104135638A - 优化的视频快照 - Google Patents
优化的视频快照 Download PDFInfo
- Publication number
- CN104135638A CN104135638A CN201410178226.0A CN201410178226A CN104135638A CN 104135638 A CN104135638 A CN 104135638A CN 201410178226 A CN201410178226 A CN 201410178226A CN 104135638 A CN104135638 A CN 104135638A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- aesthetic feeling
- image
- talker
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims description 25
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 description 7
- 230000001815 facial effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Artificial Intelligence (AREA)
Abstract
本申请涉及优化的视频快照。提供了用于从所捕获的参加会议人员的序列中产生优化的图像快照的方法、介质和设备。在有些实施例中,所述方法、介质和设备用于利用捕获的图像作为人的代表性图像从而作为视频流的代替、在离线归档系统中作为人的表示、或者在系统参与者名单中作为人的表示。
Description
技术领域
本发明的领域一般涉及用于提供视频会议参与者的可视资源的方法、介质和设备。
背景技术
视频会议系统在广泛使用,并且使得在完全不同地理位置的参与者能够进行面对面的会议而不必旅行很远的距离。当参加这种会议时,贯穿会议始终看见参与者的视频并且在会议期间任何时间能够确定谁在会议中会是有用的。
发明内容
因此,本发明的实施例可以包括一种用于呈现美感图像的方法,该方法包括:分析会议中用户的音轨以确定何时该用户是正在讲话者,当该用户是正在讲话者时,分析音轨的语音信号以识别用于该用户是正在讲话者时的美感音素,以及确定对应于该美感音素的用户的至少一个图像。
本发明的实施例还可以包括一种用于呈现美感图像的系统,该系统包括:音频分析工具,该音频分析工具被启用以分析会议的音轨来确定会议的参与者何时是正在讲话者,分析音轨的语音信号以识别正在讲话者的美感音素,以及确定对应于美感音素的正在讲话者的至少一个图像。
附图说明
图1示出了用于提供视频会议参与者的可视资源的系统。
图2示出了用于提供视频会议参与者的可视资源的方法的流程图。
具体实施方式
提供了用于提供视频会议参与者的可视资源的方法、介质和设备。可以从所捕获的参加会议人员的序列中产生优化的图像快照。应当理解,优化的图像可以是视频帧,其中捕获的对象—诸如某个人或某些人的—在帧中是完全可见的。完全可见的捕获可以是其中没有裁减的捕获,或者没有被遮住的捕获。对本文感兴趣的人员应当理解,也许不能得到完美的捕获,但是可以获得较优选的捕获。
可以利用高效率、低复杂度音频分析工具来捕获音轨。基于已知某人何时在讲话,可以把从此人的视频序列中提取图像作为目标。本发明利用了正在讲话者的偏好,其中正在讲话者在进行会议并且意识到注意力集中在他们身上,也许想要通过看照相机并使他们位于照相机前面以便不被遮住来优化他们的外表。
也可以分析音素来获得优选的捕获。为了识别美感的面部表情,可以利用音轨。本发明的系统可以识别其中正在讲话的人的嘴唇和面部处于美观方式的音素。应当理解,音素分析会比图像分析方法学有较小的计算复杂度。
捕获的图像可以与特定的参与者相关联,该图像是为该特定的参与者拍摄的。存在许多可以利用所捕获的图像的用途。捕获的图像可以作为会议参与者的代表性图像替换视频流。在参与者已经静音他的视频或者在特定时间网络条件不提供最佳视频质量时,会是这样。捕获的图像可以作为离线归档系统中会议参与者的代表性图像。捕获的图像可以在用于那些归档的其中参与者过去正在讲话时的会议片段中识别讲话者。捕获的图像可以作为系统参与者名单中会议参与者的表示。捕获的图像可以作为用于会在会议期间发生的不同事件的可视队列。这些事件的例子是:当参与者开始介绍时,或者当参与者发送聊天消息时,或“把他们的手举起”等。应当理解,以上是捕获图像的用途的例子,本领域技术人员可以在许多其它的情形下使用这种捕获的图像。
启用本发明的系统来接收一组同步的音频流和视频流。该系统将提取会议参与者的美感视频快照或图像。特定用户的音频流和视频流可以通过系统—诸如通过一组同步捕获时钟—进行时间标记。
该系统分析会议参与者的音轨。当参与者是正在讲话者时,系统将分析语音信号并且通过音素把音频分段。应当理解,这种分析可以通过VAD(语音活动检测)算法执行。
在本发明的实施例中,系统可以把音素分类成多个不同的集合。第一集合可以是与美感上愉快的面部表情相关联的音素。这些音素通常被称为“美感音素”。可以把其它音素归类成一个或多个其它集合。当分析音素时,系统会选择正好在该音素之前或之后的时间段,比如静寂时间段。当分析音素时,系统可以通过特定音素的子元素进行分类。其可以是诸如辅音或者元音。系统可以通过音素集合或序列进行分类。系统还可以通过备选的音频参数细化图像选择。这些备选的音频参数可以是例如可通过使用多个麦克风指示的音频方向估计。音频水平、背景噪声估计、串扰检测、或其它音频参数可以用于细化。
图1示出了用于提供视频会议参与者的可视资源的系统。系统100可以包括多会议单元(MCU)102、端点104、数据库106、内部服务器108、外部服务器110、以及连接112,114,116和118。MCU102可以包括语音分析工具120。语音分析工具可以是所讨论的VAD,或者是被本领域技术人员理解的其它语音分析工具。尽管语音分析工具120在MCU102中示出,但是应当理解,语音分析工具可以在系统100中的其它地方。例如,语音分析工具及本发明的算法会尤其适合在端点或者用户的通信客户端执行其功能。语音分析工具120在图1的MCU中示出是为了方便起见,它并不是要限制算法可以执行的地方。而且,应当理解,算法或语音分析工具可以分析所记录的序列以提取讲话者的代表性图像,其中所记录的序列是会议的一部分。
图2是提供视频会议参与者的可视资源的方法的流程图。在过程200中,在步骤210,系统将监视会议。下一步220,确定特定的讲话者是否正在讲话。如果特定的参与者没有正在讲话,那么方法200将循环回到步骤210。如果特定的讲话者正在讲话,那么在步骤230对用于该讲话者的音频进行分析。如上所述,应当理解,音频部分和视频部分是同步的。如上所述,音频分析230包括把参与讲话者的音素进行分类。在步骤240,捕获正在讲话者的图像。利用分类的音素来捕获美感图像的同步视频图像。在步骤250,对于识别为“美感音素”的每个音频片段,系统会分析与经过同步的视频帧对应的时间,并且识别最佳的图像帧。可以通过以下参数中的一个或多个来确定最佳的图像。
1.捕获的面部是完整的吗?这可以通过面部检测和分析算法确定。
2.面部图像是正面的吗?这可以通过面部检测和分析算法确定。
3.面部是遮住的吗?
4.面部是正确地组成的吗?
5.帧是以高质量曝光的吗?换句话说,面部是在足够曝光条件下聚焦的吗或者场景和面部的光照水平合适吗?
6.在背景场景中有太多运动吗?
应当理解,只要视频和音频是同步的,那么选择最佳快照的过程就独立于视频图像的捕获。
在步骤250,确定最佳图像的过程可以通过高计算密集型算法来执行。尽管使用音频和音素减少了实时分析的计算强度,但是这些可以用于步骤250的高计算强度型算法并不需要实时运行。
在图2的步骤260,系统将输出美感上最佳的图像。该美感上最佳的快照可以用于任何意图,包括那些在本说明书中所描述的。
给出本发明的以上描述是为了说明和描述。它不是要详尽的或者要把本发明限制到所公开的精确形式,而是在以上技术教导的启发下,其它修改和变化也是可能的。所述实施方式的选择和描述是为了最好地解释本发明的原理及其实践应用,从而使本领域其他技术人员在各种实施例中能够最好地利用本发明并且进行适合预期特定使用的各种修改。所附权利要求应当被认为是包括除由现有技术所限制的范围之外本发明的其它备选实施例。
Claims (10)
1.一种用于呈现美感图像的方法,所述方法包括:
分析会议中用户的音轨以确定所述用户何时是正在讲话者;
当所述用户是正在讲话者时,分析音轨的语音信号以识别用于用户是正在讲话者时的美感音素;以及
确定对应于所述美感音素的用户的至少一个图像。
2.如权利要求1所述的方法,所述方法还包括在音频分析工具处接收一组同步的音频流和视频流。
3.如权利要求2所述的方法,其中所述分析音轨的语音信号的步骤包括把语音信号的音素分类成至少两个音素集合。
4.如权利要求3所述的方法,其中所述至少两个音素集合中的一个是美感音素。
5.如权利要求2所述的方法,所述方法还包括利用音轨的音频参数细化所述确定的美感图像。
6.一种用于呈现美感图像的系统,所述系统包括:
音频分析工具,所述音频分析工具被启用以分析会议的音轨来确定会议的参与者何时是正在讲话者,分析音轨的语音信号以识别所述正在讲话者的美感音素,以及确定对应于所述美感音素的所述正在讲话者的至少一个图像。
7.如权利要求6所述的系统,其中所述工具还被启用以接收一组同步的音频流和视频流。
8.如权利要求7所述的系统,其中所述语音信号的分析包括把语音信号的音素分类成至少两个音素集合。
9.如权利要求8所述的系统,其中所述至少两个音素集合中的一个是美感音素。
10.如权利要求7所述的系统,其中所述工具还被启用以利用音轨的音频参数来细化所述美感图像的确定。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/875,390 | 2013-05-02 | ||
US13/875,390 US9609272B2 (en) | 2013-05-02 | 2013-05-02 | Optimized video snapshot |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104135638A true CN104135638A (zh) | 2014-11-05 |
CN104135638B CN104135638B (zh) | 2017-12-19 |
Family
ID=51808150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410178226.0A Expired - Fee Related CN104135638B (zh) | 2013-05-02 | 2014-04-30 | 优化的视频快照 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9609272B2 (zh) |
CN (1) | CN104135638B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111147444A (zh) * | 2019-11-20 | 2020-05-12 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105103182A (zh) * | 2012-12-12 | 2015-11-25 | 促进学院有限公司 | 用于交互式实时的基于平板的教学的系统和方法 |
US9509741B2 (en) * | 2015-04-10 | 2016-11-29 | Microsoft Technology Licensing, Llc | Snapshot capture for a communication session |
US10169917B2 (en) | 2015-08-20 | 2019-01-01 | Microsoft Technology Licensing, Llc | Augmented reality |
US10235808B2 (en) * | 2015-08-20 | 2019-03-19 | Microsoft Technology Licensing, Llc | Communication system |
US11937016B2 (en) | 2021-05-26 | 2024-03-19 | International Business Machines Corporation | System and method for real-time, event-driven video conference analytics |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5878396A (en) * | 1993-01-21 | 1999-03-02 | Apple Computer, Inc. | Method and apparatus for synthetic speech in facial animation |
CN1527602A (zh) * | 2003-01-31 | 2004-09-08 | 株式会社Ntt都科摩 | 面部信息传输系统 |
US20060248210A1 (en) * | 2005-05-02 | 2006-11-02 | Lifesize Communications, Inc. | Controlling video display mode in a video conferencing system |
CN101715102A (zh) * | 2008-10-02 | 2010-05-26 | 宝利通公司 | 在点对点和多点音频/视频会议期间显示动态呼叫者身份 |
CN102568023A (zh) * | 2010-11-19 | 2012-07-11 | 微软公司 | 用于富于表情的化身的实时动画 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US8212856B2 (en) | 2007-05-15 | 2012-07-03 | Radvision Ltd. | Methods, media, and devices for providing visual resources of video conference participants |
US9113035B2 (en) * | 2013-03-05 | 2015-08-18 | International Business Machines Corporation | Guiding a desired outcome for an electronically hosted conference |
-
2013
- 2013-05-02 US US13/875,390 patent/US9609272B2/en active Active
-
2014
- 2014-04-30 CN CN201410178226.0A patent/CN104135638B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5878396A (en) * | 1993-01-21 | 1999-03-02 | Apple Computer, Inc. | Method and apparatus for synthetic speech in facial animation |
CN1527602A (zh) * | 2003-01-31 | 2004-09-08 | 株式会社Ntt都科摩 | 面部信息传输系统 |
US20060248210A1 (en) * | 2005-05-02 | 2006-11-02 | Lifesize Communications, Inc. | Controlling video display mode in a video conferencing system |
CN101715102A (zh) * | 2008-10-02 | 2010-05-26 | 宝利通公司 | 在点对点和多点音频/视频会议期间显示动态呼叫者身份 |
CN102568023A (zh) * | 2010-11-19 | 2012-07-11 | 微软公司 | 用于富于表情的化身的实时动画 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111147444A (zh) * | 2019-11-20 | 2020-05-12 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
CN111147444B (zh) * | 2019-11-20 | 2021-08-06 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104135638B (zh) | 2017-12-19 |
US20140327730A1 (en) | 2014-11-06 |
US9609272B2 (en) | 2017-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104135638A (zh) | 优化的视频快照 | |
Jayagopi et al. | Modeling dominance in group conversations using nonverbal activity cues | |
KR101532705B1 (ko) | 전자적 대화 분석 방법 및 분석 시스템 | |
Hung et al. | The idiap wolf corpus: exploring group behaviour in a competitive role-playing game | |
CN108366216A (zh) | 会议视频录制、记录及传播方法、装置及服务器 | |
US20150189233A1 (en) | Facilitating user interaction in a video conference | |
Vinciarelli | Speakers role recognition in multiparty audio recordings using social network analysis and duration distribution modeling | |
CN114097027A (zh) | 讲话者归属的记录稿生成 | |
TW201327449A (zh) | 用以將虛擬的社交網路帶入至真實生活中之社交系統及方法 | |
CN110853646A (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
Sun et al. | Towards visual and vocal mimicry recognition in human-human interactions | |
Cristani et al. | Look at who’s talking: Voice activity detection by automated gesture analysis | |
WO2016187910A1 (zh) | 一种语音文字的转换方法及设备、存储介质 | |
US20210174791A1 (en) | Systems and methods for processing meeting information obtained from multiple sources | |
JP2013105374A (ja) | 議事録作成支援装置、議事録作成支援システム、および、議事録作成用プログラム | |
JP2016012216A (ja) | 会議分析装置、方法及びプログラム | |
JP4077656B2 (ja) | 発言者特定映像装置 | |
WO2021135140A1 (zh) | 匹配情感极性的词语采集 | |
Huang et al. | Making virtual conversational agent aware of the addressee of users' utterances in multi-user conversation using nonverbal information | |
Otsuka | Multimodal conversation scene analysis for understanding people’s communicative behaviors in face-to-face meetings | |
JP2021076715A (ja) | 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム | |
Sarda et al. | Real-time feedback system for monitoring and facilitating discussions | |
Wu et al. | A mobile emotion recognition system based on speech signals and facial images | |
WO2023084715A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Chen et al. | Inference of conversation partners by cooperative acoustic sensing in smartphone networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171219 |
|
CF01 | Termination of patent right due to non-payment of annual fee |