CN103607556B - 视频会议系统及其实现方法 - Google Patents

视频会议系统及其实现方法 Download PDF

Info

Publication number
CN103607556B
CN103607556B CN201310603760.7A CN201310603760A CN103607556B CN 103607556 B CN103607556 B CN 103607556B CN 201310603760 A CN201310603760 A CN 201310603760A CN 103607556 B CN103607556 B CN 103607556B
Authority
CN
China
Prior art keywords
image
speech data
movement locus
gesture motion
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310603760.7A
Other languages
English (en)
Other versions
CN103607556A (zh
Inventor
方文腾
谭小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vtron Group Co Ltd
Original Assignee
Vtron Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vtron Technologies Ltd filed Critical Vtron Technologies Ltd
Priority to CN201310603760.7A priority Critical patent/CN103607556B/zh
Publication of CN103607556A publication Critical patent/CN103607556A/zh
Application granted granted Critical
Publication of CN103607556B publication Critical patent/CN103607556B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种视频会议系统及其实现方法,所述方法包括以下步骤:获取视频会议中预定的语音信息,对所述语音信息进行分析;根据所述语音信息的分析结果,对语音信息进行筛选,并获取包含预定词汇的语音数据;获取视频会议中预定的手势动作情况,对所述手势动作情况进行分析;根据手势动作情况的分析结果获取所述手势动作的运动轨迹;根据所述语音数据和/或运动轨迹获取相应的图像,并将图像嵌入至视频会议的视频流中。本发明的视频会议系统及其实现方法使得视频会议中预定的部分内容可通过图像可视化显示,从而有效提高了视频会议的质量。

Description

视频会议系统及其实现方法
技术领域
本发明涉及视频会议领域,特别是涉及一种视频会议系统的实现方法及一种视频会议系统。
背景技术
视频会议中最主要的信息传递方式是通过与会人员的语音交流来进行,对于摄像头只是用于展示出人的动作和表情。当发言人需要让其他与会人员了解到自己所描述的某个具体的物体时,通常会局限于语言和动作的表现能力,不少时候与会人员不明白发言人描述的物体。因此在视频会议的时候发言人往往需要通过更多的发言和手势来帮助与会人员了解描述的物体。
但是通常由于发言人的动作和发言始终是对物体的间接描述,描述的过程中不可避免会存在一定的差异和信息的丢失,从而导致视频会议的质量较低。
发明内容
针对上述视频会议的质量较低的问题,本发明提供一种视频会议系统及其实现方法。
一种视频会议系统的实现方法,包括以下步骤:
获取视频会议中预定的语音信息,对所述语音信息进行分析;
根据所述语音信息的分析结果对语音信息进行筛选,并获取包含预定词汇的语音数据;
获取视频会议中预定的手势动作情况,对所述手势动作情况进行分析;
根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹;
根据所述语音数据和/或运动轨迹获取相应的图像,并将该图像嵌入到视频会议的视频流中。
一种视频会议系统,包括:
语音信息分析模块,用于获取视频会议中预定的语音信息,对所述语音信 息进行分析;
语音数据获取模块,根据所述语音信息的分析结果对语音信息进行筛选,并获取包含预定词汇的语音数据;
手势动作情况分析模块,用于获取视频会议中预定的手势动作情况,对所述手势动作情况进行分析;
运动轨迹获取模块,用于根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹;
图像嵌入模块,用于根据所述语音数据和/或运动轨迹获取相应的图像,并将该图像嵌入到视频会议的视频流中。
由以上方案可以看出,本发明的视频会议系统及其实现方法,通过视频会议中预定的语音数据和/或手势运动轨迹获取相应的图像,将该图像嵌入至视频会议的视频流中相应的位置,使得视频会议中预定的部分内容可通过图像可视化显示,从而有效提高了视频会议的质量。
附图说明
图1为本发明实施例中的一种视频会议系统的实现方法的流程示意图;
图2为本发明实施例中的步骤S103的流程示意图;
图3为本发明实施例中的步骤S105的流程示意图;
图4为本发明实施例中的一种视频会议系统结构示意图;
图5为本发明实施例中的一种手势动作情况分析模块结构示意图;
图6为本发明实施例中的一种图像嵌入模块结构示意图。
具体实施方式
下面结合附图以及具体的实施例,对本发明的技术方案作进一步的描述。
本实施例中以在视频会议中讨论鼠标造型设计为例。
如图1所示,一种视频会议系统的实现方法,包括以下步骤:
步骤S101,获取视频会议中预定的语音信息,对所述语音信息进行分析。
获取视频会议中发言人在发言时的语音信息,利用语音识别技术将语音信 息进行识别,根据识别后的语音信息进行分析。例如,当视频会议的发言人在讨论鼠标造型设计的时候,提及到某个公司的鼠标产品,希望能该公司的鼠标产品作为造型设计,这时候发言人只要说出:“例如XX公司的鼠标,该鼠标的侧面是这样的,......”,则获取该发言人所将的内容,并根据发言人所述的内容进行分析,分析结果可包括:XX公司、鼠标、鼠标侧面、这样的、......。
步骤S102,根据所述语音信息的分析结果,对语音信息进行筛选,并获取包含预定词汇的语音数据。例如对上述的分析结果进行筛选,并获取包含有XX公司、鼠标、鼠标侧面等关键词汇的语音数据。
步骤S103,获取视频会议中预定的手势动作情况,对所述手势动作情况进行分析。
作为一个较好的实施例,如图2所示,步骤S103可以包括以下步骤:
步骤S1031,获取视频会议中发言人在比划过程中的手势动作情况后,将包括手势动作情况的视频流解析成若干帧的图像;例如,当视频会议中的发言人在说出:“例如XX公司的鼠标,侧面是这样的......”同时,并在特定的时间内通过手势比划出下鼠标形状、鼠标侧面的形状等手势动作情况(例如在说到“XX公司的鼠标”时比划处鼠标的形状;或者在说到“侧面是这样的”时比划鼠标侧面的形状或者侧面具有的图案)。
步骤S1032,根据视频的帧率给各帧图像打上时间标签;
步骤S1033,根据所述时间标签对所述各帧图像进行分片,对各时间分片的图像进行分析;
步骤S1034,根据所述分析结果获取各时间片内的手势动作信息,该手势的动作信息可包括在各时间片内的运动轨迹等信息。
步骤S104,根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹;可根据分析结果中各时间片内的运动轨迹得到发言人在某段时间内所比划的图案。
步骤S105,根据所述语音数据和/或运动轨迹获取相应的图像,并将该图像视频会议的视频流中。该图案可为发言人在某段时间内比划时运动轨迹和/或语音数据相对应的图案,例如所述图案可为发言人在说到“侧面是这样的”,并同 时通过比划出鼠标侧面的形状或者侧面具有的图案、与发言人的语音信息汇总包含有“XX公司的鼠标”关键词的语音数据想对应的图案。图案嵌入的位置可以由手势的位置决定,嵌入的时间则可以根据手势当前对应的时间标签确定。
作为一个较好的实施例,如图3所示,所述步骤S105可以包括以下步骤:
步骤S1051,对视频会议中发言人在发言过程中包括的所述语音数据及运动轨迹进行分析。
本实施例中分析完成后的分析结果可包括语音数据及运动轨迹所描述的图案的形状、类别等信息。此步骤中利用语音和手势运动轨迹相结合的方式可以进行互补,通过手势运动轨迹描绘出发言人想要表示的图像的大致轮廓,然后根据语音信息中的包含关键词汇的语音数据不断去修正该大致轮廓。因此同时对语音数据及运动轨迹进行分析可进一步提高发言人在发言过程中所描绘的图像的准确性。
步骤S1052,根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像。可采用历史优化分析时系统先去查询数据库中的数据,判断数据库中是否存在与关键词匹配的语音数据,即数据库中是否存在与关键词具有一定匹配率图像。该判断过程可根据系统的配置来确定。
步骤S1053,若步骤S1052判断的结果为否,即数据库中不存在与该语音数据及运动轨迹相匹配的图像,则可以根据所述手势的运动轨迹生成与手势的运动轨迹匹配的图像。在说明数据库中的图像均匀当前的语音数据及运动轨迹相似率达不到相应的要求,则重新对手势和语音内容集进行一个分析,生成与手势的运动轨迹一致的图像,根据图像的时间标签将图像嵌入之视频会议的视频流中,并将新生成的图像保存至数据库内。如果任务发言人已经准备开始描述另外一个话题,则将目前的分析语音数据和手势动作信息保存至数据库中,再进行下一轮图像显示过程。
作为一个较好的实施例,还可以包括步骤S1054:若步骤S1052判断的结果为是,即说明数据库中存在与该语音数据及运动轨迹相匹配的图像,则说明当前的语音数据及运动轨迹是已经曾经处理过,则可以直接从数据库中获取所述图像,另外还可在发言人比划的图像填充上去。根据图像的时间标签将图像视 频流中。
作为一个较好的实施例,本发明在步骤S103之后、步骤S105之前,还可以包括以下步骤:
将所述包含预定词汇的语音数据打上时间标签;
根据所述语音数据的时间标签及各帧图像的时间标签将语音数据与手势动作进行同步。使得由于图像与声音同步的,最后将同步过的视频发送到显示设备进行显示,而音频发送到语音输出设备进行播放。
与实施例中的一种视频会议系统的实现方法相对应,本发明还提供一种视频会议系统,如图4所示,包括:
语音信息分析模块101,用于获取视频会议中预定的语音信息,对所述语音信息进行分析;
语音数据获取模块102,用于根据所述语音信息的分析结果获取包含预定词汇的语音数据;
手势动作情况分析模块103,用于获取视频会议中预定的手势动作情况,对所述手势动作情况进行分析;
运动轨迹获取模块104,用于根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹;
图像嵌入模块105,用于根据所述语音数据和/或运动轨迹获取相应的图像,并将该图像嵌入视频会议的视频流中。
作为一个较好的实施例,如图5所示,所述手势动作情况分析模块103可以包括:
视频流解析模块1031,用于获取视频会议中预定的手势动作情况后,将手势动作情况的视频流解析成若干帧的图像;
图像标记时间标签模块1032,用于根据视频的帧率给各帧图像打上时间标签;
图像分析模块1033,用于根据所述时间标签对所述各帧图像进行分片,对各时间分片的图像进行分析;
手势动作轨迹获取模块1034,根据所述分析结果获取各时间片内的手势动作轨迹。
作为一个较好的实施例,所述视频会议系统还可以包括:
筛选模块,用于对语音数据获取模块中获取的包含各词汇的语音数据根进行筛选,获取包含预定词汇的语音数据;
语音数据标记时间标签模块,用于将所述包含预定词汇的语音数据打上时间标签;
同步模块,用于根据所述语音数据的时间标签及各帧图像的时间标签将语音数据与手势动作进行同步。
作为一个较好的实施例,如图6所示,所述图像嵌入模块105可以包括:
语音数据及运动轨迹分析模块1051,用于对所述语音数据及运动轨迹进行分析;
判断模块1052,用于根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像;
图像生成模块1053,用于在所述判断模块的判断结果为否的情况下,根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。
作为一个较好的实施例,所述图像嵌入模块还可以包括:
图像获取模块,用于在所述判断模块的判断结果为是的情况下,从数据库中获取所述图像。
本实施例中一种视频会议系统的其它技术特征与实施例中的一种视频会议系统的实现方法相同,此处不予赘述。
需要说明的是,除非上下文另有特定清楚的描述,本发明中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
通过上述实施例的方案可以看出,本发明的视频会议系统及其实现方法,通过视频会议中预定的语音数据和/或手势运动轨迹获取相应的图像,将该图像嵌入至视频会议的视频流中相应的位置,使得视频会议中预定的部分内容可通过图像可视化显示,从而有效提高了视频会议的质量。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种视频会议系统的实现方法,其特征在于,包括以下步骤:
获取视频会议中预定的语音信息,对所述语音信息进行分析;
根据所述语音信息的分析结果对语音信息进行筛选,并获取包含预定词汇的语音数据;
获取视频会议中预定的手势动作情况,对所述手势动作情况进行分析;
根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹;
根据所述语音数据和/或运动轨迹获取相应的图像,并将该图像嵌入到视频会议的视频流中;该图像为所述视频会议中发言人在某段时间内语音数据和/或手势比划时运动轨迹相对应的图案;
根据所述语音数据和/或运动轨迹获取相应的图像,包括:
根据手势比划时运动轨迹得到相应的图像轮廓,根据所述语音数据修正所述图像轮廓。
2.根据权利要求1所述的视频会议系统的实现方法,其特征在于,所述获取视频会议中预定的手势动作情况、对所述手势动作情况进行分析的过程包括以下步骤:
获取视频会议中预定的手势动作情况后,将手势动作情况的视频流解析成若干帧的图像;
根据视频的帧率给各帧图像打上时间标签;
根据所述时间标签对所述各帧图像进行分片,对各时间分片的图像进行分析;
根据所述对各时间分片的图像进行分析的分析结果获取各时间片内的手势动作信息。
3.根据权利要求2所述的视频会议系统的实现方法,其特征在于,在所述获取包含预定词汇的语音数据的过程之后、根据所述语音数据和/或运动轨迹获取相应的图像之前,还包括以下步骤:
将所述包含预定词汇的语音数据打上时间标签;
根据所述语音数据的时间标签及各帧图像的时间标签将语音数据与手势动作进行同步。
4.根据权利要求1所述的视频会议系统的实现方法,其特征在于,根据所述语音数据和/或运动轨迹获取相应的图像的过程包括以下步骤:
对所述语音数据及运动轨迹进行分析;
根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像;
若否,则根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。
5.根据权利要求4所述的视频会议系统的实现方法,其特征在于,还包括步骤:
当数据库中存在与所述语音数据以及运动轨迹相匹配的图像时,则从数据库中获取所述图像。
6.一种视频会议系统,其特征在于,包括:
语音信息分析模块,用于获取视频会议中预定的语音信息,对所述语音信息进行分析;
语音数据获取模块,根据所述语音信息的分析结果对语音信息进行筛选,并获取包含预定词汇的语音数据;
手势动作情况分析模块,用于获取视频会议中预定的手势动作情况,对所述手势动作情况进行分析;
运动轨迹获取模块,用于根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹;
图像嵌入模块,用于根据所述语音数据和/或运动轨迹获取相应的图像,并将该图像嵌入到视频会议的视频流中;该图像为所述视频会议中发言人在某段时间内语音数据和/或手势比划时运动轨迹相对应的图案;
根据所述语音数据和/或运动轨迹获取相应的图像,包括:
根据手势比划时运动轨迹得到相应的图像轮廓,根据所述语音数据修正所述图像轮廓。
7.根据权利要求6所述的视频会议系统,其特征在于,所述手势动作情况分析模块包括:
视频流解析模块,用于获取视频会议中预定的手势动作情况后,将手势动作情况的视频流解析成若干帧的图像;
图像标记时间标签模块,用于根据视频的帧率给各帧图像打上时间标签;
图像分析模块,用于根据所述时间标签对所述各帧图像进行分片,对各时间分片的图像进行分析;
手势动作信息获取模块,根据所述对各时间分片的图像进行分析的分析结果获取各时间片内的手势动作信息。
8.根据权利要求7所述的视频会议系统,其特征在于,该视频会议系统还包括:
语音数据标记时间标签模块,用于将所述包含预定词汇的语音数据打上时间标签;
同步模块,用于根据所述语音数据的时间标签及各帧图像的时间标签将语音数据与手势动作进行同步。
9.根据权利要求6所述的视频会议系统,其特征在于,所述图像嵌入模块包括:
语音数据及运动轨迹分析模块,用于对所述语音数据及运动轨迹进行分析;
判断模块,用于根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像;
图像生成模块,用于在所述判断模块的判断结果为否的情况下,根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。
10.根据权利要求9所述的视频会议系统,其特征在于,所述图像嵌入模块还包括:
图像获取模块,用于在所述判断模块的判断结果为是的情况下,从数据库中获取所述图像。
CN201310603760.7A 2013-11-25 2013-11-25 视频会议系统及其实现方法 Expired - Fee Related CN103607556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310603760.7A CN103607556B (zh) 2013-11-25 2013-11-25 视频会议系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310603760.7A CN103607556B (zh) 2013-11-25 2013-11-25 视频会议系统及其实现方法

Publications (2)

Publication Number Publication Date
CN103607556A CN103607556A (zh) 2014-02-26
CN103607556B true CN103607556B (zh) 2017-06-13

Family

ID=50125755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310603760.7A Expired - Fee Related CN103607556B (zh) 2013-11-25 2013-11-25 视频会议系统及其实现方法

Country Status (1)

Country Link
CN (1) CN103607556B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110505405A (zh) * 2019-08-22 2019-11-26 上海乂学教育科技有限公司 基于体感技术的视频拍摄系统及方法
CN110611788A (zh) * 2019-09-26 2019-12-24 上海赛连信息科技有限公司 手势控制视频会议终端的方法和装置
CN113676691A (zh) * 2020-05-15 2021-11-19 上海熔光信息科技有限公司 一种智能视频会议系统及方法
CN111783892B (zh) * 2020-07-06 2021-10-01 广东工业大学 一种机器人指令识别方法、装置及电子设备和存储介质
CN116210217A (zh) * 2020-07-16 2023-06-02 华为技术有限公司 用于视频会议的方法和装置
CN111770301B (zh) * 2020-07-16 2021-12-10 北京百家视联科技有限公司 一种视频会议数据的处理方法及装置
CN113610003B (zh) * 2021-08-09 2023-11-10 浙江大学 一种拍类运动增强视频创作方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025968A (zh) * 2009-09-15 2011-04-20 柯尼卡美能达商用科技株式会社 图像发送装置和图像发送方法
CN103207861A (zh) * 2012-01-12 2013-07-17 盛乐信息技术(上海)有限公司 基于手势识别和语音识别的兴趣点查询系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005197945A (ja) * 2004-01-06 2005-07-21 Tietech Co Ltd テレビ会議システム
US8811719B2 (en) * 2011-04-29 2014-08-19 Microsoft Corporation Inferring spatial object descriptions from spatial gestures

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025968A (zh) * 2009-09-15 2011-04-20 柯尼卡美能达商用科技株式会社 图像发送装置和图像发送方法
CN103207861A (zh) * 2012-01-12 2013-07-17 盛乐信息技术(上海)有限公司 基于手势识别和语音识别的兴趣点查询系统及方法

Also Published As

Publication number Publication date
CN103607556A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN103607556B (zh) 视频会议系统及其实现方法
US8825478B2 (en) Real time generation of audio content summaries
Mostefa et al. The CHIL audiovisual corpus for lecture and meeting analysis inside smart rooms
US10108709B1 (en) Systems and methods for queryable graph representations of videos
JP2023024985A (ja) 電子会議システム
US20170084295A1 (en) Real-time speaker state analytics platform
JP5433760B2 (ja) 会議分析システム
Bousmalis et al. Modeling hidden dynamics of multimodal cues for spontaneous agreement and disagreement recognition
Imoto Introduction to acoustic event and scene analysis
US20090326947A1 (en) System and method for spoken topic or criterion recognition in digital media and contextual advertising
US11950020B2 (en) Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting
Yella et al. Overlapping speech detection using long-term conversational features for speaker diarization in meeting room conversations
JP6876379B2 (ja) 行動分析装置およびプログラム
CN102110399A (zh) 一种辅助解说的方法、装置及其系统
CN108921002A (zh) 基于多线索融合的暴恐音视频识别方法及装置
US20210271864A1 (en) Applying multi-channel communication metrics and semantic analysis to human interaction data extraction
Antunes et al. A framework to support development of sign language human-computer interaction: Building tools for effective information access and inclusion of the deaf
JP2019071089A (ja) 情報提示装置、および情報提示方法
CN113076770A (zh) 基于方言识别的人物画像智能终端
Nwe et al. Speaker clustering and cluster purification methods for RT07 and RT09 evaluation meeting data
Petridis et al. Static vs. dynamic modeling of human nonverbal behavior from multiple cues and modalities
Eyben et al. Audiovisual vocal outburst classification in noisy acoustic conditions
CN111583932A (zh) 一种基于人声模型的声音分离方法和装置以及设备
US20230260520A1 (en) Method for uniquely identifying participants in a recorded streaming teleconference
Takehara et al. The role of speech technology in service-operation estimation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Kezhu road high tech Industrial Development Zone, Guangzhou city of Guangdong Province, No. 233 510670

Patentee after: VTRON GROUP Co.,Ltd.

Address before: 510663 Guangzhou province high tech Industrial Development Zone, Guangdong, Cai road, No. 6, No.

Patentee before: VTRON TECHNOLOGIES Ltd.

CP03 Change of name, title or address
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170613

Termination date: 20211125

CF01 Termination of patent right due to non-payment of annual fee