CN112437247B - 视频会议方法及系统、计算机可读存储介质 - Google Patents

视频会议方法及系统、计算机可读存储介质 Download PDF

Info

Publication number
CN112437247B
CN112437247B CN202011327169.XA CN202011327169A CN112437247B CN 112437247 B CN112437247 B CN 112437247B CN 202011327169 A CN202011327169 A CN 202011327169A CN 112437247 B CN112437247 B CN 112437247B
Authority
CN
China
Prior art keywords
micro
current speaker
expression
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011327169.XA
Other languages
English (en)
Other versions
CN112437247A (zh
Inventor
李璐
冯文澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suirui Technology Group Co Ltd
Original Assignee
Suirui Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suirui Technology Group Co Ltd filed Critical Suirui Technology Group Co Ltd
Priority to CN202011327169.XA priority Critical patent/CN112437247B/zh
Publication of CN112437247A publication Critical patent/CN112437247A/zh
Application granted granted Critical
Publication of CN112437247B publication Critical patent/CN112437247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种视频会议方法及系统、计算机可读存储介质,其中,视频会议方法包括:检测当前发言人;实时获取当前发言人的人脸信息;判断当前发言人是否出现了微表情特征;当检测到当前发言人出现了微表情特征,则发出第一报警信息;检测到第一报警信息后,锁定当前发言人在出现微表情特征时的同步音视频数据;截取所述同步音视频数据中的带有时间戳信息的语音数据,将所述语音数据转化为文字内容;将所述当前发言人的微表情特征所对应的情绪信息以及所述文字内容反馈给与会客户端。本发明的视频会议方法及系统、计算机可读存储介质能够自动获取与会人员的面部微表情特征,在网络不佳视频不够清晰的情况下,能够明显提升视频会议效率。

Description

视频会议方法及系统、计算机可读存储介质
技术领域
本发明是关于视频通信技术领域,特别是关于一种视频会议方法及系统、计算机可读存储介质。
背景技术
目前视频会议应用越来越普遍。发明人在实现本发明的过程中发现:在视频会议中,因为不能面对面开会,还是会存在沟通距离感,且视频通信过程中由于网络或视频的清晰程度或是屏幕大小不能让与会人很清晰地看到发言人或其它与会人的面部表情,无法像现场会议一样,能看到大家的真实会议状态以及反应,由此,视频会议效率会受到一定影响。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种视频会议方法及系统、计算机可读存储介质,其能够自动获取与会人员的面部微表情特征,特别是在网络不佳视频不够清晰的情况下,能够明显提升视频会议效率以及用户体验感受。
为实现上述目的,本发明提供了一种视频会议方法,其包括:在视频会议过程中,通过语音识别技术检测当前发言人;实时获取所述当前发言人的人脸信息;根据所述当前发言人的人脸的一个或多个区域的像素变化情况来判断所述当前发言人是否出现了微表情特征;当检测到所述当前发言人出现了微表情特征,则发出第一报警信息;检测到所述第一报警信息后,通过系统实时存储的音视频数据以及时间戳信息来自动锁定所述当前发言人在出现微表情特征时的同步音视频数据;截取所述同步音视频数据中的带有时间戳信息的语音数据,将所述语音数据转化为文字内容;将所述当前发言人的微表情特征所对应的情绪信息以及所述文字内容反馈给与会客户端。
在本发明的一实施方式中,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端包括:通过视频框闪动并且伴有颜色背景提示的方式,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端;或通过表情包和/或颜色背景提示的方式,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端。
在本发明的一实施方式中,将所述文字内容反馈给与会客户端包括:通过弹幕的方式,将所述文字内容反馈给与会客户端。
在本发明的一实施方式中,所述视频会议方法还包括:在检测到所述第一报警信息之后,检测其他与会人员的人脸信息;根据所述其他与会人员的人脸的一个或多个区域的像素变化情况来判断所述其他与会人员是否出现了微表情特征;将所述其他与会人员中出现了微表情特征的人员的情绪信息反馈给与会客户端。
在本发明的一实施方式中,将所述其他与会人员中出现了微表情特征的人员的情绪信息反馈给与会客户端包括:获取所述其他与会人员中出现了微表情特征的人员总数;当所述人员总数超过预设阈值,则获取所述其他与会人员中出现了微表情特征的各个人员的用户级别以及情绪程度;按照所述用户级别从高到低的顺序将所述其他与会人员中出现了微表情特征的人员的名单以及对应的情绪信息进行排序,其中,在进行排序时,若出现多个与会人员的用户级别相同的情况时,则再按照将所述情绪程度从高到低的顺序对所述用户级别相同的与会人员进行排序。
在本发明的一实施方式中,按照自定义的顺序将所述其他与会人员中出现了微表情特征的各个人员的情绪信息进行排列并显示在与会客户端。
在本发明的一实施方式中,仅仅将出现了微表情特征的人员的情绪信息反馈给所述当前发言人的客户端和/或主持人的客户端。
在本发明的一实施方式中,当与会客户端的视频窗口被点击后自动将提醒信息发送给所述与会客户端,其中,所述提醒信息用于提醒与会人员注意情绪。
基于同样的发明构思,本发明还提供了一种视频会议方法,其包括:在视频会议过程中,实时检测与会人员的人脸信息;根据所述与会人员的人脸的一个或多个区域的像素变化情况来判断所述与会人员是否出现了微表情特征;当检测到所述与会人员出现了微表情特征,则发出第二报警信息;检测到所述第二报警信息后,则检测搜索声音源,选择出当前发言人在所述与会人员出现了微表情特征时的同步音视频数据;截取所述同步音视频数据中的带有时间戳信息的语音数据,将所述语音数据转化为文字内容;将所述与会人员中出现了微表情特征的人员的情绪信息以及所述文字内容反馈给与会客户端。
在本发明的一实施方式中,所述视频会议方法还包括:将所述与会人员中出现了微表情特征的人员的情绪信息所对应的提示信息反馈给与会客户端。
基于同样的发明构思,本发明还提供了一种视频会议系统,其包括:当前发言人检测模块、人脸信息获取模块、微表情特征判断模块、第一报警信息发送模块、同步音视频数据锁定模块、数据转化模块、反馈模块。当前发言人检测模块用于在视频会议过程中,通过语音识别技术检测当前发言人。人脸信息获取模块与所述当前发言人检测模块相耦合,用于实时获取所述当前发言人的人脸信息。微表情特征判断模块与所述人脸信息获取模型相耦合,用于根据所述当前发言人的人脸的一个或多个区域的像素变化情况来判断所述当前发言人是否出现了微表情特征。第一报警信息发送模块与所述微表情特征判断模块相耦合,用于当检测到所述当前发言人出现了微表情特征,则发出第一报警信息。同步音视频数据锁定模块与所述第一报警信息发送模块相耦合,用于检测到所述第一报警信息后,通过系统实时存储的音视频数据以及时间戳信息来自动锁定所述当前发言人在出现微表情特征时的同步音视频数据。数据转化模块与所述同步音视频数据锁定模块相耦合,用于截取所述当前发言人在出现微表情特征时的同步音视频数据中的带有时间戳信息的语音数据,并转化为第一文字内容。反馈模块与所述微表情特征判断模块以及所述数据转化模块均相耦合,用于将所述当前发言人的微表情特征所对应的情绪信息以及所述第一文字内容反馈给与会客户端。
在本发明的一实施方式中,所述视频会议系统还包括:第二报警信息发送模块。其中,所述人脸信息获取模块还用于实时获取其他与会人员的人脸信息;所述微表情特征判断模块还用于根据所述其他与会人员的人脸的一个或多个区域的像素变化情况来判断所述其他与会人员是否出现了微表情特征;所述第二报警信息发送模块与所述微表情特征判断模块相耦合,用于当检测到所述其他与会人员出现了微表情特征,则发出第二报警信息;所述同步音视频数据锁定模块还与所述第二报警信息发送模块相耦合,用于检测到所述第二报警信息后,则检测搜索声音源,选择出当前发言人在所述其他与会人员出现了微表情特征时的同步音视频数据;所述数据转化模块还用于截取所述当前发言人在所述其他与会人员出现了微表情特征时的同步音视频数据中的带有时间戳信息的语音数据,并转化为第二文字内容;反馈模块还用于将所述其他与会人员中出现了微表情特征的人员的情绪信息以及所述第二文字内容反馈给与会客户端。
基于同样的发明构思,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于执行如上述任一实施方式所述的视频会议方法。
与现有技术相比,根据本发明的视频会议方法及系统、计算机可读存储介质,在视频会议中可以通过微表情的捕捉来获取与会人员的状态以及反应,并且进行智能提醒;在现场会议中,发言人专注于自己的讲话,可能没有精力注意到其它人的表情反应,通过本发明的视频会议方法,就可以做到通过微表情,辅助判定与会人员情绪,能够比亲临现场更智能更全面地把控整体局面,使得会议更加顺利召开,辅助达到会议期望效果,提高视频会议效率;特别是在网络不佳视频不够清晰的情况下,能够明显提升视频会议效率以及用户体验感受。
附图说明
图1是根据本发明一实施方式的视频会议方法;
图2是根据本发明一实施方式的视频会议方法;
图3是根据本发明一实施方式的视频会议系统。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
为了克服现有技术的问题,本发明提供了一种视频会议方法及系统、计算机可读存储介质,方案主要分为微表情识别、语音识别两部分,其中微表情识别主要对与会人员进行面部表情识别,判断人员情绪状态。语音识别主要记录发言人的内容,当语音检测启动、并检测到其它与会人员的微表情时能做到提醒、引导发言人;另一方面语音识别和微表情也同时检测发言人,当发言人出现发声以及微表情时,会对与会人员做到提醒的功能,这样就确保全体与会人员与会效果,达到辅助会议顺利召开的技术形式。
图1是根据本发明一实施方式的视频会议方法的步骤组成。在本实施方式中,用户首先登录视频会议,登录名可以为用户名加职位(或用户等级),并且可以根据预设的职位自动排序并显示在视频会议客户端。预设的职位排序可以为CEO-合伙人-副总裁-区域经理-部门经理-助理-员工。也可以根据不同行业的情况,用户自主设置排列顺序。
该视频会议方法包括:步骤S10~步骤S16。
在步骤S10中通过语音识别技术检测当前发言人。
在步骤S11中实时获取当前发言人的人脸信息。
在步骤S12中判断当前发言人是否出现了微表情特征。具体而言,根据所述当前发言人的人脸的一个或多个区域的像素变化情况来判断所述当前发言人是否出现了微表情特征。
一般而言,人的情绪分为七种,可以用七类的微表情特征来捕捉情绪信息。例如,当微表情特征为印堂起皱纹,上嘴唇上扬,则表示出现厌恶的情绪;当微表情特征为眉毛上扬、两眼瞪大、嘴巴微微张开,则表示惊讶的情绪;当微表情特征为眉毛下扬并拢、眼睛怒视、嘴巴紧锁,则表示愤怒的情绪;当微表情特征为一边嘴角上扬,则表示轻蔑的情绪;当微表情特征为眉毛上扬紧锁、眼皮上扬、眼皮收紧、嘴唇微微张开表示恐惧的情绪;当微表情特征为鹰爪皱纹、脸夹上扬鼓起、扯动眼窝周围的肌肉,表示高兴的情绪;当微表情特征为上眼皮下垂、两眼无光、两侧嘴角微微下拉时,表示悲伤的情绪。
在步骤S13中当检测到当前发言人出现了微表情特征,则发出第一报警信息。
在步骤S14中检测到第一报警信息后,锁定当前发言人的同步音视频数据。具体而言,通过系统实时存储的音视频数据以及时间戳信息来自动锁定所述当前发言人在出现微表情特征时的同步音视频数据。
在步骤S15中截取所述同步音视频数据中的带有时间戳信息的语音数据,将所述语音数据转化为文字内容。
在步骤S16中将当前发言人的微表情特征所对应的情绪信息以及所述文字内容反馈给与会客户端。具体而言,可以通过视频框闪动并且伴有颜色背景提示的方式,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端。另外还可以通过表情包和/或颜色背景提示的方式,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端。而且还可以通过弹幕的方式,将所述文字内容反馈给与会客户端。
例如,当发言人说到未按时汇报工作这段话时出现愤怒表情时,与会客户端上显示的发言人的视频框会频闪,同时对应的语音识别的文字内容显示在弹框内,同时可以根据不同的情绪程度来设置闪动的频率以及颜色,如愤怒时快闪并伴有红色边框提醒。也可以在与会客户端显示表情包,如愤怒者为冒火头像、悲伤者为哭泣头像、恐惧者为流汗头像,从而对与会人员做出醒目提醒。
为了及时获知与会人员对所述文字内容的情绪反应,在一优选的实施方式中,所述视频会议方法还包括:在检测到所述第一报警信息之后,检测其他与会人员的人脸信息;根据所述其他与会人员的人脸的一个或多个区域的像素变化情况来判断所述其他与会人员是否出现了微表情特征;将所述其他与会人员中出现了微表情特征的人员的情绪信息反馈给与会客户端。反馈的信息如:某某听到您说这段话时表情为惊恐,某某表情为悲伤,请您确认或调整发言内容。如此,使得所有与会人员都能捕捉到现场与会人员的状态,使得视频会议没有亲临现场的弊端并且能做到辅助顾及到现场人员的表情,做到引导发言人或给发言人以及其他与会人员提供参考依据或是借鉴。
为了能够实现按照用户等级自动排序的功能,可选地,将所述其他与会人员中出现了微表情特征的人员的情绪信息反馈给与会客户端包括:获取所述其他与会人员中出现了微表情特征的人员总数;当所述人员总数超过预设阈值,则获取所述其他与会人员中出现了微表情特征的各个人员的用户级别以及情绪程度;按照所述用户级别从高到低的顺序将所述其他与会人员中出现了微表情特征的人员的名单以及对应的情绪信息进行排序,其中,在进行排序时,若出现多个与会人员的用户级别相同的情况时,则再按照将所述情绪程度从高到低的顺序对所述用户级别相同的与会人员进行排序。例如,当超过5人时,启动用户等级自动排序功能,在其中可以设置主次要级排序顺序,首先按照用户等级排序,当用户等级相同时,按照为表情程度来排序。表情程序可以自定义划分,如划分为三级,如愤怒分为极度愤怒、一般愤怒以及轻度愤怒。可选地,当出现了微表情特征的人员总数少于阈值,也可以按照自定义的顺序将所述其他与会人员中出现了微表情特征的各个人员的情绪信息进行排列并显示在与会客户端。
可选地,在一实施方式中,主持人或其他与会人员也可以设置在查看所有与会人界面一处显示所有人的情绪状态,可文字展现,或使用表情包或颜色分类分别或结合展现均可。
另外还可以根据实际会议的特定需求,将出现了微表情特征的人员的情绪信息以及文字内容只反馈给所述当前发言人的客户端和/或主持人的客户端。
优选地,在一实施方式中,当与会客户端的视频窗口被点击后自动将提醒信息发送给所述与会客户端,其中,所述提醒信息用于提醒与会人员注意情绪。如此,当发言人可能没有时间留意大家的情绪状态,那么其他与会人/或主持人看到有其他人员的情绪异常时,可点对点做出婉转提醒,提醒发言人或其他与会人。比如在视频会议中,当李某看到其它与会人员出现微表情时,可点对点点击人员窗口产生特殊效果,或弹框简讯的形式做到婉转提醒发言人或其他与会人。
基于同样的发明构思,本发明还提供了一种视频会议方法,主要对视频会议的听众进行表情识别,从而及时反馈给发言人。图2是一实施方式的视频会议方法的步骤组成。该视频会议方法包括:步骤S20~步骤S25。
在步骤S20中,实时检测与会人员的人脸信息。
在步骤S21中根据所述与会人员的人脸的一个或多个区域的像素变化情况来判断所述与会人员是否出现了微表情特征。
在步骤S22中当检测到所述与会人员出现了微表情特征,则发出第二报警信息。
在步骤S23中检测到所述第二报警信息后,则检测搜索声音源,选择出当前发言人在所述与会人员出现了微表情特征时的同步音视频数据。
在步骤S24中截取所述同步音视频数据中的带有时间戳信息的语音数据,将所述语音数据转化为文字内容。
在步骤S25中将所述与会人员中出现了微表情特征的人员的情绪信息以及所述文字内容反馈给与会客户端。具体而言,可以通过视频框闪动并且伴有颜色背景提示的方式,将所述与会人员的微表情特征所对应的情绪信息反馈给与会客户端。另外还可以通过表情包和/或颜色背景提示的方式,将所述与会人员的微表情特征所对应的情绪信息反馈给与会客户端。而且还可以通过弹幕的方式,将所述文字内容反馈给与会客户端。
优选地,在一实施方式中,所述视频会议方法还包括:将所述与会人员中出现了微表情特征的人员的情绪信息所对应的提示信息反馈给与会客户端。例如,检测到听众惊讶的特征时,此时系统发出第二报警信息,根据第二报警信息检测搜索声音源,首选与表情同时的声音源,选择表情前发言人的讲话内容,语音识别文字,弹框出现文字内容以及不同情绪所对应的提示信息。可选地,将某与会人员微表情特征出现时所产生的话术以弹框的方式反馈给与会客户端。
具体而言,若发言人发言:“本季度项目管理部需完成业绩2000万,接下来我将任务分配到具体每个人”,而此时系统监测到张三为惊讶、李四担忧,而王二为正常,此时会出现依据技术要点的筛选条件弹框给发言人,发言人会根据每个人的态度更有利的组织语言分派任务,能更好的推进工作。当检测到厌恶特征时,当发言人讲话时,检测到张三表情异常,系统报警,弹框出现提示信息,以提示发言人:“您刚才所说的因为某些不认真的行为这句话时,张三表情检测为厌恶。”当发言人讲话时提到“一些同事就是因为熟悉了公司体制去钻空子,虽然还没有追查到具体的人,但坚决查下去,绝不姑息”,此时检测到与会人员王二的表情为愤怒,出现弹框,以提示发言人,这样一是提醒发言人言辞过激,二是辅助发言人做出判断,更好地知道与会人员此时的感受。再如当发言人提到纪律问题,廉洁自律问题,惩治问题时,有系统检测到有些同事情绪为恐惧,此时弹框出现提示信息,“大部分同事对此很恐惧并且很厌恶”,这样有利于公司乃至审计部门对一些同事的反应做出判断,并对之后的制度的发布和编订提供参考。当检测到有些同事的情绪很悲伤,则弹框出现,发言人可根据情况进行安抚,以稳定团队状态。当发言人说出自己观点时,检测到与会人员面部表情为轻蔑,此时系统出现弹框,“您的这段话,对方可能不是发自内心的认同”。当检测到发言人说话时,检测到其它与会人员高兴时,弹框出现提示信息,“您的这段话触动到了他”。这7种情绪会根据其发言人根据哪段文字做的表情做出的判断,给予会议者提醒,表情同时产生的话述作为弹框出现。
基于同样的发明构思,本发明还提供了一种视频会议系统,如图3所示,一实施方式的视频会议系统包括:当前发言人检测模块10、人脸信息获取模块11、微表情特征判断模块12、第一报警信息发送模块13、同步音视频数据锁定模块14、数据转化模块15、反馈模块16。
当前发言人检测模块10用于在视频会议过程中,通过语音识别技术检测当前发言人。
人脸信息获取模块11与所述当前发言人检测模块10相耦合,用于实时获取所述当前发言人的人脸信息。
微表情特征判断模块12与所述人脸信息获取模型相耦合,用于根据所述当前发言人的人脸的一个或多个区域的像素变化情况来判断所述当前发言人是否出现了微表情特征。
第一报警信息发送模块13与所述微表情特征判断模块12相耦合,用于当检测到所述当前发言人出现了微表情特征,则发出第一报警信息。
同步音视频数据锁定模块14与所述第一报警信息发送模块13相耦合,用于检测到所述第一报警信息后,通过系统实时存储的音视频数据以及时间戳信息来自动锁定所述当前发言人在出现微表情特征时的同步音视频数据。
数据转化模块15与所述同步音视频数据锁定模块14相耦合,用于截取所述当前发言人在出现微表情特征时的同步音视频数据中的带有时间戳信息的语音数据,并转化为第一文字内容。
反馈模块16与所述微表情特征判断模块12以及所述数据转化模块15均相耦合,用于将所述当前发言人的微表情特征所对应的情绪信息以及所述第一文字内容反馈给与会客户端。
为了及时获知与会人员对所述文字内容的情绪反应,在一优选的实施方式中,所述视频会议系统还包括:第二报警信息发送模块17。其中,所述人脸信息获取模块11还用于实时获取其他与会人员的人脸信息。所述微表情特征判断模块12还用于根据所述其他与会人员的人脸的一个或多个区域的像素变化情况来判断所述与会人员是否出现了微表情特征。所述第二报警信息发送模块17与所述微表情特征判断模块12相耦合,用于当检测到所述与会人员出现了微表情特征,则发出第二报警信息。所述同步音视频数据锁定模块14还与所述第二报警信息发送模块17相耦合,用于检测到所述第二报警信息后,则检测搜索声音源,选择出当前发言人在所述其他与会人员出现了微表情特征时的同步音视频数据。所述数据转化模块15还用于截取所述当前发言人在所述其他与会人员出现了微表情特征时的同步音视频数据中的带有时间戳信息的语音数据,并转化为第二文字内容。反馈模块16还用于将所述其他与会人员中出现了微表情特征的人员的情绪信息以及所述第二文字内容反馈给与会客户端。
基于同样的发明构思,本实施方式还提供了一种计算机可读存储介质,所述计算机可读存储介质用于执行如上述任一实施方式所述的视频会议方法。
综上所述,根据本实施方式的视频会议方法及系统、计算机可读存储介质,在视频会议中可以通过微表情的捕捉来获取与会人员的状态以及反应,并且进行智能提醒;在现场会议中,发言人专注于自己的讲话,可能没有精力注意到其它人的表情反应,通过本实施方式的视频会议方法,就可以做到通过微表情,辅助判定与会人员情绪,能够比亲临现场更智能更全面地把控整体局面,使得会议更加顺利召开,辅助达到会议期望效果,提高视频会议效率;特别是在网络不佳视频不够清晰的情况下,能够明显提升视频会议效率以及用户体验感受。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (5)

1.一种视频会议方法,其特征在于,包括:
在视频会议过程中,通过语音识别技术检测当前发言人;
实时获取所述当前发言人的人脸信息;
根据所述当前发言人的人脸的一个或多个区域的像素变化情况来判断所述当前发言人是否出现了微表情特征;
当检测到所述当前发言人出现了微表情特征,则发出第一报警信息;
检测到所述第一报警信息后,通过系统实时存储的音视频数据以及时间戳信息来自动锁定所述当前发言人在出现微表情特征时的同步音视频数据;
截取所述同步音视频数据中的带有时间戳信息的语音数据,将所述语音数据转化为文字内容;
将所述当前发言人的微表情特征所对应的情绪信息以及所述文字内容反馈给与会客户端;
所述视频会议方法还包括:
在检测到所述第一报警信息之后,检测其他与会人员的人脸信息;
根据所述其他与会人员的人脸的一个或多个区域的像素变化情况来判断所述与会人员是否出现了微表情特征;
将所述其他与会人员中出现了微表情特征的人员的情绪信息反馈给与会客户端。
2.如权利要求1所述的视频会议方法,其特征在于,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端包括:
通过视频框闪动并且伴有颜色背景提示的方式,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端;或
通过表情包和/或颜色背景提示的方式,将所述当前发言人的微表情特征所对应的情绪信息反馈给与会客户端。
3.如权利要求1所述的视频会议方法,其特征在于,将所述文字内容反馈给与会客户端包括:
通过弹幕的方式,将所述文字内容反馈给与会客户端。
4.如权利要求1所述的视频会议方法,其特征在于,将所述其他与会人员中出现了微表情特征的人员的情绪信息反馈给与会客户端包括:
获取所述其他与会人员中出现了微表情特征的人员总数;
当所述人员总数超过预设阈值,则获取所述其他与会人员中出现了微表情特征的各个人员的用户级别以及情绪程度;以及
按照所述用户级别从高到低的顺序将所述其他与会人员中出现了微表情特征的人员的名单以及对应的情绪信息进行排序,其中,在进行排序时,若出现多个与会人员的用户级别相同的情况时,则再按照将所述情绪程度从高到低的顺序对所述用户级别相同的与会人员进行排序。
5.一种视频会议系统,其特征在于,包括:
当前发言人检测模块,用于在视频会议过程中,通过语音识别技术检测当前发言人;
人脸信息获取模块,与所述当前发言人检测模块相耦合,用于实时获取所述当前发言人的人脸信息;
微表情特征判断模块,与所述人脸信息获取模型相耦合,用于根据所述当前发言人的人脸的一个或多个区域的像素变化情况来判断所述当前发言人是否出现了微表情特征;
第一报警信息发送模块,与所述微表情特征判断模块相耦合,用于当检测到所述当前发言人出现了微表情特征,则发出第一报警信息;
同步音视频数据锁定模块,与所述第一报警信息发送模块相耦合,用于检测到所述第一报警信息后,通过系统实时存储的音视频数据以及时间戳信息来自动锁定所述当前发言人在出现微表情特征时的同步音视频数据;
数据转化模块,与所述同步音视频数据锁定模块相耦合,用于截取所述当前发言人在出现微表情特征时的同步音视频数据中的带有时间戳信息的语音数据,并转化为第一文字内容;
反馈模块,与所述微表情特征判断模块以及所述数据转化模块均相耦合,用于将所述当前发言人的微表情特征所对应的情绪信息以及所述第一文字内容反馈给与会客户端;
所述视频会议系统还包括:第二报警信息发送模块,
其中,所述人脸信息获取模块还用于实时获取其他与会人员的人脸信息;
所述微表情特征判断模块还用于根据所述其他与会人员的人脸的一个或多个区域的像素变化情况来判断所述与会人员是否出现了微表情特征;
所述第二报警信息发送模块与所述微表情特征判断模块相耦合,用于当检测到所述其他与会人员出现了微表情特征,则发出第二报警信息;
所述同步音视频数据锁定模块还与所述第二报警信息发送模块相耦合,用于检测到所述第二报警信息后,则检测搜索声音源,选择出当前发言人在所述其他与会人员出现了微表情特征时的同步音视频数据;
所述数据转化模块还用于截取所述当前发言人在所述其他与会人员出现了微表情特征时的同步音视频数据中的带有时间戳信息的语音数据,并转化为第二文字内容;
反馈模块还用于将所述其他与会人员中出现了微表情特征的人员的情绪信息以及所述第二文字内容反馈给与会客户端。
CN202011327169.XA 2020-11-24 2020-11-24 视频会议方法及系统、计算机可读存储介质 Active CN112437247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011327169.XA CN112437247B (zh) 2020-11-24 2020-11-24 视频会议方法及系统、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011327169.XA CN112437247B (zh) 2020-11-24 2020-11-24 视频会议方法及系统、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112437247A CN112437247A (zh) 2021-03-02
CN112437247B true CN112437247B (zh) 2022-10-14

Family

ID=74693872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011327169.XA Active CN112437247B (zh) 2020-11-24 2020-11-24 视频会议方法及系统、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112437247B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399821B (zh) * 2022-01-13 2024-04-26 中国平安人寿保险股份有限公司 策略推荐方法、装置、存储介质
US11943276B2 (en) 2022-03-23 2024-03-26 International Business Machines Corporation Line-drawing video conferencing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612211B1 (en) * 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
CN107636684A (zh) * 2015-03-18 2018-01-26 阿凡达合并第二附属有限责任公司 视频会议中的情绪识别
CN111259729A (zh) * 2019-12-30 2020-06-09 视联动力信息技术股份有限公司 一种表情识别方法和装置
CN111556279A (zh) * 2020-05-22 2020-08-18 腾讯科技(深圳)有限公司 即时会话的监控方法和通信方法
CN111970471A (zh) * 2020-06-30 2020-11-20 视联动力信息技术股份有限公司 基于视频会议的参会人员评分方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321675B2 (en) * 2018-11-15 2022-05-03 International Business Machines Corporation Cognitive scribe and meeting moderator assistant

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612211B1 (en) * 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
CN107636684A (zh) * 2015-03-18 2018-01-26 阿凡达合并第二附属有限责任公司 视频会议中的情绪识别
CN111259729A (zh) * 2019-12-30 2020-06-09 视联动力信息技术股份有限公司 一种表情识别方法和装置
CN111556279A (zh) * 2020-05-22 2020-08-18 腾讯科技(深圳)有限公司 即时会话的监控方法和通信方法
CN111970471A (zh) * 2020-06-30 2020-11-20 视联动力信息技术股份有限公司 基于视频会议的参会人员评分方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112437247A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
US11688399B2 (en) Computerized intelligent assistant for conferences
US8676572B2 (en) Computer-implemented system and method for enhancing audio to individuals participating in a conversation
US8370142B2 (en) Real-time transcription of conference calls
US7698141B2 (en) Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
EP2709357A1 (en) Conference recording method and conference system
CN112437247B (zh) 视频会议方法及系统、计算机可读存储介质
US20150154960A1 (en) System and associated methodology for selecting meeting users based on speech
CN108257594A (zh) 一种会议系统及其信息处理方法
McKeown et al. The Belfast storytelling database: A spontaneous social interaction database with laughter focused annotation
CN104135638A (zh) 优化的视频快照
Huang et al. Making virtual conversational agent aware of the addressee of users' utterances in multi-user conversation using nonverbal information
Jayagopi et al. Given that, should i respond? contextual addressee estimation in multi-party human-robot interactions
WO2020027073A1 (ja) 情報処理装置および情報処理方法
CN110992958A (zh) 内容记录方法、装置、电子设备及存储介质
WO2022180860A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
Norris et al. Intercultural teamwork via videoconferencing technology. A multimodal (Inter) action analysis
DE602004004824T2 (de) Automatische Behandlung von Konversationsgruppen
CN111698452A (zh) 在线群体状态反馈方法、系统及装置
US20230230588A1 (en) Extracting filler words and phrases from a communication session
Huang et al. Development of a platform for rnn driven multimodal interaction with embodied conversational agents
WO2022180859A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022180861A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022180854A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022180855A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022180852A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant