CN112866624B - 视频会议类型的确定方法、装置、电子设备及存储介质 - Google Patents

视频会议类型的确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112866624B
CN112866624B CN202110450693.4A CN202110450693A CN112866624B CN 112866624 B CN112866624 B CN 112866624B CN 202110450693 A CN202110450693 A CN 202110450693A CN 112866624 B CN112866624 B CN 112866624B
Authority
CN
China
Prior art keywords
speaking
video
conference
participant
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110450693.4A
Other languages
English (en)
Other versions
CN112866624A (zh
Inventor
罗开清
许磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huachuang Video Signal Technology Co Ltd
Original Assignee
Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huachuang Video Signal Technology Co Ltd filed Critical Zhejiang Huachuang Video Signal Technology Co Ltd
Priority to CN202110450693.4A priority Critical patent/CN112866624B/zh
Publication of CN112866624A publication Critical patent/CN112866624A/zh
Application granted granted Critical
Publication of CN112866624B publication Critical patent/CN112866624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种视频会议类型的确定方法、装置、电子设备及存储介质,涉及视频会议领域,包括:采集视频会议中每个与会人员的发言视频;统计每个与会人员的发言时长和发言次数并根据每个与会人员的发言时长、发言次数和预设的第一权重计算第一指标;根据多个预设的关键词对视频进行语音识别,得到多个关键词的语音出现次数,根据多个关键词的语音出现次数和预设的第二权重计算第二指标;根据多个关键词对视频进行图像识别,得到多个关键词的图像出现次数,根据多个关键词的图像出现次数和预设的第三权重计算第三指标;利用会议类型识别模型对第一指标、第二指标和第三指标进行识别,得到视频会议的会议类型;能够准确地确定出会议类型。

Description

视频会议类型的确定方法、装置、电子设备及存储介质
技术领域
本发明涉及视频会议领域,尤其涉及一种视频会议类型的确定方法、装置、电子设备及存储介质。
背景技术
越来越多的公司通过视频会议代替日常的办公室会议,但由于视频会议的局限性,难以关注到每一个与会人员,对其与会状态进行分析,同时不同类型的会议的内容与情况差异较大,且不同类型的会议对与会人员的要求和定位也有所不同,例如分享会中需要每个与会人员都认真听分享者讲话,不能迟到早退,积极记笔记,发言次数较少,氛围严肃;而评审座谈会时每个人积极参与讨论,发言次数较多,气氛活跃;而现有方案大多根据同一套评分模型基于面部表情和肢体动作等对参会人员进行评分,评分标准单一,指标难以量化,因此需要制定不同的评分标准对不同类型的视频会议进行与会人员评分,那么就需要先确定视频会议的会议类型,而现有技术还没有能够准确并可靠的确定视频会议的会议类型的方法,所以本领域急需一种能够确定视频会议的会议类型的方法。
发明内容
本发明提供一种视频会议类型的确定方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
本发明一方面提供一种视频会议类型的确定方法,包括:
获取视频会议中每个与会人员的发言视频;
根据所述发言视频统计每个与会人员的发言时长和发言次数,并根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标;
根据多个预设的关键词对所述发言视频进行语音识别,得到每个关键词的语音出现次数,根据所述多个关键词的语音出现次数和预设的第二权重计算第二指标;
根据所述多个关键词对所述发言视频进行图像识别,得到每个关键词的图像出现次数,根据所述多个关键词的图像出现次数和预设的第三权重计算第三指标;
利用会议类型识别模型对所述第一指标、第二指标和第三指标进行识别,得到所述视频会议的会议类型。
其中,所述获取视频会议中每个与会人员的发言视频,包括:
采集视频会议的视频,所述视频中包含所有与会人员的视频;
对所述视频进行语音识别,得到每个与会人员的发言视频。
其中,所述根据所述发言视频统计每个与会人员的发言时长和发言次数,包括:
去除所述发言视频中的噪声;
去除所述发言视频中视频时长小于预设时长的发言视频;
根据处理后每个与会人员对应的多个发言视频,统计每个与会人员的发言时长和发言次数,所述发言时长为该与会人员对应的多个发言视频的视频时长总和,所述发言次数为该与会人员对应的多个发言视频的数量。
其中,所述根据每个与会人员的发言时长、发言次数和预设的第一权重计算第一指标,包括:
根据所述每个与会人员的发言时长和发言次数计算发言人数占比、平均发言次数、每个与会人员的发言时长占比和每个与会人员的发言次数占比;
根据发言人数占比、平均发言次数、每个与会人员的发言时长占比、每个与会人员的发言次数占比和预设的第一权重计算第一指标。
其中,所述确定所述视频会议的会议类型后,该方法还包括:
对所述与会人员的所述发言视频进行图像识别获得该与会人员的参会情况数据、表情数据和动作数据;
对所述与会人员的所述发言视频进行语音识别,获得该与会人员的干扰音数据;
根据该与会人员的多维度数据、发言时长、发言次数和发言时长占比计算参会情况分值、表情分值、动作分值、干扰音分值和发言分值,所述多维度数据包括:参会情况数据、表情数据、动作数据和干扰音数据;
利用确定好的视频会议的会议类型对应的用户分类模型,对该与会人员的所述分值进行计算,得到该与会人员的会议分值和每个维度数据对应的类型。
本发明另一方面提供一种视频会议类型的确定装置,包括:
采集模块,用于获取视频会议中每个与会人员的发言视频;
计算模块,用于根据所述发言视频统计每个与会人员的发言时长和发言次数,并根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标;
识别模块,用于根据多个预设的关键词对所述发言视频进行语音识别,得到每个关键词的语音出现次数,根据所述多个关键词的语音出现次数和预设的第二权重计算第二指标;
所述识别模块,还用于根据所述多个关键词对所述发言视频进行图像识别,得到每个关键词的图像出现次数,根据所述多个关键词的图像出现次数和预设的第三权重计算第三指标;
处理模块,用于利用会议类型识别模型对所述第一指标、第二指标和第三指标进行识别,得到所述视频会议的会议类型。
其中,所述采集模块,还用于采集视频会议的视频,所述视频中包含所有与会人员的视频;
所述识别模块,还用于对所述视频进行语音识别,得到每个与会人员的发言视频。
其中,所述识别模块,还用于去除所述发言视频中的噪声;
所述识别模块,还用于去除所述发言视频中视频时长小于预设时长的发言视频;
所述计算模块,还用于根据处理后每个与会人员对应的多个发言视频,统计每个与会人员的发言时长和发言次数,所述发言时长为该与会人员对应的多个发言视频的视频时长总和,所述发言次数为该与会人员对应的多个发言视频的数量。
本发明再一方面提供一种电子设备,包括:处理器、通信接口、存储器和通信总线;
其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明所述的语音检测方法。
本发明还一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序用于执行本发明所述的语音检测方法。
在本发明上述方案中,不同类型的会议情况不同,所以通过发言视频中每个与会人员的发言数据、发言视频中包含的关键词语音和关键词图像来计算三个指标,再通过三个指标来确定会议类型能够更准确的确定出该次会议的类型,而基于确定好的会议类型来选择对应的会议评分模型来对该次会议进行打分能够使得最后得到的会议分值更准确,得出的每个维度数据对应的类型更能准确的描述与会人员的参会情况。
附图说明
图1示出了本发明一实施例提供的视频会议类型的确定方法流程示意图;
图2示出了本发明一实施例提供的视频会议类型的确定装置结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了准确地确定会议类型,提高后续会议分值的准确性,如图1所示,本发明一实施例提供了一种视频会议类型的确定方法,该方法包括:
步骤101,获取视频会议中每个与会人员的发言视频。
所述获取视频会议中每个与会人员的发言视频,在一可实施方式中,采集视频会议的视频,所述视频中包含所有与会人员的视频。
采集视频,视频中包含所有与会人员的视频,例如某次会议共有N个与会人员,那么会议结束后,该视频中包含N个与会人员的视频,每个与会人员的视频包含该与会人员设备摄像头和麦克风分别记录下来的图像数据和音频数据。
对所述视频进行语音识别,得到每个与会人员的发言视频。
对会议视频进行语音识别,根据发言的人将视频分为多个发言视频,每个与会人员有该与会人员发言的多个发言视频。
步骤102,根据所述发言视频统计每个与会人员的发言时长和发言次数,并根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标。
所述获取视频会议中每个与会人员的发言视频,在一可实施方式中,去除所述发言视频中的噪声。
对发言视频中的音频进行降噪处理,去除噪音。
去除所述发言视频中视频时长小于预设时长的发言视频。
去除视频时长小于预设时长的发言视频,在本实施例中,该预设时长为10秒,时长小于10秒的发言视频可以认定为该与会人员自言自语的说话声或者其他人说的话等无效发言,去除掉噪音和无效发言有利于统计每个与会人员的发言数据或者后续的语音识别。
根据处理后每个与会人员对应的多个发言视频,统计每个与会人员的发言时长和发言次数,所述发言时长为该与会人员对应的多个发言视频的视频时长总和,所述发言次数为该与会人员对应的多个发言视频的数量。
对发言视频进行语音识别,统计每个与会人员的发言数据,例如用户A参加了某次会议,统计用户A对应的所有发言视频的视频时长之和作为用户A的发言时长,统计用户A对应的所有发言视频数量作为用户A的发言次数,使用相同的步骤统计该次会议的每个与会人员的发言时长和发言次数作为该与会人员的发言数据。
所述根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标,在一可实施方式中,根据所述每个与会人员的发言时长和发言次数计算发言人数占比、平均发言次数、每个与会人员的发言时长占比和每个与会人员的发言次数占比。
根据每个与会人员的发言数据即发言时长和发言次数计算发言人数占比、平均发言次数、每个与会人员的发言时长占比和每个与会人员的发言次数占比;
发言人数占比的计算方式为:统计该次会议中发言次数大于0的人数,除以该次会议与会人员的总人数,例如,某次会议共有10个与会人员参与,根据视频统计到发过言即发言次数大于0的人数为5人,那么发言人数占比就等于5除以10,最后得到发言人数占比为50%;
平均发言次数的计算方式为:将该次会议中每个与会人员的发言次数相加,除以该次会议与会人员的总人数,例如,某次会议共有10个与会人员参与,根据视频统计到每个与会人员的发言次数之和为50次,那么平均发言次数就等于50除以10,最后得到平均发言次数为5次;
每个与会人员的发言时长占比的计算方式为:将该与会人员的发言时长除以该次会议所有与会人员的发言时长之和,例如,某次会议共有10个与会人员参与,其中包括用户A,该10个与会人员的发言时长之和为200分钟,而用户A的发言时长为20分钟,那么用户A的发言时长占比就等于20除以200,最后得到用户A的发言时长占比为10%;
每个与会人员的发言次数占比的计算方式为:将该与会人员的发言次数除以该次会议所有与会人员的发言次数之和,例如,某次会议共有10个与会人员参与,其中包括用户A,该10个与会人员的发言次数之和为20次,而用户A的发言次数为4次,那么用户A的发言次数占比就等于4除以20,最后得到用户A的发言次数占比为20%。
根据发言人数占比、平均发言次数、每个与会人员的发言时长占比、每个与会人员的发言次数占比和预设的第一权重计算第一指标。
根据第一权重和发言人数占比、平均发言次数、每个与会人员的发言时长占比、每个与会人员的发言次数占比就可以计算对于确定会议类型的一个有力的指标即第一指标。
步骤103,根据多个预设的关键词对所述发言视频进行语音识别,得到每个关键词的语音出现次数,根据所述多个关键词的语音出现次数和预设的第二权重计算第二指标。
根据多个预设的关键词,例如:例会、评审座谈会、分享会等对发言视频进行语音识别,得到多个关键词语音的出现次数,根据多个关键词语音的出现次数和预先设定的第二权重计算得到第二指标,会议中发言人一般开场时会说“这次是一场例会/评审座谈会/分享会”之类的话,后续与会人员也会说“这场例会/评审座谈会/分享会,我要讲一些……”之类的话,那么视频中包含的这些关键词的语音对于确定会议类型是有用的,所以预先设定第二权重与通过语音识别得到的多个关键词语音的出现次数来计算第二指标。
步骤104,根据所述多个关键词对所述发言视频进行图像识别,得到每个关键词的图像出现次数,根据所述多个关键词的图像出现次数和预设的第三权重计算第三指标。
根据多个预设的关键词,例如:例会、评审座谈会、分享会等对发言视频进行图像识别,得到多个关键词图像的出现次数,根据多个关键词图像的出现次数和预先设定的第三权重计算得到第三指标,会议中有黑板或者显示设备的时候一般会出现例会、评审座谈会、分享会等关于该次会议类型的词,那么视频中包含的这些关键词的图像对于确定会议类型是有用的,所以预先设定第三权重与通过图像识别得到的多个关键词图像的出现次数来计算第三指标。
步骤105,利用会议类型识别模型对所述第一指标、第二指标和第三指标进行识别,得到所述视频会议的会议类型。
将第一指标、第二指标和第三指标输入预先训练好的会议类型识别模型,就能够准确地识别出该次视频会议的会议类型。
在步骤105中,所述确定所述视频的会议类型后,在一可实施方式中,对于每个与会人员:对所述视频进行图像识别和语音识别,获得该与会人员的多维度数据。
对所述与会人员的所述发言视频进行图像识别获得该与会人员的参会情况数据、表情数据和动作数据。
对每个与会人员对应的发言视频进行图像识别,获得该与会人员的参会情况数据、表情数据和动作数据,其中,参会情况数据中包括但不限于该与会人员是否有早退或者迟到的现象,表情数据中包括但不限于该与会人员表情是否严肃、发呆,还有统计该与会人员在1分钟内眨眼的次数是否低于10次,低于10次则认为该与会人员的画面停滞了,该与会人员可能将视频软件的画面切出去,并没有参加会议,动作数据中包括但不限于该与会人员是否有玩手机、玩手机的次数、是否有记笔记、记笔记的次数、是否有趴桌子、是否有打哈欠、是否有打瞌睡等数据,这些数据能够体现该与会人员的参会认真程度。
对所述与会人员的所述发言视频进行语音识别,获得该与会人员的干扰音数据。
对每个与会人员对应的发言视频进行语音识别,获得该与会人员的干扰音数据,干扰音数据中包括但不限于长时间的噪音、长时间的音乐声等干扰了会议正常进行的干扰声音。
根据该与会人员的多维度数据、发言时长、发言次数和发言时长占比计算参会情况分值、表情分值、动作分值、干扰音分值和发言分值,所述多维度数据包括:参会情况数据、表情数据、动作数据和干扰音数据;
计算参会情况分值、表情分值、动作分值、干扰音分值和发言分值时,都有一个预先设定的权重来对参会情况数据、表情数据、动作数据、干扰音数据、发言时长、发言次数和发言时长占比进行加权,最后计算得到参会情况分值、表情分值、动作分值、干扰音分值和发言分值。
利用确定好的视频会议的会议类型对应的用户分类模型,对该与会人员的所述分值进行计算,得到该与会人员的会议分值和每个维度数据对应的类型。
将该与会人员的多个分值输入与确定好的视频会议的会议类型对应的用户分类模型,得到该与会人员的会议分值和每个维度数据对应的类型,计算会议分值时通过一个预设设定的权重来对该与会人员的多个分值进行加权最后计算得到会议分值,而每个维度数据对应的类型则是描述该与会人员的参会情况的一段话,例如:用户A此次会议无迟到早退情况,且会议中发言积极,无玩手机和打瞌睡等情况,会议表现较好,会议分值能够与以前的分值进行横向对比或者与其他与会人员进行对比,而每个维度数据对应的类型则更能描述与会人员参会的情况。
在得到该与会人员的会议分值后,还可以与该与会人员的多个历史会议分值,也就是之前参加的会议得到的会议分值进行比较,根据该与会人员的多个历史会议分值计算该与会人员的历史平均会议分值、历史最高会议分值、历史最低会议分值或历史最近会议分值,所述历史最近会议分值是该与会人员在最近一次会议上得到的会议分值,根据会议类型和该与会人员之前参会的情况来对该与会人员的多个历史会议分值进行计算,例如:该与会人员本次参加的是例会,而该与会人员之前参加过10次例会,参加的例会次数较多,那么计算该与会人员之前参加的10次例会的会议分值的平均分、10次例会的会议分值中的最高分或者10次例会的会议分值的最低分来与本次会议分值作比较;
再例如:该与会人员本次参加的是评审座谈会,而该与会人员之前只参加过2次评审座谈会,那么就将该与会人员之前最近参加的一次评审座谈会的会议分值与本次会议分值作比较。
在本发明上述方案中,不同类型的会议情况不同,所以通过发言视频中每个与会人员的发言数据、发言视频中包含的关键词语音和关键词图像来计算三个指标,再通过三个指标来确定会议类型能够更准确的确定出该次会议的类型,而基于确定好的会议类型来选择对应的会议评分模型来对该次会议进行打分能够使得最后得到的会议分值更准确,得出的每个维度数据对应的类型更能准确的描述与会人员的参会情况,最后还能通过将该次会议得到的会议分值与之前的参会会议分值进行横向比较,使得该与会人员在该次会议上得到的会议分值能够更加直观。
本发明一实施例还提供了一种视频会议类型的确定装置,如图2所示,该装置包括:
采集模块10,用于获取视频会议中每个与会人员的发言视频;
计算模块20,用于根据所述发言视频统计每个与会人员的发言时长和发言次数,并根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标;
识别模块30,用于根据多个预设的关键词对所述发言视频进行语音识别,得到每个关键词的语音出现次数,根据所述多个关键词的语音出现次数和预设的第二权重计算第二指标;
所述识别模块30,还用于根据所述多个关键词对所述发言视频进行图像识别,得到每个关键词的图像出现次数,根据所述多个关键词的图像出现次数和预设的第三权重计算第三指标;
处理模块40,用于利用会议类型识别模型对所述第一指标、第二指标和第三指标进行识别,得到所述视频会议的会议类型。
其中,所述采集模块10,还用于采集视频会议的视频,所述视频中包含所有与会人员的视频;
所述识别模块30,还用于对所述视频进行语音识别,得到每个与会人员的发言视频。
其中,所述识别模块30,还用于去除所述发言视频中的噪声;
所述识别模块30,还用于去除所述发言视频中视频时长小于预设时长的发言视频;
所述计算模块20,还用于根据处理后每个与会人员对应的多个发言视频,统计每个与会人员的发言时长和发言次数,所述发言时长为该与会人员对应的多个发言视频的视频时长总和,所述发言次数为该与会人员对应的多个发言视频的数量。
其中,所述计算模块20,还用于根据所述每个与会人员的发言时长和发言次数计算发言人数占比、平均发言次数、每个与会人员的发言时长占比和每个与会人员的发言次数占比;
所述计算模块20,还用于根据发言人数占比、平均发言次数、每个与会人员的发言时长占比、每个与会人员的发言次数占比和预设的第一权重计算第一指标。
其中,所述识别模块30,还用于对所述与会人员的所述发言视频进行图像识别获得该与会人员的参会情况数据、表情数据和动作数据;
所述识别模块30,还用于对所述与会人员的所述发言视频进行语音识别,获得该与会人员的干扰音数据;
所述计算模块20,还用于根据该与会人员的多维度数据、发言时长、发言次数和发言时长占比计算参会情况分值、表情分值、动作分值、干扰音分值和发言分值,所述多维度数据包括:参会情况数据、表情数据、动作数据和干扰音数据;
所述处理模块40,还用于利用确定好的视频会议的会议类型对应的用户分类模型,对该与会人员的所述分值进行计算,得到该与会人员的会议分值和每个维度数据对应的类型。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种视频会议类型的确定方法,其特征在于,包括:
获取视频会议中每个与会人员的发言视频;
根据所述发言视频统计每个与会人员的发言时长和发言次数,并根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标;
根据预设的多个关键词对所述发言视频进行语音识别,得到每个关键词的语音出现次数,根据所述多个关键词的语音出现次数和预设的第二权重计算第二指标;
根据所述多个关键词对所述发言视频进行图像识别,得到每个关键词的图像出现次数,根据所述多个关键词的图像出现次数和预设的第三权重计算第三指标;
利用会议类型识别模型对所述第一指标、第二指标和第三指标进行识别,得到所述视频会议的会议类型。
2.根据权利要求1所述的视频会议类型的确定方法,其特征在于,所述获取视频会议中每个与会人员的发言视频,包括:
采集视频会议的视频,所述视频会议的视频中包含所有与会人员的视频;
对所述视频会议的视频进行语音识别,得到每个与会人员的发言视频。
3.根据权利要求1所述的视频会议类型的确定方法,其特征在于,所述根据所述发言视频统计每个与会人员的发言时长和发言次数,包括:
去除所述发言视频中的噪声;
去除所述发言视频中视频时长小于预设时长的发言视频;
根据处理后每个与会人员对应的多个发言视频,统计每个与会人员的发言时长和发言次数,所述发言时长为该与会人员对应的多个发言视频的视频时长总和,所述发言次数为该与会人员对应的发言视频的数量。
4.根据权利要求1所述的视频会议类型的确定方法,其特征在于,所述根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标,包括:
根据所述每个与会人员的发言时长和发言次数计算发言人数占比、平均发言次数、每个与会人员的发言时长占比和每个与会人员的发言次数占比;
根据发言人数占比、平均发言次数、每个与会人员的发言时长占比、每个与会人员的发言时长占比和预设的第一权重计算第一指标。
5.根据权利要求4所述的视频会议类型的确定方法,其特征在于,所述得到所述视频会议的会议类型后,该方法还包括:
对所述与会人员的所述发言视频进行图像识别获得该与会人员的参会情况数据、表情数据和动作数据;
对所述与会人员的所述发言视频进行语音识别,获得该与会人员的干扰音数据;
根据该与会人员的多维度数据、发言时长、发言次数和发言时长占比计算参会情况分值、表情分值、动作分值、干扰音分值和发言分值,所述多维度数据包括:参会情况数据、表情数据、动作数据和干扰音数据;
利用确定好的视频会议的会议类型对应的用户分类模型,对该与会人员的所述参会情况分值、表情分值、动作分值、干扰音分值和发言分值进行计算,得到该与会人员的会议分值和每个维度数据对应的类型,所述每个维度数据对应的类型用于描述与会人员参会的情况。
6.一种视频会议类型的确定装置,其特征在于,包括:
采集模块,用于获取视频会议中每个与会人员的发言视频;
计算模块,用于根据所述发言视频统计每个与会人员的发言时长和发言次数,并根据所有与会人员的发言时长、发言次数和预设的第一权重计算视频会议的第一指标;
识别模块,用于根据预设的多个关键词对所述发言视频进行语音识别,得到每个关键词的语音出现次数,根据所述多个关键词的语音出现次数和预设的第二权重计算第二指标;
所述识别模块,还用于根据所述多个关键词对所述发言视频进行图像识别,得到每个关键词的图像出现次数,根据所述多个关键词的图像出现次数和预设的第三权重计算第三指标;
处理模块,用于利用会议类型识别模型对所述第一指标、第二指标和第三指标进行识别,得到所述视频会议的会议类型。
7.根据权利要求6所述的视频会议类型的确定装置,其特征在于,
所述采集模块,还用于采集视频会议的视频,所述视频中包含所有与会人员的视频;
所述识别模块,还用于对所述视频进行语音识别,得到每个与会人员的发言视频。
8.根据权利要求6所述的视频会议类型的确定装置,其特征在于,
所述识别模块,还用于去除所述发言视频中的噪声;
所述识别模块,还用于去除所述发言视频中视频时长小于预设时长的发言视频;
所述计算模块,还用于根据处理后每个与会人员对应的多个发言视频,统计每个与会人员的发言时长和发言次数,所述发言时长为该与会人员对应的多个发言视频的视频时长总和,所述发言次数为该与会人员对应的多个发言视频的数量。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。
CN202110450693.4A 2021-04-26 2021-04-26 视频会议类型的确定方法、装置、电子设备及存储介质 Active CN112866624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110450693.4A CN112866624B (zh) 2021-04-26 2021-04-26 视频会议类型的确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110450693.4A CN112866624B (zh) 2021-04-26 2021-04-26 视频会议类型的确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112866624A CN112866624A (zh) 2021-05-28
CN112866624B true CN112866624B (zh) 2021-08-03

Family

ID=75992845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110450693.4A Active CN112866624B (zh) 2021-04-26 2021-04-26 视频会议类型的确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112866624B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676693B (zh) * 2021-08-19 2023-09-26 京东方科技集团股份有限公司 画面呈现方法、视频会议系统及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10091461B2 (en) * 2013-10-15 2018-10-02 Polycom, Inc. System and method for real-time adaptation of a conferencing system to current conditions of a conference session
CN107613242A (zh) * 2017-09-12 2018-01-19 宇龙计算机通信科技(深圳)有限公司 视频会议处理方法及终端、服务器
CN108764807A (zh) * 2018-03-29 2018-11-06 联想(北京)有限公司 一种信息处理方法及智能会议系统
CN110505430A (zh) * 2018-05-17 2019-11-26 视联动力信息技术股份有限公司 一种会议控制的方法和装置
CN108881803A (zh) * 2018-07-24 2018-11-23 上海启诺信息科技有限公司 音像联动控制方法、系统及音像联动系统
CN111833876A (zh) * 2020-07-14 2020-10-27 科大讯飞股份有限公司 会议发言控制方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN112866624A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN107210045B (zh) 会议搜索以及搜索结果的回放
CN107211027B (zh) 感知质量比会议中原始听到的更高的后会议回放系统
CN107211061B (zh) 用于空间会议回放的优化虚拟场景布局
CN107211058B (zh) 基于会话动态的会议分段
CN107210034B (zh) 选择性会议摘要
CN107211062B (zh) 虚拟声学空间中的音频回放调度
CN107210036B (zh) 会议词语云
US9293133B2 (en) Improving voice communication over a network
WO2014040429A1 (zh) 视频会议提醒方法、装置和视频会议系统
CN111243590A (zh) 一种会议记录的生成方法及设备
CN102623011A (zh) 信息处理装置、信息处理方法、信息处理系统以及程序
CN110522462A (zh) 一种多模态智能审讯系统和方法
CN112866624B (zh) 视频会议类型的确定方法、装置、电子设备及存储介质
US20140337034A1 (en) System and method for analysis of power relationships and interactional dominance in a conversation based on speech patterns
EP4238299A1 (en) Methods and systems for automatic queuing in conference calls
CN111326159B (zh) 一种语音识别方法、装置、系统
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN113271430A (zh) 网络视频会议中防干扰方法、系统、设备及存储介质
CN113259620B (zh) 视频会议数据同步方法及装置
CN112634879B (zh) 语音会议管理方法、装置、设备及介质
CN113450793A (zh) 用户情绪分析方法、装置、计算机可读存储介质及服务器
CN112542178B (zh) 音频数据处理方法及装置
CN114826804B (zh) 一种基于机器学习的远程会议质量监控的方法和系统
CN113722532A (zh) 音频讨论引导方法、装置及计算机设备
US20230223033A1 (en) Method of Noise Reduction for Intelligent Network Communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant