CN110475093A - 一种活动调度方法、装置及存储介质 - Google Patents
一种活动调度方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110475093A CN110475093A CN201910763422.7A CN201910763422A CN110475093A CN 110475093 A CN110475093 A CN 110475093A CN 201910763422 A CN201910763422 A CN 201910763422A CN 110475093 A CN110475093 A CN 110475093A
- Authority
- CN
- China
- Prior art keywords
- participant
- activity
- sound
- incidence relation
- physical trait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000002452 interceptive effect Effects 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 2
- 230000001755 vocal effect Effects 0.000 description 45
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种活动调度方法、装置及存储介质,用于改善使用传统方式来判定发言者的正确率不高的问题。该方法包括:对在活动中预设时间段内采集的多个活动参与者的图像进行识别,获得第一识别结果;对在活动中预设时间段内采集的活动现场声音进行识别,获得第二识别结果;若第一识别结果表明多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且第二识别结果表明活动现场声音中仅识别出一个参与者的声音特征,则在关联关系表中建立唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系;根据关联关系表进行活动调度。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种活动调度方法、装置及存储介质。
背景技术
在视频会议的过程中,常常需要频繁地切换视频画面,便于摄像头拍摄正在发言的讲话人,以方便视频会议中的所有人观看讲话人的视频,例如:视频会议开始的时候的预先设定的镜头经常是一直不动的,一般在视频会议中有两个发言者:一个是主持人,一个人是主讲嘉宾,视频会议的观众会从视频里观看主持人或主讲嘉宾的发言。
传统的判定发言者的方式是将有嘴型变化的参与者作为发言者,然而在实际地实施过程中,常常发现使用传统方式来判定发言者的错误率很高。因此,现有技术中存在着使用传统方式来判定发言者的正确率不高的问题。
发明内容
本申请实施例的目的在于提供一种活动调度方法、装置及存储介质,用于改善使用传统方式来判定发言者的正确率不高的问题。
第一方面,本申请实施例提供了一种活动调度方法,应用于计算设备,该方法包括:对在活动中预设时间段内采集的多个活动参与者的图像进行识别,获得第一识别结果;对在所述活动中所述预设时间段内采集的活动现场声音进行识别,获得第二识别结果;若所述第一识别结果表明所述多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且所述第二识别结果表明所述活动现场声音中仅识别出一个参与者的声音特征,则在关联关系表中建立所述唇部发生符合发声定义的变化的参与者的身体特征与所述声音特征的关联关系;根据所述关联关系表进行活动调度。在上述的实现过程中,若在预设时间段内同时识别出一个参与者在唇动和一个参与者的声音特征,则在关联关系表中建立参与者的身体特征和声音特征的关联关系,有效地减少了关联关系表中的关联关系建立的错误率,根据该关联关系表进行活动调度时,可以提高判定发言者的正确率,从而提高活动调度的准确率。
在第一方面的一些实现方式中,所述根据所述关联关系表进行活动调度,包括:对在所述活动中采集的活动现场声音进行识别,获得第一声音特征;在所述关联关系表中查找与所述第一声音特征关联的第一身体特征;在采集的活动现场图像中确定与所述第一身体特征匹配的第一参与者的第一位置;根据所述第一位置向交互设备发送控制信号,所述控制信号用于使所述交互设备定向至所述第一位置。在上述的实现过程中,根据与第一身体特征匹配的参与者的位置进行调度,有效地增加了交互设备对活动调度的精确度。
在第一方面的一些实现方式中,在所述根据所述第一位置向交互设备发送控制信号之前,还包括:确定所述活动现场图像中所述第一参与者的唇部发生符合发声定义的变化。在上述的实现过程中,确定与第一身体特征匹配的参与者的唇部发生符合发声定义的变化,才根据与第一身体特征匹配的参与者的位置进行调度,有效地增加了交互设备对活动调度的正确率。
在第一方面的一些实现方式中,所述交互设备包括图像采集设备,所述根据所述第一位置向交互设备发送控制信号,包括:根据所述第一位置向所述图像采集设备发送控制信号,所述控制信号用于使所述图像采集设备转向或靠近所述第一位置。在上述的实现过程中,根据与第一身体特征匹配的参与者的位置进行调度,有效地增加了图像采集设备对活动调度的精确度。
在第一方面的一些实现方式中,本申请实施例中,所述交互设备包括声音采集设备,所述根据所述第一位置向交互设备发送控制信号,包括:根据所述第一位置和所述声音采集设备所在的第二位置,计算所述第一位置相对所述第二位置的相对位置;根据所述相对位置向所述声音采集设备发送的控制信号,所述控制信号用于使所述声音采集设备定向或靠近所述相对位置。在上述的实现过程中,根据与第一身体特征匹配的参与者的第一位置与声音采集设备的第二位置的相对位置进行调度,有效地增加了声音采集设备对活动调度的精确度。
在第一方面的一些实现方式中,所述根据所述关联关系表进行活动调度,包括:对在所述活动中采集的活动现场声音进行识别,获得第二声音特征;在所述关联关系表中查找与所述第二声音特征关联的第二身体特征;向图像采集设备发送所述第二身体特征,以使所述图像采集设备确定与所述第二身体特征匹配的第二参与者,并对所述第二参与者进行定向或靠近所述第二参与者,以采集所述第二参与者的图像。在上述的实现过程中,通过识别发声者的声音特征,并根据声音特征查找关联关系表获得发声者的第二身体特征,再让图像采集设备根据第二身体特征进行调度,有效地增加了图像采集设备对活动调度的灵活性。
在第一方面的一些实现方式中,在所述根据所述关联关系表进行活动调度之前,还包括:在关联关系表中查询所述唇部发生符合发声定义的变化的参与者的身体特征与所述声音特征的关联关系,获得所述关联关系的关联次数;判断所述关联关系的关联次数是否大于预设次数;若否,则将所述关联关系的关联次数增加一次;若是,则跳转至执行所述根据所述关联关系表进行活动调度的步骤。在上述的实现过程中,通过先判断关联关系的关联次数大于预设次数,才根据关联关系表进行活动调度,通过在实践中发现,偶然错误识别的情况例如:识别出在唇动的参与者和声音特征的参与者不是同一个参与者,例如没有拍摄到发声的参与者的脸部,且有参与者正在模仿发声的参与者的口型,就错误地建立了一次关联关系。因此,通过判断关联关系的关联次数是否大于预设次数,可有效减少偶然地错误识别的情况,从而提高了判定发言者的正确率。
在第一方面的一些实现方式中,所述根据所述关联关系表进行活动调度,包括:在活动现场图像中确定唇部发生符合发声定义的变化的参与者的第三身体特征;在所述关联关系表中查找与所述第三身体特征关联的第三声音特征;根据所述第三声音特征向声音采集设备发送控制信号,所述控制信号用于使所述声音采集设备对所述第三声音特征匹配的声音进行优化。
第二方面,本申请实施例还提供了一种活动调度方法,应用于图像采集设备,包括:接收计算设备发送的第二身体特征;在采集的活动现场图像中确定与所述第二身体特征匹配的第二参与者的第二位置;若所述第二参与者的唇部发生符合发声定义的变化,则使所述图像采集设备定向或靠近所述第二位置,以采集所述第二参与者的图像。在上述的实现过程中,通过让图像采集设备根据计算设备发送的第二身体特征进行调度,有效地增加了图像采集设备对活动调度的灵活性。
第三方面,本申请实施例还提供了一种活动调度装置,应用于计算设备,包括:第一结果获得模块,用于对在活动中预设时间段内采集的多个活动参与者的图像进行识别,获得第一识别结果;第二结果获得模块,用于对在所述活动中所述预设时间段内采集的活动现场声音进行识别,获得第二识别结果;关联关系建立模块,用于若所述第一识别结果表明所述多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且所述第二识别结果表明所述活动现场声音中仅识别出一个参与者的声音特征,则在关联关系表中建立所述唇部发生符合发声定义的变化的参与者的身体特征与所述声音特征的关联关系;活动调度进行模块,用于根据所述关联关系表进行活动调度。
在第三方面的一些实现方式中,所述活动调度进行模块包括:第一声音特征模块,用于对在所述活动中采集的活动现场声音进行识别,获得第一声音特征;第一身体特征模块,用于在所述关联关系表中查找与所述第一声音特征关联的第一身体特征;第一位置确定模块,用于在采集的活动现场图像中确定与所述第一身体特征匹配的第一参与者的第一位置;第一信号发送模块,用于根据所述第一位置向交互设备发送控制信号,所述控制信号用于使所述交互设备定向至所述第一位置。
在第三方面的一些实现方式中,还包括:唇部变化确定模块,用于确定所述活动现场图像中所述第一参与者的唇部发生符合发声定义的变化。
在第三方面的一些实现方式中,所述交互设备包括图像采集设备,所述活动调度进行模块包括:第二信号发送模块,用于根据所述第一位置向所述图像采集设备发送控制信号,所述控制信号用于使所述图像采集设备转向或靠近所述第一位置。
在第三方面的一些实现方式中,所述交互设备包括声音采集设备,所述活动调度进行模块包括:相对位置计算模块,用于根据所述第一位置和所述声音采集设备所在的第二位置,计算所述第一位置相对所述第二位置的相对位置;第三信号发送模块,用于根据所述相对位置向所述声音采集设备发送的控制信号,所述控制信号用于使所述声音采集设备定向或靠近所述相对位置。
在第三方面的一些实现方式中,所述活动调度进行模块包括:第二声音特征模块,用于对在所述活动中采集的活动现场声音进行识别,获得第二声音特征;第二身体特征模块,用于在所述关联关系表中查找与所述第二声音特征关联的第二身体特征;身体特征发送模块,用于向图像采集设备发送所述第二身体特征,以使所述图像采集设备确定与所述第二身体特征匹配的第二参与者,并对所述第二参与者进行定向或靠近所述第二参与者,以采集所述第二参与者的图像。
在第三方面的一些实现方式中,还包括:关联次数获得模块,用于在关联关系表中查询所述唇部发生符合发声定义的变化的参与者的身体特征与所述声音特征的关联关系,获得所述关联关系的关联次数;关联次数判断模块,用于判断所述关联关系的关联次数是否大于预设次数;第一分支执行模块,用于若所述关联关系的关联次数小于或等于所述预设次数,则将所述关联关系的关联次数增加一次;第二分支执行模块,用于若所述关联关系的关联次数大于所述预设次数,则跳转至执行所述根据所述关联关系表进行活动调度。
在第三方面的一些实现方式中,所述交互设备包括:图像采集设备、声音采集设备、图像输出设备或声音输出设备。
在第三方面的一些实现方式中,所述活动调度进行模块包括:第三身体特征模块,用于在活动现场图像中确定唇部发生符合发声定义的变化的参与者的第三身体特征;第三声音特征模块,用于在所述关联关系表中查找与所述第三身体特征关联的第三声音特征;第四信号发送模块,用于根据所述第三声音特征向声音采集设备发送控制信号,所述控制信号用于使所述声音采集设备对所述第三声音特征匹配的声音进行优化。
第四方面,本申请实施例还提供了一种活动调度装置,应用于图像采集设备,包括:身体特征接收模块,用于接收计算设备发送的第二身体特征;第二位置确定模块,用于在采集的活动现场图像中确定与所述第二身体特征匹配的第二参与者的第二位置;第二位置定向模块,用于若所述第二参与者的唇部发生符合发声定义的变化,则使所述图像采集设备定向或靠近所述第二位置,以采集所述第二参与者的图像。
第五方面,本申请实施例还提供了一种计算设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行第一方面所述的活动调度方法或者第一方面的任一可选实现方式。
第六方面,本申请实施例还提供了一种图像采集设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行第二方面所述的活动调度方法。
第七方面,本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面、第一方面的任一可选实现方式或者第二方面所述的活动调度方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的计算设备的活动调度方法流程示意图;
图2示出的本申请实施例提供的发送控制信号的第一类实施方式示意图;
图3示出的本申请实施例提供的步骤S440的第一种实施方法示意图;
图4示出的本申请实施例提供的步骤S440的第二种实施方法示意图;
图5示出的本申请实施例提供的图像采集设备的活动调度方法流程示意图;
图6示出的本申请实施例提供的活动调度装置结构示意图;
图7示出的本申请实施例提供的计算设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例中的技术方案之前,先介绍现有技术中判定发言者的技术方案,传统的判定发言者的方法是将有嘴型变化的参与者作为发言者,然而这种方式可能会错误地将一些没有发言,却有嘴型变化的人作为发言者。
第一实施例
请参见图1示出的本申请实施例提供的计算设备的活动调度方法流程示意图;该方法可以由计算设备来执行,这里的计算设备可以是具有执行计算机程序功能的设备终端,设备终端例如:个人电脑、网络交换机、网络路由器或台式主机等;当然这里的计算设备也可以是服务器,该服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。上述由计算设备执行的方法可以包括如下步骤:
步骤S100:对在活动中预设时间段内采集的多个活动参与者的图像进行识别,获得第一识别结果。
这里的活动是指多人参与的有图像采集和声音采集的活动,例如视频会议、现场拍戏、新闻实时播报或者录播等等。活动参与者是指参与上述活动的参与者,例如:参与视频会议的员工、现场拍戏中的演员、新闻实时播报或者录播的主持人或主讲嘉宾等等。预设时间段是指采集到足以识别出身体特征的视频流以及采集到足以识别出声音特征的音频流的时间段,预设时间段的长度是可以根据具体情况进行设置的,例如:采集到足以识别出身体特征的视频流的时间段为m秒,采集到足以识别出声音特征的音频流的时间段为n秒,若m>n,则预设时间段可以设置为m秒,若m<n,则预设时间段可以设置为n秒;又例如:声音特征识别需要检测的时长为(virtual time,VT),即采集到足以识别出声音特征的音频流的理论时长至少为VT;这里的VT是个预先设置参数,比如VT=5秒,表示一次检测出声纹检测时长至少为5秒,然而在具体的实施过程中发现,从5秒的音频流识别出声纹特征的准确率达到70%;可以根据实际情况适当地将VT设置得大一点,可以将VT设置为6秒,从6秒的音频流识别出声纹特征的准确率达到90%;再将VT设置为7秒,从7秒的音频流识别出声纹特征的准确率达到95%。若识别出声音特征的准确率大于95%满足实际的场景需求,且满足识别出身体特征的相关需求,则可以将上述的预设时间段设置为7秒,可以提高识别出声纹特征的准确率。
在具体的实施过程中,获得第一识别结果的方式例如,实时采集多个活动参与者的脸部图像,可以识别多个活动参与者的脸部图像中的参与者的唇部是否发生变化,也可以计算多个活动参与者中唇部发生变化的参与者的数量。
为了便于说明,下面的例子是以身体特征为人脸特征进行说明,当然可以理解的是,本申请实施例的身体特征可以是指活动参与者的人身上的面貌或体貌等特征,这里的身体特征例如:人脸特征、外貌特征和姿势特征等等。这里以事先获取多个参与者的人脸特征举例,并建立人脸特征表,在新闻实时播报或者录播的场景中,实时从采集的视频流中抓取人脸特征,比如主持人A的人脸特征为人脸A,嘉宾B的人脸特征为人脸B,人脸特征表中记录当前学习到人脸特征,比如人脸特征表={人脸A,人脸B},因此,可以理解的是,若识别身体特征,则身体特征表={身体A,身体B}。
步骤S200:对在活动中预设时间段内采集的活动现场声音进行识别,获得第二识别结果。
可以理解的是,这里的预设时间段和上述的预设时间段是同一个时间段。
在具体的实施过程中,获得第二识别结果的方式例如,实时活动现场声音的音频流,可以识别该音频流中的参与者的声音特征,也可以识别该音频流中多个参与者的声音特征的参与者个数。
在具体的实施过程中,在对活动现场进行识别之前,即在步骤S200之前,可以事先获取多个参与者的声音特征,并建立声音特征表,也被称为声纹表,也可以在建立下面的关联关系表时再获取多个参与者的声音特征,这里的声音特征也可以被称为声纹,声纹是用于区别多个参与者的,即判断一段声音是否为某个参与者的声音。这里以事先获取多个参与者的声纹,并建立声纹表为例,通过声音采集设备采集的音频流,该音频流记录着不同的声纹,比如主持人A的声纹记录为声纹A,嘉宾B的声纹记录为声纹B,则在声纹表中记录当前学习到的声纹信息,比如声纹表={声纹A,声纹B}。
步骤S300:若第一识别结果表明多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且第二识别结果表明活动现场声音中仅识别出一个参与者的声音特征,则在关联关系表中建立唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系。
符合发声定义的变化,是指符合通用的部分和说话时嘴唇相关的动作单元类型,例如:通常说的读唇语,唇动的变化和说话者的唇动一致,具体来说,动作单元(actionunit,AU)类型例如(“-”符号前面为AU标号,“-”符号后面为AU描述):AU10-上唇上扬,AU12-嘴角上扬,AU14-收紧嘴角,AU15-嘴角下拉,AU16-下嘴唇下压,AU18-嘴唇褶皱,AU20-嘴唇伸展,AU23-嘴唇收缩,AU24-嘴唇压紧,AU25-上下嘴唇分开。
在具体的实施过程中,该方法步骤的具体实施方式例如:可以统计多个活动参与者中唇部发生符合发声定义的变化的参与者的数量为一,且统计活动现场声音中的音频流中多个参与者的声音特征的参与者个数也为一,则在关联关系表中建立唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系。
在本申请实施例中,步骤S300可以有两种实施方法:第一种方法,不维护关联关系的关联次数的实施方法,第二种方法,在查询前要维护关联关系表的关联次数的实施方法,下面将分别介绍这两种方法:
第一种方法,不维护关联关系的关联次数的实施方法,该方法可以包括如下步骤:
步骤S301:在关联关系表中建立唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系。
该方法步骤的具体实施方式例如:当步骤S100中的第一识别结果表明多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且步骤S200中的第二识别结果表明活动现场声音中仅识别出一个参与者的声音特征时,则在关联关系表中建立唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系,那么该关联关系表可以表示为{{身体A,声纹B}},其中,身体A为识别出多个活动参与者中唇部发生符合发声定义的变化的参与者的身体特征,声纹B为同时识别出活动现场声音中的音频流中的声音特征。在此之后,识别出多个活动参与者中唇部发生符合发声定义的变化的参与者的身体特征为身体B,同时识别出活动现场声音中的音频流中的声音特征为声纹C,则在关联关系表中记录该关联关系,因此,关联关系表为{{身体A,声纹B},{身体B,声纹C}}。因此,该关联关系表可以表示为{{身体1,声纹1},{身体2,声纹2},……,{身体n,声纹n}},其中,n>=1。
第二种方法,维护关联关系的关联次数的实施方法,该实施方法可以包括如下步骤:
步骤S302:在关联关系表中建立唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系,并将关联次数设置为1。
可以理解的是,步骤S302与步骤S301类似,区别在于步骤S302在建立关联关系表时,可以同时记录关联关系的次数,并且关联关系的次数在初次建立的时候,该关联关系的次数均为1。在具体的实施过程中,若在关联关系表中记录了关联关系的次数,则关联关系表应为{{身体A,声纹B,1},{身体B,声纹C,1}}。
在本申请实施例的另一种实施方式中,当再次将关联关系的关联次数增加1时,增加关联次数也有两种实施方式,第一种实施方式,可以直接将对应的关联关系的关联次数直接加1,第二种实施方式,先判断在关联关系表中的对应的关联关系的关联次数是否大于预设次数,若否,则将该关联次数加1;下面将详细介绍这两种方式:
增加关联次数的第一种实施方式,可以直接将对应的关联关系的关联次数直接加1,可以包括如下步骤:
步骤S303:将关联关系的关联次数增加1。
增加关联次数的第二种实施方式,先判断在关联关系表中的对应的关联关系的关联次数是否大于预设次数,若否,则将该关联次数加1;可以包括如下步骤:
步骤S304:当再次在关联关系表中将该关联关系的关联次数增加1时,则判断关联关系的关联次数是否大于预设次数。
这里的预设次数可以根据实际情况进行调整,预设次数可以为3,也可以为5,也可以为10;为了便于说明,这里以预设次数为3进行说明。
步骤S305:若关联关系的关联次数小于或等于预设次数,则将关联关系的关联次数增加1。
在关联关系表{{身体A,声纹B,1},{身体B,声纹C,1}}中查询{身体A,声纹B}的关联次数为1,则这里的关联关系的关联次数1是小于预设次数3的。因此,应将关联关系的关联次数增加一次,即获得新的关联关系表{{身体A,声纹B,2},{身体B,声纹C,1}}。
步骤S306:在关联关系表中查询唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系,获得关联关系的关联次数。
当然,若采集身体特征的视频流的开始时间以及采集声音特征的音频流的开始时间均为(Start Time,ST),则从ST到ST+VT时间段内,识别出多个活动参与者中唇部发生符合发声定义的变化的参与者的身体特征为身体A,同时识别出活动现场声音中的音频流中的声音特征为声纹B,则在关联关系表中查询{身体A,声纹B}的关联次数为1。
在具体的实施过程中,若从ST到ST+VT时间段内,识别到多个声纹,则关联关系表保持不变;若从ST到ST+VT时间段内,没有识别到人脸,则关联关系表保持不变;若从ST到ST+VT时间段内,识别到人脸,但该人脸中的唇部没有发生符合发声定义的变化,则关联关系表保持不变;若从ST到ST+VT时间段内,识别到人脸,且该人脸中的唇部发生符合发声定义的变化,但没有识别出声纹,则关联关系表保持不变。
步骤S400:根据关联关系表进行活动调度。
在上述的实现过程中,若在预设时间段内同时识别出一个参与者在唇动和一个参与者的声音特征,则在关联关系表中建立参与者的身体特征和声音特征的关联关系,有效地减少了关联关系表中的关联关系建立的错误率,根据该关联关系表进行活动调度时,可以提高判定发言者的正确率,从而提高活动调度的准确率。
在具体的实施过程中,关联关系表的应用方式有两种:一种方式为先识别出参与者的声音特征,然后在关联关系表中查找到与声音特征关联的身体特征;另一种方式为先识别出参与者的身体特征,然后在关联关系表中查找到与身体特征关联的声音特征。其中,根据关联关系表是否维护有关联次数也有不同的应用方法,两者的区别在于,若关联关系表维护有关联次数,则在进行活动调度前,需要判断对应的声音特征与身体特征的关联次数是否大于预设次数,若该关联次数大于预设次数,才进行活动调度,详细地步骤内容如下;
步骤S401:确定唇部发生符合发声定义的变化的参与者的身体特征与声音特征关联关系的关联次数大于预设次数。
可以理解的是,步骤S401可以在步骤S400之前执行,以防止偶然识别出在唇动的参与者和声音特征的参与者不是同一个参与者的情况。当然,在本申请实施例的另一种实施方式中,步骤S401也可以不执行,也就是说,步骤S401不是必须要执行的步骤。
在上述的实现过程中,通过先判断关联关系的关联次数大于预设次数,才根据关联关系表进行活动调度,通过在实践中发现,有时候会出现错误识别的情况,这些偶然的情况例如:识别出在唇动的参与者和声音特征的参与者不是同一个参与者,例如没有拍摄到发声的参与者的脸部,且有参与者正在模仿发声的参与者的口型,就错误地建立了一次关联关系。因此,通过判断关联关系的关联次数是否大于预设次数,可有效减少偶然地错误识别的情况,从而提高了判定发言者的正确率。
在本申请实施例中,步骤S400的实施方式有很多,下面仅列举三类实施方式,第一类实施方式,根据参与者的位置发送控制信号,第二类实施方式,根据参与者的身体特征发送控制信号,第三类实施方式,根据参与者的声音特征发送控制信号,具体的实施方式介绍如下:
发送控制信号的第一类实施方式,根据参与者的位置发送控制信号的方式,步骤S400可以包括:
步骤S410:对在活动中采集的活动现场声音进行识别,获得第一声音特征。
活动现场声音是指在上述活动现场上使用声音采集装置采集的声音,在具体的实施过程中,对在活动中采集的活动现场声音进行识别,即识别出活动现场声音中的音频流中的第一声音特征为声纹B。
步骤S420:在关联关系表中查找与第一声音特征关联的第一身体特征。
继续以上面的例子进行说明,在关联关系表{{身体A,声纹B},{身体B,声纹C}}中查找与声纹B关联的第一身体特征,第一身体特征为{身体A}。当然,若在关联关系表{{身体A,声纹B,4},{身体B,声纹C,1}}中维护了关联次数,则还需要在查找到与声纹B关联的第一身体特征之后,判断该关联次数是否大于预设次数,例如,这里就需要判断关联次数4是否大于预设次数。
步骤S430:在采集的活动现场图像中确定与第一身体特征匹配的第一参与者的第一位置。
请参见图2示出的本申请实施例提供的发送控制信号的第一类实施方式示意图;这里的活动现场图像是由图像采集设备采集获得的,图中的外边框为该图像采集设备的外边框,例如摄像机或者照相机的边框;左边的第一参与者为镜头中的主持人,第一参与者的身体特征为{身体A},中间的第二参与者为第一嘉宾,第二参与者的身体特征为{身体B},右边的第三参与者为第三嘉宾,第三参与者的身体特征为{身体C}。这里的第一位置,是指与第一身体特征匹配的第一参与者的身上的某个位置,例如:身体中心点位置、上半身中心点位置或脸部中心点位置等等。该方法的具体实施方式例如:通过在采集的活动现场图像中识别与第一身体特征{身体A}匹配的第一参与者的第一位置。
步骤S440:根据第一位置向交互设备发送控制信号,控制信号用于使交互设备定向至第一位置。
交互设备,是指能够与参与者发生交互的设备,即采集参与者信息或者向参与者发送信息的设备,因此,交互设备可以分为信息输入设备和信息输出设备,具体地,信息输入设备可以包括:按压输入设备、触控输入设备、图像采集设备和声音采集设备等,按压输入设备例如:鼠标和机械式键盘,触控输入设备例如:触控笔或触控屏幕,其中触控屏幕可以通过手指或者触控笔接受输入信号,图像采集设备例如:摄像头和照相机等,声音采集设备例如:麦克风、话筒和录音笔等;信息输出设备可以包括:图像输出设备和声音输出设备等,图像输出设备例如:显示屏和投影仪等,声音输出设备例如:音响、外置耳机和内置耳机等。
在具体的实施过程中,根据第一位置向交互设备发送控制信号的实施方式有很多种,例如:1、向交互设备发送包括第一位置的控制信号;2、根据第一位置计算交互设备需要转向的偏转角度,向交互设备发送包括偏转角度的控制信号等等方式。因此,根据第一位置向交互设备发送控制信号的具体实施方式不应理解为对本申请实施例的限制。
可选的,在步骤S440之前还需要确定第一参与者的唇部是否发生符合发声定义的变化,若该第一参与者的唇部发生符合发声定义的变化,才根据第一参与者对应的第一位置向交互设备发送控制信号,该步骤的具体内容可以包括:
步骤S450:确定活动现场图像中第一参与者的唇部发生符合发声定义的变化。
可以理解的是,可以先查找与第一身体特征匹配的第一参与者的第一位置,然后确定活动现场图像中第一参与者的唇部发生符合发声定义的变化;也可以先确定活动现场图像中第一参与者的唇部发生符合发声定义的变化,然后再查找与第一身体特征匹配的第一参与者的第一位置;也可以两个步骤不相互关联,例如:分配两个进程或线程分别去执行这两个任务。因此,上述的步骤S430和步骤S450均在步骤S440之前执行,但是步骤S430可以在步骤S450之前执行,步骤S430也可以在步骤S450之后执行,步骤S430和步骤S450的执行顺序却不应理解为对本申请实施例的限制。
在上述过程中,通过先判断第一参与者的唇部发生变化有效地防止第一参与者在步骤S430之后没有说话的情况,因此,该步骤可以极大地增加判断发言者的正确率。
在本申请实施例中,步骤S440的具体实施方法有很多种,这里仅列举如下几种实施方法:
第一种实施方法,向图像采集设备发送控制信号的方法包括:
步骤S441:根据第一位置向图像采集设备发送控制信号,控制信号用于使图像采集设备转向或靠近第一位置。
请参见图3示出的本申请实施例提供的步骤S440的第一种实施方法示意图;图中的具体解释和描述请见图2中的解释和描述。根据第一位置向图像采集设备发送控制信号,控制信号用于使图像采集设备转向或靠近第一位置,这里为了便于说明,仅以使图像采集设备转向为进行说明,使图像采集设备转向图2左边的主持人,图像采集设备转向后的效果见图3。当然,在具体的实施方式过程中,还有更多的调度方法,例如:转向后对参与者进行对焦和变焦、对转向后的图像进行过滤处理等等。
在上述的实现过程中,根据与第一身体特征匹配的参与者的位置进行调度,有效地增加了图像采集设备对活动调度的精确度。
第二种实施方法,向声音采集设备发送控制信号的方法包括:
步骤S442:根据第一位置和声音采集设备所在的第二位置,计算第一位置相对第二位置的相对位置。
请参见图4示出的本申请实施例提供的步骤S440的第二种实施方法示意图;图中的A、B、C和D表示四个参与者的位置,具体地,A为第一参与者,则A框为第一参与者的第一位置,图中的三角形为声音采集设备的第二位置,其中三角形的一角即为声音采集设备的采集方向,声音采集设备的采集方向指向了第二参与者B的方向,第一位置相对第二位置的相对位置为北方的位置。在具体的实施过程中,上述方法步骤的具体方式例如:若计算设备根据第一位置计算声音采集设备需要转向的偏转角度为-90度(正值表示顺时针旋转90度,负值表示逆时针旋转90度),则计算设备向声音采集设备发送包括偏转角度为-90度的控制信号,那么上述的三角形的声音采集设备的指向应该从指向第二参与者B的方向,逆时针旋转90度指向第一参与者A的方向。
步骤S443:根据相对位置向声音采集设备发送的控制信号,控制信号用于使声音采集设备定向或靠近相对位置。
当然,在具体的实施方式过程中,还有更多对声音采集设备的调度方法,例如:在圆桌视频会议中,若声音采集设备是麦克风矩阵,可以使麦克风矩阵定向至第一位置相对第二位置的相对位置,若声音采集设备是话筒,每一位参与者面前都放置一个话筒,则可以开启相对位置的话筒,而关闭其它位置的话筒等等。
在上述的实现过程中,根据与第一身体特征匹配的参与者的第一位置与声音采集设备的第二位置的相对位置进行调度,有效地增加了声音采集设备对活动调度的精确度。
发送控制信号的第二类实施方式,根据参与者的身体特征发送控制信号,步骤S400还可以包括:
步骤S451:对在活动中采集的活动现场声音进行识别,获得第二声音特征。
该步骤的执行方法和原理与步骤S410的执行方法和原理类似,因此这里不再赘述。
步骤S452:在关联关系表中查找与第二声音特征关联的第二身体特征。
该步骤的执行方法和原理与步骤S420的执行方法和原理类似,因此这里不再赘述。
步骤S453:向图像采集设备发送第二身体特征,以使图像采集设备确定与第二身体特征匹配的第二参与者,并对第二参与者进行定向或靠近第二参与者,以采集第二参与者的图像。
在上述的实现过程中,通过识别发声者的声音特征,并根据声音特征查找关联关系表获得发声者的第二身体特征,再让图像采集设备根据第二身体特征进行调度,有效地增加了图像采集设备对活动调度的灵活性。
发送控制信号的第三类实施方式,根据参与者的声音特征发送控制信号,步骤S400还可以包括:
步骤S461:在活动现场图像中确定唇部发生符合发声定义的变化的参与者的第三身体特征。
步骤S462:在关联关系表中查找与第三身体特征关联的第三声音特征。
该步骤的执行方法和原理与步骤S420的执行方法和原理类似,区别在于上述的步骤S420是根据声音特征查找与声音特征关联的身体特征,而本步骤中是根据身体特征查找与身体特征关联的声音特征,因此这里不再赘述。
步骤S463:根据第三声音特征向声音采集设备发送控制信号,控制信号用于使声音采集设备对第三声音特征匹配的声音进行优化。
请参见图5示出的本申请实施例提供的图像采集设备的活动调度方法流程示意图;本申请实施例提供了一种活动调度方法,应用于图像采集设备,该活动调度方法包括:
步骤S510:图像采集设备接收计算设备发送的第二身体特征。
这里的图像采集设备是指可以根据身体特征查找与身体特征匹配的参与者的设备,图像采集设备例如:该图像采集设备具有比较强的计算能力,具体地,带摄像头和计算芯片的无人机,该无人机可以内置图像识别算法。
步骤S520:图像采集设备在采集的活动现场图像中确定与第二身体特征匹配的第二参与者的第二位置。
该步骤的执行方法和原理与步骤S430的执行方法和原理类似,因此这里不再赘述。
步骤S530:若第二参与者的唇部发生符合发声定义的变化,则使图像采集设备定向或靠近第二位置,以采集第二参与者的图像。
以上面无人机的例子继续进行说明,该无人机识别到现场的参与者的唇部发生符合发声定义的变化,则无人机可以对该参与者进行跟踪拍摄或采集图像。
在上述的实现过程中,通过让图像采集设备根据计算设备发送的第二身体特征进行调度,有效地增加了图像采集设备对活动调度的灵活性。
第二实施例
请参见图6示出的本申请实施例提供的活动调度装置结构示意图;本申请实施例提供了一种活动调度装置100,应用于计算设备,该活动调度装置100包括:
第一结果获得模块110,用于对在活动中预设时间段内采集的多个活动参与者的图像进行识别,获得第一识别结果。
第二结果获得模块120,用于对在活动中预设时间段内采集的活动现场声音进行识别,获得第二识别结果。
关联关系建立模块130,用于若第一识别结果表明多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且第二识别结果表明活动现场声音中仅识别出一个参与者的声音特征,则在关联关系表中建立唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系。
活动调度进行模块140,用于根据关联关系表进行活动调度。
可选地,在本申请实施例中,活动调度进行模块可以包括:
第一声音特征模块,用于对在活动中采集的活动现场声音进行识别,获得第一声音特征。
第一身体特征模块,用于在关联关系表中查找与第一声音特征关联的第一身体特征。
第一位置确定模块,用于在采集的活动现场图像中确定与第一身体特征匹配的第一参与者的第一位置。
第一信号发送模块,用于根据第一位置向交互设备发送控制信号,控制信号用于使交互设备定向至第一位置。
可选地,在本申请实施例中,还包括:
唇部变化确定模块,用于确定活动现场图像中第一参与者的唇部发生符合发声定义的变化。
可选地,在本申请实施例中,交互设备包括图像采集设备,活动调度进行模块包括:
第二信号发送模块,用于根据第一位置向图像采集设备发送控制信号,控制信号用于使图像采集设备转向或靠近第一位置。
可选地,在本申请实施例中,交互设备包括声音采集设备,活动调度进行模块还包括:
相对位置计算模块,用于根据第一位置和声音采集设备所在的第二位置,计算第一位置相对第二位置的相对位置。
第三信号发送模块,用于根据相对位置向声音采集设备发送的控制信号,控制信号用于使声音采集设备定向或靠近相对位置。
可选地,在本申请实施例中,活动调度进行模块还可以包括:
第二声音特征模块,用于对在活动中采集的活动现场声音进行识别,获得第二声音特征。
第二身体特征模块,用于在关联关系表中查找与第二声音特征关联的第二身体特征。
身体特征发送模块,用于向图像采集设备发送第二身体特征,以使图像采集设备确定与第二身体特征匹配的第二参与者,并对第二参与者进行定向或靠近第二参与者,以采集第二参与者的图像。
可选地,在本申请实施例中,还可以包括:
关联次数获得模块,用于在关联关系表中查询唇部发生符合发声定义的变化的参与者的身体特征与声音特征的关联关系,获得关联关系的关联次数。
关联次数判断模块,用于判断关联关系的关联次数是否大于预设次数。
第一分支执行模块,用于若关联关系的关联次数小于或等于预设次数,则将关联关系的关联次数增加一次。
第二分支执行模块,用于若关联关系的关联次数大于预设次数,则跳转至执行根据关联关系表进行活动调度。
可选地,在本申请实施例中,交互设备包括:图像采集设备、声音采集设备、图像输出设备或声音输出设备。
可选地,在本申请实施例中,该活动调度进行模块包括:
第三身体特征模块,用于在活动现场图像中确定唇部发生符合发声定义的变化的参与者的第三身体特征。
第三声音特征模块,用于在关联关系表中查找与第三身体特征关联的第三声音特征。
第四信号发送模块,用于根据第三声音特征向声音采集设备发送控制信号,控制信号用于使声音采集设备对第三声音特征匹配的声音进行优化。
本申请实施例还提供了一种活动调度装置,应用于图像采集设备,包括:
身体特征接收模块,用于接收计算设备发送的第二身体特征。
第二位置确定模块,用于在采集的活动现场图像中确定与第二身体特征匹配的第二参与者的第二位置。
第二位置定向模块,用于若第二参与者的唇部发生符合发声定义的变化,则使图像采集设备定向或靠近第二位置,以采集第二参与者的图像。
应理解的是,该装置与上述的方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图7示出的本申请实施例提供的计算设备的结构示意图。本申请实施例提供的一种计算设备101,包括:处理器102和存储器103,存储器103存储有处理器102可执行的机器可读指令,机器可读指令被处理器102执行时可以执行步骤S100至步骤S400的方法步骤。
本申请实施例还提供了一种图像采集设备(未在图中示出),包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时可以执行步骤S510至步骤S530的方法步骤。
本申请实施例还提供了一种存储介质104,该存储介质104上存储有计算机程序,该计算机程序被处理器102运行时可以执行步骤S100至步骤S400,或者可以执行步骤S510至步骤S530的方法步骤。
其中,存储介质104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
再者,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种活动调度方法,其特征在于,应用于计算设备,该方法包括:
对在活动中预设时间段内采集的多个活动参与者的图像进行识别,获得第一识别结果;
对在所述活动中所述预设时间段内采集的活动现场声音进行识别,获得第二识别结果;
若所述第一识别结果表明所述多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且所述第二识别结果表明所述活动现场声音中仅识别出一个参与者的声音特征,则在关联关系表中建立所述唇部发生符合发声定义的变化的参与者的身体特征与所述声音特征的关联关系;
根据所述关联关系表进行活动调度。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关联关系表进行活动调度,包括:
对在所述活动中采集的活动现场声音进行识别,获得第一声音特征;
在所述关联关系表中查找与所述第一声音特征关联的第一身体特征;
在采集的活动现场图像中确定与所述第一身体特征匹配的第一参与者的第一位置;
根据所述第一位置向交互设备发送控制信号,所述控制信号用于使所述交互设备定向至所述第一位置。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述第一位置向交互设备发送控制信号之前,还包括:
确定所述活动现场图像中所述第一参与者的唇部发生符合发声定义的变化。
4.根据权利要求2所述的方法,其特征在于,所述交互设备包括图像采集设备,所述根据所述第一位置向交互设备发送控制信号,包括:
根据所述第一位置向所述图像采集设备发送控制信号,所述控制信号用于使所述图像采集设备转向或靠近所述第一位置。
5.根据权利要求2所述的方法,其特征在于,所述交互设备包括声音采集设备,所述根据所述第一位置向交互设备发送控制信号,包括:
根据所述第一位置和所述声音采集设备所在的第二位置,计算所述第一位置相对所述第二位置的相对位置;
根据所述相对位置向所述声音采集设备发送的控制信号,所述控制信号用于使所述声音采集设备定向或靠近所述相对位置。
6.根据权利要求1所述的方法,其特征在于,所述根据所述关联关系表进行活动调度,包括:
对在所述活动中采集的活动现场声音进行识别,获得第二声音特征;
在所述关联关系表中查找与所述第二声音特征关联的第二身体特征;
向图像采集设备发送所述第二身体特征,以使所述图像采集设备确定与所述第二身体特征匹配的第二参与者,并对所述第二参与者进行定向或靠近所述第二参与者,以采集所述第二参与者的图像。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述关联关系表进行活动调度之前,还包括:
在关联关系表中查询所述唇部发生符合发声定义的变化的参与者的身体特征与所述声音特征的关联关系,获得所述关联关系的关联次数;
判断所述关联关系的关联次数是否大于预设次数;
若否,则将所述关联关系的关联次数增加一次;
若是,则跳转至执行所述根据所述关联关系表进行活动调度的步骤。
8.一种活动调度方法,其特征在于,应用于图像采集设备,包括:
接收计算设备发送的第二身体特征;
在采集的活动现场图像中确定与所述第二身体特征匹配的第二参与者的第二位置;
若所述第二参与者的唇部发生符合发声定义的变化,则使所述图像采集设备定向或靠近所述第二位置,以采集所述第二参与者的图像。
9.一种活动调度装置,其特征在于,应用于计算设备,包括:
第一结果获得模块,用于对在活动中预设时间段内采集的多个活动参与者的图像进行识别,获得第一识别结果;
第二结果获得模块,用于对在所述活动中所述预设时间段内采集的活动现场声音进行识别,获得第二识别结果;
关联关系建立模块,用于若所述第一识别结果表明所述多个活动参与者中仅存在一个参与者的唇部发生符合发声定义的变化,且所述第二识别结果表明所述活动现场声音中仅识别出一个参与者的声音特征,则在关联关系表中建立所述唇部发生符合发声定义的变化的参与者的身体特征与所述声音特征的关联关系;
活动调度进行模块,用于根据所述关联关系表进行活动调度。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910763422.7A CN110475093A (zh) | 2019-08-16 | 2019-08-16 | 一种活动调度方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910763422.7A CN110475093A (zh) | 2019-08-16 | 2019-08-16 | 一种活动调度方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110475093A true CN110475093A (zh) | 2019-11-19 |
Family
ID=68511891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910763422.7A Pending CN110475093A (zh) | 2019-08-16 | 2019-08-16 | 一种活动调度方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110475093A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544270A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 结合语音识别且实时预测人脸追踪轨迹方法及装置 |
CN111526295A (zh) * | 2020-04-30 | 2020-08-11 | 北京臻迪科技股份有限公司 | 音视频处理系统、采集方法、装置、设备及存储介质 |
WO2021104110A1 (zh) * | 2019-11-30 | 2021-06-03 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452529A (zh) * | 2007-12-07 | 2009-06-10 | 索尼株式会社 | 信息处理设备和信息处理方法与计算机程序 |
CN102135882A (zh) * | 2010-01-25 | 2011-07-27 | 微软公司 | 语音-身体身份相关 |
CN103098491A (zh) * | 2010-09-13 | 2013-05-08 | 三星电子株式会社 | 用于执行麦克风波束成型的方法和设备 |
CN105512348A (zh) * | 2016-01-28 | 2016-04-20 | 北京旷视科技有限公司 | 用于处理视频和相关音频的方法和装置及检索方法和装置 |
US10178301B1 (en) * | 2015-06-25 | 2019-01-08 | Amazon Technologies, Inc. | User identification based on voice and face |
-
2019
- 2019-08-16 CN CN201910763422.7A patent/CN110475093A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452529A (zh) * | 2007-12-07 | 2009-06-10 | 索尼株式会社 | 信息处理设备和信息处理方法与计算机程序 |
CN102135882A (zh) * | 2010-01-25 | 2011-07-27 | 微软公司 | 语音-身体身份相关 |
CN103098491A (zh) * | 2010-09-13 | 2013-05-08 | 三星电子株式会社 | 用于执行麦克风波束成型的方法和设备 |
US10178301B1 (en) * | 2015-06-25 | 2019-01-08 | Amazon Technologies, Inc. | User identification based on voice and face |
CN105512348A (zh) * | 2016-01-28 | 2016-04-20 | 北京旷视科技有限公司 | 用于处理视频和相关音频的方法和装置及检索方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544270A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 结合语音识别且实时预测人脸追踪轨迹方法及装置 |
WO2021104110A1 (zh) * | 2019-11-30 | 2021-06-03 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
CN111526295A (zh) * | 2020-04-30 | 2020-08-11 | 北京臻迪科技股份有限公司 | 音视频处理系统、采集方法、装置、设备及存储介质 |
CN111526295B (zh) * | 2020-04-30 | 2023-02-28 | 臻迪科技股份有限公司 | 音视频处理系统、采集方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yoshioka et al. | Advances in online audio-visual meeting transcription | |
CN110475093A (zh) | 一种活动调度方法、装置及存储介质 | |
CN105512348B (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
JP6999734B2 (ja) | オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 | |
CN100474919C (zh) | 自动选择视频源的方法和自动视频切换系统 | |
Noulas et al. | Multimodal speaker diarization | |
US7373301B2 (en) | Method for detecting emotions from speech using speaker identification | |
CN114097027A (zh) | 讲话者归属的记录稿生成 | |
KR20210088435A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체 | |
JP2001092974A (ja) | 話者認識方法及びその実行装置並びに音声発生確認方法及び装置 | |
JP2010523025A (ja) | 目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法 | |
Schmalenstroeer et al. | Online diarization of streaming audio-visual data for smart environments | |
EP1260099A1 (en) | Method and apparatus for predicting events in video conferencing and other applications | |
US10964326B2 (en) | System and method for audio-visual speech recognition | |
CN111081234A (zh) | 一种语音采集方法、装置、设备及存储介质 | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
CN113052085A (zh) | 视频剪辑方法、装置、电子设备以及存储介质 | |
Navarathna et al. | Multiple cameras for audio-visual speech recognition in an automotive environment | |
KR20220041891A (ko) | 얼굴 정보를 데이터베이스에 입력하는 방법 및 설치 | |
US20150049247A1 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
CN114762039A (zh) | 一种会议数据处理方法及相关设备 | |
Wang et al. | The multimodal information based speech processing (misp) 2022 challenge: Audio-visual diarization and recognition | |
JP7204337B2 (ja) | 会議支援装置、会議支援システム、会議支援方法及びプログラム | |
Ronzhin et al. | Speaker turn detection based on multimodal situation analysis | |
CN113329138A (zh) | 视频拍摄方法、视频播放方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |
|
RJ01 | Rejection of invention patent application after publication |