CN111542876A - 信息处理装置、信息处理方法以及程序 - Google Patents
信息处理装置、信息处理方法以及程序 Download PDFInfo
- Publication number
- CN111542876A CN111542876A CN201980007295.6A CN201980007295A CN111542876A CN 111542876 A CN111542876 A CN 111542876A CN 201980007295 A CN201980007295 A CN 201980007295A CN 111542876 A CN111542876 A CN 111542876A
- Authority
- CN
- China
- Prior art keywords
- participant
- participants
- conversation
- image
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 76
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000012545 processing Methods 0.000 claims abstract description 86
- 238000004891 communication Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 238000004148 unit process Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 33
- 238000000034 method Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 24
- 238000003384 imaging method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Ophthalmology & Optometry (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明使得能够更详细地掌握会话的状态。通过处理语音信号来检测共享会话的每个参与者的发言。通过处理图像信号来检测共享会话的每个参与者的状态,例如,每个参与者的注视方向。基于每个参与者的发声和状态来判定会话的状态和存在。因此,与仅基于参与者的发声来判定会话的状态和存在时相比,可以更精确地判定会话的状态和存在。
Description
技术领域
本技术涉及信息处理装置、信息处理方法以及程序,并且更详细地,涉及用于掌握由多个参与者构建的会话(讨论、会议、群体工作、主动学习等)的情况的信息处理装置等。
背景技术
在会话中,掌握会话的情况是非常重要的。例如,专利文献1提出了记录并显示会话参与者的发言持续时间的技术。此外,例如,专利文献2提出了一种通过从由多个参与者佩戴的姓名标签型传感器获得的语音数据等掌握会话情况来呈现相关图的技术。这些技术能够通过加速度传感器来获取语音和诸如点头运动,但是这是不够的。
引文列表
专利文献
专利文献1:日本专利申请特开No.4-323689
专利文献2:日本专利申请特开No.2013-058221
发明内容
本发明要解决的问题
本技术的目的是允许更详细地掌握会话的情况。
问题的解决方案
本技术的概念是一种信息处理装置,包括:
语音处理单元,其从语音信号检测会话的多个参与者的发言;
图像处理单元,其从图像信号检测所述会话的所述多个参与者的状态;以及
判定单元,其基于所述多个参与者的发言和所述多个参与者的状态来判定所述会话的状态。
在本技术中,由语音处理单元从语音信号中检测会话的多个参与者的发言。此外,从图像信号检测会话的多个参与者的状态。然后,由判定单元基于多个参与者的发言和多个参与者的状态来判定会话的状态。
例如,会话的状态可以包括会话的参与者之间的会话关系。此外,例如,会话的状态可以包括发言的内容、发言的次数或发言的持续时间中的至少一项。另外,例如,会话的状态可以包括会话的建立。在这种情况下,例如,当参与者之一在看着会话的对方而正在说话时,可以判定会话已经建立。
例如,图像处理单元可以检测参与者之一正在看着的方向,作为参与者的状态之一。然后,在这种情况下,例如,图像处理单元可以从参与者之一的面部朝向或视线方向检测参与者之一正在看着的方向。
例如,当在第一参与者发言之后第二参与者发言并且第二参与者正在看的方向与第一个参与者的方向一致时,判定单元可以判定第一参与者与第二参与者之间存在会话。
如上所述,在本技术中,基于从语音信号检测到的会话的多个参与者的发言以及从图像信号检测到的会话的多个参与者的状态来判定会话的状态。因此,与仅通过参与者的发言来判定会话状态的技术相比,可以以更高的精度来判定会话状态。
注意,例如,本技术还可以包括图像生成单元,该图像生成单元生成用于会话的空间的平面地图图像,其中该平面地图图像可以包含示出参与会话的每个参与者的参与者显示,并且该平面地图图像可以包含基于检测到的会话连接对应的两个参与者显示的会话线。这使得可以例如从视觉上容易地识别谁与谁进行了会话。
例如,图像处理单元可以处理图像信号以进一步检测参与会话的每个参与者的位置,并且图像生成单元可以根据检测到的每个参与者的位置改变示出每个参与者的参与者显示在平面地图图像上的位置。这使得可以容易地在视觉上识别参与会话的每个参与者所处的位置。
此外,例如,图像生成单元可以根据每个参与者的会话次数来改变示出每个参与者的参与者显示在平面地图图像上的位置。在这种情况下,例如,随着会话数量的增加,图像生成单元可以将示出每个参与者的参与者显示的位置布置成更靠近平面地图图像的中心。这使得可以容易地在视觉上识别谁进行了更多数量的会话。另外,在这种情况下,例如,随着这两个参与者之间的会话数量增加,图像生成单元可以使两个参与者的参与者显示之间的间隔更近。这使得可以容易地在视觉上识别谁与谁进行了更多数量的会话。
例如,参与者显示可以具有与对应参与者的发言数量相应的大小。此外,例如,参与者显示可以被附加有示出对应参与者的发言数量的字符。这使得可以容易地在视觉上识别每个参与者的发言数量的程度。
例如,会话线可以具有与对应参与者之间的会话数量相应的粗细。此外,例如,会话线可以附加有示出对应参与者之间的会话数量的字符。这使得可以容易地在视觉上识别每两个参与者之间的会话数量的程度。
例如,可以进一步设置显示单元,该显示单元显示由图像生成单元生成的平面地图图像。这使得可以检查显示单元上的平面地图图像。此外,可以进一步设置保持例如由图像生成单元生成的平面地图图像的服务器。这使得可以从服务器再现和检查过去的平面地图图像。另外,可以进一步设置通信单元,该通信单元例如将由图像生成单元生成的平面地图图像发送到移动终端。这允许移动终端检查平面地图图像。
发明的效果
根据本技术,可以更详细地掌握会话的情况。注意,这里描述的效果不必是限制性的,并且可以应用本公开中描述的任何效果。
附图说明
图1是示出用作第一实施例的信息处理装置的配置示例的框图。
图2是示出用作第二实施例的信息处理装置的配置示例的框图。
图3是示出在其中进行会话的房间的平面图的示例的图。
图4是示出在其中进行会话的房间的平面图的另一示例的图。
图5是示出由图像生成单元生成的平面地图图像的示例的图。
图6是示出由图像生成单元生成的平面地图图像的另一示例的图。
图7是示出由图像生成单元生成的平面地图图像的另一示例的图。
图8是示出由图像生成单元生成的平面地图图像的另一示例的图。
图9是示出由图像生成单元生成的平面地图图像的另一示例的图。
图10是用于说明信息处理装置的处理流程的图。
图11是示出在大房间(会场)中的多个划分的组中进行会话的情况下的平面地图图像的示例的图。
图12是示出在位于另一房间中的参与者参加一个会话的情况下的平面地图图像的示例的图。
图13是示出在平面地图或地图外部的区域上显示除参与者显示、发言数量和会话数量以外的信息的情况下的平面地图图像的示例的图。
图14是用于说明根据每个参与者的会话数量来指定示出每个参与者的参与者显示的位置的示例的图。
图15是用于说明根据发言的持续时间来改变每个参与者的参与者显示的大小的情况的图。
图16是用于说明根据参与者的发言和会话的情况进行评估,并显示该评估的评估值的图。
图17是用于说明显示每个参与者的评估等级的图。
图18是示出监视器或移动终端上的画面显示示例的图。
图19是示出监视器或移动终端上的画面显示示例的图。
图20是示出监视器或移动终端上的画面显示示例的图。
图21是示出监视器或移动终端上的画面显示示例的图。
图22是示出监视器或移动终端上的画面显示示例的图。
图23是示出监视器或移动终端上的画面显示示例的图。
具体实施方式
以下将描述用于实施本发明的模式(在下文中,称为"实施例")。注意,将按以下顺序给出描述。
1.第一实施例
2.第二实施例
3.修改
<1.第一实施例>
[信息处理装置]
图1示出了用作第一实施例的信息处理装置100的配置示例。该信息处理装置100包括语音处理单元101、图像处理单元102和判定单元103。
向语音处理单元101提供通过利用麦克风检测参与会话(讨论、会议、群体工作、主动学习等)的每个参与者的语音而获得的语音信号。在这种情况下,可以使用附着到每个参与者的麦克风来检测语音,或者可以使用由多个麦克风构成的麦克风阵列来检测语音。
语音处理单元101从语音信号检测参与会话的多个参与者的发言。在这种情况下,例如,从针对每个参与者的语音信号测量音量,并且在所测量的音量等于或高于阈值的状态持续一定时间段或更长的情况下,判定有发言。在所测量的音量等于或高于阈值的状态被保持小于一定时间段的情况下,发声被认为与同意、拒绝、附和等有关,并且判定没有发言。
图像处理单元102被提供有通过利用相机捕获参与会话的参与者的图像而获得的图像信号。在这种情况下,可以将能够对整个周围环境进行成像的相机(诸如360度相机)布置在所有参与者的中心以对每个参与者进行成像,或者可以布置多个相机以覆盖整个周围环境以对每个参与者进行成像。
图像处理单元102从图像信号检测参与会话的多个参与者的状态。以这种方式检测到的参与者的状态是根据该参与者的发言判定会话的状态和存在所需的状态。例如,参与者的状态包括参与者正在看着的方向。为了检测参与者正在看着的方向,图像处理单元102通过图像处理来检测参与者的面部朝向或检测参与者的视线方向。
判定单元103基于由语音处理单元101检测到的多个参与者的发言以及由图像处理单元102检测到的多个参与者的状态来判定会话的状态和存在。例如,会话的状态是会话的参与者之间的会话关系。此外,例如,会话的状态包括发言的内容、发言的次数或发言的持续时间中的至少一个。另外,例如,会话的状态是会话的建立。例如,当参与者在看着会话的对方而正在说话时,判定单元判定会话已经建立。
此外,例如,当在第一参与者发言之后或者紧接在发言结束之前第二参与者发言,并且第二参与者正在看着的方向与第一参与者的方向一致时,判定单元判定在第一参与者和第二参与者之间存在会话。注意,即使当第二参与者正在看着的方向与第一参与者的方向不一致时,也可以判定存在会话。例如,即使当第二参与者在第一参与者发言之后发声时,或者当第二参与者的面部在第一参与者发言之后上下移动(附和)时,也可以判定存在会话。
将简要描述图1中所示的信息处理装置10的动作。通过利用麦克风检测参与会话的每个参与者的语音而获得的语音信号被提供给语音处理单元101。在该语音处理单元101中,对语音信号进行处理,并且检测参与会话的每个参与者的发言。此外,通过利用相机捕获参与会话的每个参与者的图像而获得的图像信号被提供给图像处理单元102。在该图像处理单元102中,处理图像信号,并且检测参与会话的每个参与者的状态,例如,每个参与者正在看着的方向。
将由语音处理单元101检测到的参与会话的各参与者的发言以及由图像处理单元102检测到的参与会话的各参与者的状态提供给判定单元103。在判定单元103中,基于每个参与者的发言和每个参与者的状态来判定会话的状态和存在,并且获得判定信息。
如上所述,在图1所示的信息处理装置100中,基于参与会话的每个参与者的发言和通过图像处理检测到的状态来判定会话的状态和存在。因此,与仅通过参与者的发言来判定会话的状态和存在的技术相比,可以以更高的精度来判定会话的状态和存在。
<2.第二实施例>
[信息处理装置]
图2示出了用作第二实施例的信息处理装置200的配置示例。该信息处理装置200包括N个(N是整数)相机201-1至201-N、M个(M是整数)麦克风202-1至202-M、图像和语音控制系统203、监视器204、服务器205和移动终端206。
相机201-1至201-N用于捕获参与会话的参与者的图像。安装相机201-1至201-N以便对参与会话的参与者、特别是面部进行成像。在这种情况下,可以在参与者的中心安装能够对整个周围环境进行成像的相机(诸如360度相机),或者可以安装多个相机,使得可以对整个周围环境进行成像。
图3示出了其中发生会话的房间的平面地图的示例。在该示例中,标记为"A"到"D"的圆形显示表示示出参与会话的参与者的参与者显示,并且每个参与者位于放置在房间中心的桌子附近。在该示例中,能够对整个周围环境进行成像的360度相机被安装在桌子上。在这种情况下,进行调整,使得平面地图上的相机的朝向和位置处于恒定状态。注意,尽管该示例示出了房间中有一张桌子并且四个参与者位于桌子周围的状态,但是桌子的数量和形状、参与者的数量等是任意的。
图4示出了其中发生会话的房间的平面地图的另一示例。在该示例中,标记为"A"到"D"的圆形显示表示会话中的参与者显示,并且每个参与者位于放置在房间中心的桌子附近。在该示例中,作为能够对整个周围环境进行成像的360度相机的相机1被安装在桌子的顶部,并且附加地,相机2被安装以便捕获存在于房间的周边的白板。该相机2可以对白板进行成像,并且此外还可以当在白板上进行书写的参与者在白板前面解释书写的内容时对该参与者的面部进行成像。在这种情况下,当安装相机1和2时,调整平面地图上的相机的位置和朝向。
回到图2,麦克风202-1至202-M用于检测参与会话的每个参与者的语音。在这种情况下,麦克风202-1至202-M可以是附着到各个参与者的麦克风,或者可以是构成检测每个参与者的语音的麦克风阵列的多个麦克风。
图像和语音控制系统203对由相机201-1至201-N获得的图像信号和由麦克风202-1至202-M获得的语音信号进行处理,并且生成其中发生会话的房间的平面地图图像。图像和语音控制系统203将所生成的平面地图图像提供给监视器204,并且在监视器204上显示该平面地图图像。
此外,图像和语音控制系统203根据用户的操作代替监视器204或者与监视器204一起将所生成的平面地图图像提供给移动终端206,并且在移动终端206上显示平面地图图像。另外,图像和语音控制系统203将所生成的平面地图图像提供给服务器205以在其中记录所提供的平面地图图像,并且此外,根据用户的操作从服务器205再现平面地图图像以将平面地图图像提供给监视器204或移动终端206并且在其上显示所再现的平面地图图像。
图像和语音控制系统203包括控制单元231、用户操作单元232、语音处理单元233、图像处理单元234、判定单元235、图像生成单元236和通信单元237。控制单元231控制图像和语音控制系统203的每个单元的动作。用户操作232是供用户执行各种操作的键、按钮、触摸面板、遥控器等。
在预先准备阶段,可以在图像处理单元234中登记每个参与者的面部。这里,在通过将麦克风附着到每个参与者来检测每个参与者的语音的情况下,每个登记的参与者的面部可以与附着到每个参与者的麦克风的数量相关联。利用这种配置,能够实现与每个参与者相关联的语音检测。
当登记每个参与者的面部图像时,利用相机对每个参与者的面部进行成像。此时,彼此相关联地测量参与者面部的尺寸和从相机到该参与者的距离。这使得可以基于由相机成像的参与者面部的尺寸来估计从相机到参与者的距离。
注意,在通过上述方法难以估计从相机到参与者的距离的情况下,或者在不必估计距离的情况下,还可以想到将从相机到参与者的距离视为固定的。此外,还可以想到,通过使用两个或更多个相机构造立体相机来测量从相机到参与者的距离。该技术例如记载在"日本专利申请特开No.62-080768"中,但是不用说,可以采用除了该技术之外的任何方法。
图像处理单元234对图像信号(捕获图像)执行面部感测处理,以指定每个参与者的面部的位置和状态,例如,每个参与者正在看着的方向。通过指定面部朝向或视线方向来指定每个参与者正在看着的方向。例如,在"日本专利申请特开No.2012-226665"中描述了用于指定面部位置和视线的技术,但是不言而喻,可以采用除了该技术之外的任何方法。在这种情况下,图像处理单元234通过将在面部感测处理中感测的面部与预先登记的面部进行比较来执行个人验证,并且找出每个感测的面部与哪个参与者的面部一致。
此外,图像处理单元234基于参与者的面部在成像视角内的位置和尺寸来指定预定参与者在平面地图上的位置(方向和距离)。在这种情况下,可以根据参与者的面部在成像视角内的位置来指定从平面地图上的相机观看的参与者的方向。另外,如上所述,由于在登记时彼此关联地测量参与者面部的尺寸和从相机到参与者的距离,因此可以根据登记时面部的这些尺寸与面部的当前尺寸之间的比率来指定从相机到参与者的距离。
注意,在上文中,对由相机捕获的图像执行面部感测处理以指定每个参与者的面部的位置等,但是参与者并不总是面向相机。例如,存在这样的情况,其中由相机捕获的图像不包含参与者的面部,例如,当参与者在会话期间在白板上书写时。在不能感测到参与者的面部的情况下,将最后感测到面部的点固定为参与者的位置(面部位置)。或者,在这种情况下,例如,可以使用物体追踪技术从面部变得不可见的点执行物体追踪,并且可以更新参与者按照面部在平面地图上的位置(面部位置)。该物体追踪技术例如在"日本专利申请特开No.6-169458"中描述,但是不言而喻,可以采用除了该技术之外的任何方法。
语音处理单元233处理与每个参与者对应的语音信号,并检测参与会话的每个参与者的发言。这里,在使用附着到每个参与者的麦克风来检测语音的情况下,语音处理单元233可以容易地掌握每个检测到的语音属于哪个参与者。因此,执行语音和参与者之间的匹配。
同时,在通过麦克风阵列检测到语音的情况下,语音处理单元233可以掌握每个检测到的语音属于哪个参与者。也就是说,例如,麦克风阵列被安装在与能够对整个周围环境进行成像的360度相机相同的位置处或周围,并且在检测发出所检测到的语音的方向的同时检测语音。因此,语音处理单元233参考关于由如上所述的图像处理单元234检测到的每个参与者的面部的位置信息,并掌握由麦克风阵列检测到的语音属于哪个参与者。因此,执行语音和参与者之间的匹配。注意,使用麦克风阵列检测语音方向的技术例如在"日本专利申请特开No.9-251299"中描述,但是不言而喻,可以采用除了该技术之外的任何方法。
语音处理单元233处理与每个参与者对应的语音信号,并检测参与会话的每个参与者的发言。在这种情况下,例如,从针对每个参与者的语音信号测量音量,并且在所测量的音量等于或高于阈值的状态持续一定时间段或更长的情况下,判定有发言。在所测量的音量等于或高于阈值的状态被保持小于一定时间段的情况下,发声被认为与同意、拒绝、附和等有关,并且判定没有做出发言。
判定单元235基于由语音处理单元233获得的每个参与者的发言以及由图像处理单元234获得的每个参与者的状态来检测会话。在这种情况下,例如,当在第一参与者发言之后或者紧接在发言结束之前第二参与者发言,并且第二参与者正在看着的方向与第一参与者的方向一致时,判定在第一参与者和第二参与者之间存在会话。
图像生成单元236生成诸如用于会话的房间的空间的平面地图图像。在这种情况下,图像生成单元236向该平面地图图像添加示出由图像处理单元234检测到的参与会话的每个参与者的参与者显示。然后,图像生成单元236根据由图像处理单元234指定的相关参与者的位置(面部位置)动态地改变该参与者显示的位置。此外,图像生成单元236基于来自判定单元235的会话判定信息,将连接对应的两个参与者显示的会话线添加到该平面地图图像。
图5示出由图像生成单元236生成的平面地图图像的示例。在该示例中,标记为"A"到"D"的圆形显示表示示出参与会话的参与者的参与者显示。注意,除了图5所示的符号之外,参与者显示可以以名称、登记的面部、颜色或多个这些项目的组合的格式来显示。此外,显示格式可以是固定的,或者可以由用户设置或切换。
另外,在该示例中,参与者显示"A"到"D"表示参与者"A"到"D"的当前位置。此外,该示例包含链接参与者显示"B"与"C"的会话线,并表示参与者"B"与"C"之间存在会话。注意,在对应参与者显示的位置移动的情况下,会话线的显示位置相应地移动。以这种方式显示在平面地图图像上的会话线可以在从检测到会话开始显示一定时间段之后被删除。
图6示出由图像生成单元236生成的平面地图图像的另一示例。同样在此示例中,标记为"A"到"D"的圆形显示示出参与会话的参与者的参与者显示。该示例包含链接参与者显示"B"和"C"、"A"和"B"、以及"A"和"D"的相应会话线,并且表示在相应参与者之间存在会话。
在这种情况下,累积会话的数量,并且将表示会话的数量的字符附加到每个会话线。这里,如上所述,每次判定参与者之间存在会话时,增加参与者之间的会话的数量的计数。在该示例中,表示在参与者"B"和"C"之间存在五个会话,在参与者"A"和"B"之间存在一个会话,并且在参与者"A"和"B"之间存在两个会话。会话数量的累积可以包括从会话开始起的所有会话的数量,或者,可以累积在过去一定时间段内(例如在过去五分钟内)发生的会话的数量。
注意,也可以不是向会话线附加表示会话数量的字符,而是如图7所示,根据会话数量设定会话线的粗细来间接地表示会话数量。此外,也可以想到向会话线附加表示会话数量的字符以及根据会话数量来设定会话线的粗细这两者。
图8示出由图像生成单元236生成的平面地图图像的另一示例。在该示例中,关于图6中所示的示例,表示发言数量的字符被进一步附加到对应于每个参与者的参与者显示。在该示例中,表示参与者"A"有三次发言,参与者"B"有六次发言,参与者"C"有五次发言,参与者"D"有两次发言。
注意,也可以不是向参与者显示附加表示发言数量的字符,而是如图9所示,根据发言数量设定参与者显示的尺寸(大小)来间接地表示发言数量。此外,还可以想到使用向参与者显示附加表示发言数量的字符以及根据发言数量设置参与者显示的尺寸两者。此外,还可以想到允许表示发言的持续时间而不是表示发言的数量的字符沿续到参与者显示。
返回图2,图像生成单元236将所生成的平面地图图像提供给监视器204,并且使监视器204显示所提供的平面地图图像。此外,图像生成单元236将所生成的平面地图图像提供给服务器205,并且使服务器205保持所提供的平面地图图像。另外,图像生成单元236根据用户的操作,通过通信单元237,代替监视器204向移动终端206或者与监视器204一起向移动终端206提供所生成的平面地图图像,并且使得移动终端206显示所提供的平面地图图像。此外,图像生成单元236根据用户的操作从服务器205再现平面地图图像,以将平面地图图像提供给监视器204或移动终端206,并且使得监视器204或移动终端206显示再现的平面地图图像。注意,还可以想到,经由通信单元237从移动终端206给出从服务器205再现平面地图图像的指令。
将描述图2中所示的信息处理装置200的处理的流程。首先,如图10(a)所示,作为预先准备,安装相机201-1至201-N,使得参与会话的每个人被成像,尤其是面部被成像。例如,能够对整个周围环境进行成像的相机(诸如360度相机)被安装在参与者的中心,或者,多个相机被安装,使得整个周围环境可以被成像。在这种情况下,进行调整,使得平面地图上的相机的朝向和位置处于恒定状态。
此外,安装麦克风202-1至202-M,作为预先准备。例如,麦克风被附着到参与会话的每个人,或者麦克风阵列被安装在参与者的中心。这里,在麦克风被附着到参与会话的每个人的情况下,麦克风与参与者相关联。另外,利用相机捕获每个参与者的面部,并将其进行登记,作为预先准备。在这种情况下,在参与者和相机之间的距离保持恒定的同时进行成像,并且测量面部的尺寸并将其与面部一起保持。注意,在这种情况下,关于距离的信息可以被一起保持。此外,在这种情况下,当参与者第一次登记时,执行新的登记;然而,当存在已经登记的参与者时,附加地登记剩余的参与者就足够了。
在完成预先准备之后,随着会话的进行,重复执行图10(b)中所示的主处理。在步骤ST1中,使用相机201-1至201-N获得包括参与会话的每个参与者的捕获图像。然后,在步骤ST2中,图像处理单元234处理捕获图像信号以指定每个参与者的面部的位置和状态,例如,每个参与者正在看着的方向(面部的朝向或视线)。
此外,在步骤ST3中,使用麦克风202-1至202-M检测参与会话的每个参与者的语音。接下来,在步骤ST4中,语音处理单元233处理语音信号并检测参与会话的每个参与者的发言。
然后,在步骤ST5中,判定单元235基于由语音处理单元233获得的所有或一些参与者的发言以及由图像处理单元234获得的所有或一些参与者的状态来检测会话。在这种情况下,例如,当在第一参与者发言之后或者紧接在发言结束之前第二参与者发言,并且第二参与者正在看着的方向与第一参与者的方向一致时,判定在第一参与者和第二参与者之间存在会话。另外,例如,当第二参与者在第一参与者发言之后发声时,或者当第二参与者的面部在第一参与者发言之后上下移动(附和)时,判定在第一参与者和第二参与者之间存在会话。
接着,在步骤ST6中,图像生成单元236生成诸如用于会话的房间的空间的平面地图图像。在这种情况下,将示出由图像处理单元234检测到的参与会话的每个参与者的参与者显示添加到平面地图图像,并且根据由图像处理单元234指定的相关参与者的位置(面部位置)来动态地改变该参与者显示的位置。此外,在这种情况下,基于来自判定单元235的会话判定信息,将连接对应的两个参与者显示的会话线添加到平面地图图像,并且另外,还添加每个参与者的发言的数量、两个参与者之间的会话的数量等的显示。
接着,在步骤ST7中,图像生成单元236输出所创建的平面地图图像。在这种情况下,平面地图图像被提供给监视器204,并且使监视器204显示平面图像。另外,在这种情况下,将平面地图图像提供给服务器205,并且使服务器205累积并保持顺序生成的平面地图图像。此外,在这种情况下,通过通信单元237将平面地图图像发送到移动终端206,并且使该移动终端206显示平面地图图像。
如上所述,在图2所示的信息处理装置200中,判定单元235基于参与会话的每个参与者的发言和通过图像处理检测到的状态来判定会话的状态和存在。因此,与仅通过参与者的发言来判定会话的状态和存在的技术相比,允许以更高的精度来判定会话的状态和存在。
此外,在图2所示的信息处理装置200中,由图像生成单元236生成的平面地图图像包含示出参与会话的每个参与者的参与者显示,并且该平面地图图像包含基于检测到的会话连接对应的两个参与者显示的会话线。因此,可以容易地在视觉上识别谁与谁进行了会话。
另外,在图2所示的信息处理装置200中,图像处理单元234处理图像信号以进一步检测参与会话的每个参与者的位置,并且图像生成单元236根据检测到的每个参与者的位置,改变示出每个参与者的参与者显示在平面地图图像上的位置。因此,可以容易地在视觉上识别参与会话的每个参与者所处的位置。
此外,在图2所示的信息处理装置200中,由图像生成单元236生成的平面地图图像中包含的参与者显示具有与对应参与者的发言数量相对应的大小,或者参与者显示被附加有示出对应参与者的发言数量的字符。因此,可以容易地在视觉上识别每个参与者的发言数量的程度。
此外,在图2所示的信息处理装置200中,由图像生成单元236生成的平面地图图像中包含的会话线具有与对应参与者之间的会话数量相对应的粗细,或者会话线被附加有示出对应参与者之间的会话数量的字符。因此,可以容易地在视觉上识别每两个参与者之间的会话数量的程度。
另外,在图2所示的信息处理装置200中,由图像生成单元236生成的平面地图图像被提供给作为显示单元的监视器204,并且平面地图图像被显示在该监视器204上。因此,例如,会话的引导者(facilitator)可以在监视器204中检查具有关于发言和会话的各种类型的信息的平面地图图像。
此外,在图2所示的信息处理装置200中,由图像生成单元236生成的平面地图图像被提供给服务器205并保持在服务器205中。因此,可以从该服务器205再现过去的平面地图图像,并将其提供给例如监视器204以在其上显示,从而可以容易地检查过去的平面地图图像。
此外,在图2所示的信息处理装置200中,根据需要,从服务器205读取的平面地图图像或过去的平面地图图像由图像生成单元236通过通信单元237提供给移动终端206,并且在该移动终端206上显示当前或过去的平面地图图像。因此,例如,会话的引导者可以在移动终端206中检查具有关于发言和会话的各种类型的信息的平面地图图像。
<3.修改>
注意,在上述实施例中,通过预先登记参与者的面部并将从图像检测到的面部与登记的面部进行比较来进行个人验证。然而,在该过程中,在未登记的人参与的情况下不能进行适当的显示。因此,还可以想到,在个人验证失败的情况下,将在个人验证中失败的面部新登记为参与者。
在这种情况下,由于针对新参与者没有登记面部尺寸与距离之间的关系,因此除非使用诸如能够测量距离的立体相机的装置,否则不能知道精确的距离。因此,从相机到新参与者的距离是固定的,或者使用面部的平均尺寸简单地计算到相机的距离。
此外,在上述实施例中,已经示出了在一个组中发生会话的示例;然而,也存在在大房间(会场)中的多个划分的组中发生会话的情况。在这种情况下,参与者有时在组之间交换。在这种情况下,如图11所示,针对各组布置相机,并且将出现在特定组的相机上的面部指定为该特定组的参与者。注意,在图11的这个示例中,组1由四个参与者"A"到"D"组成,组2由四个参与者"E"到"H"组成,并且组3由三个参与者"I"到"K"组成。
然后,针对每个组显示参与者的位置、发言数量和会话数量。关于判定组的成员是否已经交换,可以在特定参与者的面部出现在用于对另一组进行成像的相机上的时刻判定交换,或者可以在交换之后经过了预设时间段之后判定交换。在这种情况下,还记录面部首次出现在相机上的时间,使得在经过了预设时间段之后确认交换,然后显示会话数量等。
此外,在上述实施例中,已经描述了在一个房间(空间)中发生的会话。然而,还存在位于另一房间中的参与者通过视频会议、电话会议、网络会议等参与一个会话的情况。在这种情况下,如图12所示,准备了参与者所在的多个空间的平面地图,并且显示了所有参与者的位置。在图12中所示的这个示例中,四个参与者"A"到"D"出现在房间1中,而两个参与者"F"和"G"出现在房间2中。
与以上关于相同空间中的参与者之间的会话所描述的类似地显示会话线,但是跨平面地图显示关于位于不同空间中的参与者之间的会话线。注意,尽管图12中的示例示出了两个房间的示例,但是这类似地适用于三个或更多个房间的情况。另外,可以根据位于不同房间中的参与者是否正在彼此看着监视器来判定参与者之间的会话的建立。
此外,在上述实施例中,在平面地图上显示会话的参与者的位置、发言数量和会话数量;但是,如图13所示,可以在平面地图和地图之外的区域上显示除了参与者显示、发言数量和会话数量之外的信息。例如,如图13所示,可以通过语音识别从获取的语音将发言的内容翻译成句子并进行显示。在这种情况下,作为发言的内容,例如,可以想到仅提取并显示关键字,或者显示发言内容的整个句子。
另外,在上述实施例中,会话的参与者被显示在参与者的相机图像上观察到的平面地图上的位置处。然而,如图14(a)和14(b)所示,可以根据每个参与者的会话数量来指定示出每个参与者的参与者显示的位置。例如,会话总数较大的人被安排得更靠近画面的中心,而会话总数较小的人被安排在画面的外侧。此外,在两个参与者之间的会话的数量较大的情况下,两个参与者被安排得彼此更近,并且在两个参与者之间的会话的数量较小的情况下,两个参与者被安排得彼此更远。
作为布置方法,例如,使用磁力中的库仑定律方程。库仑力F由下面的公式(1)表示。这里,k表示比例常数,m1和m2分别表示物体1和2的磁量,r表示两个物体之间的距离。
F=km1m2/r2......(1)
首先,在平面图的中央布置虚拟物体0作为磁量M0,并且在存在四个参与者的情况下,对物体1至4分别赋予与会话数量成比例的磁量M1至M4。随着会话数量的增加,磁量变得更大。通过由公式(1)计算的库仑力,磁量m0和m1至m4彼此吸引。另一方面,虽然M1至M4相互排斥,但排斥力随着彼此之间的会话数量增加而减少,因此,与会话数量相对应的磁量被变换为倒数,诸如m1'=1/m1。通过用m1'代替公式(1)中的m1,计算出的库仑力以与会话数量成反比的力相互排斥。
利用相对于M0的吸引力,所有参与者的位置试图接近中心。另一方面,所有参与者的位置以与会话数量成反比的力彼此排斥,并因此试图彼此分开。在保持吸引力和排斥力之间的平衡的状态下,参与者的位置停止并且被指定。当会话数量变化时,参与者在平面地图上的显示位置也变化。
因此,随着会话数量增加,参与者显示的位置被布置为更靠近平面地图图片的中心,使得可以容易地在视觉上识别谁具有更多数量的会话。此外,由于随着两个参与者之间的会话的数量增加,两个参与者的参与者显示彼此更接近,因此可以容易地在视觉上识别谁与谁进行了更多数量的会话。例如,图14(a)示出了参与者"A"的会话数量较少而其余三个人中的每个人具有更多数量的会话的状态,并且从该图中可以容易地在视觉上识别出已经出现了这种状态。同时,图14(b)示出了参与者"A"的会话数量更大且参与者"A"充当一种会话中心的状态,并且从该图中可以容易地在视觉上识别出已经出现了这种状态。
注意,即使在以这种方式根据每个参与者的会话数量指定示出每个参与者的参与者显示的位置的情况下,可以将示出会话数量的字符附加到会话线,或者可以根据会话数量设定会话线的粗细,此外,可以将示出每个参与者的发言数量的字符附加到每个参与者显示,或者可以将每个参与者显示的大小形成为与每个参与者的发言数量或发言的持续时间相对应的大小(参考图6到9)。
例如,图15(a)和15(b)示出了关于图14(b)根据发言的持续时间来改变每个参与者的参与者显示的大小的情况。例如,在图15(a)的情况下,可以看到参与者"A"具有长的发言持续时间,并且仅保持作出像独奏表演那样的发言的场景。同时,在图15(b)的情况下,可以看到参与者"A"具有许多会话但没有这么多的长的发言持续时间的场景,即,参与者"A"充当会话组的一种主持人或引导者的场景。
以这种方式,通过将示出各参与者的参与者显示配置在与会话数量相应的位置,能够客观地掌握会话的状态。可以允许诸如引导者的观看者在用于平面地图(诸如基于由相机观察到的位置的平面地图和基于与会话数量相应的位置的平面地图)的多种显示方法之间切换。
此外,尽管以上没有描述,但是将根据参与者的发言或会话的情况来描述执行评估并显示评估的评估值的装置。例如,如图16所示,针对每个会话组显示每个会话组中的会话的评估等级。在图16中,从顶部等级开始以A、B和C三个阶段显示评估等级。例如,将右上显示的组评估为"综合评估A"。
以这种方式,当针对每个组显示评估等级时,引导者就容易知道应该支持哪个组的会话。此外,通过如图17所示显示每个参与者的评估等级,可以知道哪个参与者已经犹豫参与会话。
关于对每个组的评估,根据例如发言的数量和会话的数量来执行评估。例如,使用下面的公式(2)算出各组的评估值Et。这里,Ngs表示发言的数量,Ngc表示会话的数量,αg和βg表示系数。通过利用预先定义的阈值处理由公式(2)计算的评估值来算出评估等级。注意,可以原样显示评估值而不将其转换成评估等级。
Et=αg·Ngs+βg·Ngc......(2)
此外,使用下面的公式(3)从发言数量和会话数量同样地算出每个参与者的评估值Em。这里,Nms表示发言的数量,Nmc表示会话的数量,αm和βm表示系数。通过利用预先定义的阈值处理由公式(3)计算的评估值来算出评估等级。注意,可以原样显示评估值而不将其转换成评估等级。
Em=αm·Nms+βm·Nmc......(3)
另外,对于组的评估值,由于如果仅激励一些人则赋予较低评估,因此可以将每个参与者的评估值添加到评估中。例如,基于以下的公式(4)算出每组的评估值Et'。这里,min(Em)表示参与相关会话组的所有参与者中的最低评估值,并且γg表示系数。利用该配置,当存在具有低评估值的参与者时,降低整个组的评估。
Et'=αg·Ngs+βg·Ngc+γg·min(Em)......(4)
注意,尽管在公式(2)至(4)中使用了发言的数量,但是可以用发言的持续时间来代替发言的数量,或者可以使用发言的数量和发言的持续时间两者。
另外,在上文中,已经示出了其中评估参与会话的参与者和会话组的示例;然而,还可以想到与上述评估一起或与上述评估分开地评估已经影响会话结束的内容。
此外,在上文中,已经示出了监视器204和移动终端206显示参与会话的参与者和会话组的评估值的示例;然而,在教师监控学生的多个会话组的情况下,可以想到将以下信息呈现给教师或学生。
作为要呈现给教师的信息,可以想到用于建议对教师进行干预的信息。在这种情况下,每个组所处的状态被可视化。另外,在这种情况下,分配优先级,使得在多个组中最需要可视化的组是已知的。例如,使包括根本不进行任何发言的学生的组的优先级更高。教师可以将优先级放在以较高优先级来可视化该组的状态上,以理解该组所处的状态。
此外,作为要呈现给教师的信息,可以想到关于自动分配给每个学生或每个组的得分或成绩的信息。该得分或成绩根据教师的操作被适当地显示为例如累积或即时得分或成绩。
同时,作为要呈现给学生的信息,可以想到用于辅助学生的信息。例如,显示直到当前时间的会话的概要,以便提示学生参与下一会话。此外,作为要呈现给学生的信息,可以想到用于警告学生的信息。例如,显示对整个流程有贡献的发言的次数和发言的量。
另外,在上述实施例中,已经示出了其中关于发言、会话等的信息被用作用于检查会话的情况的信息的示例;然而,还可以想到,还利用关于与同意、拒绝、附和等有关的发声的信息作为用于检查会话的情况的信息。例如,也可以对与同意、拒绝、附和等有关的发声次数进行计数,使得计数的发声次数与会话数量和发言数量一起显示在平面地图图像上。
此外,在上述实施例中,已经示出了其中麦克风和相机被配置为不同主体的示例;然而,也可以想到的是,这些麦克风和相机是集成的。例如,可以想到的示例包括麦克风与360度相机集成的示例、麦克风与覆盖整个周围环境的多个相机中的每一个集成的示例等。
此外,在上述实施例中,已经将参与者正在看的方向表示为通过处理图像信号所检测到的参与者的状态;然而,要检测的参与者的状态不限于这种情况。例如,作为参与者的状态,可以检测参与者的面部表情(高兴、愤怒、悲伤、愉快、惊讶等)、姿势(手指、手和手臂运动)、面部运动(上下方向上的点头(同意、附和)、左右方向上的摇头(拒绝))、生物测定信息(体温的变化和脉搏的变化)等。另外,例如,点头很多的人很可能积极地参与会话,即使该人在会话期间不作发言;因此,可以对这样的信息进行计数,并将其与会话的数量和发言的数量一起显示。
此外,在上述实施例中,已经示出了从语音信号检测会话的参与者的发言并且从图像信号检测会话的参与者的状态的示例;然而,还可以想到从图像信号检测参与者的发言和参与者的状态两者。
此外,图18至23示出了监视器204或移动终端206上的画面显示示例。图18中的画面显示示例示出POD(会话组)A到D中的会话的状态。POD A至POD D的POD标识符与各个POD的显示对应地显示。另外,在每个POD显示中,如箭头P1所示,通过包括面部的图像来表示参与者。
此外,在每个POD显示中,讨论的时间线显示在由箭头P2表示的区域中。在这种情况下,如箭头P3所示,在每个发言的头部布置缩略图像,此外,如箭头P4所示,还布置姓名字符,使得可以知道谁做出了发言。注意,可以采用缩略图图像和姓名字符中的任何一个。每当做出发言时,就自动更新该显示讨论的时间线的区域中的显示,使得在最新位置显示新的发言;然而,用户可以通过在画面上进行滚动操作来检查过去的发言。
图19的画面显示例与图18的显示例类似地示出了POD(会话组)A至D的会话状态。POD A至POD的POD标识符与各个POD的显示对应地显示。另外,在每个POD显示中,如箭头P1所示,通过包括面部的图像来表示参与者。此外,在每个POD显示中,讨论的时间线显示在由箭头P2表示的区域中。
在该示例中,另外,在由箭头P1表示的参与者显示中,每个参与者的图像的颜色根据发言的数量动态地改变。例如,具有较大数量的发言的参与者被着色为黄色,具有中等数量的发言的参与者被着色为红色,具有较小数量的发言的参与者被着色为绿色,等等。注意,在所示的示例中,颜色变化由叠加在图像上的图案的变化来表示。当然,可以根据发言的数量动态地改变叠加在每个参与者的图像上的图案。此外,不仅发言的数量,而且同意或附和的发声的数量和会话的数量都可以类似地通过颜色和图案来表示。根据该配置,例如,作为用户的教师能够容易地在视觉上检查各POD内的各参与者的发言数量等,并且能够容易地对教师感觉到讨论中的僵局的POD进行干预。
图20的画面显示例与图18的显示例类似地示出POD(会话组)A至D的会话状态。PODA至POD D的POD标识符与各POD的显示对应地显示。此外,在每个POD显示中,讨论的时间线显示在由箭头P2表示的区域中。此外,在该示例中,除了用于具有面部图像等的参与者显示的状态之外,由箭头P1表示的区域可以切换到POD中的共享画面。例如,作为用户的教师可以进行如上所述的切换画面的操作,并且理解什么材料或描述被用作在每个POD中执行讨论的基础。
注意,在每个POD显示中,在服务器205中累积在由箭头P2表示的区域中显示的会话参与者的发言,并且例如,在课程结束时以分钟的形式将时间线发送到每个学生的移动终端206。当学生点击时间线中的发言时,所保存的视频(相机图像)也可从所点击的发言的时间来回顾。在这种情况下,与相机图像的时间轴相关联地保持各发言的时间点。
图21中的画面显示示例示出了四个参与者之间的会话的状态。在箭头Q1所示的区域中,通过包括面部的图像来表示参与者。此外,讨论的时间线显示在由箭头Q2表示的区域中。在这种情况下,如箭头Q4所示,在每个发言的头部布置姓名字符,使得可以知道谁做出了发言。可以采用缩略图代替姓名字符。另外,在箭头Q3所示的区域中,显示了在讨论中使用的板上的幻灯片和文字。注意,在所示示例中,在四个参与者中,与箭头Q1所示区域的右上部显示的图像对应的参与者面朝后,因为该参与者在该时间点在板上书写;因此,不能捕获面部图像,并且执行人物追踪以使得图像被裁剪。注意,还可以想到通过在包围每个参与者的图像的框的颜色与每个发言的头部的姓名的字符部分的颜色之间采用相同的颜色,来使参与者与发言相对应。在所示的示例中,改变线类型而不是框颜色来表示对应关系。
图22中的图像显示示例示出了四个参与者之间的会话的状态。四个参与者的面部图像被显示在矩形框的四个角上。在这种情况下,显示与各个参与者相对应的圆圈,并且这些圆圈在对角线上移动。注意,为了使得容易知道参与者和圆圈之间的对应关系,在圆的颜色和与圆对应的参与者的图像的帧的颜色之间采用相同的颜色。在所示的示例中,改变线类型而不是框颜色来表示对应关系。每个参与者的圆圈随着发言数量的增加而扩大,此外,从矩形框的中心到圆圈的中心的距离随着会话数量的增加而缩短。在所示的示例中,可以知道在右上图像中显示的参与者具有较大数量的发言以及较大数量的会话,而在左上图像中显示的参与者具有较小数量的发言以及较小数量的会话。
图23中的图像显示示例示出了四个参与者之间的会话的状态。显示表示四个参与者的面部图像。在这种情况下,具有更大数量的发言的参与者的面部图像被显示得更大。此外,链接参与者的会话线被显示,并且随着会话数量的增加而显示得更粗。在所示的示例中,可以知道左上图像中示出的参与者具有较大数量的发言,并且尤其是与右下图像中示出的参与者具有较大数量的会话。另外,可以知道,在右上图像中示出的参与者具有中等数量的发言,但是尤其是与在右下图像中示出的参与者具有较大数量的会话,而与左下图像中示出的参与者没有会话。
此外,本技术还可以如下所述地配置。
(1)一种信息处理装置,包括:
语音处理单元,其从语音信号检测会话的多个参与者的发言;
图像处理单元,其从图像信号检测所述会话的所述多个参与者的状态;以及
判定单元,其基于所述多个参与者的发言和所述多个参与者的状态来判定所述会话的状态。
(2)根据上述(1)所述的信息处理装置,其中
所述会话的状态包括所述会话的参与者之间的会话关系。
(3)根据上述(1)所述的信息处理装置,其中
所述会话的状态包括发言的内容、发言的次数或发言的持续时间中的至少一个。
(4)根据上述(1)所述的信息处理装置,其中
所述会话的状态包括所述会话的建立。
(5)根据上述(4)所述的信息处理装置,其中
当参与者之一看着所述会话的对方而正在说话时,所述判定单元判定会话已经建立。
(6)根据上述(1)至(5)中任一项所述的信息处理装置,其中
所述图像处理单元检测参与者之一正在看着的方向,作为参与者的状态之一。
(7)根据上述(6)所述的信息处理装置,其中
所述图像处理单元根据参与者之一的面部朝向或视线方向检测参与者之一正在看着的方向。
(8)根据上述(6)或(7)所述的信息处理装置,其中
当在第一参与者发言之后第二参与者发言并且第二参与者正在看着的方向与第一参与者的方向一致时,所述判定单元判定在第一参与者和第二参与者之间存在会话。
(9)根据上述(1)至(8)中任一项所述的信息处理装置,其中
所述语音处理单元根据语音信号测量音量,并且在所测量的音量等于或高于阈值的状态持续一定时间段或更长的情况下,判定有发言。
(10)根据上述(9)所述的信息处理装置,其中
在所测量的音量等于或高于阈值的状态被保持小于所述一定时间段的情况下,所述语音处理单元判定作出与同意、拒绝或附和附和有关的发声。
(11)根据上述(1)至(10)中任一项所述的信息处理装置,还包括
图像生成单元,其生成用于所述会话的空间的平面地图图像,其中
所述平面地图图像包含表示示出参与所述会话的每个参与者的参与者显示,以及
所述平面地图图像包含基于已经检测到的所述会话来连接对应的两个参与者显示的会话线。
(12)根据上述(11)所述的信息处理装置,其中
所述图像处理单元对图像信号进行处理以进一步检测参与所述会话的每个参与者的位置,以及
所述图像生成单元根据检测到的每个参与者的位置,改变表示示出每个参与者的参与者显示在所述平面地图图像上的位置。
(13)根据上述(11)所述的信息处理装置,其中
所述图像生成单元根据每个参与者的会话数量,改变表示示出每个参与者的参与者显示在所述平面地图图像上的位置。
(14)根据上述(13)所述的信息处理装置,其中
所述图像生成单元随着会话数量增加而将表示示出每个参与者的参与者显示的位置布置为更靠近所述平面地图图像的中心。
(15)根据上述(13)或(14)所述的信息处理装置,其中
所述图像生成单元使两个参与者的参与者显示之间的间隔随着两个参与者之间的会话数量的增加而变短。
(16)根据上述(11)至(15)中任一项所述的信息处理装置,其中
所述参与者显示具有与对应参与者的发言数量相应的大小。
(17)根据上述(11)至(16)中任一项所述的信息处理装置,其中
所述参与者显示被附加有表示示出对应参与者的发言数量的字符。
(18)根据上述(11)至(17)中任一项所述的信息处理装置,其中
所述会话线具有与对应参与者之间的会话数量相应的粗细。
(19)根据上述(11)至(18)中任一项所述的信息处理装置,其中
所述会话线被附加有表示示出对应参与者之间的会话数量的字符。
(20)根据上述(11)至(19)中任一项所述的信息处理装置,还包括
显示单元,其显示由所述图像生成单元生成的所述平面地图图像。
(21)根据上述(11)至(20)中任一项所述的信息处理装置,还包括
服务器,其保持由所述图像生成单元生成的所述平面地图图像。
(22)根据上述(11)至(21)中任一项所述的信息处理装置,还包括
通信单元,其将由所述图像生成单元生成的所述平面地图图像发送到移动终端。
(23)一种信息处理方法,包括:
通过语音处理单元从语音信号检测会话的多个参与者的发言的语音处理步骤;
通过图像处理单元从图像信号检测会话的多个参与者的状态的图像处理步骤;以及
通过会话检测单元基于所述多个参与者的发言和所述多个参与者的状态来判定会话的状态的检测步骤。
(24)一种程序
其使得计算机用作:
语音处理装置,其从语音信号检测会话的多个参与者的发言;
图像处理装置,其从图像信号检测会话的所述多个参与者的状态;以及
判定装置,其判定所述多个参与者的发言和所述多个参与者的状态。
附图标记列表
100 信息处理装置
101 语音处理单元
102 图像处理单元
103 判定单元
200 信息处理装置
201-1至201-N 相机
202-1至202-M 麦克风
203 图像和语音控制系统
204 监视器
205 服务器
206 移动终端
231 控制单元
232 用户操作单元
233 语音处理单元
234 图像处理单元
235 判定单元
236 图像生成单元
237 通信单元
Claims (24)
1.一种信息处理装置,包括:
语音处理单元,其从语音信号检测会话的多个参与者的发言;
图像处理单元,其从图像信号检测所述会话的所述多个参与者的状态;以及
判定单元,其基于所述多个参与者的发言和所述多个参与者的状态来判定所述会话的状态。
2.根据权利要求1所述的信息处理装置,其中
所述会话的状态包括所述会话的参与者之间的会话关系。
3.根据权利要求1所述的信息处理装置,其中
所述会话的状态包括发言的内容、发言的次数或发言的持续时间中的至少一个。
4.根据权利要求1所述的信息处理装置,其中
所述会话的状态包括所述会话的建立。
5.根据权利要求4所述的信息处理装置,其中
当参与者之一看着所述会话的对方而正在说话时,所述判定单元判定会话已经建立。
6.根据权利要求1所述的信息处理装置,其中
所述图像处理单元检测参与者之一正在看着的方向,作为参与者的状态之一。
7.根据权利要求6所述的信息处理装置,其中
所述图像处理单元根据参与者之一的面部朝向或视线方向检测参与者之一正在看着的方向。
8.根据权利要求6所述的信息处理装置,其中
当在第一参与者发言之后第二参与者发言并且第二参与者正在看着的方向与第一参与者的方向一致时,所述判定单元判定在第一参与者和第二参与者之间存在会话。
9.根据权利要求1所述的信息处理装置,其中
所述语音处理单元根据语音信号测量音量,并且在所测量的音量等于或高于阈值的状态持续一定时间段或更长的情况下,判定有发言。
10.根据权利要求9所述的信息处理装置,其中
在所测量的音量等于或高于阈值的状态被保持小于所述一定时间段的情况下,所述语音处理单元判定作出与同意、拒绝或附和附和有关的发声。
11.根据权利要求1所述的信息处理装置,还包括
图像生成单元,其生成用于所述会话的空间的平面地图图像,其中
所述平面地图图像包含表示示出参与所述会话的每个参与者的参与者显示,以及
所述平面地图图像包含基于已经检测到的所述会话来连接对应的两个参与者显示的会话线。
12.根据权利要求11所述的信息处理装置,其中
所述图像处理单元对图像信号进行处理以进一步检测参与所述会话的每个参与者的位置,以及
所述图像生成单元根据检测到的每个参与者的位置,改变表示示出每个参与者的参与者显示在所述平面地图图像上的位置。
13.根据权利要求11所述的信息处理装置,其中
所述图像生成单元根据每个参与者的会话数量,改变表示示出每个参与者的参与者显示在所述平面地图图像上的位置。
14.根据权利要求13所述的信息处理装置,其中
所述图像生成单元随着会话数量增加而将表示示出每个参与者的参与者显示的位置布置为更靠近所述平面地图图像的中心。
15.根据权利要求13所述的信息处理装置,其中
所述图像生成单元使两个参与者的参与者显示之间的间隔随着两个参与者之间的会话数量的增加而变短。
16.根据权利要求11所述的信息处理装置,其中
所述参与者显示具有与对应参与者的发言数量相应的大小。
17.根据权利要求11所述的信息处理装置,其中
所述参与者显示被附加有表示示出对应参与者的发言数量的字符。
18.根据权利要求11所述的信息处理装置,其中
所述会话线具有与对应参与者之间的会话数量相应的粗细。
19.根据权利要求11所述的信息处理装置,其中
所述会话线被附加有表示示出对应参与者之间的会话数量的字符。
20.根据权利要求11所述的信息处理装置,还包括
显示单元,其显示由所述图像生成单元生成的所述平面地图图像。
21.根据权利要求11所述的信息处理装置,还包括
服务器,其保持由所述图像生成单元生成的所述平面地图图像。
22.根据权利要求11所述的信息处理装置,还包括
通信单元,其将由所述图像生成单元生成的所述平面地图图像发送到移动终端。
23.一种信息处理方法,包括:
通过语音处理单元从语音信号检测会话的多个参与者的发言的语音处理步骤;
通过图像处理单元从图像信号检测会话的多个参与者的状态的图像处理步骤;以及
通过会话检测单元基于所述多个参与者的发言和所述多个参与者的状态来判定会话的状态的检测步骤。
24.一种程序
其使得计算机用作:
语音处理装置,其从语音信号检测会话的多个参与者的发言;
图像处理装置,其从图像信号检测会话的所述多个参与者的状态;以及
判定装置,其判定所述多个参与者的发言和所述多个参与者的状态。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-003778 | 2018-01-12 | ||
JP2018003778 | 2018-01-12 | ||
PCT/JP2019/000597 WO2019139101A1 (ja) | 2018-01-12 | 2019-01-10 | 情報処理装置、情報処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111542876A true CN111542876A (zh) | 2020-08-14 |
Family
ID=67219559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980007295.6A Pending CN111542876A (zh) | 2018-01-12 | 2019-01-10 | 信息处理装置、信息处理方法以及程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11837233B2 (zh) |
EP (1) | EP3739573B1 (zh) |
JP (1) | JP7276158B2 (zh) |
CN (1) | CN111542876A (zh) |
WO (1) | WO2019139101A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7177348B2 (ja) * | 2019-02-06 | 2022-11-24 | 日本電信電話株式会社 | 音声認識装置、音声認識方法およびプログラム |
JP2021099670A (ja) * | 2019-12-23 | 2021-07-01 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7471911B2 (ja) | 2020-05-20 | 2024-04-22 | 清水建設株式会社 | 人物関係抽出システム |
JPWO2021245759A1 (zh) * | 2020-06-01 | 2021-12-09 | ||
WO2024100703A1 (ja) * | 2022-11-07 | 2024-05-16 | マクセル株式会社 | 映像表示装置、映像表示システム及び映像表示装置の制御方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000184345A (ja) * | 1998-12-14 | 2000-06-30 | Nec Corp | マルチモーダルコミュニケーション支援装置 |
WO2008139717A1 (ja) * | 2007-05-09 | 2008-11-20 | Panasonic Corporation | 表示装置、表示方法、表示プログラム |
WO2009004731A1 (ja) * | 2007-07-05 | 2009-01-08 | Panasonic Corporation | 画像音声通信装置及び画像表示方法 |
JP2010266522A (ja) * | 2009-05-12 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 対話状態分割装置とその方法、そのプログラムと記録媒体 |
JP2013058221A (ja) * | 2012-10-18 | 2013-03-28 | Hitachi Ltd | 会議分析システム |
US20170301037A1 (en) * | 2016-04-19 | 2017-10-19 | International Business Machines Corporation | Group discourse architecture |
CN107534656A (zh) * | 2015-04-16 | 2018-01-02 | 微软技术许可有限责任公司 | 用于通信会话参与者的可视配置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07122895B2 (ja) | 1985-10-04 | 1995-12-25 | 株式会社日立製作所 | ステレオ画像処理方法 |
JPH04323689A (ja) | 1991-04-24 | 1992-11-12 | Toshiba Corp | 会議進行支援装置 |
JP3197633B2 (ja) | 1992-11-30 | 2001-08-13 | 松下電器産業株式会社 | 移動体の自動追尾装置 |
JP3522954B2 (ja) | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
GB2351628B (en) | 1999-04-14 | 2003-10-01 | Canon Kk | Image and sound processing apparatus |
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
US6782363B2 (en) * | 2001-05-04 | 2004-08-24 | Lucent Technologies Inc. | Method and apparatus for performing real-time endpoint detection in automatic speech recognition |
US7386799B1 (en) * | 2002-11-21 | 2008-06-10 | Forterra Systems, Inc. | Cinematic techniques in avatar-centric communication during a multi-user online simulation |
KR100580619B1 (ko) * | 2002-12-11 | 2006-05-16 | 삼성전자주식회사 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
US9454747B2 (en) * | 2005-10-11 | 2016-09-27 | Aol Inc. | Ordering of conversations based on monitored recipient user interaction with corresponding electronic messages |
US9250703B2 (en) * | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
EP2012304B1 (en) * | 2007-07-06 | 2012-09-05 | Zero To One Technology | Methods for electronically analysing a dialogue and corresponding systems |
WO2009104564A1 (ja) * | 2008-02-20 | 2009-08-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 仮想空間における会話サーバ、会話のための方法及びコンピュータ・プログラム |
US8416715B2 (en) * | 2009-06-15 | 2013-04-09 | Microsoft Corporation | Interest determination for auditory enhancement |
WO2011105003A1 (ja) | 2010-02-25 | 2011-09-01 | パナソニック株式会社 | 信号処理装置及び信号処理方法 |
JP2011237965A (ja) | 2010-05-10 | 2011-11-24 | Seiko Epson Corp | 会話比率算出装置、接客データ記録装置、会話比率算出方法およびプログラム |
US10198775B2 (en) * | 2010-06-23 | 2019-02-05 | Microsoft Technology Licensing, Llc | Acceleration of social interactions |
JP5755012B2 (ja) | 2011-04-21 | 2015-07-29 | キヤノン株式会社 | 情報処理装置、その処理方法、プログラム及び撮像装置 |
US20150189233A1 (en) * | 2012-04-30 | 2015-07-02 | Goggle Inc. | Facilitating user interaction in a video conference |
JP6385150B2 (ja) * | 2014-06-13 | 2018-09-05 | 株式会社Nttドコモ | 管理装置、会話システム、会話管理方法及びプログラム |
JP6400445B2 (ja) | 2014-11-27 | 2018-10-03 | Kddi株式会社 | 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム |
JPWO2016158014A1 (ja) * | 2015-03-31 | 2018-01-25 | ソニー株式会社 | 情報処理装置、通信システム、情報処理方法及びプログラム |
JP2017009825A (ja) * | 2015-06-23 | 2017-01-12 | トヨタ自動車株式会社 | 会話状況分析装置および会話状況分析方法 |
JP6651989B2 (ja) * | 2015-08-03 | 2020-02-19 | 株式会社リコー | 映像処理装置、映像処理方法、及び映像処理システム |
CN106453030B (zh) * | 2015-08-12 | 2019-10-11 | 大连民族学院 | 一种获取社交关系链的方法及装置 |
JP6772023B2 (ja) * | 2015-10-30 | 2020-10-21 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | ユーザー状態検出による集団相互作用の方法及びシステム |
-
2019
- 2019-01-10 CN CN201980007295.6A patent/CN111542876A/zh active Pending
- 2019-01-10 WO PCT/JP2019/000597 patent/WO2019139101A1/ja unknown
- 2019-01-10 JP JP2019564747A patent/JP7276158B2/ja active Active
- 2019-01-10 US US16/959,884 patent/US11837233B2/en active Active
- 2019-01-10 EP EP19738367.2A patent/EP3739573B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000184345A (ja) * | 1998-12-14 | 2000-06-30 | Nec Corp | マルチモーダルコミュニケーション支援装置 |
WO2008139717A1 (ja) * | 2007-05-09 | 2008-11-20 | Panasonic Corporation | 表示装置、表示方法、表示プログラム |
WO2009004731A1 (ja) * | 2007-07-05 | 2009-01-08 | Panasonic Corporation | 画像音声通信装置及び画像表示方法 |
JP2010266522A (ja) * | 2009-05-12 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 対話状態分割装置とその方法、そのプログラムと記録媒体 |
JP2013058221A (ja) * | 2012-10-18 | 2013-03-28 | Hitachi Ltd | 会議分析システム |
CN107534656A (zh) * | 2015-04-16 | 2018-01-02 | 微软技术许可有限责任公司 | 用于通信会话参与者的可视配置 |
US20170301037A1 (en) * | 2016-04-19 | 2017-10-19 | International Business Machines Corporation | Group discourse architecture |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019139101A1 (ja) | 2021-01-28 |
EP3739573A4 (en) | 2021-01-13 |
EP3739573B1 (en) | 2023-06-28 |
EP3739573A1 (en) | 2020-11-18 |
US11837233B2 (en) | 2023-12-05 |
US20200335105A1 (en) | 2020-10-22 |
WO2019139101A1 (ja) | 2019-07-18 |
JP7276158B2 (ja) | 2023-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111542876A (zh) | 信息处理装置、信息处理方法以及程序 | |
US10965909B2 (en) | Image processing apparatus, camera apparatus, and image processing method | |
US20150215351A1 (en) | Control of enhanced communication between remote participants using augmented and virtual reality | |
US8508571B2 (en) | Teleconference system | |
US6208373B1 (en) | Method and apparatus for enabling a videoconferencing participant to appear focused on camera to corresponding users | |
Otsuka et al. | A realtime multimodal system for analyzing group meetings by combining face pose tracking and speaker diarization | |
US9445045B2 (en) | Video conferencing device for a communications device and method of manufacturing and using the same | |
CN114365197A (zh) | 在具有多个物理参与者的环境中放置虚拟内容 | |
US20160286164A1 (en) | Personalized Meeting Event Capture Using Egocentric Tracking in Smart Spaces | |
JP2006302047A (ja) | 会議支援プログラム、会議支援装置、および会議支援方法 | |
KR20200043658A (ko) | Vr 발표 및 면접 훈련 시스템 | |
JP2009089324A (ja) | テレビ会議システムおよびプログラム、記録媒体 | |
US20200195885A1 (en) | Asymmetric video conferencing system and method | |
US7986336B2 (en) | Image capture apparatus with indicator | |
WO2021033592A1 (en) | Information processing apparatus, information processing method, and program | |
US20220189200A1 (en) | Information processing system and information processing method | |
JP2013196154A (ja) | 画像コミュニケーションシステム、AR(AugmentedReality)動画生成装置及びプログラム | |
JP2006304066A (ja) | 遠隔会議に用いられるサーバ、クライアントコンピュータ、撮像装置、制御方法及びプログラム | |
JP2005269207A (ja) | 情報伝達方法及びこの方法を実現するための通信装置とそのプログラム | |
US20120028585A1 (en) | Communication system and communication program | |
JP7100938B1 (ja) | 動画像分析プログラム | |
WO2024142291A1 (ja) | コミュニケーション可視化システム | |
JP7465040B1 (ja) | コミュニケーション可視化システム | |
WO2023181808A1 (ja) | 情報処理装置、情報処理方法、及び、記録媒体 | |
JP2023058477A (ja) | 授業支援システム、授業支援方法、授業支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |