CN115834775A - 在线通话管理装置以及存储有在线通话管理程序的存储介质 - Google Patents
在线通话管理装置以及存储有在线通话管理程序的存储介质 Download PDFInfo
- Publication number
- CN115834775A CN115834775A CN202210200886.9A CN202210200886A CN115834775A CN 115834775 A CN115834775 A CN 115834775A CN 202210200886 A CN202210200886 A CN 202210200886A CN 115834775 A CN115834775 A CN 115834775A
- Authority
- CN
- China
- Prior art keywords
- information
- terminals
- terminal
- user
- sound image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
Abstract
提供在线通话管理装置以及存储有在线通话管理程序的存储介质。实施方式的在线通话管理装置具有第1获取部、第2获取部以及控制部。第1获取部经由网络从经由播放设备播放声像的至少一个终端获取作为与播放设备的声响的播放环境相关的信息的播放环境信息。第2获取部获取作为针对终端的用户的声像的定位方向的信息的方位信息。控制部根据播放环境信息和方位信息来进行用于每个终端的声像的播放的控制。
Description
技术领域
实施方式涉及在线通话管理装置以及存储有在线通话管理程序的存储介质。
背景技术
已知利用配置于用户的前方的双通道的扬声器、佩戴于用户的耳部的耳机、佩戴于用户的头部的头戴式耳机等各种声响的播放环境不同的播放设备将声像定位于用户的头部的周围的空间的声像定位技术。通过声像定位技术,能够以从与本来的存在播放设备的方向不同的方向听到声音的方式使用户产生错觉。
近年来,进行将声像定位技术用于在线通话的尝试。例如,在在线会议的场合,有时多个发言者的声音集中而难以听清楚。相对于此,将各个发言者的声像定位于用户的头部的周围的空间的不同的方向上,从而用户能够听清楚各个发话者的声音。
在此,为了将声像定位于各个用户的头部的周围的空间,各个用户的播放设备的声响的播放环境的信息需要是已知的。在每个用户的声音播放设备的声响的播放环境不同的情况下,有可能针对某个用户声像被适当地定位,但针对其他用户声像不被适当地定位。
发明内容
实施方式提供即使在在线通话的场合每个用户的声音播放设备的声响的播放环境不同的情况下,也能够播放针对每个用户适当地被定位的声像的在线通话管理装置以及存储有在线通话管理程序的存储介质。
实施方式的在线通话管理装置具有第1获取部、第2获取部以及控制部。第1获取部经由网络从经由播放设备播放声像的至少一个终端获取与播放设备的声响的播放环境相关的信息即播放环境信息。第2获取部获取针对终端的用户的声像的定位方向的信息即方位信息。控制部根据播放环境信息和方位信息来进行用于每个终端的声像的播放的控制。
附图说明
图1是示出具备第1实施方式的在线通话管理装置的在线通话系统的一个例子的结构的图。
图2是示出终端的一个例子的结构的图。
图3是示出主机的终端的在线通话时的一个例子的动作的流程图。
图4是示出来客(guest)的终端的在线通话时的一个例子的动作的流程图。
图5是示出播放环境信息以及方位信息的输入画面的一个例子的图。
图6是示出播放环境信息的输入画面的一个例子的图。
图7A是集中地听到多个用户的声音的状态的示意图。
图7B是准确地进行声像定位的状态的示意图。
图8是示出具备第2实施方式的在线通话管理装置的在线通话系统的一个例子的结构的图。
图9是示出服务器的一个例子的结构的图。
图10是示出服务器的在线通话时的第1例的动作的流程图。
图11是示出服务器的在线通话时的第2例的动作的流程图。
图12是示出方位信息的输入画面的另一例子的图。
图13是示出方位信息的输入画面的另一例子的图。
图14A是示出方位信息的输入画面的另一例子的图。
图14B是示出方位信息的输入画面的另一例子的图。
图15是示出方位信息的输入画面的另一例子的图。
图16是示出方位信息的输入画面的另一例子的图。
图17是示出方位信息的输入画面的另一例子的图。
图18是在第2实施方式的变形例2中在在线演讲时显示于各个终端的显示画面的例子。
图19是示出在选择了演讲人辅助按钮的情况下显示于终端的画面的一个例子的图。
图20是示出在选择了听讲者间议论按钮的情况下显示于终端的画面的一个例子的图。
图21是示出第3实施方式中的服务器的一个例子的结构的图。
图22A是用于输入与回声数据有关的活用信息的画面的例子。
图22B是用于输入与回声数据有关的活用信息的画面的例子。
图22C是用于输入与回声数据有关的活用信息的画面的例子。
图22D是用于输入与回声数据有关的活用信息的画面的例子。
(符号说明)
1:处理器;2:存储器;3:存储装置;4:声音播放设备;5:声音检测设备;6:显示装置;7:输入装置;8:通信装置;11:第1获取部;12:第2获取部;13:控制部;14:第3获取部;31:在线通话管理程序;101:处理器;102:存储器;103:存储装置;104:通信装置;1031:在线通话管理程序;1032:回声表格;1033:等级衰减表格
具体实施方式
以下,参照附图,说明实施方式。
[第1实施方式]
图1是示出具备第1实施方式的在线通话管理装置的在线通话系统的一个例子的结构的图。在图1所示的在线通话系统中,多个终端、在图1中4台终端HT、GT1、GT2、GT3以能够相互经由网络NW进行通信的方式连接,各个终端的用户HU、GU1、GU2、GU3经由终端HT、GT1、GT2、GT3实施通话。在第1实施方式中,终端HT是主持在线通话的主机的用户HU操作的主机的终端,终端GT1、GT2、GT3是作为来客而参加在线通话的来客的用户GU1、GU2、GU3分别操作的来客的终端。终端HT集中地进行用于将声像定位于使用了包括自身的各终端HT、GT1、GT2、GT3的通话时在各个用户HU、GU1、GU2、GU3的头部的周围的空间的控制。在此,在图1中,终端的数量是4台,但不限定于此。终端的数量为两台以上即可。在终端为两台的情况下,这两台终端能够用于在线通话。或者,在终端为两台的情况下,1个终端不进行声音的播放,能够用于进行用于将声像定位于另1个终端的用户的头部的周围的空间的控制。
图2是示出图1所示的终端的一个例子的结构的图。以下,设为终端HT、GT1、GT2、GT3具有基本上同样的要素而进行说明。如图2所示,终端具有处理器1、存储器2、存储装置3、声音播放设备4、声音检测设备5、显示装置6、输入装置7以及通信装置8。关于终端,例如设想个人计算机(PC)、平板终端、智能手机等能够进行通信的各种终端。此外,各个终端未必需要具有与图2所示的要素相同的要素。各个终端既可以不具有图2所示的一部分的要素,也可以具有图2所示的以外的要素。
处理器1是控制终端的整体的动作的处理器。例如主机的终端HT的处理器1例如通过执行存储于存储装置3的程序,从而作为第1获取部11、第2获取部12以及控制部13进行动作。在第1实施方式中,来客的终端GT1、GT2、GT3的处理器1未必需要能够作为第1获取部11、第2获取部12以及控制部13进行动作。处理器1例如是CPU。处理器1也可以是MPU、GPU、ASIC、FPGA等。处理器1既可以是单一的CPU等,也可以是多个CPU等。
第1获取部11获取在参加在线通话的终端HT、GT1、GT2、GT3的各个终端中输入的播放环境信息。播放环境信息是与在终端HT、GT1、GT2、GT3的各个终端中使用的声音播放设备4的声响的播放环境相关的信息。与声响的播放环境相关的信息包括表示使用何种设备作为声音播放设备4的信息。表示使用何种设备作为声音播放设备4的信息是表示例如使用立体扬声器、头戴式耳机、耳机中的何种设备作为声音播放设备4的信息。另外,在使用立体扬声器作为声音播放设备4的情况下,与声响的播放环境相关的信息还包括例如表示左右的扬声器的间隔的信息。
第2获取部12获取在参加在线通话的终端HT中输入的方位信息。方位信息是针对包括终端HT的用户HU的各个终端的用户的声像的定位方向的信息。
控制部13根据播放环境信息以及方位信息来进行用于包括终端HT的各个终端中的声像的播放的控制。例如,控制部13根据播放环境信息以及方位信息,生成适于各个终端的声像滤波器系数,将所生成的声像滤波器系数发送到各个终端。声像滤波器系数是与被输入到声音播放设备4的左右的声音信号卷积的系数,例如,根据作为声音播放设备4与用户的头部(双耳)之间的声音的传递特性的头部传递函数C和作为根据方位信息确定的假想声源与用户的头部(双耳)之间的声音的传递特性的头部传递函数d来生成。例如,在存储装置3中,存储有每个播放环境信息的头部传递函数C的表格以及每个方位信息的头部传递函数d的表格。控制部13根据由第1获取部11获取到的各个终端的播放环境信息以及由第2获取部12获取到的各个终端的方位信息来获取头部传递函数C以及头部传递函数d,生成每个终端的声像滤波器系数。
存储器2包括ROM以及RAM。ROM是非易失性的存储器。ROM存储终端的启动程序等。RAM是易失性的存储器。RAM例如被用作处理器1中的处理时的作业存储器。
存储装置3例如是硬盘驱动器、固态硬盘这样的存储装置。存储装置3存储在线通话管理程序31等由处理器1执行的各种程序。在线通话管理程序31例如是从预定的下载服务器下载的应用程序,是用于执行与在线通话系统中的在线通话有关的各种处理的程序。在此,来客的终端GT1、GT2、GT3的存储装置3也可以不存储在线通话管理程序31。
声音播放设备4是播放声音的设备。实施方式中的声音播放设备4是能够播放立体声音的设备,例如可以包括立体扬声器、头戴式耳机、耳机。通过由声音播放设备4对前述声像滤波器系数与声音信号卷积后的声音信号即声像信号进行播放,将声像定位于用户的头部的周围的空间。在实施方式中,各个终端的声音播放设备4既可以相同,也可以不同。另外,声音播放设备4既可以是内置于终端的设备,也可以是能够与终端进行通信的外部的设备。
声音检测设备5检测对终端进行操作的用户的声音的输入。声音检测设备5例如是麦克风。声音检测设备5的麦克风既可以是立体麦克风,也可以是单声道麦克风。另外,声音检测设备5既可以是内置于终端的设备,也可以是能够与终端进行通信的外部的设备。
显示装置6是液晶显示器、有机EL显示器等显示装置。在显示装置6中,显示之后说明的输入画面等各种画面。另外,显示装置6既可以是内置于终端的显示装置,也可以是能够与终端进行通信的外部的显示装置。
输入装置7是触摸面板、键盘、鼠标等输入装置。在进行输入装置7的操作的情况下,与操作内容相应的信号被输入到处理器1。处理器1根据该信号来进行各种处理。
通信装置8是用于终端经由网络NW相互进行通信的通信装置。通信装置8既可以是用于有线通信的通信装置,也可以是用于无线通信的通信装置。
接下来,说明第1实施方式中的在线通话系统的动作。图3是示出主机的终端HT的在线通话时的一个例子的动作的流程图。图4是示出来客的终端GT1、GT2、GT3的在线通话时的一个例子的动作的流程图。图3的动作由主机的终端HT的处理器1执行。另外,图4的动作由来客的终端GT1、GT2、GT3的处理器1执行。
首先,说明终端HT的动作。在步骤S1中,终端HT的处理器1将播放环境信息以及方位信息的输入画面显示于显示装置6。用于显示播放环境信息以及方位信息的输入画面的数据例如可以预先存储于终端HT的存储装置3。图5是示出显示于终端HT的显示装置6的播放环境信息以及方位信息的输入画面的一个例子的图。
如图5所示,播放环境信息的输入画面包括设想作为声音播放设备4的使用的设备的列表2601。终端HT的用户HU从列表2601选择自身使用的声音播放设备4。
另外,如图5所示,方位信息的输入画面包括包含用户HU自身的各个用户的方位的输入栏2602。在图5中,例如“A某”是用户HU,“B某”是用户GU1,“C某”是用户GU2,“D某”是用户GU3。此外,方位是将预定的基准方向例如各个用户的正面方向设为0度的方位。在第1实施方式中,主机的用户HU还输入其他用户GU1、GU2、GU3的方位信息。在此,用户HU能够在0度至359度的范围指定各个用户的方位信息。但是,当方位信息重复时,多个用户的声像被定位在相同的方向上。因而,在关于多个用户而输入相同的方位的情况下,处理器1也可以将错误消息等显示于显示装置6。
在此,在图5中,播放环境信息的输入画面和方位信息的输入画面由1个画面构成。播放环境信息的输入画面和方位信息的输入画面也可以由不同的画面构成。在该情况下,例如最初显示播放环境信息的输入画面,在播放环境信息的输入完成之后,显示方位信息的输入画面。
在步骤S2中,处理器1判定是否存在由用户HU进行的播放环境信息以及方位信息的输入或者接收到来自其它终端GT1、GT2、GT3的播放环境信息。在步骤S2中,在被判定为存在由用户HU进行的播放环境信息以及方位信息的输入或者接收到来自其它终端GT1、GT2、GT3的播放环境信息时,处理转移到步骤S3。在步骤S2中,在被判定为没有由用户HU进行的播放环境信息以及方位信息的输入以及没有接收到来自其它终端GT1、GT2、GT3的播放环境信息时,处理转移到步骤S4。
在步骤S3中,处理器1将输入或者接收到的信息存储于存储器2的例如RAM。
在步骤S4中,处理器1判定信息的输入是否完成、即是否结束将关于各个终端的播放环境信息以及方位信息例如存储于RAM。在步骤S4中,在被判定为信息的输入未完成时,处理返回到步骤S2。在步骤S4中,在被判定为信息的输入完成时,处理转移到步骤S5。
在步骤S5中,处理器1根据关于各个终端的播放环境信息以及方位信息,生成各个终端的每个终端的即面向各个终端的用户的声像滤波器系数。
例如,面向用户HU的声像滤波器系数包括根据由用户GU1输入的终端GT1的声音播放设备4的播放环境信息和由用户HU指定的用户HU的方位信息而生成的声像滤波器系数、根据由用户GU2输入的终端GT2的声音播放设备4的播放环境信息和由用户HU指定的用户HU的方位信息而生成的声像滤波器系数以及根据由用户GU3输入的终端GT3的声音播放设备4的播放环境信息和由用户HU指定的用户HU的方位信息而生成的声像滤波器系数。
另外,面向用户GU1的声像滤波器系数包括根据由用户HU输入的终端HT的声音播放设备4的播放环境信息和由用户HU指定的用户GU1的方位信息而生成的声像滤波器系数、根据由用户GU2输入的终端GT2的声音播放设备4的播放环境信息和由用户HU指定的用户GU1的方位信息而生成的声像滤波器系数以及根据由用户GU3输入的终端GT3的声音播放设备4的播放环境信息和由用户HU指定的用户GU1的方位信息而生成的声像滤波器系数。
面向用户GU2的声像滤波器系数以及面向用户GU3的声像滤波器系数也同样地能够生成。也就是说,面向用户GU2的声像滤波器系数根据除了由用户GU2输入的终端GT2的声音播放设备4的播放环境信息之外的其它终端的播放环境信息和由用户HU指定的用户GU2的方位信息来生成。另外,面向用户GU3的声像滤波器系数根据除了由用户GU3输入的终端GT3的声音播放设备4的播放环境信息之外的其它终端的播放环境信息和由用户HU指定的用户GU3的方位信息来生成。
在步骤S6中,处理器1使面向用户HU生成的声像滤波器系数例如存储于存储装置3。另外,处理器1使用通信装置8将面向用户GU1、GU2、GU3生成的声像滤波器系数发送到各个终端。由此,用于在线通话的初始设定完成。
在步骤S7中,处理器1判定是否经由声音检测设备5存在用户HU的声音的输入。在步骤S7中,在被判定为存在用户HU的声音的输入时,处理转移到步骤S8。在步骤S7中,在被判定为没有用户HU的声音的输入时,处理转移到步骤S10。
在步骤S8中,处理器1将面向用户HU的声像滤波器系数与基于经由声音检测设备5输入的用户HU的声音的声音信号进行卷积,生成面向其他用户的声像信号。
在步骤S9中,处理器1使用通信装置8将面向其他用户的声像信号发送到终端GT1、GT2、GT3。之后,处理转移到步骤S13。
在步骤S10中,处理器1判定是否经由通信装置8接收到来自其它终端的声像信号。在步骤S10中,在被判定为接收到来自其它终端的声像信号时,处理转移到步骤S11。在步骤S10中,在被判定为没有接收到来自其它终端的声像信号时,处理转移到步骤S13。
在步骤S11中,处理器1使面向用户HU的声像信号从接收到的声像信号分离。例如,在从终端GT1接收到声像信号的情况下,处理器1使对根据由用户HU输入的终端HT的声音播放设备4的播放环境信息和由用户HU指定的用户GU1的方位信息而生成的声像滤波器系数进行卷积后的声像信号分离。
在步骤S12中,处理器1利用声音播放设备4对声像信号进行播放。之后,处理转移到步骤S13。
在步骤S13中,处理器1判定是否结束在线通话。例如,在通过用户HU的输入装置7的操作而指示在线通话的结束的情况下,被判定为结束在线通话。在步骤S13中,在被判定为不结束在线通话的情况下,处理返回到步骤S2。在该情况下,当在在线通话过程中存在播放环境信息或者方位信息的变更的情况下,处理器1反映其变更而重新生成声像滤波器系数,继续在线通话。在步骤S13中,在被判定为结束在线通话的情况下,处理器1使图3的处理结束。
接下来,说明终端GT1、GT2、GT3的动作。在此,终端GT1、GT2、GT3的动作相同,所以以下代表性地说明终端GT1的动作。
在步骤S101中,终端GT1的处理器1将播放环境信息的输入画面显示于显示装置6。用于显示播放环境信息的输入画面的数据也可以预先存储于终端GT1的存储装置3。图6是示出显示于终端GT1、GT2、GT3的显示装置6的播放环境信息的输入画面的一个例子的图。如图6所示,播放环境信息的输入画面包括设想作为声音播放设备4的使用的设备的列表2601。也就是说,终端HT的播放环境信息的输入画面与终端GT1、GT2、GT3的播放环境信息的输入画面可以相同。在此,终端GT1的播放环境信息的输入画面的数据也可以存储于终端HT的存储装置3。在该情况下,在图3的步骤S1中,终端HT的处理器1将终端GT1、GT2、GT3的播放环境信息的输入画面的数据发送到终端GT1、GT2、GT3。在该情况下,用于显示播放环境信息的输入画面的数据也可以不预先存储于终端GT1、GT2、GT3的存储装置3。
在步骤S102中,处理器1判定是否存在由用户GU1进行的播放环境信息的输入。在步骤S102中,在被判定为存在由用户GU1进行的播放环境信息的输入时,处理转移到步骤S103。在步骤S102中,在被判定为没有由用户GU1进行的播放环境信息的输入时,处理转移到步骤S104。
在步骤S103中,处理器1使用通信装置8将所输入的播放环境信息发送到终端HT。
在步骤S104中,处理器1判定是否从终端HT接收到面向用户GU1的声像滤波器系数。在步骤S104中,在被判定为未接收到面向用户GU1的声像滤波器系数时,处理返回到步骤S102。在步骤S104中,在被判定为接收到面向用户GU1的声像滤波器系数时,处理转移到步骤S105。
在步骤S105中,处理器1使接收到的面向用户GU1的声像滤波器系数例如存储于存储装置3。
在步骤S106中,处理器1判定是否经由声音检测设备5存在用户GU1的声音的输入。在步骤S106中,在被判定为存在用户GU1的声音的输入时,处理转移到步骤S107。在步骤S106中,在被判定为没有用户GU1的声音的输入时,处理转移到步骤S109。
在步骤S107中,处理器1将面向用户GU1的声像滤波器系数与基于经由声音检测设备5输入的用户GU1的声音的声音信号进行卷积来生成面向其他用户的声像信号。
在步骤S108中,处理器1使用通信装置8将面向其他用户的声像信号发送到终端HT、GT2、GT3。之后,处理转移到步骤S112。
在步骤S109中,处理器1判定是否经由通信装置8接收到来自其它终端的声像信号。在步骤S109中,在被判定为接收到来自其它终端的声像信号时,处理转移到步骤S110。在步骤S109中,在被判定为没有接收到来自其它终端的声像信号时,处理转移到步骤S112。
在步骤S110中,处理器1使面向用户GU1的声像信号从接收到的声像信号分离。例如,在从终端HT接收到声像信号的情况下,处理器1使对根据由用户GU1输入的终端GT1的声音播放设备4的播放环境信息和由用户HU指定的用户HU的方位信息而生成的声像滤波器系数进行卷积后的声像信号分离。
在步骤S111中,处理器1利用声音播放设备4对声像信号进行播放。之后,处理转移到步骤S112。
在步骤S112中,处理器1判定是否结束在线通话。例如,在通过用户GU1的输入装置7的操作而指示在线通话的结束的情况下,被判定为结束在线通话。在步骤S112中,在被判定为不结束在线通话的情况下,处理返回到步骤S102。在该情况下,当在在线通话过程中存在播放环境信息的变更的情况下,处理器1将该播放环境信息发送到终端HT,继续在线通话。在步骤S112中,在被判定为结束在线通话的情况下,处理器1使图4的处理结束。
如以上说明,在第1实施方式中,根据播放环境信息以及方位信息,在主机的终端HT中生成面向各个终端的用户的声像滤波器系数。由此,能够根据各个终端中的声音播放设备4的播放环境对其他用户的声像进行定位。例如,当在多个终端之间的在线通话时多个用户同时发言的情况下,本来如图7A所示集中地听到多个用户的声音VA、VB、VC、VD。相对于此,在第1实施方式中,通过主机的用户HU的指定而多个用户的声音VA、VB、VC、VD被定位于各个用户的头部的周围的不同的方位。由此,能够如图7B所示以从不同的方位听到多个用户的声音VA、VB、VC、VD的方式使用户产生错觉。因而,用户能够听清多个用户的声音VA、VB、VC、VD。
对于声像滤波器系数的生成,需要播放环境信息以及方位信息。另一方面,无法从主机的终端直接地确认各自的来客的终端的声音播放设备的播放环境。相对于此,在第1实施方式中,让播放环境信息从来客的终端发送到主机的终端,根据该信息,主机的终端生成各个终端的每个终端的声像滤波器系数。这样,第1实施方式在用1个终端集中地管理声像滤波器系数的在线通话环境下是特别优选的。
在此,在实施方式中,主机的终端每当获取到播放环境信息以及方位信息时,新生成声像滤波器系数。相对于此,也可以预先设想利用的多个声像滤波器系数由主机的终端和来客的终端共享,主机的终端每当获取到播放环境信息以及方位信息时,从其预先共享的声像滤波器系数之中决定所需的声像滤波器系数。然后,主机的终端也可以不将声像滤波器系数发送到各自的来客的终端,而仅将表示所决定的声像滤波器系数的索引的信息发送到各自的来客的终端。在该情况下,无需在在线通话过程中逐次地生成声像滤波器系数。
另外,在第1实施方式中,未特别提及在线通话过程中的声音以外的信息的收发。在第1实施方式中,也可以进行声音以外的例如动态图像的收发。
另外,在第1实施方式中,主机的终端生成声像滤波器系数。相对于此,声像滤波器系数的生成未必需要由主机的终端进行。声像滤波器系数的生成既可以由任意的来客的终端进行,也可以由与参加在线通话的终端不同的设备例如服务器等进行。在该情况下,主机的终端将包含从各自的来客的终端获取到的播放环境信息的参加在线通话的各个终端的播放环境信息以及方位信息发送到服务器等。
[第2实施方式]
接下来,说明第2实施方式。图8是示出具备第2实施方式的在线通话管理装置的在线通话系统的一个例子的结构的图。在图8所示的在线通话系统中,与图1同样地多个终端、在图8中4台终端HT、GT1、GT2、GT3以相互能够经由网络NW进行通信的方式连接,各个终端的用户HU、GU1、GU2、GU3经由终端HT、GT1、GT2、GT3实施通话。在第2实施方式中,终端HT也是主持在线通话的主机的用户HU操作的主机的终端,终端GT1、GT2、GT3是作为来客而参加在线通话的来客的用户GU1、GU2、GU3分别操作的来客的终端。
在第2实施方式中,进而,服务器Sv与终端HT、GT1、GT2、GT3以能够经由网络NW进行通信的方式连接。在第2实施方式中,服务器Sv集中地进行用于在使用了终端HT、GT1、GT2、GT3的通话时将声像定位于各个用户HU、GU1、GU2、GU3的头部的周围的空间的控制。在此,图8中的服务器Sv也可以作为云服务器而构成。
关于图8所示的第2实施方式的在线通话系统,例如设想在线会议或者在线演讲中的应用。
图9是示出服务器Sv的一个例子的结构的图。此外,终端HT、GT1、GT2、GT3可以具有图2所示的结构。因而,关于终端HT、GT1、GT2、GT3的结构,省略说明。如图9所示,服务器Sv具有处理器101、存储器102、存储装置103以及通信装置104。此外,服务器Sv未必需要具有与图9所示的要素相同的要素。服务器Sv既可以不具有图9所示的一部分的要素,也可以具有图9所示的以外的要素。
处理器101是控制服务器Sv的整体的动作的处理器。服务器Sv的处理器101例如通过执行存储于存储装置103的程序,从而作为第1获取部11、第2获取部12、第3获取部14以及控制部13进行动作。在第2实施方式中,主机的终端HT、来客的终端GT1、GT2、GT3的处理器1未必需要能够作为第1获取部11、第2获取部12、第3获取部14以及控制部13进行动作。处理器101例如是CPU。处理器101也可以是MPU、GPU、ASIC、FPGA等。处理器101既可以是单一的CPU等,也可以是多个CPU等。
第1获取部11以及第2获取部12与第1实施方式相同。因而,省略说明。另外,控制部13与在第1实施方式中说明的情况同样地根据播放环境信息以及方位信息来进行用于包括终端HT的各个终端中的声像的播放的控制。
第3获取部14获取参加在线通话的终端HT、GT1、GT2、GT3各自中的活用信息。活用信息是与在终端HT、GT1、GT2、GT3的各个终端中使用的声像的活用有关的信息。活用信息例如包括分配给参加在线通话的用户的属性的信息。另外,活用信息包括参加在线通话的用户的群组设定的信息。活用信息可以包括与其它各种声像的活用有关的信息。
存储器102包括ROM以及RAM。ROM是非易失性的存储器。ROM存储服务器Sv的启动程序等。RAM是易失性的存储器。RAM例如被用作处理器101中的处理时的作业存储器。
存储装置103例如是硬盘驱动器、固态硬盘这样的存储装置。存储装置103存储在线通话管理程序1031等由处理器101执行的各种程序。在线通话管理程序1031是用于执行与在线通话系统中的在线通话有关的各种处理的程序。
通信装置104是用于服务器Sv经由网络NW而与各个终端进行通信的通信装置。通信装置104既可以是用于有线通信的通信装置,也可以是用于无线通信的通信装置。
接下来,说明第2实施方式中的在线通话系统的动作。图10是示出服务器Sv的在线通话时的第1例的动作的流程图。关于主机的终端HT、来客的终端GT1、GT2、GT3的动作,基本上遵循图4所示的动作。
在步骤S201中,处理器101将播放环境信息以及方位信息的输入画面的数据发送到各个终端HT、GT1、GT2、GT3。也就是说,在第2实施方式中,不仅是主机的终端HT,在来客的终端GT1、GT2、GT3中也显示图5所示的播放环境信息以及方位信息的输入画面。由此,来客的用户GU1、GU2、GU3也指定声像的定位方向。此外,处理器101进而也可以将活用信息的输入画面的数据发送到各个终端HT、GT1、GT2、GT3。
在步骤S202中,处理器101判定是否接收到来自终端HT、GT1、GT2、GT3的播放环境信息以及方位信息。在步骤S202中,在被判定为接收到来自终端HT、GT1、GT2、GT3的播放环境信息以及方位信息时,处理转移到步骤S203。在步骤S202中,在被判定为没有接收到来自终端HT、GT1、GT2、GT3的播放环境信息以及方位信息时,处理转移到步骤S207。
在步骤S203中,处理器101将接收到的信息存储于存储器102的例如RAM。
在步骤S204中,处理器101判定信息的输入是否完成、即是否结束将关于各个终端的播放环境信息以及方位信息例如存储于RAM。在步骤S204中,在被判定为信息的输入未完成时,处理返回到步骤S202。在步骤S204中,在被判定为信息的输入完成时,处理转移到步骤S205。
在步骤S205中,处理器101根据关于各个终端的播放环境信息以及方位信息,生成各个终端的每个终端的即面向各个终端的用户的声像滤波器系数。
例如,面向用户HU的声像滤波器系数包括根据由用户GU1输入的终端GT1的声音播放设备4的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户HU的方位信息而生成的声像滤波器系数、根据由用户GU2输入的终端GT2的声音播放设备4的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户HU的方位信息而生成的声像滤波器系数以及根据由用户GU3输入的终端GT3的声音播放设备4的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户HU的方位信息而生成的声像滤波器系数。
另外,面向用户GU1的声像滤波器系数包括根据由用户HU输入的终端HT的声音播放设备4的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户GU1的方位信息而生成的声像滤波器系数、根据由用户GU2输入的终端GT2的声音播放设备4的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户GU1的方位信息而生成的声像滤波器系数以及根据由用户GU3输入的终端GT3的声音播放设备4的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户GU1的方位信息而生成的声像滤波器系数。
面向用户GU2的声像滤波器系数以及面向用户GU3的声像滤波器系数也同样地能够生成。也就是说,面向用户GU2的声像滤波器系数根据除了由用户GU2输入的终端GT2的声音播放设备4的播放环境信息之外的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户GU2的方位信息来生成。另外,面向用户GU3的声像滤波器系数根据除了由用户GU3输入的终端GT3的声音播放设备4的播放环境信息之外的播放环境信息和由用户HU、GU1、GU2、GU3的各个用户指定的用户GU3的方位信息来生成。
在步骤S206中,处理器101使用通信装置104将面向用户HU、GU1、GU2、GU3生成的声像滤波器系数发送到各个终端。由此,用于在线通话的初始设定完成。
在步骤S207中,处理器101判定是否经由通信装置104接收到来自终端HT、GU1、GU2、GU3中的至少任意一个终端的声像信号。在步骤S207中,在被判定为接收到来自某个终端的声像信号时,处理转移到步骤S208。在步骤S207中,在被判定为从任意的终端都没有接收到声像信号时,处理转移到步骤S210。
在步骤S208中,处理器101使面向各个用户的声像信号从接收到的声像信号分离。例如,在从终端HT接收到声像信号的情况下,处理器101作为面向用户GU1的声像信号而使对根据由用户GU1输入的终端GT1的声音播放设备4的播放环境信息和由用户GU1指定的用户HU的方位信息而生成的声像滤波器系数进行卷积后的声像信号分离。同样地,处理器101作为面向用户GU2的声像信号而使对根据由用户GU2输入的终端GT2的声音播放设备4的播放环境信息和由用户GU2指定的用户HU的方位信息而生成的声像滤波器系数进行卷积后的声像信号分离。另外,处理器101作为面向用户GU3的声像信号而使对根据由用户GU3输入的终端GT3的声音播放设备4的播放环境信息和由用户GU3指定的用户HU的方位信息而生成的声像滤波器系数进行卷积后的声像信号分离。
在步骤S209中,处理器101使用通信装置104将各自分离的声像信号发送到对应的终端。之后,处理转移到步骤S210。此外,在各个终端中,与图4的步骤S12所示的处理同样地,对接收到的声像信号进行播放。在服务器Sv中,声像信号被分离,所以无需进行步骤S11的处理。另外,当在相同的定时接收到多个声音信号的情况下,处理器101将面向相同的终端的声像信号重叠地发送。
在步骤S210中,处理器101判定是否结束在线通话。例如,在通过所有的用户的输入装置7的操作而指示在线通话的结束的情况下,被判定为结束在线通话。在步骤S210中,在被判定为不结束在线通话的情况下,处理返回到步骤S202。在该情况下,当在在线通话过程中存在播放环境信息或者方位信息的变更的情况下,处理器101反映其变更而重新生成声像滤波器系数,继续在线通话。在步骤S210中,在被判定为结束在线通话的情况下,处理器101使图10的处理结束。
图11是示出服务器Sv的在线通话时的第2例的动作的流程图。在第2例中,不仅在服务器Sv中进行声像滤波器系数的生成,还生成各个终端的每个终端的声像信号。此外,关于主机的终端HT、来客的终端GT1、GU2、GU3的动作,遵循基本上图4所示的动作。
在步骤S301中,处理器101将播放环境信息以及方位信息的输入画面的数据发送到各个终端HT、GT1、GT2、GT3。此外,处理器101进而也可以将活用信息的输入画面的数据发送到各个终端HT、GT1、GT2、GT3。
在步骤S302中,处理器101判定是否接收到来自终端HT、GT1、GT2、GT3的播放环境信息以及方位信息。在步骤S302中,在被判定为接收到来自终端HT、GT1、GT2、GT3的播放环境信息以及方位信息时,处理转移到步骤S303。在步骤S302中,在被判定为没有接收到来自终端HT、GT1、GT2、GT3的播放环境信息以及方位信息时,处理转移到步骤S307。
在步骤S303中,处理器101将接收到的信息存储于存储器102的例如RAM。
在步骤S304中,处理器101判定信息的输入是否完成、即是否结束将关于各个终端的播放环境信息以及方位信息存储于例如RAM。在步骤S304中,在被判定为信息的输入未完成时,处理返回到步骤S302。在步骤S304中,在被判定为信息的输入完成时,处理转移到步骤S305。
在步骤S305中,处理器101根据关于各个终端的播放环境信息以及方位信息,生成各个终端的每个终端的即面向各个用户的声像滤波器系数。在步骤S305中生成的声像滤波器系数可以与第1例的在步骤S205中生成的像滤波器系数相同。
在步骤S306中,处理器101使面向各个用户的声像滤波器系数例如存储于存储装置103。
在步骤S307中,处理器101判定是否经由通信装置104接收到来自终端HT、GT1、GT2、GT3中的至少任意一个终端的声音信号。在步骤S307中,在被判定为接收到来自某个终端的声音信号时,处理转移到步骤S308。在步骤S307中,在被判定为从任意的终端都没有接收到声音信号时,处理转移到步骤S310。
在步骤S308中,处理器101从接收到的声音信号生成面向各个用户的声像信号。例如,在从终端HT接收到声音信号的情况下,处理器101将根据由用户GU1输入的终端GT1的声音播放设备4的播放环境信息和由用户GU1指定的用户HU的方位信息而生成的声像滤波器系数与接收到的声音信号进行卷积来生成面向用户GU1的声像信号。同样地,处理器101将根据由用户GU2输入的终端GT2的声音播放设备4的播放环境信息和由用户GU2指定的用户HU的方位信息而生成的声像滤波器系数与接收到的声音信号进行卷积来生成面向用户GU2的声像信号。另外,处理器101将根据由用户GU3输入的终端GT3的声音播放设备4的播放环境信息和由用户GU3指定的用户HU的方位信息而生成的声像滤波器系数与接收到的声音信号进行卷积来生成面向用户GU3的声像信号。另外,处理器101也可以在存在活用信息的情况下,调整根据活用信息而生成的声像信号。之后说明该调整。
在步骤S309中,处理器101使用通信装置104将各自生成的声像信号发送到对应的终端。之后,处理转移到步骤S310。此外,在各个终端中,与图4的步骤S12所示的处理同样地,对接收到的声像信号进行播放。在服务器Sv中,声像信号被分离,所以无需进行步骤S11的处理。另外,当在相同的定时接收到多个声音信号的情况下,处理器101将面向相同的终端的声像信号重叠地发送。
在步骤S310中,处理器101判定是否结束在线通话。例如,在通过所有的用户的输入装置7的操作而指示在线通话的结束的情况下,被判定为结束在线通话。在步骤S310中,在被判定为不结束在线通话的情况下,处理返回到步骤S302。在该情况下,当在在线通话过程中存在播放环境信息或者方位信息的变更的情况下,处理器101反映其变更而重新生成声像滤波器系数,继续在线通话。在步骤S310中,在被判定为结束在线通话的情况下,处理器101使图11的处理结束。
在此,在第2实施方式的第1例子中,也可以是预先设想利用的多个声像滤波器系数由服务器、主机的终端以及来客的终端共享,服务器每当获取到播放环境信息以及方位信息时从其预先共享的声像滤波器系数之中决定所需的声像滤波器系数。然后,服务器也可以不将声像滤波器系数发送到主机的终端以及各自的来客的终端,而仅将表示所决定的声像滤波器系数的索引的信息发送到主机的终端以及各自的来客的终端。另外,在第2实施方式的第2例子中,服务器也可以每当获取到播放环境信息以及方位信息时,从预先设想利用的多个声像滤波器系数之中决定所需的声像滤波器系数。然后,服务器可以将所决定的声像滤波器系数与声音信号进行卷积。
如以上说明,在第2实施方式中,根据播放环境信息以及方位信息,在服务器Sv中生成面向各个终端的用户的声像滤波器系数。由此,能够根据各个终端的声音播放设备4的播放环境对其他用户的声像进行定位。另外,在第2实施方式中,不仅是主机的终端HT,还在服务器Sv中生成声像滤波器系数。因而,能够降低在线通话时的主机的终端HT的负荷。
另外,在第2实施方式中,不仅是主机的终端HT,还在来客的终端GT1、GT2、GT3中也指定播放环境信息和方位信息,根据这些播放环境信息和方位信息来生成声像滤波器系数。因此,在线通话的参加者能够分别确定想要对自身的周围的声像进行播放的方位。
[第2实施方式的变形例1]
接下来,说明第2实施方式的变形例1。在前述第1实施方式以及第2实施方式中,作为方位信息的输入画面而例示出包括图5的方位的输入栏2602的输入画面。相对于此,特别是也可以作为适于在线会议的方位信息的输入画面,使用图12等所示的输入画面。
图12所示的方位信息的输入画面包括在线会议的参加者的列表2603。在参加者的列表2603中,排列有表示各个参加者的标记2604。
进而,图12所示的方位信息的输入画面包括会议室的示意图2605。会议室的示意图2605包括会议桌的示意图2606和配置于会议桌的示意图2606的周围的椅子的示意图2607。用户将标记2604通过拖拽并放入到椅子的示意图2607而配置。接受该配置,服务器Sv的处理器101决定其他用户相对于该用户的方位。也就是说,处理器101根据“自己”的标记2604与“其他用户”的标记2604的位置关系来决定其他用户的方位。由此,能够输入方位信息。通过依照图12所示的方位信息向输入画面的输入对声像进行定位,用户能够通过如在实际的会议室进行会议那样的感觉听到其他用户的声音。
在此,在图12中,椅子的数量存在限制,所以例如各个用户可以判断会议的关键人物,配置与该关键人物对应的标记2604。服务器Sv的处理器101可以关于未配置于椅子的用户的声音而直接以没有定位的单声道声音信号发送到各个终端。在该情况下,即使是未配置于椅子的其他用户的声音,当判断为进行了看似重要的发言时,用户通过适当地更换标记,从而也能够以定位的状态听到其他用户的声音。
另外,图12所示的方位信息的输入画面在在线会议过程中也可以被显示。在在线会议过程中,用户也可以变更标记2604的配置而决定其他用户的方位。由此,例如即使在因用户的周围的环境的变化而难以听到来自特定的方位的声音的情况等下也能够应对。进而,也可以如图12所示,进行了发言的用户的标记如参照符号2608所示进行发光等。
图12是用户自由地确定其他用户的配置的例子。相对于此,也可以如图13、图14A以及图14B所示,使用如用户从预先确定的多个配置之中选择所期望的配置那样的方位信息的输入画面。
图13是在线会议的参加者是两名、隔着会议桌的示意图2609而两个用户2610、2611以对置的方式配置的例子。例如,用户2610是“自己”。在选择图13的配置的情况下,处理器101将用户2611的方位设定为“0度”。
图14A是在线会议的参加者是3名、隔着会议桌的示意图2609而表示“自己”的用户2610和两个其他用户2611以对置的方式配置的例子。在选择图14A的配置的情况下,处理器101将两个用户2611的方位分别设定为“0度”、“θ度”。
图14B是在线会议的参加者是3名、隔着会议桌的示意图2609而在相对于表示“自己”的用户2610的±θ度的方位处配置两个其他用户2611的例子。在选择图14B的配置的情况下,处理器101将两个用户2611的方位分别设定为“-θ度”、“θ度”。
此外,在在线会议的参加者是两名或者3名的情况下,各个用户的配置并不限于图13、图14A、图14B所示的配置。另外,可以关于在线会议的参加者为4名以上的情况,也准备与图13、图14A、图14B同样的输入画面。
另外,会议桌的示意图2609的形状不必限于四边形。例如,也可以如图15所示,相对于圆桌状的会议桌的示意图2609而配置表示“自己”的用户2610以及其他用户2611。图15也可以与图12同样地是如用户能够配置标记2604那样的方位信息的输入画面。
另外,也可以不模仿图12中的会议室,而例如如图16所示是如在以听到声音的用户2612为中心的圆周上配置其他用户的示意图2613,相对于该其他用户的示意图2613而配置标记2604,从而进行方位信息的输入那样的输入画面。在该情况下,也可以是进行了发言的用户的标记进行发光等。
进而,也可以不是2维,而在如图17所示的3维的示意图上进行方位信息的输入。例如,也可以是如在以听到声音的用户2614的头部为中心的圆周上3维地配置其他用户的示意图2615,相对于该其他用户的示意图2615而配置标记2604,从而进行方位信息的输入那样的输入画面。在该情况下,也可以是进行了发话的用户的标记如参照符号2616所示进行发光等。特别是,在头戴式耳机、耳机中,前方的定位精度容易发生劣化。因而,通过使用视觉来感应进行了发话的用户的方向,能够改善定位精度的劣化。
[第2实施方式的变形例2]
接下来,说明第2实施方式的变形例2。第2实施方式的变形例2是在在线演讲时优选的例子,是使用活用信息的具体例。图18在第2实施方式的变形例2中在在线演讲时显示于各个终端的显示画面的例子。在此,在线演讲过程中的服务器Sv的动作也可以按照图10所示的第1例和图11所示的第2例的任意例子进行。
如图18所示,在第2实施方式的变形例2中在在线演讲过程中显示的显示画面包括动态图像显示区域2617。动态图像显示区域2617是显示在在线演讲过程中传输的动态图像的区域。动态图像显示区域2617的显示能够由用户任意地开启或者关停。
如图18所示,在第2实施方式的变形例2中在在线演讲过程中显示的显示画面还包括示出其他用户相对于自己的定位方向的示意图2618和表示其他用户的标记2619a、2619b、2619c。与第2实施方式的变形例1同样地,用户将标记2619a、2619b、2619c通过拖拽并放入到示意图2618上而配置。进而,在第2实施方式的变形例2中,对各个标记2619a、2619b、2619c分配作为活用信息的属性。属性例如是在线演讲中的各个用户的职务,例如主机的用户HU能够任意地指定。在分配属性的情况下,表示该属性的名称2620显示于显示画面。在图18中,标记2619a的属性是“演讲人”,标记2619b的属性是“共同演讲人”,标记2619c的属性是电铃的声音等“机械声”。这样,在第2实施方式的变形例2中,用户不必限于人。另外,关于属性,除了图18所示的情况以外,能够被指定为“计时员”等各种职责。
例如在由主机的用户HU指定属性的情况下,服务器Sv的处理器101可以针对每个属性而调整声像的播放。例如,在“演讲人”的声音信号和其他用户的声音信号同时被输入的情况下,处理器101也可以仅将“演讲人”的声音发送到各个终端,或者以良好地听到“演讲人”的声音的方式对声像进行定位等。另外,除此之外,处理器101也可以将“机械声”、“计时员”等的声音仅发送到“演讲人”的终端,或者以不被其它终端听到的方式对声像进行定位等。
如图18所示,在第2实施方式的变形例2中在在线演讲过程中显示的显示画面还包括演讲人辅助按钮2621以及听讲者间议论按钮2622。演讲人辅助按钮2621是主要由计时员等演讲人的辅助员选择的按钮。演讲人辅助按钮2621也可以以不显示于演讲人的辅助员的终端以外的方式被设定。听讲者间议论按钮2622是在实施听到演讲人的发表的听讲者间的议论时选择的按钮。
图19是示出在选择演讲人辅助按钮2621的情况下显示于终端的画面的一个例子的图。在选择演讲人辅助按钮2621的情况下,如图19所示,新显示计时员设定按钮2623、开始按钮2624、停止按钮2625以及临时停止/再次开始按钮2626。
计时员设定按钮2623是用于进行发表的剩余时间的设定、电铃的间隔的设定等需要计时员的各种设定的按钮。开始按钮2624例如在发表的开始时选择,是用于使发表的剩余时间的测量、鸣响电铃这样的计时处理开始的按钮。停止按钮2625是用于使计时处理停止的按钮。临时停止/再次开始按钮2626是用于切换计时处理的临时停止/再次开始的按钮。
图20是示出在选择听讲者间议论按钮2622的情况下显示于终端的画面的一个例子的图。在选择听讲者间议论按钮2622的情况下,转变到图20所示的画面。图20所示的画面包括示出其他用户相对于自己的定位方向的示意图2618和表示其他用户的标记2627a、2627b。与第2实施方式的变形例1同样地,用户将标记2627a、2627b通过拖拽并放入到示意图2618上而配置。进而,对各个标记2627a、2627b分配作为活用信息的属性。各个用户能够任意地指定选择听讲者间议论按钮2622的情况下的属性。在分配属性的情况下,表示该属性的名称显示于显示画面。在图20中,标记2627a的属性是“演讲人”,标记2627b的属性是“D某”。
另外,如图20所示,在第2实施方式的变形例2中在选择听讲者间议论按钮2622的情况下显示的显示画面还包括群组设定栏2628。群组设定栏2628是用于设定听讲者间的群组的显示栏。在群组设定栏2628处,显示当前的已设定的群组的列表。群组的列表包括群组的名称和属于该群组的用户的名称。群组的名称既可以由最初设定群组的用户确定,也可以预先确定。另外,在群组设定栏2628处,在各个群组的名称的附近显示参加按钮2629。在选择参加按钮2629的情况下,处理器101使该用户隶属于对应的群组。
另外,在选择听讲者间议论按钮2622的情况下显示的显示画面还包括群组新制作按钮2630。群组新制作按钮2630是在设定在群组设定栏2628处未显示的新的群组时选择的按钮。在选择群组新制作按钮2630的情况下,用户例如设定群组的名称。另外,也可以构成为能够在群组的新制作中指定不想参加群组的用户。关于想要被设定为不参加群组的用户,处理器101以在显示画面例如不显示参加按钮2629的方式进行控制。在图20中,向“群组2”的参加设为不能。
另外,在选择听讲者间议论按钮2622的情况下显示的显示画面包括开始按钮2631和停止按钮2632。开始按钮2631是用于使听讲者间议论开始的按钮。停止按钮2632是用于使听讲者间议论停止的按钮。
进而,在选择听讲者间议论按钮2622的情况下显示的显示画面包括音量平衡按钮2633。音量平衡按钮2633是用于指定“演讲人”的用户与属于群组的其他用户的音量平衡的按钮。
例如在设定群组而选择开始按钮2631的情况下,服务器Sv的处理器101以仅能够在属于群组的用户之间听到声音的方式使声像定位。另外,处理器101依照音量平衡的指定而进行“演讲人”的用户的音量和其他用户的音量的调整。
在此,群组设定栏2628例如也可以构成为能够由最初设定群组的用户切换群组的激活/非激活。在该情况下,也可以在群组设定栏2628处区分颜色地显示激活的群组和非激活的群组。
[第3实施方式]
接下来,说明第3实施方式。图21是示出第3实施方式中的服务器Sv的一个例子的结构的图。在此,在图21中,省略关于与图9相同的结构的说明。在第3实施方式中,在存储装置103中存储有回声表格1032这点不同。回声表格1032是用于对声像信号附加预定的回声效果的回声信息的表格。回声表格1032作为表格数据而具有在小规模会议室、大规模会议室、半消音室中预先测量出的回声数据。服务器Sv的处理器101从回声表格1032获取作为由用户指定的活用信息的与设想利用声像的虚拟环境对应的回声数据,在将基于获取到的回声数据的回声附加到声像信号之后发送到各个终端。
图22A、图22B、图22C、图22D是用于输入与回声数据有关的活用信息的画面的例子。在图22A-图22D的画面中用户指定设想利用声像的虚拟环境。
图22A是最初显示的画面2634。图22A所示的画面2634包括用于用户自身选择回声的“想要选择”栏2635以及用于服务器Sv选择回声的“委托”栏2636。例如主机的用户HT选择“想要选择”栏2635以及“委托”栏2636中的自身期望的栏。在选择“委托”栏2636的情况下,服务器Sv自动地选择回声。例如,服务器Sv根据在线会议的参加者的数量来选择在小规模会议室中测量出的回声数据、在大规模会议室中测量出的回声数据、在半消音室中测量出的回声数据中的任意数据。
图22B是在选择“想要选择”栏2636的情况下显示的画面2637。图22B所示的画面2637包括用于选择与房间的种类相应的回声的“按照房间种类选择”栏2638以及用于选择与谈话规模相应的回声的“按照谈话规模选择”栏2639。例如主机的用户HT选择“按照房间种类选择”栏2638以及“按照谈话规模选择”栏2639中的自身期望的栏。
图22C是在选择“按照房间种类选择”栏2638的情况下显示的画面2640。图22C所示的画面2640包括用于选择与小会议室即小规模会议室相应的回声的“小会议室”栏2641、用于选择与会议厅即大规模会议室相应的回声的“会议厅”栏2642、用于选择与声音不大的房间即消音室相应的回声的“声音不大的房间”栏2643。例如主机的用户HT选择“小会议室”栏2641、“会议厅”栏2642以及“声音不大的房间”栏2643中的自身期望的栏。
服务器Sv的处理器101在由用户选择“小会议室”栏2641的情况下,从回声表格1032获取在小规模会议室中预先测量出的回声数据。另外,处理器101在由用户选择“会议厅”栏2642的情况下,从回声表格1032获取在大规模会议室中预先测量出的回声数据。进而,处理器101在由用户选择“声音不大的房间”栏2643的情况下,从回声表格1032获取在消音室中预先测量出的回声数据。
图22D是在选择“按照谈话规模选择”栏2639的情况下显示的画面2644。图22D所示的画面2644包括用于选择与中程度的谈话规模相应的回声的“内部会议”栏2645、用于选择与比较大的谈话规模相应的回声的“报告会等”栏2646、用于选择与小的谈话规模相应的回声的“绝密会议”栏2647。例如主机的用户HT选择“内部会议”栏2645、“报告会等”栏2646以及“绝密会议”栏2647中的自身期望的栏。
服务器Sv的处理器101在由用户选择“内部会议”栏2645的情况下,从回声表格1032获取在小规模会议室中预先测量出的回声数据。另外,处理器101在由用户选择“报告会等”栏2646的情况下,从回声表格1032获取在大规模会议室中预先测量出的回声数据。进而,处理器101在由用户选择“绝密会议”栏2647的情况下,从回声表格1032获取在消音室中预先测量出的回声数据。
如以上说明,根据第3实施方式,与房间的大小、利用目的、会议的气氛对应的回声信息作为表格而保持于服务器Sv。服务器Sv对针对各个用户的声音信号附加从回声表格选择的回声。由此,能够减轻由于以相同等级的音量听到各个用户的声音而产生的疲劳感。
在此,在第3实施方式中,回声表格包括3个种类的回声数据。回声表格既可以仅包括1个种类或者两个种类的回声数据,也可以包括4种类以上的回声数据。
[第3实施方式的变形例]
在第3实施方式中,也可以在存储装置103中还存储有等级衰减表格1033。等级衰减表格1033作为表格数据而具有与在消音室中预先测量出的音量的距离相应的等级衰减数据。在该情况下,服务器Sv的处理器101可以获取与设想利用声像的假想声源与用户的虚拟距离相应的等级衰减数据,将与获取到的等级衰减数据相应的等级衰减附加到声像信号。由此,也能够减轻由于以相同等级的音量听到各个用户的声音而产生的疲劳感。
说明了本发明的几个实施方式,但这些实施方式是作为例子而提示的,未意图限定发明的范围。这些实施方式能够以其它各种方式被实施,能够在不脱离发明的要旨的范围进行各种省略、置换、变更。这些实施方式及其变形与包含于发明的范围、要旨同样地,包含于专利权利要求书所记载的发明及其均等的范围。
Claims (22)
1.一种在线通话管理装置,具备:
第1获取部,经由网络从经由播放设备播放声像的至少一个终端获取与所述播放设备的声响的播放环境相关的信息即播放环境信息;
第2获取部,获取针对所述终端的用户的所述声像的定位方向的信息即方位信息;以及
控制部,根据所述播放环境信息和所述方位信息来进行用于每个所述终端的声像的播放的控制。
2.根据权利要求1所述的在线通话管理装置,其中,
所述控制部从所述终端接收在所述终端中对基于所述播放环境信息和所述方位信息的声像滤波器系数进行卷积后的声像信号,将接收到的声像信号分离为面向各个终端的声像信号,使面向相同的终端的声像信号重叠,将重叠的所述声像信号发送到对应的终端。
3.根据权利要求1所述的在线通话管理装置,其中,
所述控制部根据所述播放环境信息和所述方位信息来决定用于每个所述终端的所述声像的播放的声像滤波器系数,
根据所决定的每个所述终端的声像滤波器系数从自所述终端发送的声音信号生成每个所述终端的声像信号,
将所生成的每个所述终端的声像信号发送到对应的终端。
4.根据权利要求1所述的在线通话管理装置,其中,
所述终端是多个,
多个所述终端中的1个终端设定为主机的终端,
所述第1获取部从各个所述终端获取关于各个所述终端的所述播放环境信息,
所述第2获取部从所述主机的终端集中地获取关于各个所述终端的所述方位信息。
5.根据权利要求4所述的在线通话管理装置,其中,
所述第1获取部使各个所述终端显示用于输入所述播放环境信息的第1输入画面,根据所述第1输入画面处的输入从各个所述终端获取关于各个所述终端的所述播放环境信息,
所述第2获取部使所述主机的终端还显示用于输入关于各个所述终端的所述方位信息的第2输入画面,根据所述第2输入画面处的输入从所述主机的终端获取关于各个所述终端的所述方位信息。
6.根据权利要求1所述的在线通话管理装置,其中,
所述终端是多个,
所述第1获取部从各个所述终端获取关于各个所述终端的所述播放环境信息,
所述第2获取部从各个所述终端获取关于各个所述终端的所述方位信息。
7.根据权利要求6所述的在线通话管理装置,其中,
所述第1获取部使各个所述终端显示用于输入所述播放环境信息的第1输入画面,根据所述第1输入画面处的输入从各个所述终端获取关于各个所述终端的所述播放环境信息,
所述第2获取部使各个所述终端还显示用于输入关于各个所述终端的所述方位信息的第2输入画面,根据所述第2输入画面处的输入从各个所述终端获取关于各个所述终端的所述方位信息。
8.根据权利要求5或者7所述的在线通话管理装置,其中,
所述第1输入画面包括所述播放设备的列表。
9.根据权利要求5或者7所述的在线通话管理装置,其中,
所述第2输入画面包括输入对作为所述声像而从各个用户发出的声音进行定位的方位的输入栏。
10.根据权利要求5或者7所述的在线通话管理装置,其中,
所述第2输入画面包括通过在模仿会议室的配置图中的各个座椅处配置标记从而输入对作为所述声像而从各个用户发出的声音进行定位的方位的输入画面。
11.根据权利要求10所述的在线通话管理装置,其中,
所述第2输入画面构成为通过拖拽所述标记,从而在所述座椅处配置标记。
12.根据权利要求5或者7所述的在线通话管理装置,其中,
所述第2输入画面包括通过在以所述终端的用户的位置为中心的圆周上指定其他用户的位置从而输入对作为所述声像而从各个用户发出的声音进行定位的方位的输入画面。
13.根据权利要求1所述的在线通话管理装置,其中,
所述在线通话管理装置还具备第3获取部,该第3获取部获取与所述终端的用户的所述声像的活用有关的信息即活用信息,
所述控制部进而根据所述活用信息来进行用于每个所述终端的声像的播放的控制。
14.根据权利要求13所述的在线通话管理装置,其中,
所述第3获取部使各个所述终端显示用于输入所述活用信息的第3输入画面,根据所述第3输入画面处的输入从各个所述终端获取关于各个所述终端的所述活用信息。
15.根据权利要求14所述的在线通话管理装置,其中,
所述活用信息包括分配给各个用户的属性的信息,
所述控制部进而根据所述属性的信息来进行用于每个所述终端的声像的播放的控制。
16.根据权利要求14或者15所述的在线通话管理装置,其中,
所述活用信息包含所述终端的每个用户的群组的设定,
所述控制部进而根据所述群组的设定来进行用于每个所述终端的声像的播放的控制。
17.根据权利要求14所述的在线通话管理装置,其中,
所述第3输入画面包括用于受理基于所述活用信息的所述声像的播放的设定的第1输入部、用于受理基于所述活用信息的所述声像的播放的开始的指示的第2输入部、用于受理基于所述活用信息的所述声像的播放的临时停止或者再次开始的指示的第3输入部以及用于受理基于所述活用信息的所述声像的播放的停止的指示的第4输入部。
18.根据权利要求13所述的在线通话管理装置,其中,
所述活用信息包括设想利用所述声像的虚拟环境的信息,
所述控制部对每个所述终端的声像附加与所述虚拟环境的信息相应的回声。
19.根据权利要求18所述的在线通话管理装置,其中,
所述控制部根据在与所述虚拟环境对应的实际的环境下预先测量出的回声的表格数据对每个所述终端的声像附加所述回声。
20.根据权利要求13所述的在线通话管理装置,其中,
所述活用信息包括播放所述声像的虚拟声源与所述终端的用户的距离的信息,
所述控制部对每个所述终端的声像附加与所述距离相应的等级衰减。
21.根据权利要求20所述的在线通话管理装置,其中,
所述控制部根据在消音室中预先测定出的等级衰减的表格数据对每个所述终端的声像附加所述等级衰减。
22.一种计算机能够读取的存储介质,存储有在线通话管理程序,该在线通话管理程序用于使计算机执行:
经由网络从经由播放设备播放声像的至少一个终端获取与所述播放设备的声响的播放环境相关的信息即播放环境信息;
获取针对所述终端的用户的所述声像的定位方向的信息即方位信息;以及
根据所述播放环境信息和所述方位信息来进行用于每个所述终端的声像的播放的控制。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-151457 | 2021-09-16 | ||
JP2021151457A JP7472091B2 (ja) | 2021-09-16 | オンライン通話管理装置及びオンライン通話管理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115834775A true CN115834775A (zh) | 2023-03-21 |
Family
ID=85480291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210200886.9A Pending CN115834775A (zh) | 2021-09-16 | 2022-03-03 | 在线通话管理装置以及存储有在线通话管理程序的存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230078804A1 (zh) |
CN (1) | CN115834775A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023073157A (ja) * | 2021-11-15 | 2023-05-25 | キヤノン株式会社 | 情報処理装置、その制御方法及びプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5594800A (en) * | 1991-02-15 | 1997-01-14 | Trifield Productions Limited | Sound reproduction system having a matrix converter |
US5757927A (en) * | 1992-03-02 | 1998-05-26 | Trifield Productions Ltd. | Surround sound apparatus |
FR2738099B1 (fr) * | 1995-08-25 | 1997-10-24 | France Telecom | Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe |
JP3577798B2 (ja) * | 1995-08-31 | 2004-10-13 | ソニー株式会社 | ヘッドホン装置 |
US8374365B2 (en) * | 2006-05-17 | 2013-02-12 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
US8330787B2 (en) * | 2007-06-29 | 2012-12-11 | Microsoft Corporation | Capture device movement compensation for speaker indexing |
US20090238371A1 (en) * | 2008-03-20 | 2009-09-24 | Francis Rumsey | System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment |
CH703771A2 (de) * | 2010-09-10 | 2012-03-15 | Stormingswiss Gmbh | Vorrichtung und Verfahren zur zeitlichen Auswertung und Optimierung von stereophonen oder pseudostereophonen Signalen. |
JP6648377B2 (ja) * | 2015-09-28 | 2020-02-14 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
-
2022
- 2022-02-25 US US17/652,592 patent/US20230078804A1/en active Pending
- 2022-03-03 CN CN202210200886.9A patent/CN115834775A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023043698A (ja) | 2023-03-29 |
US20230078804A1 (en) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Härmä et al. | Augmented reality audio for mobile and wearable appliances | |
US8406439B1 (en) | Methods and systems for synthetic audio placement | |
US9565316B2 (en) | Multidimensional virtual learning audio programming system and method | |
US9686627B2 (en) | Multidimensional virtual learning system and method | |
JP4745375B2 (ja) | 対話型立体的オーディオビジュアル・システム | |
US20140285312A1 (en) | Audio Mixing Based Upon Playing Device Location | |
WO2020062922A1 (zh) | 音效处理方法及相关产品 | |
US8085920B1 (en) | Synthetic audio placement | |
CN115834775A (zh) | 在线通话管理装置以及存储有在线通话管理程序的存储介质 | |
WO2022054900A1 (ja) | 情報処理装置、情報処理端末、情報処理方法、およびプログラム | |
JP7472091B2 (ja) | オンライン通話管理装置及びオンライン通話管理プログラム | |
CN205004029U (zh) | 阵列式声音掩蔽器 | |
US20230370801A1 (en) | Information processing device, information processing terminal, information processing method, and program | |
JP2004088608A (ja) | ミキシング装置 | |
EP1617702B1 (en) | Portable electronic equipment with 3D audio rendering | |
Karjalainen et al. | Application Scenarios of Wearable and Mobile Augmented Reality Audio | |
Győrbíró et al. | Mobile Narrowcasting Control and Display of Spatial Sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |