CN103685783A - 信息处理系统和存储介质 - Google Patents

信息处理系统和存储介质 Download PDF

Info

Publication number
CN103685783A
CN103685783A CN201310413822.8A CN201310413822A CN103685783A CN 103685783 A CN103685783 A CN 103685783A CN 201310413822 A CN201310413822 A CN 201310413822A CN 103685783 A CN103685783 A CN 103685783A
Authority
CN
China
Prior art keywords
user
signal
unit
handling equipment
transducer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310413822.8A
Other languages
English (en)
Other versions
CN103685783B (zh
Inventor
大沼智也
佐古曜一郎
浅田宏平
迫田和之
荒谷胜久
渡邊一弘
中村隆俊
竹原充
丹下明
花谷博幸
甲贺有希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN103685783A publication Critical patent/CN103685783A/zh
Application granted granted Critical
Publication of CN103685783B publication Critical patent/CN103685783B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/509Microphone arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供了一种信息处理系统,包括:基于由置于用户周围的第一传感器检测到的信号来标识所述用户和所述用户请求与其进行交谈的目标的标识单元,对由置于所述目标周围的所述第一传感器和第二传感器检测到的信号执行预定的信号处理的信号处理单元,导致由至少所述第二传感器检测到的,并由所述信号处理单元处理的所述信号输出到置于所述用户周围的第一输出单元的输出控制单元,以及,当多个所述目标被所述标识单元标识时,基于由所述第一传感器检测到的所述信号来识别从所述多个目标中选择特定目标的选择请求的识别单元。

Description

信息处理系统和存储介质
背景技术
本发明涉及信息处理系统和存储介质。
近年来,在数据通信领域提出了各种技术。具体而言,例如,提出了用于平稳地执行电信会议的各种电信会议系统技术来作为当多人交谈时使用的数据通信技术。
例如,在JP H2-295269A中公开了这样的技术:为其中有多人交谈的电信会议系统中的每一个发言者,在不同的位置定位声音输出,如此,听者可以轻松地确定发言者。进一步地,在JP2004-343178A中公开了视频会议系统的技术,其中,预先注册会议组,预先通过邮件等等传输参与会议的意图,在此状态下,参与者在进入会议室时自动地被允许参与会议。
发明内容
然而,在JP H2-295269A和JP2004-343178A中,没有提及用于从多个对话者中选择一个听者的技术。
需要提供新颖的、改善的并允许从多个对话者中选择一个听者的信息处理系统和存储介质。
根据本发明的实施例,提供了一种信息处理系统,包括:标识单元,基于由置于用户周围的第一传感器检测到的信号来标识所述用户和所述用户请求与其进行交谈的目标;信号处理单元,对由所述第一传感器和置于所述目标周围的第二传感器检测到的信号执行预定的信号处理;输出控制单元,使得经过所述信号处理单元处理的、由至少所述第二传感器检测到的信号输出到置于所述用户周围的第一输出单元;以及识别单元,当多个所述目标被所述标识单元标识时,基于由所述第一传感器检测到的信号来识别用于从所述多个目标中选择特定目标的选择请求。当所述选择请求被所述识别单元识别时,所述输出控制单元使得经过所述信号处理单元处理的、由所述第一传感器检测到的信号被置于所述特定目标周围的第二输出单元输出。
根据本发明的实施例,提供了其中存储了具有用于使得计算机执行下列处理的程序的非暂态计算机可读存储介质:基于由置于用户周围的第一传感器检测到的信号来标识所述用户和所述用户请求与其进行交谈的目标,对由所述第一传感器和置于所述目标周围的第二传感器检测到的信号执行预定的信号处理,以及使得经过所述信号处理的、由至少所述第二传感器检测到的信号输出到置于所述用户周围的第一输出单元,以及当多个目标被标识时:对由置于所述多个目标周围的所述第二传感器检测到的信号执行合成处理,基于由所述第一传感器检测到的信号,识别用于从多个目标中选择特定目标的选择请求,以及使得经过所述信号处理的、由所述第一传感器检测到的信号被置于所述特定目标周围的第二输出单元输出。
根据上文所描述的本技术的各实施例,可以从多个对话者中选择一个听者。
附图说明
图1是用于描述根据本实施例的音响系统的概述的图示;
图2是示出了根据本实施例的音响系统的总体配置的图示;
图3是示出了根据本实施例的信号处理设备的配置的框图;
图4是示出了根据本实施例的管理服务器的配置的框图;
图5是示出了根据本实施例的显示设备的示例性外观的说明性图示;
图6是示出了根据本实施例的显示设备的示例性配置的框图;
图7是示出了根据本实施例的显示设备的示例性配置的框图;
图8是示出了根据本实施例的多空间访问操作的基本处理的流程图;
图9是示出了根据本实施例的命令识别处理的流程图;
图10是示出了根据本实施例的声音获取处理的流程图;
图11是示出了根据本实施例的声场再现处理的流程图;
图12是示出了根据本实施例的访问空间选择处理的示例性概述的说明性图示;
图13是示出了根据本实施例的示例性访问空间选择处理的流程图;
图14是示出了根据本实施例的访问空间选择处理的示例性概述的说明性图示;
图15是示出了根据本实施例的示例性访问空间选择处理的流程图;
图16是示出了根据本实施例的访问空间选择处理的示例性概述的说明性图;
图17是示出了根据本实施例的示例性多空间访问操作的流程图;
图18是示出了根据本实施例的示例性访问空间选择处理的流程图;
图19是示出了根据本实施例的音响系统的语音引导处理的流程图;
图20是示出了根据本实施例的音响系统的示例性总体配置的图示;
图21是示出了根据本实施例的示例性多空间访问操作的流程图;
图22是示出了根据本实施例的音响系统的示例性总体配置的图示;以及
图23是示出了根据本实施例的示例性多空间访问操作的流程图。
具体实施方式
下面,将参考各个附图来详细描述本发明的优选实施例。注意,在本说明书和附图中,具有基本上相同的功能和结构的结构元件将用相同的参考编号来表示,并省略对这些结构元件的重复的说明。
描述将按以下顺序来进行:
1.根据本发明的实施例的音响系统的概述
2.基本配置
2-1.系统配置
2-2.信号处理设备
2-3.管理服务器
2-4.显示设备
3.多空间访问处理
3-1.基本处理
3-2.命令识别处理
3-3.声音获取处理
3-4.声场再现处理
4.访问空间选择处理
4-1.第一访问空间选择处理
4-2.第二访问空间选择处理
4-3.第三访问空间选择处理
4-4.第四访问空间选择处理
4-5.第五访问空间选择处理
4-6.第六访问空间选择处理
4-7.第七访问空间选择处理
4-8.与访问空间选择处理相关联的处理
5.系统配置的修改的示例
5-1.第一示例性系统配置
5-2.第二示例性系统配置
6.效果
7.结论
<1.根据本发明的实施例的音响系统的概述>
根据本发明的一实施例的音响系统(信息处理系统)包括:
A.基于由置于用户周围的第一传感器(麦克风10、摄像机30,或红外(IR)热传感器40)检测到的信号来标识用户以及该用户希望与其交谈的目标的标识单元(133);
B.对由置于目标周围的第一传感器和第二传感器(麦克风10、摄像机30,或IR热传感器40)检测到的信号执行预定信号处理的信号处理单元(15);
C.导致由至少第二传感器检测到的、并经由信号处理单元处理的信号输出到置于用户周围的第一输出单元(扬声器20)的输出控制单元(17);以及
D.当多个目标被标识单元标识时基于由第一传感器检测到的信号来识别从多个目标中选择特定目标的选择请求的识别单元(131),
E.其中,当选择请求被识别单元识别时,输出控制单元导致由第一传感器检测到的并经由信号处理单元处理的信号输出到置于特定目标周围的第二输出单元(扬声器20)。
首先,将参考图1来描述根据本实施例的音响系统的概述。
图1是用于描述根据本实施例的音响系统的概述的图示。如图1所示,音响系统基于这样的假设:大量的传感器和驱动装置被置于全世界的许多地方,诸如房间、房屋、建筑物、户外,在不同的地区和国家,在诸如自行车、摩托车、车辆、船舶、直升机、飞机,以及火箭之类的移动物体中。传感器的示例包括麦克风10、摄像机30,以及人传感器(例如,稍后将在图3中描述的IR热传感器40)。驱动装置的示例包括扬声器20以及显示器(未示出)。在图1中,在麦克风10之中,置于“地点A”、“地点B”以及“地点C”(它们是不同的位置)的麦克风10被称为“麦克风10A”、“麦克风10B”,以及“麦克风10C”。上面的符号类似地应用于扬声器20和摄像机30。
在图1中所示出的示例中,多个麦克风10A、多个扬声器20A,以及多个摄像机30A置于“地点A”的墙、地板以及天花板等等上,“地点A”是用户A当前所在的的室内区域。进一步地,多个麦克风10B、多个扬声器20B,以及多个摄像机30B置于“地点B”的公路等等上,“地点B”是用户B当前所在的的室外的区域。进一步地,多个麦克风10C、多个扬声器20C,以及多个摄像机30C置于“地点C”,“地点C”是用户C1和C2当前所在的室内区域,类似于地点A。
这里,地点A、地点B,以及地点C可以通过网络彼此连接。进一步地,由置于每一个地点中的传感器检测到的信号传输到其他地点,并通过每一个地点中的驱动装置输出。下面的描述将利用这样的示例来进行,由麦克风10获取的语音通过扬声器20输出,而由摄像机30检测到的视频可以通过显示器输出。
如此,置于用户周围的多个扬声器20或显示器可以实时地再现另一个用户的语音或视频。如此,用户可以与位于另一个空间的另一个用户交谈,好像用户在同一位置交谈一样。进一步地,对用户可以与其进行交谈的人的数量没有限制,位于不同的空间的多个用户可以进行交谈,好像他们集合在同一位置并进行交谈。
进一步地,由于到处都安置了传感器和驱动装置,因此,用户不需要携带智能电话或移动电话终端。如此,用户可以使用语音或手势向音响系统进行各种输入。进一步地,音响系统将由用户作出的输入识别为表示用户的请求的命令。
有各种类型的命令,例如,有请求访问的呼叫始发请求,即,向另一个用户所在的空间的呼叫始发,从被访问的空间选择所需空间的选择请求,以及释放由选择请求作出的对空间的选择的选择释放请求。用户可以通过在呼叫始发请求中指定另一个用户来将用户周围的空间与另一个用户周围的空间连接。进一步地,用户可以通过从选择请求中的多个对话者中指定其他所需的用户来仅与另一个指定的用户进行私密交谈。进一步地,用户可以通过发出选择释放请求来结束私密谈话并返回到原始的与多人的谈话。在下文中,作为用户通过呼叫始发请求来请求与其交谈的目标的另一个用户和作为在选择请求中选定的特定目标的另一个用户都被称为“目标用户”。
进一步地,在音响系统中,用户可以携带用来允许用户管理或识别谈话状态(诸如用户当前正在与其交谈的人或用户当前与其私密交谈的人)的设备。
下面,将参考这样的示例来按顺序描述基于呼叫始发请求的多空间访问操作和基于选择请求的访问空间选择操作:在该示例中,位于地点A的用户A与位于地点B的用户B以及位于地点C的用户C1和C2进行交谈。
(多空间访问)
·数据收集
在地点A,通过多个麦克风10A、多个摄像机30A、多个人传感器等等,来连续地执行数据收集处理。具体而言,音响系统收集由麦克风10A获取的语音,由摄像机30A拍摄的图像,或人传感器的检测结果,并基于收集到的信息来估计用户的位置。
进一步地,音响系统可以基于预先注册的多个麦克风10的位置信息以及用户的估计的位置,来选择置于可以充分地获取用户的语音的位置处的麦克风组(麦克风10A)。进一步地,音响系统执行由所选的麦克风10A获取的音频信号的流组的麦克风阵列处理。具体而言,音响系统可以执行延迟及求和阵列,其中,声音获取点被聚焦于用户A的嘴,并可以形成阵列麦克风的超级方向性。如此,诸如用户A的喃喃低语之类的微弱的发声也可以被获取。
进一步地,音响系统基于用户A的获取的语音来识别命令,并根据命令来执行操作处理。例如,当位于地点A的用户A说“我要和B谈话”时,“向用户B的呼叫始发请求”被识别为命令。在此情况下,音响系统标识用户B的当前位置,并导致用户B当前所在的地点B与用户A当前所在的地点A连接在一起。通过此操作,用户A可以与用户B交谈。
进一步地,命令可以被摄像机30A、人传感器等等识别。
此时,音响系统可以基于预先注册的多个摄像机30的位置信息以及用户的估计的位置,来选择用于识别命令的最佳摄像机30A,例如,位于用户正面的摄像机30A。
·对象分解
对在谈话中由地点A处的多个麦克风10A获取的音频信号(流数据)执行对象分解处理,诸如声源分离(用户A周围的噪声分量,用户A周围的人的谈话等的分离)、去回响,以及噪声/回声处理。通过此处理,其中高S/N比并且回响感觉被抑制的流数据被传输到地点B。
考虑其中用户A在移动时说话的情况,音响系统可以通过连续地执行数据收集来处理此情况。具体而言,音响系统基于多个麦克风10、多个摄像机30、多个人传感器等等,来连续地执行数据收集,并检测用户A的移动路径,或用户A正在前进的方向。然后,音响系统连续地更新对置于移动用户A周围的适当的麦克风组(麦克风10A)的选择,并连续地执行麦克风阵列处理,以便声音获取点恒定地聚焦于移动用户A的嘴。通过此操作,音响系统可以处理用户A在移动同时说话的情况。
进一步地,与语音的流数据分开地,用户A的移动方向等被转换为元数据,并与流数据一起传输到地点B。
·对象合成
进一步地,通过置于位于地点B的用户B周围的扬声器20B来重放传输到地点B的流数据。此时,音响系统通过多个麦克风10B、多个摄像机30B,以及多个人传感器,来在地点B处执行数据收集,基于收集到的数据,估计用户B的位置,并通过在声学上封闭的表面,选择用户B周围的适当的扬声器组(扬声器20B)。通过所选扬声器20B,重放传输到地点B的流数据,作为适当的声场控制在声学上封闭的表面内部的区域。在本发明中,如此形成以便多个相邻的扬声器20、多个相邻的麦克风10,或多个相邻的摄像机30的位置连接以包围用户的表面在概念上被称为“声学封闭表面”。进一步地,“声学封闭表面”不一定构成完全封闭的表面,优选地,被配置成大致包围用户。
进一步地,音响系统可以使用置于地点B处的用户B周围的多个扬声器20B来控制用户A的音频图像。换言之,音响系统可以通过形成阵列扬声器(波束形成),来在用户B的耳朵处或在声学封闭表面的外面,重建用户A的语音(音频图像)。进一步地,音响系统可以在地点B处使用用户A的移动路径或方向的元数据,根据用户A的实际移动,导致用户A的音频图像在用户B周围移动。
上文参考数据收集处理、对象分解处理,以及对象合成处理的相应的步骤,描述了从地点A到地点B的语音通信的概述,但是,当然,在从地点B到地点A的语音通信中执行类似的处理。如此,可以在地点A和地点B之间执行双向语音通信。这可类似地应用于地点A和地点C之间的语音通信以及地点B和地点C之间的语音通信。
(对访问空间的选择)
音响系统基于用户A的获取的语音、已经拍摄的拍摄图像,或人传感器的检测结果,来识别选择请求。音响系统按类似的方式来识别选择释放请求。例如,当用户A在用户A、B、C1以及C2之间的谈话中指定用户B时,“用户A的对用户B的选择请求”被识别为命令。在此情况下,音响系统仅对于用户B重放用户A的语音。然后,当识别用户A的选择释放请求时,音响系统为用户B、C1以及C2重放用户A的语音。如上文所描述的,用户A可以与用户B私密地交谈。
进一步地,音响系统可以把对位于另一个空间的多个用户之中的某一用户的选择识别为选择请求。例如,当用户A在用户A、B、C1以及C2之间的谈话中指定用户C1时,“用户A的对用户C1的选择请求”被识别为命令。在此情况下,音响系统仅对于地点C处的用户C1重放用户A的语音。此时,对于位于同一个地点(即地点C)的用户C2,不重放用户A的语音。如上文所描述的,用户A可以与用户C1私密地交谈。
进一步地,音响系统可以把对位于同一空间的多个用户之中的某一用户的选择识别为选择请求。例如,当用户C1指定位于地点C的用户C3(未示出)时,“用户C1对用户C3的选择请求”被识别为命令。在此情况下,音响系统仅对于用户C3重放用户C1的语音。此时,对于位于同一个地点(即地点C)的用户C2,不重放用户C1的语音。如此,例如,当用户C1发出不会让用户C2听到的声音时,仅用户C3可以听见用户C1的语音。如上文所描述的,用户C1可以与用户C3私密地交谈。
上文描述了根据本发明的一个实施例的音响系统的概述。接下来,将参考图2到图7详细地描述音响系统的配置。
<2.基本配置>
[2-1.系统配置]
图2是示出了根据本实施例的音响系统的总体配置的图示。如图2所示,音响系统是客户端-服务器类型的系统,包括信号处理设备1A、1B以及1C,麦克风10A、10B以及10C,扬声器20A、20B以及20C,摄像机30A、30B以及30C,以及管理服务器3。
信号处理设备1A、信号处理设备1B,以及信号处理设备1C以有线/无线方式连接到网络5,并可以通过网络5在彼此之间传输或接收数据。管理服务器3连接到网络5,信号处理设备1A、信号处理设备1B,以及信号处理设备1C可以向管理服务器3传输数据或从其接收数据。
信号处理设备1A处理由置于地点A处的多个麦克风10A、多个扬声器20A,以及多个摄像机30A输入或输出的信号。信号处理设备1B处理由置于地点B处的多个麦克风10B、多个扬声器20B,以及多个摄像机30B输入或输出的信号。信号处理设备1C处理由置于地点C处的多个麦克风10C、多个扬声器20C,以及多个摄像机30C输入或输出的信号。进一步地,当不需要彼此区别信号处理设备1A、1B以及1C时,信号处理设备1A、1B以及1C统称为“信号处理设备1”。
管理服务器3具有执行用户认证处理并管理用户的绝对位置(当前位置)的功能。进一步地,管理服务器3可以管理表示一个地方或建筑物的位置的信息(例如,IP地址)。如此,信号处理设备1可以向管理服务器3发送对于由用户指定的目标用户的访问目的地信息(例如,IP地址)的查询,并获取访问目的地信息。进一步地,管理服务器3还可以管理关于交谈的多个用户之中当前正在交谈的用户的信息或当前进行私密交谈的用户的信息。
信号处理设备1相对于置于预定的空间的麦克风10、扬声器20,以及摄像机30接收或输出信号。换言之,管理服务器3通过信号处理设备1相对于置于多个预定的空间的麦克风10以及扬声器20接收或输出信号。进一步地,服务器-客户端类型的音响系统通过管理服务器3将置于多个预定的空间之中的用户所在的空间中的麦克风10和扬声器20与置于目标用户所在的空间中的麦克风10和扬声器20连接。通过此操作,服务器-客户端类型的音响系统通过管理服务器3来实现多空间访问和访问空间选择。
[2-2.信号处理设备]
接下来,将详细地描述信号处理设备1的配置。图3是示出了根据本实施例的信号处理设备1的配置的框图。如图3所示,信号处理设备1包括请求确定单元13、用户位置估计单元14、信号处理单元15、输出控制单元17,以及通信I/F19。信号处理设备1通过放大/模数转换器(ADC)单元11连接到多个麦克风10(阵列麦克风),通过数模转换器(DAC)/放大单元21连接到多个扬声器20(阵列扬声器),信号处理设备1还连接到摄像机30、IR热传感器40、摄像机位置信息数据库(DB)51、麦克风位置信息DB53,以及扬声器位置信息DB55。下面将描述上文所提及的组件。
(阵列麦克风)
多个麦克风10遍布于如上文所描述的某一区域(地点)。例如,多个麦克风10被置于诸如公路、电线杆、路灯、房屋和建筑物的外墙之类的室外地点,以及诸如地板、墙和天花板之类的室内地点。多个麦克风10获取环境声,并将获取的环境声输出到放大/ADC单元11。
(放大/ADC单元)
放大/ADC单元11具有放大从多个麦克风10输出的声波的功能(放大器),以及将声波(模拟数据)转换为音频信号(数字数据)的功能(ADC)。放大/ADC单元11将经过转换的音频信号输出到信号处理设备1。
(麦克风位置信息DB)
麦克风位置信息DB53是存储置于该地点处的多个麦克风10的位置信息的存储单元。多个麦克风10的位置信息可以预先注册。
(摄像机和IR热传感器)
摄像机30和IR热传感器40遍布如上文所描述的某一区域(地点)。例如,摄像机30和IR热传感器40被置于诸如公路、电线杆、路灯、房屋和建筑物的外墙之类的室外地点,以及诸如地板、墙和天花板之类的室内地点。摄像机30和IR热传感器40拍摄或感测环境,并将拍摄或感测结果输出到信号处理设备1。
(摄像机位置信息DB)
摄像机位置信息DB51是存储置于地点处的多个摄像机30的位置信息的存储单元。多个摄像机30的位置信息可以预先注册。
(用户位置估计单元)
用户位置估计单元14具有估计用户的位置的功能。具体而言,用户位置估计单元14基于由多个麦克风10获取的声音的分析结果、由摄像机30拍摄的拍摄图像的分析结果,或由IR热传感器40获得的检测结果,来估计相对于多个麦克风10或多个扬声器20的用户相对位置。用户位置估计单元14可以获取全球定位系统(GPS)信息,并估计用户的绝对位置(当前位置信息)。
(请求确定单元)
请求确定单元13具有基于麦克风10、摄像机30以及IR热传感器40的输出结果来识别用户的请求的功能。更具体而言,请求确定单元13充当识别单元131和标识单元133。
·识别单元
识别单元131基于由多个麦克风10获取、并且然后由信号处理单元15处理的音频信号来分析用户的语音,并识别各种类型的命令,诸如呼叫始发请求、选择请求以及选择释放请求。另外,识别单元131还可以基于由多个摄像机30获取的图像以及由IR热传感器40获取的检测结果来检测用户的动作(手势),分析检测到的手势,并识别命令。
进一步地,识别单元131可以使用来自用于识别命令的适当的摄像机的输出(例如,来自位于用户的前面的摄像机30的输出),基于向摄像机位置信息DB51注册的摄像机30的位置来识别命令。类似地,识别单元131还可以使用来自用于识别命令的最佳IR热传感器40的输出、基于向IR热传感器位置信息DB(未示出)注册的IR热传感器40位置信息来识别用户的请求。
进一步地,识别了选择请求的识别单元131生成表示说出选择请求的用户和所选目标用户的选择目标设置信息,并将选择目标设置信息输出到信号处理单元15。这里,由选择目标设置信息所表示的用户是私密谈话中的参与者。例如,用户A在与用户B、C1以及C2的谈话处理中指定用户B,识别单元131识别“用户A对用户B的选择请求”,并将表示“用户A和B”的选择目标设置信息输出到信号处理单元15。
进一步地,识别了选择释放请求的识别单元131向信号处理单元15输出表示由选择请求选择的目标用户和非选定的目标用户的选择目标设置信息。例如,当用户A在与用户B、C1,以及C2的谈话处理中与用户B进行私密交谈时,识别单元131识别选择释放请求,并将表示“用户A、B、C1以及C2”的选择目标设置信息输出到信号处理单元15。
·标识单元
标识单元133具有标识由识别单元131识别的目标用户的功能。具体而言,例如,标识单元133可以决定用于获取与由命令指定的目标用户对应的语音和图像的访问目的地信息。例如,标识单元133可以通过通信I/F19向管理服务器3传输表示目标用户的信息,并从管理服务器3获取对应于目标用户的访问目的地信息(例如,IP地址)。
(通信I/F)
通信I/F19是用于通过网络5相对于另一个信号处理设备或管理服务器3接收或传输数据的通信模块。例如,通信I/F19向管理服务器3发送对于与由标识单元133所标识的目标用户对应的访问目的地信息的查询。另外,通信I/F19还将从输出控制单元17输出的选择目标设置信息和由麦克风10获取并然后由信号处理单元15处理的音频信号传输到另一个信号处理设备1(访问目的地)。可另选地,通信I/F19从另一个信号处理设备1(访问目的地)接收目标用户的音频信号和选择目标设置信息,并将音频信号和选择目标设置信息输出到信号处理单元15。
(信号处理单元)
信号处理单元15处理从放大/ADC单元11输出的音频信号、由通信I/F19接收到的来自目标用户的音频信号,以及要由扬声器20通过DAC/放大单元21重放的音频信号。进一步地,信号处理单元15将从识别单元131输出的选择目标设置信息输出到输出控制单元17。这里,信号处理单元15充当麦克风阵列处理单元151、高S/N处理单元153以及声场再现信号处理单元155。
·麦克风阵列处理单元
麦克风阵列处理单元151执行方向性控制,以便在对于从放大/ADC单元11输出的多个音频信号的麦克风阵列处理中聚焦用户的语音(声音获取位置被聚焦于用户的嘴)。
此时,麦克风阵列处理单元151可以基于由用户位置估计单元14估计的用户的位置,或向麦克风位置信息DB53注册的麦克风10的位置,选择形成包围用户的在声学上封闭的表面的麦克风组(这对于获取用户的语音最佳)。然后,麦克风阵列处理单元151对由所选麦克风组获取的音频信号执行方向性控制。进一步地,麦克风阵列处理单元151可以通过延迟及求和阵列处理和空值生成处理,来形成阵列麦克风的超级方向性。
·高S/N处理单元153
高S/N处理单元153具有处理从放大/ADC单元11输出的多个音频信号以形成具有高清晰度和高S/N比率的单耳的信号的功能。具体而言,高S/N处理单元153执行声源分离,并执行去混响和噪声消减。
进一步地,高S/N处理单元153可以位于麦克风阵列处理单元151之后的级。进一步地,由高S/N处理单元153处理的音频信号(流数据)被输出到声场再现信号处理单元155、请求确定单元13以及输出控制单元17。
·声场再现信号处理单元
声场再现信号处理单元155对要通过多个扬声器20重放的音频信号执行信号处理,并执行控制,以便声场位于用户的位置处。具体而言,声场再现信号处理单元155基于由用户位置估计单元14估计的用户的位置,或基于向扬声器位置信息DB55注册的扬声器20的位置,来选择用于形成包围用户的在声学上封闭的表面的最佳扬声器组。然后,声场再现信号处理单元155将接受了信号处理的音频信号写入到对应于所选扬声器组的多个声道的输出缓冲器中。
此时,当多个目标用户由标识单元133标识时,声场再现信号处理单元155可以控制为多个目标用户定位音频图像的位置。具体而言,声场再现信号处理单元155可以将被选定以包围用户的扬声器组除以目标用户的数量,并将来自目标用户的音频信号写入到对应于分割的扬声器组的多个声道的输出缓冲器中。另外,声场再现信号处理单元155可以执行合成来自多个目标用户的音频信号的处理,并将合成的音频信号写入到对应于所选扬声器组的多个声道的输出缓冲器中。
这里,当选择目标设置信息从识别单元131输出时,声场再现信号处理单元155根据选择目标设置信息,选择要通过扬声器20重放的音频信号。具体而言,声场再现信号处理单元155只将通过通信I/F19接收到的来自目标用户的音频信号之中的来自由所选择的目标设置信息所表示的目标用户的音频信号写入到输出缓冲器中。
例如,将参考这样的示例来描述对应于地点A的信号处理设备1A:位于地点A的用户A在与用户B、C1以及C2的谈话处理中指定用户B。此时,由于表示“用户A和B”的选择目标设置信息从识别单元131输出,因此,声场再现信号处理单元155只将来自用户B的音频信号写入到输出缓冲器中。
同时,甚至在通过通信I/F19从目标用户接收到选择目标设置信息的情况下,声场再现信号处理单元155根据选择目标设置信息,选择要通过扬声器20重放的音频信号。具体而言,当对应于信号处理设备1的用户被包括作为由选择目标设置信息所表示的目标用户时,声场再现信号处理单元155只将来自由选择目标设置信息所表示的目标用户的音频信号写入到输出缓冲器中。然而,当对应于信号处理设备1的用户不被包括作为由选择目标设置信息所表示的目标用户时,声场再现信号处理单元155不将来自目标用户的音频信号写入到输出缓冲器中。
例如,将参考这样的示例来描述对应于地点B的信号处理设备1B:位于地点A的用户A在与用户B、C1以及C2的谈话处理期间指定用户B。此时,由于由通过通信I/F19接收到的选择目标设置信息所表示的“用户A和B”包括对应于信号处理设备1B的用户B,因此,声场再现信号处理单元155只将来自由选择目标设置信息所表示的用户A的音频信号写入到输出缓冲器中。
接下来,将参考这样的示例来描述对应于地点C的信号处理设备1C:位于地点A的用户A在与用户B、C1以及C2的谈话处理期间指定用户B。此时,由于由通过通信I/F19接收到的选择目标设置信息所表示的“用户A和B”不包括对应于信号处理设备1C的用户C1和C2,因此,声场再现信号处理单元155不将来自由选择目标设置信息所表示的用户A和B的音频信号写入到输出缓冲器中。
最后,将参考这样的示例来描述当用户A发出选择释放请求时对应于地点A的信号处理设备1A:位于地点A的用户A在与用户B、C1以及C2的谈话处理期间指定用户B。此时,由于表示“用户A、B、C1以及C2”的选择目标设置信息从识别单元131输出,因此,声场再现信号处理单元155将来自由选择目标设置信息所表示的用户B、C1以及C2的音频信号写入到输出缓冲器中。
进一步地,声场再现信号处理单元155控制在声学上封闭的表面内部的区域作为适当的声场。作为控制声场的方法,例如,亥姆霍兹-基尔霍夫积分定理以及瑞利积分定理是已知的,而基于这些定理的波场合成(WFS)一般是已知的。进一步地,声场再现信号处理单元155可以应用在JP4674505B和JP4735108B中所公开的信号处理技术。
(输出控制单元)
输出控制单元17控制DAC/放大单元21和扬声器20,并输出由声场再现信号处理单元155写入到输出缓冲器中的音频信号。进一步地,输出控制单元17通过通信I/F19,将由麦克风10获取的、从高S/N处理单元153输出的音频信号,以及从识别单元131输出的选择目标设置信息传输到另一个信号处理设备1。
(扬声器位置信息DB)
扬声器位置信息DB55是存储置于地点处的多个扬声器20的位置信息的存储单元。多个扬声器20的位置信息可以预先注册。
(DAC/放大单元)
DAC/放大单元21具有将被写入到声道的输出缓冲器中的要通过多个扬声器20分别重放的音频信号(数字数据)转换为声波(模拟数据)的功能(DAC)。
另外,DAC/放大单元21还放大经过转换的声波,并通过多个扬声器20重放(输出)声波。
(阵列扬声器)
多个扬声器20被遍布于如上文所描述的某一区域(地点)。例如,多个扬声器20被置于诸如公路、电线杆、路灯、房屋、以及建筑物的外墙之类的室外地点,以及诸如地板、墙、以及天花板之类的室内地点。进一步地,多个扬声器20再现从DAC/放大单元21输出的声波(语音)。
(补充)
上面详细地描述了信号处理设备1的配置。进一步地,信号处理设备1可以充当算术处理装置和控制装置,并包括根据各种类型的程序来控制信号处理设备1的总体操作的控制单元,以及存储控制单元所使用的程序、算术参数等等的存储单元。例如,控制单元通过中央处理单元(CPU)或微处理器来实现。进一步地,存储单元通过只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘来实现。
[2-3.管理服务器]
接下来,将详细地描述管理服务器3的配置。图4是示出了根据本实施例的管理服务器3的配置的框图。如图4所示,管理服务器3包括管理单元32、搜索单元33、用户位置信息DB35,以及通信I/F39。下面将描述上文所提及的组件。
(管理单元)
管理单元32基于从信号处理设备1传输的用户ID来管理与用户当前所在的位置(地点)相关联的信息。例如,管理单元32基于用户ID来标识用户,并将传输源的信号处理设备1的IP地址与标识的用户的名称等相关联地作为访问目的地信息存储在用户位置信息DB35中。用户ID可以包括名称、个人标识号、或生物信息。进一步地,管理单元32可以基于传输的用户ID来执行用户认证处理。
(用户位置信息DB)
用户位置信息DB35是根据管理单元32进行的管理来存储与用户当前所在的位置相关联的信息的存储单元。具体而言,用户位置信息DB35彼此相关联地存储用户ID和访问目的地信息(例如,对应于用户所在的地点的信号处理设备的IP地址)。进一步地,每一个用户的当前位置信息都可以不断地更新。
(搜索单元)
搜索单元33根据来自信号处理设备1的访问目的地(呼叫始发目的地)查询,参考用户位置信息DB35来搜索访问目的地信息。具体而言,搜索单元33基于,例如,访问目的地查询中所包括的目标用户的名称,从用户位置信息DB35中搜索相关联的访问目的地信息并提取访问目的地信息。
(通信I/F)
通信I/F39是用于通过网络5相对于信号处理设备1接收或传输数据的通信模块。例如,通信I/F39从信号处理设备1接收用户ID和访问目的地查询。进一步地,通信I/F39响应于访问目的地查询,传输目标用户的访问目的地信息。进一步地,通信I/F39在多个信号处理设备1之间中继诸如音频信号和选择目标设置信息之类的数据的传输和接收。
(补充)
上文详细地描述了管理服务器3的配置。进一步地,管理服务器3可以充当算术处理设备和控制设备,并包括根据各种类型的程序来控制管理服务器3的总体操作的控制单元,以及存储控制单元所使用的程序、算术参数等等的存储单元。
进一步地,管理服务器3可以具有信号处理设备1的功能。换言之,管理服务器3可以在不涉及麦克风10、扬声器20、摄像机30,以及信号处理设备1的情况下执行信号的传输和接收,并执行多空间访问和访问空间选择。进一步地,管理服务器3可以具有信号处理设备1的一部分功能,并与没有相应的功能的信号处理设备合作,来实现信号处理设备1的功能。
[2-4.显示设备]
接下来,将描述显示用户的当前谈话状态的显示设备。显示设备可以显示谈话状态,诸如用户当前正在与其进行交谈的人。这里,图5示出了根据本实施例的显示设备的示例性外观。如图5所示,根据本实施例的显示设备7可以以各种形式来实现,诸如固定的显示设备7-1、智能电话7-2,以及眼镜类型的显示设备7-3。另外,显示设备7可以是将谈话状态投射到置于用户周围的诸如陈列窗或车辆窗户之类的窗玻璃上。接下来,将参考图6详细地描述显示设备7的配置。
图6是示出了根据本实施例的显示设备7的示例性配置的框图。如图6所示,显示设备7包括通信I/F71、控制单元73、存储单元75,以及显示单元77。
(通信I/F)
通信I/F71是用于以有线/无线方式相对于信号处理设备1接收或传输数据的通信模块。例如,通信I/F71从信号处理设备1接收信息,诸如用户和目标用户的ID、面部图像以及当前位置。进一步地,当信号处理设备1识别到用户的选择请求时,通信I/F71接收所选用户的ID。进一步地,通信I/F71可以向信号处理设备1传输用于设置例如作为用户预先设置到用户期望的扬声器20的重放音量或麦克风10的声音获取级别的音量或级别的设置信息。
(控制单元)
控制单元73充当算术处理设备和控制设备,并根据各种类型的程序来控制显示设备7的总体操作。例如,控制单元73通过CPU或微处理器来实现。
(存储单元)
存储单元75存储通过通信I/F71从信号处理设备1接收到的信息。例如,存储单元75存储各种信息,诸如用户和目标用户的ID、面部图像和当前位置,以及选择请求中选定的目标用户的ID。
(显示单元)
显示单元77基于通过通信I/F71从信号处理设备1接收到的信息,显示谈话状态,诸如用户当前正在与其进行交谈的人或用户当前正在与其秘密地交谈的人。例如,显示单元77可以通过浓的图像来显示私密谈话中的目标用户的图像,通过淡的图像来显示其他目标用户。可另选地,显示单元77可以通过放大的图像来显示私密谈话中的目标用户的图像,通过缩小的图像来显示其他目标用户。例如,显示单元77通过液晶显示器(LCD)或有机发光二极管(OLED)来实现。
上文参考图6描述了显示设备7的配置,但是,显示设备7可以具有从用户那里接收呼叫始发请求、选择请求、选择释放请求,或任何其他命令的输入的功能,还具有显示谈话状态的功能。下面将参考图7来描述能够接收命令的输入的显示设备7的另一个示例。
图7是示出了根据本实施例的显示设备7'的示例性配置的框图。如图7所示,显示设备7'除通信I/F71、控制单元73、存储单元75,以及显示单元77之外,还包括输入单元78和摄像机79。
(输入单元)
输入单元78具有从用户那里接收命令的输入的功能。例如,输入单元78通过键盘、鼠标等等来实现。进一步地,输入单元78可以通过与显示单元77集成在一起的触摸板来实现。
(摄像机)
摄像机79具有拍摄用户的外表的功能。由摄像机79拍摄的图像输出到控制单元73,并用于由控制单元73进行手势检测和命令识别。
上文描述了根据本发明的实施例的音响系统的组件。接下来,将参考图8到图11按顺序描述根据本实施例的通过音响系统的多空间的访问处理。
<3.多空间访问处理>
[3-1.基本处理]
图8是示出了根据本实施例的多空间访问操作的基本处理的流程图。如图8所示,首先,在步骤S103A中,信号处理设备1A将位于地点A的用户A的ID传输到管理服务器3。信号处理设备1A可以从用户A拥有的诸如射频标识(RFID)标记之类的标记或从用户A的语音获取用户A的ID。进一步地,信号处理设备1A可以从用户A读取生物信息(脸、眼、手等等),并获取生物信息作为ID。
同时,在步骤S103B中,信号处理设备1B类似地将位于地点B的用户B的ID传输到管理服务器3。此处理在步骤S103C中类似地执行。
接下来,在步骤S109中,管理服务器3基于从每一个信号处理设备1传输的用户ID来标识用户,并例如注册传输源的信号处理设备1的IP地址作为与例如标识的用户的名称相关联的访问目的地信息。
接下来,在步骤S112B中,信号处理设备1B估计位于地点B的用户B的位置。具体而言,信号处理设备1B估计用户B与置于地点B处的多个麦克风10B的相对位置。
接下来,在步骤S115B中,信号处理设备1B基于用户B的估计的相对位置,对由置于地点B处的多个麦克风10B获取的音频信号执行麦克风阵列处理,以便声音获取位置聚焦于用户B的嘴。如上文所描述的,信号处理设备1B准备好让用户B发言。
同时,在步骤S112C和S115C中,信号处理设备1C类似地估计位于地点C的用户C1和C2的位置,并准备好让用户C1和C2发言。
在步骤S118中,信号处理设备1A类似地对由置于地点A处的多个麦克风10A获取的音频信号执行麦克风阵列处理,以便声音获取位置聚焦于用户A的嘴,并准备好让用户A发言。然后,信号处理设备1A基于用户A的语音(发言)来识别命令。这里,将继续描述这样的示例:用户A发出“我要和B、C1以及C2谈话”,信号处理设备1A将该发言识别为“到用户B,C1以及C2的呼叫始发请求”的命令。在稍后将描述的[3-2.命令识别处理]中将详细地描述根据本实施例的命令识别处理。
接下来,在步骤S122中,信号处理设备1A向管理服务器3发送访问目的地查询。当命令是如上文所描述的“向用户B、C1以及C2的呼叫始发请求”时,信号处理设备1A查询用户B的访问目的地信息。
接下来,在步骤S124中,管理服务器3响应于来自信号处理设备1A的访问目的地查询,搜索用户B、C1以及C2的访问目的地信息,然后,在步骤S126中,将搜索结果传输到信号处理设备1A。
接下来,在步骤S128中,信号处理设备1A基于从管理服务器3接收到的用户B,C1以及C2的访问目的地信息,来标识访问目的地。
接下来,在步骤S130中,信号处理设备1A基于标识的用户B,C1以及C2的访问目的地信息,通过管理服务器3执行向信号处理设备1B以及信号处理设备1C始发呼叫的处理。例如,信号处理设备1A基于对应于用户B当前所在的的地点B的信号处理设备1B的IP地址,以及对应于用户C1和C2当前所在的地点C的信号处理设备1C的IP地址,来执行向信号处理设备1B和1C始发呼叫的处理。
接下来,在步骤S132B中,信号处理设备1B输出询问用户B是否应答来自用户A的呼叫的消息。具体而言,例如,信号处理设备1B可以通过置于用户B周围的扬声器20B来再现相应的消息。进一步地,信号处理设备1B基于通过置于用户B周围的多个麦克风10B获取的用户B的语音,识别用户B对呼叫通知的响应。
同时,在步骤S132C中,信号处理设备1C类似地输出询问用户C1和C2是否应答来自用户A的呼叫的消息,并识别用户C1和C2对呼叫通知的响应。
接下来,在步骤S134中,信号处理设备1B和1C通过管理服务器3将用户B,C1以及C2的响应传输到信号处理设备1A。这里,用户B,C1以及C2给出OK响应,如此,双向通信在用户A(信号处理设备1A侧)、用户B(信号处理设备1B侧),以及用户C1和C2(信号处理设备1C侧)之间开始。
具体而言,在步骤S137A中,为了开始与信号处理设备1B和1C的通信,信号处理设备1A执行在地点A处获取用户A的语音的声音获取处理,并将音频流(音频信号)传输到地点B(信号处理设备1B侧)和地点C(信号处理设备1C侧)。将在稍后将描述的[3-3.声音获取处理]中详细地描述根据本实施例的声音获取处理。
在步骤S137C中,信号处理设备1C类似地获取地点C处的用户C的语音,并通过管理服务器3执行向地点A和地点C传输音频信号的传输处理。
然后,在步骤S140B中,信号处理设备1B通过置于用户B周围的多个扬声器20B来形成在声学上封闭的表面,和基于从信号处理设备1A和1C传输的音频流来执行声场再现处理。将在稍后将描述的[3-4.声场再现处理]中详细地描述根据本实施例的声场再现处理。
在上文所描述的步骤S137A到S140B中,作为一个示例描述了单向通信,但是,在本实施例中,可以执行双向通信。换言之,与上文所描述的步骤S137A到S140B不同,信号处理设备1B和1C可以执行声音获取处理,信号处理设备1A可以执行声场再现处理。可另选地,信号处理设备1A和1B可以执行声音获取处理,信号处理设备1C可以执行声场再现处理。
上文描述了根据本实施例的访问音响系统中的多个空间的操作的基本处理。通过上文所描述的处理,用户A可以通过发出“我要和B,C1以及C2谈话”与位于不同的位置的用户B,C1以及C2交谈,无需携带移动电话终端、智能电话,等等。接下来,将参考图9详细地描述在步骤S118中执行的命令识别处理。
[3-2.命令识别处理]
图9是示出了根据本实施例的命令识别处理的流程图。如图9所示,首先,在步骤S203中,信号处理设备1的用户位置估计单元14估计用户的位置。例如,用户位置估计单元14可以基于通过多个麦克风10获取的声音,存储在麦克风位置信息DB53中的麦克风的布局,等等,来估计用户对于每一个麦克风10的相对位置和方向,以及用户的嘴的位置。另外,用户位置估计单元14还可以基于由摄像机30拍摄的图像、由IR热传感器40获得的检测结果,存储在摄像机位置信息DB51中的摄像机30的布局,等等,来执行估计。
接下来,在步骤S206中,信号处理单元15根据由用户位置估计单元14估计的用户的相对位置和方向以及用户的嘴的位置,来选择形成包围用户的在声学上封闭的表面的麦克风组。
接下来,在步骤S209中,信号处理单元15的麦克风阵列处理单元151对通过所选麦克风组获取的音频信号执行麦克风阵列处理,并控制麦克风10的方向性以聚焦于用户的嘴。通过此处理,信号处理设备1可以准备好让用户发言。
接下来,在步骤S212中,高S/N处理单元153对经过麦克风阵列处理单元151处理的音频信号执行诸如去混响或噪声消减之类的处理,以改善S/N比率。
接下来,在步骤S215中,识别单元131基于从高S/N处理单元153输出的音频信号来执行语音识别(语音分析)。
然后,在步骤S218中,识别单元131基于识别的语音(音频信号)来执行命令识别处理。对命令识别处理的具体内容没有特定限制,但是,例如,识别单元131可以通过将以前注册的(学习的)请求模式与识别的语音进行比较,来识别命令。
当在步骤S218中难以识别命令时(在S218中,否)信号处理设备1反复地执行在步骤S203到S215中执行的处理。此时,由于还重复步骤S203和S206,因此,信号处理单元15可以根据用户的移动,来更新形成包围用户的在声学上封闭的表面的麦克风组。
[3-3.声音获取处理]
接下来,将参考图10详细地描述在步骤S137(S137A、S137B以及S137C)中执行的声音获取处理。图10是示出了根据本实施例的声音获取处理的流程图。如图10所示,首先,在步骤S308中,信号处理单元15的麦克风阵列处理单元151对通过所选/更新的麦克风10获取的音频信号执行麦克风阵列处理,并控制麦克风10的方向性以聚焦于用户的嘴。
接下来,在步骤S312中,高S/N处理单元153对经过麦克风阵列处理单元151处理的音频信号执行诸如去混响或噪声消减之类的处理,以改善S/N比率。
然后,在步骤S315中,输出控制单元17通过通信I/F19,将从高S/N处理单元153输出的音频信号传输到由在步骤S128(参见图8)中标识的目标用户的访问目的地信息所表示的访问目的地。通过此处理,例如,由地点A处的用户A发出的语音由置于用户A周围的多个麦克风10A获取,然后,传输到地点B和C。
[3-4.声场再现处理]
接下来,将参考图11详细地描述在图8的步骤S140(S140A、S140B以及S140C)中执行的声场再现处理。图11是示出了根据本实施例的声场再现处理的流程图。如图11所示,首先,在步骤S403中,信号处理设备1的用户位置估计单元14估计用户的位置。
接下来,在步骤S406中,信号处理单元15根据所估计的用户的相对位置和方向,以及用户的耳朵的位置,来选择形成包围用户的在声学上封闭的表面的扬声器组。进一步地,连续地执行步骤S403和S406,如此,信号处理单元15可以根据用户的移动,来更新形成包围用户的在声学上封闭的表面的扬声器组。
接下来,在步骤S409中,通信I/F19从呼叫始发源接收音频信号。
接下来,在步骤S412中,信号处理单元15的声场再现信号处理单元155对接收到的音频信号执行预定的信号处理,以便当通过所选/更新的扬声器20输出音频信号时形成适当的声场。例如,声场再现信号处理单元155根据地点B的环境(置于公路、路灯,以及墙面上的多个扬声器20的布局),对接收到的音频信号执行渲染。
然后,在步骤S415中,输出控制单元17通过DAC/放大单元21,经由在步骤S406中选择的/更新的扬声器组,输出由声场再现信号处理单元155处理的音频信号。
通过此处理,通过置于位于地点B的用户B周围的多个扬声器20B,重放在地点A处获取的用户A的语音。进一步地,在步骤S412中,当根据地点B的环境来对接收到的音频信号执行渲染时,声场再现信号处理单元155可以执行信号处理,以便构建地点A的声场。
具体而言,声场再现信号处理单元155可以基于实时地获取的该地点的环境声、地点A处的脉冲响应测量数据(传输函数)等来实现地点A的声场。如此,例如,位于室外地点B的用户B可以获得的声场感觉好象用户B位于室内,像位于室内地点A的用户A那样,并可以感觉更丰富的现实。
进一步地,声场再现信号处理单元155可以使用置于用户B周围的扬声器组来控制接收到的音频信号(用户A的语音)的音频图像。例如,由于阵列扬声器(波束形成)是由多个扬声器20形成的,因此,声场再现信号处理单元155在用户B的耳朵处重建用户A的语音。进一步地,声场再现信号处理单元155通过阵列扬声器,在包围用户B的在声学上封闭的表面外面重建用户A的音频图像。
<4.访问空间选择处理>
根据本实施例的音响系统通过各种形式命令来识别选择请求。这里,由选择请求所表示的命令优选地具有在选择请求中没有被选定的任何用户不能发觉的格式。例如,如果用户A在与用户B、C1以及C2的谈话过程中说“我要仅与C1说话”,则用户B和C2也将听到该话语。鉴于此,在本发明中,提出了在选择请求中没有被选定的任何用户不能发觉的选择请求的格式。
[4-1.第一访问空间选择处理]
图12是示出了根据本实施例的访问空间选择处理的示例性概述的说明性图示。如图12所示,音响系统可以基于用户说话的音量来识别选择请求。假设地点B处的用户B正在与用户A、C1以及C2进行交谈的情况。此时,当用户B低声地说时,用户B可以与用户C1和C2秘密地交谈。进一步地,当用户B以正常的说话语音说话时,用户B可以返回到与用户A、C1以及C2的谈话。将参考图13来描述涉及此选择请求的操作处理。
图13是示出了根据本实施例的示例性访问空间选择处理的流程图。这里,图13示出了在地点A、B以及C可以通过上文参考图8所描述的多空间访问处理来彼此访问之后的操作处理。如图13所示,在步骤S637(S637A、S637B以及S637C)以及S640(S640A、S640B、S640C)中,用户A、B、C1以及C2以正常的说话语音来进行交谈。在步骤S637和640的操作处理中,执行如在步骤S137和S140中所描述的相同操作处理(参见图10和图11)。
此时,当用户B低声地说话时,在步骤S643中,识别单元131基于由用户B说话的语音的音量来识别命令。这里,作为示例,假设在信号处理设备1B或显示设备7'中在诸如呼叫始发通知之类的任意定时设置了表示指定用户C1和C2的选择请求的微弱的声音和表示选择释放请求的正常的说话语音(S132B)。识别单元131基于设置信息,来识别“用户B对用户C1和C2的选择请求”,并生成表示“用户B,C1以及C2”的选择目标设置信息。
接下来,在步骤S645中,信号处理设备1B对信号处理设备1A和1C执行访问切换处理。具体而言,信号处理设备1B通过管理服务器3将表示“用户B,C1以及C2”的选择目标设置信息传输到信号处理设备1A和信号处理设备1C。
这里,将描述由对应于地点B的信号处理设备1B执行的S645的处理。首先,信号处理设备1B的识别单元131通过信号处理单元15,向输出控制单元17输出表示“用户B,C1以及C2”的选择目标设置信息。这里,由选择目标设置信息所表示的目标用户是用户B,C1以及C2,并包括对应于信号处理设备1B的用户B。如此,信号处理设备1B的声场再现信号处理单元155只将来自由选择目标设置信息所表示的目标用户(用户C1以及C2)的音频信号写入到输出缓冲器中。然后,信号处理设备1B的输出控制单元17通过扬声器20B只重放用户C1以及C2的语音。进一步地,信号处理设备1B的输出控制单元17通过通信I/F19将选择目标设置信息传输到信号处理设备1A和信号处理设备1C。
接下来,将描述由对应于地点C的信号处理设备1C执行的S645的处理。首先,信号处理设备1C的通信I/F19接收表示“用户B、C1以及C2”的选择目标设置信息。这里,由选择目标设置信息所表示的目标用户是用户B、C1以及C2,并包括对应于信号处理设备1C的用户C1和C2。如此,信号处理设备1C的声场再现信号处理单元155只将来自由选择目标设置信息所表示的目标用户(用户B)的音频信号写入到输出缓冲器中。然后,信号处理设备1C的输出控制单元17通过扬声器20C只重放用户B的语音。
最后,将描述由对应于地点A的信号处理设备1A执行的步骤S645的处理。首先,信号处理设备1A的通信I/F19接收表示“用户B,C1以及C2”的选择目标设置信息。这里,由选择目标设置信息所表示的目标用户是用户B,C1以及C2,而不包括对应于信号处理设备1A的用户A。如此,信号处理设备1A的声场再现信号处理单元155不将来自由选择目标设置信息所表示的目标用户(用户B,C1以及C2)的音频信号写入到输出缓冲器中。因此,信号处理设备1A的输出控制单元17不通过扬声器20A来再现用户B,C1以及C2的语音。
接下来,在步骤S647(S647B和S647C)和S650(S650B和S650C)中,用户低声地与用户C1和C2进行私密交谈。在步骤S637和S640的操作处理中,执行与步骤S637和S640相同的操作处理。
接下来,当用户B的语音音量从低声语音返回到正常的说话语音时,在步骤S653中,识别单元131识别“选择释放请求”,并生成表示“用户A、B、C1以及C2”的选择目标设置信息。
接下来,在步骤S655中,信号处理设备1B对信号处理设备1A和1C执行访问切换处理。具体而言,信号处理设备1B将表示“用户A,B,C1以及C2”的选择目标设置信息传输到信号处理设备1A和信号处理设备1C。
这里,将描述由对应于地点B的信号处理设备1B执行的步骤S655的处理。首先,信号处理设备1B的识别单元131通过信号处理单元15,向输出控制单元17输出表示“用户A,B,C1以及C2”的选择目标设置信息。这里,由选择目标设置信息所表示的目标用户包括用户B。如此,信号处理设备1B的声场再现信号处理单元155将来自由选择目标设置信息所表示的目标用户(用户A,C1以及C2)的音频信号写入到输出缓冲器中。然后,信号处理设备1B的输出控制单元17通过扬声器20B来重放用户A,C1以及C2的语音。进一步地,信号处理设备1B的输出控制单元17通过通信I/F19将选择目标设置信息传输到信号处理设备1A和信号处理设备1C。
接下来,将描述由对应于地点C的信号处理设备1C执行的步骤S655的处理。首先,信号处理设备1C的通信I/F19接收表示“用户A,B,C1以及C2”的选择目标设置信息。这里,由选择目标设置信息所表示的目标用户包括用户C1和C2。如此,信号处理设备1C的声场再现信号处理单元155将来自由选择目标设置信息所表示的目标用户(用户A和B)的音频信号写入到输出缓冲器中。然后,信号处理设备1C的输出控制单元17通过扬声器20C来重放用户A和B的语音。
最后,将描述由对应于地点A的信号处理设备1A执行的步骤S655的处理。首先,信号处理设备1A的通信I/F19接收表示“用户A,B,C1以及C2”的选择目标设置信息。这里,由选择目标设置信息所表示的目标用户包括用户A。如此,信号处理设备1A的声场再现信号处理单元155将来自由选择目标设置信息所表示的目标用户(用户B,C1以及C2)的音频信号写入到输出缓冲器中。因此,信号处理设备1A的输出控制单元17通过扬声器20A来重放用户B,C1以及C2的语音。
接下来,在步骤S657(S657A、S657B,以及S657C)和S660(S660A、S660B,以及S660C)中,用户A、B,C1以及C2以正常的说话语音来进行交谈。在步骤S657和660的操作处理中,执行与步骤S637和S640相同的操作处理。
(补充)
在步骤S645、S647以及S650中,信号处理设备1仅重放选择目标设置信息中所包括的用户的语音,但是,本发明不仅限于此示例。例如,信号处理设备1可以再现选择目标设置信息中没有包括的用户的语音。换言之,在S647中,信号处理设备1B可以再现用户A的语音,作为用户B,C1以及C2之间的私密谈话期间的背景声音。
进一步地,在步骤S645、S647以及S650中,在信号处理设备1之间传输和接收音频信号,基于选择目标设置信息有选择地重放要重放的音频信号,但是,本发明不仅限于此示例。例如,信号处理设备1可以将音频信号只传输到选择目标设置信息中所包括的另一个信号处理设备1。换言之,在步骤S647中,信号处理设备1B可以将音频信号只传输到信号处理设备1C,而信号处理设备1C可以将音频信号只传输到信号处理设备1B。
另外,管理服务器3可以基于从各个信号处理设备1接收到的选择目标设置信息,有选择性地将从另一个信号处理设备1接收到的音频信号传输到各个信号处理设备1。换言之,管理服务器3可以具有声场再现信号处理单元155的功能和输出控制单元17的功能。
[4-2.第二访问空间选择处理]
图14是示出了根据本实施例的访问空间选择处理的示例性概述的说明性图示。如图14所示,音响系统可以基于用户的语言来识别选择请求。假设地点B处的用户B正在用日语与用户A、C1以及C2进行交谈的情况。此时,当用户B说俄语时,用户B可以与用户A私密地交谈。进一步地,当用户B说英语时,用户B可以与用户C1和C2私密地交谈。然后,当用户B说日语时,用户B可以返回到与用户A、C1以及C2的谈话。将参考图15来描述涉及此选择请求的操作处理。
图15是示出了根据本实施例的示例性访问空间选择处理的流程图。这里,图15示出了在地点A、B以及C可以通过上文参考图8所描述的多空间访问处理来彼此访问之后的操作处理。如图15所示,在步骤S737(S737A、S737B以及S737C)以及S740(S740A、S740B,以及S740C)中,用户A、B、C1,以及C2以日语来进行交谈。在步骤S737和740的操作处理中,执行与步骤S137和S140中的相同操作处理(参见图10和11)。
此时,当用户B说俄语时,在步骤S743中,识别单元131基于由用户B的语言来识别命令。这里,作为示例,假设在信号处理设备1B等等中设置了俄语表示指定用户A的选择请求、英语表示指定用户C1和C2的选择请求,以及日语表示选择释放请求作为设置信息。如此,当用户B说俄语时,识别单元131识别“用户B对用户A的选择请求”,并生成表示“用户B和A”的选择目标设置信息。
接下来,在步骤S745中,信号处理设备1B对信号处理设备1A和1C执行访问切换处理,类似于步骤S645(图13)。然后,在步骤S747(S747A和S747B)和S750(S750A和S750B)中,用户B用俄语与用户A私密地交谈,类似于步骤S737和740。
接下来,当用户B说的语言从俄语变为英语时,在步骤S753中,识别单元131基于用户B的语言来识别命令。具体而言,当用户B说英语时,识别单元131识别“由用户B对用户C1和C2的选择请求”,并生成表示“用户B、C1,以及C2”的选择目标设置信息。
接下来,在步骤S755中,信号处理设备1B对信号处理设备1A和1C执行访问切换处理,类似于步骤S745。然后,在步骤S757(S757A和S757B)和S760(S760A和S760B)中,用户B用英语与用户C1和C2私密地交谈,类似于步骤S737和740。
[4-3.第三访问空间选择处理]
图16是示出了根据本实施例的访问空间选择处理的示例性概述的说明性图示。如图16所示,音响系统可以基于音频图像(语音输出)朝向的位置和用户的位置之间的位置关系的变化来识别选择请求。假设用户A正在地点A的区域(1)中与用户B、C1,以及C2进行交谈的情况。这里,假设用户B的音频图像朝向区域(2)一侧,而假设用户C1和C2的音频图像朝向区域(3)一侧。此时,当用户A移动到区域(2)时,用户A可以与用户B私密地交谈。进一步地,当用户A移动到区域(3)时,用户A可以与用户C1和C2私密地交谈。然后,当用户A移动到区域(1)时,用户A可以返回到与用户B,C1和C2的谈话。下面将参考图17和18来描述定向音频图像的操作处理和涉及此选择请求的操作处理。
(多空间访问处理)
图17是示出了根据本实施例的示例性多空间访问操作的流程图。图17与图8的不同之处在于,步骤S118和S140A被替换为步骤S119和S141A,并添加了步骤S120。这里,描述将关注于步骤S119、S120,以及S141A的处理。
在步骤S119中,信号处理设备1A基于用户A的语音(发言)来识别命令,类似于步骤S118。此时,信号处理设备1A识别“向用户B,C1以及C2呼叫始发请求”的命令,以及“多点模式”的命令。这里,“多点模式”是当有多个目标用户时,为每一个目标用户分离音频图像所在的位置的操作模式。这里,作为示例,假设信号处理设备1A识别用户A的用来将用户B的音频图像定位在区域(2)一侧,而用户C1和C2的音频图像被定位在区域(3)一侧的命令识别为与“多点模式”命令相关联的设置信息。
接下来,在步骤S120中,信号处理设备1设置多点模式。具体而言,声场再现信号处理单元155基于与“多点模式”命令相关联的设置信息,来分割包围用户A的扬声器组,以便用户B的音频图像朝向区域(2),用户C1和C2的音频图像朝向区域(3)一侧。然后,声场再现信号处理单元155根据分割的扬声器组,将来自用户B,C1,以及C2的音频信号写入到多个声道的输出缓冲器中。
然后,在步骤S141A中,信号处理设备1A基于从信号处理设备1B和1C传输的音频信号,执行声场再现处理,类似于步骤S140。此时,信号处理设备1A基于在步骤S120中设置的多点模式设置来执行语音输出。具体而言,输出控制单元17通过扬声器20A,来将由声场再现信号处理单元155写入到输出缓冲器中的音频信号输出,并将用户B的音频图像朝向区域(2)一侧,将用户C1和C2的音频图像朝向区域(3)一侧。
(访问空间选择处理)
图18是示出了根据本实施例的示例性访问空间选择处理的流程图。这里,图18示出了在地点A、B,以及C可以通过上文参考图17所描述的多空间访问处理来彼此访问之后的操作处理。如图18所示,当用户A移动到区域(2)时,在步骤S833中,识别单元131基于音频图像朝向的位置和用户A的位置之间的位置关系来识别命令。
这里,作为示例,假设在信号处理设备1A等等中设置了移动到区域(2)表示指定用户B的选择请求、移动到区域(3)表示指定用户C1和C2的选择请求,以及移动到区域(1)表示选择释放请求作为设置信息。如此,识别单元131基于用户A向区域(2)的移动来识别“用户A对用户B的选择请求”,并生成表示用户“A和B”的选择目标设置信息。
接下来,在步骤S835中,信号处理设备1A对信号处理设备1B和1C执行访问切换处理,类似于步骤S645(图13)。然后,在步骤S837A、S837B、S840B,以及S841A中,用户A与区域(2)中的用户B私密地交谈,类似于步骤S137、S140,以及S141A(参见图10、11,以及17)。
接下来,当用户A移动到区域(3)时,在步骤S843中,识别单元131识别“由用户A对用户C1和C2的选择请求”,并生成表示“用户A、C1,以及C2”的选择目标设置信息。
接下来,在步骤S845中,信号处理设备1A对信号处理设备1B和1C执行访问切换处理,类似于步骤S835。然后,在步骤S847A、S847C、S850B,以及S851A中,用户A与区域(3)中的用户C1和C2私密地交谈,类似于步骤S137、S140,以及S141A。
接下来,当用户A移动到区域(1)时,在步骤S853中,识别单元131识别“选择释放请求”,并生成表示“用户A、C1,以及C2”的选择目标设置信息。
接下来,在步骤S855中,信号处理设备1A对信号处理设备1B和1C执行访问切换处理,类似于步骤S845。然后,在步骤S857A、S857B、S857C、S860B、S860C,以及S861A中,用户A在区域(1)中与用户B、C1以及C2交谈,类似于步骤S137、S140以及S141A。
(补充)
在步骤S835中,类似于步骤S645(图13),音响系统不输出没有包括在选择目标设置信息中的目标用户的语音,但是,本发明不仅限于此示例。例如,音响系统可以基于音频图像朝向的位置和用户的位置之间的位置关系的变化来控制声音输出级别。换言之,例如,在步骤S841A中,当用户A移动到区域(2)一侧时,信号处理设备1A可以降低要通过扬声器20A输出的用户C1和C2的语音的音量。进一步地,当用户A移动到区域(2)一侧时,信号处理设备1A可以放大要通过扬声器20A输出的用户B的语音的音量。
进一步地,当在步骤S120中执行多点模式设置时,信号处理设备1可以控制发光设备(未示出)并导致不同的颜色的光照射区域(1)、(2),以及(3)中的每一个。在此情况下,用户可以视觉上识别每一个区域的位置和范围。进一步地,信号处理设备1可以导致照射对应于正在说话的目标用户的区域的光强度增大。
进一步地,管理服务器3可以具有声场再现信号处理单元155的功能,并执行多点模式设置。具体而言,管理服务器3可以基于与“多点模式”命令相关联的设置信息,来分割包围用户的扬声器组,以便音频图像朝向分离的位置。
[4-4.第四访问空间选择处理]
音响系统可以基于用户的语音是否包括预定单词来识别选择请求。假设用户A正在与用户B、C1,以及C2进行交谈的情况。例如,当用户A清他/她的咽喉时,用户A可以与用户B私密地交谈,而当用户A说“释放选择请求”时,用户A可以返回到与用户B,C1,以及C2的谈话。换言之,当用户清他/她的咽喉时,信号处理设备1A识别“用户A对用户B的选择请求”,当用户说“释放选择请求”时,识别“选择释放请求”。
进一步地,当用户的语音包括禁止的单词时,音响系统可以识别禁止的单词作为断开连接请求。这里,断开连接请求是指用于断开信号处理设备1之间的连接的命令。例如,当用户A说诸如机密信息或歧视的单词之类的禁止的单词时,信号处理设备1A可以强制地断开信号处理设备1A与信号处理设备1B和1C之间的连接。
[4-5.第五访问空间选择处理]
音响系统可以基于用户的讲话速度来识别选择请求。假设用户A正在与用户B(成人)、用户C1和C2(儿童)进行交谈的情况。例如,用户A以正常速度与用户B交谈,而以较慢的速度与用户B,C1,以及C2交谈。换言之,信号处理设备1A将用户的正常速度的讲话识别为“用户A对用户B的选择请求”,将用户的慢速讲话识别为“选择释放请求”。
[4-6.第六访问空间选择处理]
音响系统可以基于用户的手势(动作)来识别选择请求。假设用户A正在与用户B、C1,以及C2进行交谈的情况。例如,当用户A站起来时用户A可以与用户B私密地交谈,并可以当用户A坐下时返回到与用户B,C1,以及C2的谈话。换言之,信号处理设备1A将用户的站起来的动作识别为“用户A对用户B的选择请求”,将用户的坐下的动作识别为“选择释放请求”。
[4-7.第七访问空间选择处理]
音响系统可以基于由显示设备7'接收到的用户的输入来识别选择请求。用户可以通过输入单元78输入选择请求。进一步地,音响系统可以基于使用摄像机79接收到的用户的手势来识别选择请求。
[4-8.与访问空间选择处理相关联的处理]
上文描述了由根据本实施例的音响系统作出的示例性选择请求。这里,用户希望检查由语音或手势作出的选择请求是否实际被识别,即,私密谈话当前是否正在进行中。相应地,例如,用户可以通过显示设备7来检查选择请求是否被识别。否则,音响系统可以通过语音引导来通知用户选择请求是否被识别。具体而言,当识别单元131识别到选择请求时,输出控制单元17向扬声器20输出对于用户的通知信号。下面将参考图19来描述基于语音引导的通知处理。
图19是示出了根据本实施例的音响系统的语音引导处理的流程图。如图19所示,首先,在步骤S503中,识别单元131基于用户的手势来识别表示“命令开始”的命令。
接下来,在步骤S506中,信号处理设备1输出一个消息,该消息用于仅通知执行了手势的用户表示命令开始的命令已经被识别这一事实。具体而言,输出控制单元17通过置于用户周围的扬声器20来重放消息。
进一步地,信号处理设备1可以停止置于重放消息的扬声器20周围的麦克风10的声音获取。进一步地,信号处理设备1可以通过置于远离正在获取声音的麦克风10的位置的扬声器20来再现消息。如此,可以防止其他用户听到语音引导。
接下来,在步骤S509中,信号处理设备1基于用户的手势来识别表示“选择请求”的命令。然后,在步骤S512中,信号处理设备1输出用于仅通知使用了手势的用户表示“选择请求”的命令已经被识别这一事实的消息。
接下来,在步骤S515中,信号处理设备1基于用户的手势来识别表示“命令结束”的命令。然后,在步骤S518中,信号处理设备1输出用于仅通知使用了手势的用户表示“命令结束”的命令已经被识别这一事实的消息。
(补充)
进一步地,当通过手势作出的选择请求被识别时,信号处理设备1基于语音引导来给出通知,但是,本发明不仅限于此示例。当通过语音作出的选择请求被识别时,信号处理设备1可以基于语音引导来发出通知。进一步地,当通过显示设备7'作出的选择请求被识别时,信号处理设备1可以基于语音引导来发出通知。
<5.系统配置的修改的示例>
根据本实施例的音响系统可以通过各种系统配置来实现。上文参考图2描述了包括客户端-服务器类型的系统配置的音响系统,但是,本发明不仅限于此示例。下面将描述音响系统的另一示例性系统配置。
[5-1.第一示例性系统配置]
(系统配置)
图20是示出了根据本实施例的音响系统的示例性总体配置的图示。如图20所示,音响系统是包括周边管理服务器3A',3B'以及3C'代替管理服务器3的对等的(P2P)类型的系统。进一步地,当不需要彼此区别周边管理服务器3A'、3B'以及3C'时,周边管理服务器3A'、3B'以及3C'统称为“周边管理服务器3'”。
周边管理服务器3'具有对位于附近的用户执行认证处理以及管理用户的绝对位置(当前位置)的功能。另外,周边管理服务器3'可以管理表示附近的信号处理设备1或附近的位置或建筑物的位置的信息(例如,IP地址)。进一步地,类似于管理服务器3,周边管理服务器3'可以管理诸如用户当前正在与其进行交谈的人或用户在一个谈话中的多个用户之中的与其私密地交谈的人的信息。进一步地,信号处理设备1可以与周边管理服务器3'集成在一起。
周边管理服务器3'通过置于附近的信号处理设备1向置于预定空间的麦克风10和扬声器20输入信号或从它们输出信号。进一步地,如图20所示,P2P类型的音响系统通过多个周边管理服务器3',将置于包括用户的预定空间的麦克风10和扬声器20与置于包括目标用户的预定空间的麦克风10和扬声器20连接。通过此操作,P2P类型的音响系统通过多个周边管理服务器3'来实现多空间访问和访问空间选择。下面将参考图21来描述由P2P类型的音响系统执行的多空间访问处理。
(多空间访问处理)
图21是示出了根据本实施例的示例性多空间访问操作的流程图。如图21所示,首先,在步骤S105中,周边管理服务器3',例如,与其他周边管理服务器3'共享位于附近的用户的用户ID和附近的信号处理设备1的IP地址。然后,步骤S112B、S112C、S115B、S115C和S118的操作处理与上文参考图8所描述的相同,如此,将省略其描述。
接下来,在步骤S125中,周边管理服务器3'根据由信号处理设备1A在步骤S118中识别的命令(呼叫始发请求),搜索用户B、C1以及C2的访问目的地信息。
接下来,在步骤S131中,信号处理设备1A基于在步骤S128中标识的用户B,C1以及C2的访问目的地信息,向信号处理设备1B和1C执行呼叫始发处理。此时,信号处理设备1A通过周边管理服务器3A'和3B'来向信号处理设备1B执行呼叫始发处理,并通过周边管理服务器3A'和3C'来向信号处理设备1C执行呼叫始发处理。
接下来,当信号处理设备1B和1C分别在步骤S132B和132C中识别到用户B和C的响应时,信号处理设备1B和1C在步骤S135中将用户B,C1以及C2的响应传输到信号处理设备1A。此时,信号处理设备1B通过周边管理服务器3B'和3A'向信号处理设备1A传输响应。进一步地,信号处理设备1C通过周边管理服务器3C'和3A'向信号处理设备1A传输响应。
接下来,在步骤S138A、S138B、S138C、S142A、S142B,以及S142C中,每一个信号处理设备1都执行声音获取处理和声场再现处理,类似于步骤S137和S140(参见图10和11)。这里,信号处理设备1之间数据的传输和接收通过周边管理服务器3'之间的数据传输和接收来执行。
[5-2.第二示例性系统配置]
(系统配置)
图22是示出了根据本实施例的音响系统的示例性总体配置的图示。如图22所示,音响系统是包括便携式管理服务器3"代替管理服务器3的便携式客户端-服务器类型的系统。这里,信号处理设备1B和1C可以构成网状网络,其中,信号处理设备1B和1C通过网络5彼此连接,而不涉及便携式管理服务器3"。
便携式管理服务器3"具有对预先注册的所有者用户及其他用户执行认证处理并管理所有者用户的绝对位置(当前位置)的功能。进一步地,便携式管理服务器3"可以管理表示预先注册的一个地方或建筑物的位置的信息(例如,IP地址)。如上文所描述的,便携式管理服务器3"与管理服务器3相比具有有限的性能,如此,由便携式管理服务器3"管理的信息量是有限的。进一步地,类似于管理服务器3,便携式管理服务器3"可以管理诸如用户当前正在与其进行交谈的人或在一个谈话中的多个用户之中的用户与其秘密地交谈的人的信息。进一步地,便携式管理服务器3"可以是移动电话、智能电话,或任何其他移动计算机。
便携式管理服务器3"向预先注册的预定的传感器和输出单元之中的置于用户和预先注册的预先确定的目标用户周围的麦克风10和扬声器20输入信号或从它们输出信号。进一步地,如图22所示,便携式客户端-服务器类型的音响系统通过便携式管理服务器3",将置于用户周围的麦克风10和扬声器20与置于目标用户周围的麦克风10和扬声器20连接。通过此操作,便携式客户端-服务器类型的音响系统通过管理,例如,预先注册的用户和位置的便携式管理服务器3",来实现多空间访问和访问空间选择。
例如,当用户向便携式客户端-服务器类型的音响系统注册诸如旅游目的地或游伴之类的信息时,用户可以与他或她与其一起旅游但是位于稍微不同的位置的游伴交谈,好像他们一起位于同一个位置。
下面将参考图23来描述由便携式客户端-服务器类型的音响系统执行的多空间访问处理。
(多空间访问处理)
图23是示出了根据本实施例的示例性多空间访问操作的流程图。如图23所示,便携式管理服务器3"与对应于携带便携式管理服务器3"的用户A所在的位置的信号处理设备1A以及对应于预先注册的位置的信号处理设备1B和1C进行通信。换言之,当预先向便携式管理服务器3"注册的用户B、C1以及C2位于预先注册的地点B和C时,在步骤S103B和103C中,由信号处理设备1B和1C给出用户ID的通知。然后,地点A、B以及C可以通过后续处理彼此进行访问。
进一步地,在步骤S139A、S139B、S139C、S143A、S143B,以及S143C中,每一个信号处理设备1都执行声音获取处理和声场再现处理,类似于步骤S137和S140(参见图10和11)。这里,信号处理设备1B和1C之间的数据的传输和接收通过网状网络来实现,而不涉及便携式管理服务器3"。
<6.效果>
如上文所描述的,在根据本实施例的音响系统中,用户可以从谈话中的多个用户中选择与其秘密地交谈的用户。此时,由于音响系统可以通过置于附近的麦克风10、摄像机30,或IR热传感器40来识别选择请求,因此,用户不需要操作智能电话或移动电话终端。进一步地,由于音响系统可以基于,例如,用户的语音音量、语言、说话的速度、手势或位置来识别选择请求,因此,没有被选择的用户难以察觉到选择请求。
进一步地,音响系统可以把对位于同一空间的多个用户之中的某一用户的选择识别为选择请求。如此,用户可以与所期望的用户私密地交谈,而不会让位于同一个空间中的其他用户察觉。
进一步地,在以各种形式执行的多空间访问处理中,用户可以使用与相关技术中的用来在会议中与所期望的人交谈的动作相同的动作来与所期望的其他用户交谈。如此,用户可以直观地使用根据本发明的实施例的音响系统。例如,在相关技术中,用户通过对所期望的人窃窃私语来私密地交谈。在其中基于语音音量来识别选择请求的示例中,当用户以与在相关技术中相同音量耳语时,用户可以与所期望的其他用户私密地交谈。进一步地,例如,在相关技术中,用户靠近所期望的人,并与其进行私密地交谈。在其中基于音频图像朝向的位置和用户的位置之间的位置关系的变化来识别选择请求的示例中,类似于相关技术,当用户靠近音频图像所朝向的位置时,用户可以与所期望的其他用户进行私密地交谈。
<7.结论>
如上文所描述的,上文参考各个附图详细地描述了本发明的示例性实施例,但是,本发明的技术范围不仅限于各实施例。那些精通本技术的普通人员可以理解,可以在权利要求所定义的技术精神的范围内进行各种修改变更,它们都包括在本技术的技术范围内。
另外,本发明还可被配置为如下。
(1)
一种信息处理系统,包括:
标识单元,基于由置于用户周围的第一传感器检测到的信号来标识所述用户和所述用户请求与其进行交谈的目标;
信号处理单元,对由所述第一传感器和置于所述目标周围的第二传感器检测到的信号执行预定的信号处理;
输出控制单元,使得经过所述信号处理单元处理的、由至少所述第二传感器检测到的信号输出到置于所述用户周围的第一输出单元;以及
识别单元,当多个所述目标被所述标识单元标识时,基于由所述第一传感器检测到的信号来识别用于从所述多个目标中选择特定目标的选择请求,
其中,当所述选择请求被所述识别单元识别时,所述输出控制单元使得经过所述信号处理单元处理的、由所述第一传感器检测到的信号被置于所述特定目标周围的第二输出单元输出。
(2).如(1)所述的信息处理系统,
其中,当所述选择请求被所述识别单元识别时,所述输出控制单元使得由置于所述多个目标之中的所述特定目标周围的所述第二传感器检测到的信号被所述第一输出单元输出。
(3).如(1)或(2)所述的信息处理系统,
其中,当所述多个目标由所述标识单元标识时,所述信号处理单元处理由置于所述多个目标周围的所述第二传感器检测到的信号。
(4).如(1)至(3)中任一项所述的信息处理系统,
其中,当所述多个目标由所述标识单元标识时,所述信号处理单元对由置于所述多个目标周围的所述第二传感器检测到的信号执行合成处理。
(5).如(1)至(4)中任一项所述的信息处理系统,
其中,所述信号包括音频信号,
其中,所述第一传感器和所述第二传感器各自包括麦克风,以及
其中,所述第一输出单元和所述第二输出单元各自包括输出声音的扬声器。
(6).如(5)所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的语音音量来识别所述选择请求。
(7).如(5)或(6)所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的语言来识别所述选择请求。
(8).如(5)至(7)中任一项所述的信息处理系统,
其中,所述信号处理单元执行信号处理,使得当所述多个目标被所述标识单元标识时,从所述第一输出单元输出的语音朝向所述用户的位置附近的多个位置。
(9).如(8)所述的信息处理系统,
其中,所述识别单元基于从所述第一输出单元输出的语音所朝向的位置和由所述第一传感器检测到的所述用户的位置之间的位置关系的变化,来识别所述选择请求。
(10).如(5)至(9)中任一项所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的语音是否包括预定的词,来识别所述选择请求。
(11).如(5)至(10)中任一项所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的讲话速度来识别所述选择请求。
(12).如(1)至(11)中任一项所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的动作来识别所述选择请求。
(13).如(1)至(12)中任一项所述的信息处理系统,进一步包括:
输入单元,接收从所述用户输入的选择请求,
其中,所述识别单元识别通过所述输入单元输入的选择请求。
(14).如(1)至(13)中任一项所述的信息处理系统,
其中,当所述识别单元识别到所述选择请求时,所述输出控制单元使得到所述用户的通知信号被所述第一输出单元输出。
(15).如(1)至(14)中任一项所述的信息处理系统,
其中,所述信息处理系统相对于置于预定空间中的传感器和输出单元执行信号的输入和输出,
其中,置于包括所述用户的预定空间中的传感器被用作所述第一传感器,而置于同一空间中的所述输出单元被用作所述第一输出单元,以及
其中,置于包括所述目标的预定空间中的传感器被用作所述第二传感器,而置于同一空间中的所述输出单元被用作所述第二输出单元。
(16).如(1)至(14)中任一项所述的信息处理系统,
其中,所述信息处理系统相对于置于多个预定的空间中的传感器和输出单元执行信号的输入和输出,
其中,置于所述多个预定空间之中的包括所述用户的预定空间中的传感器被用作所述第一传感器,而置于同一空间中的输出单元被用作所述第一输出单元,以及
其中,置于所述多个预定空间之中的包括所述目标的预定空间中的传感器被用作所述第二传感器,而置于同一空间中的输出单元被用作所述第二输出单元。
(17).如(1)至(14)中任一项所述的信息处理系统,
其中,所述信息处理系统相对于预定的传感器和输出单元之中的置于所述用户以及预定的目标周围的传感器和输出单元执行信号的输入和输出,
其中,置于所述用户周围的传感器和输出单元被分别用作所述第一传感器和所述第一输出单元,以及
其中,置于所述目标周围的传感器和输出单元被分别用作所述第二传感器和所述第二输出单元。
(18).一种具有用于使得计算机执行下列处理的程序的非暂态计算机可读存储介质
基于由置于用户周围的第一传感器检测到的信号来标识所述用户和所述用户请求与其进行交谈的目标,
对由所述第一传感器和置于所述目标周围的第二传感器检测到的信号执行预定的信号处理,以及
使得经过所述信号处理的、由至少所述第二传感器检测到的信号输出到置于所述用户周围的第一输出单元,以及
当多个目标被标识时
对由置于所述多个目标周围的所述第二传感器检测到的信号执行合成处理,
基于由所述第一传感器检测到的信号,识别用于从多个目标中选择特定目标的选择请求,以及
使得经过所述信号处理的、由所述第一传感器检测到的信号被置于所述特定目标周围的第二输出单元输出。
本发明包含涉及2012年9月19在日本专利局提交的日本优先级专利申请JP2012-205460的主题,该专利申请的全部内容以引用的方式并入本文中。

Claims (18)

1.一种信息处理系统,包括:
标识单元,基于由置于用户周围的第一传感器检测到的信号来标识所述用户和所述用户请求与其进行交谈的目标;
信号处理单元,对由所述第一传感器和置于所述目标周围的第二传感器检测到的信号执行预定的信号处理;
输出控制单元,使得经过所述信号处理单元处理的、由至少所述第二传感器检测到的信号输出到置于所述用户周围的第一输出单元;以及
识别单元,当多个所述目标被所述标识单元标识时,基于由所述第一传感器检测到的信号来识别用于从所述多个目标中选择特定目标的选择请求,
其中,当所述选择请求被所述识别单元识别时,所述输出控制单元使得经过所述信号处理单元处理的、由所述第一传感器检测到的信号被置于所述特定目标周围的第二输出单元输出。
2.如权利要求1所述的信息处理系统,
其中,当所述选择请求被所述识别单元识别时,所述输出控制单元使得由置于所述多个目标之中的所述特定目标周围的所述第二传感器检测到的信号被所述第一输出单元输出。
3.如权利要求1所述的信息处理系统,
其中,当所述多个目标由所述标识单元标识时,所述信号处理单元处理由置于所述多个目标周围的所述第二传感器检测到的信号。
4.如权利要求1所述的信息处理系统,
其中,当所述多个目标由所述标识单元标识时,所述信号处理单元对由置于所述多个目标周围的所述第二传感器检测到的信号执行合成处理。
5.如权利要求1所述的信息处理系统,
其中,所述信号包括音频信号,
其中,所述第一传感器和所述第二传感器各自包括麦克风,以及
其中,所述第一输出单元和所述第二输出单元各自包括输出声音的扬声器。
6.如权利要求5所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的语音音量来识别所述选择请求。
7.如权利要求5所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的语言来识别所述选择请求。
8.如权利要求5所述的信息处理系统,
其中,所述信号处理单元执行信号处理,使得当所述多个目标被所述标识单元标识时,从所述第一输出单元输出的语音朝向所述用户的位置附近的多个位置。
9.如权利要求8所述的信息处理系统,
其中,所述识别单元基于从所述第一输出单元输出的语音所朝向的位置和由所述第一传感器检测到的所述用户的位置之间的位置关系的变化,来识别所述选择请求。
10.如权利要求5所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的语音是否包括预定的词,来识别所述选择请求。
11.如权利要求5所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的讲话速度来识别所述选择请求。
12.如权利要求1所述的信息处理系统,
其中,所述识别单元基于由所述第一传感器检测到的所述用户的动作来识别所述选择请求。
13.如权利要求1所述的信息处理系统,进一步包括:
输入单元,接收从所述用户输入的选择请求,
其中,所述识别单元识别通过所述输入单元输入的选择请求。
14.如权利要求1所述的信息处理系统,
其中,当所述识别单元识别到所述选择请求时,所述输出控制单元使得到所述用户的通知信号被所述第一输出单元输出。
15.如权利要求1所述的信息处理系统,
其中,所述信息处理系统相对于置于预定空间中的传感器和输出单元执行信号的输入和输出,
其中,置于包括所述用户的预定空间中的传感器被用作所述第一传感器,而置于同一空间中的所述输出单元被用作所述第一输出单元,以及
其中,置于包括所述目标的预定空间中的传感器被用作所述第二传感器,而置于同一空间中的所述输出单元被用作所述第二输出单元。
16.如权利要求1所述的信息处理系统,
其中,所述信息处理系统相对于置于多个预定的空间中的传感器和输出单元执行信号的输入和输出,
其中,置于所述多个预定空间之中的包括所述用户的预定空间中的传感器被用作所述第一传感器,而置于同一空间中的输出单元被用作所述第一输出单元,以及
其中,置于所述多个预定空间之中的包括所述目标的预定空间中的传感器被用作所述第二传感器,而置于同一空间中的输出单元被用作所述第二输出单元。
17.如权利要求1所述的信息处理系统,
其中,所述信息处理系统相对于预定的传感器和输出单元之中的置于所述用户以及预定的目标周围的传感器和输出单元执行信号的输入和输出,
其中,置于所述用户周围的传感器和输出单元被分别用作所述第一传感器和所述第一输出单元,以及
其中,置于所述目标周围的传感器和输出单元被分别用作所述第二传感器和所述第二输出单元。
18.一种具有用于使得计算机执行下列处理的程序的非暂态计算机可读存储介质
基于由置于用户周围的第一传感器检测到的信号来标识所述用户和所述用户请求与其进行交谈的目标,
对由所述第一传感器和置于所述目标周围的第二传感器检测到的信号执行预定的信号处理,以及
使得经过所述信号处理的、由至少所述第二传感器检测到的信号输出到置于所述用户周围的第一输出单元,以及
当多个目标被标识时
对由置于所述多个目标周围的所述第二传感器检测到的信号执行合成处理,
基于由所述第一传感器检测到的信号,识别用于从多个目标中选择特定目标的选择请求,以及
使得经过所述信号处理的、由所述第一传感器检测到的信号被置于所述特定目标周围的第二输出单元输出。
CN201310413822.8A 2012-09-19 2013-09-12 信息处理系统和存储介质 Expired - Fee Related CN103685783B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012205460A JP2014060647A (ja) 2012-09-19 2012-09-19 情報処理システム及びプログラム
JP2012-205460 2012-09-19

Publications (2)

Publication Number Publication Date
CN103685783A true CN103685783A (zh) 2014-03-26
CN103685783B CN103685783B (zh) 2018-04-06

Family

ID=50274048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310413822.8A Expired - Fee Related CN103685783B (zh) 2012-09-19 2013-09-12 信息处理系统和存储介质

Country Status (3)

Country Link
US (1) US9277178B2 (zh)
JP (1) JP2014060647A (zh)
CN (1) CN103685783B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556422A (zh) * 2020-04-30 2020-08-18 江苏中协智能科技有限公司 一种多音箱切换播放方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6102923B2 (ja) * 2012-07-27 2017-03-29 ソニー株式会社 情報処理システムおよび記憶媒体
US20150162000A1 (en) * 2013-12-10 2015-06-11 Harman International Industries, Incorporated Context aware, proactive digital assistant
KR102222318B1 (ko) * 2014-03-18 2021-03-03 삼성전자주식회사 사용자 인식 방법 및 장치
US20160330563A1 (en) * 2015-05-08 2016-11-10 Htc Corporation Virtual reality audio system and the player thereof, and method for generation of virtual reality audio
US9990826B1 (en) 2016-12-07 2018-06-05 Global Tel*Link Corporation System for monitoring offender during correctional supervisory program
JP6761990B2 (ja) * 2017-05-22 2020-09-30 パナソニックIpマネジメント株式会社 通信制御方法、通信制御装置、テレプレゼンスロボット、及び通信制御プログラム
US10475454B2 (en) * 2017-09-18 2019-11-12 Motorola Mobility Llc Directional display and audio broadcast
JP7361460B2 (ja) * 2018-09-27 2023-10-16 沖電気工業株式会社 コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法
CN113015955A (zh) * 2018-11-01 2021-06-22 索尼集团公司 信息处理装置、其控制方法及程序
WO2020246634A1 (ko) * 2019-06-04 2020-12-10 엘지전자 주식회사 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법
JP6892173B1 (ja) * 2020-10-19 2021-06-23 シンメトリー・ディメンションズ・インク コミュニケーションシステム、管理サーバ、およびそれらの制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496417A (zh) * 2006-08-01 2009-07-29 雅马哈株式会社 语音会议系统
CN102007730A (zh) * 2007-10-24 2011-04-06 社会传播公司 在共享虚拟区域通信环境中的自动化实时数据流交换
US20120054186A1 (en) * 2010-08-25 2012-03-01 International Business Machines Corporation Methods and arrangements for employing descriptors for agent-customer interactions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02295269A (ja) 1989-05-10 1990-12-06 Hitachi Ltd 対話音声定位方式
JP4061240B2 (ja) 2003-05-13 2008-03-12 日本電信電話株式会社 テレビ会議システム,テレビ会議方法,アドホックパーティサービス提供システムおよび人材マッチングサービス提供システム
US7734032B1 (en) * 2004-03-31 2010-06-08 Avaya Inc. Contact center and method for tracking and acting on one and done customer contacts
US8756501B1 (en) * 2005-12-30 2014-06-17 Google Inc. Method, system, and graphical user interface for meeting-spot-related introductions
US9853922B2 (en) * 2012-02-24 2017-12-26 Sococo, Inc. Virtual area communications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496417A (zh) * 2006-08-01 2009-07-29 雅马哈株式会社 语音会议系统
CN102007730A (zh) * 2007-10-24 2011-04-06 社会传播公司 在共享虚拟区域通信环境中的自动化实时数据流交换
US20120054186A1 (en) * 2010-08-25 2012-03-01 International Business Machines Corporation Methods and arrangements for employing descriptors for agent-customer interactions

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556422A (zh) * 2020-04-30 2020-08-18 江苏中协智能科技有限公司 一种多音箱切换播放方法
CN111556422B (zh) * 2020-04-30 2021-09-24 江苏中协智能科技有限公司 一种多音箱切换播放方法

Also Published As

Publication number Publication date
JP2014060647A (ja) 2014-04-03
US20140078242A1 (en) 2014-03-20
CN103685783B (zh) 2018-04-06
US9277178B2 (en) 2016-03-01

Similar Documents

Publication Publication Date Title
CN103685783A (zh) 信息处理系统和存储介质
US12051443B2 (en) Enhancing audio using multiple recording devices
CN108428452B (zh) 终端支架和远场语音交互系统
CN109360549B (zh) 一种数据处理方法、穿戴设备和用于数据处理的装置
US20150208191A1 (en) Information processing system and storage medium
CN104303177A (zh) 即时翻译系统
US20160366528A1 (en) Communication system, audio server, and method for operating a communication system
CN109257498B (zh) 一种声音处理方法及移动终端
WO2021244056A1 (zh) 一种数据处理方法、装置和可读介质
CN111343410A (zh) 一种静音提示方法、装置、电子设备及存储介质
US20210092514A1 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
CN106067996A (zh) 语音再现方法、语音对话装置
KR20230118089A (ko) 사용자 스피치 프로파일 관리
CN111863020A (zh) 语音信号处理方法、装置、设备及存储介质
CN111816180A (zh) 基于语音控制电梯的方法、装置、设备、系统及介质
Danninger et al. The connector: facilitating context-aware communication
US11216242B2 (en) Audio output system, audio output method, and computer program product
CN113299309A (zh) 语音翻译方法及装置、计算机可读介质和电子设备
US20210385319A1 (en) Systems and Methods for Detecting Voice Commands to Generate a Peer-to-Peer Communication Link
CN112420046B (zh) 适合听障人士参与的多人会议方法、系统及装置
CN116057928A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
KR102720846B1 (ko) 파 엔드 단말기 및 그의 음성 포커싱 방법
US11930082B1 (en) Multiple zone communications and controls
US20240223707A1 (en) Far-end terminal and voice focusing method thereof
CN113380275B (zh) 语音处理方法、装置、智能设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180406

Termination date: 20210912