CN105027542A - 通讯系统以及机器人 - Google Patents

通讯系统以及机器人 Download PDF

Info

Publication number
CN105027542A
CN105027542A CN201480010701.1A CN201480010701A CN105027542A CN 105027542 A CN105027542 A CN 105027542A CN 201480010701 A CN201480010701 A CN 201480010701A CN 105027542 A CN105027542 A CN 105027542A
Authority
CN
China
Prior art keywords
speaking
volume
loud speaker
microphone
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480010701.1A
Other languages
English (en)
Other versions
CN105027542B (zh
Inventor
林宏直
岩田拓也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN105027542A publication Critical patent/CN105027542A/zh
Application granted granted Critical
Publication of CN105027542B publication Critical patent/CN105027542B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H11/00Self-movable toy figures
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H13/00Toy figures with self-moving parts, with or without movement of the toy as a whole
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H3/00Dolls
    • A63H3/28Arrangements of sound-producing means in dolls; Means in dolls for producing sounds
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Toys (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及通讯系统以及机器人,通讯系统具备第一麦克风、第一扬声器、第二扬声器、第二麦克风、说话人数判定部以及控制部。第一麦克风获取周围的声音作为声音信号。第一扬声器设置于第一麦克风的附近,并输出声音。第二扬声器将从第一麦克风获取到的声音信号作为声音输出。第二麦克风获取周围的声音作为声音信号,并对第一扬声器输出。说话人数判定部根据第一麦克风获取到的声音信号,判定第一麦克风周围的说话人的人数。控制部基于说话人数判定部的判定,来控制第一扬声器的音量。

Description

通讯系统以及机器人
技术领域
本发明涉及通讯系统、机器人、音量控制的方法以及机器人的控制程序。
背景技术
近年来,进行了将机器人放置到有人的场所(例如会场),执行机器人与人的通讯这样的处理。例如,在专利文献1中,公开有检测在机器人周围的人的人数的通讯机器人的技术。该通讯机器人根据检测到的人的人数,使用扬声器对在机器人周围的人进行不同的提醒。
专利文献1:日本特开2007-118129号公报
在如上述那样执行机器人与人的通讯的情况下,存在机器人(在机器人是远程操作型的机器人的情况下对机器人进行远程操作的人)无法充分地识别机器人周边的人的交谈状态这样的问题点。即,机器人或者操作该机器人的人无法识别机器人周边的人现在是正在聊天还是正在安静地听某人演讲等。因此,可能产生例如在机器人周边的人正在安静地听某人演讲的时候,机器人执行发出大声的动作的情况。这样,机器人的举动可能扰乱周围的气氛。
发明内容
本发明是为了解决这样的问题点而完成的,其目的在于,提供能够根据周围的环境来变更通讯音量的通讯系统、机器人、音量控制的方法以及机器人的控制程序。
本发明的通讯系统具备第一麦克风、第一扬声器、第二扬声器、第二麦克风、说话人数判定部以及控制部。第一麦克风获取周围的声音作为声音信号。第一扬声器设置于上述第一麦克风的附近,输出声音。第二扬声器从上述第一麦克风获取上述声音信号,输出该声音信号作为声音。第二麦克风获取周围的声音作为声音信号,对上述第一扬声器输出获取到的该声音信号。说话人数判定部根据上述第一麦克风获取到的声音信号,来判定说话人数,上述说话人数表示上述第一麦克风的周围的说话人的人数。控制部基于上述说话人数判定部的判定,来控制上述第一扬声器的音量。通过这样的构成,通讯系统能够根据第一麦克风的周围的说话人的人数,来控制第一扬声器的音量。因此,通讯系统能够根据第一麦克风的周围的环境,来变更通讯的音量。
也可以是,上述控制部进行控制,以使得在上述说话人数小于阈值的情况下,与上述说话人数是阈值以上的情况相比较,减小上述第一扬声器的音量。通过这样的构成,在第一麦克风的周围的说话人的人数小于阈值时,从位于其附近的第一扬声器输出的声音的音量变小。因此,通讯系统能够防止阻碍在第一扬声器的周围进行的演讲。
也可以是,上述控制部进行控制,以使得在上述说话人数小于阈值的情况下,在比规定的时间少的时间内,即便当上述说话人数为阈值以上时,也保持减小上述第一扬声器的音量的状态。通过这样的构成,控制部在第一麦克风的周围正在进行演讲的情况下,即便当较短的期间发出了多个人的声音时,也能够保持减小第一扬声器的音量的状态。由此,通讯系统能够防止阻碍在第一扬声器的周围进行的演讲。
也可以是,上述控制部进行控制,以使得在上述说话人数是阈值以上的情况下,在比规定的时间少的时间内,即便当上述说话人数小于阈值时,也保持增大上述第一扬声器的音量的状态。通过这样的构成,控制部在第一麦克风的周围正在进行多个人的交谈的情况下,即便当较短的期间为安静的状态时,也能够将第一扬声器的音量保持原样。由此,通讯系统能够防止由于减小了第一扬声器的音量而导致阻碍使用第二扬声器以及第二麦克风说话的人的通讯。
也可以是,上述控制部进行控制,以使得在上述说话人数在特定时间内减少得比规定数量大的情况下,减小上述第一扬声器的音量。通过这样的构成,控制部能够检测将第一麦克风的周围的状态从多个人正在聊天的状态变化到听众安静地等待演讲的状态这一情况,来减小第一扬声器的音量。由此,通讯系统能够防止阻碍在第一扬声器的周围进行的演讲。
也可以是,上述控制部进行控制,以使得在上述说话人数是阈值以下并且正在减少的情况下,减小上述第一扬声器的音量。通过这样的构成,控制部能够检测第一麦克风的周围的状态为听众正在安静地等待演讲的状态这一情况,来减小第一扬声器的音量。由此,通讯系统能够防止阻碍在第一扬声器的周围进行的演讲。
也可以是,上述通讯系统还具备比较部,上述比较部输出对上述第一麦克风获取到的声音与上述第二麦克风获取到的声音的大小进行比较的比较结果,上述控制部基于上述比较部的比较结果来控制上述第一扬声器的音量。由此,通讯系统能够使第一扬声器的音量与第一扬声器的周围的声音的大小一致。
也可以是,上述控制部基于一定时间内的上述说话人数来控制上述第一扬声器的音量。由此,即使说话人数仅在较短的时间变化的情况下,控制部也能够不管其变化如何,均进行麦克周围的准确状态的判定。通讯系统能够根据第一麦克风的周围的环境更高精度地变更通讯的音量。
也可以是,上述说话人数判定部对在上述一定时间内进行说话的人数进行计数,作为一定时间内的上述说话人数。由此,说话人数判定部能够在不同的人彼此在不同的时刻进行交谈的情况下,准确地把握说话人的合计人数。因此,控制部能够进行第一麦克风的周围的准确的状态的判定。由此,通讯系统能够根据第一麦克风的周围的环境更高精度地变更通讯的音量。
本发明的机器人是与人之间执行使用了声音的通讯的机器人,具备扬声器、麦克风、说话人数判定部以及控制部。扬声器输出声音。麦克风获取上述机器人的周围的声音作为声音信号。说话人数判定部根据上述麦克风获取到的声音信号,来判定上述机器人的周围的说话人的人数。控制部基于上述说话人数判定部的判定结果,来控制上述扬声器的音量。通过这样的构成,机器人能够根据周围的说话人的人数控制扬声器的音量。因此,机器人能够根据周围的环境来变更通讯的音量。
本发明的音量控制的方法是通讯系统中的音量控制的方法,上述通讯系统设置有:第一麦克风,其获取周围的声音作为声音信号;第一扬声器,其设置于上述第一麦克风的附近,输出声音;第二扬声器,其从上述第一麦克风获取上述声音信号,输出上述声音信号作为声音;以及第二麦克风,其获取周围的声音作为声音信号,对上述第一扬声器输出获取到的上述声音信号。该音量控制的方法至少包括以下的步骤(a)~(b)。
(a)根据上述第一麦克风获取到的声音信号,来判定上述第一麦克风的周围的说话人的人数;以及
(b)基于上述判定,来控制上述第一扬声器的音量。
通过这样的构成,通讯系统能够根据第一麦克风的周围的说话人的人数,来控制第一扬声器的音量。因此,通讯系统能够根据第一麦克风的周围的环境来变更通讯的音量。
本发明的机器人的控制程序是具备输出声音的扬声器、以及获取周围的声音作为声音信号的麦克风的机器人的控制程序。该机器人的控制程序使机器人至少执行以下的步骤(a)~(b)。
(a)根据上述麦克风获取到的声音信号,来判定上述机器人的周围的说话人的人数;以及
(b)基于上述判定,来控制上述扬声器的音量。
通过这样的构成,机器人能够根据周围的说话人的人数来控制扬声器的音量。因此,机器人能够根据周围的环境,来变更通讯的音量。
通过本发明,能够提供能够根据周围的环境来变更通讯的音量的通讯系统、机器人、音量控制的方法以及机器人的控制程序。
附图说明
图1是表示实施方式1的机器人的外观的例子的图。
图2是表示实施方式1的机器人的头部的构成例的图。
图3是表示实施方式1的机器人的内部构成的一个例子的框构成图。
图4是表示具有实施方式1的机器人的通讯系统的一个例子的构成图。
图5是表示在实施方式1的机器人的周边的人的说话声音的大小的一个例子的曲线图。
图6是实施方式1的说话人数判定部判定出的说话人数的曲线图的例子。
图7是表示实施方式1的控制终端的状态判定的处理的一个例子的流程图。
图8是表示在实施方式1中,说话人数判定部判定出的说话人数以及移动平均说话人数的一个例子的曲线图。
图9是相关技术的通讯系统的构成图。
图10是表示实施方式1的机器人的处理的一个例子的框构成图。
图11是表示实施方式2的机器人的内部构成的一个例子的框构成图。
图12是表示具有实施方式2的机器人的通讯系统的一个例子的构成图。
图13是表示实施方式3的机器人的内部构成的一个例子的框构成图。
图14是表示具有实施方式3的机器人的通讯系统的一个例子的构成图。
具体实施方式
实施方式1
以下,参照附图对本发明的实施方式1进行说明。图1是表示本实施方式1的机器人100的外观的例子的图。机器人100是模拟人的形状而制造出的远程操作机器人,具备头部101、躯干部102、右臂部103、左臂部104、右腿部105以及左腿部106。机器人100能通过远程操作使各部移动。
图2是表示头部101的构成例的图。头部101具有右眼111、左眼112、口113、右耳114以及左耳115。右眼111、左眼112分别设置于与人脸的右眼以及左眼对应的位置,右眼111作为拍摄装置发挥作用。机器人100能够通过该拍摄装置拍摄周围的环境,向进行远程操作的人(以下,记载为远程操作者)发送该拍摄数据。远程操作者通过将该拍摄数据作为影像来进行观察,能够视觉识别机器人100周围的环境。
口113设置于与人脸的口对应的位置。在口113设置有扬声器。机器人100通过设置于口113的扬声器将从远程操作侧发送来的声音信号作为声音再生,能够使机器人100的周围的人听见。
右耳114以及左耳115设置于与人脸的右耳以及左耳对应的位置。在右耳114设置有麦克风(以下,简略记载为麦克),机器人100能够通过该麦克获取周围的声响(例如机器人100周围的人的交谈),并将其作为电信号的声音数据发送给远程操作者。远程操作者通过利用扬声器将该声音数据作为声音来加以听取,从而能够确认机器人100的周围的声响。此外,所谓机器人100的周围的人例如是在机器人100的半径数米内的人。
图3是表示机器人100的内部构成的一个例子的框构成图。机器人100具备拍摄装置121、扬声器122、麦克123、说话人数判定部124、控制部125以及可动部126。拍摄装置121是设置于右眼111的上述的拍摄装置。扬声器122是设置于口113的上述的扬声器。麦克123是设置于右耳114的上述的麦克。
说话人数判定部124基于从麦克123获取到的周围的声响,来判定在机器人100的周围说话的说话人有几个人。对该处理的详细后述。
控制部125根据来自远程操作侧的控制信号来控制机器人100的各部,例如是由CPU(Central Processing Unit:中央处理器)、存储器、其他电路构成的IC(Integrated Circuit:集成电路)。控制部125例如能够根据控制信号来调整扬声器122的音量。可动部126是能够根据来自控制部125的控制来使头部101~左腿部106移动的单元,例如是致动器。
图4是表示具有具备以上所示的构成的机器人100的通讯系统的一个例子的构成图。在图4中,通讯系统10具备机器人100、网络200以及远程操作侧300,机器人100经由网络200与远程操作侧300连接。
在图4中,作为机器人100的构成要素,除了扬声器122(第一扬声器)、麦克123(第一麦克风)、说话人数判定部124、控制部125以外,还记载有放大器127。放大器127对来自远程操作侧300的声音信号进行放大后供给至扬声器122。此外,虽然机器人100具有图1~图3所示的构成要素,但在图4中省略了它们的记载。
网络200是有线或者无线的网络。远程操作侧300是机器人100的远程操作者执行该远程操作的地方,具备麦克301(第二麦克风)、放大器302、扬声器303(第二扬声器)、回波抵消器304以及控制终端305。
以下,对于远程操作侧300的各部进行说明。麦克301经由网络200与扬声器122连接。通过远程操作者对麦克301输入自身的声音,从而该声音被转换为电信号,经由网络200、放大器127被送出至扬声器122。按照上述,扬声器122将该声音信号转换为声音并输出。这样一来,远程操作者能够使自身的声音从距离较远的机器人100输出。
放大器302经由网络200获取麦克123输出的声音信号,进行放大并输出至扬声器303。扬声器303将该声音信号转换为声音并输出。这样一来,远程操作者能够听到机器人100周围的声响。
回波抵消器304是消除由扬声器122、麦克123、麦克301、扬声器303产生的回波的单元。回波抵消器304被设置在连接麦克301和扬声器122的连接线与连接放大器302和麦克123的连接线之间。
通过远程操作者从麦克301输入自身的声音,从而该声音被从扬声器122输出。此时,由于该声音从麦克123输入,从而声音被从扬声器303输出。即,会产生回波。为了防止该回波产生,回波抵消器304从连接线检测输出至麦克301的远程操作者的声音信号,将使该声音信号取消的取消信号输出至连接放大器302和麦克123的连接线。由此,回波抵消器304能够防止回波产生。
控制终端305(控制部)获取说话人数判定部124输出的判定结果,并基于此执行机器人100的控制。例如控制终端305能够自动地控制机器人100的扬声器122的音量。以下,对该控制的详细进行说明。
图5是表示在机器人100的周边的人的说话声音的大小的一个例子的曲线图。在图5中,以在机器人100的周边有A先生~F先生这6个人作为前提。在图5中,横轴表示时刻,纵轴表示说话声音的大小。另外,在图5中初始时刻是t0。
在图5中,A先生在时刻t0~t1不说话,在时刻t1~t2用较小的声音说话,在时刻t2~t3不说话,在时刻t3~t4用较小的声音说话,在时刻t4~t5不说话,在时刻t5~t6用较大的声音说话,在时刻t6以后不说话。B先生在时刻t0~t7不说话,在时刻t7~t8用中等程度的声音说话,在时刻t8~t9不说话,在时刻t9以后用中等程度的声音说话。C先生在时刻t0~t10用较小的声音说话,在时刻t10~t11不说话,在时刻t11~t12用较小的声音说话,在时刻t12以后用较大的声音说话。D先生在时刻t0~t13不说话,在时刻t13~t14用较大的声音说话,在时刻t14以后不说话。E先生在时刻t0~t15不说话,在时刻t15~t16用较小的声音说话,在时刻t16以后不说话。F先生从时刻t0以后不说话。这样,人的说话声音的特征在于,除了较大的声音、较小的声音混在以外,若从较长的跨度来看,一个人的声音并不连续而是断续的。麦克123获取这样的说话声音作为声音数据。
麦克123获取到的声音数据经由网络200、放大器302被输入至扬声器303。并且,麦克123获取到的声音数据被输入至说话人数判定部124。
说话人数判定部124根据麦克123获取到的声音数据判定当前正在说话的人(说话人)的数量。这里,对于人的声音,人的声带的固有振动不同。因此,即使同时2个人以上的声音发出的情况下,说话人数判定部124也通过解析声音数据,来检测2个以上的不同的固有振动。由此,说话人数判定部124判定2个人以上正在发出声音。这样一来,说话人数判定部124判定说话人数,说话人数表示麦克123周围的说话人的人数。
图6是说话人数判定部124判定出的说话人数的曲线图的例子。在图6中,横轴表示时刻,纵轴表示特定的时刻中的说话人数。在图6中,在初始时刻t20中,麦克123的周边(即,机器人100的周边)的说话人数是1人。在时刻t21中,说话人数减少到0人。在时刻t22中,说话人数返回到1人。在时刻t23中,说话人数增加到2人。在时刻t24中,说话人数为3人,之后立刻增加到4人。在时刻t25中,说话人数减少到2人。在时刻t26中,说话人数为1人。在时刻t27中,说话人数返回到2人。在时刻t28中,说话人数一时为1人,但立刻返回到2人。在时刻t29中,说话人数为1人。在时刻t30中,说话人数返回到2人。在时刻t31中,说话人数为3人。在时刻t32中,说话人数为2人。
说话人数判定部124如以上那样判定麦克123周围的说话人的人数。说话人数判定部124经由网络200向控制终端305输出。控制终端305基于其判定结果来控制扬声器122的音量。
并且,说话人数判定部124基于说话人数判定部124判定出的现在麦克123周围的说话人数以及某一定时间内的过去的麦克123周围的说话人数,计算出周围的说话人数的单纯移动平均(以下,记载为移动平均说话人数)。移动平均说话人数的数据也作为说话人数判定部124判定的结果输出至控制终端305。
在以下的说明中,控制终端305通过基于程序自动地设定扬声器122的音量,输出控制扬声器122的音量的控制信号,来控制扬声器122的音量。其中,远程操作者也可以通过基于显示于控制终端305的判定结果来操作控制终端305,从而控制扬声器122的音量。具体而言,将控制扬声器122的音量的控制信号从控制终端305输出至控制部125,控制部125根据该控制信号来控制扬声器122的音量。由此,远程操作者能够控制扬声器122的音量。
这里,说话人数判定部124在麦克123获取到的声音中,将发出一定等级以上的音量的声音的人计数为说话人数,发出小于一定等级的音量的声音的人不计数在说话人数中。“发出一定等级以上的音量的声音的人”是在通常的对人距离中与人进行交谈的人,“发出小于一定等级的音量的声音的人”表示用低声细语、耳语这样小的声音与人进行交谈的人。说话人数判定部124例如将音压等级的阈值设为55dB,将发出其以上的音量的声音的人计数在说话人数中,从而仅将发出一定等级以上的音量的声音的人计数在说话人数中。这是因为相对于一般的交谈的音压等级约为60dB,低声细语的音压等级是30~40dB,通过将音压等级的阈值设为55dB,能够仅将进行一般的交谈的人计数在说话人数中。此外,音压等级的阈值也可以是50dB、40dB等其他的值。
控制终端305基于被设定的阈值以及由说话人数判定部124计算出的移动平均说话人数,将周围的状态分类成以下的3个状态来进行判定。
a.多个人正在聊天的状态
b.比较安静地等待某人开始说话的状态(等待演讲的状态)
c.特定的人进行演讲的状态或者马上就要进行演讲的状态
以下,对于详细进行说明。
在控制终端305,在麦克123周围的说话人数中,作为第一阈值R1设定有1.5,作为第二阈值R1'设定有2.5,作为第三阈值R2设定有3.5,作为第四阈值R2'设定有4.5。这里第一阈值R1~第四阈值R2'的大小关系是R1<R1'<R2<R2'。
并且,作为移动平均说话人数的一定时间内的倾斜度α(微分值)的阈值设定有第五阈值R3以及第六阈值R3'(R3以及R3'是任意负数)。这里,第一阈值R1、第二阈值R1'以及第五阈值R3是用于供控制终端305判定周围的状况是特定的人进行演讲的状态等还是等待演讲的状态的阈值。另外,第三阈值R2、第四阈值R2'以及第六阈值R3'是用于供控制终端305判定周围的状况是多个人正在聊天的状态还是等待演讲的状态的阈值。以下,对于具体的控制终端305的判定进行说明。
如果说话人数判定部124计算出的移动平均说话人数是第三阈值R2以上(即,如果移动平均说话人数是3.5人以上),则作为原则,控制终端305将周围的状况判定为是多个人正在聊天的状态(状态a)。是因为人数不是少数的人正在进行交谈,所以考虑为周围的状态不是正在进行演讲等的状态,而是正在进行聊天的状态。
但是,即使移动平均说话人数是第三阈值R2以上,在移动平均说话人数小于第四阈值R2',并且移动平均说话人数的一定时间内的倾斜度α(微分值)小于第六阈值R3'的情况下,控制终端305也将周围的状况判定为是状态b。换句话说,控制终端305将周围的状况判定为从多个人正在聊天的状态突然过渡到等待演讲的状态。这里第六阈值R3'是被视为在移动平均说话人数小于第四阈值R2'时,移动平均说话人数以倾斜度第六阈值R3'减少,从而在特定时间内(例如3秒以内)移动平均说话人数减少到小于第三阈值R2的值。
如果说话人数判定部124计算出的移动平均说话人数是第一阈值R1以上并且小于第三阈值R2,则作为原则,控制终端305将周围状况判定为是安静地等待某人开始说话的状态(状态b)。周围的状态是少数人正在交谈的状态,虽然不是特定的人正在演讲的状态或者演讲马上就要进行的状态,但是也不是周围的人随意地正在聊天的状态。因此,周围的状态考虑为是周围的人等待演讲等,并且少数人正在说话的状态这是妥当的。
但是,即使移动平均说话人数是第一阈值R1以上,在移动平均说话人数小于第二阈值R1',并且移动平均说话人数的一定时刻内的倾斜度α小于第五阈值R3的情况下,控制终端305也将周围的状况判定为是状态c。换句话说,控制终端305将周围的状况判定为从等待演讲的状态突然过渡到特定的人正在进行演讲的状态等。这里第五阈值R3是被视为在移动平均说话人数小于第二阈值R1'时,移动平均说话人数以倾斜度第五阈值R3减少,从而在特定时间内移动平均说话人数减少到小于第一阈值R1的值。
如果说话人数判定部124计算出的移动平均说话人数小于第一阈值R1,则控制终端305将周围的状况判定为是特定的人正在进行演讲的状态或者演讲马上就要进行的状态(状态c)。这是因为在麦克123周围的说话人数是1人的情况下,考虑为在周围不进行交谈,而正在进行对于听众的祝辞、致辞、讲演等演讲。另外,在周围的说话人数是0人的情况下,考虑为是麦克123周围的人正在等待马上就要开始的演讲而不说话的状态。
综上所述,控制终端305如下那样判定麦克123周围的状态是上述状态a、b、c中的哪一个状态。如果移动平均说话人数是第三阈值R2以上,则作为原则,控制终端305判定为麦克123周围的状态是状态a。但是,控制终端305在移动平均说话人数小于第四阈值R2'并且是第三阈值R2以上且移动平均说话人数的倾斜度小于第六阈值R3'的情况下,判定为麦克123周围的状态是状态b。如果移动平均说话人数小于第三阈值R2且是第一阈值R1以上,则作为原则,控制终端305判定为麦克123周围的状态是状态b。但是,控制终端305在移动平均说话人数小于第二阈值R1'并且是第一阈值R1以上且移动平均说话人数的倾斜度小于第五阈值R3的情况下,判定为麦克123周围的状态是状态c。如果移动平均说话人数小于第一阈值R1,则控制终端305判定为麦克123周围的状态是状态c。
图7是表示某特定时刻中的控制终端305的状态判定的处理的一个例子的流程图。以下,对于控制终端305的状态判定处理的例子进行说明。
控制终端305首先判定移动平均说话人数是否小于第一阈值R1(步骤S1)。如果移动平均说话人数小于第一阈值R1(步骤S1的是),则控制终端305将麦克123周围的状态判定为状态c(步骤S2)。
如果移动平均说话人数是第一阈值R1以上(步骤S1的否),则控制终端305判定移动平均说话人数是否是第三阈值R2以上(步骤S3)。
在移动平均说话人数小于第三阈值R2的情况(步骤S3的否)下,控制终端305进一步判定是否移动平均说话人数小于第二阈值R1',并且移动平均说话人数的倾斜度α小于第五阈值R3(步骤S4)。
在移动平均说话人数小于第二阈值R1',并且移动平均说话人数的倾斜度α小于第五阈值R3的情况(步骤S4的是)下,控制终端305将麦克123周围的状态判定为状态c(步骤S2)。
在移动平均说话人数是第二阈值R1'以上,或者移动平均说话人数的倾斜度α是第五阈值R3以上的情况(步骤S4的否)下,控制终端305将麦克123周围的状态判定为状态b(步骤S5)。
返回步骤S3的判定处理继续说明。在移动平均说话人数是第三阈值R2以上的情况(步骤S3的是)下,控制终端305进一步判定是否移动平均说话人数小于第三阈值R2',并且移动平均说话人数的倾斜度α小于第六阈值R3'(步骤S6)。
在移动平均说话人数小于第三阈值R2',并且移动平均说话人数的倾斜度α小于第六阈值R3'的情况(步骤S6的是)下,控制终端305将麦克123周围的状态判定为状态b(步骤S5)。
在移动平均说话人数是第三阈值R2'以上,或者移动平均说话人数的倾斜度α是第六阈值R3'以上的情况(步骤S6的否)下,控制终端305将麦克123周围的状态判定为状态a(步骤S7)。
此外,即使为说话人数判定部124计算出的移动平均说话人数与阈值R1或者R2的大小关系发生变化的状态,如果该状态不继续规定时间T以上,则控制终端305也不视为周围的状态发生了变化。即,即使在视为周围的状态在小于规定时间T内发生了变化的状态下,控制终端305也不判定为周围的状态发生了变化。这是为了避免即使实际上周围的状态没有发生变化,控制终端305也判定周围的状态发生了变化这一情况的措置。规定的时间T是视为麦克123周围的状态临时变化的程度较短的时间,例如1~5秒左右的时间(以下也相同)。
图8是表示说话人数判定部124判定出的说话人数以及移动平均说话人数的一个例子的曲线图。使用该图8,对控制终端305控制扬声器122的音量的一个例子进行说明。此外,在图8中,横轴表示时刻,纵轴表示说话人数。图8的实线的曲线图是表示特定时刻中的麦克123周围的说话人数的经过的曲线图。实线的曲线图的数据作为说话人数判定部124判定的结果输出至控制终端305。
图8的虚线的曲线图是将作为对象的时刻之前的时刻的说话人数加入考虑而由说话人数判定部124计算出的移动平均说话人数的曲线图。该虚线的曲线图的数据也作为说话人数判定部124判定的结果输出至控制终端305。
在图8中,在期间A(即,时刻t41~t42)中,移动平均说话人数超过第三阈值R2。另外,移动平均说话人数的倾斜度是第六阈值R3'以上。因此,在上述的图7的处理流程中,控制终端305执行步骤S1-S3-S6的判定,将周围的状况判定为是多个人正在聊天的状态(状态a)(步骤S7)。
此时,控制终端305执行使扬声器122的音量为大音量(例如70dB)的控制。即,控制终端305不减小扬声器122的音量。这是因为考虑由于周围的人在聊天中,即使不减小扬声器122的音量,也不会影响周围的人。相反,若控制终端305减小扬声器122的音量,则来自扬声器122的声音与周围的声音相比较过于小,可能机器人100的交谈对象(即,机器人100的远程操作者的交谈对象)变得听不见。因此,控制终端305在期间A中将最初设定的扬声器122的音量设为大音量。
并且,在图8中,在时刻t43中,为移动平均说话人数小于第一阈值R1,并且移动平均说话人数的倾斜度α(α<0)小于第五阈值R3。根据以上内容,控制终端305执行步骤S1的判定,判定为麦克123周围的状态从少数人正在进行交谈的状态(状态b)过渡到特定的人正在演讲的状态等(状态c)(步骤S2)。基于该判定,控制终端305执行减小扬声器122的音量(例如使音量为50dB)的控制。该状态被认为会立刻移至马上就要进行演讲的状态。因此,控制终端305预先进行降低扬声器的音量的控制,这是因为考虑了最好与周围立刻移至安静的环境相对应。
在时刻t43之后周围的移动平均说话人数也为第一阈值R1以下。控制终端305从此处将周围的状况判定为是特定的人正在进行演讲的状态等(状态c)。因此,控制终端305仍然控制为减小扬声器122的音量。
如以上那样,控制终端305在时刻t43以后的期间B中,执行减小扬声器122的音量的控制。
此外,控制终端305在判定为麦克123周围的状态是状态b的情况下,执行使扬声器122的音量为中等程度(例如使音量为60dB)的控制。这样,控制终端305按照麦克123周围的状态是状态a、状态b、状态c的顺序,较大地设定扬声器122的音量。
此外,控制终端305也可以不基于由说话人数判定部124计算出的移动平均说话人数,而基于由说话人数判定部124判定出的当前麦克123周围的说话人数,执行图7所示的判定处理。此时,在图8的期间B内的时刻t45~t46、时刻t47~t48,麦克123周围的说话人数为2人(即,第一阈值R1以上)。但是,时刻t45~t46、时刻t47~t48的期间分别是小于规定时间T的期间。因此,控制终端305判定为特定的人正在进行演讲的状态(状态c)正在继续。由此,控制终端305在期间B中控制为保持减小扬声器122的音量的状态,不返回原来的音量。
但是,通过控制终端305基于移动平均说话人数执行图7所示的判定处理,即便麦克123周边的当前的说话人数短时间内发生了变动,也缓和该变动来判定状态。换句话说,能够防止控制终端305判定的麦克123周边的状态频繁地切换。因此,为了防止控制终端305对麦克123的音量的控制频繁地改变,优选控制终端305基于移动平均说话人数执行图7所示的判定处理。
以上说明的实施方式1的通讯系统10能够根据周围的环境来变更音量。该通讯系统10至少具备麦克123、扬声器122、扬声器303、麦克301、说话人数判定部124以及控制终端305。麦克123获取周围的声音作为声音信号。扬声器122设置于麦克123的附近(例如距离麦克123数十cm~1m左右的距离),并输出声音。扬声器303从麦克123获取声音信号,并将该声音信号作为声音输出。麦克301获取周围的声音作为声音信号,将获取到的该声音信号对扬声器122输出。说话人数判定部124根据麦克123获取到的声音信号,判定麦克123周围的说话人的人数(例如麦克123的半径数米内的说话人的人数)。控制终端305基于说话人数判定部124的判定,控制扬声器122的音量。通过这样的构成,通讯系统10能够根据麦克123周围的说话人的人数,来控制扬声器122的音量。因此,通讯系统10能够根据麦克123周围的环境变更通讯的音量。
图9是表示以往的通讯系统的构成的构成图。图9的通讯系统90具备机器人700、网络800以及远程操作侧900,机器人700经由网络800与远程操作侧900连接。
机器人700具备扬声器701、麦克702、放大器703以及控制部704。扬声器701、麦克702、放大器703分别与图4的扬声器122、麦克123、放大器127对应。控制部704执行扬声器122以及麦克123的控制。
远程操作侧900具备麦克901、放大器902、扬声器903以及回波抵消器904。麦克901、放大器902、扬声器903以及回波抵消器904分别与图4的麦克301、放大器302、扬声器303以及回波抵消器304对应。
在通讯系统90中,在远程操作侧900的远程操作者利用扬声器903听在分离地方的麦克702获取到的声音。另外,远程操作者通过对于麦克901发声,将自身的声音从在分离的地方的扬声器701输出。这样一来,远程操作者能够与在分离的地方的人(即,在机器人700的附近的人)进行交谈。
但是,远程操作者无法准确地识别机器人700的周围的环境。即,远程操作者无法识别机器人700周边的人现在正在聊天,还是正在安静地听某人的演讲等。因此,例如在机器人周边的人正在安静地听某人的演讲的时候,若远程操作者利用麦克901与机器人700的附近的人打招呼,则较大的声音从扬声器701发出,可能会扰乱周围的气氛。
与此相对,实施方式1的通讯系统10能够根据麦克123周围的环境变更通讯的音量。
此外,控制终端305也可以在说话人数判定部124判定出的麦克123周围的说话人的人数小于阈值的情况下,控制为与该人数是阈值以上的情况相比较,减小扬声器122的音量(这里,所谓周围的说话人的人数既可以是说话人数判定部124判定出的当前麦克123周围的说话人数,也可以是说话人数判定部124计算出的移动平均说话人数。这点以下的说明也相同。)。通过这样的构成,在麦克123周围的说话人的人数小于阈值时,从位于其附近的扬声器122输出的声音的音量变小。因此,通讯系统10能够防止阻碍在扬声器122的周围进行的演讲这一情况。
控制终端305也可以在说话人数判定部124判定出的麦克123周围的说话人的人数小于阈值的情况下,在比规定的时间T少的时间内该人数变为阈值以上时,控制为保持减小扬声器122的音量的状态。通过这样的构成,控制终端305能够在麦克123的周围正在进行演讲的情况下,在较短的期间内多个人的声音发出时,保持减小扬声器122的音量的状态。由此,通讯系统10能够防止阻碍在扬声器122的周围进行的演讲这一情况。
控制终端305也可以在说话人数判定部124判定出的麦克123周围的说话人的人数是阈值以上的情况下,在比规定的时间T少的时间内该人数小于阈值时,控制为保持增大扬声器122的音量的状态。通过这样的构成,控制终端305能够在麦克123的周围多个人正在进行交谈的情况下,在较短的期间内为安静的状态时,也将扬声器122的音量保持原样。由此,通讯系统10通过减小扬声器122的音量,能够防止阻碍使用扬声器303以及麦克301进行说话的人(远程操作者)的通讯这一情况。
控制终端305也可以在说话人数判定部124判定出的麦克123周围的说话人的人数在特定时间内减少得比规定数量大的情况(换句话说倾斜度α小于规定的倾斜度的情况)下,控制为减小扬声器122的音量。通过这样的构成,控制终端305能够检测将麦克123周围的状态从多个人正在聊天的状态变化到听众正在安静地等待演讲的状态这一情况,减小扬声器122的音量。由此,通讯系统10能够防止阻碍在扬声器122的周围进行的演讲。
控制终端305也可以在说话人数判定部124判定出的麦克123周围的说话人的人数是阈值以下并且正在减少的情况下,控制为减小扬声器122的音量。通过这样的构成,控制终端305检测麦克123周围的状态是听众正在安静地等待演讲的状态这一情况,来减小扬声器122的音量。由此,通讯系统10能够防止阻碍在扬声器122的周围进行的演讲这一情况。
此外,也可以代替控制终端305,而由机器人100的控制部125执行图7所记载的处理流程。这里,机器人100是在与人之间执行使用例如声音的通讯的机器人,具备扬声器122、麦克123、说话人数判定部124以及控制部125。
图10是表示这种机器人的处理的一个例子的框构成图。扬声器122输出声音。麦克123获取机器人100的周围的声音作为声音信号。说话人数判定部124根据麦克123获取到的声音信号,判定机器人100的周围的说话人的人数。控制部125基于说话人数判定部124的判定结果,控制扬声器122的音量。通过这样的构成,机器人100能够根据周围的说话人的人数来控制扬声器122的音量。因此,机器人100能够根据周围的环境自主地变更通讯的音量。
并且,在实施方式1中,也公开有通讯系统中的音量控制的方法。该通讯系统具有:麦克123,其获取周围的声音作为声音信号;扬声器122,其设置于麦克123的附近,输出声音;扬声器303,其从麦克123获取声音信号,并将该声音信号作为声音输出;以及麦克301,其获取周围的声音作为声音信号,将获取到的该声音信号对扬声器输出。该音量控制的方法至少包括以下的步骤(a)~(b)。
(a)根据麦克123获取到的声音信号,来判定麦克123周围的说话人的人数;以及
(b)基于上述判定,来控制扬声器122的音量。
通过这样的构成,通讯系统能够根据麦克123周围的说话人的人数来控制扬声器122的音量。因此,通讯系统能够根据扬声器122的周围的环境变更通讯的音量。
图7所示的流程图的处理方法只不过是一个例子。例如,在图7中,控制终端305也可以不是先执行步骤S3而如上述那样先执行步骤S1的判定。另外,第一阈值R1、第二阈值R1'、第三阈值R2以及第四阈值R2'的值只不过是具体例,只要满足R1<R1'<R2<R2'的大小关系即可,也可以是其他的值。第五阈值R3以及第六阈值R3'的值也能够基于第一阈值R1~第四阈值R2'的值变更。
此外,在上述的处理例中,控制终端305在麦克123周围的状态是状态a的情况下,将扬声器122的音量设定为音量70dB。这里,控制终端305既可以在麦克123周围的状态是状态a时不将扬声器122的音量一直设为音量70dB,也可以以扬声器122的音量稍稍(例如1、2dB左右)变化的方式调整扬声器122的音量。麦克123周围的状态是状态b、状态c时也相同。这样一来,控制终端305按照麦克123周围的状态是状态a、状态b、状态c的顺序,将扬声器122的音量较大地设定即可。
此外,在麦克123周围的状态是状态b时,控制终端305也可以与状态a时相同地设定扬声器122的音量。
此外,控制终端305判定上述状态a、b、c的方法也可以考虑其他方法。以下,依次对状态a、b、c进行说明。
例如,在控制终端305检测到以下状态的情况下,控制终端305能够判定为麦克123周围的状态是状态a。控制终端305在判定为在麦克123的周围中规定等级以上的音量的较大声音或者普通音量的声音的说话人有多个,并且该声音继续一定时间以上的情况下,能够判定为麦克123周围的状态是状态a。这里所谓“规定等级以上的音量”例如是大声的音量亦即70~80dB左右的音量,所谓“普通的音量”例如是一般的说话声音的音量亦即60dB左右的音量(以下也相同)。而且所谓“一定时间”是指足以确定出麦克123周围的状态的时间,例如7~10秒左右的时间(以下也相同)。该时间为了不将在演讲中偶尔发生的数秒左右的笑声、说话声音判定为“多个人正在聊天”的状态而设定。所谓“说话人多”例如表示说话人有4人以上(上述的第三阈值R2以上)的情况。
并且,控制终端305也可以在按照上述判定为麦克123周围的状态是状态a的情况下,在比规定时间T少的时间内不满足上述条件的情况下,也判定为麦克123周围的状态是状态a。这是因为即使多个人正在聊天的状态下,也可能存在一瞬间成为没有交谈的安静状态的情况,所以若将该状态判定为状态b或者状态c,则扬声器的音量未被基于现实的状态准确地控制。此外,规定的时间T按照上述例如是1秒~5秒左右的时间。
并且,控制终端305不只在某时刻中的麦克123周围的说话人数是第三阈值R2以上的情况下,在一定时间内的麦克123周围的个人的说话人数比规定数量多的情况下,也可以判定为麦克123周围的状态是状态a。此外,一定时间的定义遵从上述内容。
例如,控制终端305在10秒期间5人以上的说话人在麦克123周围的情况下,能够判定为麦克123周围的状态是状态a。这里说话人数判定部124例如在10秒的期间最初A先生、B先生、以及C先生进行交谈,接下来A先生、D先生、以及E先生进行交谈的情况下,判定为5个说话人在麦克123的周围。说话人数判定部124按照上述检测不同的固有振动,来判定为进行交谈的是A先生~E先生中的哪一个。
这是考虑了在多个人在麦克123的周围正在聊天的情况下,也并不是人一直说话,也存在说话中断的情况。在这样的中断有短时间(例如1~3秒)时,若控制终端305仅考虑该短时间的状态来判定麦克123周围的状态是状态b或者状态c,则扬声器的音量未被基于现实的状态准确地控制。但是,控制终端305在即使有交谈的中断,一定时间内的麦克123周围的个人的说话人数也比规定数量多的情况下,判定为麦克123周围的状态是状态a。由此,控制终端305能够进行麦克123周围的准确状态的判定。
并且,该判定方法特别是在聊天中某说话人改变对象来说话的情况下,能够进行准确的状态的判定。例如,在10秒的期间最初A先生、B先生、以及C先生进行交谈,接下来A先生、D先生、以及E先生进行交谈的情况下,特定时刻中的说话人的人数是3人,即小于第三阈值R2,但一定时间内的个人的说话人的人数是5人,即为第三阈值R2以上。这样的时候,控制终端305仅考虑该特定的时刻的状态来判定为麦克123周围的状态是状态b,则扬声器的音量未被基于现实的状态准确地控制。然而,控制终端305在某特定的时刻中的说话人的人数少的情况下,在一定时间内的麦克123周围的个人的说话人数也比规定数量多的情况下,判定为麦克123周围的状态是状态a。由此,控制终端305能够进行麦克123周围的准确状态的判定。
另外,在控制终端305检测到以下的状态的情况下,控制终端305能够判定为麦克123周围的状态是状态b。控制终端305也可以在麦克123的周围中发出规定等级以上的音量的较大的声音或者普通的音量的声音的说话人的数量在特定时间内减少了规定数量以上的情况下,判定为麦克123周围的状态是状态b。这里“规定等级以上的音量”、“普通的音量”的例子如上所述。
控制终端305在发出一般的说话声音的说话人的数量例如在3秒以内减少了4人以上的情况下,能够判定为麦克123周围的状态从状态a过渡至状态b。这样,在发出规定水平以上的音量的较大声音或者普通音量的声音的说话人的数量在短时间急剧地减少的情况下,控制终端305能够判定为麦克123周围的状态是状态b。该状态表示以演讲马上就要开始为契机从多个人在麦克123的周围正在聊天的状态移至正在聊天的人停止聊天状态的状态。
并且,控制终端305在麦克123的周围中发出规定等级以上的音量的较大的声音或者普通的音量的声音的说话人的数量是一定以下的状态下,在一定时间内减少了规定数量以上说话人数的情况下,能够判定为麦克123周围的状态从状态a变为状态b。例如控制终端305在发出一般的说话声音的说话人的数量在特定的时刻中是10人以下的情况下,在10秒以内减少了4人以上说话人的数量的情况下,能够判定为麦克123周围的状态从状态a变为状态b。这样,控制终端305在发出规定等级以上的音量的较大的声音或者普通的音量的声音的说话人的数量是一定以下,且说话人的数量还继续减少的情况下,能够判定为麦克123周围的状态是状态b。该状态表示以演讲马上就要开始为契机从正在进行聊天的人不多的状态移至正在聊天的人依次停止聊天状态的状态。
并且,在控制终端305检测到以下状态的情况下,控制终端305能够判定为麦克123周围的状态是状态c。控制终端305在麦克123的周围中在一定时间以上发出规定等级以上的音量的较大声音的说话人有少数(1人~3人左右)的情况下,能够判定为麦克123周围的状态是状态c。这表示少数人在麦克123的周围正在进行演讲的状态。另外,进行演讲的人并不局限于1人,也可以是2人、3人这样的多个并且少数的人。这是因为例如在会场中,可能存在进行了主持人和来宾的通话这样的情况。
此时,说话人数判定部124也可以将发出小于上述一定等级的音量的声音的人作为“用小于一定等级的音量说话的说话人”计数为说话人数。控制终端305在说话人数判定部124判定为在麦克123的周围有用小于一定等级的音量说话的说话人的情况下,也能够判定为麦克123周围的状态是状态c。所谓“小于一定等级的音量”例如是低声细语或者耳语这样的较小的声音的音量,指30~40dB左右的音量。这表示少数人正在麦克123的周围进行演讲而另一方面其他的人为了不打扰演讲而以较小的声音说话的状态。
并且,控制终端305在比规定的时间T少的时间(例如不足3秒~5秒的时间)内发出规定等级以上的音量的较大声音或者普通音量的声音的说话人有规定数量以上的情况下,也能够判定为麦克123周围的状态是状态c。该处理是用于防止在演讲期间的时间发生笑声、聊天的情况下,控制终端305仅检测到该时间内的状态就判定为是多个人正在聊天的状态,而用不适合现实的做法来控制扬声器122的音量的处理。
并且,控制终端305在没有在比规定的时间T少的时间(例如2秒~小于5秒的时间)内发出规定等级以上的音量的较大声音的说话人的情况下,也能够判定为麦克123周围的状态是状态c。该处理是用于防止正在进行演讲的人在说话的期间插入小停顿的情况下,控制终端305仅检测到该期间的状态就判定为是状态b,用不适合现实的做法来控制扬声器122的音量的处理。
并且,控制终端305在说话人的数量从有多数说话人的状态a的状态减少并变为少数(例如2、3人)的情况下,也能够判定为麦克123周围的状态是状态c。这表示在麦克123周围的状态从听众正在聊天的状态变化到演讲马上就要开始的状态的情况下,少数人没注意到演讲开始正在进行交谈的状态。因此,控制终端305能够适当地反映现实的状态,并较小地控制扬声器122的音量。
如以上那样,控制终端305也能够不基于特定时刻的说话人的人数,而基于说话人数判定部124判定出的某一定时间内的说话人数,来控制扬声器122的音量。由此,仅在短时间内说话人数变化的情况下,控制终端305也能够不管该变化如何,都进行麦克123周围的准确状态的判定。由此,通讯系统能够根据第一麦克风的周围的环境更高精度地变更通讯的音量。
另外,说话人数判定部124也可以对在一定时间内进行交谈的个人的数量进行计数,作为一定时间内的麦克123周围的说话人数。由此,说话人数判定部124在不同的人彼此在不同的时刻正在进行交谈的情况下,能够准确地把握进行了交谈的合计的人数。因此,控制终端305能够进行麦克123周围的准确状态的判定。
实施方式2
以下,参照附图对本发明的实施方式2进行说明。实施方式2的机器人的外观图以及头部的构成与实施方式1相同,所以省略说明。
图11是表示实施方式2的机器人100的内部构成的一个例子的框构成图。图11的机器人100与图3的机器人100相比,新具备比较部128。
图12是表示具有机器人100的通讯系统的一个例子的构成图。在通讯系统20中,比较部128通过比较从麦克301输出的声音信号与从麦克123输出的声音信号,来比较扬声器122输出的声音与位于麦克123周围的声音的大小。换句话说,比较部128比较机器人100发出的声音的大小与在机器人100的周围的人发出的声音的大小。
比较部128将该比较结果输出至控制终端305,控制终端305显示该比较结果。远程操作者基于显示于控制终端305的比较结果,从控制终端305控制扬声器122的音量。由此,通讯系统30能够使扬声器122的音量与扬声器122周围的声音的大小一致。
例如,比较部128判定为扬声器122输出的声音的音量是65dB,从麦克123获取到的声音的音量是55dB。此时,远程操作者判定为处于从机器人100输出的声音比机器人100的周围的声音大的状态(即,机器人100与周围的人相比较是吵闹的状态)。远程操作者通过该判定,从控制终端305向控制部125输出控制信号,以使扬声器122的音量减小10dB左右。由此,比较部128能够使扬声器122的音量随着机器人周围的声音的音量减小。
相反,比较部128判定为扬声器122输出的声音的音量是50dB,从麦克123获取到的声音的音量是60dB。此时,远程操作者判定为处于从机器人100输出的声音比机器人100周围的声音小的状态(即,机器人100的声音周围的人难以听见的状态)。远程操作者通过该判定,从控制终端305向控制部125输出控制信号,以使扬声器122的音量增大10dB左右。由此,比较部128能够使扬声器122的音量随着机器人周围的声音的音量变大。
远程操作者因为位于远离机器人100的场所,所以无法直接听见机器人100发出的声音和机器人100周边的人发出的声音。因此,远程操作者可能错误设定机器人100发出的声音的音量。例如,可能存在机器人100发出的声音的音量与机器人100周边的人发出的声音的音量相比过大,妨碍机器人100周边的人的交谈、演讲的情况。与此相反,也可能存在机器人100发出的声音的音量与机器人100周边的人发出的声音的音量相比过小,妨碍机器人100周边的人经由机器人100与远程操作者进行交谈的情况。实施方式2的机器人100以及通讯系统30能够通过使机器人100发出的声音的音量与机器人100周边的人发出的声音的音量一致,来解决这样的课题。
此外,控制部125也可以基于比较部128的比较结果,自动地控制扬声器122的音量。对于控制部125的具体的控制方法如上所述。换句话说控制部125基于比较部128的比较结果控制扬声器122的音量,以使扬声器122输出的声音的音量与从麦克123获取到的声音的音量为几乎相同程度的大小。
实施方式3
以下,参照附图对本发明的实施方式2进行说明。实施方式3的机器人的外观图以及头部的构成与实施方式1相同,所以省略说明。
图13是表示实施方式3的机器人100的内部构成的一个例子的框构成图。图13的机器人100与图3的机器人100相比,内部不具备说话人数判定部124。
图14是表示具有机器人100的通讯系统的一个例子的构成图。在通讯系统30中,说话人数判定部作为说话人数判定部306设置于远程操作侧300。说话人数判定部306执行的处理与实施方式1的说话人数判定部124相同,省略说明。说话人数判定部306将判定结果输出至控制终端305。
控制终端305将控制信号输出至控制部125,以便基于判定结果控制扬声器122的音量。控制终端305的扬声器122的音量控制的方法与实施方式1中说明的方法相同。控制部125基于控制信号控制扬声器122的音量。
这样,在实施方式3中,说话人数判定部306不设置于机器人100而设置于远程操作侧300。这是用于抑制在说话人数判定部306设置于机器人100的情况下,将该判定结果输出至控制终端305时由于网络200产生的延迟而导致的影响的构成。这里,说话人数判定部306使用从麦克123输出的声音信号被回波抵消器304回波取消之前的声音信号来执行判定。
实施方式2的比较部128也与图14的说话人数判定部306相同,能够不设置于机器人100而设置于远程操作侧300。
此外,本发明并不局限于上述实施方式,能够在不脱离主旨的范围内适当地变更。例如,实施方式1中的机器人100作为被远程操作者操作的远程操作机器人进行了说明,但也可以是自主地判定周围的状况并输出声音等的机器人。即使是这样的机器人,也能够通过与实施方式1相同的判定方法,控制扬声器的音量与环境一致。并且,即使代替机器人100,具备相同的构成部件的计算机设置于通讯系统10,通讯系统10也能够起到相同的效果。
在实施方式1中,说话人数判定部124能够不计算周围的说话人数的移动平均,执行其他的滤波处理,来计算周围的说话人数的时间的过渡。控制部125基于该过渡所涉及的数据,与实施方式1相同地控制扬声器122的音量。
实施方式1所示的处理流程能够作为控制方法之一,使计算机(例如个人计算机、移动终端、机器人)执行。例如,也可以将处理流程作为控制程序使计算机执行。该计算机具备输出声音的扬声器、以及获取周围的声音作为声音信号的麦克风。计算机根据麦克风获取到的声音信号判定机器人的周围的说话人的人数。接下来,计算机基于该判定控制上述扬声器的音量。如以上那样,计算机执行处理。对于实施方式2、3所示的处理,也能够相同地使计算机执行。
程序能够使用各种类型的非暂时性计算机可读介质(non-transitory computer readable medium)来储存,并供给至计算机。非暂时性计算机可读介质包括有各种类型的有实体的记录介质(tangible storage medium)。非暂时性计算机可读介质的例子包括磁记录介质(例如软盘、磁带、硬盘驱动器)、光磁记录介质(例如光磁盘)、CD-ROM、CD-R、CD-R/W、半导体存储器(例如,掩膜ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM(Random Access Memory))。另外,程序也可以通过各种类型的暂时性计算机可读介质(transitory computer readable medium)供给至计算机。暂时性计算机可读介质的例子包括电信号、光信号、以及电磁波。暂时性计算机可读介质能够经由电线以及光纤等的有线通信路、或者无线通信路将程序供给至计算机。
该申请主张于2013年3月22日提出的日本专利申请2013-059420的优先权,并在此引用其全部公开内容。
附图标记说明
10、20、30...通讯系统;100...机器人;101...头部;102...躯干部;103...右臂部;104...左臂部;105...右腿部;106...左腿部;111...右眼;12...左眼;113...口;114...右耳;115...左耳;121...拍摄装置;122...扬声器;123...麦克;124...说话人数判定部;125...控制部;126...可动部;127...放大器;128...比较电路;200...网络;300...远程操作侧;301...麦克;302...放大器;303...扬声器;304...回波抵消器;305...控制终端;306...说话人数判定部。

Claims (12)

1.一种通讯系统,其中,具备:
第一麦克风,其获取周围的声音作为声音信号;
第一扬声器,其设置于所述第一麦克风的附近,输出声音;
第二扬声器,其从所述第一麦克风获取所述声音信号,输出所述声音信号作为声音;
第二麦克风,其获取周围的声音作为声音信号,对所述第一扬声器输出获取到的所述声音信号;
说话人数判定部,其根据所述第一麦克风获取到的声音信号,来判定说话人数,所述说话人数表示所述第一麦克风的周围的说话人的人数;以及
控制部,其基于所述说话人数判定部的判定,来控制所述第一扬声器的音量。
2.根据权利要求1所述的通讯系统,其中,
所述控制部进行控制,以使得在所述说话人数小于阈值的情况下,与所述说话人数是阈值以上的情况相比较,减小所述第一扬声器的音量。
3.根据权利要求2所述的通讯系统,其中,
所述控制部进行控制,以使得在所述说话人数小于阈值的情况下,在比规定时间少的时间内,即便当所述说话人数变为阈值以上时,也保持减小所述第一扬声器的音量的状态。
4.根据权利要求2所述的通讯系统,其中,
所述控制部进行控制,以使得在所述说话人数是阈值以上的情况下,在比规定时间少的时间内,即便当所述说话人数变为小于阈值时,也保持增大所述第一扬声器的音量的状态。
5.根据权利要求1所述的通讯系统,其中,
所述控制部进行控制,以使得在所述说话人数在特定时间内减少得比规定数量大的情况下,减小所述第一扬声器的音量。
6.根据权利要求1所述的通讯系统,其中,
所述控制部进行控制,以使得在所述说话人数是阈值以下并且正在减少的情况下,减小所述第一扬声器的音量。
7.根据权利要求1所述的通讯系统,其中,
所述通讯系统还具备比较部,所述比较部输出对所述第一麦克风获取到的声音与所述第二麦克风获取到的声音的大小进行比较的比较结果,
所述控制部基于所述比较部的比较结果来控制所述第一扬声器的音量。
8.根据权利要求1所述的通讯系统,其中,
所述控制部基于一定时间内的所述说话人数来控制所述第一扬声器的音量。
9.根据权利要求8所述的通讯系统,其中,
所述说话人数判定部对所述一定时间内说话的人数进行计数,作为一定时间内的所述说话人数。
10.一种机器人,与人之间执行使用了声音的通讯,其中,具备:
扬声器,其输出声音;
麦克风,其获取所述机器人的周围的声音作为声音信号;
说话人数判定部,其根据所述麦克风获取到的声音信号,来判定所述机器人的周围的说话人的人数;以及
控制部,其基于所述说话人数判定部的判定,来控制所述扬声器的音量。
11.一种音量控制的方法,是通讯系统中的音量控制的方法,所述通讯系统设置有:
第一麦克风,其获取周围的声音作为声音信号;
第一扬声器,其设置于所述第一麦克风的附近,输出声音;
第二扬声器,其从所述第一麦克风获取所述声音信号,输出所述声音信号作为声音;以及
第二麦克风,其获取周围的声音作为声音信号,对所述第一扬声器输出获取到的所述声音信号,
所述音量控制的方法包括:
根据所述第一麦克风获取到的声音信号,来判定所述第一麦克风的周围的说话人的人数的步骤;以及
基于所述判定,来控制所述第一扬声器的音量的步骤。
12.一种控制程序,是机器人的控制程序,所述机器人具备输出声音的扬声器以及获取周围的声音作为声音信号的麦克风,其中,
使机器人执行:
根据所述麦克风获取到的声音信号,来判定所述机器人的周围的说话人的人数的步骤;以及
基于所述判定,来控制所述扬声器的音量的步骤。
CN201480010701.1A 2013-03-22 2014-03-07 通讯系统以及机器人 Expired - Fee Related CN105027542B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013059420A JP5862585B2 (ja) 2013-03-22 2013-03-22 コミュニケーションシステム及びロボット
JP2013-059420 2013-03-22
PCT/JP2014/001299 WO2014147989A1 (ja) 2013-03-22 2014-03-07 コミュニケーションシステム及びロボット

Publications (2)

Publication Number Publication Date
CN105027542A true CN105027542A (zh) 2015-11-04
CN105027542B CN105027542B (zh) 2018-01-16

Family

ID=51579689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480010701.1A Expired - Fee Related CN105027542B (zh) 2013-03-22 2014-03-07 通讯系统以及机器人

Country Status (4)

Country Link
US (1) US10277185B2 (zh)
JP (1) JP5862585B2 (zh)
CN (1) CN105027542B (zh)
WO (1) WO2014147989A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105375897A (zh) * 2015-11-30 2016-03-02 北京光年无限科技有限公司 一种面向智能机器人的环境信息处理方法和装置
CN107295196A (zh) * 2017-07-24 2017-10-24 上海斐讯数据通信技术有限公司 一种智能调整移动终端输出音量的方法及系统
CN109262606A (zh) * 2017-07-18 2019-01-25 松下知识产权经营株式会社 装置、方法、程序以及机器人
CN109947008A (zh) * 2017-12-13 2019-06-28 卡西欧计算机株式会社 器件控制装置、器件控制方法及记录介质
CN114475423A (zh) * 2022-01-29 2022-05-13 奇瑞汽车股份有限公司 音频的播放控制方法、装置及计算机存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6668170B2 (ja) * 2016-06-07 2020-03-18 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理方法、およびコンピュータプログラム
US10120386B2 (en) * 2016-11-18 2018-11-06 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
CN106782519A (zh) * 2016-12-23 2017-05-31 深圳先进技术研究院 一种机器人
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
JP2019072787A (ja) * 2017-10-13 2019-05-16 シャープ株式会社 制御装置、ロボット、制御方法、および制御プログラム
JP7200492B2 (ja) * 2018-03-26 2023-01-10 カシオ計算機株式会社 機器の制御装置、機器の制御方法及びプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08318052A (ja) * 1995-05-24 1996-12-03 Ricoh Elemex Corp 不特定多数の観客の反応に対応するロボットシステム
JP2003235019A (ja) * 2002-02-07 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 通信支援装置
US20060013416A1 (en) * 2004-06-30 2006-01-19 Polycom, Inc. Stereo microphone processing for teleconferencing
JP2007060460A (ja) * 2005-08-26 2007-03-08 Yamaha Corp 遠隔会議システム
CN101271318A (zh) * 2007-03-21 2008-09-24 明基电通股份有限公司 交互式家庭娱乐机器人及相关控制方法
US20100019715A1 (en) * 2008-04-17 2010-01-28 David Bjorn Roe Mobile tele-presence system with a microphone system
US20100189275A1 (en) * 2009-01-23 2010-07-29 Markus Christoph Passenger compartment communication system
CN102172044A (zh) * 2011-04-29 2011-08-31 华为终端有限公司 音频输出的控制方法及设备
US20120092167A1 (en) * 2010-10-14 2012-04-19 Sony Corporation Apparatus and method for playing and/or generating audio content for an audience
CN102547459A (zh) * 2010-12-07 2012-07-04 宏碁股份有限公司 电视系统及其互动方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202076A (ja) * 2004-01-14 2005-07-28 Sony Corp 発話制御装置及び方並びにロボット装置
JP4822319B2 (ja) * 2005-10-27 2011-11-24 株式会社国際電気通信基礎技術研究所 コミュニケーションロボットおよびそれを用いた注意制御システム
US20070274531A1 (en) * 2006-05-24 2007-11-29 Sony Ericsson Mobile Communications Ab Sound pressure monitor
JP2008061060A (ja) * 2006-09-01 2008-03-13 Matsushita Electric Ind Co Ltd 会議システム
JP2010231688A (ja) * 2009-03-30 2010-10-14 Brother Ind Ltd 受付装置
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08318052A (ja) * 1995-05-24 1996-12-03 Ricoh Elemex Corp 不特定多数の観客の反応に対応するロボットシステム
JP2003235019A (ja) * 2002-02-07 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 通信支援装置
US20060013416A1 (en) * 2004-06-30 2006-01-19 Polycom, Inc. Stereo microphone processing for teleconferencing
JP2007060460A (ja) * 2005-08-26 2007-03-08 Yamaha Corp 遠隔会議システム
CN101271318A (zh) * 2007-03-21 2008-09-24 明基电通股份有限公司 交互式家庭娱乐机器人及相关控制方法
US20100019715A1 (en) * 2008-04-17 2010-01-28 David Bjorn Roe Mobile tele-presence system with a microphone system
US20100189275A1 (en) * 2009-01-23 2010-07-29 Markus Christoph Passenger compartment communication system
US20120092167A1 (en) * 2010-10-14 2012-04-19 Sony Corporation Apparatus and method for playing and/or generating audio content for an audience
CN102547459A (zh) * 2010-12-07 2012-07-04 宏碁股份有限公司 电视系统及其互动方法
CN102172044A (zh) * 2011-04-29 2011-08-31 华为终端有限公司 音频输出的控制方法及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105375897A (zh) * 2015-11-30 2016-03-02 北京光年无限科技有限公司 一种面向智能机器人的环境信息处理方法和装置
CN109262606A (zh) * 2017-07-18 2019-01-25 松下知识产权经营株式会社 装置、方法、程序以及机器人
CN109262606B (zh) * 2017-07-18 2023-10-27 松下知识产权经营株式会社 装置、方法、记录介质以及机器人
CN107295196A (zh) * 2017-07-24 2017-10-24 上海斐讯数据通信技术有限公司 一种智能调整移动终端输出音量的方法及系统
CN109947008A (zh) * 2017-12-13 2019-06-28 卡西欧计算机株式会社 器件控制装置、器件控制方法及记录介质
CN114475423A (zh) * 2022-01-29 2022-05-13 奇瑞汽车股份有限公司 音频的播放控制方法、装置及计算机存储介质
CN114475423B (zh) * 2022-01-29 2023-09-26 奇瑞汽车股份有限公司 音频的播放控制方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN105027542B (zh) 2018-01-16
US10277185B2 (en) 2019-04-30
JP2014186421A (ja) 2014-10-02
JP5862585B2 (ja) 2016-02-16
WO2014147989A1 (ja) 2014-09-25
US20150381132A1 (en) 2015-12-31

Similar Documents

Publication Publication Date Title
CN105027542A (zh) 通讯系统以及机器人
US10553235B2 (en) Transparent near-end user control over far-end speech enhancement processing
JP6081676B2 (ja) アクティブノイズキャンセル出力の制限
US9191740B2 (en) Method and apparatus for in-ear canal sound suppression
US9066167B2 (en) Method and device for personalized voice operated control
US20190066710A1 (en) Transparent near-end user control over far-end speech enhancement processing
US8315400B2 (en) Method and device for acoustic management control of multiple microphones
US10242695B1 (en) Acoustic echo cancellation using visual cues
US9286883B1 (en) Acoustic echo cancellation and automatic speech recognition with random noise
US9191493B2 (en) Methods and devices for updating an adaptive filter for echo cancellation
US20090016541A1 (en) Method and Device for Acoustic Management Control of Multiple Microphones
US11489966B2 (en) Method and apparatus for in-ear canal sound suppression
TWI506620B (zh) 通訊裝置及其語音處理方法
CN115804105A (zh) 用于声学透明度的系统、装置和方法
US9503815B2 (en) Perceptual echo gate approach and design for improved echo control to support higher audio and conversational quality
US11805381B2 (en) Audio-based presence detection
CN103546109A (zh) 远程多方会议音量调整系统及方法
US11856375B2 (en) Method and device for in-ear echo suppression
US7760869B2 (en) Method and apparatus for controlling the transmit volume level of a speakerphone
CN116803100A (zh) 用于具有anc的耳机的方法和系统
JP6945158B2 (ja) 通話装置、プログラム及び通話システム
US20230206936A1 (en) Audio device with audio quality detection and related methods
US20240073608A1 (en) Speakerphone with beamformer-based conference characterization and related methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180116