CN111708428A - 通信系统和用于控制通信系统的方法 - Google Patents
通信系统和用于控制通信系统的方法 Download PDFInfo
- Publication number
- CN111708428A CN111708428A CN202010118732.6A CN202010118732A CN111708428A CN 111708428 A CN111708428 A CN 111708428A CN 202010118732 A CN202010118732 A CN 202010118732A CN 111708428 A CN111708428 A CN 111708428A
- Authority
- CN
- China
- Prior art keywords
- user
- communication system
- head
- control unit
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 24
- 210000003128 head Anatomy 0.000 description 64
- 210000001508 eye Anatomy 0.000 description 22
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 7
- 210000005069 ears Anatomy 0.000 description 5
- 210000000887 face Anatomy 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
- G05B19/0426—Programming the control sequence
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/50—Constructional details
- H04N23/54—Mounting of pick-up tubes, electronic image sensors, deviation or focusing coils
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/57—Mechanical or electrical details of cameras or camera modules specially adapted for being embedded in other devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/04—Structural association of microphone with electric circuitry therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/26—Pc applications
- G05B2219/2666—Toy
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39391—Visual servoing, track end effector with camera image feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Robotics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Automation & Control Theory (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mechanical Engineering (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Studio Devices (AREA)
- Manipulator (AREA)
- Toys (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明涉及通信系统和用于控制通信系统的方法。根据本公开的通信系统包括:相机,该相机被配置成能够拍摄作为通信伙伴的用户;以及麦克风,该麦克风被配置成能够在特定方向上形成波束赋形。控制单元使用由相机拍摄的用户的图像来确定用户的嘴的位置,并且控制头部的位置使得所确定的用户的嘴的位置被包括在波束赋形的区域中。
Description
技术领域
本公开涉及通信系统和用于控制通信系统的方法。
背景技术
近年来,已经开发了与用户进行通信的通信系统。日本未经审查的专利申请公开No.2008-126329公开了与语音识别机器人有关的技术,该语音识别机器人通过识别用户的语音来执行动作。
发明内容
在日本未经审查的专利申请公开No.2008-126329中公开的语音识别机器人包括保持麦克风的保持单元。然后,使用由相机拍摄的用户的图像来确定用户的嘴的位置,并且控制保持单元的姿势,使得由语音识别机器人保持的麦克风接近用户的嘴。
然而,在日本未审查专利申请公开No.2008-126329中公开的语音识别机器人具有以下问题:因为其被配置成使得麦克风被保持单元保持,所以装置配置变得复杂。此外,在通信系统中,因为有必要与用户适当地通信,所以有必要准确地识别用户的声音。因此,存在对用于具有简单的装置配置并且能够准确地识别用户的语音的通信系统的需求。
鉴于前述问题,本公开的目的是提供一种具有简单的装置配置并且能够准确地识别用户的语音的通信系统以及用于控制该通信系统的方法。
第一示例性方面是一种通信系统,包括:本体部;头部,其被附接到本体部使得该头部能够相对于本体部位移;控制单元,其被配置成能够控制相对于本体部的头部的位置;相机,其被设置在头部中并且被配置成能够拍摄作为通信伙伴的用户;以及麦克风,其被设置在头部中并且被配置成能够以特定方向形成波束赋形。控制单元使用由相机拍摄的用户的图像来确定用户的嘴的位置,并且控制头部的位置使得所确定的用户的嘴的位置被包括在波束赋形的区域中。
在上述通信系统中,在头部设置有被配置成能够拍摄用户的相机和被配置成能够以特定方向形成波束赋形的麦克风。因此,能够省略保持麦克风的保持单元,并且从而使通信系统的装置配置简单。此外,使用作为通信伙伴的用户的图像来确定用户的嘴的位置,并且控制头部的位置使得所确定的用户的嘴的位置被包括在波束赋形的区域中。因此,能够准确地识别用户的语音。
在上述通信系统中,控制单元可以进一步被配置成能够控制设置在头部中的眼部的视线的方向。此外,当控制单元控制头部的位置时,控制单元可以控制视线的方向使得面向用户的脸的方向。
通过控制通信系统的视线的方向以使得面向如上所述的用户的脸的方向,能够防止通信系统的视线偏离用户。因此,能够给予用户通信系统正在认真地倾听他/她的一种印象。
在上述通信系统中,控制单元可以使用由相机拍摄的用户的图像来确定用户的脸的位置,并且控制视线的方向使得面用户的脸的方向。
在上述通信系统中,当控制单元控制头部的位置时,控制单元可以基于头部的移动量来控制视线的方向。
在上述通信系统中,控制单元可以使用由相机拍摄的用户的图像来计算用户的嘴的位置的坐标,并且使用所计算出的嘴的位置坐标以及麦克风和相机之间的相对位置关系来计算头部的移动量。
另一个示例性方面是一种用于控制通信系统的方法,该通信系统包括:本体部;头部,该头部被附接到本体部使得头部能够相对于本体部位移;相机,该相机被设置在头部中并且被配置成能够拍摄作为通信伙伴的用户;以及麦克风,该麦克风被设置在头部中并且被配置成能够以特定方向形成波束赋形,该方法包括:拍摄作为通信伙伴的用户;使用用户的拍摄图像来确定用户的嘴的位置;以及控制头部的位置使得用户的所确定的嘴的位置被包括在波束赋形的区域中。
在上述用于控制通信系统的方法中,使用作为通信伙伴的用户的图像来确定用户的嘴的位置,并且控制头部的位置使得所确定的用户的嘴的位置被包括在麦克风的波束赋形的区域中。因此,能够准确地识别用户的语音。
上述用于控制通信系统的方法还可以包括,当控制单元控制头部的位置时,控制视线的方向使得面向用户的脸的方向。
通过控制通信系统的视线的方向使得面向如上所述的用户的脸的方向,能够防止通信系统的视线偏离用户。因此,能够给用户通信系统正在认真地收听他/她的一种印象。
根据本公开,能够提供一种具有简单的装置配置并且能够准确地识别用户的语音的通信系统以及用于控制该通信系统的方法。
通过以下给出的详细描述和仅以图示的方式给出的附图,本公开的上述和其他目的、特征和优点将变得更加充分地理解,并且因此不应视为限制本公开。
附图说明
图1是示出根据实施例的通信系统的外观配置的示例的前视图;
图2是示出根据实施例的通信系统的外观配置的示例的侧视图;
图3是示出根据实施例的通信系统的系统配置的示例的框图;
图4是用于解释根据实施例的通信系统的操作的流程图;
图5是用于解释根据实施例的通信系统的操作的侧视图;
图6是用于解释根据实施例的通信系统的操作的侧视图;
图7是用于解释根据实施例的通信系统的操作的侧视图;
图8是用于解释根据实施例的通信系统的操作的图;
图9是用于解释根据实施例的通信系统的操作的图;以及
图10是示出根据实施例的通信系统的硬件配置的框图。
具体实施方式
在下文中,参考附图描述本公开的实施例。
图1和图2分别是前视图和侧视图,其中的每个示出根据本实施例的通信系统的外观配置的示例。如图1和图2中所示,根据本实施例的通信系统1包括头部100和本体部110。头部100被附接到本体部110,使得头部可以相对于本体部110被位移。在头部100中,设置有耳部31a和31b、眼部32a和32b以及鼻部33。在本体部110中,设置有胴体部36、臂部37a和37b以及腿部38a、38b。尽管图1和图2中的每一个示出具有模仿动物的外观的装置(机器人)作为示例,根据本实施例的通信系统的外观配置不限于此并且可以自由地决定。
麦克风12a和12b分别设置在耳部31a和31b中。通过使用麦克风12a和12b,能够拾取通信系统1周围的声音(特别是用户的语音)。在本实施例中,麦克风12a和12b中的每一个被配置成使得它能够在特定方向上形成波束赋形。例如,如图2中所示,麦克风12a被配置成使得其能够形成围绕特定方向41具有预定角度的大致圆锥形的波束赋形45。
麦克风12a和12b可以每一个独立地形成波束赋形,或者可以使用麦克风12a和12b两者来形成一个波束赋形。
例如,当麦克风12a和12b每一个独立地形成波束赋形时,在麦克风12a和12b的每一个中设置多个麦克风(例如,非定向麦克风)。然后,通过对由多个麦克风拾取的每个语音信号执行波束赋形处理,能够在麦克风12a和12b中的每一个中独立地形成在特定方向41上具有方向性的波束赋形45。
此外,例如,当使用麦克风12a和12b两者形成一个波束赋形时,能够通过使用由麦克风12a拾取的语音信号和由麦克风12b拾取的语音信号执行波束赋形处理来形成在特定方向41上具有方向性的波束赋形45。
例如,波束赋形处理可以由控制单元10执行。此外,可以通过被合并在麦克风12的麦克风阵列中的CPU来执行波束赋形处理。此外,在此实施例中,定向麦克风可以被用于麦克风12a和12b中的每一个。注意,麦克风12a和12b可以仅设置在耳部31a和31b之一中,并且可以设置在头部100的除了耳部31a和31b之外的部分(例如,前额)中。在下文中,当麦克风12a和12b在彼此没有区别的情况下被提及时,它们被简称为麦克风12。上述情况也适用于其它组件(眼部32等)。
相机11设置在鼻部33中。相机11拍摄通信系统1(特别是作为通信伙伴的用户)前方的空间。此外,鼻部33从头部100向前突出以模仿动物的鼻子。通过如上所述将相机11设置在从头部100突出的位置处,能够从相机11给出通信系统1的前面的较宽视野(即,能够执行广角拍摄)。
在根据本实施例的通信系统1中,麦克风12a和12b固定到耳部31a和31b,并且相机11固定到鼻部33。因此,即使当头部100相对于本体部110被移动时,麦克风12a和12b与相机11之间的相对位置关系保持固定。
此外,如图1中所示,眼部32a和32b被设置在头部100中。可以使用相应的显示器14a和14b形成眼部32a和32b中的每一个。即,可以通过在各自的显示器14a和14b上显示眼睛图像34a和34b来表示通信系统1的视线。可以通过改变显示器14a和14b上显示的眼睛图像34a和34b来控制通信系统1的视线方向。注意,眼睛的图像不仅可以包括眼球的图像,而且可以包括诸如眼睑、眉毛和眼泪的与眼睛有关的元素的图像。此外,显示器14a和14b可以由例如液晶面板或有机EL面板构成。
注意,除了显示器14a和14b之外,还可使用例如模拟眼睛的模型和驱动眼睛模型的伺服电机来形成眼部32a和32b。在这种情况下,可以通过使用伺服电机使眼睛的模型位移来改变通信系统1的视线方向。
接下来,参考图3中所示的框图描述根据本实施例的通信系统的系统配置。如图3中所示,根据本实施例的通信系统1包括相机11、麦克风12、驱动单元13、显示器14、扬声器15和控制单元10。
图3的框图中所示的相机11对应于设置在图1中所示的通信系统1的鼻部33中的相机11。相机11拍摄通信系统1前面的空间(具体来说,作为通信伙伴的用户)并将拍摄的图像数据提供给控制单元10。
图3的框图中所示的麦克风12对应于图1中所示的通信系统1的耳部31a和31b中设置的麦克风12a和12b。麦克风12拾取在通信系统1周围的声音(特别地,用户的声音),并将拾取的语音信号提供给控制单元10。例如,麦克风12包括多个麦克风(例如,非定向麦克风),并且控制单元10可以通过对由多个麦克风拾取的语音信号执行波束赋形处理来形成在特定方向41上具有方向性的波束赋形45(见图2)。
驱动单元13驱动头部100。具体地,驱动单元13根据从控制单元10提供的控制信号来驱动头部100。例如,驱动单元13可以驱动头部100使得头部100面向下方或上方,并且面向左侧或右侧。此外,驱动单元13可以驱动头部100,使得头部100面向倾斜方向。例如,可以使用伺服电机等配置驱动单元13。
在图3的框图中示出的显示器14对应于在图1中所示的通信系统1的眼部32a和32b中设置的显示器14a和14b。显示器14被配置成使得显示与从控制单元10提供的控制信号相对应的眼睛图像34a和34b(见图1)。即,控制单元10通过控制在各自的显示器14a和14b上显示的眼睛图像34a和34b(见图1)来控制通信系统1的视线方向。
扬声器15输出与从控制单元10提供的语音信号相对应的声音。此配置使通信系统1能够与用户(通信伙伴)进行交谈。
控制单元10执行通信系统1的各种类型的控制。具体地,控制单元10从相机11接收图像数据并且从麦克风12接收语音信号。此外,控制单元10将与头部100的移动量相对应的控制信号输出到驱动单元13。此外,控制单元10向显示器14输出用于在显示器14上显示眼睛图像的控制信号。此外,控制单元10向扬声器15输出用于从扬声器15输出语音的语音信号。
此外,在根据本实施例的通信系统1中,控制单元10使用由相机11拍摄的图像来确定用户的嘴的位置,并且控制头部100的位置使得用户的所确定的嘴的位置被包括在麦克风12的波束赋形的区域中。
具体地,如图3中所示,控制单元10包括位置确定单元21、移动量计算单元22和控制信号输出单元23。位置确定单元21使用相机11拍摄的用户的图像确定用户的嘴的位置。此时,位置确定单元21可以使用相机11拍摄的用户的图像来计算用户的嘴的位置的坐标。
当头部100的位置被移动使得用户的嘴的位置被包括在麦克风12的波束赋形的区域中时移动量计算单元22计算头部100的移动量。例如,移动量计算单元22可以使用用户的嘴的位置的坐标以及麦克风12与相机11之间的相对位置关系来计算头部100的移动量。注意,稍后将描述用于计算头部100的移动量的具体方法。
控制信号输出单元23生成与由移动量计算单元22计算出的头部100的移动量相对应的控制信号(即,驱动单元13的控制信号),并且将所生成的控制信号输出到驱动单元13。
此外,在根据本实施例的通信系统1中,控制单元10可以被配置成使得其能够控制设置在头部100中的眼部32的视线的方向。例如,当控制单元10控制头部100的位置时,控制单元10可以控制视线的方向使得面向用户的脸的方向。
此外,控制单元10可以使用由相机11拍摄的用户的图像来确定用户的脸的位置,并且控制视线的方向使得面向用户的脸的方向。此外,当控制单元10控制头部100的位置时,控制单元10可以基于头部100的移动量来控制视线的方向。
接下来,描述根据本实施例的通信系统的操作。图4是用于解释根据此实施例的通信系统的操作的流程图。图5至图7是用于解释根据此实施例的通信系统的操作的侧视图。在下面的描述中,以通信系统1放置在桌子40上并且用户50和通信系统1彼此面向的情况为例进行描述。
首先,通信系统1拍摄作为通信伙伴的用户50(图4的步骤S1)。具体地,如图5中所示,通信系统1使用设置在其鼻部33中的相机11来拍摄用户50。注意,此时,麦克风12的波束赋形的中心方向41面向用户50的嘴51的位置上方的位置。
接下来,通信系统1使用在步骤S1中拍摄的用户50的图像来确定用户50的嘴51的位置(图4中的步骤S2)。即,因为用户50在如图8中所示的拍摄图像60中,所以控制单元10的位置确定单元21(参见图3)通过对拍摄图像60执行图像处理来确定用户50的嘴51的位置。例如,位置确定单元21获得用户50的嘴51的位置的(X2,Y2)。
更具体地,位置确定单元21执行用于检测拍摄图像60上的脸的处理以确定用户50的脸。此后,位置确定单元21从所确定的用户50的脸中部分提取嘴唇。作为提取嘴唇的方法,将脸轮廓中包括的与预先存储的多个嘴唇数据基本匹配的区域的一部分识别为嘴唇,并且可以将识别出的部位提取作为脸的嘴唇。此外,位置确定单元21将如上所述提取的嘴唇轮廓的重心位置确定为嘴唇的中心点,即,用户50的嘴51的中心坐标(X2,Y2)。
接下来,通信系统1控制头部100的位置,使得用户50的所确定的嘴51的位置被包括在波束赋形的区域中(图4中的步骤S3)。即,如图6中所示,通信系统1控制其头部100的位置以使得面向下。因此,麦克风12的波束赋形的中心方向41面向用户50的嘴51的方向。因此,用户50的嘴51的位置被包括在波束赋形的区域中。
例如,控制单元10的移动量计算单元22(参见图3)通过使用用户50的嘴51的位置的坐标以及麦克风12和相机11之间的相对位置关系来计算通信系统1的头部100的移动量。
具体地,因为麦克风12和相机11被固定到头部100,所以麦克风12和相机11之间的相对位置关系被固定。因此,如图8中所示,能够通过使用通信系统1和用户50之间的距离来计算在拍摄图像60中相机的中心位置61与波束赋形的中心位置62(波束赋形的中心方向41被投射在用户50上的位置)之间的相对位置关系。
也就是说,通过使用通信系统1和用户50之间的距离能够获得相对于图8中所示相机的中心位置61(X0,Y0)的波束赋形的中心位置62(X1,Y1),因为由相机11的中心方向43和波束赋形的中心方向41形成的角度α是固定的,如图9中所示。
例如,在图9中所示的示例中,当用户50相对于通信系统1的位置是位置A1时,图8中示出的相机的中心位置61与波束赋形的中心位置62之间的距离C为C1。类似地,当用户50相对于通信系统1的位置是位置A2(参见图9)时,图8中示出的相机的中心位置61和波束赋形的中心位置62之间的距离C是C2。以这种方式,可以通过使用通信系统1与用户50之间的距离来获得相机的中心位置61与波束赋形的中心位置62之间的距离C。
应注意,可以使用用户50的脸的拍摄图像的大小来估计通信系统1与用户50之间的距离,或者可以使用诸如距离传感器或三维位置测量传感器的传感器分别测量通信系统1与用户50之间的距离。当使用用户的脸的图像的尺寸来估计通信系统1与用户50之间的距离时,用户的脸的图像的尺寸与相机图像上的平均脸尺寸之间的相关数据和通信系统1与用户50之间的距离被预先输入。然后,可以基于由相机11拍摄的相机图像上的用户脸的图像的尺寸和预先输入的相关数据来估计到用户的距离。
注意,当相机11的中心方向和波束赋形的中心方向41彼此平行时,相机的中心位置61和图像60中的波束赋形的中心位置62之间的相对位置关系变得恒定。
如图8中所示,相机的中心位置61的坐标为(X0,Y0)、波束赋形的中心位置62的坐标为(X1,Y1),并且用户50的嘴51的位置的中心坐标为(X2,Y2)。因此,在这种情况下,通信系统1的头部100的移动量D为(X2-X1,Y2-Y1)。
通过使用这种方法,控制单元10的移动量计算单元22(参见图3)可以计算通信系统1的头部100的移动量D。此外,控制信号输出单元23生成与由移动量计算单元22计算出的头部100的移动量D相对应的控制信号(即,驱动单元13的控制信号),并将该控制信号输出到驱动单元13。然后,根据此控制信号驱动驱动部13,使得头部100被移动了移动量D。
注意,在以上描述中,已经解释其中控制麦克风12的波束赋形的中心方向41使得面向用户50的嘴51的方向的情况。然而,在此实施例中,如果用户50的嘴51被包括在波束赋形的区域中,则波束赋形的中心方向41不必必须面向用户50的嘴51的方向。
即,在图8中,具有图2中所示的大致圆锥形状的波束赋形45的底面48以波束赋形的中心位置62为中心具有大致圆形的形状(通过将具有大致圆锥形状的波束赋形45投射在用户50上而得到的形状)。因此,在本实施例中,如果用户50的嘴51的位置被包括在波束赋形的底表面48中,则不必必须执行控制使得波束赋形的中心方向41与用户50的嘴51的位置一致。
接下来,通信系统1控制其视线的方向使得面向用户50的脸的方向(图4中的步骤S4)。如图6中所示,当移动通信系统1的头部100使得麦克风12的波束赋形的中心方向41面向用户50的嘴51的方向时,随着头部100的此移动来移动通信系统1的视线的方向42。结果,通信系统1的视线的方向42偏离用户50的脸。
如上所述,如果通信系统1的视线的方向42偏离用户50的脸,则可以给予用户50通信系统1没有倾听他/她的印象。在此实施例中,如图7中所示,通过控制视线的方向42使得其面向用户50的脸方向(例如,眼睛的位置),可以防止给予用户50通信系统1没有倾听用户50的印象。换句话说,可以给予用户50通信系统1正在认真地倾听他/她的印象。
例如,控制单元10可以使用由相机11拍摄的用户的图像来确定用户的脸的位置,并且控制视线的方向使得面向用户脸的方向。具体地,如图8中所示,控制单元10通过对拍摄的图像60执行图像处理来确定用户50的脸的位置。例如,控制单元可以通过对拍摄的图像60执行图像处理来确定用户50的双眼的位置,并且可以将双眼的中心的位置用作目标位置。控制单元10在显示器14上显示眼睛图像34,使得通信系统1的视线方向面向目标位置。
此外,当控制单元控制头部100的位置时,控制单元10可以基于头部100的移动量来控制视线的方向。具体地,在图5中所示的初始状态下事先对用户调整通信系统1的视线的方向的情况下,当移动通信系统1的头部100时,通信系统的视线的方向42也如图6中所示被移动。视线的方向42上的该移动量对应于图8中所示的头部100的移动量D。因此,控制单元10可以通过使用头部100的移动量D来调整向用户50的视线的方向42。即,控制单元10执行用于使视线向上返回了头部100的移动量D的处理。
此外,当控制单元10控制头部100的位置时,控制单元10可以通过使用由相机11拍摄的用户的图像并结合头部100的移动量来控制视线的方向。
注意,步骤S4中的处理(用于控制视线方向的处理)可以与步骤S3中的处理(用于控制头部100的位置的处理)同时进行。通过同时执行如上所述的头部100的位置控制(步骤S3)和视线的方向的控制(步骤S4),能够实现通信系统1的自然操作。
此外,可以适当地省略步骤S4中的处理(用于控制视线的方向的处理)。例如,即使在步骤S3中的处理(用于控制头部100的位置的处理)中没有移动通信系统1的视线当用户没有感到陌生感时,诸如当头部100的移动量比较小时,可以省略步骤S4中的处理。
如上所述,在根据本实施例的通信系统1中,被配置成能够拍摄作为通信伙伴的用户的相机11和被配置成能够在特定情况下形成波束赋形的麦克风12被设置在通信系统1的头部100中。因此,可以省略保持麦克风的保持单元,并且从而使通信系统1的装置配置简单。
此外,在根据本实施例的通信系统1中,拍摄作为通信伙伴的用户,并且使用用户的拍摄图像来确定用户的嘴的位置。然后,控制头部的位置,使得所确定的用户的嘴的位置被包括在麦克风12的波束赋形的区域中。在此实施例中,用户的嘴的位置被包括在如上所述的麦克风12的波束赋形区域中,并且因此能够准确地识别用户的声音。
因此,根据本实施例的公开,能够提供一种具有简单的装置配置并且能够准确地识别用户的语音的通信系统,以及用于控制该通信系统的方法。
此外,在根据本实施例的通信系统1中,视线的方向被控制使得面向用户的脸的方向。因此,当头部100的位置移动时,能够防止通信系统1的视线偏离用户的脸。因此,可以给予用户50其中通信系统1正在收听他/她的印象(亲密感)。
注意,在参考图5至图8描述的通信系统1的操作中,已经描述通信系统1面向下的操作作为示例。然而,在本实施例中,通信系统1可以被配置成使得其头部100面向上、面向左或面向右,并且进一步面向倾斜方向。
此外,在本实施例中,通信系统1可以被配置成使得当其移动头部100时,其也移动臂部37a和37b。例如,如图6和7中所示,当通信系统1使头部100向下转动时,通信系统1可以使臂部37a和37b向上移动,使得臂部37a和37b的尖端接近耳部31a和31b。通过这样做,能够使通信系统1做出指示其正在认真地收听用户的姿势。
此外,例如,当用户的语音的音量低于预定音量时,能够通过使通信系统1执行臂部37a和37b的尖端接近耳部31a和31b的操作来通知用户:用户的语音是安静的。
以上描述作为示例示出其中相机11被设置在通信系统1的鼻部33中并且麦克风12a和12b设置在其耳部31a和31b中的配置。然而,在本实施例中,设置相机11和麦克风12的位置不限于上述位置,并且相机11和麦克风12可以被附接到任何位置。本公开尤其可以适合用于小型通信系统(机器人)。因此,优选地,相机11和麦克风12布置在彼此靠近的位置。
此外,在以上描述中,已经描述不独立行走的通信系统1。然而,在此实施例中,通信系统1可以被配置成使得其可以独立地移动。
图10是示出根据此实施例的通信系统的硬件配置的框图。根据此实施例的通信系统1的控制单元10包括处理器71和存储器72。此外,由处理器71执行存储在存储器72中的程序(即,能够实现控制单元10的操作的程序),使得能够实现控制单元10的上述操作。注意,在图10中,省略控制单元10以外的组件。
此外,在根据此实施例的通信系统中,控制单元10的一部分操作可以在服务器80(例如,云服务器)中执行。服务器80包括处理器81和存储器82。此外,由处理器81执行存储在存储器82中的程序(即,能够执行控制单元10的操作的程序),使得可以在服务器80中执行控制单元10的操作的一部分。通信系统1通过网络线连接到服务器80。
例如,控制单元10的操作当中的位置确定单元21(参见图3)的操作可以在服务器80中执行。即,在服务器80中可以执行用于使用被拍摄的用户的图像来确定用户的嘴的位置的处理。在这种情况下,通信系统1将相机11拍摄的图像发送到服务器80。此时,通信系统1可以从拍摄的图像中切出背景图像并且将其发送到服务器80,以便于减少将要发送的数据的容量(即,通信系统1可以仅将显示用户的图像的部分发送到服务器80)。
然后,服务器80对接收到的图像执行图像处理,并确定用户的嘴的位置。此后,服务器80将关于所确定的嘴的位置的信息(嘴的位置的坐标)发送到通信系统1。通信系统1的控制单元10执行用于通过使用关于嘴的位置的接收到的信息来计算移动量的处理。随后的操作与上述通信系统1的操作相同,并且因此省略重复的描述。
此外,服务器80可以通过网络线连接到多个通信系统1。通过这样的配置,可以使用公共服务器80来控制(管理)多个通信系统1。
可以使用任何类型的非暂时性计算机可读介质来存储程序并将其提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁存储介质(诸如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如,磁光盘)、CD-ROM(光盘只读存储器)、CD-R(可刻录光盘)、CD-R/W(可擦写光盘)和半导体存储器(诸如掩模ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪存ROM、RAM(随机存取存储器)等)。可以使用任何类型的瞬态计算机可读介质将程序提供给计算机。瞬态计算机可读介质的示例包括电信号、光信号和电磁波。瞬态计算机可读介质可以经由有线通信线(例如,电线和光纤)或无线通信线来将程序提供给计算机。
根据这样描述的公开,将会显然的是,可以以许多方式改变本公开的实施例。这样的变化不应被认为是背离本公开的精神和范围,并且对于本领域的技术人员来说显而易见的所有这样的修改旨在包括在所附权利要求的范围内。
Claims (7)
1.一种通信系统,包括:
本体部;
头部,所述头部被附接到所述本体部,使得所述头部能够相对于所述本体部被位移;
控制单元,所述控制单元被配置成能够控制相对于所述本体部的所述头部的位置;
相机,所述相机被设置在所述头部中并且被配置成能够拍摄作为通信伙伴的用户;以及
麦克风,所述麦克风被设置在所述头部中并且被配置成能够以特定方向形成波束赋形,
其中,
所述控制单元使用由所述相机拍摄的所述用户的图像来确定所述用户的嘴的位置,并且控制所述头部的位置使得所确定的所述用户的嘴的位置被包括在所述波束赋形的区域中。
2.根据权利要求1的通信系统,其中,
所述控制单元还被配置成能够控制在所述头部中所设置的眼部的视线的方向,以及
当所述控制单元控制所述头部的位置时,所述控制单元控制所述视线的方向使得面向所述用户的脸的方向。
3.根据权利要求2所述的通信系统,其中,
所述控制单元使用由所述相机拍摄的所述用户的图像来确定所述用户的脸的位置,并且控制所述视线的方向以面向所述用户的脸的方向。
4.根据权利要求2或3所述的通信系统,其中,
当所述控制单元控制所述头部的位置时,所述控制单元基于所述头部的移动量来控制所述视线的方向。
5.根据权利要求1至4中的任意一项所述的通信系统,其中,
所述控制单元:
使用由所述相机拍摄的所述用户的图像,来计算所述用户的嘴的位置的坐标;并且
使用所计算的所述嘴的位置的坐标以及所述麦克风与所述相机之间的相对位置关系,来计算所述头部的所述移动量。
6.一种用于控制通信系统的方法,所述通信系统包括:
本体部;
头部,所述头部被附接到所述本体部使得所述头部能够相对于所述本体部而被位移;
相机,所述相机被设置在所述头部中并且被配置成能够拍摄作为通信伙伴的用户;以及
麦克风,所述麦克风被设置在所述头部中并且被配置成能够以特定方向形成波束赋形,
所述方法包括:
拍摄作为通信伙伴的用户;
使用所述用户的所拍摄的图像来确定所述用户的嘴的位置;以及
控制所述头部的位置,使得所确定的所述用户的嘴的位置被包括在所述波束赋形的区域中。
7.根据权利要求6所述的用于控制通信系统的方法,还包括:
当所述控制单元控制所述头部的位置时,控制所述视线的方向使得面向所述用户的脸的方向。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-049961 | 2019-03-18 | ||
JP2019049961A JP7180470B2 (ja) | 2019-03-18 | 2019-03-18 | コミュニケーションシステム、及びコミュニケーションシステムの制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708428A true CN111708428A (zh) | 2020-09-25 |
CN111708428B CN111708428B (zh) | 2023-08-15 |
Family
ID=72516016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010118732.6A Active CN111708428B (zh) | 2019-03-18 | 2020-02-26 | 通信系统和用于控制通信系统的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11491660B2 (zh) |
JP (1) | JP7180470B2 (zh) |
CN (1) | CN111708428B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4142994A1 (en) * | 2021-07-12 | 2023-03-08 | Google LLC | Robot appendage actuation |
US20240335942A1 (en) * | 2023-04-05 | 2024-10-10 | Sony Interactive Entertainment Inc. | Reproducing fast eye movement using imaging of robot with limited actuator speed |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101300839A (zh) * | 2005-06-03 | 2008-11-05 | 法国电信公司 | 控制视线移动的方法和装置、视频会议系统、终端以及一种实现所述方法的程序 |
CN105812969A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 一种拾取声音信号的方法、系统及装置 |
CN105975930A (zh) * | 2016-05-04 | 2016-09-28 | 南靖万利达科技有限公司 | 一种机器人语音定位过程的摄像头角度校准方法 |
CN106863320A (zh) * | 2017-01-18 | 2017-06-20 | 北京光年无限科技有限公司 | 一种用于智能机器人的语音交互数据获取方法及装置 |
US20180374494A1 (en) * | 2017-06-23 | 2018-12-27 | Casio Computer Co., Ltd. | Sound source separation information detecting device capable of separating signal voice from noise voice, robot, sound source separation information detecting method, and storage medium therefor |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003066986A (ja) * | 2001-08-23 | 2003-03-05 | Sharp Corp | 音声認識ロボット |
JP5186723B2 (ja) * | 2006-01-05 | 2013-04-24 | 株式会社国際電気通信基礎技術研究所 | コミュニケーションロボットシステムおよびコミュニケーションロボットの視線制御方法 |
JP2007221300A (ja) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ロボット及びロボットの制御方法 |
JP2008087140A (ja) * | 2006-10-05 | 2008-04-17 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
JP2008126329A (ja) | 2006-11-17 | 2008-06-05 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
JP6874437B2 (ja) * | 2017-03-13 | 2021-05-19 | 大日本印刷株式会社 | コミュニケーションロボット、プログラム及びシステム |
US20190028817A1 (en) * | 2017-07-20 | 2019-01-24 | Wizedsp Ltd. | System and method for a directional speaker selection |
-
2019
- 2019-03-18 JP JP2019049961A patent/JP7180470B2/ja active Active
-
2020
- 2020-02-26 CN CN202010118732.6A patent/CN111708428B/zh active Active
- 2020-03-16 US US16/819,683 patent/US11491660B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101300839A (zh) * | 2005-06-03 | 2008-11-05 | 法国电信公司 | 控制视线移动的方法和装置、视频会议系统、终端以及一种实现所述方法的程序 |
CN105812969A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 一种拾取声音信号的方法、系统及装置 |
CN105975930A (zh) * | 2016-05-04 | 2016-09-28 | 南靖万利达科技有限公司 | 一种机器人语音定位过程的摄像头角度校准方法 |
CN106863320A (zh) * | 2017-01-18 | 2017-06-20 | 北京光年无限科技有限公司 | 一种用于智能机器人的语音交互数据获取方法及装置 |
US20180374494A1 (en) * | 2017-06-23 | 2018-12-27 | Casio Computer Co., Ltd. | Sound source separation information detecting device capable of separating signal voice from noise voice, robot, sound source separation information detecting method, and storage medium therefor |
Also Published As
Publication number | Publication date |
---|---|
US20200298412A1 (en) | 2020-09-24 |
US11491660B2 (en) | 2022-11-08 |
JP7180470B2 (ja) | 2022-11-30 |
JP2020151012A (ja) | 2020-09-24 |
CN111708428B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7307119B2 (ja) | 完全な顔画像の眼球周囲およびオーディオ合成 | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
KR101590331B1 (ko) | 이동 가능한 디스플레이 장치와 이를 구비한 로봇 및 그 디스플레이 방법 | |
KR102463806B1 (ko) | 이동이 가능한 전자 장치 및 그 동작 방법 | |
US10576633B2 (en) | Communication device | |
US20130086674A1 (en) | Multi-frame depth image information identification | |
US11234092B2 (en) | Remote inference of sound frequencies for determination of head-related transfer functions for a user of a headset | |
WO2020210084A1 (en) | Acoustic transfer function personalization using sound scene analysis and beamforming | |
CN111708428B (zh) | 通信系统和用于控制通信系统的方法 | |
JPWO2017213070A1 (ja) | 情報処理装置および方法、並びに記録媒体 | |
US10649460B2 (en) | Interactive robots positionable for optimal interactions | |
JP2023514462A (ja) | 眼鏡フレーム内に一体化可能な補聴システム | |
JP2020155944A (ja) | 発話者検出システム、発話者検出方法及びプログラム | |
JP2017092509A (ja) | テレプレゼンス・ロボットに用いる制御シグナルを発生させるための方法、テレプレゼンス・システムおよびコンピュータ・プログラム | |
US11586281B2 (en) | Method, computer program and head mountable arrangement for assisting a subject to acquire spatial information about an environment | |
KR20230112688A (ko) | 마이크로폰 빔 스티어링이 있는 머리-착용형 컴퓨팅 장치 | |
Bellotto | A multimodal smartphone interface for active perception by visually impaired | |
US20200101630A1 (en) | Image processing device, robot, image processing method, and recording medium | |
US11188811B2 (en) | Communication apparatus | |
CN110730378A (zh) | 一种信息处理方法及系统 | |
JP7133840B2 (ja) | ロボット、ロボット制御プログラムおよびロボット制御方法 | |
US20240219562A1 (en) | Tracking facial expressions using ultrasound and millimeter waves | |
WO2021131950A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2021166717A1 (ja) | 表示制御装置、表示制御方法及び記録媒体 | |
JP2016162164A (ja) | 操作装置および操作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |