JP2020121375A - 制御装置、制御対象装置、制御方法及びプログラム - Google Patents

制御装置、制御対象装置、制御方法及びプログラム Download PDF

Info

Publication number
JP2020121375A
JP2020121375A JP2019014743A JP2019014743A JP2020121375A JP 2020121375 A JP2020121375 A JP 2020121375A JP 2019014743 A JP2019014743 A JP 2019014743A JP 2019014743 A JP2019014743 A JP 2019014743A JP 2020121375 A JP2020121375 A JP 2020121375A
Authority
JP
Japan
Prior art keywords
voice
quiet
unit
control
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019014743A
Other languages
English (en)
Other versions
JP2020121375A5 (ja
Inventor
学 永尾
Manabu Nagao
学 永尾
厚太 鍋嶌
Kota Nabeshima
厚太 鍋嶌
裕也 海野
Yuya Unno
裕也 海野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Priority to JP2019014743A priority Critical patent/JP2020121375A/ja
Priority to PCT/JP2019/049803 priority patent/WO2020158231A1/ja
Publication of JP2020121375A publication Critical patent/JP2020121375A/ja
Priority to US17/443,548 priority patent/US20210354300A1/en
Publication of JP2020121375A5 publication Critical patent/JP2020121375A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0426Programming the control sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/23Pc programming
    • G05B2219/23181Use of sound, acoustic, voice
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/23Pc programming
    • G05B2219/23386Voice, vocal command or message
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Manipulator (AREA)

Abstract

【課題】音声のパラ言語情報によって制御対象装置の作動を調整する技術を提供することである。【解決手段】本開示の一態様は、音声を取得する音声取得部と、前記音声を認識する音声認識部と、前記音声が静穏声であるか否かを判定する声判定部と、前記音声の認識結果に応じて、制御対象装置の可動部を制御する作動制御部と、を備え、前記作動制御部は、前記声判定部の判定結果が静穏声である場合の前記制御対象装置の可動部が発する音の音圧レベルが、前記声判定部の判定結果が静穏声でない場合の前記制御対象装置の可動部が発する音の音圧レベルより小さくなるように、前記制御対象装置を制御する、制御装置に関する。【選択図】図3

Description

本開示は、制御装置、制御対象装置、制御方法及びプログラムに関する。
可動部を備える装置(例えば、ロボット装置)の制御を音声に含まれる言語的な情報で行う方法は広く知られている。また、声の音量やピッチと言語的な情報との組み合わせで、制御対象装置の作動パターンを選択する方法も知られている。しかし、制御対象装置の可動部が発する音に着目した制御は行われていなかった。
特開平06−175689号公報
本開示の課題は、制御対象装置の可動部が発する音を制御する技術を提供することである。
上記課題を解決するため、本開示の一態様は、音声を取得する音声取得部と、前記音声を認識する音声認識部と、前記音声が静穏声であるか否かを判定する声判定部と、前記音声の認識結果に応じて、制御対象装置の可動部を制御する作動制御部と、を備え、前記作動制御部は、前記声判定部の判定結果が静穏声である場合の前記制御対象装置の可動部が発する音の音圧レベルが、前記声判定部の判定結果が静穏声でない場合の前記制御対象装置の可動部が発する音の音圧レベルより小さくなるように、前記制御対象装置を制御する、制御装置に関する。
本開示の一実施例によるロボット装置を示す概略図である。 本開示の一実施例によるロボット装置のハードウェア構成を示すブロック図である。 本開示の一実施例による制御装置の機能構成を示すブロック図である。 本開示の一実施例による通常作動速度及び静穏作動速度の可動部の作動速度を規定するテーブルである。 本開示の一実施例による通常作動モード及び静穏作動モードの可動部の作動速度パターンを示す図である。 本開示の他の実施例による制御装置の機能構成を示すブロック図である。 本開示の一実施例によるロボット装置の制御処理を示すフローチャートである。 本開示の他の実施例によるロボット装置を示す概略図である。 本開示の一実施例による可動部の優先順位を示す図である。 本開示の一実施例による可動部の作動速度の制御処理を示すフローチャートである。 本開示の他の実施例によるロボット装置の制御処理を示すフローチャートである。 本開示の他の実施例によるロボット装置を示す概略図である。 本開示の一実施例による制御装置のハードウェア構成を示すブロック図である。
以下、図面に基づいて本発明の実施の形態を説明する。以下の実施例では、ロボット装置などの装置を制御するための制御装置が開示される。
[本開示の概略]
本開示を概略すると、制御装置は、ユーザによって発声された音声から抽出されたパラ言語情報に基づいて、制御対象装置(例えば、ロボット装置など)の可動部(例えば、関節部、エンドエフェクタなど)の作動速度を調整する。典型的には、制御装置は、制御対象装置内に内蔵されるか、あるいは、制御対象装置の外部にあって、制御対象装置に通信接続される。本発明の実施の形態において、パラ言語情報とは、声の大きさや高さ、話す速度、発声(phonation)の型などを指す。発声の型には、例えば、ささやき声(Whisper voice)や息もれ声(Breathy voice)が含まれる。また、声の大きさが小さい声、又は、ささやき声である声を、静穏声と呼ぶこととする。ここで、小さい声とは、制御対象装置の集音手段(例えば、マイクロフォンなど)とユーザとの間の距離に応じた減衰を除いたパワーが所定の閾値以下の発声として定義され、ささやき声とは、声帯を振動させない発声として定義されうる。同様に、声の大きさが大きい声、又は、怒鳴り声である声を、騒然声と呼ぶこととする。
例えば、ユーザが静穏声によりロボット装置に所望の動作を指示した場合、制御装置は、ユーザが発声した音声が静穏声であると判断し、ロボット装置を静穏に動作させるため、ロボット装置の可動部を通常動作時より低速で作動させる。
逆に、ユーザが騒然声によりロボット装置に所望の動作を指示した場合、制御装置は、ユーザが発声した音声が騒然声であると判断し、ロボット装置の可動部を通常動作時より高速で作動させる。
このようにして、本開示の制御装置によると、ユーザが発したパラ言語情報に対応してロボット装置などの制御対象装置の動作を制御することが可能になる。
[ロボット装置]
まず、図1及び2を参照して、本開示の一実施例によるロボット装置を説明する。図1は、本開示の一実施例によるロボット装置を示す概略図である。
図1に示されるように、本開示の一実施例によるロボット装置10は、ユーザからの音声指示によって物体を移動することが可能であり、本実施例では、当該ロボット装置10の動作を制御する制御装置100は、ロボット装置10の内部に搭載される。具体的には、ロボット装置10は、ユーザからの音声指示に従って複数の関節41〜44及びエンドエフェクタ45(以降、可動要素として総称される)を利用して物体を把持し、把持した物体を指示された移動先に移動する。なお、本明細書を通じて、本開示によるロボット装置10は、開示される特定の構成に限定されず、可動部又は可動要素を含む任意の装置であってもよい。
ここで、ロボット装置10は、例えば、図2に示されるように、マイクロフォン20、カメラ30、可動部40及び制御装置100を有する。
マイクロフォン20は、集音装置として機能し、ロボット装置10の周囲の環境音を収集すると共に、ユーザから発声された音声を収集する。マイクロフォン20は、収集した音声データを制御装置100に送信する。なお、本開示によるロボット装置10は、マイクロフォン20に限定されず、他のタイプの集音装置を備えてもよい。また、図示された実施例では、1つのマイクロフォン20しか示されていないが、本開示によるロボット装置10は、音源定位や音源分離等のためのアレイ信号処理を実行するためなど、複数の集音装置を備えてもよい。あるいは、ロボット装置10は、集音装置を備えることなく、他の装置によって取得された音声データ又は他のデータを取得するようにしてもよい。
カメラ30は、撮像装置として機能し、ロボット装置10の周囲を撮像し、撮像した画像データを制御装置100に送信する。なお、本開示によるロボット装置10は、カメラ30に限定されず、他のタイプの撮像装置を備えてもよいし、あるいは、撮像装置を備えることなく、他の装置によって取得された画像データ又は他のデータを取得するようにしてもよい。
可動部40は、関節41〜44及びエンドエフェクタ45などの可動要素を含み、関節41〜44及びエンドエフェクタ45はそれぞれ、制御装置100による制御下で各々を作動させるアクチュエータを備える。一般に、各可動要素を作動させると、当該作動に伴って作動音が発生する。作動音は、典型的には、アクチュエータ自体から発せられる音、可動要素以外のパーツ、ケーブル、外装などが動くことによって発生する音、エンドエフェクタ45が対象物を把持する際に対象物と接触することによって生じる音などがある。
制御装置100は、ロボット装置10を制御し、具体的には、以降において詳述されるように、マイクロフォン20、カメラ30及び可動部40などの各構成要素を制御する。具体的には、制御装置100は、マイクロフォン20によって収集されたユーザからの音声指示を受信すると、カメラ30によって撮像されたロボット装置10の周囲の環境状態(例えば、ロボット装置10の周囲にある物体などを示す画像データなど)を示す情報を取得し、取得した環境状態及び音声指示に基づき可動部40の行動計画を決定し、決定した行動計画に従って可動部40を制御する。本実施例による制御装置100は更に、以降で詳述されるように、取得したユーザの音声指示が静穏声であるか否かを判定し、判定結果に応じて可動部40の作動速度を調整する。
なお、本開示によるロボット装置10は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。
[第1実施例]
次に、図3〜7を参照して、本開示の第1実施例による制御装置を説明する。以下の実施例では、ロボット装置10による物体の移動処理に着目して説明する。ただし、本開示による制御装置100によって制御されるロボット装置10の処理はこれに限定されるものでない。また、本開示による制御装置100の制御処理は、ロボット装置10の用途に応じた他の処理に適用可能であることは当業者に理解されるであろう。
図3は、本開示の一実施例による制御装置100の機能構成を示すブロック図である。図3に示されるように、制御装置100は、音声取得部110、音声認識部120、声判定部130及び作動制御部140を有する。
音声取得部110は、音声を取得する。具体的には、音声取得部110は、マイクロフォン20などの集音装置によって収集された音声、メモリに記憶されている音声、通信接続を介し送信された音声などを取得する。
音声認識部120は、取得した音声を認識する。具体的には、音声認識部120は、音声取得部110によって取得された音声から、ユーザからの音声指示を示す音声データを抽出し、抽出した音声データに対して音声認識処理を実行する。当該音声認識処理は、例えば、音声指示をテキストデータに変換する周知の音声認識技術を利用して実行されてもよい。音声認識部120は、音声データから取得された認識結果(例えば、テキスト指示、文字列、音声特徴ベクトル、音声特徴ベクトル列など)を作動制御部140に送信する。
声判定部130は、音声が静穏声であるか否かを判定する。本開示による静穏声とは、ささやき声と小さい声との少なくとも1つであり、声判定部130は、音声取得部110によって取得されたユーザからの音声指示がささやき声又は小さい声によるものであるか否かを判定する。ここで、ささやき声とは、声帯を振動させない発声として定義され、ささやき声の検出は、例えば、G. Nisha et al., "Robust Whisper Activity Detection Using Long-Term Log Energy Variation of Sub-Band Signal," IEEE SIGNAL PROCESSING LETTERS, VOL. 22, NO. 11, 2015に開示される既存の検出手法、ピッチの抽出結果を用いた検出手法などによって実現されうる。また、小さい声とは、マイクロフォン20とユーザとの間の距離に応じた減衰を除いたパワーが所定の閾値以下の発声として定義されうる。なお、マイクロフォン20とユーザとの距離が大きく変わらないと想定できる場合は、減衰を考慮しなくてもよい。つまり、マイクロフォン20で測定された音声のパワーが所定の閾値以下となる発声を小さい声としてもよい。声判定部130は、判定結果を作動制御部140に送信する。
作動制御部140は、音声の認識結果に応じて、ロボット装置10の可動部40を制御し、声判定部130の判定結果が静穏声である場合のロボット装置10の可動部40が発する音の音圧レベルが、声判定部130の判定結果が静穏声でない場合のロボット装置10の可動部40が発する音の音圧レベルより小さくなるように、ロボット装置10を制御する。具体的には、作動制御部140は、音声が静穏声であるか否かに応じた作動速度によって、ロボット装置10の可動部40を認識結果に従って作動させ、声判定部130の判定結果が静穏声である場合のロボット装置10の可動部40の作動速度が、声判定部130の判定結果が静穏声でない場合のロボット装置10の可動部40の作動速度より小さくなるように、ロボット装置10を制御する。
例えば、作動制御部140は、声判定部130によってユーザからの音声指示が静穏声によるものでないと判定された場合には、ロボット装置10を通常作動モードに設定する。通常作動モードとは、可動部40の作動速度(例えば、作動速度の最大値)が通常作動速度に設定されているモードのことである。他方、作動制御部140は、声判定部130によってユーザからの音声指示が静穏声によるものであると判定された場合には、ロボット装置10を静穏作動モードに設定する。静穏作動モードとは、可動部40の作動速度(例えば、作動速度の最大値)が通常作動速度より低い静穏作動速度に設定されているモードのことである。
また、例えば、作動制御部140は、図4に示されるような可動部40の通常作動速度及び静穏作動速度を規定した作動速度テーブルを予め保持し、当該作動速度テーブルに従って可動部40の作動速度又はその最大値を設定してもよい。この場合、作動モードを変える操作は、作動速度テーブル内で参照箇所を変える操作に相当する。また、作動速度の調整は、作動速度の最大値を設定することに限定されず、例えば、図5に示されるように、作動速度パターンが調整されてもよい。すなわち、通常作動速度パターンは、図示されるように一定の最大速度によって制限されてもよいし、あるいは、図示されるように作動速度パターンを全体的に低速化することによって調整されてもよい。
作動制御部140は、このようにして設定された作動速度の最大値と音声認識結果とに基づき可動部40の作動計画を決定し、決定した作動計画に従って可動部40を作動させる。
他の実施例では、図6に示されるように、制御装置100は更に、画像を取得する画像取得部150を有してもよい。具体的には、画像取得部150は、カメラ30などの撮像装置によって収集された画像、メモリに記憶されている画像、通信接続を介し送信された画像などを取得する。例えば、ロボット装置10に物体移動処理を実行させる場合、作動制御部140は、音声認識部120から取得したテキスト指示などの音声認識結果に基づき移動対象の物体名及び移動先を特定すると共に、画像取得部150から取得した画像に基づき物理空間上における移動対象の物体及び移動先を決定してもよい。そして、作動制御部140は、設定された作動速度によって移動対象の物体を移動元から移動先に移動させるための作動計画を決定し、決定した作動計画に従って可動部40を作動させることによって、移動対象の物体を移動元から移動先に移動する。
また、更なる他の実施例では、図6に示されるように、制御装置100は更に、取得した画像を認識する画像認識部160を有してもよい。具体的には、画像認識部160は、画像取得部150によって取得された画像に対して画像認識処理を実行する。当該画像認識処理は、例えば、SSD (Single Shot Multibox Detector)など、ロボット装置10の周囲にある物体を検出し、検出した物体の名前、位置などを予測する何れか周知の画像認識技術を利用して実行されてもよい。画像認識部160は、画像から取得された画像認識結果(例えば、物体の名前、位置など)を作動制御部140に送信する。
上述したロボット装置10による物体の移動処理のための制御装置100による制御処理は、例えば、図7に示されるような処理フローに従って実行されうる。図7は、本開示の一実施例によるロボット装置の制御処理を示すフローチャートである。当該制御処理は、例えば、制御装置100が、ユーザからの音声指示を検出したことに応答して開始されうる。なお、図示された実施例では、移動対象の物体の検出に画像取得認識処理が利用されているが、画像取得認識処理は、上述したように、本開示の制御処理に対して必ずしも必須ではない。例えば、産業用機械などで一定の動作をすることが決まっている場合、画像及び画像認識結果を必要とすることなく、音声認識結果に応じて作動制御を実現することも可能である。
図7に示されるように、ステップS101において、音声取得部110は音声データを取得する。具体的には、音声取得部110は、ユーザからの音声指示を示す音声データをマイクロフォン20から取得する。また、制御装置100が画像取得部150を有する場合、画像取得部150は、ロボット装置10の周囲を示す画像データをカメラ30から取得してもよい。
ステップS102において、音声認識部120は、取得した音声データに対して音声認識処理を実行する。具体的には、音声認識部120は、取得した音声データに対して音声認識処理を実行し、音声指示をテキスト指示に変換する。また、制御装置100が画像認識部160を有する場合、画像認識部160は、取得した画像データに対して画像認識処理を実行し、ロボット装置10の周囲にある各物体の位置を検出する。物体名を検出するよう構成しても良い。
ステップS103において、声判定部130は、取得したユーザの音声指示が静穏声であるか、すなわち、ささやき声又は小さい声であるか判断する。ユーザの音声指示が静穏声でなく、通常発声であった場合(S103:NO)、ステップS104において、作動制御部140は、可動部40の作動速度として通常作動速度を適用する。他方、ユーザの音声指示が静穏声であった場合(S103:YES)、ステップS105において、作動制御部140は、可動部40の作動速度として通常作動速度より低速な静穏作動速度を適用する。
ステップS106において、作動制御部140は、適用された作動速度及び認識結果に対応する作動計画を決定し、決定した作動計画に従って可動部40を制御する。具体的には、作動制御部140は、音声認識された音声指示を実行するための作動計画を決定し、決定した作動計画に従って適用された作動速度によって可動部40を作動させる。また、制御装置100が画像取得部150を有する場合、作動制御部140は、取得した画像データに基づき、音声認識された音声指示を実行するための作動計画を決定し、決定した作動計画に従って適用された作動速度によって可動部40を作動させてもよい。また、制御装置100が画像認識部160を有する場合、作動制御部140は、画像認識結果に基づき、音声認識された音声指示を実行するための作動計画を決定し、決定した作動計画に従って適用された作動速度によって可動部40を作動させてもよい。
なお、可動部40の作動速度は、上述した通常作動速度と静穏作動速度との2つの離散値に限定されず、3つ以上の離散的又は連続的な作動速度が設定されてもよい。例えば、静穏度合いに応じて、ロボット装置10に3つ以上の段階の作動モードが設定され、各段階に対応する作動速度が設定されてもよい。あるいは、離散的な作動モードでなく、静穏度合いの数値に対応した連続的な作動速度が設定されてもよい。また、信頼度が利用されてもよい。信頼度の算出には、2クラス分類の確率値等の既存技術を利用してもよい。
第1実施例によると、制御装置100がユーザの音声指示から静穏声であるか否かを判定することによって、ユーザが発話内容などに明示的な静穏作動指示を含めることなく、ロボット装置10を静穏作動モードにより動作させることが可能になる。
[第2実施例]
次に、図8〜10を参照して、本開示の第2実施例による制御装置を説明する。上述した第1実施例では、静穏声であると判定された場合にロボット装置10に適用される静穏作動モードでは、可動部40の各可動要素の作動速度が静穏作動速度に一律に設定された。他方、各可動要素は一般に異なる作動音を生じさせることが知られており、例えば、ロボット装置10を移動させる可動要素、過重負荷の大きな可動要素などは相対的に大きな作動音を生じさせる傾向がある。このため、第2実施例では、制御装置100は、相対的に作動音の小さな可動要素を優先的に作動させる。すなわち、制御装置100は、相対的に作動音の大きな可動要素を作動させることなく、タスクを実行するよう作動計画を決定する。
図8は、図1の全体が平行に移動できるように可動要素46を追加したロボット装置10を示す概略図である。
作動制御部140は、図9に示されるような各可動要素の優先順位を示す優先順位情報を予め保持し、声判定部130によってユーザの音声指示が静穏声であると判定された場合、当該優先順位情報と音声認識部120による認識結果に基づき、可動部40の作動計画を決定する。図示された優先順位情報では、優先順位1の可動要素45が最も小さな作動音を発生させ、優先順位6の可動要素46が最も大きな作動音を発生させることが示されている。
具体的には、ユーザの音声指示が静穏声であった場合、作動制御部140は、優先順位1の可動要素のみを利用して、ユーザによって指示されたタスク(例えば、物体の移動処理など)が実現可能であるか判断し、当該タスクが優先順位1の可動要素のみによって実行可能である場合、優先順位1の可動要素のみを作動させることによってタスクを実現するための作動計画を決定し、当該作動計画に従って当該可動要素のみを作動させる。
他方、当該タスクが優先順位1の可動要素のみによっては実現可能でない場合、作動制御部140は、優先順位1,2の可動要素を作動させることによってタスクが実現可能であるか判断する。当該タスクが優先順位1,2の可動要素のみによって実現可能である場合、作動制御部140は、優先順位1,2の可動要素のみを作動させることによってタスクを実現するための作動計画を決定し、当該作動計画に従って当該可動要素のみを作動させる。タスクが実現可能になるまで、作動制御部140は、以下同様にして、優先順位の高い可動要素を作動対象の可動要素の組み合わせに順次追加し、タスクを実現可能な可動要素の組み合わせを決定する。
上述したロボット装置10によるタスク実現のための制御装置100による制御処理は、例えば、図10に示されるような処理フローに従って実行されうる。なお、図示された処理フローは、ユーザの音声指示が静穏声であった場合の可動部40の制御に着目したものであり、ユーザの音声指示が静穏声であったか否かの判定と、音声認識部120による認識処理とは、図7におけるステップS101〜S103と同様であり、重複した説明は省く。
図10に示されるように、ステップS201において、作動制御部140は、優先順位を示すインデックスiを最も高い優先順位(図示された例では、i=1)に初期化する。
ステップS202において、作動制御部140は、優先順位iの可動部40の可動要素を可動要素の組み合わせの集合Mに追加する。例えば、初期的にはインデックスiは1であるため、作動制御部140は、優先順位1の可動要素を集合Mに追加する。
ステップS203において、作動制御部140は、集合Mの可動要素の組み合わせによってユーザから指示されたタスクを実現可能であるか判断する。例えば、タスクが指定された物体を移動先に移動することである場合、作動制御部140は、可動要素の組み合わせを作動させることによってエンドエフェクタ45が指定された物体を把持可能であって、かつ、把持した物体を移動先に移動させることが可能であるか判断してもよい。
当該組み合わせによってタスクを実現可能である場合(S203:YES)、ステップS204において、作動制御部140は、現在の集合Mの可動要素によってタスクを実行するための作動計画を決定し、決定した作動計画に従って集合Mの可動要素を作動させる。
他方、当該組み合わせによってはタスクを実現可能でない場合(S203:NO)、ステップS205において、作動制御部140は、インデックスiを1だけインクリメントし、ステップS202を繰り返す。
なお、タスクを実現可能な可動部40の可動要素の組み合わせの決定は、上述した手法に限定されず、他の何れか適切な手法によって行われてもよい。また、各可動要素は通常作動速度と静穏作動速度とにより作動可能であってもよく、各可動要素に対して、通常作動時の優先順位と静穏作動時の優先順位とが規定されてもよい。
第2実施例によると、作動音が大きい可動要素を停止したまま(すなわち、一部の可動要素の作動速度をゼロに設定し)、作動音が小さい可動要素を優先的に作動させることによって、ロボット装置10全体の作動音を小さくすることができる。
[第3実施例]
次に、図11を参照して、本開示の第3実施例による制御装置を説明する。第3実施例では、作動制御部140は、音声取得部110で取得した環境音の音圧レベルに応じて、ロボット装置10を制御する。具体的には、制御装置100は、作動計画実行中もマイクロフォン20によって収集されたロボット装置10から生じる作動音を取得し、静穏声により音声指示が発せられると、作動音の音圧レベルが所定値以下になるよう可動部40を制御する。すなわち、作動制御部140は、可動部40の作動中にロボット装置10において収集された音声を取得し、静穏声により音声指示が発せられると、取得した音声の音圧レベルが可動部40の非作動時の音圧レベルに対して所定の増加量以下となるよう可動部40の作動を制御する。ここで、ロボット装置10は、図8に示される構成と同じであってもよい。
当該制御処理は、例えば、図11に示されるような処理フローに従って実行されうる。図11は、本開示の他の実施例によるロボット装置の制御処理を示すフローチャートである。なお、以下の実施例では、移動対象の物体の検出に画像取得認識処理が利用されているが、画像取得認識処理は、上述したように、本開示の制御処理に対して必ずしも必須ではない。
図11に示されるように、ステップS301において、音声取得部110及び画像取得部150はそれぞれ音声データ及び画像データを取得する。具体的には、可動部40の作動状況にかかわらず、音声取得部110は、ユーザからの音声指示を示す音声データをマイクロフォン20から取得し続ける。これにより、可動部40の非作動時の音圧レベルである環境音の音圧レベルが測定できる。同様に、画像取得部150は、ロボット装置10の周囲を示す画像データをカメラ30から取得し続ける。
ステップS302において、音声認識部120は、取得した音声データにユーザから発話された音声指示が含まれているか否かを判断する。
音声データにユーザからの音声指示が含まれていない場合(S302:NO)、ステップS303において、作動制御部140は、マイクロフォン20によって収集された環境音の音圧レベルLを測定する。一般に、ロボット装置10の非作動中もロボット装置10の周囲には何らかの環境音が存在するため、作動制御部140は、可動部40の非作動時の環境音を考慮して、可動部40の作動によって発生する作動音を測定する必要がある。また、環境音は変動する可能性があるため、作動制御部140は、定期的に環境音の音圧レベルLを測定してもよい。音圧レベルを定期的に測定するため、測定後、ステップS301に戻る。
他方、音声データにユーザからの音声指示が含まれている場合(S302:YES)、ステップS304において、音声認識部120及び画像認識部160はそれぞれ音声認識処理及び画像認識処理を実行する。具体的には、音声認識部120は、取得した音声データに対して音声認識処理を実行し、音声指示をテキスト指示に変換する。また、画像認識部160は、取得した画像データに対して画像認識処理を実行し、ロボット装置10の周囲にある各物体の位置を検出する。また、物体名を検出するよう構成してもよい。
ステップS305において、声判定部130は、取得したユーザの音声指示が静穏声であるか、すなわち、ささやき声又は小さい声であるか判断する。
ユーザの音声指示が静穏声でなく、通常発声であった場合(S305:NO)、ステップS306において、作動制御部140は、可動部40の作動速度として通常作動速度を適用し、通常作動速度及び認識結果に対応する作動計画を決定し、決定した作動計画に従って可動部40を制御する。
他方、ユーザの音声指示が静穏声であった場合(S305:YES)、ステップS307において、作動制御部140は、可動部40の作動速度として静穏作動速度を適用し、静穏作動速度及び認識結果に対応する作動計画を決定し、決定した作動計画に従って可動部40の制御を開始する。
ステップS308において、作動制御部140は、ロボット装置10の周囲の音圧レベルL'を測定する。図11では記載を省略しているが、可動部40の作動中もマイクロフォン20によって作動音を含むロボット装置10の周囲の音声を収集しており、収集した音声に基づき音圧レベルを測定する。
ステップS309において、作動制御部140は、取得した作動音を含むロボット装置10の周囲の作動中の音圧レベルL'が可動部40の非作動時の環境音の音圧レベルLに対して所定の増加量θ未満であるか判断する。音圧レベルL'がL+θより低い、すなわち、L'<L+θである場合(S309:YES)、作動制御部140は、作動音による音圧増加量が所定の増加量θ以下に抑えられており、現在の作動計画を維持すると共に、ステップS311に進む。
他方、音圧レベルL'がL+θ以上である、すなわち、L'≧L+θである場合(S309:NO)、ステップS310において、作動制御部140は、作動音による音圧増加量が大きすぎると判断し、可動部40の作動速度を小さくするよう作動計画を再検討する。具体的には、作動制御部140は、可動部40の作動速度を微小量Δだけ小さくする。あるいは、作動制御部140は、可動部40の作動速度をΔ(<1)倍してもよい。また、ロボット装置10が動作しなくなることを防ぐように、可動部40の最大作動速度の最小値を事前に決めておいてもよい。再設定された作動計画に基づき可動部40の作動を調整した後、ステップS311に進む。
ステップS311において、作動制御部140は、認識結果に基づいた可動部40の作動が完了したか否かを判断し、完了している場合(S311:YES)、制御処理を完了する。他方、完了していない場合(S311:NO)、ステップS308及びS309に戻って、作動制御部140は、再設定された作動計画に基づく作動音による音圧レベルの増加量が所定の閾値θ未満に抑えられたか判断する。
このようにして、作動制御部140は、可動部40の作動が完了するまで音圧レベルを監視し続け、L'<L+θの条件が充足されるまで、ステップS308〜S310を繰り返す。
なお、作動制御部140は、ステップS310において作動速度を小さくする際、各可動要素を個別に調整することによって、可動部40の作動速度を小さくしてもよい。例えば、第2実施例と同様に、優先順位に応じて作動音が小さい可動要素を作動させたまま、作動音が大きい可動要素の作動速度を小さくするか、又は、停止させることによって、ロボット装置10全体の作動音を小さくしてもよい。
一実施例では、作動制御部140は、音声が静穏声であって、かつ、環境音の音圧レベルLが所定値未満である場合に限って、可動部40の作動速度を静穏作動速度に設定してもよい。すなわち、音声が静穏声であるか否かにかかわらず、作動制御部140は、非作動時の環境音の音圧レベルLが所定値以上である場合、可動部40の作動速度を通常作動速度に設定してもよい。これにより、可動部40の非作動時の環境音の音圧レベルLが一定値以上である場合、ロボット装置10は静穏に作動する必要はなく、作動制御部140は、静穏声を検知しても通常作動速度により可動部40を作動させ、可動部40の作動中の音圧レベルL'を測定しないようにしてもよい。
また、一実施例では、ロボット装置10は、複数のマイクロフォン20を備えるよう構成されてもよい。この場合、作動制御部140は、複数のマイクロフォン20の1つのみを環境音の音圧レベルの測定に用いてもよい。あるいは、作動制御部140は、複数のマイクロフォン20で測定された音圧レベルの最大値を環境音の音圧レベルとして利用してもよい。また、ロボット装置10がN個のマイクロフォン20〜20を備えている場合、マイクロフォン20(1≦i≦N)で測定した可動部40の非作動時の音圧レベルをLとし、可動部40の作動時の音圧レベルをL'としたとき、作動制御部140は、max(L'−(L+θ))<0を満たすように可動部40の作動速度を調整してもよい。
第3実施例によると、ロボット装置10の作動中の環境音を考慮した作動速度の調整が可能であると共に、静穏に作動する必要があるときにだけロボット装置10を静穏に作動させることが可能になる。
[第4実施例]
次に、本開示の第4実施例による制御装置を説明する。第4実施例では、作動制御部140は、ロボット装置10と音声の発話者との間の距離に応じてロボット装置10を制御する。具体的には、声判定部130は、集音装置とユーザとの間の距離に応じて音声を補正し、補正した音声が静穏声であるか否かを判定する。音声が小さい声であるか否かの判定は、マイクロフォン20から取得された音声の音圧レベルが所定値未満であるか否かによって行われる。一方、遠方で発せられた音声は、マイクロフォン20に到達するまでに音圧レベルが低減する。このため、単に、マイクロフォン20において測定された音圧レベルに基づき音声が小さい声であるか否かを判定する方法では、ユーザによって実際に発せられた音声が小さい声であるか否かを判定することは難しい。このため、声判定部130は、ユーザとマイクロフォン20との間の距離に応じて判定対象となる音声の音圧レベルを補正してもよい。
ここで、ユーザとマイクロフォン20との間の距離は、例えば、"Acoustic positioning using multiple microphone arrays", Hui Liu and Evangelos Milios, The Journal of the Acoustical Society of America 117, 2772 (2005)などに記載される複数のマイクロフォンアレイを利用した距離推定方法などの何れか適切な距離推定方法によって推定されてもよい。あるいは、カメラ30から取得されたユーザの顔の大きさによって距離推定を行ってもよい。あるいは、距離センサ、赤外線距離センサ、レーザ距離センサなどを利用して距離推定を行ってもよい。
また、音圧レベルの補正に利用される減衰係数を事前に規定してもよい。声判定部130は、距離が推定されると、当該推定値に対応する減衰係数によってマイクロフォン20において測定された音圧レベルを補正し、補正された音圧レベルに基づきユーザの音声が静穏声であるか否かを判定してもよい。
第4実施例によると、ユーザとマイクロフォン20との間の距離に応じて適切に補正された音圧レベルを利用することによって、静穏声の判定を適切に行うことが可能になる。
[第5実施例]
次に、本開示の第5実施例による制御装置を説明する。第5実施例では、ロボット装置10は更に、ロボット装置10の周囲を照らすライト、ユーザに情報を提示するためのディスプレイなどの発光装置を有し、作動制御部140は、声判定部130の判定結果が静穏声である場合のロボット装置10の発光装置の光量が、声判定部130の判定結果が静穏声でない場合のロボット装置10の発光装置の光量より小さくなるように、ロボット装置10を制御する。具体的には、ユーザが静穏声により音声指示をした場合、作動制御部140は、ロボット装置10を静穏作動モードにより作動させ、ライトを通常作動モードより低い光量によって発光させるか、あるいは、ライトをオフにしてもよい。あるいは、ユーザが小さい声又はささやき声により音声指示をした場合、作動制御部140は、ロボット装置10を静穏作動モードにより作動させ、ディスプレイの輝度を通常作動モードより低くするか、あるいは、ディスプレイをオフにしてもよい。なお、発光装置の光量又は輝度の調整は、可動部40の作動速度の調整と組み合わせて行われてもよいし、あるいは、独立して行われてもよい。また、作動制御部140は、通常作動モードと静穏作動モードとにおいて発光装置を異なる色により発光させてもよい。
第5実施例によると、夜間などの暗い環境下においてロボット装置10を作動させるとき、作動音だけでなくロボット装置10からの発光も抑えることが可能になる。なお、作動制御部140は、声判定部130の判定結果に応じたロボット装置10の可動部の制御をせずにロボット装置10の発光量を制御するようにしてもよい。これにより、音声のパラ言語情報によって、制御対象装置の発光量を制御する技術を提供することができる。
[第6実施例]
次に、本開示の第6実施例による制御装置を説明する。第6実施例では、音声取得部110は、集音装置で収集された音声を取得し、声判定部130は、音声が静穏声であるか否かを判定する。ロボット装置10は、車輪、足などの移動手段によって移動可能であり、作動制御部140は、音声が静穏声である場合、移動中のロボット装置10とユーザとの間の距離に応じて可動部40の作動速度を切り替える。具体的には、ロボット装置10が移動可能であるとき、作動制御部140は、ロボット装置10の近くにいるユーザから発せられた音声が静穏声である場合、まず可動部40を静穏作動速度により作動させ、その後に移動によってロボット装置10がユーザから離れると、可動部40を通常作動速度により作動させる。例えば、作動制御部140は、ユーザからの音声指示が静穏声であった場合、上述した第1実施例と同様に、可動部40の作動速度の最大値vmaxを静穏作動速度vwhisperにまず引き下げる。その後、ロボット装置10とユーザ又は音声指示を受信した位置との間の距離dが所定の閾値dより大きくなると、作動制御部140は、作動速度の最大値vmaxを通常作動速度vnormal(>vwhisper)に引き上げる。すなわち、作動制御部140は、以下の式に従って作動速度の最大値vmaxを制御する。
Figure 2020121375
なお、可動部40の可動要素毎に通常作動速度vnormal、静穏作動速度vwhisper、閾値dが設定されてもよい。これら3つの値のうちの一部だけは共通に設定するようにしてもよい。また、一部の可動要素の間で共通に設定するようにしてもよい。本開示による作動速度は、このような通常作動速度及び静穏作動速度の2つの離散値に設定される必要はなく、移動中のロボット装置10とユーザとの間の距離に応じて3つ以上の離散値又は連続値に設定されてもよい。また、一旦ロボット装置10がユーザ又は音声指示位置から一定の距離より遠く離れて通常作動速度に設定された後、ロボット装置10が再びユーザ又は音声指示位置から一定の距離内に戻ってきた場合、作動制御部140は、作動速度を静穏作動速度に再設定してもよい。
あるいは、上述した第3実施例と同様に、作動制御部140は、ユーザからの音声指示が静穏声であった場合、作動音による音圧増加量の閾値θを静穏作動モード閾値θwhisperにまず設定する。その後、ロボット装置10とユーザ又は音声指示位置との間の距離dが所定の閾値dより大きくなると、作動制御部140は、音圧増加量の閾値θを通常作動モード閾値θnormal(>θwhisper)に引き上げる。すなわち、作動制御部140は、以下の式に従って音圧増加量の閾値θを制御する。
Figure 2020121375
なお、音圧増加量の閾値θは、必ずしもこのような2つの離散値に設定される必要はなく、3つ以上の離散値又は連続値に設定されてもよい。音圧増加量の閾値θを連続値に設定する場合、例えば、θ=ad+b(パラメータa,bは所定の定数)が利用されてもよい。
このようにして、声判定部130は、集音装置と発話者との間の距離に応じて補正した後の音声の大きさに基づいて、音声が小さい声であるか否かを判定するようにしてもよい。
第6実施例によると、ユーザ又は音声指示位置の近くでは、ロボット装置10を静穏作動モードで作動させ、ユーザ又は音声指示位置から遠く離れると、ロボット装置10を通常作動モードで作動させる。これにより、静穏性を維持しながらタスクを効率的に実行することが可能になる。
[第7実施例]
次に、本開示の第7実施例による制御装置を説明する。第7実施例では、作動制御部140は、声判定部130の判定結果、及び、現在時刻に応じて、ロボット装置10を制御する。具体的には、作動制御部140は、ユーザからの音声指示が静穏声であって、かつ、現在時刻が所定の時間帯にある場合、可動部40の作動速度を静穏作動速度に設定する。例えば、ユーザは深夜、早朝などのロボット装置10を静穏に作動させたい時間帯を制御装置100に予め設定する。ユーザが静穏声により音声指示をした場合、作動制御部140は、当該音声指示が設定された時間帯に発せられたものであるか否かを判定し、当該音声指示が設定された時間帯に発せられたものである場合、可動部40の作動速度を静穏作動速度に設定する。他方、当該音声時が設定された時間帯以外に発せられたものである場合、作動制御部140は、可動部40の作動速度を通常作動速度に設定する。
第7実施例によると、静穏作動が必要とされる時間帯以外では、音声指示が静穏声であるか否かにかかわらず、ロボット装置10を通常作動モードにより作動させ、ロボット装置10を効率的に作動させることが可能になる。
[第8実施例]
次に、本開示の第8実施例による制御装置を説明する。第8実施例では、声判定部130は、音声が低発話速度の発声であるか否かを判定し、作動制御部140は、音声が低発話速度の発声であるか否かの判定結果に応じて、ロボット装置10を制御する。すなわち、音声指示が静穏声であるか否かの判定の代わりに又は加えて、声判定部130は、音声が低発話速度の発声であるか否かを判定し、作動制御部140は、音声が低発話速度の発声であるか否かに応じた作動速度と認識結果に従って、可動部40を作動させる。
ここで、低発話速度の発声とは、発話速度が遅い発声を意味し、具体的には、声判定部130は、音声取得部110によって取得された音素列又はモーラ列の長さと当該発声の長さから、単位時間当たりの音素数又はモーラ数を算出し、算出された音素数又はモーラ数が所定の閾値未満であるか否かを判定する。声判定部130は、算出された音素数又はモーラ数が所定の閾値未満である場合、音声指示が低発話速度の発声であると判定し、算出された音素数又はモーラ数が所定の閾値以上である場合、音声指示が低発話速度の発声でないと判定する。発話速度は個人差があるため、発話者毎に閾値を設定してもよい。これは、公知の話者認識技術を利用して話者判定した後、決定された発話者に対応する閾値を利用するよう構成することで実現できる。発話者毎の閾値は、本制御装置100に入力された発話者毎の音声から算出する。例えば、発話者xの過去T時間の発話速度の平均値を求め、そこから予め定めておいた一定値を引いた値を、発話者xの閾値とする。Tの値は任意の正の値であるとする。過去N回の発話の平均値を用いてもよい(Nは自然数)。
また、音声指示が静穏声であって、かつ、低発話速度の発声である場合、作動制御部140は、ロボット装置10を静穏作動モードに設定し、静穏作動速度より低い低発話速度によって可動部40を作動させてもよい。
第8実施例によると、発話速度に応じてロボット装置10を作動させることが可能になる。
なお、上述した第1実施例から第8実施例は、必ずしも単独で実施される必要はなく、これらの実施例の何れか2つ以上が組み合わされて実施されてもよい。また、上述した実施例では、可動部40の作動速度は、通常作動速度と静穏作動速度との2つの離散値に設定されたが、これに限定されず、3つ以上の離散的又は連続的な作動速度が設定されてもよい。例えば、静穏度合いに応じて、ロボット装置10に3つ以上の段階の作動モードが設定され、各段階に対応する作動速度が設定されてもよい。あるいは、離散的な作動モードでなく、静穏度合いの数値に対応した連続的な作動速度が設定されてもよい。また、上述した実施例において、「声判定部130が、音声が静穏声であるか否かを判定する」とは、音声が静穏声か否かの2値で判定する場合だけでなく、音声の静穏度合いを算出する場合も含むものとする。さらに、音声判別部130が音声の静穏度合いを算出する場合、「作動制御部140が、声判定部130の判定結果が静穏声である場合の制御対象装置の可動部が発する音の音圧レベルが、声判定部130の判定結果が静穏声でない場合の制御対象装置の可動部が発する音の音圧レベルより小さくなるように、制御対象装置を制御する」は、「算出された静穏声の度合いが高い場合の制御対象装置の可動部が発する音の音圧レベルが、算出された静穏声の度合いが低い場合の制御対象装置の可動部が発する音の音圧レベルより小さくなるように、制御対象装置を制御すること」を含むものとする。
また、静穏作動モードに専門の可動部40の(壊れやすい、可動コストが高いなど)可動要素がロボット装置10に備えられ、静穏作動モードでは静穏作動モードに専門の可動要素が利用されてもよい。
[ロボット装置の変形例]
次に、図12を参照して、本開示の他の実施例によるロボット装置を説明する。図12は、本開示の他の実施例によるロボット装置を示す概略図である。
図12に示されるように、制御装置100は、ロボット装置10の外部にあってもよく、例えば、マイクロフォン20及びカメラ30によってそれぞれ取得された音声データ及び画像データを無線接続を介し取得し、取得した音声データ及び画像データに基づき上述した制御処理によって決定された可動部40の作動指示を無線接続を介しロボット装置10に送信してもよい。ロボット装置10は、受信した作動指示に従って可動部40を作動させる。このように、制御装置100は、必ずしもロボット装置10内に組み込まれる必要はなく、例えば、ロボット装置10は、通信接続された制御装置100によって遠隔操作されてもよい。
[制御装置のハードウェア構成]
実施形態における制御装置100において、各機能は、アナログ回路、デジタル回路又はアナログ・デジタル混合回路で構成された回路であってもよい。また、各機能の制御を行う制御回路を備えていてもよい。各回路の実装は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等によるものであってもよい。
上記の全ての記載において、制御装置100の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりCPU(Central Processing Unit)等が実施をしてもよい。ソフトウェアで構成される場合には、制御装置100及びその少なくとも一部の機能を実現するプログラムを記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスク(例えばフレキシブルディスク)や光ディスク(例えばCD−ROMやDVD−ROM)等の着脱可能なものに限定されず、ハードディスク装置やメモリを利用するSSD(Solid State Drive)などの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、FPGA等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、GPU(Graphics Processing Unit)等のアクセラレータを使用して行ってもよい。
例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。
図13は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。制御装置100は、プロセッサ101と、主記憶装置102と、補助記憶装置103と、ネットワークインタフェース104と、デバイスインタフェース105と、を備え、これらがバス106を介して接続されたコンピュータ装置として実現できる。
なお、図13の制御装置100は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、1台の制御装置100が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数の制御装置100それぞれがソフトウェアの異なる一部の処理を実行してもよい。この場合、複数の制御装置100それぞれがネットワークインタフェース104等を介して、通信してもよい。
プロセッサ101は、制御装置100の制御部および演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry)である。プロセッサ101は、制御装置100の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ101は、制御装置100のOS(Operating System)や、アプリケーションなどを実行することにより、制御装置100を構成する各構成要素を制御する。プロセッサ101は、上記の処理を行うことができれば特に限られるものではない。制御装置100及びそれらの各構成要素は、プロセッサ101により実現される。ここで、処理回路とは、1チップ上に配置された1又は複数の電気回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電気回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
主記憶装置102は、プロセッサ101が実行する命令および各種データなどを記憶する記憶装置であり、主記憶装置102に記憶された情報がプロセッサ101により直接読み出される。補助記憶装置103は、主記憶装置102以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。制御装置100内において各種データを保存するためのメモリ、例えば、メモリは、主記憶装置102又は補助記憶装置103により実現されてもよい。例えば、メモリの少なくとも一部は、この主記憶装置102又は補助記憶装置103に実装されていてもよい。別の例として、アクセラレータが備えられている場合には、前述したメモリの少なくとも一部は、当該アクセラレータに備えられているメモリ内に実装されていてもよい。
ネットワークインタフェース104は、無線又は有線により、通信ネットワーク200に接続するためのインタフェースである。ネットワークインタフェース104は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース104により、通信ネットワーク200を介して通信接続された外部装置300Aと情報のやり取りが行われてもよい。
外部装置300Aは、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、入力元デバイスなどが含まれる。また、外部装置300Aは、制御装置100の構成要素の一部の機能を有する装置でもよい。そして、制御装置100は、制御装置100の処理結果の一部を、クラウドサービスのように通信ネットワーク200を介して受け取ってもよい。
デバイスインタフェース105は、外部装置300Bと直接接続するUSB(Universal Serial Bus)などのインタフェースである。外部装置300Bは、外部記憶媒体でもよいし、ストレージ装置でもよい。メモリは、外部装置300Bにより実現されてもよい。
外部装置300Bは出力装置でもよい。出力装置は、例えば、画像を表示するための表示装置でもよいし、音声などを出力する装置などでもよい。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、有機EL(ElectroLuminescence)ディスプレイ、スピーカなどがあるが、これらに限られるものではない。
なお、外部装置300Bは入力装置でもよい。入力装置は、キーボード、マウス、タッチパネル、マイクロフォンなどのデバイスを備え、これらのデバイスにより入力された情報を制御装置100に与える。入力装置からの信号はプロセッサ101に出力される。
例えば、本実施形態における制御装置100の音声取得部110、音声認識部120、声判定部130、作動制御部140、画像取得部150及び画像認識部160等は、プロセッサ101により実現されてもよい。また、制御装置100のメモリは、主記憶装置102又は補助記憶装置103により実現されてもよい。また、制御装置100は、1又は複数のメモリを搭載してもよい。
本明細書において、"a,bおよびcの少なくとも1つ"は、a,b,c,a−b,a−c,b−c,a−b−cの組み合わせだけでなく、a−a,a−b−b,a−a−b−b−c−cなどの同じ要素の複数の組み合わせも含む表現である。また、a−b−c−dの組み合わせのように、a,b,c以外の要素を含む構成もカバーする表現である。
同様に、本明細書において、"a,b又はcの少なくとも1つ"は、a,b,c,a−b,a−c,b−c,a−b−cの組み合わせだけでなく、a−a,a−b−b,a−a−b−b−c−cなどの同じ要素の複数の組み合わせも含む表現である。また、a−b−c−dの組み合わせのように、a,b,c以外の要素を含む構成もカバーする表現である。
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
10 ロボット装置
20 マイクロフォン
30 カメラ
40 可動部
100 制御装置
101 プロセッサ
102 主記憶装置
103 補助記憶装置
104 ネットワークインタフェース
105 デバイスインタフェース
110 音声取得部
120 音声認識部
130 声判定部
140 作動制御部
150 画像取得部
160 画像認識部
200 通信ネットワーク
300 外部装置

Claims (15)

  1. 音声を取得する音声取得部と、
    前記音声を認識する音声認識部と、
    前記音声が静穏声であるか否かを判定する声判定部と、
    前記音声の認識結果に応じて、制御対象装置の可動部を制御する作動制御部と、を備え、
    前記作動制御部は、前記声判定部の判定結果が静穏声である場合の前記制御対象装置の可動部が発する音の音圧レベルが、前記声判定部の判定結果が静穏声でない場合の前記制御対象装置の可動部が発する音の音圧レベルより小さくなるように、前記制御対象装置を制御する、
    制御装置。
  2. 前記作動制御部は、前記声判定部の判定結果が静穏声である場合の前記制御対象装置の可動部の作動速度が、前記声判定部の判定結果が静穏声でない場合の前記制御対象装置の可動部の作動速度より小さくなるように、前記制御対象装置を制御する、
    請求項1に記載の制御装置。
  3. 前記作動制御部は、前記声判定部の判定結果が静穏声である場合、前記制御対象装置の可動部の少なくとも1つの可動要素を停止させる、
    請求項1乃至2の何れかに記載の制御装置。
  4. 前記作動制御部は、前記音声取得部で取得した環境音の音圧レベルに応じて、前記制御対象装置を制御する、
    請求項1乃至3の何れか一項に記載の制御装置。
  5. 前記作動制御部は、前記声判定部の判定結果が静穏声である場合の前記制御対象装置の発光装置の光量が、前記声判定部の判定結果が静穏声でない場合の前記制御対象装置の発光装置の光量より小さくなるように、前記制御対象装置を制御する、
    請求項1乃至4の何れか一項に記載の制御装置。
  6. 前記作動制御部は、前記制御対象装置と前記音声の発話者との間の距離に応じて、前記制御対象装置を制御する、
    請求項1乃至5の何れか一項に記載の制御装置。
  7. 前記音声取得部は、集音装置で収集された前記音声を取得し、
    前記声判定部は、前記集音装置と前記音声の発話者との間の距離に応じて、前記音声が静穏声であるか否かを判定する、
    請求項1乃至6の何れか一項に記載の制御装置。
  8. 前記作動制御部は、前記声判定部の判定結果、及び、現在時刻に応じて、前記制御対象装置を制御する、
    請求項1乃至7の何れか一項に記載の制御装置。
  9. 前記声判定部は、前記音声が低発話速度の発声であるか否かを判定し、
    前記作動制御部は、前記音声が低発話速度の発声であるか否かの判定結果に応じて、前記制御対象装置を制御する、
    請求項1乃至8の何れか一項に記載の制御装置。
  10. 前記静穏声は、ささやき声である、請求項1乃至9何れか一項に記載の制御装置。
  11. 前記静穏声は、小さい声である、請求項1乃至9何れか一項に記載の制御装置。
  12. 前記音声取得部は、集音装置で収集された前記音声を取得し、
    前記声判定部は、前記集音装置と発話者との間の距離に応じて補正した後の前記音声の大きさに基づいて、前記音声が前記小さい声であるか否かを判定する、
    請求項11に記載の制御装置。
  13. 請求項1乃至請求項12の何れか一項に記載の制御装置を備える、
    制御対象装置。
  14. 音声を取得するステップと、
    前記音声を認識するステップと、
    前記音声が静穏声であるか否かを判定するステップと、
    前記音声の認識結果に応じて、制御対象装置の可動部を制御するステップと、をプロセッサが実行し、
    前記制御するステップは、前記判定するステップの判定結果が静穏声である場合の前記制御対象装置の可動部が発する音の音圧レベルが、前記判定するステップの判定結果が静穏声でない場合の前記制御対象装置の可動部が発する音の音圧レベルより小さくなるように、前記制御対象装置を制御するステップを含む、
    制御方法。
  15. 音声を取得する処理と、
    前記音声を認識する処理と、
    前記音声が静穏声であるか否かを判定する処理と、
    前記音声の認識結果に応じて、制御対象装置の可動部を制御する処理と、をプロセッサに実行させ、
    前記制御する処理は、前記判定するステップの判定結果が静穏声である場合の前記制御対象装置の可動部が発する音の音圧レベルが、前記判定するステップの判定結果が静穏声でない場合の前記制御対象装置の可動部が発する音の音圧レベルより小さくなるように、前記制御対象装置を制御する処理を含む、
    プログラム。
JP2019014743A 2019-01-30 2019-01-30 制御装置、制御対象装置、制御方法及びプログラム Pending JP2020121375A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019014743A JP2020121375A (ja) 2019-01-30 2019-01-30 制御装置、制御対象装置、制御方法及びプログラム
PCT/JP2019/049803 WO2020158231A1 (ja) 2019-01-30 2019-12-19 制御装置、制御対象装置、制御方法及び記憶媒体
US17/443,548 US20210354300A1 (en) 2019-01-30 2021-07-27 Controller, controlled apparatus, control method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019014743A JP2020121375A (ja) 2019-01-30 2019-01-30 制御装置、制御対象装置、制御方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020121375A true JP2020121375A (ja) 2020-08-13
JP2020121375A5 JP2020121375A5 (ja) 2021-12-02

Family

ID=71840834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019014743A Pending JP2020121375A (ja) 2019-01-30 2019-01-30 制御装置、制御対象装置、制御方法及びプログラム

Country Status (3)

Country Link
US (1) US20210354300A1 (ja)
JP (1) JP2020121375A (ja)
WO (1) WO2020158231A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10866783B2 (en) * 2011-08-21 2020-12-15 Transenterix Europe S.A.R.L. Vocally activated surgical control system
US20220152825A1 (en) * 2020-11-13 2022-05-19 Armstrong Robotics, Inc. Automated manipulation of objects using a vision-based method for determining collision-free motion planning
JP2022102059A (ja) * 2020-12-25 2022-07-07 トヨタ自動車株式会社 制御装置、タスクシステム、制御方法及び制御プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015181778A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 自走式掃除機
JP2016095635A (ja) * 2014-11-13 2016-05-26 パナソニックヘルスケアホールディングス株式会社 空中タッチパネルおよびこれを備えた手術用シミュレータ表示システム
JP2016153999A (ja) * 2015-02-17 2016-08-25 横河電機株式会社 管理装置、管理システム、管理方法、管理プログラム、及び記録媒体
WO2017098713A1 (ja) * 2015-12-07 2017-06-15 川崎重工業株式会社 ロボットシステム及びその運転方法
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
US20180122361A1 (en) * 2016-11-01 2018-05-03 Google Inc. Dynamic text-to-speech provisioning
US20180317725A1 (en) * 2015-10-27 2018-11-08 Samsung Electronics Co., Ltd Cleaning robot and method for controlling same
JP2018194832A (ja) * 2017-05-12 2018-12-06 ネイバー コーポレーションNAVER Corporation 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4468777B2 (ja) * 2004-09-29 2010-05-26 本田技研工業株式会社 脚式歩行ロボットの制御装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015181778A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 自走式掃除機
JP2016095635A (ja) * 2014-11-13 2016-05-26 パナソニックヘルスケアホールディングス株式会社 空中タッチパネルおよびこれを備えた手術用シミュレータ表示システム
JP2016153999A (ja) * 2015-02-17 2016-08-25 横河電機株式会社 管理装置、管理システム、管理方法、管理プログラム、及び記録媒体
US20180317725A1 (en) * 2015-10-27 2018-11-08 Samsung Electronics Co., Ltd Cleaning robot and method for controlling same
WO2017098713A1 (ja) * 2015-12-07 2017-06-15 川崎重工業株式会社 ロボットシステム及びその運転方法
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
US20180122361A1 (en) * 2016-11-01 2018-05-03 Google Inc. Dynamic text-to-speech provisioning
JP2018194832A (ja) * 2017-05-12 2018-12-06 ネイバー コーポレーションNAVER Corporation 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム

Also Published As

Publication number Publication date
WO2020158231A1 (ja) 2020-08-06
US20210354300A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
WO2020158231A1 (ja) 制御装置、制御対象装置、制御方法及び記憶媒体
US11430428B2 (en) Method, apparatus, and storage medium for segmenting sentences for speech recognition
JP5075664B2 (ja) 音声対話装置及び支援方法
CN106463114B (zh) 信息处理设备、控制方法及程序存储单元
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2017134935A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20210216134A1 (en) Information processing apparatus and method, and program
CN111868824A (zh) 智能设备的情境感知控制
CN110892476A (zh) 具有语音命令输入能力的装置
US10891946B2 (en) Voice-controlled assistant volume control
JP6844608B2 (ja) 音声処理装置および音声処理方法
US10783903B2 (en) Sound collection apparatus, sound collection method, recording medium recording sound collection program, and dictation method
US11625956B2 (en) Monitoring system
JP2011071702A (ja) 収音処理装置、収音処理方法、及びプログラム
JP2005352154A (ja) 感情状態反応動作装置
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
TW202121115A (zh) 激活話音識別
US11656837B2 (en) Electronic device for controlling sound and operation method therefor
JPH06236196A (ja) 音声認識方法および装置
CN112951222A (zh) 电子装置及其控制方法
JP5365530B2 (ja) 通信機器
US20210217439A1 (en) Acoustic event recognition device, method, and program
KR102168812B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2013072904A (ja) 音声認識方法および音声認識装置
US11600275B2 (en) Electronic device and control method thereof

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221003

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230427

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230427

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230509

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230602