JP2017517028A - ロボットとの対話を取り扱う方法とシステム - Google Patents

ロボットとの対話を取り扱う方法とシステム Download PDF

Info

Publication number
JP2017517028A
JP2017517028A JP2016562858A JP2016562858A JP2017517028A JP 2017517028 A JP2017517028 A JP 2017517028A JP 2016562858 A JP2016562858 A JP 2016562858A JP 2016562858 A JP2016562858 A JP 2016562858A JP 2017517028 A JP2017517028 A JP 2017517028A
Authority
JP
Japan
Prior art keywords
interaction
robot
user
interactive
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016562858A
Other languages
English (en)
Other versions
JP6655552B2 (ja
Inventor
メゾニエ,ブリュノ
ウーサン,ダビド
パタイヨ,レミ
バルビエリ,ガブリエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aldebaran SAS
Original Assignee
SoftBank Robotics Europe SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Robotics Europe SAS filed Critical SoftBank Robotics Europe SAS
Publication of JP2017517028A publication Critical patent/JP2017517028A/ja
Application granted granted Critical
Publication of JP6655552B2 publication Critical patent/JP6655552B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/003Manipulators for entertainment
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/026Acoustical sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)
  • Toys (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

ロボットと人間ユーザ間の音声対話を取り扱うコンピュータ実施方法が提供される。本方法は、前記音声対話中に、音声データを受信し前記音声データをテキストデータへ変換する工程と、前記テキストデータの1つまたは複数の対話モード実行規則の検証に応じて修正対話モードを選択する工程とを含み、対話モードは1つまたは複数の対話コンテンツと1つまたは複数の対話音声スキンを含み、対話コンテンツは所定文章の集合を含み、前記集合は質問文と回答文を含み、対話音声スキンは、周波数、トーン、速度およびピッチを含む音声レンダリングパラメータを含む。説明した発展形態は、対話実行規則を使用することにより対話コンテンツおよび/または対話音声スキンを(例えばロボットにより認識された環境に依存して)修正する工程と、対話コンテンツを緩和する工程とを含む。

Description

本特許は、特にロボットと人間ユーザ間の会話の特定情況における、デジタルデータ処理の領域に関し、より具体的には音声合成および双方向対話の取り扱いに関する。
コンパニオンロボットは有利には、人間との感情的関係を確立し得る。音声スキンまたは対話スキンを介した対話の動的適応化は豊かな相互作用を可能にし得る。
スピーチまたは音声合成のための既存システムはたいてい受動的でありかつ一様的である:すなわち、男性または女性音声選択など少しの選択肢を除き、スピーチ生成エンジンのトーンはかなり中性的である。その上、提供される応答は文化的関連性(cultural references)に欠ける。工業的または大量市場音声応答システムの目的は正確には、普遍的に受け入れられる応答を提供することである、すなわち、できるだけ広く理解されることである。これは、いかなる状況的およびさらには文化的関連性も回避することを意味する。音声命令は通常、特定状況に限定される。例えば、音声口述ソフトウェア(voice dictation software)は殆どの場合、スタンドアロンソフトウェアアプリケーション(例えばワープロソフト)の状況で使用される。最新オペレーティングシステムをますます備えるようになったいくつかのアクセス可能性特徴によると、ユーザは、いくつかの行為(例えば、アプリケーションを立ち上げる、コピーアンドペースト等)を行うために音声命令を使用し得る。これらの所定行為はかなり限定される。このような視覚的または音声相互作用モードは一般的には受動的である(例えば、ユーザが命令を能動的に与え、機械は命令を実行する)。例えば応答システムに実装されたものなど最近のコンピュータ相互作用モデルによってさえ、限定された相互作用が機械からユーザへ発生する。
コンパニオンヒューマノイドロボットの状況では、人間ユーザとの相互作用モデルは、パーソナルコンピュータとの相互作用モデル(およびそれらの様々な形態)と比較すると、著しく変わる。ロボットとの認識相互作用は、タブレットPCまたはスマートフォンのものとは基本的に異なる。特に、ロボットのスピーチ合成を変調する能力は、豊かな相互作用のカギでないにしても有益であり得、しいては関連データを収集し、ロボットまたは接続装置により与えられるサービスを改善できるようにし得る。
特にロボットと人間ユーザ間の会話の特定情況において音声合成(形式)および関連双方向対話(実体)を取り扱う方法およびシステムの需要がある。
ロボットと人間ユーザ間の音声対話を取り扱うコンピュータ実施方法が提供される。本方法は、前記音声対話中に、音声データを受信し前記音声データをテキストデータへ変換する工程と、前記テキストデータの1つまたは複数の対話モード実行規則の検証に応じて修正対話モードを選択する工程とを含み、対話モードは1つまたは複数の対話コンテンツと1つまたは複数の対話音声スキンを含み、対話コンテンツは所定文章の集合を含み、前記集合は質問文と回答文を含み、対話音声スキンは、周波数、トーン、速度およびピッチを含む音声レンダリングパラメータを含む。
一つの発展形態では、本方法はさらに、前記選択された修正対話モードを実行する工程を含む。
一つの発展形態では、修正対話モードは、現在の対話コンテンツおよび/または現在の対話の現在の対話音声スキンを修正することにより得られる。
一つの発展形態では、現在の対話コンテンツを修正する工程は、前記対話コンテンツの単語の同義語を使用する工程と、前記対話コンテンツの1つまたは複数の単語の挿入または順列または置換を含む構文修正を適用する工程とを含む。
一つの発展形態では、現在の対話音声スキンを修正する工程は、現在の対話音声スキンの周波数および/またはトーンおよび/または速度および/またはピッチを修正する工程を含む。
一つの発展形態では、修正対話モードは所定対話モードを活性化することにより得られ、前記所定対話は1つまたは複数の対話実行規則により選択され、前記所定対話モードは所定対話コンテンツおよび/または所定対話音声スキンを含む。
一つの発展形態では、対話モード実行規則はロボットにより認識される環境に依存する。
一つの発展形態では、対話モード実行規則は、ユーザの年齢、ユーザの性別、ユーザの気分、ユーザの感情、ユーザの数、ユーザとの相互作用履歴、ユーザ嗜好、ロボットおよび/またはユーザの空間的配置、ロボットおよび/またはユーザのジェスチャまたはジェスチャの組み合わせ、ロボットの環境内で検知された事象、ローカル天候、地理的位置、日付、時間およびそれらの組合せを含むリストから選択されるパラメータを含む。
一つの発展形態では、対話モード実行規則はインターネットから動的に取り出されるおよび/またはユーザ構成可能である。
一つの発展形態では、1つまたは複数の対話コンテンツまたはその選択は、1つまたは複数の単語のブラックリスト、1つまたは複数の単語のホワイトリストおよび/または対話モード実行規則を含む1つまたは複数のフィルタの適用により緩和される。
一つの発展形態では、対話コンテンツおよび/または対話音声スキンは音声命令またはユーザ要求により選択される。
一つの発展形態では、本方法はさらに、ユーザとの対話中に欠落対話モードを識別し、前記欠落対話モードを取り出しロボットへインストールする工程を含む。一つの発展形態では、本方法はさらに、選択された対話モードを行う前にユーザの確認を受信する工程を含む。一つの発展形態では、本方法はさらに、修正対話モードの実行後にユーザのフィードバックを受信する工程を含む。一つの発展形態では、本方法の工程は繰り返され得る(例えば、対話モードはさらに修正され得る)。
前記コンピュータプログラムが好適なコンピュータ装置またはロボット装置上で行われると本方法の1つまたは複数の工程を実行するための命令を含むコンピュータプログラムが開示される。本方法の1つまたは複数の工程を行うようにされた手段を含むシステムが開示される。
コンパニオンロボットは通常、多モードである。音声相互作用は、パーソナルコンピュータとの対比でロボットを特徴付ける運動とその傾きとに沿った、ユーザとの相互作用のクリティカル部分を構成する。ユーザとロボットとの対話は、相互作用を強化または個人化し、最終的にユーザ経験を改善し得る。一実施形態では、ロボットは、その対話モードの適応化により自身を現在の認識情況に順応させる。ロボットは例えば、外国人に対し「ミスター」と言うことができる、または過去にそうすることが許されていれば人の姓を使用し、ユーザおよび/または情況に応じて多少フォーマルに話すことができる。特定の単語もまた、(例えば)ユーザ、履歴、フィードバック、気分、場所、日時に応じてフィルタ処理され得る。人が文章を理解しない場合、ロボットは、そうするように要求されればまたは主導的に、ゆっくりおよび/または同義語により繰り返し得る。ロボットはまた、ユーザの嗜好(語彙によっては多少速く話す)を学習し、ユーザの気分を改善し得る。
有利には、ロボットは、新しい言語拡張を実施し、各ロボットをユニークにし、肯定的感情を起こさせ、従って人間とロボットとの関係を強化し得る。
有利には、いくつかの実施形態によると、マン−マシン相互関係が能動的であり、もはや受動的ではない:すなわち、ロボットは、人間的観点から、いくつかの主導性を採り得る(例えば、ロボットは例えば曖昧性除去目的のために質問をし得る)。さらに、個人化されたやり方またはそうでなければ適切なやり方で表わされた適応化対話コンテンツまたはパターンにより、マン−マシン相互関係はさらに最適化される。
有利には、相互作用の会話モードは、ユーザとのより「親密」な「関係」、少なくともより「自然な」相互作用を可能にする。このより良いユーザ経験は、機械による人間ユーザの「理解」の向上につながる可能性が高い。関連音声スキンおよび/または対話文章により示唆および強化された機械との付随「近親性」は、ユーザからのおよびユーザに関するデータの収集を容易にし得る。ユーザとロボットの両方は、より「表現性に富み」得る。用語「表現性」は、「マン‐マシン相互関係が(より)自然であるのでユーザはより多くのデータをロボットへ伝達しロボットはユーザに関するより多くのデータを知り格納し、好循環に相互作用をさらに豊かにし得る」ということを指す。これはパーソナルコンピュータには当てはまらない。タブレットは例えばクイズまたは質問の形式でまたはスピーチ合成により「質問」を試み得る。しかし、タブレットは自力で(自律的に)動き、物体を移動し人間に追随する「コンパニオン」とはみなされないので、残留バイアスが残ることになる。捕捉され得るデータの量はコンパニオンロボットと比較して小さくなる。コンパニオンロボットが楽しいまたはそうでなければ適切な音声スキンまたは対話パターンを使用することができるということが、データを捕捉するこの能力を強化する。
ユーザに関し能動的または受動的に収集された情報(例えば、ユーザプロファイルまたはユーザ宣言嗜好)が、立ち上げ条件の入力として使用され得る(例えば、音声スキンまたは対話パターンは、ユーザが「Bienvenue chez les Ch’tis」を愛する場合だけ立ち上げられるべきである)。機械学習の機構が行われ得る、すなわち本システムにより開始または行われる音声スキンまたは対話パターンはユーザに関し学習されたものに応じて進化する。
次に一例として本発明のいくつかの実施形態について、同様な参照子が同様な要素を表す添付図面を参照し説明する。
本発明のグローバル技術環境を示す。 本方法の実施形態のいくつかの態様を詳述する。
「対話」は予め作成された文章を含む。対話は質問への応答を含む所定文章の集合である。複数の質問に対する予想応答が対話を構成する。
「対話モード」は、両方の実体(「対話パターン」または「対話コンテンツ」)に影響を与え計画文章の(「音声スキン」または「音声レンダリング」)を形成する1つまたは複数の修正操作を含む。換言すれば、「対話モード」は実体面(例えばメッセージにより伝達される事実コンテンツまたは情報)、および形式面(例えば話された言語の表現性または感情またはトーン)に関連付けられる。対話モードはダウンロード可能ソフトウェアプログラムの形式で実装され得、前記プログラムは、好適なロボット装置上で実行されると前記ロボット装置に特定の物理的行為を行わせる(プログラム対話モード(対話コンテンツおよび/または音声スキン)を実行することを含む)命令を含む。ソフトウェアプログラムは「拡張モジュール」または「プラグイン」または「アドオン」として提供され得る。追加の対話モードが、ロボットの初期設定対話コンテンツおよび音声スキンと組み合わせられ得る、またはそれに追加され得る、またはそれと置換され得る。一実施形態では、対話モードは、ロボットにインストールされた他のソフトウェアアプリケーションのサービスと呼ばれ得る。例えば、天候アプリケーションは、ある情況(例えば満月)においてダーク・ベイダーの声を使用し得る。対話モードおよび/または関連実行規則は、ネットワークを介しアクセスされてもよいしローカルにアクセスされてもよい。いくつかの実施形態では、対話モードおよび/または関連実行規則は、ネットワークおよびリモート知識ベースへのアクセスにより補完または補足される。
「対話コンテンツ」または「対話パターン」または「対話トピック」は、例えばあるテーマまたはトピックまたは関心領域に関する質問と(予想または期待または可能)回答とに対応する所定文章の集合を指す(が、一般的範囲の文章が想定され得るので、必ずしもそうではない)。構文修正は、ロボットにインストールされた既存対話コンテンツの実体を修正し得る(例えば、「超」などの最上級の挿入、単語の置換等)。対話コンテンツまたはパターンは検閲されるべきいくつかの単語を得ることができる(例えば、所定単語の使用が、2値または当該確率または閾値であれば、禁止され得る)、またはいくつかの他の単語が許容され得る、またはいくつかの単語の使用が奨励され得る(バイアス)。対話コンテンツまたはパターンは特に、実質的コンテンツおよび他の文化的関連性を含み得る(または、修正される場合は追加し得る)。単語の選択は、情況に依存し、隠喩または文化的関連性を含み得る。従って、対話は1つまたは複数の対話コンテンツ(文章で構成された予め作成された対話)を含み得る。例えば、その単なる商業上の名称の代わりに、ゲームアプリケーションは、「鳥と緑色豚によるゲーム」または「ターゲットに鳥を投げなければならないゲーム」などとしてロボットにより知らされ得る。文章、潜在的質問および回答で構成されるこれらのメタ記述が対話コンテンツを構成する。このような対話コンテンツにより、ロボットがユーザと会話できるようにする。例えば、ユーザが「鳥と遊びたい」と要求すれば、ロボットはさらに、「現実鳥と遊びたいかまたは仮想鳥と遊びたいか?」と尋ね得る。ユーザが「仮想鳥と」と応答すれば、ロボットは「つまりゲームをしたいのか?!」と確認のために尋ね得る。ユーザが「はい」と応答すれば、ロボットは依然としてさらに確認を求める(例えば「緑色豚に鳥を投げなければならないゲームがある)。
「対話スキン」または「音声スキン」は音声レンダリング修正を指す。このような音声レンダリング修正は「形式」(例えば周波数、速度、ピッチおよびトーン)に影響を与える。換言すれば、対話スキンの適用は、根底にある予め作成された文章を修正すること無くロボットの表現性を抜本的に変更し得る。ロボットとのスピーチ相互作用の修正の影響は、様々なレベルにおいて(コンテンツ的に(実体)および/または形式(トーン等)において)評価され得る。音声スキンは、いくつかの音声を模倣することにつながるパラメータを含み得る。スピーチ合成を管理するために様々な音声パラメータを取り扱い得る。音声パラメータは、周波数(ロボットがより明瞭にまたはより太く話せば判断される)、速度(ロボットがどれくらい速くまたは遅く話すか)、トーン(例えば、俳優シルベスタースタローンとマスター・ヨーダ(Master Yoda)キャラクタとが同じ速度および周波数で話せば、彼らは同じトーンを有しない)を含む。一実施形態では、ユーザは、彼のコンパニオンロボットがマスター・ヨーダまたはシルベスタースタローンのように話すことを求め得る。音声パラメータを所定パラメータで適切に修正することにより、近似結果が得られる。「オンザフライ」模倣は、実現性があり(音声抜粋を記録し、パラメータを導出し、適切な修正を適用することにより)、ロボットが1人または複数のユーザを模倣できるようにすることができる。一実施形態では、複数の音声スキンが組み合わせられ得る。いくつかの音声スキンは組み合わせには不適合であり得る(互に排他的であり得る)。他のいくつかはある程度は組み合わせられ得る。他のいくつかは追加的であり得る。
「対話実行規則」は、1つまたは複数の音声スキンおよび/または対話コンテンツまたはパターンの適用を規定する実行規則を指す。「実行規則」は、ロボットが言い得る語句を適合化させる(語彙、文章の前または後にいくつかの表現を追加すること等)スクリプト、プログラムコードまたはそうでなければ論理式または論理規則を含み得る。(例えばロボットは質問に答えようとするまたは状況を明確にしようとするので)ロボットが人間ユーザに何かを言おうとするときはいつも、ロボットの計画文章が1つまたはいくつかの対話実行スキン規則に一致すれば、文章はこれらの規則に従って修正され、その後、ロボットは修正された文章を言うことになる。一実施形態では、1つまたは複数の対話実行規則が1つまたは複数の文章(すなわち、ロボットにより言われるように計画された文章)に適用され得る。一実施形態では、前記規則は、ロボットにより言われる各文章に適用され得る。一実施形態では、規則は、文章のサブセット(例えば所定単語または表現を含む)に適用され得る。対話実行規則は予め定義され得る。対話実行規則はまた、インターネットから動的に取り出され得る。いくつかの規則は追加的であり得、他のいくつかは互に排他的であり得る。例えば、実行規則は年齢制限を含み得る(例えば符号化し得る)。蓄積実行規則が使用または適用され得る。例えば、特定の音声スキンは、12歳を越えるおよび/またはいくつかの状況(当日の時刻、聴衆内の測定された感情等)に従うユーザの前で承認され得る。いくつかの実行規則はユーザ(例えばペアレンタルコントロール)により構成可能であり得る。
一例として、文章「私は今ダンスをすることができる」は標準所定句(ロボットメモリ内に書き込まれた)に対応する。「私は今ダンスをすることができるhein biloute」は「Ch’tis」と呼ばれる対話パターンの適用後にロボットにより表現される語句に対応する。音声レンダリングまたは音声スキン「Ch’tis」はさらに(任意選択的に)、適切な音声変調を提供し得る。形式と実体は以下のように多様に修正され得る:特定のアクセントまたはイントネーション(例えば、北フランス形式)が追加され得る、ロボットにより使用される語彙は豊富にされ得る、新しい会話トピック(例えば質問および回答のモデル)が追加され得る。
対話モード(対話コンテンツおよび/または対話スキン)は、ソフトウェア編集者により定義またはプログラムされ得るソフトウェアパッケージ内に実装され得る。このようなソフトウェアは修正可能であってもなくてもよい。換言すれば、対話モード(例えば音声スキン)は完全に判断され得る(例えば、いかなるさらなるパラメータ化も公式に許容され得ない)。代替的に、対話モードは部分的にだけ判断され得る。例えば、いくつかの(例えば有限数の)ローカルパラメータがエンドユーザの管理下で残り得るが、設定の大部分は変更され得ない(例えば音声スキンの総合的健全性を維持するために)。
換言すれば、文字通りの意味を越えるソフトウェアアプリケーション(好適なコンピュータ装置上で実行されると1つまたは複数の工程を行い得るコンピュータープログラムコード)は、対話コンテンツ(例えば予想される質問に対する応答を含む所定の文章の集合)、および/または対話スキン(例えば、対話コンテンツの上のプログラミング、すなわち環境に応じた適応化などの実行規則、頭の運動との同期、もしあれば照明の活性化等)およびそれらの組合せ(例えばダンスをしながらの対話)であり得る(または関連付けられ得る)。ソフトウェアアプリケーションは相互依存し得る。多モード出力の結果として、ソフトウェアアプリケーションはさらに組み合わせられ得る(出力レベルでまたは下位レベルで、例えば変数またはパラメータまたはスクリプトはソフトウェアアプリケーション間で共有または修正され得る)。例えば、ロボットは、外の寒さを象徴するジェスチャの組み合わせにより、話された結果「外は−10℃である」を伴い得る。
ソフトウェアアプリケーションは有利には、対話インタフェースを介し(すなわちユーザとの(「自然な」)対話の行為の過程中に)ユーザへ呈示され得る。換言すれば、対話システムは、ユーザが1つまたは複数のアプリケーションを立ち上げるまたは行うことができるための「ボトルネック」として働き得る。
図1は、本発明のグローバルおよび技術的環境を示す。ロボット130はセンサとアクチュエータを含む。論理または「マインド」100はロボット内に実装されるまたはそれに関連付けられ(例えば遠隔的に)、ソフトウェア110とハードウェア部品120の集合を含む。ロボット130は1人または複数のユーザ150と相互作用する(1つまたは複数の対話セッションを含む相互または双方向通信140により)。前記1人または複数のユーザは、接続装置(サーバのクラウドとおよび/または他のロボットまたは接続対象の一団などと通信する)であり得る他の計算装置160(例えばウエアラブルコンピュータまたはスマートフォンなどのパーソナルコンピュータまたはタブレット)にアクセスし得る。特に、接続装置はウエアラブルコンピュータ(例えば、時計、眼鏡、没入型ヘルメット等)であり得る。
同図の特定ロボット130は、本発明が実施され得るヒューマノイドロボットの一例と考えられる。同図のロボットの下肢は、歩行には機能的でないが、置かれた表面上で転回するそのベース上で任意の方向に移動し得る。本発明は、歩行に適したロボットにおいて容易に実施され得る。
本発明のいくつかの実施形態では、ロボットは様々な種類のセンサを含み得る。それらのいくつかは、ロボットの位置および運動を制御するために使用される。これは例えば、ロボットの胴内に配置された慣性ユニットのものであり、3軸ジャイロメータおよび3軸加速度計を含む。ロボットはまた、ロボットの額上(頂部と底部)に2つの2DカラーRGBカメラを含み得る。3Dセンサはまた、ロボットの眼の背後に含まれ得る。ロボットはまた、その環境内の物体/生物に対するその相対位置を感知することができるようにレーザ光線発生器を任意選択的に(例えば頭内とベース内に)含み得る。ロボットはまた、その環境内の音を感知することができるマイクロホンを含み得る。本発明のロボットはまた、その環境内の物体/人間までの距離を測定するために、恐らくそのベースの前部および後部に位置するソナーセンサを含み得る。ロボットはまた、人間との相互作用を可能にするためにその頭およびその手上に触覚センサを含み得る。ロボットはまた、その経路上で遭遇する障害を感知するためにそのベース上にバンパを含み得る。その感情を翻訳しその環境内の人間とコミュニケーションするために、本発明のロボットはまた、例えばその眼、耳内におよびその肩上にLEDをそして拡声器(例えばその耳内に配置される)を含み得る。ロボットは、様々なネットワーク(3G、4G/LTE、Wifi、BLE、メッシュ等)を介し基地局と、他の接続装置と、または他のロボットと通信し得る。ロボットは電池またはエネルギー源を含む。ロボットは、ロボットが含む電池のタイプに適した充電ステーションにアクセスし得る。ロボットの位置/運動は、センサの測定という観点では、各肢により定義されたチェーンと各肢の端において定義されたエフェクタとを活性化するアルゴリズムを使用することによりそのモータにより制御される。
特定実施形態では、ロボットは、その環境へメッセージ(音声、映像、ウェブページ)を伝達し得るタブレットを埋め込み得る、またはタブレットの触覚インタフェースを介しユーザからエントリを受信し得る。別の実施形態では、ロボットはスクリーンを埋め込まないまたは提供しないが、データまたは情報がロボットの近傍の表面上に投射され得る映像プロジェクタを有する。前記表面は平ら(例えば床)であってもなくてもよい(例えば、投射面の変形はほぼ平らな投射を得るために補償され得る)。両方の実施形態(スクリーンを有するおよび/またはプロジェクタを有する)では、本発明の実施形態は有効なままである:すなわち、請求相互作用モデルは視覚的相互作用手段により補足または補完されるだけである。いずれにせよ、グラフィック手段が故障しているまたは意図的に非活性化されていたとしても、相互作用の会話モードは存続する。
一実施形態では、ロボットはこのようなグラフィックユーザインターフェース手段を含まない。既存ヒューマノイドロボットは通常、高度スピーチ能力を備えるがGUIを備えない。増加するユーザのコミュニティは恐らく、選択および/または必要性(実際的状況のために若者、障害者等)により、ロボットと通信するために、グラフィック手段(例えばタブレット、スマートフォン)を補足物としてすら使用しないことになる。
ソフトウェアの集合110は(非網羅的に)、「抽出器」111、「活動示唆」112、「マインド優先順位付け」113、「パッケージ管理者」114、「ユーザ履歴データ」115、「集中自律的活動」116、「集中対話トピック」117、および「健康監視サービス」118を含む互いに相互作用するソフトウェアモジュールまたはオブジェクトまたはソフトウェアコード部品を含む。
「エクストラタサービス」111は通常、ロボットの内部または外部にある何かを感知または認識し、短期データをロボットのメモリ中に提供する。抽出器サービスはロボットセンサから入力測定結果を受信し、これらのセンサ測定結果は、ロボットの位置、その環境内の物体/人間の識別、前記物体/人間の距離、人間により発声された単語またはその感情に関連する関連データを抽出するように前処理される。抽出器サービスは特に、顔認識、人認知、係合ゾーン、ウエイビング検出、微笑検出、凝視検出、感情検出、音声分析、スピーチ認識、音声定位、運動検出、パノラマコンパス、ロボット姿勢、ロボット健康診断、電池、QRコード(登録商標)取り扱い、ホームオートメーション、種族、時間およびスケジュールを含む。
「アクチュエータサービス」はロボット130に行為を物理的に行わせるまたは行為を行わせる。運動追跡器、LED、行動管理者は「アクチュエータサービス」である。
「データサービス」は長期的に格納されたデータを提供する。データサービスの例は、ユーザデータとロボットで行ったもののその履歴とを格納するユーザセッションサービス115と、ロボットにより行われる手順のスケーラブルストレージにそれらの高レベル定義、立ち上げ条件およびタグを与えるパッケージ管理者サービス114である。「パッケージ管理者」は特に、活動と対話のスケーラブルストレージとマニフェストとを提供する。「マニフェスト」は、立ち上げ条件、タグおよび高レベル記述などのメタデータを含む。
「マインドサービス」(例えばサービスマインド優先順位付け113)は、行為を開始しているときにロボットの中央「マインド」により制御されるものである。「マインドサービス」は、「アクチュエータサービス」130、「抽出器サービス」111および「データサービス」115を繋ぎ合わせる。ベーシックアウェアネス(Basic Awareness)は「マインドサービス」である。ベーシックアウェアネスは、運動サービスに移動するように告げるための人認識、運動検出および音声定位などの「エクストラタサービス」を支持する。「マインド」113は、状況に基づくベーシックアウェアネスの行動を構成する。またある時には、ベーシックアウェアネスは、ひとりでに行動するまたはランニング活動(Running Activity)により構成されるかのいずれである。
「自律的生命(autonomous life)」はマインドサービスである。「自律的生命」は行動活動を行う。状況のコンテキストに基づき、マインドは、何の活動に焦点を合わすべきかを自律的生命に伝え得る(「集中自律的活動116」)。マニフェスト内のメタデータはこの情報をマインド内に結びつける。いかなる活動もオペレーティングシステムAPIのうちの1つまたは複数へアクセスし得る。活動はまた、何の活動に焦点を合わすべきかを自律的生命に直接伝えてもよいし、何のトピックに焦点を合わすべきかを対話サービスに伝えてもよい。
「対話」サービスはマインドサービスとして構成され得る。「対話」サービスは、スピーチ認識抽出器を支持し、「アニメ化スピーチアクチュエータサービス」を使用して話すことができる。状況のコンテキストに基づき、マインドは、何のトピック(「対話トピック」)に焦点を合わすべきかを対話サービスに伝え得る。「対話」サービスはまた、会話を管理するためのアルゴリズムを有し、通常は、ひとりでに行動する。対話サービスの1つの部品は「集中対話トピック」サービス117であり得る。対話トピックは、いつでも、異なる活動または対話トピックへ焦点を切り替える(またはそれを実行するまたは立ち上げる)ようにマインドにプログラム的に告げ得る。対話トピックを判断する可能な方法の一例は以下のものである:対話トピックまたは活動の立ち上げ条件が真または偽になった瞬間に、全ての可能な活動または対話トピックのリストがさしあたりマインドへ送信される、リストは活動優先順位付けに従ってフィルタ処理される、リスト順番がランダム化される、「ユニーク」でありかつそれほど頻繁に開始されなかった活動または対話トピックへ優先順位を与えるためにリストがソート(または採点)される、このリスト内の最上位対話トピックまたは活動が、実行された以前の活動と同じ活動ではないということを確認するための特別の照査。リストは再び、ユーザの嗜好に従ってソートされフィルタ処理され得る。
ロボットは「健康監視」サービス118を実施し得る。このようなサービスは、ロボットの様々な優先度を精査または制御または調節するデーモンまたは「ウオッチドッグ」として働き得る。このようなサービスは、ロボットの内部部品の状態を(連続的、間欠的または定期的に)監視し得るともにハードウェア障害を測定または予期または予測または補正し得る。一つの発展形態では、ロボットの一団が監視される(例えばインストールベースで)。埋め込みサービスは故障状況を連続的に検知し、それを「クラウド」サービスと同期させ得る(例えば毎分毎に)。
ハードウェア部品120は、処理手段121、メモリ手段122、入出力I/O手段123、マスストレージ手段124およびネットワークアクセス手段125を含み、前記手段は互いに相互作用する(キャッシング、スワッピング、分散計算、負荷平衡等)。処理手段121はCPU(マルチコアまたはメニーコア(manycore))またはFPGAであり得る。メモリ手段122は、フラッシュメモリまたはランダムアクセスメモリの1つまたは複数を含む。I/O手段123は、スクリーン(例えばタッチスクリーン)、ライトまたはLED、触覚フィードバック、バーチャルキーボード、マウス、トラックボール、ジョイスティックまたはプロジェクタ(レーザプロジェクタを含む)のうちの1つまたは複数を含み得る。ストレージ手段124は、ハードディスクドライブまたはSSDの1つまたは複数を含み得る。ネットワークアクセス手段は、3G、4G/LTE、Wifi、BLEまたはメッシュネットワークなどの1つまたは複数のネットワークへのアクセスを提供し得る。ネットワークトラフィックは暗号化され得る(例えばトンネル、SSL等)。
一実施形態では、計算資源(計算機、メモリ、I/O手段、ストレージおよび接続性)は例えばローカル資源(ロボット自身に利用可能な)に対する補足として遠隔的にアクセスされ得る。例えば、別のCPUユニットが音声認識計算タスクのクラウドを介しアクセスされ得る。計算資源はまた、共有され得る。特に、複数のロボットが資源を共有し得る。ロボット近傍の接続装置はまた、例えばセキュアプロトコルを介し資源をある程度共有し得る。表示手段も共有され得る。例えば、テレビはロボットにより別のディスプレイとして使用され得る。
図2は、本方法の実施形態のいくつかの態様を詳述する。ロボット130は人間ユーザ150と相互作用する(例えば対話、ジェスチャ、命令をやり取りする)。相互作用140の一部は、文章(回答、質問、命令、確証、コメント等)を含む対話である。ロボットは通常、そのデフォルト標準音声スキン(形式)を使用し、標準および所定対話コンテンツ(実体)を出力する。例えば、ロボットは対話文章141を述べる。いくつかのパラメータ(ユーザ要求または環境パラメータ)に依存して、ロボットは、別の音声スキンおよび/または別の対話コンテンツ(例えば142)へ切り替わり得る。ロボットはまた、初期またはデフォルト音声へ切り替え復帰し得る。詳細には、デフォルト音声スキンおよび対話コンテンツ200(または初期/修正音声スキンおよび/または修正対話コンテンツ)で始まり、対話実行規則220は、対話が修正されなければならないかどうかまたは対話がどの程度修正されなければならないかを判断する。
対話実行規則220は、例えば、ユーザ要求221によりおよび/または認識された環境222により影響または判断される(例えば、センサまたはロボットにより判断され、抽出器によりまたはロボットのマインド内に実装されたロジックに関する上記実施形態に従ってフィルタ処理される)。例えば、環境パラメータは、近傍の1人または複数のユーザ(子供、大人)の年齢グループ、近傍の1人または複数のユーザの性別、近傍のユーザの総数、現在位置、現在の日時、1人または複数のユーザの現在の気分(例えば、微笑む、笑う、叫ぶ等)を含む。ユーザ要求221は、新しい対話モードの活性化の「オンデマンド」モードに対応する(例えば、ユーザは「今ダーク・ベイダーを真似よ」と言うことができる)。認識された環境を介した判断は、新しい対話モードの活性化の「自動トリガ」モードを明確に示す。ロボットは、対話モードの1つまたは複数のパラメータを積極的に活性化または非活性化し得る(音声スキンを弱めるまたは誇張する、対話コンテンツを適合化する等)。活性化(または非活性化)の2つのモードは組み合わせられ得る、すなわち、新しい対話モードのトリガは、ユーザ要求によりおよび環境により部分的に判断され得る。例えば、ユーザ要求に応じて、環境パラメータは対話モードの変化を確認または禁止し得る。代替的に、自動スイッチは、ユーザによる確認または承認が活性化されることを必要とし得る。対話モードは通常、いつでも活性化または非活性化され得る。一実施形態では、ロボットが複数の対話モードを行きつ戻りつ使用し得ると楽しくなると期待できる。任意選択的に、変更回数の制限が実施され得る(ユーザの没頭を回避するために、またはロボットが正気でないという印象を与えるために)。
依然として独立に取り扱われる対話実行規則220が実体および/または形式に作用する。規則は、音声レンダリング変更230を制御するだけでなく、新しい対話コンテンツ210のローディング(例えば、周知文章を表現することにより劇場映画への参照)を判断し得る。いかなる対話コンテンツも選択されなくても(211)、新しい音声スキンが適用され得る(230)。新または修正対話コンテンツがまた、新しい音声スキン231無しに適用され得る。判断されたパラメータが対話モードに適用される(または、新しい対話モードは、ロボットにより使用される現在の対話モードにロードされるまたはそれと置換される)。例えば、「Ch’tis」と呼ばれる対話モードが適用され、文章142が朗読される。全体としてまたは部分的に対話コンテンツおよび/または音声スキンパラメータはインターネットまたはクラウド223から取り出され得るということが観測される。
対話モードの例(対話コンテンツ、特に音声スキンの)について次に説明する。
一実施形態では、「ユーティリィティ」対話モード(例えば対話コンテンツの修正)は、ロボットが所与の文章を様々なやり方で言うことができるように、1つまたは複数の辞書(またはシソーラス)を使用できるようにする。例えば、同義語が使用され得る。有利には、このような実施形態は、ロボットが単語を繰り返すのを回避する。言語学者(予め作成された対話文章を編集する)は、ロボットが多くの事項について話すことができるようにするために、多くの対話コンテンツまたはトピックを書くことができる。同義語の使用は、人間が様々な単語を使用する際に纏めてそうするように、ロボットの表現の多様性を増加する。対話モードは対話文章を異なるようにし得る。例えば、「今日は天気が良い」と繰り返す代わりに、ロボットは「今日は天気が素晴らしい」と言うことができる。
一実施形態では、「ローカル」適応化は、対話コンテンツおよび/または音声スキンを、地理的位置を含む複数のパラメータに応じてカスタム化または個人化できるようにする。例えば、いくつかの地理的領域(例えばロボットが商業化される)のいくつかの言語学的特徴は適切な音声スキンのアプリケーションにより取り扱われ得る。このような実施形態では、いくつかの単語の朗読は、例えば地理的位置に基づき適応化され得る。音声スキンのトリガ条件は例えば地理的位置パラメータを含み得る。実際、フランスの南部において商業化されるロボットは南部フランスアクセントを自動的にロードし得、フランスの北部の北部アクセントについても同様である。慣用表現もまた適用され得る。
一実施形態では、「教育的」対話モードが実施または実行され得る。一般的に言えば、実質的コンテンツの追加は対話モードのアプリケーションの一部であり得るので、いくつかの教育的範囲が想定され得る。このようなモードでは、(例えば、前提条件、目的の定義、教育的コンテンツ従って同化の検証工程を含む)教育的対話モードが実施され得る。ユーザは、コンパニオンロボットにより外国語を学習することができる。ユーザはまた、母国語のいくつかの様相を発見し得る。例えば、様々な言語スタイルを若いユーザに教えることができる(仏語「soutenu」、仏語「Verlan」、仏語「argot」等)。対話モードはまた特定の専門的隠語(医療、弁護士などの)を実装することができる。
一実施形態では、「楽しみ(fun)」対話モードが実装され得る。ロボットは例えば、最近公開された劇場映画を真似るまたは参照することができる。例えば、音声スキンは、「ダーク・ベイダー」または「マスター・ヨーダ」スキンであり得る。(ヨーダキャラクタは動詞と主語を頻繁に並べ替える、ダーク・ベイダーは文章の終わりに「私はあなたのお父さんである」と追加し音を立てて呼吸し得る)。
一つの発展形態では、映画館の公開は、ロボットにロードされると前記ロボットに特定対話モードを実施させるダウンロード可能プログラムに関連付けられる(対話コンテンツおよび/または音声スキン表現性という意味合いで)。例えば、「Bienvenue chez les Ch’tis」のような映画館の公開後、対応対話モードは「楽しいもの(goodies)」または派生商品として利用可能かもしれない。一実施形態では、DVDジャケットの裏または映画チケットの上の利用可能なQRコード(登録商標)が画像取得手段により読み取られ得、対応対話モードを実施するそれらの対応ソフトウェアプログラムがダウンロードされ、さらにインストールされ得る。任意選択的に、このようなソフトウェアプログラムの効果の期間は限定され得る(例えば2週間)。別の実施形態では、有名スターまたは有名人またはヒーロがディジタル対話モードカウンターパートを有し得る。例えば、クロードフランソワ(フランスで有名な歌手)のファンは、ロボット内に対応音声スキン(例えば声帯摸写、イントネーション)および/または対話コンテンツ(例えば複製、引用、インタビューの正確な複製または復元物等)を実装し得る。多モードオブジェクトとして、上記対話モードに加えて(および任意選択的に)、ロボットは例えば、クロードフランソワのように振り付けまたはダンスをすることができる、またはもっぱら同歌手の過去の記録インタビューの実際の抜粋により応答することができる(妥当な場合著作権面に関して)。
一実施形態では、ロボットは、ユーザとの相互作用から長期的同化に達し得る。例えば、個人化および持続的対話モデルは、所与のロボットに次第に関連付けられ得る。長期的習性の選択および持続は、ロボットに関連付けられた「キャラクタ」の一意性を規定するのを助け得る。例えば、「vin de diouss」のようないくつかの表現は、スキンの特定態様が恒久的に実施されるように何人かのユーザに沿った十分に高い評価を提示し得る。従って、スキン毎に、ロボットの「個性」は、様々な対話モード(特に音声スキン)の様々な特殊性を混合することにより強化され得る。
言語相互作用は、ロボットとユーザの両方の学習曲線を意味し得る。このような相互作用は、参加者のうちの1人がロボットでも「社会的相互作用」と名付けられ得る。激励(確認)により中断される繰り返しおよび反復言語相互作用は例えば、学習活動を容易にし得る。対話相互作用は一般的には、「利用」段階と「学習」段階との分離を低減する。コンパニオンロボットは、例えば人間の言語表現を再使用することによりおよび/または同様な音声速度により「教育者」の真似をしようとし得る。ロボットとのより多くの相互作用は通常、知識ベースが豊富にされ相互査証されるのでより多くの適切な相互作用を意味する。
対話モードのトリガの例(例えば実行規則による、例えば対話コンテンツおよび/または対話スキンの活性化または非活性化)について次に説明する。
対話モード(例えば音声スキン)は1つまたは複数の実行規則に関連付けられ得る。対話モードはこのような実行規則に従ってトリガ(活性化または非活性化)され得る。様々な実施形態について以下に説明する。人間ユーザとロボット間の文章を含む対話中に対話コンテンツと対話音声スキンを含む対話モードの立ち上げまたは実行をトリガするいくつかのやり方がある。1つまたは複数の対話モードの立ち上げまたは実行をトリガするこれらの様々なやり方(特に以下説明される)は独立し得、さらに互いに組み合わせられ得る。
一実施形態では、1つまたは複数のソフトウェアアプリケーションの立ち上げまたは実行はユーザとの対話(ユーザとの相互作用)中にトリガされる。音声信号が捕捉され、任意選択的にフィルタ処理され、強化され、スピーチツーテキスト(speech−to−text)操作が行われ(ロボット上でローカルにおよび/またはクラウド上で遠隔的に)、得られたテキストが解析され、1つまたは複数の比較が前記パターンにより行われる。1つまたは複数が一致すると、任意選択的に閾値により、1つまたは複数の対話モードが、ロボット上にインストールされたものの中から選択される。その結果、1つまたは複数の対話モードが実行される。
一実施形態では、対話モードの立ち上げは完全に自動である、すなわちユーザの同意または確認無しに行われる。一つの発展形態では、ユーザまたはスーパーユーザ(例えば親)が、対話モードの実行を中断または中止または終結または終了し得る。別の実施形態では、対話モードの立ち上げは、ユーザによる明示的確認を必要とする。ロボットは、いくつかの対話モードを立ち上げる意図を宣言し得るが、継続する前に確認を待つことになる。例えば、ロボットは「私はダーク・ベイダーのように話すことを提案する」と宣言することができ、ユーザは依然として「今はダメ」と応答し得る。
一実施形態では、対話モードは立ち上げ条件またはパラメータに依存して実行され得る。これらの条件またはパラメータは事実または規則またはその両方(事実に基づく規則)であり得る。これらの事実は例えば、ユーザのタイプまたはカテゴリーと、1つまたは複数の環境値(例えば現在のローカル天気、日時、検出された感情、ユーザの数等)により特徴付けられた現在のコンテキストまたは状況または環境とを含む。実行規則は簡単な規則から複雑な規則まで及ぶ。実行規則は条件付きであり得る。例えば、一実施形態では、対話モードの実行を認証または許容するために複数の規則が同時に満足されなければならない。別の実施形態では、複数の規則が連続的に満足されなければならない(例えば一定の順番でおよび/または時限または閾値により)。いくつかの実行規則は予め定義され得る。いくつかの他の実行規則は動的に定義され得る(例えば、いくつかの規則はインターネットから取り出され得る)。
一実施形態では、実行規則は簡単な規則であり得る。例えば、実行規則は年齢制限を含み得る(例えば符号化し得る)。別の実施形態では、複数の実行規則が累積的に使用または適用され得る。例えば、特定の音声スキンは、12歳を越える年齢のユーザの前でおよび/またはいくつかの状況(当日の時刻、聴衆内で測定された感情等)に従って認証され得る。一実施形態では、対話音声スキンまたは対話コンテンツのアプリケーションは予め定義された事象が検出されるとロボットによりトリガされ、前記事象は、時間判定基準(カレンダー、当日の時刻等)と空間的判定基準(近傍において検知されたユーザの数、前記ユーザのそれぞれの年齢、前記ユーザから認識される感情的態度、例えば微笑むまたは微笑まない)との特定組み合わせを判断する。
一実施形態では、いくつかの実行規則はユーザにより構成可能(例えばペアレンタルコントロール)であり得る。いくつかの実行規則は予め定義され得、他の実行規則は例えばインターネットからおよび/または他のロボットから動的に取り出され得る。対話モードは同じ対話中に活性化または非活性化され得る:すなわち、これらの活性化または非活性化は、動的であり得、例えば認識された環境に様々なやり方で依存し得る。
一実施形態では、対話モード(すなわち、対話コンテンツおよび/または対話スキン独立に)は、「タグ」の使用および/または「条件」の使用および/または「前提条件」の使用を含むいくつかのパラメータに依存して活性化または終了され得る。
タグは、ロボットが言い得る1つまたはいくつかの表現に関連付けられ得るマーカである。これらのタグは、動的に活性化または非活性化され得、関連表現が保存され得るかどうかを判断し得る。例えば、ロボットが「料理について話したいですか?」と尋ねた後、ユーザが「いいえ、私は、料理に興味がない」(等)と応答すれば、タグ「料理」が非活性化される。ロボットは、識別されたユーザに関連付けられた対話トピックのリストを更新する。ロボットは前記対話トピックを将来回避することになる。
「条件」および「クロス条件」は、ロボットが所定変数(例えばユーザ嗜好)に応じて述べようとするものを修正できるようにする。例えば、ロボットにより尋ねられた質問「あなたは何歳ですか」に、ユーザは「私は12歳である」と答え得る。この場合、ロボットは、識別されているユーザの年齢値として値12を格納する。後で、ロボットは「今夜あなたは何をするの」と尋ね得る。ユーザが「何もしない」と応答すれば、ロボットは「夕方活動」に関連付けられた変数としてその応答を格納する。年齢グループと夕方の占有事項が無いことから、ロボットの推論は、夕方遅く「あなたは私と遊びたいですか?」と推測または提案する。
一実施形態では、トリガ(すなわち対話モードまたは音声スキンまたは対話コンテンツの活性化または非活性化)はコンテキスト(例えば環境、データ、時間、場所等)により駆動され得る。一実施形態では、ロボットは1つまたは複数のユーザ表現を監視し記録し得る。「環境」のような単語を検出すると、ロボットは「環境,環境,est ce j’ai une gueule d’atmosphere?」と述べ得る。これは文化的関連性の例である。さらに、対話はまた、さらに詳述された事実および規則により(例えば、所謂「事象」検出により)トリガされ得る。例えば、いくつかの対話モードまたはスキンはいくつかの年齢グループの存在下で許容されないかもしれない。実際、ロボットは例えば、「少なくとも1人のユーザが12歳未満である」と評価し、会話の中で単語「フレンチフライ」を検出し、その後特定の所定スキン(「Ch’tis」)をロードし得る。事象の別の例は、ユーザがロボットの頭に触れると発生する。このような場合、特定のスキンがロードされ、活性化され、実行され得る。事象は、空間的配置、ジェスチャまたはジェスチャの組み合せ、対話のコンテンツ(キーワードまたはキー表現)、年齢グループおよび/または性別の評価、ユーザ嗜好などのパラメータを含み得る。
一実施形態では、1つまたは複数のアプリケーションが対話中に実行され、1つまたは複数の実行規則の達成(または検証または満足)によりトリガされる。人と機械間の対話が監視され、「パターン」が(例えば)対話フローから連続的に抽出される(「協働対話(collaborative dialog)」モード)。一実施形態では、スピーチ・フローが受信され連続的に解析される。抽出は、マーカの有無にかかわらずスピーチ・フロー内の音声命令(例えばキー表現)の単なる抽出を越える(「OK Glass、写真を撮って」)。特に、ユーザの言葉または表現が、抽出され、所定条件、タグ、マーカまたはクロス条件と比較または照合される。
別の実施形態では、1つまたは複数の実行規則が予め定義される。ソフトウェアアプリケーションは、前記対話モードの実行を許容または認証できる実行規則のリストを含むファイルが編集者または発行者により提供される。実行規則は試験される、すなわち、実行規則が満足または許容または検証されれば、1つまたは複数の対話モードが選択され得る。いくつかの規則は満たすべき最小判定基準であり得る。いくつかの他の規則時間は好適な立ち上げまたは実行条件を定義し得る。例えば、最小実行規則は「ユーザが12歳未満であり、午後22時前であれば、ダーク・ベイダー音声スキンが認証される」であり得、好適な規則は「3人のユーザが5m内におり、少なくとも2人のユーザが12歳未満であり、少なくとも1人が微笑んでおり、他の誰も指示に反対しなければ、ダーク・ベイダーの声で冗談を提案する」であり得る。
様々な実施形態について説明する。
逆行ループと関連性フィードバックについて次に説明する。一実施形態では、人間ユーザの観点からの、所与の対話モード(例えば音声スキン)の全体的成功または失敗が受信および/または定量化され得る。一つの発展形態では、きめの細かい粒度により、ロボットの各言語イニシアチブがユーザにより確認または拒絶され得る(例えばジェスチャと音声命令を組み合わせる複雑な人間行動から生じる明示的承認またはさらには暗黙的承認を検知することにより)。さらに、協働モデルが実施され得る:すなわち、所与の表現の検証または無効化がユーザ/ロボットのコミュニティの中で統計的に行われ得る。例えば、表現「cha va biloute」がインストールベースで75%を上回る肯定的フィードバックを受ければ、前記表現はグローバルスケールで検証され得る。反対に、表現「a l’arvoiure」が少なすぎる肯定的フィードバックを受ければ(または否定的フィードバックを受ければ)、前記表現は、特定の対話モードまたはモデルから恒久的に除去され得る。
一つの発展形態では、「スキン化された(skinned)」対話に対し人間から与えられる応答が記録され、さらに活用され得る。一実施形態では、上記応答はロボット介入の品質を計量するために使用される。別の実施形態では、これらの応答の実体は、会話モデルをさらに豊かにするために使用され得る。例えば、応答が回帰的に観測されれば、応答は対話モード(すなわち対話コンテンツ)内でさらに再使用される。
技術事項に関わるビジネス態様に関し、一実施形態では、対話モード(例えば音声スキン)は電子マーケットを介し配布される。いくつかのスキンはダウンロードされ得る、すなわち、他のいくつかは支払いを必要とし得る。いくつかのスキンは、時間、領域または他のハードウェア要件が制限され得る。
コンパニオンロボットが、人間が述べるあらゆる単語を理論的に記録できたとしても、プライバシー面がこのような記録を防止する。機械学習手法を使用することにより、ハイレベルおよび無侵襲特徴がロボットにより依然として取得され得る。例えば、機械学習手法により、再現パターン(語彙のタイプ、好適な表現等)が抽出され得る。同様に、劇場映画からの抽出の制限が副題の解析から発生し得る(マスター・ヨーダの例では、対話コンテンツはこのような解析から判断され得る)。トーンと周波数の面に関し、指導付き学習(supervised learning)は、ロボットがいくつかの指定人間を真似できるようにする。例えば、ロボットは話すことを開始することができ、さらに、いくつかのパラメータを修正する(「少しよりはっきりと話す」)ように要求され得る。一実施形態では、実装された音声スキンと実際の音声抜粋との自動比較が行われ、これにより改善フィードバックループの機会を提供し得る。
対話コンテンツのオーサリングについて次に説明する。様々なエンティティが対話コンテンツを編集する可能性がある。一実施形態では、オペレータまたはロボットプラットホームが対話文章をオーサリングすることができる(例えば、言語学者が対話文章を書く)。一実施形態では、対話コンテンツは第三者会社(例えばソフトウェア開発者)により書かれ商業化される。一実施形態では、対話モードはロボットのユーザまたは所有者により書かれる。例えば、ソフトウェアツール(「DJスキン」)またはウェブプラットホームは音声スキンの生成または修正を容易にし得る。ユーザは、新しい音声スキンを提出し、それらをオンラインで編集し、人気のあるものに投票するまたはそれを評価し得る。編集は、所定の音声スキンを混合する工程、および/または音声スキンを微調整するためのいくつかの生成コントロールをユーザへ提供する工程および/または音声または記録された文章またはそれらの組合せをアップロードし共有する工程を含み得る。利用可能スキンは無料または有償ライセンスを伴ってもよいし伴わなくても良い。音声スキンは、例えば様々な音声スキンの様々なアプリケーションを聴き1つまたは複数の好適なアプリケーションを選択し得るロボットのユーザにより選択され得る。別の実施形態では、対話は多様なエンティティにより共同執筆される。一実施形態では、対話は、インストールベースのロボットから、および様々なロボットの所有者であるユーザのまさにその応答から強化される。前記強化は初期対話の補足であり得る。別の実施形態では、また補足または代替案として、対話コンテンツはインターネットコンテンツ上で行われる抽出により書かれる(例えば、指導付きまたは指導無し方法が質問と回答を識別、抽出、使用できるようにする)。有利には、このような実施形態は、対話コンテンツの迅速な改善と分散フィードバックの受信とを可能にする。前記改善は、インストールベース全体に急速に伝達され得る。例えば、閉ループ機械学習を使用することにより、人気のある音声スキンは世界中に伝達され得る。
複数のエンティティが対話モードの定義に寄与することができれば(すなわち、対話コンテンツおよび/または音声スキンおよび/または関連実行規則を提供することにより)、最終実施形態はロボットの供給者により制御され得る。規則層の別のコントロールは、対話モードの使用を、変調、フィルタ処理、減衰、増幅、増加、促進、低減、禁止、制限、回避、または禁止し得る。特に、説明したように、対話モードの使用は実行規則により調整され得る:すなわち、ロボットの製造者または供給者はこれらの規則を習得することができる、または部分的に習得することができる。
一実施形態では、ロボットの供給者は最終音声レンダリング装置(すなわち類推的復元前の最新の点)を制御することができる。換言すれば、選択された対話モードまたはコンテンツまたはスキンの対話の予め作成された文章への適用から生じるロボットの計画音声表現は実効的音声復元の前にフィルタで除去され得る。
ロボットが良くない言葉を朗読しないということを確実にするまたは合理的に確実にするために、認証された単語のホワイトリスト、禁語のブラックリスト、およびグレーリスト(認証され得る、または実際のコンテキストに依存しない単語または表現)が実装され得る。このような場合、対話コンテンツの予め作成された文章への音声スキンの適用の結果がこのようなリストと比較され得る。リストの使用を越える複雑な論理規則がまた使用され得る。成功次第、認証または許容されれば、上記文章は朗読される(および/または、それに応じて修正され得る)。
ロボットにより表現される最終対話への1つまたは複数の対話コンテンツおよび/または音声スキンの適用の別の規制方法はセキュアブート(secured boot)方法の使用を含み得る。例えば、特定対話モードを符号化する各ソフトウェアパッケージがハッシュ値(例えば、2進形式のプログラムの)に関連付けられる。ロボットにインストールされたソフトウェアパッケージのハッシュ値の検証により証明された前記プログラムの適正な存在は、検証成功後のロボットの起動(または機能のいくつかの制約)を条件付きで認証し得る。
対話モード(一般的には、ロボットにインストールされたソフトウェアアプリケーション)の実行の別の規則として、ロボットの健康監視サービスが実行優先度を調整し得る。特に、ソフトウェアアプリケーションの実行はこのような「健康監視」サービスを考慮し得る。換言すれば、上位の優先度方式が対話モードを含むソフトウェアアプリケーションの実行をさらに規制し得る。一実施形態では、ロボットはユーザと相互作用しない(すなわち、誰とも相互作用しない)。このような場合、ロボットは自律的タスクを行う、または行い得る。別の実施形態では、ロボットは危険な状態(例えば「セーフガードモード」、低またはクリティカルバッテリレベル、転倒などの障害またはリスクの存在)にある。このような場合、ロボットの優先度は、それ自身の課題を処理し解決する(例えばそれ自身のタスクを行う)ことである。例えば、バッテリレベルがクリティカルであれば、ロボットはユーザとの対話を遮断し、エネルギー源ベースに到達しようとし得る。対話モードは、ユーザが近傍で検知されればおよび/またはロボットがクリティカル状況(ロボットはその基本機能を実行し得ない)にいなければ、活性化され得る。反対に、対話モードモジュールは、いかなるユーザも近傍に検知されなければおよび/またはロボットがクリティカル状況にいれば、非活性化され得る。
開示された方法は、完全ハードウェア実施形態(例えばFPGA)、完全ソフトウェア実施形態またはハードウェアとソフトウェア要素の両方を含む実施形態の形式を採り得る。ソフトウェア実施形態は、限定しないがファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本発明は、コンピュータまたは任意の命令実行システムにより使用されるまたはそれに関連して使用されるプログラムコードを提供するコンピュータ使用可能またはコンピュータ読み取り可能記憶媒体からアクセス可能なコンピュータプログラム製品の形式を採り得る。コンピュータ使用可能またはコンピュータ読み取り可能記憶媒体は、命令実行システム、装置、またはデバイスにより使用されるまたはそれに関連して使用されるプログラムを含み、格納し、伝達し、広め、または搬送し得る任意の装置であり得る。コンピュータ読み取り可能記憶媒体は、電子的、磁気的、光学的、電磁気的、赤外線、半導体システム(または装置またはデバイス)、または伝播媒体であり得る。

Claims (22)

  1. ロボットと人間ユーザ間の音声対話を取り扱うコンピュータ実施方法であって、前記方法は、
    前記音声対話中に、音声データを受信し前記音声データをテキストデータへ変換する工程と、
    前記テキストデータの1つまたは複数の対話モード実行規則の検証に応じて修正対話モードを選択する工程と、を含み、
    対話モードは1つまたは複数の対話コンテンツと1つまたは複数の対話音声スキンを含み、対話コンテンツは所定文章の集合を含み、前記集合は質問文と回答文を含み、対話音声スキンは、周波数、トーン、速度およびピッチを含む音声レンダリングパラメータを含み、前記1つまたは複数の対話コンテンツおよび/または音声スキンはウェブプラットホームを使用することによりオンラインでオーサリングまたは編集される、方法。
  2. 前記1つまたは複数の対話コンテンツおよび/または音声スキンの編集は、所定の音声スキンを混合する工程および/またはウェブプラットホームユーザに音声スキンを微調整する生成コントロールを提供する工程および/または音声または記録された文章またはそれらの組合せをアップロードし共有する工程を含む1つまたは複数の工程を含む、請求項1に記載の方法。
  3. 1つまたは複数の所定対話コンテンツおよび/または音声スキンは複数のパーティにより修正される、請求項1または2に記載の方法。
  4. 1つまたは複数の所定対話コンテンツはインターネットから抽出される、請求項1に記載の方法。
  5. 1つまたは複数の対話コンテンツを修正する工程と、1つまたは複数のユーザフィードバックを受信する工程と、前記1つまたは複数の修正対話コンテンツを別のロボットへ伝達する工程とをさらに含む請求項1に記載の方法。
  6. 前記1つまたは複数の対話コンテンツの使用を規制する工程をさらに含む請求項1に記載の方法であって、前記規制工程は、1つまたは複数の対話コンテンツおよび/または音声スキンおよび/または関連実行規則の使用を変調、フィルタ処理、減衰、増幅、増加、奨励、低減、禁止、制限、回避、または禁止する工程を含む1または複数の工程を含む、方法。
  7. 前記ロボットの製造者は、アナログ音声復元前の最終音声レンダリングまたは最新の点を制御する、請求項1に記載の方法。
  8. 前記選択された修正対話モードを実行する工程をさらに含む請求項1に記載の方法。
  9. 前記修正対話モードは、現在の対話コンテンツおよび/または現在の対話の現在の対話音声スキンを修正することにより得られる請求項1または2に記載の方法。
  10. 前記現在の対話コンテンツを修正する工程は、前記対話コンテンツの単語の同義語を使用する工程と、前記対話コンテンツの1つまたは複数の単語の挿入または順列または置換を含む構文修正を適用する工程とを含む、請求項9に記載の方法。
  11. 前記現在の対話音声スキンを修正する工程は前記現在の対話音声スキンの周波数および/またはトーンおよび/または速度および/またはピッチを修正する工程を含む、請求項9に記載の方法。
  12. 前記修正対話モードは所定の対話モードを活性化することにより得られ、前記所定対話は1つまたは複数の対話実行規則により選択され、前記所定対話モードは所定対話コンテンツおよび/または所定対話音声スキンを含む、請求項1に記載の方法。
  13. 対話モード実行規則は前記ロボットにより認識された環境に依存する、請求項1乃至12のいずれか一項に記載の方法。
  14. 対話モード実行規則は、ユーザの年齢、ユーザの性別、ユーザの気分、ユーザの感情、ユーザの数、ユーザとの相互作用履歴、ユーザ嗜好、ロボットおよび/またはユーザの空間的配置、ロボットおよび/またはユーザのジェスチャまたはジェスチャの組み合わせ、ロボットの環境内に検知された事象、ローカル天気、地理的位置、日付、時間およびそれらの組合を含むリストから選択されたパラメータを含む、請求項13に記載の方法。
  15. 対話モード実行規則はインターネットから動的に取り出されるおよび/またはユーザ構成可能である、請求項1に記載の方法。
  16. 1つまたは複数の対話コンテンツまたはその選択は1つまたは複数のフィルタを適用することにより緩和され、前記フィルタは1つまたは複数の単語のブラックリスト、1つまたは複数の単語のホワイトリスト、および/または対話モード実行規則を含む、請求項1に記載の方法。
  17. 前記ロボットにより表現される最終対話に対する前記1つまたは複数の対話コンテンツおよび/または音声スキンの使用の規則はセキュアブート方法の使用を含む、請求項16に記載の方法。
  18. 対話コンテンツおよび/または対話音声スキンは音声命令またはユーザ要求により選択される、請求項1に記載の方法。
  19. 欠落対話モードを識別する工程と、前記ユーザとの対話中に前記欠落対話モードを取り出し前記ロボットへインストールする工程とをさらに含む請求項1に記載の方法。
  20. 選択された対話モードを実行する前に前記ユーザの確認を受信する工程をさらに含む請求項1に記載の方法。
  21. 前記コンピュータプログラムが好適なコンピュータ装置上で実行されると請求項1乃至15のいずれか一項に記載の方法の工程を実行するための命令を含むコンピュータプログラム。
  22. 請求項1乃至15のいずれか一項に記載の方法の工程を実行するようにされた手段を含むシステム。
JP2016562858A 2014-04-17 2015-04-17 ロボットとの対話を取り扱う方法とシステム Expired - Fee Related JP6655552B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305579.6 2014-04-17
EP14305579.6A EP2933070A1 (en) 2014-04-17 2014-04-17 Methods and systems of handling a dialog with a robot
PCT/EP2015/058356 WO2015158878A1 (en) 2014-04-17 2015-04-17 Methods and systems of handling a dialog with a robot

Publications (2)

Publication Number Publication Date
JP2017517028A true JP2017517028A (ja) 2017-06-22
JP6655552B2 JP6655552B2 (ja) 2020-02-26

Family

ID=50628738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016562858A Expired - Fee Related JP6655552B2 (ja) 2014-04-17 2015-04-17 ロボットとの対話を取り扱う方法とシステム

Country Status (13)

Country Link
US (1) US10008196B2 (ja)
EP (1) EP2933070A1 (ja)
JP (1) JP6655552B2 (ja)
KR (1) KR102054042B1 (ja)
CN (1) CN106663219B (ja)
AU (2) AU2015248796A1 (ja)
BR (1) BR112016023920A2 (ja)
CA (1) CA2946069C (ja)
HK (1) HK1216407A1 (ja)
MX (1) MX2016013015A (ja)
RU (1) RU2668062C2 (ja)
SG (1) SG11201608254VA (ja)
WO (1) WO2015158878A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019012506A (ja) * 2017-06-29 2019-01-24 ネイバー コーポレーションNAVER Corporation 機械の自動活性のための方法及びシステム
JP2019053351A (ja) * 2017-09-12 2019-04-04 大日本印刷株式会社 応対装置、コンピュータプログラム及び応対方法
JP2020056907A (ja) * 2018-10-02 2020-04-09 株式会社Tarvo クラウド音声変換システム

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157342B1 (en) * 2010-07-11 2018-12-18 Nam Kim Systems and methods for transforming sensory input into actions by a machine having self-awareness
US11561762B2 (en) * 2011-08-21 2023-01-24 Asensus Surgical Europe S.A.R.L. Vocally actuated surgical control system
US10866783B2 (en) * 2011-08-21 2020-12-15 Transenterix Europe S.A.R.L. Vocally activated surgical control system
EP3937107A1 (en) 2013-05-21 2022-01-12 Tomer Ben-Kiki Systems and methods for providing on-line services
US10813584B2 (en) * 2013-05-21 2020-10-27 Happify, Inc. Assessing adherence fidelity to behavioral interventions using interactivity and natural language processing
US20190129941A2 (en) 2013-05-21 2019-05-02 Happify, Inc. Systems and methods for dynamic user interaction for improving happiness
US10032137B2 (en) 2015-08-31 2018-07-24 Avaya Inc. Communication systems for multi-source robot control
US10124491B2 (en) * 2015-08-31 2018-11-13 Avaya Inc. Operational parameters
US10040201B2 (en) 2015-08-31 2018-08-07 Avaya Inc. Service robot communication systems and system self-configuration
US10350757B2 (en) 2015-08-31 2019-07-16 Avaya Inc. Service robot assessment and operation
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
JP2017144521A (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
CN105643632A (zh) * 2016-03-24 2016-06-08 彭泽宸 一种远程真人模拟互动机器人
JP6713637B2 (ja) * 2016-03-28 2020-06-24 株式会社国際電気通信基礎技術研究所 サービス提供ロボットシステム
SG11201809397TA (en) * 2016-04-26 2018-11-29 Taechyon Robotics Corp Multiple interactive personalities robot
US11645444B2 (en) * 2016-05-10 2023-05-09 Trustees Of Tufts College Systems and methods enabling online one-shot learning and generalization by intelligent systems of task-relevant features and transfer to a cohort of intelligent systems
JP6844124B2 (ja) * 2016-06-14 2021-03-17 富士ゼロックス株式会社 ロボット制御システム
CN107590503A (zh) * 2016-07-07 2018-01-16 深圳狗尾草智能科技有限公司 一种机器人情感数据更新方法及系统
US20180061393A1 (en) * 2016-08-24 2018-03-01 Microsoft Technology Licensing, Llc Systems and methods for artifical intelligence voice evolution
US10272349B2 (en) * 2016-09-07 2019-04-30 Isaac Davenport Dialog simulation
JP6774018B2 (ja) * 2016-09-15 2020-10-21 富士ゼロックス株式会社 対話装置
JP2018067100A (ja) * 2016-10-18 2018-04-26 株式会社日立製作所 ロボット対話システム
US10192569B1 (en) * 2016-10-27 2019-01-29 Intuit Inc. Informing a support agent of a paralinguistic emotion signature of a user
US10135989B1 (en) 2016-10-27 2018-11-20 Intuit Inc. Personalized support routing based on paralinguistic information
US10220517B2 (en) * 2016-10-31 2019-03-05 International Business Machines Corporation System, method and computer program product for controlling a mission-oriented robot based on a user's emotional state
JP7351745B2 (ja) * 2016-11-10 2023-09-27 ワーナー・ブラザース・エンターテイメント・インコーポレイテッド 環境制御機能を有する社会ロボット
CN108073804B (zh) * 2016-11-14 2022-11-29 百度在线网络技术(北京)有限公司 一种风险识别方法和装置
WO2018094272A1 (en) 2016-11-18 2018-05-24 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
US10891152B2 (en) 2016-11-23 2021-01-12 Amazon Technologies, Inc. Back-end task fulfillment for dialog-driven applications
US10331791B2 (en) 2016-11-23 2019-06-25 Amazon Technologies, Inc. Service for developing dialog-driven applications
US20180174577A1 (en) * 2016-12-19 2018-06-21 Microsoft Technology Licensing, Llc Linguistic modeling using sets of base phonetics
KR102616403B1 (ko) * 2016-12-27 2023-12-21 삼성전자주식회사 전자 장치 및 그의 메시지 전달 방법
JP2018126810A (ja) * 2017-02-06 2018-08-16 川崎重工業株式会社 ロボットシステム及びロボット対話方法
CN107016046A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 基于视觉场景化的智能机器人对话方法及系统
JP6970413B2 (ja) * 2017-03-10 2021-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US11107472B2 (en) * 2017-03-31 2021-08-31 Intel Corporation Management of human-machine dialogue involving multiple parties
US10622002B2 (en) * 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
US10460728B2 (en) * 2017-06-16 2019-10-29 Amazon Technologies, Inc. Exporting dialog-driven applications to digital communication platforms
US10569420B1 (en) * 2017-06-23 2020-02-25 X Development Llc Interfacing with autonomous devices
US10824870B2 (en) * 2017-06-29 2020-11-03 Accenture Global Solutions Limited Natural language eminence based robotic agent control
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
CN107608674A (zh) * 2017-09-22 2018-01-19 深圳市创维软件有限公司 一种应用换肤方法、装置、计算机及存储介质
US10841249B2 (en) 2017-10-02 2020-11-17 Samsung Electronics Co., Ltd. System and method for bot platform
KR101969727B1 (ko) * 2017-10-24 2019-04-17 주식회사 로보스타 다관절 로봇을 조작하기 위한 장치 및 그 방법
JP6811158B2 (ja) * 2017-10-26 2021-01-13 株式会社日立ビルシステム ロボット制御システム、ロボット制御方法及び統合サーバー装置
CN107610705A (zh) * 2017-10-27 2018-01-19 成都常明信息技术有限公司 一种根据年龄智能音色语音机器人
US10621978B2 (en) 2017-11-22 2020-04-14 International Business Machines Corporation Dynamically generated dialog
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
WO2019125486A1 (en) * 2017-12-22 2019-06-27 Soundhound, Inc. Natural language grammars adapted for interactive experiences
KR20200119821A (ko) * 2017-12-29 2020-10-20 수상에스티(주) 음성인식 기능을 가진 봉제 인형 로봇
KR102497042B1 (ko) 2018-01-29 2023-02-07 삼성전자주식회사 사용자 행동을 바탕으로 반응하는 로봇 및 그의 제어 방법
EP3756188A4 (en) * 2018-02-15 2022-02-23 DMAI, Inc. SYSTEM AND METHOD FOR DYNAMIC ROBOT CONFIGURATION FOR ENHANCED DIGITAL EXPERIENCES
JP2019175432A (ja) * 2018-03-26 2019-10-10 カシオ計算機株式会社 対話制御装置、対話システム、対話制御方法及びプログラム
CN108765921A (zh) * 2018-04-04 2018-11-06 昆山市工研院智能制造技术有限公司 基于视觉语意分析应用于巡逻机器人的智能巡逻方法
US20190340527A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Graphical user interface features for updating a conversational bot
EP3576084B1 (de) * 2018-05-29 2020-09-30 Christoph Neumann Effiziente dialoggestaltung
CN108818531A (zh) * 2018-06-25 2018-11-16 珠海格力智能装备有限公司 机器人的控制方法和装置
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备
KR102168802B1 (ko) 2018-09-20 2020-10-22 한국전자통신연구원 상호 작용 장치 및 방법
US11590660B2 (en) * 2018-09-26 2023-02-28 Disney Enterprises, Inc. Interactive autonomous robot configured for deployment within a social environment
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
JP7119896B2 (ja) * 2018-10-24 2022-08-17 トヨタ自動車株式会社 コミュニケーションロボットおよびコミュニケーションロボットの制御プログラム
JP7067414B2 (ja) * 2018-10-24 2022-05-16 トヨタ自動車株式会社 コミュニケーションロボットおよびコミュニケーションロボットの制御プログラム
US11727218B2 (en) * 2018-10-26 2023-08-15 International Business Machines Corporation Dynamic modification of placeholder text in conversational interfaces
US11557297B2 (en) 2018-11-09 2023-01-17 Embodied, Inc. Systems and methods for adaptive human-machine interaction and automatic behavioral assessment
US20220059083A1 (en) * 2018-12-10 2022-02-24 Interactive-Ai, Llc Neural modulation codes for multilingual and style dependent speech and language processing
US10909328B2 (en) 2019-01-04 2021-02-02 International Business Machines Corporation Sentiment adapted communication
JP7120060B2 (ja) * 2019-02-06 2022-08-17 トヨタ自動車株式会社 音声対話装置、音声対話装置の制御装置及び制御プログラム
US11159679B2 (en) 2019-02-26 2021-10-26 Cigna Taiwan Life Assurance Co. Ltd. Automated systems and methods for natural language processing with speaker intention inference
TWI714090B (zh) * 2019-02-26 2020-12-21 國際康健人壽保險股份有限公司 機器人電話行銷系統及其計算機裝置與回應訊息產生方法
KR102615154B1 (ko) 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN109976515B (zh) * 2019-03-11 2023-07-07 阿波罗智联(北京)科技有限公司 一种信息处理方法、装置、车辆及计算机可读存储介质
US11521114B2 (en) 2019-04-18 2022-12-06 Microsoft Technology Licensing, Llc Visualization of training dialogs for a conversational bot
EP3739396A1 (de) * 2019-05-15 2020-11-18 Siemens Aktiengesellschaft System zur bewegungsführung eines manipulators aufweisend einen ersten und einen zweiten prozessor
WO2020256161A1 (ko) * 2019-06-17 2020-12-24 엘지전자 주식회사 인공지능 홈 로봇 및 그의 제어 방법
US11423877B2 (en) 2019-07-05 2022-08-23 Lg Electronics Inc. Robot for providing guidance service using artificial intelligence and method of operating the same
RU2708114C1 (ru) * 2019-07-10 2019-12-04 Общество с ограниченной ответственностью «Комплект-ОМ» Система и способ мониторинга и обучения детей с расстройствами аутистического спектра
US10850709B1 (en) * 2019-08-27 2020-12-01 Toyota Motor Engineering & Manufacturing North America, Inc. Facial recognition and object detection for vehicle unlocking scenarios
US20210104220A1 (en) * 2019-10-08 2021-04-08 Sarah MENNICKEN Voice assistant with contextually-adjusted audio output
US11645479B1 (en) 2019-11-07 2023-05-09 Kino High Coursey Method for AI language self-improvement agent using language modeling and tree search techniques
US11948560B1 (en) 2019-11-07 2024-04-02 Kino High Coursey Method for AI language self-improvement agent using language modeling and tree search techniques
KR102239223B1 (ko) * 2019-11-29 2021-04-12 네이버 주식회사 기계의 자동 활성을 위한 방법 및 시스템
US11594224B2 (en) 2019-12-04 2023-02-28 Samsung Electronics Co., Ltd. Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds
WO2021153830A1 (ko) * 2020-01-31 2021-08-05 한국과학기술원 대화문 발화 성격 인식 방법 및 시스템
CN115461749A (zh) 2020-02-29 2022-12-09 具象有限公司 用于机器人计算设备/数字伴侣与用户之间的短期和长期对话管理的系统和方法
WO2021174147A1 (en) 2020-02-29 2021-09-02 Embodied, Inc. Systems and methods for authoring and modifying presentation conversation files for multimodal interactive computing devices / artificial companions
CN111968632B (zh) * 2020-07-14 2024-05-10 招联消费金融股份有限公司 通话语音获取方法、装置、计算机设备和存储介质
CN111857880B (zh) * 2020-07-23 2022-12-13 中国平安人寿保险股份有限公司 对话配置项信息管理方法、装置、设备及存储介质
US11948019B1 (en) 2020-09-30 2024-04-02 Amazon Technologies, Inc. Customized configuration of multimodal interactions for dialog-driven applications
US11252149B1 (en) 2020-09-30 2022-02-15 Amazon Technologies, Inc. Resource management techniques for dialog-driven applications
US11817091B1 (en) 2020-09-30 2023-11-14 Amazon Technologies, Inc. Fault-tolerance techniques for dialog-driven applications
KR20230130608A (ko) 2020-10-08 2023-09-12 모듈레이트, 인크 콘텐츠 완화를 위한 멀티-스테이지 적응 시스템
TWI776296B (zh) * 2020-11-30 2022-09-01 中華電信股份有限公司 語音應答系統和語音應答方法
CN112712798B (zh) * 2020-12-23 2022-08-05 思必驰科技股份有限公司 私有化数据获取方法及装置
JP2024505503A (ja) * 2021-01-28 2024-02-06 エンボディード,インコーポレイテッド 自然言語処理、理解及び生成を可能にする方法及びシステム
US12131394B1 (en) 2021-03-31 2024-10-29 Amazon Technologies, Inc. Distributed system for automated restaurant order acquisition
US12008289B2 (en) * 2021-07-07 2024-06-11 Honeywell International Inc. Methods and systems for transcription playback with variable emphasis
KR20230079767A (ko) * 2021-11-29 2023-06-07 한국과학기술원 대화 상대방의 성격정보를 고려하여 신뢰도 증강을 위한 맞춤형 대화 생성 시스템 및 그 방법
CN114218424B (zh) * 2022-02-22 2022-05-13 杭州一知智能科技有限公司 一种基于wav2vec的语气词插入的语音交互方法及系统
CN117271155A (zh) * 2023-09-07 2023-12-22 广东保伦电子股份有限公司 一种基于ai聊天机器人的对话实现方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165486A (ja) * 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
JPH10133852A (ja) * 1996-10-31 1998-05-22 Toshiba Corp パーソナルコンピュータおよび音声属性パラメータの管理方法
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2007219149A (ja) * 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
JP2010170033A (ja) * 2009-01-26 2010-08-05 Takao Hayashi インターネットシステムを用いた音声対話システムのビジネスモデル
JPWO2009044533A1 (ja) * 2007-10-05 2011-02-03 パナソニック株式会社 セキュアブート端末、セキュアブート方法、セキュアブートプログラム、記録媒体及び集積回路
JP2012532390A (ja) * 2009-07-10 2012-12-13 オルドウバラン、ロボティクス エス、ア 移動ロボットのコンテキスト動作を生成するためのシステムおよび方法
JPWO2011138852A1 (ja) * 2010-05-07 2013-07-22 パナソニック株式会社 情報処理装置、情報処理方法、及びプログラム配信システム

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321198B1 (en) * 1999-02-23 2001-11-20 Unisys Corporation Apparatus for design and simulation of dialogue
US6314402B1 (en) * 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
US20020042713A1 (en) * 1999-05-10 2002-04-11 Korea Axis Co., Ltd. Toy having speech recognition function and two-way conversation for dialogue partner
ATE306096T1 (de) * 1999-08-31 2005-10-15 Swisscom Ag Mobiler roboter und steuerverfahren für einen mobilen roboter
JP3797047B2 (ja) * 1999-12-08 2006-07-12 富士通株式会社 ロボット装置
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
RU2336560C2 (ru) * 2002-05-14 2008-10-20 Конинклейке Филипс Электроникс Н.В. Диалоговое управление для электрического устройства
JP2004287016A (ja) * 2003-03-20 2004-10-14 Sony Corp 音声対話装置及び方法並びにロボット装置
CN100351789C (zh) * 2003-03-28 2007-11-28 索尼株式会社 信息提供设备、方法和信息提供系统
GB0325497D0 (en) * 2003-10-31 2003-12-03 Vox Generation Ltd Automated speech application creation deployment and management
US7349758B2 (en) * 2003-12-18 2008-03-25 Matsushita Electric Industrial Co., Ltd. Interactive personalized robot for home use
JP4629560B2 (ja) * 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
US7930182B2 (en) * 2005-03-15 2011-04-19 Nuance Communications, Inc. Computer-implemented tool for creation of speech application code and associated functional specification
US8126716B2 (en) * 2005-08-19 2012-02-28 Nuance Communications, Inc. Method and system for collecting audio prompts in a dynamically generated voice application
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8473281B2 (en) * 2009-10-09 2013-06-25 Crisp Thinking Group Ltd. Net moderator
KR101119030B1 (ko) * 2010-05-12 2012-03-13 (주) 퓨처로봇 지능형 로봇 장치의 서비스 시나리오 편집 방법, 그 방법을 실행하기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록매체, 지능형 로봇 장치 및 지능형 로봇의 서비스 방법
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US8818556B2 (en) * 2011-01-13 2014-08-26 Microsoft Corporation Multi-state model for robot and user interaction
US20130110513A1 (en) * 2011-10-26 2013-05-02 Roshan Jhunja Platform for Sharing Voice Content
US9082402B2 (en) * 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US8751042B2 (en) * 2011-12-14 2014-06-10 Toyota Motor Engineering & Manufacturing North America, Inc. Methods of robot behavior generation and robots utilizing the same
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US9471872B2 (en) * 2012-06-29 2016-10-18 International Business Machines Corporation Extension to the expert conversation builder
US9141802B2 (en) 2012-09-25 2015-09-22 Intel Corporation Computing device boot software authentication
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US20140365068A1 (en) * 2013-06-06 2014-12-11 Melvin Burns Personalized Voice User Interface System and Method

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165486A (ja) * 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
JPH10133852A (ja) * 1996-10-31 1998-05-22 Toshiba Corp パーソナルコンピュータおよび音声属性パラメータの管理方法
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2007219149A (ja) * 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
JPWO2009044533A1 (ja) * 2007-10-05 2011-02-03 パナソニック株式会社 セキュアブート端末、セキュアブート方法、セキュアブートプログラム、記録媒体及び集積回路
JP2010170033A (ja) * 2009-01-26 2010-08-05 Takao Hayashi インターネットシステムを用いた音声対話システムのビジネスモデル
JP2012532390A (ja) * 2009-07-10 2012-12-13 オルドウバラン、ロボティクス エス、ア 移動ロボットのコンテキスト動作を生成するためのシステムおよび方法
JPWO2011138852A1 (ja) * 2010-05-07 2013-07-22 パナソニック株式会社 情報処理装置、情報処理方法、及びプログラム配信システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019012506A (ja) * 2017-06-29 2019-01-24 ネイバー コーポレーションNAVER Corporation 機械の自動活性のための方法及びシステム
JP2019053351A (ja) * 2017-09-12 2019-04-04 大日本印刷株式会社 応対装置、コンピュータプログラム及び応対方法
JP2020056907A (ja) * 2018-10-02 2020-04-09 株式会社Tarvo クラウド音声変換システム

Also Published As

Publication number Publication date
AU2018202162B2 (en) 2020-01-16
BR112016023920A2 (pt) 2017-08-15
US20170125008A1 (en) 2017-05-04
CA2946069C (en) 2020-08-18
EP2933070A1 (en) 2015-10-21
CN106663219A (zh) 2017-05-10
CN106663219B (zh) 2020-04-21
CA2946069A1 (en) 2015-10-22
AU2018202162A1 (en) 2018-04-26
AU2015248796A1 (en) 2016-11-03
RU2668062C2 (ru) 2018-09-25
MX2016013015A (es) 2017-05-23
US10008196B2 (en) 2018-06-26
RU2016144802A (ru) 2018-05-17
SG11201608254VA (en) 2016-10-28
KR102054042B1 (ko) 2019-12-09
KR20170027705A (ko) 2017-03-10
WO2015158878A1 (en) 2015-10-22
RU2016144802A3 (ja) 2018-05-17
JP6655552B2 (ja) 2020-02-26
HK1216407A1 (zh) 2016-11-11

Similar Documents

Publication Publication Date Title
AU2018202162B2 (en) Methods and systems of handling a dialog with a robot
JP6649896B2 (ja) ロボットの対話を管理する方法とシステム
JP6328793B2 (ja) ロボット上のソフトウェアアプリケーションの実行
Dobre et al. Immersive machine learning for social attitude detection in virtual reality narrative games
Gena et al. Wolly: an affective and adaptive educational robot
US20230274743A1 (en) Methods and systems enabling natural language processing, understanding, and generation
Han et al. IBSEN: Director-Actor Agent Collaboration for Controllable and Interactive Drama Script Generation
US20240289686A1 (en) Directed management of interactive elements in an interactive environment utilizing machine learning
Ashok et al. Interactive robots for personalised multimodal comedy experiments
Nishida et al. History of Conversational System Development
Haque A Beginner's Guide to Large Language Models
Radetzky et al. Deep learning technology and its impact on a cinematographic work
Knierim et al. Prosody as a Teaching Signal for Agent Learning: Exploratory Studies and Algorithmic Implications
JP2024159591A (ja) 電子機器
JP2024151091A (ja) 行動制御システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191003

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200203

R150 Certificate of patent or registration of utility model

Ref document number: 6655552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees