JP2004513445A - 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス - Google Patents

個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス Download PDF

Info

Publication number
JP2004513445A
JP2004513445A JP2002540141A JP2002540141A JP2004513445A JP 2004513445 A JP2004513445 A JP 2004513445A JP 2002540141 A JP2002540141 A JP 2002540141A JP 2002540141 A JP2002540141 A JP 2002540141A JP 2004513445 A JP2004513445 A JP 2004513445A
Authority
JP
Japan
Prior art keywords
user
response
data
conversation
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002540141A
Other languages
English (en)
Inventor
ストルビー,ヒューゴ ジェイ
エシェルマン,ラリー
ギュッタ,スリニヴァス
ミランスキ,ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004513445A publication Critical patent/JP2004513445A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

インタラクションシミュレータは、コンピュータビジョン、及び、他のモダリティの入力を使用して、ユーザの情緒状態及び/又は性格を分析する。情緒状態及び/又は性格は分類され、この情報は、会話及び他のインタラクションを導くために使用される。チャッタボット実施例では、会話の内容は、情緒状態及び/又は性格クラスに反応して変更され、例えば、ユーザが悲しいときに、話題を好きなトピックに変える、又は、ユーザが楽しんでいるときに冗談を言うことによって変更される。

Description

【0001】
[発明の背景]
1.発明の属する技術分野
本発明は、例えば、光の点滅、合成音声、コンピュータにより生成されるアニメーション、音等といった様々な出力モダリティによってユーザとの個人的インタラクションをシミュレートし、話相手に関心を向けているような雰囲気、会話する能力、ある性格等を持った人間の存在の印象を作成する装置に関する。
2.発明の背景
技術が高度化するに連れて、多くのアプリケーションに関連付けられる様々な特徴及びオプションは複雑になってきている。この現象は、例えば、衛星放送及びケーブルTVにおいて言えることであり、幾つかのケースにおいてその番組の選択数は手に負えないほどの膨大な数となっている。セルラ式電話機、パーソナルコンピュータの応用製品、電子商取引システム等においても多くの例が挙げられる。このような環境において、機械が、膨大な数のオプションのうちから選択を行うよう一部のルーチン作業を行うことが有用である。しかし、多くの場合において、このような解決策は、その解決策が対処すべき問題より簡単なわけではない。例えば、各ユーザに対しカスタムテンプレートを使用して多数の選択を選別するユーザインタフェースは、ユーザの嗜好に合わせて訓練されなければならない。例えば、ユーザは、自分の好きなもの及び嫌いなものをアクティブに分類することによって自分の嗜好を入力することができる(「カスタマイゼーション」)。このことは、コンピュータ処理が長い時間に亘ってユーザの行った選択を「観察」することによってパッシブに行われることも可能である(「パーソナライゼーション」)。このようなシステムは、Gemstar及びPhilips Electronicsに譲渡された様々な特許出願に記載される。例えば、「System And Method For Automatically Recording Television Programs In Television Systems With Tuners External To Video Recorder」なる名称の米国特許第5,515,173号、「Apparatus And Method For Channel Scanning By Theme」なる名称の米国特許第5,673,089号、「Apparatus And Method For Improved Parental Control Of Television Use」なる名称の米国特許第5,949,471号が挙げられる。他の例も米国特許第5,223,924号に示される。
【0002】
直接的に又は間接的に嗜好を特定化することを可能にするユーザインタフェースは一般的に、十分に洗練されており、楽しく且つ直観的である。そのようなシステムはますます「スマート」システムとなるべく進化しており、制御パネルというよりも、あたかも人間のヘルパーのようになることを目指している。例えば、Microsoft(登録商標)のOffice(登録商標)といった複雑なソフトウェアアプリケーションのヘルプダイアログは、自然言語の文を受入れ、アニメ化されるチャラクタと略同時にテキスト応答を与える。自然言語の質問を受入れるインタフェースの別の例としては、AskJeeves(登録商標)があり、これは、インターネットの検索エンジンである。
【0003】
ユーザインタフェースは、一連のステップが行われ、最後のステップが所望の結果をもたらす機能指向システムから、ユーザが関心の対象を操作し、結果に関するフィードバックを直ぐに供給することを可能にするオブジェクト指向インタフェースへと目まぐるしく進化している。このような考え方の究極の具体例は、仮想現実環境といったコマンドを使わないノンコマンド式インタフェースであって、ユーザは、ある結果を達成するために規定の一連のステップを行うのではなく、制御を操作し、エフェクトを経験することができるようになる。エージェントは、ノンコマンド式インタフェースのもう1つのタイプである。一部の研究の最終目標は、ユーザのニーズ及びライフスタイルの全てを把握していて、いつでもユーザが必要な情報を正確に引出しすることができる高度なインテリジェント・エージェントを提供することである。しかし、このようなノンコマンド式インタフェースの実用的な実施例は、まだ、実際の製品として導入するに到っていない。問題の1つとしては、要求されるソフトウェア技術は、非常に高度で、大量のプログラミング及び/又は訓練を必要とする。現時点では、コンピュータは依然として、何をすべきかを「教えられなければ」ならず、真に使いやすく、「スマート」な印象を与えるインタフェースの夢は、ほとんどのアプリケーションでは、実現にはまだ程遠い。
【0004】
実際にはスマートではないが、スマートに「見える」コンピュータは、しばらく前から登場している。1960年代中頃から、MITのコンピュータ科学者であったジョセフ・ワイゼンバウム(Joseph Weizenbaum)によって非常に異なった分野のコンピュータソフトウェア開発が始まった。ワイゼンバウムは、どれだけスマートに見えるか以外には有用性のない単純なプログラムを作った。このプログラムは、ユーザに働きかけて話を続けることを促すことによって、ロジャー派の精神分析医の役割を模倣するものであった。このプログラムは、ELIZAと呼ばれる。多くのユーザは、ELIZAは非常に説得力があると思った。ワイゼンバウムの秘書でさえも、プログラムと一緒にほっておかれることを希望した。しかし、ELIZAの会話は、ロジャー派の精神分析医の非常に受身的な会話方式を受入れることができるのであれば、有効である。即ち、その会話方式では、「セラピスト」は、「患者」が言ったことの一部を繰り返すことによって応答するか、又は、「患者」が言ったことをもっと詳しく説明するよう「患者」に促す。ELIZAがあたかも説得力があるかのように見えるのは、ELIZAは、上述したような会話方式を機械的に行わないからである。例えば、ユーザが、ユーザの母親のことに触れると、ELIZAは、「自分」にもっとユーザの家族について話すよう頼む。
【0005】
以下にELIZAによって再現される会話のサンプルを示す。
【0006】
ユーザ:男はみんな同じよ。
【0007】
ELIZA:どんな感じに?
ユーザ:いつも何かにつけていらいらさせられるの。
【0008】
ELIZA:例えば?
ユーザ:まず、私の彼がここに来させたの。
【0009】
ELIZA:彼があなたをここに来させたのね。
【0010】
ユーザ:彼は、いつも私は元気がないって言うの。
【0011】
ELIZA:それは残念ね。
【0012】
ユーザ:本当よ。わたし、あまり楽しくないの。
【0013】
ELIZA:ここに来ることで、楽しくなれそう?
ユーザ:助けがいるんだわ。それは確かよ。
【0014】
ELIZA:助けが得られたらどうなるのかしら?
ユーザ:お母さんと仲良くなれるかも。
【0015】
ELIZA:あなたの家族のことについてもっと教えて。
【0016】
ユーザ:お母さんは私の面倒を見てくれているの。
【0017】
ELIZA:他には誰が面倒をみてくれているの?
ユーザ:お父さん。
【0018】
ELIZA:お父さんね。
【0019】
ユーザ:あなたは、どこか私のお父さんに似ているわ。
【0020】
ELIZA:どこが似ているのかしら?
今までのいわゆる会話シミュレータのほとんどは、真の理解をすることなくテンプレートマッチング(規則)に基づいて深みのない答えを生成する基本方法を使用している。例えば、テンプレート「I wish I were <x> (私は<x>であったならばなあ)」(ここでは、<x>は任意の一連の単語を表す)は、ユーザの発言「I wish I were taller (私は背が高かったならばなあ)」にマッチングする。このテンプレートは機械応答「Why do you wish you were <x> ?(なぜ<x>であったならばと思うの?)」に関連付けられる。機械は、上記の発言に対し「Why do you wish you were taller?(なぜ背が高かったならばと思うの?)」と答える。1つの会話シミュレータと別のシミュレータとを区別するものは、その精錬度でも複雑さでもなく、応答のデータベースのサイズ及び可変性である。より高度な変形は、テンプレート及び応答のより大きなデータベースを有し、このデータベースには気まぐれな応答が含まれるので、ELIZAの受身的且つ単調な応答よりも、会話シミュレータは面白いものとなる。
【0021】
一部の会話シミュレータは、一般的な会話のシミュレーションではなく、特定のトピックに関する情報を与える。例えば、会話シミュレータは、特定のトピックに関し情報を供給するよう使用されてきた。基本的に、応答のライブラリは、幾つかの題材についての質問を予想して、「予め用意された」応答を供給する。一部の会話シミュレータは、あたかも関連する人生があったかのようにプログラムされる。これらの会話シミュレータは、会話を続けるためのマッチングするテンプレートがなかった場合、自分の人生について語る。
【0022】
一般的な会話シミュレータは、2つの部分、即ち、ユーザインタフェースシェル及びデータベースを有するものとして説明される。ユーザインタフェースは、使用される性格又は情報データベースに関係なく本質的に一定に維持されるコンピュータプログラムである。データベースによって、会話シミュレータに性格、知識等が与えられる。データベースは、特定の答えと、あるトピックに対する質問についての情報とを含む。データベースは、質問テンプレートにリンクされる所定の答えを有する。会話シミュレータの現実味は、データベースの作成者が、人々がきく可能性のある質問と、同じ答えを持つ質問のクラスに共通するパターンをどれだけ予測できるかに依存する。ユーザインタフェースは、ユーザからの質問を受取り、テンプレートを検索し、質問に対応する最も適切な1つの答え(又は複数の答え)を戻す。この技術では、オーサが標準のデータベースを作成する必要があり、ユーザインタフェースは自然言語に関する初期知識はなく、また、システムは自分自身で学習することができない。システムは完全無欠ではないので、うまく適合するものが見つからない場合、訳のわからない文章を与えるか又は単に処理を放棄する。しかしこれは許容範囲である。原則的に、完全なデータベースとは、どの想定可能な状況に対しても作用するわけだが、質問の80パーセントが適切に処理されるのであれば、これは十分に人々の関心を引き寄せつづけることができると思われる。
【0023】
会話可能な機械を製造する他のアプローチは、より洗練された「スマート」な技術を使用するが、上述したように、これらの技術は、会話シミュレータの基礎として使用するにはあまりにも複雑で及び/又は訓練を必要とする。メガハル(Mega Hal)といった試みは、実際には無意味な印象を与える。しかしながら、スマート技術は有益性がある。「コンピュータ言語学」と呼ばれる研究の分野は人工知能の分野の1つであり、言語のアルゴリズム的記述又は文法を開発しようとする。この技術は、文を構文解釈するのに使用でき、その文における最も重要な単語を識別したり、直接目的語及び動詞等を識別したりすることができる。実際に、研究はこれよりも進んでいる。コンピュータ言語学者は、コンピュータが実際に人が話していることを理解するのに必要な技術に非常に関心を持っている。即ち、語彙意味論及び合成的意味論である。これは、スピーチ(書かれたもの又は発声されたもの)から、独立して単語の意味を決定し、また、狭い及び広いコンテキストにおけるその単語の使用に関する。しかし、単語の曖昧な意味を区別するようコンピュータをプログラムすることは、コンピュータが少なくとも口頭で適切に続けて応答するのには到っていない。
【0024】
会話シミュレータにうまく使用されている技術は一般的に、ユーザの入力をテンプレートのデータベースにマッチングすることによって動作する。会話シミュレータは、ユーザの発言に「もっともよく」マッチングする所定のテンプレートを選択し、そのテンプレートに関連付けられる1つの応答を生成する。このメカニズムをより詳細に説明するために、特定の例を使用する。この目的のために、カーネギー・メロン(Carnegie Mellon)大学のデュアン・フィールズ(Duane Fields)によって作成されたプログラムであるスプロッチ(Splotch)を使用する。そのソースコードは、CMUのウェブサイトから公に入手可能である。「スプロッチ」は「Spot」の変形であり、そのように名前が付けられているのには、スプロッチははっきりとしない点であり、ペットのような感じがするからである。
【0025】
スプロッチは他のプログラムと同様に、テンプレートマッチングで動作する。ユーザの入力は、テンプレートのデータベースと比較される。マッチングするテンプレートのうち、最も高いランクを有するテンプレートが選択され、そのテンプレートの関連付けられる1つの応答が、出力として選択される。テンプレートは1つの単語、単語の組合せ、又は、句であってもよい。
【0026】
1つのテンプレートには、代替となる単語又は句を含むことができる。例えば、「money」テンプレートは、単語「cash」ともマッチングする。代替の単語又は句を特定するもう1つの方法がある。即ち、同意語辞書である。ユーザの入力が、スプロッチのテンプレートにマッチングされる前に、入力における単語及び句は基準的なフォームに変換される。これは、入力における単語及び句を、同意語辞書の単語及び句と比較し、全ての変形に対し好適な形式に置換することによって行われる。このような変形の多くは、ミススペリングを含む代替となるスペリングである。例えば、「kool」は「cool」に変換され、「gotta」は「got to」に変換される。これによって、1つのテンプレートで、多くの代替ではあるが等価の単語又は句にマッチングすることができ、各テンプレートに対しこれらの代替の単語又は句を特定する必要がなくなる。
【0027】
テンプレートの単語又は句は、必要な包含又は除外のためにマークが付けられることが可能である。例えば、ある単語又は句が除外されると、この単語又は句がある場合はこの特定のテンプレートはマッチングされない。例えば、スプロッチが「business」テンプレートにマッチングしなくなるのは、「non of your」という句の前に「!」が付けられ除外であるとされるとき、例えば、「business : ! none of your」のようなときである。一方、単語又は句が必要な包含とマークされると、その特定の単語又は句がない場合、マッチングされない。例えば、「gender:sex:&what」テンプレートがうまくマッチングするのは、ユーザの入力に「gender」又は「sex」のいずれかを含むときであるが、これは、単語「what」も含まれる場合だけである。
【0028】
更に、テンプレートは変数を有することができる。例えば、「Do you like <x> ?」のテンプレートは、その4番目の言葉は変数である。変数は、応答に伝えられることができる。例えば、「No, I don’t like <x>.」となる。この場合、「Do you like」の後の単語は全て変数となる。「Men are <x> than women.」というテンプレートでは、「are」と「than」の間にある単語が変数となる。
【0029】
各テンプレートは、実施者によって割当てられるランクを有する。スプロッチがユーザの応答を、そのプログラムが有するテンプレートの全てとマッチングしようとした後、スプロッチは最も高いランクを有するテンプレートを選択し、そのテンプレートに対しリストされる応答のうちの1つで応答する。次回、同じテンプレートが選択される場合、スプロッチはリストにされる全ての応答を循環しきるまで異なる応答を選択する。
【0030】
応答は、テンプレートから伝えられる変数以外に、別のタイプの「変数」を有することができる。これは、別の単語又は句を指し示すプレイスホルダである。例えば、「My favorite color is @color.w (私の好きな色は、@color.wです)」という応答では、色は、色を表す単語のリストを有するファイル、即ち、color.wからランダムに選択されるべきであることを示す。これによって、テンプレートに関連付けられる応答は、事実上、多数の代替の応答となることを可能にする。「@」ファイル内の句自体が、他の「@」ファイルへのポインタを含むことができる。
【0031】
従来技術の会話シミュレータは、多数のテンプレートファイルがインストールされていない限りは、繰返しが多くなる。多数のテンプレートファイルは厄介となる。更に、多数の代替のテンプレートがあったとしても、会話シミュレータは依然としてスタティックのままである。例えば、現実の人間は、USSRは消滅し、かつてスパイ映画に登場したようなロマンチックな陰謀はもはや存在しないことは分かっている。1989年以前にプログラムされた会話シミュレータは、人間から発せられたものであるとすれば奇妙に聞こえる応答を生成するテンプレートを多く含むであろう。
【0032】
従来技術の会話シミュレータの多くは、会話シミュレータが性格をシミュレートする場合は、そのシミュレーションは劣悪であった。例えば、HutchenのHexは成功例の1つであったが、それは、皮肉っぽく、口の悪い性格を持っていたからである。従来技術の会話シミュレータは特に、深みのある性格に欠ける。会話シミュレータは、人間が信頼関係を築いて分かち合うことをシミュレートすることはできず、なぜなら、会話シミュレータは語る人生も共有する経験もないからである。更に、性格がないことは、アイデンティティがないということも意味する。
【0033】
会話シミュレータは一般的に、ユーザが話すことを促すよう設計される。このことは、特に、この分野のプログラムの先駆者であるELIZAの背後にあった考えである。しかし、ユーザが話をするよう仕向ける要領は、すぐに飽きがきて予測可能となってしまう。会話シミュレータを面白くする1つのデバイスは、事実に基づく情報か又は愉快な情報を供給するよう会話シミュレータを設計することである。会話シミュレータは、ユーザの質問の意味を理解することができないので、事実に基づく質問又は発言に対する応答は、しばしば不適切な返答となる。更に、単に事実だけを話す人は、利口ぶる人だと思われて飽きがきてしまう。最も説得力があって、信頼度の高い会話シミュレータとは、ユーザが話をするよう促し、事実レベルよりも感情的なレベルで応答し、意見を述べ、ユーザの意見や価値観に反応する(支持する)ものである。つまり、会話シミュレータは、説得力があり信頼度が高くあるためには、内容もなければならないということである。Hutchensは、いわゆる雑談において一般的に話されるような種類の情報をHeXに与えたという点で比較的妥当な功績を残したと言える。
【0034】
会話シミュレータのもう1つの問題は、ユーザからの簡単な返答によって現在の話題を簡単に見失ってしまうことである。会話シミュレータは、コンテキストのセンスを持っておらず、コンテキストのセンスをシミュレートすることは困難である。1つの解決策としては、テンプレートを使用してユーザによって話題にされた古いトピックを持ち出すことによって幾らかの持続性メカニズムを供給することである。テンプレートは、その話題について、ユーザからの応答を要求するものであり、例えば、トピック<x>についての質問である。しかし、コンテキストに敏感であると言われる一部の会話シミュレータは、ユーザが話題を変更したいのにも関わらず、同じ話題を話しつづける場合がある。
【0035】
新しい会話の内容が過去の又はサンプルの会話から学習される機械学習スキームは、あまりうまくいく見込みがない。このようなアプローチは、一般的に、新規の応答を生成するが、これらの応答は通常あまり意味をなさない。この問題は、この技術は、多数の入力を使用して、多数の出力から選択しようとする事実に由来するものであり、また、膨大な量の訓練と結果が予測不可能であることに対する寛大さが必要となる。
【0036】
非常に信頼度が高い会話シミュレータでさえも、長い目で見ると、それらは本質的には娯楽であり、即ち、エネルギーを必要とする活動である。会話シミュレータが行うことを知ると、多くの人々は、なぜ会話シミュレータにエネルギーを傾けるのか疑問に思う。最初は興味を引きつけられた人々も最終的には飽きてしまうので、会話シミュレータの娯楽的価値も限界がある。おしゃべりの中から集められた情報を使用して応答テンプレートの空白を埋めたり、又は、コンピュータ言語学的なアプローチが使用されて新しい句の構造又は考えが得られない限り、ユーザによって会話シミュレータにもたらされたデータは水の泡となる。従って、全てのデータは単に多くのおしゃべりをもたらすが、新しい知識は蓄積されず、活用されない。このことは、会話シミュレータは面白い実験ではあるが、実用化するには適していないと言われる所以である。
【0037】
会話シミュレータのもう1つの問題は、会話シミュレータを使用することはあまり自発的且つ自然な動作ではないということである。現在、例えば、ユーザといつ会話を始めるか、いつ会話を終了するか、いつ間を持つか、又は、いつ話題を変えるかといった一般常識にのっとった動作を行う会話シミュレータはない。会話シミュレータが何か有用なことを言えたとしても、会話シミュレータにそのような能力を与えるためのストラテジ、提案、又は、その必要性の認識はなされていない。
【0038】
コンピュータプログラム全般に使用される技術を生成した研究の分野は、いわゆる「感情計算論(affective computing)」である。この研究の分野は、人間の感情及び性格に反応するようコンピュータを使用し、よりよいユーザインタフェースを作成することである。例えば、米国特許第5,987,415号には、ユーザの情緒状態及び性格のネットワークモデルが推論され、その推論は、アプリケーションによって生成される様々な代替のパラフレーズのうちから選択するために使用されるシステムが記載される。このアプローチは、トラブルシューティングシステムによってインスパイアされ、そこでは、ユーザは、例えば、コンピュータの突然の故障といったトラブルについての情報を、機械ベースのシステムを使用して得られるよう試み、この機械ベースのシステムは、ユーザに質問して、ユーザが自分自身でトラブルを診断し解決することを支援する。このアプローチは、以下のように要約することができる。最初に、システムは、ネットワークモデルに基づいてユーザの気分を決定する。このネットワークは、期待される表現の代替のパラフレーズにリンクする。ユーザの気分と性格は、エンジンの所望の気分と性格とに相関され、エンジンはユーザへのフィードバックを生成する。気分記述子を使用してユーザの気分を推論し、相関処理によって、気分記述子が生成され、これは、適切な内容のある応答の代替のパラフレーズから選択するのに使用される。従って、コンピュータによる内容のある応答のうち2つの可能なパラフレーズがある場合(例えば、「Give it up !(あきらめろ!)」か「Sorry, I cannot help you !(すまない、助けられないよ!)」)、アプリケーションは、ユーザの気分/性格が与えられたときに、気分と性格に最適に対応する方のパラフレーズを選択し、この気分及び性格は、コンピュータが投射するのが望ましいと、プログラマによって決定される。まとめると、ユーザの応答によって投射される気分及び性格を決定するべく確率論的なモデルが使用され、次にモデルは、ユーザの気分及び性格を、コンピュータが投射するべき所望の気分及び性格にリンクするために使用される。最後に、所望の気分及び性格によくマッチングする応答のパラフレーズが選択され、逆に同じ確率論的なモデルを使用して応答を生成するよう使用される。
【0039】
上述したユーザインタフェースは、気分と性格を内容から切り離す。更に、確率論的なモデルは、訓練することが非常に困難である。過去の会話シミュレータは、規則に基づいたシステムを使用することで非常に大きな力を発揮しうまくいっていた。
【0040】
ユーザの態度をコンピュータに伝えるもう1つの技術的なアプローチは、手動で設定可能なユーザインタフェースである。ユーザは、例えば、顔のグラフィカルイメージの上にカーソルを持っていき、悲しい顔からうれしい顔に変えることによって直接的に自分の態度を示す。ユーザインタフェースをこのように作成するこのアプローチは、米国特許第5,977,968号に記載される。しかし、このようなインタフェースを使用してもたらされる感情の幅には限界があり、また、このような方法で感情を伝達することは困難且つ不自然である。
【0041】
ユーザの情緒状態がコンピュータによって決定されるもう1つの適用分野は、医療診断の分野である。例えば、米国特許第5,617,855号は、脳波図及び他の診断データと共に顔及び声の特徴を分類し、診断を支援するシステムを説明する。このデバイスは、精神医学及び神経学の分野に使用される。
【0042】
更に別の適用分野では、機械は自動的にユーザの存在又はユーザの特定の特徴を検出して、機械承認及び認証を行ったり、又は、利便性を図ったりする。この目的のために、一部の従来技術のシステムは、バイオメトリックセンシング、近似検出器、無線周波数識別タグ、又は、他のデバイスを使用する。
【0043】
ユーザの情緒状態を入力するもう1つのシステムは、JP10214024に説明される。ここでは、デバイスは、ビデオ入力に基づいてシーンを生成する。ユーザの情緒状態に関する情報は、認識システムによってユーザから入力され、ストーリの展開の制御に使用される。
【0044】
[発明の概要]
インタラクションシミュレータは、会話シミュレータと似ているが、可能な入力及び出力の範囲が広い。人々及び機械は、話すこと以外の方法で自分自身を表現することができる。例えば、人は、ジェスチャ、遠隔制御器、目の動き、音(手を打つ)等を利用することができる。機械は、光を点滅させる、コンピュータ生成アニメーションを作成する、機械デバイスをアニメ化する等できる。インタラクションシミュレータはより一般的な表現であり、ユーザと機械との間の表現的なインタラクションを作成するために使用することができる入力及び出力の範囲全体を包含する。簡単に説明すると、本発明は、従来技術の会話シミュレータより使い勝手がよく、ユーザとシミュレータとの間のインタラクションの質を向上し、シミュレータとのインタラクションによって得られる有用性を増加するインタラクションシミュレータである。本発明は更に、これらの利点を、データ記憶及び検索のためのユーザインタフェースの分野に供給する。この為に、本発明は、特定のユーザに自動的に適応することによって個々のユーザの性格の独自性に反応するインタラクションシミュレータを基本に構成される。更に、インタラクションシミュレータによって使用されるシステム及び方法は、シミュレータによって始められるインタラクションがユーザの状況に反応するメカニズムを提供する。例えば、会話シミュレータ実施例は、ユーザの発言を中断させないよう話すことをやめたり、又は、ユーザが寝てしまった場合に話すことをやめたりする。更に、インタラクションシミュレータの有用性は、ユーザとの会話から集められる有用な情報を、その情報をうまく利用することができるシステムにパッシブに送ることによって拡大される。例えば、ダイアログからの好き嫌いを抽出し、それらを適用することによって電子番組ガイドの嗜好データベースを拡充することができる。このようなデータは、ユーザがデータベースの必要性に反応することによって引出されうる。更に、インタラクションシミュレータモデルは、様々な出入力モダリティに拡大される。例えば、オーディオ出力及び入力能力を有するテレビジョンは、テレビジョンキャビネットの同期される光又は色、或いは、画面上において同期されるアニメーションと共に人工のスピーチを生成しておしゃべりを始め、テレビジョンがあたかも話すような印象を与える。ユーザの表情は、ジェスチャ、音、体の位置、手動制御等によってインタラクションシミュレータに入力することができる。さらに、インタラクションシミュレータの出力の内容のあるコンテンツは、定期的に更新されるデータ供給源又はライブデータフィードから情報を得る能力を設けることによって高められる。このような情報の抽出は、会話及び/又は他のインタラクションからシミュレータによって集められるデータによって導かれる。
【0045】
[好適な実施例の詳細な説明]
本発明は、会話シミュレータ技術をより有用なものに一歩前進させる要素の組合せに関連する。従来技術において、会話シミュレータは比較的説得力があり信頼度が高いことを証明している。本願に提案する発明の特徴は、環境の特徴を分類することができる機械認識システムといった実績のある技術を使用して会話シミュレータを増強することである。この結果として、より一般的な感覚を有し、その動作が人間らしく、また、使い勝手のよいインタラクションシミュレータが得られる。本発明の特徴は更に、例えば、嗜好のデータベースを拡充するか、又は、インターネットといったデータリソースからの更なる情報にアクセスするといった有用な方法で情報交換を利用することによって、教育及び娯楽のための会話シミュレータ技術の説得性を増強することである。本発明の特徴を実行するには、他の問題ももたらし、これらは対処されなければならない。例えば、会話シミュレータが、将来の電子ハウスホールド又はワークプレイスにおける有用な中心的存在となるには、会話シミュレータは、問題なく取り込まなければならない。これらの問題は最初に対処される。
【0046】
説得力があり、信頼度の高いコンパニオンとなるには、会話シミュレータはスピーチでインタラクトし、ユーザによって与えられる社会的なコンテキストの中で応答することができることが好適である。コンパニオンシップは社会的な関係であるので、会話シミュレータは、社会的に正しい動作を行うことができなければならない。1つの実施例では、このことは、インタラクションシミュレータに、特定のユーザに関する情報と、シミュレータの動作が礼儀正しくなるよう制約する規則を供給し、且つ、会話シミュレータに一貫性のある感じの良い性格を与えることによりもたらされる。会話シミュレータが特定のユーザに適切に応答することできるよう、会話シミュレータは個人を認識することを可能にするシステムによって増強され、それにより、会話シミュレータが異なるユーザ及び長い時間に亘って同じユーザに適応することが可能にされる。
【0047】
好適には、会話シミュレータは、出入力のための手段として可聴スピーチを使用すべきである。他の多くの会話シミュレータと同様に、スプロッチは、タイプされるテキストによってユーザとインタフェースする。テキストからのスピーチ出力は簡単な提案ではあるが、現在の生成デバイスの音は単調であるという問題がある。この問題を軽減する幾つかの方法が提供されうる。第1に、標準的な文及び句(応答テンプレート)を単純テキストとして格納し、これらをテキストからスピーチに変換するコンバータによって出力するのではなく、これらの応答テンプレートの抑揚をテキストと共に格納する。抑揚スキームは更に、句又は文中の変数を表すことがある。例えば、以下にテンプレートファイルからの標準的な文EX1を示す。
【0048】
EX1:Tell me, more’ about, why” you, hate <x>.
アポストロフィは、その前にある単語が強調されて話されることを示す。引用符は、より強い強勢を示し、コンマは弱い強勢を示す。マークがないものは、適度な強勢を示す。<x>によって示される変数は、ユーザによって話される文から得られるものである。この変数はアクセントマークを持っておらず、なぜなら、この変数は、適度な強勢で繰り返されるからである。変数を有する可変句の強勢は、標準的なテンプレート応答に関連する式から得られる。このテンプレートは質問であり、通常は、個人的且つ微妙な性質の情報を導き出すよう期待されるので、変数の単語への強勢は、終わりにおいて弱められる。従って、句が
going to school,
であるとすると、最後の音節は弱い強勢としてマークが付けられる。このことを、同じ変数の句がテンプレート文EX2に使用される場合と比較する。
【0049】
EX2:What? You don’t like <go”ing to school”>
ここでは、強勢には抑揚がないが、強く強勢される。システム設計者は、自分のニーズ及び優先順位に応じて規則の細かい点を選択してもよいが、規則は、当該の言語におけるスピーチの自然な人間的なパターンに従うべきである。上述した例では、予め知ることのできない変数の句に対しても、規則を決めることができる。変数の句の規則は、予測することができない。しかし、可変句に使用されるテンプレートの文は、単に抑揚を与える標準的な規則、例えば、EX1に示す強勢が下がる規則と、EX2に示す抑揚のない規則より良好な規則を形成することができる情報を供給する。尚、上述の例では、抑揚の1つの面だけを説明したが、抑揚には、ピッチ、音の大きさ、タイミング、及び、他の面も関連することを理解するものとする。これらはそれぞれ、上述の他の面を処理する適切なスキームに供給され、それにより、各音節は対応するピッチ−音の大きさの対を有する。
【0050】
スピーチの抑揚は、固定のテンプレートからは得られないという問題を解決する幾つか他の方法がある。1つの方法は、可変句のオーディオ記録をユーザに向けて再生することである。例えば、ユーザが「I think my English teacher is completely out of her mind.」と言ったとすると、会話シミュレータは、「Why do you think your」を再生し、その後に、ユーザが言った「English teacher is completely out of her mind.」を続ける。声の質はデジタル的に変更されて、会話シミュレータインタフェースの声の質をまねするようにされる。このアプローチの欠点は、この例では、人を嘲るように聞こえる可能性がある。ユーザの文と会話シミュレータの文は異なる抑揚パターンが必要である。抑揚のパターンは音データを変更することによって変更することができる。この会話シミュレータのもう1つの代替案は、抑揚の記録をとり、それを、独自の音声生成器を使用して再現しようとすることである(抑揚を同じように又は変更して再現し、例えば、ユーザの普通の発言の口調ではなく、質問の形を形成する)。
【0051】
他の問題は、スピーチ理解に関連して発生する。ユーザがいつ話し終えたのかを決定し、それによって期待される時間に応答するといった問題に対処しなければならない。従来技術のテキストベースの会話シミュレータシステムは、単純に、例えば、キャリッジリターンを1回又は2回押すことによって応答が期待される時間を決定する。通常は、話された会話の中でははっきりと会話が終了したことを示すものはない。しかし、好適なコンパニオンである会話シミュレータは、ユーザがまだ話を終了していないときはそのことを認識し、話に割り込むことを阻止すべきである。一方、会話シミュレータが話している最中に、ユーザが割り込んだときは、会話シミュレータはこれを認識し、話すことをやめて、適切に応答することができなければならない。幾つかのアプローチが、別々に又は合わせて使用されている。
【0052】
1)時間間隔の閾値を超えるポーズを使用して、スピーチの終わりを伝える。
【0053】
a)ポーズの閾値は、ユーザのスピーチのペースに合わせて調節される。その場合、会話シミュレータは、早口の人に対しては、ゆっくりと話す人に比べて速く応答する。
【0054】
b)ポーズの閾値は、ユーザのスピーチを抑揚テンプレートと比較することによって調節される。文は、終わりにくると強勢が弱められるので、このことは、遅延を短くするのに使用される。
【0055】
2)会話シミュレータは、単に上述したスキーム(又は、他のスキーム)に従って見当をつけ、ユーザによって割り込まれる場合は、単純に引き下がって、「聞く」ことを続ける。会話シミュレータは、ユーザが答え始めるとできるだけ早く引き下がることが好適である。
【0056】
3)会話シミュレータは、「Well…」といった単語、又は、「Ummmm…」或いは「Hmmm」といった考え込んでいるような音を出すことによって、会話シミュレータが話し始めることを示唆する。ユーザは話し続けている場合は割り込んでもよい。これにより、ユーザは、内容のある応答をする前に会話シミュレータをストップさせることができる。このような内容のない音は、会話シミュレータが内容のある応答を生成し始めた後にユーザが割り込むよりも、支障のないスピーチパターンを供給する。
【0057】
4)任意の割り込みベースのスキームを使用する会話シミュレータプログラムは、割り込みフィードバックから学習して、ポーズの閾値を調節することができる。会話シミュレータプログラムは、特定のユーザから、そのユーザの応答が終わったことを示す手掛かりを探すことができる。これは、内部の機械学習処理に、抑揚パターン及びタイミングパターン、ジェスチャ又は顔の表情といった視覚的な合図、又は、会話シミュレータに話し始めるべき時をより信頼度が高く指示する他の入力を供給することによって探すことができる。これらは明確にプログラムされてもよい。ここの意図は、機械学習処理のために、ユーザによる割り込みをフィードバックメカニズムとして有利に活用することである。
【0058】
a)様々な入力をそのような機械学習処理に使用することができる。即ち、音の大きさのパターン、ピッチのパターン、及び、他の抑揚パターンを使用することができる。「well」や「…?」といった特定の単語は、会話シミュレータが遅れることによっていらいらする特定のユーザによってしばしば使用されるであろう。
【0059】
b)機械学習スキームは、各ユーザに対し展開され且つ格納されるべきである。なぜなら、1人のユーザのパターンは、他のユーザのパターンと一緒であるとは限らないからである。
【0060】
c)凝視情報が、ユーザの関心の焦点を識別するのに重要な役割を果たす。この情報は、本発明のシステムでは、コミュニケーションの合図を与えるよう使用される。例えば、凝視情報は、ユーザがどこを見ているのか、また、何に注意を払っているのかを識別するのに使用することができる。ユーザの凝視方向は、2つのファクタによって決定される。即ち、頭部の向きと目の向きである。頭部の向きは、凝視の全体の方向を決定する一方で、目の向きは、頭部の向きに制限される正確な凝視の方向を決定することができる。発話者の体が前方に傾く(体位)、発話者の顔の表情、及び、発話者の情緒状態からも他の手掛かりを得ることができる。発話者の情緒状態は、発話速度、イントネーション、強度等といった音響的及び韻律的な特徴から推測される。発話者の情緒状態を知ることは、発話者が会話を終了するときを指示するのに有用である。
【0061】
5)会話シミュレータが話し始めるべきときの合図は、ユーザのスピーチの内容のあるコンテンツからくる場合もある。例えば、ユーザのスピーチの内容のあるテキスト及び抑揚パターンから、質問を識別することができる。会話シミュレータは、このことをシミュレータが答えるべきものである指示として依存する。特定の発言又は句は、会話シミュレータのプログラミングによって、ユーザが一時話を終えて答えを要求していることを指示するものとして分類される。例としては、「What do you think ?」、「Hmmm…!」、及び、「OK ?」が挙げられる。
【0062】
a)手掛かりは、単純に分類される句よりも微妙な場合がある。会話シミュレータによって認識される幾つかの文は、他の文よりも最終決定的である場合がある。例えば、「I don’t think so.」よりも「Yes, that is what I think.」のほうが最終決定的である。というのは、前者は、説明の前置きの場合もあり、一方、後者は、会話シミュレータによって発せられた何かに対する確認だからである。
【0063】
会話シミュレータは、ほとんどのコンテキストにおいて、愉快で繰返しがないことが好適である。このことは幾つかの方法によって供給される。1つは、会話シミュレータに性格を与えることである。これは、会話シミュレータが事実レベルのみならず感情レベルにも応答するようプログラミングすることによって供給される。しかし、好適なコンパニオンであるには、これらの属性は限定されなければならない。会話シミュレータの関心、性格、及び、感情は、ユーザを支持するものでなければならない。この点に関し、付き合いやすい会話シミュレータは、ELIZAのように支持的でなければならないが、会話シミュレータは同時に面白くなくてはならない。多くの会話シミュレータは、面白いか(少なくとも短い時間の間は)、又は、支持的かのいずれかであり、両方を満たしていることはあまりない。この問題の一部は、面白みのある応答はしばしば、ユーザに話を続けるようあまり促さないという点である。面白さと支持的であることの両方の組合せを供給する1つの方法としては、2重の応答を与えることである。会話シミュレータは、例えば、ユーザが今言ったことに関し幾らか関連性があり、幾らかユーモアのある応答をし、次に、ユーザが話しを続ける又は詳しく説明するよう支持する又は促す。この場合、会話シミュレータは、感情、感覚、気分、及び、態度を表す単語を認識且つそれらの単語に応答する多数のテンプレートが必要となる。例えば、ユーザが、「I hate meetings.」と言ったとすると、会話シミュレータは、「I hate <x>」にマッチングするテンプレートが必要となり、このテンプレートは、「I don’t like meetings very much either, they are so boring. What do you dislike most about meeting ?」といった応答を有する。
【0064】
理想的には、会話シミュレータのイントネーション及びスピーチは、会話の情緒的な雰囲気と会話シミュレータの返答の内容と一貫性があるべきである。応答が深みと適応性を持つには、ユーザの最後の発言における特定の句に対し単に応答する以上である必要がある。会話シミュレータには、ユーザの情緒状態を認識し、それに答える機能が与えられ、会話シミュレータは、ユーザの情緒状態が変わるとその応答も変える。例えば、会話シミュレータは、ユーザが悲しい又は嬉しいときと、ユーザの情緒状態から悲しいから嬉しいに変化するときを認識しうる。このことは、ユーザのオーディオ、スピーチ、画像の様々な特徴、及び、ユーザが遠隔制御器のキーに加える圧力といった他の入力を分類することによって供給される。
【0065】
オーディオ信号は、スピーチには含まれていないユーザに関する情報を含む。例えば、ユーザの音声の大きさやピッチは、ユーザの情緒状態を判断するのに有用な材料となる。更に、特に、神経質そうなひきつり又は泣き声といった反復性のある活動を示す背景の雑音が、オーディオ信号から識別可能である。オーディオ信号クラシファイアは、各オーディオ信号に対応する分類処理を含み、従って、特定の音特徴が重なっていても、それらを識別することができる。更に、ユーザがその中にいるシーンのビデオ画像も処理可能であり、ビデオ画像中に識別可能な対象物又はイベントが分類されることによって、ユーザの周りで起きている情報が供給される。例えば、部屋の中を絶え間なく動きまわることは、心配事があることを示し得る。最後に、スピーチの内容が分析されることによって、ユーザの情緒状態を示す手掛かりを求めることができる。気分クラシファイアのテキストに基づく特徴は、悲観的な性質の単語が使用される頻度に反応するようプログラムされ、悲観的又は批判的な状態であることを示す信号を生成する。各エントリに対し気分ベクトルに対する辞書が供給される。気分ベクトルは、各気分クラスの荷重値として決められ、荷重値は、対応する単語又は句が使用されることにより示される気分の確率を示す。
【0066】
出力の荷重値は、信頼水準に達した気分クラスを示すよう供給される。従って、別の出力は、それぞれ対応する信頼水準に関連付けられる。気分クラシファイアの出力信号は、各気分クラスに対する信頼水準に達したベクトルの形式である。気分クラスには、ダンピング特徴が与えられ、それにより、1つのダイアログ交換から次のダイアログ交換で急に変化しないようにされる。例えば、ユーザが30分間ほどふさぎこんだ状態であり、一時的に笑ったとしても、気分信号は急に変化しないことが望ましい。
【0067】
会話シミュレータが使用する応答テンプレートにはそれぞれ、様々な気分に対するそのテンプレートの適切性を指示するベクトルが設けられてもよい。次の応答を生成するために使用される各テンプレートのネットスコアは、気分クラスベクトルとテンプレートベクトルのドット積によって重み付けされる。気分の指示を使用して出力テンプレートの選択を変更する他の任意のスキームを使用してもよい。会話シミュレータの応答を生成するのに使用する出力テンプレートの最終的な決定は、代替の気分信号によって変更されてもよい。2つの競合する気分クラスの間で優位になる気分は1つだけではないかも知れないが、テンプレートの選択は依然として改善される。例えば、それぞれ低いが依然としてかなりの信頼水準を有する2つの選択的な気分のいずれかに対応するテンプレートは、良好な選択を表すものであり、これは、気分が、高い度合いの曖昧さ(即ち、2つの気分は等しい可能性であることによる)で決められる場合においても言えることである。米国特許第5,987,415号の方法を使用して、気分/性格が分類されてもよい。
【0068】
以下に示す表は、気分クラス、及び、現在の技術を使用して作成されうるインジケータの例の非常に大まかなリストを示す。例えば、シーン中のユーザの頭部の位置を識別且つ追跡することが可能なビデオ追跡システムがある。さらに、バイオ認証のためにビデオに基づいて顔認識を行うことができ、気分のクラスも認識するよう適応されるシステムがある。尚、使用されうるインジケータの種類には、気分を十分に表すが、必要不可欠ではないインジケータも含まれる。例えば、嬉しいときに両手を空に差し出す人は稀であろうが、このジェスチャが行われた場合、このジェスチャが、フラストレーション又は幸せな気持ちに関連付けられる可能性は高い。
【0069】
【表1】
Figure 2004513445
会話シミュレータは、ユーザの性格について幾らかの知識を有し、応答をユーザの性格に合わせて調節することが好適である。例えば、会話シミュレータは、「主導権を握る」性格の人とインタラクトすることが好きな人に対しては、積極的に意見を述べ、そうではない人に対してはためらいがちに意見を述べるようプログラムされ得る。性格クラシファイアは、所与の個人に対し一貫性のあるモデルを構築し、これは、最初に、各セッションにおいてユーザのアイデンティティを確認し、次に、ユーザの発言及び会話シミュレータに対するユーザの反応における手掛かりを使用して交換ごとに構築することによって行われる。
【0070】
多くの性格類型学が研究されてきている。任意の数の類型が特徴テストに関連付けられ、個人が属するタイプが決定される。例えば、メイヤース・ブリックス(Myers−Briggs)は、16の独立した性格クラスを有する4次元モデルである。ビック・ファイブ、即ち、性格の5因子モデルは、もう1つのよく知られているモデルであり、これは5次元をベースにしている。会話シミュレータは、ユーザにテストを行う(これは、ユーザが楽しむことのできる興味深い会話を与えるかも知れないが)ことも可能であるが、普通の会話にインジケータが組み込まれてもよく、これらは、会話シミュレータがユーザを分類するのに使用される。上述したように、分類は永続的である。即ち、会話シミュレータは、多数のセッションに亘って分類を管理し、長い時間に亘って情報をまとめた後にのみその結論を変更する。同様の方法を使用して、性格以外にモユーザの関心事を決定することができる。ユーザの応答からのキーワードが、標準的な学習技術を使用して分類されることにより、ユーザの関心事及び性格を裏付けることができる。応答中を検索する際に、あるキーワードには他のキーワードよりも強調される場合がある。例えば、会話シミュレータの特定の応答にマークが付けられて、これらの発言に対するユーザの応答は、ユーザの性格及び関心事を決定するのに特に関連性があることを示す。これらの応答から得られるキーワードは、適宜重み付けされる。これらのキーワードの荷重値は、ユーザの応答中にどれだけの頻度で登場するかによって増やされる(上述したように、そのユーザの応答を導き出した会話シミュレータの応答を考慮に入れる)。
【0071】
性格に加えて、会話シミュレータは、出力選択を改善するために対象物インジケータを使用してもよい。例えば、ユーザの性別、年齢、伸長、エスニシティ、社会経済階級、知能等は全て定義付けされ、テンプレートを選択するのに使用されうる。会話シミュレータは、ユーザの他の事実情報でプログラミングされてもよい。会話シミュレータは、例えば、ユーザの名前、及び、ユーザが話していたトピックについて知っており、それにより、同じトピックを話し続けることができる。会話シミュレータは、以前の会話からのトピックも記憶することができる。更に、会話シミュレータは、ユーザが関心のあるトピックを記憶するようプログラミングされ、会話が一時的に途絶えたときに、それらのトピックを提案する能力が与えられる。ここでも、これらのトピックは永続的な変数であり、例えば、ユーザの名前を聞く、又は、声紋といったバイオメトリックスキームを使用して、アイデンティティを確認するデバイスと共に使用されうる。
【0072】
自分の感情や感覚を話そうとするユーザに対し、会話シミュレータは信頼を築き上げなければならない。信頼を築き上げるための1つの方法としては、会話シミュレータが自己開示的、即ち、自分自身のことについて語り、特に、自分が「影響」を受けた「経験」を語るようプログラミングすることである。このことは、会話シミュレータに過去を与えることにより行われ、それにより、シミュレータは自分のことを語ることができる。過去を有する会話シミュレータは、より説得力があり、信頼度が高くなり、従って、あたかも強く、現実的、及び/又は、思いやりのある「性格」を有するかのように見える。会話シミュレータに過去を与えるという基本的な考え方は、有名なLoebnerコンペティションで採用された。会話シミュレータのコンテストに参加した一人のプログラマ、Whalenは、過去を与えた会話シミュレータを審査官に明らかにした。この会話シミュレータは、自分の過去の話に話題を戻すようプログラミングされ、それにより、審査官の関心を得て審査官が質問をするよう仕向けられていた。過去の話とは、その会話シミュレータが仕事を失ったことについてであった。従来技術のストラテジは、審査官が質問をするよう誘導するトリックであった。本発明の会話シミュレータでは、過去の話は、親密さの感情と信頼を形成するデバイスについてである。従って、この過去の話は、思いやりや理解の感情を発生させ、ユーザが会話シミュレータと「同一視」することができるよう設計される。1つのスキームは、多数の過去の話を作成し、異なる性格のクラスに対し過去の話の有用性のランク付けをすることである。従って、過去の話は、今現在交わしている会話の流れだけでなく、ユーザの性格にも基づいて、過去の話を集めたライブラリから引出される。
【0073】
会話シミュレータが、ユーザのスピーチに応答する能力を有すると、次に社会コンテキストがより重要になってくる。ユーザはキーボードのある場所にいる必要がなくなるので、会話シミュレータは、適切なときにユーザに応答する又はダイアログを開始するようプログラムされるべきである。会話シミュレータは、ユーザの割り込みに反応する、又は、ユーザを邪魔することなく話を続け、適切なときにのみ話すようプログラムされ得る。ユーザが子供である場合、会話シミュレータは実際に、子供が割り込んできた場合に、その子供に正しい行儀作法を教えるようプログラムされてもよい。会話シミュレータは、ユーザが部屋に入ってくる又は退出するといったユーザの存在又は不在に反応することが好適である。その場合、会話シミュレータは、ユーザが部屋に入ってきたときに挨拶したり、ユーザが部屋から退出した場合や大声を出さない限り話すことができないところに移動した場合に、スピーチを生成することを回避することができる。会話シミュレータは、ユーザが忙しいか又は暇を持て余しているかに反応するべきである。
【0074】
会話シミュレータが社会的な儀礼に従って行動しているような様相を与えるために、様々な入力モダリティが同時に使用される。ここでもユーザの行動の様々なクラスが、ビデオ、音、及び、スピーチデータを使用して識別される。1つの例として、ユーザが、寝ているときと同じ状態に体の位置を動かすことが挙げられる。例えば、体を横にし、動かなくなり、いびきをかき始めたとする。そのような状況において、会話シミュレータは、話をすることを止めるようプログラムされうる。もう1つの例として、ユーザが部屋を退出することが挙げられる。これの例は、好適な画像及びオーディオ処理アルゴリズムによって認識され得る簡単な例である。
【0075】
より現実味があるように、会話シミュレータは、日常の知識を有するような様相が与えられる。例えば、会話シミュレータには、現在の時間、天気、及び、大きいニュースに対応する可変データが供給されうる。これらのデータは、出力テンプレートと共に使用され、関連性のある文が形成される。TVがついている場合、会話シミュレータは、TV信号の動作に反応する能力が与えられていてもよい。例えば、会話シミュレータは、笑いの効果音を聞いて一緒に笑うことができる。又は、背景音楽の陰鬱な調子に反応して深刻そうな雰囲気をかもし出してもよい。これは、笑いの効果音、及び、例えば、調和していない音楽を認識する能力によって与えられる。
【0076】
会話シミュレータは、新しいテンプレートに使用されるデータへのインタフェースが設けられてもよい。データソースは様々な方法で与えられうる。1つの方法としては、フォーマット化されたソースからのライブフィードである。ネットワーク、交換線、無線ベース、又は、他の通信リソースを介する接続は、会話シミュレータマシーンを新しいテンプレートのソースに接続するよう設けられる。テンプレートは、現在のニュース、現在の株価、現在の天気、雑誌記事等といった新しい情報に基づいて作成することができる。テンプレートは、手動で作成されても、可変テンプレートから自動的に生成されてもよい。新しいテンプレートは、サーバ上に格納され、会話シミュレータ処理に定期的に送られるか、又は、会話シミュレータ処理によって定期的にアクセスされうる。テンプレートはローカルで格納されても、サーバ上で格納されてもよい。テンプレートは、ライブラリのように体系付けられ、ユーザの性格プロファイルについての情報は、テンプレートへのアクセスを案内するのに使用されるので、所与の会話シミュレータクライアントによって最も適切な新しいテンプレートがアクセスされる。テンプレートは、その全てを記憶する必要はない。空白を埋めるために使用されるライブラリデータで可変テンプレートを決めることもできる。例えば、可変テンプレートは、「Have you heard of <x> ?」という文であるとする。可変データは、その可変データが使用されてもよいテンプレートを指示するトークンと共にレコードに格納され得る。会話シミュレータ処理は、この情報を得て、この情報を使用して発言を作成する。この基本的な考え方の他の変形も可能であり、当業者には明らかであろう。
【0077】
テンプレートを更新するもう1つの方法は、フォーマット化されていないソースからのフィードを介したものである。新しいテンプレートに使用されるデータは、テンプレートを更新する目的のために構成且つ体系化されるライブラリから作成されるのではなく、例えば、特定のトピックに関するデータを求めてインターネットを検索するエージェントといった任意のデータソースから作成される。例えば、会話をしているときに、ユーザは、特定の作曲家が好き特に好きであることを示したとする。会話シミュレータ処理は、エージェントを作成し、その作曲家に関する情報をインターネットで検索するようプログラムされうる。データパーサ及びフィルタが未処理のリンク中の文を検索し、その作曲家に関する文を識別し、テンプレートの文(例えば、「Did you know <x> ?」)を埋めて、それをダイアログに使用する。データパーサは、現世代の会話シミュレータに使用されるのと同様のテンプレートマッチングアルゴリズムを使用してもよい。或いは、データパーサは、コンピュータ言語学の分野からの方法を使用して、特定のトピックに関連し、特定の出力パターンを生成するのに使用される情報を抽出する。尚、この処理は、スピーチに単に制限されるものではない。会話シミュレータは、グラフィック、音楽、及び、他のメディアを得て、それらをインタラクションに使用してよい。このような使用方法の1つの例としては、会話シミュレータを表すアニメ化されたキャラクタによって、その作曲家の音楽のデジタルクリップが「演奏」されることが挙げられる。これらのスピーチでないマルチメディアの変形は、以下に説明する会話シミュレータシステムの説明からより明らかとなろう。
【0078】
会話シミュレータが、説得力があり信頼度が高くなるには、その応答の質に大きく依存し、その応答の質は、テンプレート(応答を含む)のデータベースのサイズに依存する。現在、新しいテンプレートを作成することは、むしろ厄介な処理である。変形を特定する方法は様々にあるが、それらは限られている。従って、可能な表現の多くの変形は、代わりのテンプレートとして表現されなければならない。例えば、テンプレート「I like <x>」があるとき、<x>は、「I like horses」にマッチングする変数であるが、「I really like horses」にはマッチングしない。「I really like horses」には別のテンプレートが作成される。このことは非常に厄介となる。しかし、問題は、非効率であるだけではない。しばしば、テンプレートのシンタックスは、十分に表現が豊かではない。例えば、テンプレートは、1つの変数にしかマッチングすることができない。柔軟性が与えられるよう用語集があるのが望ましい。
【0079】
テンプレートシンタックスによって、別の必要条件を処理する能力が与えられうる。例えば、スプロッチでは、「&」記号を前置きすることによって必要条件を特定することができる。スプロッチは各代案に別個のテンプレートを作成する以外は、任意の条件に対し代案を特定しない一方で、テンプレートシンタックスは高められて、代替の必要条件を特定することができるようにされる。ラベルを使用して、離接接続詞を識別し、これらは、括弧、セパレーションコネクタ等を有するグループに区分され、適切な検索エンジンを使用して決められるような複雑な論理条件を作成する。スキームの1つの良好な例は、Lexis(登録商標)データベースを検索するのに使用されるスキームである。例外が設けられて、非連続語へのマッチングといった条件への間違ったマッチングが排除され、それにより、関連のない単語を無視することができ、これは、例えば、上述したような「「I really like」の例に言えることである。シンタックスは語順を無視する。例えば、「I」と「like」は、マッチングのために必要であると特定することによって、テンプレートは「I like」、「I really like」、及び、「I very much like」にマッチングするが、「Like, I don’t think you are making sense」におけるように、「Like I」にもマッチングしてしまう。テンプレートシンタックスは高められて、関連のない単語は無視するが、語順は無視しないようにされる。例えば、特定の例外が付加されて、「I」&「like」テンプレートから生成されるヒットから、「Like I」(語順に敏感な)を排除することができる。もう1つの可能な方法としては、必要条件が順番通りにマッチングされなければならないという規則とすることである。もう1つの可能な方法としては、基準的な同義語をユーザの入力における変形と置換する「拡張」ルーチンに非常に似ており、あまり重要でない単語を排除するルーチンを持つことである。
【0080】
キーワード抽出は、テンプレートマッチング技術に制限される必要はない。周知の自然言語技術を使用して、話された文又は書かれた文におけるキーワード及び句を識別することができる。
【0081】
しばしば、ユーザが質問をしているのか否かを知ることは重要である。というのは、質問がされている場合は応答が異なってくるからである。質問がされているのか否かは、文における最初の単語、例えば、「why」、「what」、「where」、及び、「how」等で始まる文によって決定される。会話シミュレータは、ユーザの入力が質問であるか否かを決定するようプログラミングされる。スプロッチでは、このことを行う1つの方法は、拡張ルーチンのようなルーチンを作成し、この作成されルーチンは、同義語ではなく、質問を認識する。この処理は、記号「qqq」といった質問マーカでユーザの入力を変更し、それによって、テンプレートはこれにマッチングすることができるようにされる。これにより、質問にのみマッチングし、質問にのみ応答するテンプレートを書くことが容易となる。スピーチベースのシステムでは、自然言語又はテンプレートマッチング技術を使用して質問が識別される。(質問と)同様の技術を、感情を含んだ単語に対して使用してもよい。即ち、ルーチンは、感情及び態度を示す単語が会話シミュレータ又は他の対象に向けられているか否かを決定しうる。視覚的な合図及び/又は識別子(例えば、名前)を使用して、ユーザが言及している対象又はエンティティ(会話シミュレータ又は別の人/別の物)が示される。これは、応答のタイプを決定するのに重要な情報となる。
【0082】
テンプレートは、ユーザの返答における単語への良好な適合性を超えると、基準によって優先順位が付けられる。例えば、スプロッチは、2つの同等に満足のいく代案のうち、より内容のある方を選択するようプログラミングされる。このようなマッチングによってスプロッチがよりインテリジェントであるかように見えるが、これは、話の腰を折ってしまう場合もある。一方、「Tell me more」といったようなユーザに話を続けさせるよう促す応答は、繰り返されすぎてうんざりすることがある。1つの可能性としては、応答を2つのクラスに分けることである。即ち、理解を示す応答(コメント)と、会話を続けさせるような応答(誘導因子)とに分けることである。その場合、出力は、2つのタイプの応答、例えば、関連性があり、更に、話を続けるよう促す応答から構成されることができる。応答の多くは両方の応答のタイプ、即ち、ユーザが言ったことに対するコメントとユーザに話を続けさせるような応答を含む。例えば、「That was interesting. Tell me more. (それは面白いな。もっと話を聞かせてよ)」と常に言うことができる。しかし、時として、会話を誘導するような応答は、コメントが必要でないくらいに明確である場合がある。例えば、「why」の質問は応答を促し、その応答は、会話シミュレータが、ユーザが言っていることを「理解」していることを示すのに十分な内容、例えば、「Why are you mad at your sister ?」を含むことができる。
【0083】
このメカニズムを実施する1つの方法としては、テンプレートを、コメントである応答を有するテンプレートと、ユーザから更なる入力を促す応答を有するテンプレートとに分けることが挙げられる。テンプレートの適合器は、各クラスから最も良好にマッチングするテンプレートを選択し、2重応答で返答するか、又は、更なる情報を促す1つの応答で返答するのかのどちらが適切であるかを判断する。或いは、各テンプレートには両方のタイプの応答が添付され、各リストから1つずつ選択して二つの応答を選択することができる。後者のアプローチでは、応答を組み合わせることが容易になり、というのは、おそらく、2つのリストからの応答は矛盾しないからである。しかし、前者のアプローチは、後者のアプローチに比べると複雑ではなく、テンプレートを書くのにより柔軟性があり、というのは、各テンプレートに対しいつも両方のタイプの応答がついてくるわけではないからである。
【0084】
優先順位を選択するのに使用する情報は、ユーザの性格クラス、現在性(例えば、テンプレートにおけるニュースデータの発行日)、ユーザの状況(例えば、ユーザは寝ているか?)、ユーザの情緒状態等を含んでよい。出力を生成するのに、2つの異なる処理、即ち、出力テンプレートの候補選択のために1つの処理及び候補テンプレートからの選択のために1つの処理を使用する必要はない。
【0085】
スプロッチを含む多くの会話シミュレータは、コンテキストを理解することができない。会話シミュレータは、ユーザが最近に言った応答に示すことに応答する。この応答が「yes」又は「why」といった1つの単語からなる応答である場合、会話シミュレータは、ユーザが何について話しているのか知ることはできない。コンテキストを付与する1つの方法としては、マッチングされるテンプレートのリストに、ユーザの幾つか最近の応答にマッチングされたテンプレートを含むことが挙げられる。古くて、高い優先順位を有するテンプレートが会話を完全に独占してしまうことを阻止するために、以前にマッチングされたテンプレートの優先順位は下げられるよう調節され、それにより、以前にマッチングされたテンプレートは、それらが再び言及されない限りは、最終的には会話からフェードアウトするようにされる。これは、システムがあたかも短期間メモリを有するような印象を与える。ユーザの性格を分類する際に説明したように、システムには長期間メモリが与えられて、性格クラス及び特定のユーザの他の永続的な特徴に関連付けられるテンプレートの優先順位に対し、より永続的な調節を行ってもよい。
【0086】
上述したような優先順位調節スキームにおいて、部分的には性格分類によって特定のテンプレートの適切性が決定されるが、このスキームは現在の話題を保ち続けるために使用される。この技術の任意の変形を使用してもよい。テンプレートは、基準的なキーワード記述子と共に格納され、索引付けされて、検索が可能にされる。検索ベクトルが、キーワード、及び、気分、性格、オーディオ等といった他の現在のクラスに対し形成され、現在のテンプレートが検索される。検索ベクトルのキーワード部は、順序正しいキーワードの組である必要はない。キーワード部には、プロキシミティコネクタといったコネクタ、要求される単語、及び、代替の単語が含まれる。
【0087】
ユーザが特定のトピックを頻繁に話題にすると、これらのトピックによってトリガされるテンプレートの優先順位が上げられ、それらのテンプレートが、将来の会話において選択される可能性が高くなる。更に、様々な応答を有するこれらのテンプレートの応答の優先順位モ調節され、好まれるトピックに関する任意の応答の優先順位が上げられる。追加のメカニズムを使用して、会話が一時的に途切れた際に新しいトピックが会話に出される。キーワードとのマッチングがないので、これらのテンプレートは、可能なテンプレートのリストには載っていない。1つの対策としては、特定のユーザに対し構築されたユーザプロファイルデータベースから情報を投入することである。このデータベースは、以前の会話からのキーワードを含み、データベースは、例えば、インターネットを介してアクセスされる外部のデータリソースからのデータによって拡充されている。多くの応答はランダムの変数を有する。例えば、「My favorite color is @color.w」という応答によって、スプロッチは、色のリストから色をランダムに選択するようにされる。このような選択はユーザの性格又は関心に基づいて優先順位が付けられていることが可能である。
【0088】
ある選択されたテンプレートに対する応答を差別化する任意のメカニズムは、同じ応答が繰り返される危険性をもたらす。これを解決するために、一度1つの応答が選択されると、その応答にはマークが付けられ、それにより、その応答はしばらくの間選択されなくなる。ランダムな変数の場合、確率が均等とならないよう調節される。したがって、各応答には、いつごろ選択されたかを指示するインジケータによってマークが付けられる。次に、この情報を使用して、しばらくの間、その応答が、再度使用されないことを保証し、たとえ、その応答がランダムに選択されたとしても、これらはあまり短い間隔では繰り返されない。
【0089】
優先順位を調節するのに、スーパバイズされる学習又はスーパバイズされない学習を使用してもよい。新しいテンプレートを作成するための非スーパバイズ式方法、即ち、過去の会話を試験し、新しいテンプレートを生成する方法は、意味のない応答を生成する傾向がある。しかし、この方法では、新しいテンプレートではなく、古いテンプレートに対し新しい応答を、非スーパバイズ式で学習することができる。新しいテンプレートを学習するためにサンプルの会話で会話シミュレータを訓練するのではなく、その訓練は代わりに新しい応答を学習するのに使用することができる。比較的高い度合いの特異性を有するテンプレートが、会話の一部にマッチングするとき、他の人の応答がこのテンプレートの応答に付加されてもよい。テンプレートがどれくらい特異であるか、また、そのマッチングがどれだけ近似しているか決定するのに基準が特定される必要がある。
【0090】
現在、スプロッチは、マッチングするものがない場合、「I understand」や幾つか関連のないユーモアのある発言といった空虚なコメントである応答を有するデフォルトのテンプレートを選択する。これらの反応は、過去において頻繁に出ていたトピックである応答を付加することによって適応することが可能である。例えば、「movies」が過去において頻出したトピックであるとすれば、「Would you like to talk about movies ?」といった応答をデフォルトのテンプレートに付加することができる。
【0091】
ランダム変数(例えば、@colors.w)を含むファイルも、特定の質問に対するユーザの応答に基づいて新しい変数が加えられることができる。更に、データベースからの情報も、ランダム変数を埋めるのに有用である場合がある。一般的に、会話シミュレータは、複雑な事実に基づく質問に答えて、シミュレータの限界を露呈してしまうことを避けなければならない。そのような質問に答えるには、言語を非常によく理解することが必要となり、また、いずれにしても、事実だけを述べて応答する人は、つまらないと思われてしまう。しかし、会話シミュレータはデータベースに支援されて自分の意見を述べることができ、これは、ユーザがxを好きであること、また、xとyは両方ともzであるのでユーザはyが好きであることといった関連のある情報を使用して行うことができる。この情報を使用して、会話シミュレータがユーザと同じような嗜好を有するようにすることができる。
【0092】
社会的コンテキストに敏感であり、ユーザの応答に適応することができる会話シミュレータは、そのことができない会話シミュレータと比べて、説得力があり、信頼度が高くなる。というのは、会話シミュレータは深い理解を有する必要がないからである。会話シミュレータは、ユーザに話を続けるよう促し、ユーザが言ったことをあたかも理解したかのような幻影を持たせるような方法で時々応答することによって会話を保つことができる。更に、会話シミュレータがうまくユーザに話を続けさせるほど、会話シミュレータが理解しているかのような幻影を維持することが困難となる。ユーザが短い文で応答すると、応答するためのキーワードが少なくなる。しかし、ユーザが長い文で応答すると、応答をトリガする可能なキーワードは多くなる。間違ったキーワードに応答することによって、会話シミュレータが会話にあまり注意を払っていない印象を与えるか、一層悪いことには、会話シミュレータは、何が話されているかについて理解していないという印象を与える。この場合、ユーザはたくさん話すことをやめ、会話シミュレータが本当に理解しているのか否かを確認するために、会話シミュレータに質問をし始めてしまう。
【0093】
真のスピーチ認識は、自然言語理解に依存する。会話シミュレータは、分別のある応答を生成するための規則を使用することによって、ユーザに会話シミュレータがあたかも話したことを理解するかのように思わせることによって、説得力があり信頼度が高いと思われることができたが、自然言語技術は、依然として制限された度合いで使用されて、会話シミュレータが、大きいコンテキストから単語の特定の意味を認識するか又は文を文法的に構文解釈するのを支援している。したがって、応答の中から選択しなければならないときには規則に基づいたテンプレートのアプローチを使用する一方で、文中の変数を表す正しい基準用語を決定し、また、例えば、直接目的語と動詞を区別するために文を構文解析するには、より高度な訓練集中式のネットワーク技術を使用する。多数の応答の中から生成すべき応答を最終決定する際には、会話シミュレータは、予測可能で且つ比較的複雑でない選択規則に依存すると、最も説得力があり信頼度が高くなる。
【0094】
図1を参照するに、会話シミュレータは、コントローラ100上で実行されるプログラムとして動作する。コントローラ100は、例えば、接続されるノートブック195、カメラ135及び136に接続される画像プロセッサ305、遠隔制御器150及びキーボード155といった従来のユーザインタフェースデバイス160といった様々なソースから入力を受信する。他の入力デバイスとしては、マイクロホン112、スピーカ114、温度センサ、位置センサ、セキュリティスイッチ、近接センサ、電気負荷センサ、周辺光センサ、及び、マウスといった別のユーザインタフェースデバイス(これらは別個に図示せず)等といった様々な機器140が含まれる。データは、ローカル又はワイドエリアネットワーク115、又は、インターネットネットワーク110、又は、アンテナ170を介しコントローラ100によって集められる。ローカルネットワーク115に接続されるデバイスには、スマート電気製品130、家庭用サーバ120、又は、例えば、ディスプレイ、オーディオ出力、ワイヤレスデバイス(別個に図示せず)等である出力デバイス123が含まれる。家庭用サーバ120は、傷みやすい商品及び食べ物、又は、美術及び工芸プロジェクトに使用する備品、趣味に使用する材料等の在庫データを格納しうる。スマート電気製品130には、バーコード読取り器及びディスプレイといったインタフェースを有する電子レンジ、テレビ受像機、ステレオ(別個に図示せず)、等が含まれる。コントローラ100は、直接的にモニタ175を介し出力してもよい。モニタはキャビネット190を含み、これはコントローラ100によってその外観を変えることができるよう光及びパターン出力素子を有する。インターネットネットワーク110は、衛星103又はサーバ140からそのデータを受信する。
【0095】
図2は、会話のシミュレーションを含むユーザとのインタラクションを生成するのに使用されるイベント駆動式アーキテクチャを示す機能図である。ユーザに関する情報は、入力ユーザインタフェース400処理によって受信され、このインタフェースは、キーボード、マウス、ハンドヘルド式コントローラ等といったスピーチ、ビデオ、制御デバイスから得られるオーディオ及びテキストといったデータを取り込む。入力ユーザインタフェースは、テキスト及び未処理信号をクラシファイア405に送る。受信されたデータは、クラシファイア405によって分類され、クラシファイアは、応答生成器415からの応答を要求するイベントを識別する。入力ユーザインタフェース400によって受信される情報は、入力パーサ410にも供給され、入力パーサは、ユーザが発言した文といったインテリジェンスを集め、文を構文解釈且つフィルタリングし、このインテリジェンスを応答生成器415に供給する。集められたインテリジェンスは、他の情報と共にデータベース435に格納される。クラシファイア405によってイベントが信号で知らされる度に、応答生成器415は、クラシファイア405から、ユーザの気分、ユーザの関心レベル、性格、関心等といった状態情報を取出し、応答を生成する。一部の状態情報は、部分的に前の状態情報から決定されうる。例えば、ユーザの性格はそのような状態情報であると言える。クラシファイア405が、会話シミュレータから口頭の応答が必要であると指示すると、応答生成器415は、応答データ記憶装置440から適切なデータを選択し、出力ユーザインタフェース425に指示して、応答に対応する合成スピーチを出力させる。このデータは、スピーチと同時に駆動するようアニメーションドライバ260、フラッシュライト、又は、任意の他の種類の最終出力デバイス又はドライバに命令する。応答データ生成器445は、入力パーサ140から、例えば、ユーザの好きな俳優に関する情報を要求するデータ要求を受信する。応答データ生成器445は、例えば、ワールド・ワイド・ウェブといったデータリソースから情報を得てデータモジュールを作成するエージェント205を生成し、応答生成器415は、データモジュールから、後から使用される、又は、要求と同時に使用されるべき応答を生成する。この応答データは、応答データ記憶装置440に供給されて格納される。応答が生成されると、応答生成器415は選択的に入力パーサ140に信号を送り、コンピュータの応答に対する(ユーザの)返答に含まれることが期待されるものを指示し、入力パーサ410が返答を構文解釈するのを支援する。このことは、入力パーサ410が返答を認識することを支援するテンプレートといった形で行われうる。
【0096】
図3を参照するに、図2に示すクラシファイア405と入力ユーザインタフェース400を詳細に示す機能ブロック図を示す。図3は更に、本発明の様々な特徴を実施するのに使用できる機能アーキテクチャを表すが、本発明のシステムの範囲内でそれらの機能を達成する唯一の方法ではない。オーディオ入力245及びビデオ入力255、及び、他のユーザインタフェース(図示せず)によって生成される信号は、それぞれのクラシファイアに供給される。マイクロホン(図示せず)、音声及びその方向を指す指向性オーディオ検出器(図示せず)、又は、他の任意の好適なオーディオトランスデューサによって受信されるオーディオ入力245は、オーディオクラシファイア210に供給される。後者のデータはリアルタイム信号を形成し、オーディオクラシファイア210はこの信号を、好適なデジタル又はアナログ手段、又は、これらの組合せによって分類する。オーディオクラシファイア210は次に、現在の状態情報信号を生成し、この信号は、気分/性格クラシファイア290及びイベント/クラスプロセッサの両方に供給される。例えば、オーディオクラシファイア210は、発言の始まりを認識するようプログラムされ、それに反応して、会話シミュレータのスピーチの生成を中断させる信号を生成し、その結果、会話シミュレータが、ユーザが話している際に割り込むことが回避される。オーディオクラシファイア210は、照明をつける、いびき、ラジオの音、たくさんの人が同時に話している等といった特定の音を識別しうる。オーディオクラシファイアは更に、多数の音声源によって生成される音か否か、音はスピーチであるか否か、音は掃除機といった機械の音か否か、又は、ラジオの音か否かを決定する。これらのイベント及び/又は状態のそれぞれは、区別されるタイムスタンプと組み合わされ、組み合わされた信号は、イベント/クラスプロセッサ207に供給される。イベント/クラスプロセッサ207は、多数のクラシファイアからの状態情報を組合せ、ユーザを含むシステム環境の現在の状態を指示する環境/ユーザ状態信号を生成し、更に、クラシファイアによって特定のイベントが認識されたときに、瞬時の応答ができるようイベント信号(割り込み信号)を生成する。イベントの認識には、多数のクラシファイアからの状態情報を必要とし、従って、イベント/クラスプロセッサ207は、多数のクラシファイアからの状態データを組合せ、組み合わされた状態信号と組み合わされたイベント信号を生成する。環境/状態信号は、様々なクラシファイアが識別可能な全ての可能なイベントクラス、又は、ある信頼水準の閾値を上回るイベントクラスのみを示す。
【0097】
ビデオ画像クラシファイア240はビデオ入力255を受信し、画像データを分類し、気分/性格クラシファイア290及びイベント/クラスプロセッサ207に供給される状態情報信号を生成する。ビデオ画像クラシファイア240は、例えば、ユーザが指し示している座標、手話ジェスチャに対応する指示、視界にいる人の数、ユーザのアイデンティティ等を供給するようプログラムされる。システム設計者の特定の目的に応じて、認証、機械のジェスチャ制御等といった様々な分野のビデオ処理技術を本発明のシステムに使用してもよい。他の出力デバイス(図示せず)はそれらの入力をそれぞれ他のUIクラシファイア235に供給し、UIクラシファイアはその出力信号を、イベント/クラスプロセッサ207に供給する。他のUIクラシファイア235には、ハンドヘルド式遠隔制御器、マウス、キーボード、ジョイスティック等といった一般的なコンピュータの制御部が含まれる。他のUIクラシファイアには更に、周辺光といった環境、時間、室温、建物のセキュリティ状態、電気皮膚反応センサ、心拍センサ、キーボード又は遠隔制御キーの圧力感知等をモニタリングする計測器が含まれる。直接テキスト入力250を生成する任意のインタフェースデバイスは、テキストデータを、入力パーサ410に供給する。テキストデータは更に、スピーチからテキストに変換するコンバータ215から得ることも可能である。コンバータ215は、オーディオ入力245を受信し、その入力をテキストに変換する。テキストはオーディオから得られる場合には、コンバータ215によってタイムスタンプがつけられる。
【0098】
コンバータ215は、従来技術の会話シミュレータに使用され、自然言語検索エンジンに使用されるような文法又は構造規則、又は、他の好適な手段を使用して、テキストの構文を解釈する。この構文解釈の結果、入力テキストのタイプ(句、文、及び、ユーザからの発言)を示すデータ、入力テキストから抽出される特定の可変データ、及び、入力テキストに対応するデータ要求が抽出される。入力テキストは、従来技術の会話シミュレータと同様に簡単な規則に基づくテンプレートを選択的に使用して構文解析される。従来技術の会話シミュレータと同様にこれらのフォームを特定の応答に単純にリンクするのではなく(しかし、それは、応答生成器415がどのようにプログラムされるかに依存した究極の結果である場合もある)、テキスト入力テンプレートを使用し、入力テキストから特定の情報を抽出する。このことは、本願に詳細に説明される規則に基づいたテンプレートマッチング方法によって説明されるが、他の自然言語システムを使用して行われてもよい。例えば、入力テキストが特定のテキスト入力テンプレートに対応するものと分かると、これは、応答生成器415によって使用されるべき1つ以上の出力テンプレートに対応しうる。テキスト入力テンプレートは更に、外部のデータ記憶装置から情報を得る、又は、外部のデータ記憶装置に情報を追加するために使用されるべき特定の単語又は句を指示する場合がある。例えば、会話シミュレータのプログラマによってある規則が決められ、それは、「I am a big fan of Shakespeare.」といった応答に適合するものとする。規則は、「I」という単語が、「fan」とある程度の近接関係にあり、間違ったマッチングを避けるために特定の除外規則を有するものであるとする。1つ以上の更なる規則が使用されて、文の直接目的語、即ち、「Shakespeare」が識別されてもよい。後者の規則は、テキスト入力テンプレートのマッチングに対し特別に決められるか、又は、一般的な規則であるか、又は、他の方法である。マッチングするテキスト入力テンプレートは、入力パーサ410が生成するデータ要求に対応する場合がある。Shakespeareの例では、データ要求は、Shakespeareについての追加情報の要求でありうる。この要求は、応答データ生成器445(図2に示し、以下により詳細に説明する)に供給される。応答データ生成器445は、外部ソースからデータを得、このデータは応答データ生成器445によって使用されて新しい出力テンプレートが形成される。この処理は、図4を参照しながら以下に詳細に説明する。
【0099】
気分/性格クラシファイア290は、様々なクラシファイアから信号を受信し、これらの信号を処理して、気分/性格状態信号を生成する。気分/性格クラシファイア290は、訓練されたニューラルネットワーク、ベイズネットワーク、単純な規則に基づいたネットワーク、又は、多くの異なる入力を受け取りユーザが所与の情緒状態にある可能性及び所与の性格を有することを予測することができる任意の種類のクラシファイアであってよい。性格信号は、多くの行動を観察した結果であり、長い時間に亘って持続するものであることが好適である。単純なものから複雑なものまで、様々な性格及び気分の類型を使用することができる。ユーザが退屈していると分類する規則の組の例を以下に示す。
●文/句における単語が少ない(ユーザの発する文はほとんど単語を含まない)(応答における単語数を示す入力パーサ410信号)
●強い関心を示す最上級形の単語の発生率が少ない(形容詞を示す入力パーサ410信号)
●声のトーンが静かで単調である(変調抑揚強度を示すオーディオクラシファイア210信号)
●動作がない(ビデオ画像クラシファイア240信号による指示等)
●遠隔キーへの圧力が低い
●頭部又は体の動作がほとんどない
●ため息の音等
●時計を眺める
●会話シミュレータによって識別される対象(スピーチと同期されるアニメ化されたキャラクタ)との目のコンタクトがない
これらの項目はそれぞれ指示されるクラシファイアによって分類される。ユーザの服の色、ユーザの声のピッチ、ユーザが部屋に入って出た回数、ユーザのジェスチャ等は全て、ユーザの情緒状態及び/又は性格を探る手掛かりとなりうる。「ビック・ファイブ」性格類型、又は、米国特許第5,987,415号に提案されるより単純なバレンス/インテンシティ(valence/intensity)情緒状態類型、又は、他の任意の好適な類型を使用してもよい。
【0100】
現在の精神状態を判断するために、任意の好適なフレームワークを使用してもよい。以下に示す表は、ビック・ファイブをまとめたものであり、これは、メイヤース・ブリックスの類型学から進化した副産物である。情緒状態及び性格のモデル化を題材とした学術論文は多くあり、これらの学術論文のうちの多くは、声、顔の表情、体位、及び、多くの他の機械入力に基づいた機械分類の問題を取り扱っている。インターネットを介するエージェント、又は、デイリー・サンシャイン(daily sunshine)のような基本的な天気データを測定する機器を介し得られる天気さえも、精神的な情緒状態を推測するのに使用される。
【0101】
神経症傾向の6つの面(Costa & McCrae, 1992からのアレンジ)に対する連続体の両極のアンカ(anchor)
【0102】
【表2】
Figure 2004513445
外向性の6つの面(Costa & McCrae, 1992からのアレンジ)に対する連続体の両極のアンカ
【0103】
【表3】
Figure 2004513445
開放性の6つの面(Costa & McCrae, 1992からのアレンジ)に対する連続体の両極のアンカ
【0104】
【表4】
Figure 2004513445
協調性の6つの面(Costa & McCrae, 1992からのアレンジ)に対する連続体の両極のアンカ
【0105】
【表5】
Figure 2004513445
誠実性の6つの面(Costa & McCrae, 1992からのアレンジ)に対する連続体の両極のアンカ
【0106】
【表6】
Figure 2004513445
気分/性格クラシファイア290は、幾らかの自由度で状態ベクトルを出力し、これは、設計者によって選択される性格及び精神状態のモデルに対応する。気分/性格クラシファイア290は、性格をモデル化するには長い時間に亘って瞬間的なデータを蓄積してもよい。なぜなら、性格は永続的な状態であるからである。精神状態は変化しやすい要素を有する。
【0107】
図4を参照するに、応答生成器415は、気分/性格クラシファイア290から気分/性格状態ベクトルを、入力パーサ410から構文解析された返答データをそれぞれ受信する。応答生成器415は更に、イベント/クラスプロセッサ207から環境/ユーザ状態信号及びイベント信号を受信する。応答生成器415は更に、データベース430に接続されるパーサ/リクエスタ432からデータ要求信号を受信する。応答生成器415は、構文解析されたユーザからの返答、気分/性格状態、環境/ユーザ状態、及び、イベント信号に基づいて応答データ記憶装置440から応答を選択する。
【0108】
パーサ/リクエスタ432は3つのことを行う。即ち、構文解析されたユーザからの返答を試験し、データベース430に追加してデータベースを更新することができるような情報を探すこと、パーサ/リクエスタのプログラミングに指示されるようにトピックについての更なる情報を要求すること、及び、データベース430をより有用にするにはどのデータが必要か決定することを行う。パーサ/リクエスタ432がプログラムされてデータベース430を更新するのに有用であると認識するデータが、構文解析された返答に含まれる場合、そのデータは、パーサ/リクエスタ432によって抽出され、データベース430に追加される。例えば、データベース430が、テレビ番組に関するユーザの嗜好が含まれるユーザプロファイルであるときに、ユーザが会話シミュレータと会話をしている際に「I like Pokeman」と言ったとすると、パーサ/リクエスタ432はキーワード「ポケモン(Pokeman)」をデータベース430に追加しうる。パーサ/リクエスタ432は更に、エージェント205を立てることによってデータソース(リソースデータ450として表す)から更なる情報を要求する要求を生成する。例えば、エージェント205は、インターネットサイトからポケモンキャラクタの名前を示すテキストを入手しうる。パーサ/リクエスタ432はこれらのキャラクタの名前を抽出し、データベース430内のプロファイルデータにそれらを追加する。
【0109】
データベース430が大量の嗜好データを蓄積したが、質問をすることによって明らかにすることができる曖昧さを見つけたとすると、パーサ/リクエスタ432はデータ要求を生成して、その要求を応答生成器415に供給し、それにより、ユーザに明らかにするよう質問するという応答が、ある時点においてなされる。例えば、データベース430が、スポーツ番組が頻繁に見られていることを指示するものとする。しかし、どのスポーツが好きであるかに関するデータは曖昧であるとする。その場合、データベース430には更に、会話シミュレータが断続的に質問することによって時間をかけて漸進的に埋められてゆく標準的なデータ要求が含まれることがある。これは、フォームを埋めていくためのアナログ的な方法であるが、ユーザはこの処理が行われていたことを知る必要は全くない。データベース430がEPG用のプロファイルデータベースである例では、標準的な設定情報の組があり、これは、上述したように漸進的に埋めていかれないと場合、カスタマイゼーションデータのフォームを記入することによって処理される。このことは、会話シミュレータの場合は、単純に、当該データを要求するテンプレートを生成し、時々、これらのテンプレートからの質問を会話の中に挿入して、ユーザの返答から当該のデータを見つけ出すことによって処理される。
【0110】
データベース430の他の例としては、投資情報を有するスマートカードや、ユーザとのインタラクションの月々の請求額が遅延なく支払われるようユーザの月々の支払い先を含む(インターネットによってリンクされる)外部データベースが挙げられる。スマートカードは、例えば、ホテルのキオスクで使用され、カードに格納される活動の嗜好データに基づいて活動を薦めることができる(例えば、古い教会の歴訪、又は、サイクリング)。同じデータが、スマートカードではなくて、無線周波数デバイス、携帯情報端末、又は、任意の好適な手段に格納されてもよい。データベース430は、製品調査といった調査を行う外部データベースであってもよい。データベース430は、家庭用ネットワークからのショッピングリストであってもよく、ユーザとのインタラクションによって、ショッピングリストに追加したり、ショッピングリストから削除したりする。本発明の範囲において他にも多くの可能な例がある。
【0111】
図5を参照するに、例えば、応答データ記憶装置440は、それぞれ1つ以上のアニメーションを駆動させるテンプレートのセットを保持してもよい。したがって、そのようなテンプレートがトリガされると、応答は、スピーチ出力(音等)に合わせられるアニメーションか、又は、他の任意の出力とは独立したアニメーションとなる。応答生成器415は、出力テンプレートを選択し、それを図5に示すアニメーションドライバ260に送る。アニメーションドライバ260は、それに反応して、特定の対応するアニメーションをディスプレイデバイス(図示せず)に出力する。ディスプレイデバイスは、図1に示すようなモニタ175であってよい。応答生成器415は更に、テキストを含むテンプレートも選択する。応答生成器415は、テキストをテンプレートテキストに加え、これをテキストからスピーチに変換するコンバータ275に送信してスピーチ出力を生成する。テンプレート選択及び可変スピーチ又は可変テキストは、従来の方法通りに、スプロッチといったスピーチシミュレータによって処理される。応答生成器415は、コンピュータ又はモニタのディスプレイといった直接テキスト出力280に直接テキストデータを出力してもよい。応答生成器415は更に、他の出力効果を供給するテンプレート270をアクセスしてもよい。出力効果の別の例として、モニタのキャビネット190(図1参照)の可変照明を含むキャビネット効果ドライバ265が挙げられ、キャビネットの外観が出力コマンドに反応して変化する。アニメーションドライバ260によって供給されるアニメーションは、コンバータ275によってスピーチチャンネル80と同期され、それにより、アニメーション上に現れるキャラクタがあたかも話しているような様相が与えられる。同じような同期が他の効果、例えば、キャビネット効果ドライバ265によって駆動されるテレビジョンのキャビネット190と一緒に行われ、ユーザにテレビジョンがあたかも性格を持っているような様相を与えることができる。或いは、テレビジョンがあたかも人のような様相が与えられる。
【0112】
コンバータ215又は直接テキスト入力250のいずれかによって得られる入力は、入力パーサ410によって構文解析され、構文解析された返答は、応答生成器415に供給される。応答生成器415は、構文解析される返答、気分/性格状態、環境/ユーザ状態、及び、イベント信号に基づいて、応答データ記憶装置440の中から最も適切なテンプレートを選択する。応答生成器415は、全ての当該信号に基づいて、各候補テンプレートに対する適合推定の適切度を計算する。その結果、応答生成器415は、テキストに含まれるデータに関しユーザの発言に反応するだけでなく、本願に説明する他の多くのファクタにも反応する。特に、分類されたユーザの情緒状態及び性格によって、会話の内容、会話シミュレータの応答のスタイル(雰囲気)を変化させる。
【0113】
ビデオ入力255からのデータの流れをたどるに、ビデオ入力255信号は、ビデオ画像クラシファイア240に供給される。ビデオ画像クラシファイア240は、ビデオ入力255信号における様々に異なる画像及びビデオシーケンスのクラスを認識するようプログラムされる。例えば、ビデオ画像クラシファイアは、座っている人と横になっている人と区別する、静かに座っている人と激しく動き回っている人又は会話シミュレータシステムの付近を離れる人とを区別するようプログラムされうる。これらのクラスの夫々に対する確率が生成され、信号として出力される。或いは、1つの最も可能性の高いクラスが生成され、信号として出力される。この信号は、イベント/クラスプロセッサ207に供給され、このプロセッサは供給されたデータを他のクラスデータと組合せ、環境/ユーザ状態信号を生成する。イベント/クラスプロセッサ207は、ビデオ画像クラシファイア240から、何か突然重要なことが起こったということ、例えば、ユーザが起きて部屋を離れたということを示す指示を受信すると、イベント/クラスプロセッサ207は、その活動に対するイベント信号を生成し、この信号は、応答生成器415によって生成される出力を同時に中断させうる。気分/性格クラシファイア290がビデオ画像クラシファイア240から信号を受信し、この信号はユーザがいらいらしているように動き回っていることを示すとすると、気分/性格クラシファイア290はこの情報を他のクラシファイア信号と組合せ、心配事があるという情緒状態を示す気分/性格状態ベクトルを生成しうる。例えば、オーディオクラシファイア210は同時に、発話者の声のピッチが通常より高く、入力パーサ410が最近の応答の単語数が極端に少ないことを示しうる。応答生成器415によって選択される候補応答テンプレートの選択は、この気分/性格状態によって影響を受け、例えば、そのような状況となったときに応答生成器415が選択するようプログラムされる1つ以上のトピックに切替えられるよう選択される。
【0114】
尚、現在のクラス又は状態が、以前とは変わっていることを表しているか否かをシステムが決定するために、イベント/クラスクラシファイア207及び気分/性格クラシファイア290にはデータ記憶能力と現在のユーザを決定する手段が設けられ、それにより、異なるユーザに対し対応する経歴、過去を格納することができる。システムには更に、ユーザ識別子460が与えられる。ユーザ識別子が与えられるには、例えば、ビデオ画像クラシファイア240による顔認識、無線周波数識別トークン、スマートカード、音声署名、又は、ユーザが、指紋といったバイオメトリックインジケータ或いは単にPINコードを使用して身分証明することを可能にする簡単なユーザインタフェースといった任意の好適な身分証明手段を使用する。このようにして、気分/性格クラシファイア290及びイベント/クラスプロセッサ207の両方はそれぞれ、特定のユーザを過去のデータに相関させ、その相関されたデータを使用して、応答生成器415の応答の傾向を識別且つ信号で伝える。
【0115】
応答生成器415が、様々な入力からの情報に反応するもう1つの例を以下に示す。ビデオ画像クラシファイア240がビデオ入力255から受信した画像に、人の寝ている様子を識別するときに、会話シミュレータアプリケーションがスピーチを生成しているとする。すると、応答生成器415は、会話をやめて、白色雑音又は音楽を生成する。もう1つの例としては、別の人が部屋に入ってきたとすると、応答生成器415は、会話の途中にポーズを入れて、ユーザがたった今部屋に入ってきた人と話をすることができるようにする。その場合、会話生成器240は、たった今部屋に入ってきた人に自分を紹介してほしいと頼むか、又は、ユーザが会話を続けたいか否かを聞く発言をはさみこんでもよい。更なる例としては、オーディオクラシファイア210によって変換されるオーディオ入力245が、人が笑っている様子を識別したとする。オーディオクラシファイア210は信号を生成し、応答生成器415はその信号に対し、応答生成器415のプログラミングにおける規則に応じて、笑い声の後に、冗談を含む応答が続けられるべきであることを示す応答テンプレートを選択する。
【0116】
入力パーサ410は、文中の、ユーザによって示される関心又は質問に対応する特定の部分を構文解析する。例えば、ユーザは、「Is it difficult to fix a home air conditioner ?」と聞いたり、又は、日本料理に関心があることを表現したとする。入力パーサ410は、質問及び関心に関連のある特定の記号又はテキストデータを抽出し、データ要求を生成するようプログラムされる。応答データ生成器415は次に、エージェント205のインスタンスを生成し、ローカルネットワーク又はインターネット(「ローカルネットワーク/インターネット200」として表してある)といったリソースデータ450から更なる情報を得てもよい。エージェント205によって得られるデータは次に、応答データ生成器445によって構文解析され、新しいテンプレートがそれにより形成される。このために、応答生成器415は、応答データを、応答生成器415が使用する規則と関連付けるようプログラムされる。以下に幾つかの例を説明し、何が可能であるかを説明する。まず、ユーザは上述したような空調機(air conditioner)に関する質問をする。応答データ生成器445は、その話題と特定のニーズを示すデータ要求を受信する。この場合では、ニーズとは、早急に情報がほしいということである。エージェント205が答えを得ると、応答データ生成器445は応答を組立て、その応答は、会話シミュレータの会話の中で高い優先順位が与えられるべきであることを指示する。この場合、この応答は、聞かれた質問を確認することが好適である。例えば、応答は、「From what I am able to gather, the answer to your question regarding whether it is easy to fix a home air conditioner, <x>.」となる。「<x>」という記号は、リソースデータ450からから集められたデータを表す。次に、ユーザは、日本料理における関心を表現する。これにより、日本料理に関する情報を得るためのデータ要求がもたらされる。応答データ生成器445は関連の情報を検索し、例えば、「Did you know that there is a highly−rated Japanese restaurant located on 14th St.?」といった新しいテンプレートを形成する。このテンプレートには、このテンプレートが会話を始めるときの、又は、話題を変えるときの応答であり、また、ユーザの関心に直接関連することを示す指示が付けられる。検索され引出しされるデータは、インタラクションシミュレータによって後の「会話」にはさみこまれたり、又は、直ぐに話題に出されたりしてよい。
【0117】
入力パーサ410は、文中から特定の種類の情報を抽出するために、認識テンプレート、コンピュータ言語技術、又は、他のモデルを使用して動作する。もう1つの例として、ユーザが「I very much enjoyed the Pokeman television program that I saw yesterday.」といった文を発言したとすると、入力パーサ410は直接目的語である「Pokeman」を抽出し、この直接目的が特定の認識テンプレートに対応するので、これをデータ要求として送信する。或いは、直接目的語を、自然言語技術を使用して識別することによってデータ要求として送信する。認識テンプレートは、「I」及び「like」の近接性といった規則を使用する。自然言語デバイスはより柔軟性があるが、似たような結果を生成してしまう。テンプレートを用いてテンプレートの文構造を利用することにより、質問か意見を述べたものであるか、又は、好きか嫌いか等を区別することができる。単純なテンプレートスキームは、ユーザの発言における全てのデータを使用しない場合もあるが、プログラムすることが簡単な技術を提供することができ、それにより、比較的少ない規則で説得力があり信頼度の高い会話シミュレータを提供することができる。
【0118】
エージェント205は、ローカルネットワーク/インターネット115/110にアクセスし、例えば、データ要求に基づいた検索にマッチングしたウェブサイト上のテキストに加えて更なる情報へのリンクといったデータを集める。応答データ生成器445は、エージェント205から得たテキスト及び他のデータをフィルタリング且つ構文解析する。ユーザからの返答テキスト及びリソースデータ450からの未処理データを処理することにより、入力パーサ410及び応答データ生成器445は、認識テンプレート又は他の自然言語処理によって特定の単語又は句を選択する。他のデータとの比較を容易にするために、この処理によって、選択されるテキストは、基準的なフォームに変換される。例えば、応答テンプレートを表すキーワードは、所定の基準用語のセットに制限されうる。ユーザが発言すると、ユーザの発した単語は、基準フォームに変換されてから、様々な応答テンプレートを特徴付けるキーワードベクトルと比較される。引出しされたデータを検索する際に、基準フォームへの変換の後に、様々な基準フォームの変形の分離的なリストを使用する検索質問を生成し、最も可能性の高いヒットレートを得る。
【0119】
図6を参照するに、会話シミュレータは、ユーザの動作及び環境に反応し、会話シミュレータの動作が適切であることを確実にする。例えば、図6には、ユーザ305が寝ている状況を示す。ビデオ入力255は、ビデオクラシファイア240に供給される信号を生成する。ビデオクラシファイア240は、要素のリストが付いているリアルタイム状態ベクトルを有する。各要素は、会話シミュレータの「視覚的な」環境の状態についての情報を追加する。例えば、ユーザの活動は、幾つか異なる状態のうちから分類されることができる。ここでは、ユーザの活動は「静止」と識別され、これは、ユーザが部屋の中を動いておらず、比較的穏やかであることを意味する。状態ベクトルのもう1つの要素としては、部屋の中にいる人の数があり、ここの場合では、1である。
【0120】
ビデオ画像クラシファイア240が現在の技術を用いて容易に識別できるもう1つの分類は、部屋における新しい対象物の数である。前の状況において、ビデオ画像クラシファイア240は、単純なスキームによってその環境を記憶してある。例えば、ビデオ画像クラシファイア240は、初日にその環境の写真を撮り、次の日にシステムが再度立ち上げられたとすると、記憶されている画像における対象物の数と、現在の画像中に識別される対象物の数とを比較することができる。次に、新しい対象物の数が出力され、この情報は返答を生成するのに使用されてもよい。
【0121】
もう1つの分類としては、体位が挙げられる。体位には、例えば、立っている位置、うつ伏せの位置、座っている位置等が含まれる。ここでの場合、ユーザは、うつ伏せの位置にあるものと識別される。会話シミュレータシステムによって受信されるオーディオ信号も、2つの処理、即ち、スピーチからテキストに変換するコンバータ215及びオーディオクラシファイア210に供給される。入力パーサ410はコンバータ215によって出力されるテキストに最良にマッチングする認識テンプレートを識別しようとする。従って、例えば、寝ている人のいびきの音にマッチングするテンプレートは、どの特定の認識テンプレートにもあまりうまく相関しない場合がある。しかし、オーディオクラシファイア210がいびきを示し、ビデオ画像クラシファイア240がユーザの活動を示すことによって追加の情報が得られることによって、応答生成器415は、会話シミュレータが話をすることが不適切であるという状況を識別することができ、その代わりに、テンプレートセレクタ/ストア225は、白色雑音(又は音楽、或いは、全く音を出さない、或いは、照明を落とす)を生成する。
【0122】
イベント/クラスプロセッサ207は、フィルタ及びデータコンソリデータとして作用する。イベント/クラスプロセッサ207は、多数のクラシファイアからのクラスデータを組合せ、レベルの高いクラス情報を出力する。図6に示す例では、イベント/クラスプロセッサ207は、オーディオクラシファイア210及びビデオクラシファイア240からの入力を統合し、ユーザの活動、即ち、寝ている状態に対応するレベルの高いクラス(「メタクラス」)を生成する。オーディオクラシファイア210は音を入力し、その音を用いてオーディオクラシファイア210が認識するよう訓練されているクラスを識別しようとする。イベント/クラスプロセッサ207は、オーディオクラシファイア210及び他のクラシファイアからクラス情報を受信し、メタクラスを使用してイベント/クラスプロセッサ207が認識するよう訓練されているクラス情報を識別しようとする。尚、本願に説明するアーキテクチャは、本発明の様々な特徴を実施するための唯一の方法ではなく、例えば、イベント/クラスプロセッサ207は単純に省略されて、その機能は、応答生成器415によって取って代わられてもよい。しかし、機能を分離することの1つの利点は、イベント/クラスプロセッサ207は、応答生成器415によって使用されるクラシファイアとは異なる種類のクラシファイアを使用してもよいという点である。例えば、応答生成器415は、スプロッチが使用するような規則に基づいたテンプレート適合器を使用する一方で、イベント/クラスプロセッサ207は、訓練されたニューラルネットワーク型のクラシファイアを使用することができる。この機能の割当は、応答生成器415の出力の数が、イベント/クラスプロセッサ207(又は他のクラシファイア)が認識するよう訓練されるクラスの数よりかなり多いので一層好適である。これは、ネットワーク型のクラシファイア(例えば、ニューラルネットワーク及びベイズネットワーククラシファイア)は、多数の可能な出力状態があるときに訓練することが非常に困難であることが周知の事実であることによる。
【0123】
図6に示す構成は、従来技術の会話シミュレータとは実質的に異なる。従来技術の会話シミュレータはスピーチパターンだけに基づいて最適なテンプレートを選択するのに対し、本発明のシステムは、ユーザの状況に関連する他の情報も考慮に入れ、その情報に反応して会話を始める。オーディオクラシファイア210及びビデオ画像クラシファイア240からの追加の情報を使用して、よりよい応答が生成される。この追加の情報の効果と、最も可能な出力を供給するためにその情報を利用することは、会話シミュレータとしての本発明のシステムがより一層人間らしく動作することを可能にする。
【0124】
図7を参照するに、ここでは、同様の環境において、ビデオ入力255及びオーディオ入力245から得られる追加の情報を、スピーチのテキストに加えて使用し、会話シミュレータからの出力を生成する。この例では、オーディオクラシファイア210は3つのインジケータを出力する。即ち、ユーザ以外の人が話していることを示すインジケータ、第2の声があることを示すインジケータ、及び、一定期間の静寂があることを示すインジケータを出力する。スピーチからテキストに変換するコンバータ215は、「Hi Bob! How is it going ?」というテキストを生成する。入力パーサ410は、そのテキストを、「Bob」に向けられた挨拶であることを分類し、且つ、聞かれた質問の基準フォームを分類する。つまり、「How is it going ?」は、入力パーサ410の出力では、「How are you ?」によって表される基準フォームとして示される。同じデータが気分/性格クラシファイア290に供給される。ビデオ画像クラシファイア240は、誰かがゆっくりと歩いており、視野には2人の人310がおり、新しい対象物はなく、2人の体の位置は2人が立っていることを示す。気分/性格クラシファイア290はユーザに関する性格データと、前の会話から検出されるユーザの気分を格納する。これは、イベント/クラスプロセッサ207に供給される出力信号に示される。
【0125】
イベント/クラスプロセッサ207は、2つの声があり、テキスト中にユーザの名前が登場した事実、及び、部屋に2人の人がいて、そのうちの1人はたった今部屋に入ってきたという事実を示すオーディオクラスを組み合わせる。組み合わされた情報は、イベント/クラスプロセッサ207によって、割り込みするべきでない状況が示されていることを認識される。イベント/クラスプロセッサ207は、応答生成器415に供給されるイベント信号を生成し、この信号は、ポーズを挿入して直ぐにスピーチが出力されることを阻止する。次に応答生成器415は、クラシファイアからの他のデータを使用して、会話シミュレータが紹介されたいことを示唆するテンプレートを識別する。気分/性格クラシファイア290からの性格情報は、この選択の際に使用され、例えば、プログラマは、より内向的な会話シミュレータの場合は、社会状況において静かな感じの紹介のされ方を好むと仮定する。応答生成器415は一時会話を中断した後に、「Excuse me, I don’t know Bob.」という発言をする。「Bob」という単語は、イベント/クラスプロセッサ207を介し入力パーサ410から来たものである。
【0126】
尚、ビデオ画像クラシファイア240は、別個の活動、体の位置等、シーン中における各識別される個人に対する分類を含んでもよい。これらはそれぞれ、ビデオ画像クラシファイア240によって識別される各個人に対し1つのベクトルで別々に出力されうる。尚、オーディオクラシファイア201は指向性能力も有してもよく、それにより、どの個人から声が発せられているのかを区別することができる。例えば、図7に示すシナリオでは、オーディオクラシファイア210は、話をしている特定の発話者、即ち、グループAを識別し、そのことを出力に指示する。入力パーサ410によって構文解析されるテキストを、話をしている個人に相関させるために、全ての出力にタイムタグが付けられてもよい。例えば、オーディオクラシファイア210は、各音信号にタイムタグを付け、その信号が来ている方向を指示することができる。オーディオクラシファイア210は更に、音から声紋を識別する能力が与えられていてもよい。この情報を使用して、イベント/クラスプロセッサ207は、テキストにタイムタグを付け、それにより、応答生成器415が音のする方向の座標及び声紋をテキストに相関しすることができるようにされる。次にテキストは、話をしていた個人に相関される。
【0127】
図8を参照するに、視野に子供315が座っていることを示すビデオ入力255によってビデオ画像クラシファイア240は、ベクトルを生成する。ベクトルは、ユーザが座っていること、ユーザが子供であること、視野における個人の数は1であること、ユーザは特に何もしていないことを示す。オーディオ入力245は、スピーチからテキストに変換するコンバータ215とオーディオクラシファイア210に供給される。コンバータ215は子供の笑い声として認識されるテキストを入力パーサ410に供給する。入力パーサ410は、ユーザは笑っていることを示すベクトルを生成する。オーディオクラシファイア210は音と同じクラスを識別する。ビデオ画像クラシファイア240は、ユーザが何もしておらず、座っているものと分類し、新しい対象物はなく、且つ、現在の視野における個人の数は1であることを指示する。イベント/クラスプロセッサ207は、ユーザは笑っているということを応答生成器415に指示する。応答生成器415は、笑い声の後には面白い発言又は冗談が続けられるべきであるという単純な規則でプログラムされる。応答生成器415は、ランダムに冗談を選択し、その冗談は、テキストからスピーチに変換するコンバータ275に供給される。応答生成器415は更に、テレビジョンのキャビネット効果ドライバ265を介する同期される照明効果を生成し、アニメーションドライバ260を介し、冗談とアニメーションが同期され、その後に笑っているアニメーションが表示される。
【0128】
図9を参照するに、ユーザ325との会話から得られるデータは構文解析され、新しい会話データを生成するために使用される。ユーザの発言から変換されるスピーチは、「Pokeman」及び「like」といった単語を高い近接性で含み、入力パーサ410は、このスピーチ中に「Pokeman」に関するトピックに関心があることを示す表現を識別する。入力パーサ410は、「Pokeman」トピックに関する更なるデータを要求する要求を生成し、要求を示す信号を応答データ生成器445に供給する。応答データ生成器445は、エージェント205のインスタンスを作成し、これは、ローカルネットワーク/インターネット200からデータを入手する。ローカルネットワーク/インターネット200は、ワールドワイドウェブサイトといったリソースデータ450にリンクされる。更なる情報は、構文解析され、応答データ記憶装置440に1つ以上の応答テンプレートといった形式で格納される。ビデオ画像クラシファイア240は、ユーザが子供であることを分類し、ユーザは興奮している又は動揺していることを指示する。イベント/クラスプロセッサ207は、ユーザの発言の内容と、熱心さと興奮のメタクラス状態を指示し、ユーザの「Pokeman」に対する関心度を説明する。応答生成器415は、応答データ記憶装置440に「Pokeman」のテンプレートを見つけるとすぐに、エージェント205から得た情報を含む応答を生成し、応答データ発生器445によって構文解析され応答に形成される。応答には、アニメーションドライバ260を介しアニメーションが同期されてもよい。
【0129】
図10を参照するに、会話シミュレータはユーザの悲しい気分を検出し、思いやりのある応答を生成する。会話シミュレータはプロファイルデータベース内の嗜好データを使用して、提案をする。ビデオ入力255は、ユーザ345の顔を含む。ビデオ画像クラシファイア240は、ユーザの顔の表情を悲しい表情として分類する。ユーザの返答には、悲しい気分であることを示す他の単語も含む。オーディオクラシファイア210は、ユーザの声が弱く、ピッチが低いと分類する。気分/性格クラシファイア290は、これらの分類を組み合わせて、ユーザの気分を表すメタクラスを生成し、ここでは、塞ぎこんでいることを示す。気分/性格クラシファイア290の出力状態ベクトルもこのことを示す。応答生成器415は、ユーザの発言の内容を受信し、気分のクラスとともにその内容に反応して、思いやりのある応答に対応するテンプレートを見つけ、それを出力する。応答データ生成器445は、例えば、好きなテレビ番組、趣味、関心等といったプロファイルデータをデータベース430から事前に受信する。データベース430はユーザに関するプロファイルデータを格納する。これに反応して、応答データ生成器445は、リソースデータ450からの電子番組ガイドから番組情報を得ており、応答データ記憶装置440に格納される応答テンプレートを生成する。その結果、応答生成器は、思いやりのある発言をした後に、例えば、ユーザの好みの番組がその夜放送されることを伝える励ましの発言をする。
【0130】
図11を参照するに、図9を参照しながら説明したように「Pokeman」という単語が抽出される。しかし、図9に示すように、新しい応答テンプレートを作成するために、外部のデータソースから情報を単純に得るのではなく、このデータはデータベース430を拡充するよう使用される。本発明の例では、データベース430は、プロファイルデータであり、ユーザの嗜好に合わせてEPGの内容をフィルタリング且つソートするのに使用される。パーサ/リクエスタ432は、入力パーサ410から構文解析される返答を受信し、選択的にエージェント205のインスタンスを生成し、更なる情報を得る。エージェント205はポケモンに関する新しいデータを返し、この新しいデータは構文解析され、そのうちの一部は、データベースに追加される。例えば、エージェント205によってポケモンキャラクタの名前が得られたとする。このデータは、ユーザがポケモンについて言及したという情報とともにデータベースに追加される。
【0131】
尚、プロファイルデータ(ここの例では、データベース430に格納される)は、ローカルでも、遠隔にあるサーバ上に格納されてもよい。プロファイルデータは新しいテンプレートを作成するためのソースとして使用されるだけでなく、性格クラス又はそうでなければ個人的な応答を形成するための情報ソースとしても使用される。
【0132】
応答データ記憶装置440は、多数のテンプレートが格納されるデータベースであってよい。これらのテンプレートは必ずしも永続的なテンプレートである必要はない。多くのテンプレートは、インターネットから「ライブ」のデータを得る及び新しいテンプレートを構築する処理の際に追加される。応答データ生成器445によって、インターネット又はローカルネットワーク又はデータソースから抽出され、新しいテンプレートとして組み込まれる情報には、テキスト、リンク、又は、モニタ175上で表示可能なグラフィックといった他の種類のデータ情報が含まれる。
【0133】
会話シミュレータを実施することによって、他のデバイスを、会話シミュレータシステム用のスピーチ駆動型インタフェースとして動作させることが可能となる。例えば、会話シミュレータが「Would you like to download a new Pokeman game ?」と発言し、スピーチをテキストに変換するコンバータが「Yes」という発言をコマンドに変換し、そのコマンドは、応答データ生成器445によって得られたリンクを呼び出し、そのリンクにアクセスするのに使用される。
【0134】
上述の例が示すように、会話シミュレーションに使用するテンプレートのセットは、ユーザとの会話だけから情報を回収するスタティックな情報セットである必要はない。むしろ、会話シミュレータは実際に、外部ソースからの情報を使用してテンプレートを作成することができる。外部ソースは、システムによって自発的にアクセスされるか、又は、上述したように、入力パーサ410によって識別されるトリガ単語又はトリガテンプレートによってアクセスされる。例えば、文中において、単語「Pokeman」が、検索及びエージェント205のインスタンスをトリガする「I like」とともに使用されると、更なる情報及びポケモンに関するデータファクトへのリンク等が検索される。
【0135】
ビデオ画像クラシファイア240処理には、ビデオ情報を受信するカメラ(ビデオ入力255によって表される)を制御する能力を含むことができる。ビデオ画像クラシファイア240は、部屋の中の、人間又は人間でなくてもよい対象物を区別しようとし、人間の様々な特徴にズームしようとする。例えば、ビデオ画像クラシファイアは、新しい人間を識別すると、その人間の顔が視野においてどこにあるのか識別し、視野において識別した各個人の顔に定期的にズームし、個人を識別したり、個人の気分を識別するのに使用できる顔の表情を得ることができる。
【0136】
本発明は、上述したように、好適な実施例のコンテキストで説明したが、当業者には明らかなように、本発明の目的又は範囲から逸脱することなく、これらの好適な実施例に対し様々な変更を行い、また、様々な等価的な実施例によって置換することができることを理解するものとする。
【図面の簡単な説明】
【図1】
本発明の実施例が実施されうるハードウェア環境を示す図である。
【図2】
本発明の実施例において、本発明を実施するために使用されうるソフトウェアシステムにおける処理間のデータフローの全体を示す機能図である。
【図3】
図2に示すフローチャートの詳細を示す図である。
【図4】
図2に示すフローチャートの詳細を示す図である。
【図5】
図2に示すフローチャートの詳細を示す図である。
【図6】
ユーザが寝ている例示的な状況に対し反応する図3乃至5に示すシステムを説明する図である。
【図7】
ユーザが別の人に呼びかけられた例示的な状況に対し反応する図3乃至5に示すシステムを説明する図である。
【図8】
ユーザが笑っている例示的な状況に対し反応する図3乃至5に示すシステムを説明する図である。
【図9】
ユーザが関心のあるトピックを話している例示的な状況に対し反応する図3乃至5に示すシステムを説明する図である。
【図10】
ユーザがふさぎこんでいる例示的な状況に対し反応する図3乃至5に示すシステムを説明する図である。
【図11】
ユーザが関心のあるトピックを話している例示的な状況に対し、外部データ記憶装置にあるデータを拡充することで反応する図3乃至図5に示すシステムを説明する図である。

Claims (19)

  1. ユーザとの会話のやり取りをシミュレートする会話シミュレータであって、
    自然言語の発言を含むユーザ入力を受信するようプログラムされるコントローラを含み、
    上記コントローラは、上記ユーザ入力に含まれる情緒状態データに反応して、上記ユーザの気分及び性格の少なくとも1つを分類し、クラスデータを形成するようプログラムされ、
    上記コントローラは、上記ユーザ入力及び上記クラスデータに反応して、上記ユーザ入力に対し応答を生成するようプログラムされるデバイス。
  2. 上記情緒状態データは、画像及びオーディオデータのうち少なくとも1つを含む請求項1記載のデバイス。
  3. 上記情緒状態データは、上記ユーザの顔の表情を示すインジケータを含む請求項1記載のデバイス。
  4. 上記情緒状態データは、上記ユーザの心配のレベルを示すインジケータを含む請求項1記載のデバイス。
  5. 上記応答は、上記応答の内容が上記クラスデータに反応したものであるよう生成される請求項1記載のデバイス。
  6. 上記応答は、上記応答の主題が上記クラスデータに反応したものであるよう生成される請求項1記載のデバイス。
  7. 会話シミュレータにおけるダイアログ応答を生成する方法であって、
    ユーザから、自然言語の発言を受信する段階と、
    上記ユーザの情緒状態を決定する段階と、
    上記決定段階の結果及び上記発言に反応して、上記発言に対する応答を生成する段階とを含み、
    上記応答の主題は、上記決定段階の結果に反応したものである方法。
  8. 上記受信段階は、オーディオトランスデューサを介しスピーチを入力する段階を含む請求項7記載の方法。
  9. 上記決定段階は、カメラからの画像データを分類する段階を含む請求項7記載の方法。
  10. 上記決定段階は、
    カメラからの画像データを分類する段階と、
    オーディオトランスデューサからのオーディオデータを分類する段階とを含む請求項7記載の方法。
  11. 上記決定段階は、
    カメラからの画像データを分類する段階と、
    オーディオトランスデューサからのオーディオデータを分類する段階と、
    上記第1の分類段階の結果及び上記第2の分類段階の結果を組合せ、上記情緒状態を決定する段階を含む請求項7記載の方法。
  12. 上記受信段階は、オーディオトランスデューサを介しスピーチを入力する段階を含む請求項11記載の方法。
  13. 上記決定段階は、画像及びオーディオデータのうち少なくとも1つを分類する段階を含む請求項11記載のデバイス。
  14. 上記決定段階は、入力データを分類する段階と、
    上記入力データに反応して、上記ユーザの物理位置を決定する段階とを含む請求項11記載のデバイス。
  15. 上記決定段階は、入力データを分類する段階と、
    上記入力データに反応して、上記ユーザの活動を決定する段階とを含む請求項11記載のデバイス。
  16. 会話シミュレータにおけるダイアログ応答を生成する方法であって、
    ユーザから入力を受信する段階と、
    上記ユーザの情緒状態を決定する段階と、
    上記決定段階の結果及び上記入力の内容に反応して、上記発言に対する条件付き応答を生成する段階とを含み、
    上記条件付き応答の条件は、上記決定段階の上記結果である方法。
  17. 上記決定段階は、画像及びオーディオデータのうち少なくとも1つを分類する段階を含む請求項16記載のデバイス。
  18. 上記情緒状態データは、上記ユーザの顔の表情を示すインジケータを含む請求項16記載のデバイス。
  19. 上記情緒状態データは、上記ユーザの心配のレベルを示すインジケータを含む請求項16記載のデバイス。
JP2002540141A 2000-10-30 2001-10-24 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス Pending JP2004513445A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/699,577 US6731307B1 (en) 2000-10-30 2000-10-30 User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
PCT/EP2001/012407 WO2002037474A1 (en) 2000-10-30 2001-10-24 User interface / entertainment device that simulates personal interaction and responds to user"s mental state and/or personality

Publications (1)

Publication Number Publication Date
JP2004513445A true JP2004513445A (ja) 2004-04-30

Family

ID=24809949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002540141A Pending JP2004513445A (ja) 2000-10-30 2001-10-24 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス

Country Status (5)

Country Link
US (1) US6731307B1 (ja)
EP (1) EP1332492A1 (ja)
JP (1) JP2004513445A (ja)
KR (1) KR20020067592A (ja)
WO (1) WO2002037474A1 (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345604A (ja) * 2002-05-28 2003-12-05 Inst Of Physical & Chemical Res 言語コンピュータ、言語処理方法、ならびに、プログラム
JP2006011316A (ja) * 2004-06-29 2006-01-12 Kokichi Tanihira 仮想会話システム
WO2007091475A1 (ja) * 2006-02-08 2007-08-16 Nec Corporation 音声合成装置、音声合成方法及びプログラム
JP2009198614A (ja) * 2008-02-19 2009-09-03 Toyota Central R&D Labs Inc 対話装置及びプログラム
WO2011030372A1 (ja) * 2009-09-09 2011-03-17 株式会社 東芝 音声対話装置及びプログラム
JP2012220959A (ja) * 2011-04-08 2012-11-12 Sony Computer Entertainment Inc 入力された発話の関連性を判定するための装置および方法
JP2013200423A (ja) * 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
WO2014181524A1 (ja) * 2013-05-09 2014-11-13 ソフトバンクモバイル株式会社 会話処理システム及びプログラム
JP2014222402A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 発話候補生成装置、発話候補生成方法、及び発話候補生成プログラム
JP2015022134A (ja) * 2013-07-18 2015-02-02 日本電信電話株式会社 対話行為出力装置、方法、及びプログラム、並びに対話システム及び方法
JP2016212499A (ja) * 2015-04-30 2016-12-15 Kddi株式会社 対話パターン自動生成装置、方法およびプログラム
JP2017049427A (ja) * 2015-09-01 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
JP6243072B1 (ja) * 2017-04-06 2017-12-06 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
JP2018036580A (ja) * 2016-09-02 2018-03-08 日本電信電話株式会社 疑問発話判定装置、その方法、及びプログラム
JP2018091979A (ja) * 2016-12-02 2018-06-14 国立大学法人豊橋技術科学大学 対話型情報提供システムおよび対話型情報提供方法
JP2018136541A (ja) * 2012-06-18 2018-08-30 エイディシーテクノロジー株式会社 音声応答装置
JP2020134545A (ja) * 2019-02-13 2020-08-31 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2021503625A (ja) * 2017-11-16 2021-02-12 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 対話セッション管理用のシステム及び方法
WO2021148903A1 (ja) * 2020-01-22 2021-07-29 株式会社半導体エネルギー研究所 情報処理システム、車両運転者支援システム、情報処理装置、ウエアラブル装置
WO2021161841A1 (ja) * 2020-02-10 2021-08-19 ソニーグループ株式会社 情報処理装置及び情報処理方法

Families Citing this family (238)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156625A1 (en) * 2004-01-06 2007-07-05 Neuric Technologies, Llc Method for movie animation
US7089218B1 (en) * 2004-01-06 2006-08-08 Neuric Technologies, Llc Method for inclusion of psychological temperament in an electronic emulation of the human brain
US8001067B2 (en) * 2004-01-06 2011-08-16 Neuric Technologies, Llc Method for substituting an electronic emulation of the human brain into an application to replace a human
US7925492B2 (en) 2004-01-06 2011-04-12 Neuric Technologies, L.L.C. Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain
GB0020850D0 (en) * 2000-08-23 2000-10-11 Univ London A system and method for intelligent modelling of public spaces
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
JP2002282543A (ja) * 2000-12-28 2002-10-02 Sony Computer Entertainment Inc オブジェクトの音声処理プログラム、オブジェクトの音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体、プログラム実行装置、及びオブジェクトの音声処理方法
EP1241588A3 (en) * 2001-01-23 2006-01-04 Matsushita Electric Industrial Co., Ltd. Audio information provision system
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
US20030081834A1 (en) * 2001-10-31 2003-05-01 Vasanth Philomin Intelligent TV room
US20030126090A1 (en) * 2001-12-28 2003-07-03 Fujitsu Limited Conversation method, device, program and computer-readable recording medium on which conversation program is recorded
US7610556B2 (en) * 2001-12-28 2009-10-27 Microsoft Corporation Dialog manager for interactive dialog with computer user
US7019749B2 (en) * 2001-12-28 2006-03-28 Microsoft Corporation Conversational interface agent
US20030126089A1 (en) * 2001-12-28 2003-07-03 Fujitsu Limited Conversation method, device, program and computer-readable recording medium on which conversation program is recorded
US7327505B2 (en) * 2002-02-19 2008-02-05 Eastman Kodak Company Method for providing affective information in an imaging system
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
US20030163311A1 (en) * 2002-02-26 2003-08-28 Li Gong Intelligent social agents
US7136818B1 (en) * 2002-05-16 2006-11-14 At&T Corp. System and method of providing conversational visual prosody for talking heads
AU2003265903A1 (en) * 2002-09-03 2004-03-29 Himanshu Bhatnagar Interview automation system for providing technical support
US20040082839A1 (en) * 2002-10-25 2004-04-29 Gateway Inc. System and method for mood contextual data output
US8037150B2 (en) 2002-11-21 2011-10-11 Aol Inc. System and methods for providing multiple personas in a communications environment
US7636755B2 (en) 2002-11-21 2009-12-22 Aol Llc Multiple avatar personalities
US7337157B2 (en) * 2003-02-19 2008-02-26 Kurzweil Technologies, Inc. System, method, and product of manufacture for implementing an EAIL (enhanced artificial intelligence language) engine
US20070113181A1 (en) * 2003-03-03 2007-05-17 Blattner Patrick D Using avatars to communicate real-time information
US7908554B1 (en) 2003-03-03 2011-03-15 Aol Inc. Modifying avatar behavior based on user action or mood
US7913176B1 (en) 2003-03-03 2011-03-22 Aol Inc. Applying access controls to communications with avatars
US20040179039A1 (en) * 2003-03-03 2004-09-16 Blattner Patrick D. Using avatars to communicate
US7707135B2 (en) * 2003-03-04 2010-04-27 Kurzweil Technologies, Inc. Enhanced artificial intelligence language
US7762665B2 (en) 2003-03-21 2010-07-27 Queen's University At Kingston Method and apparatus for communication between humans and devices
US8292433B2 (en) * 2003-03-21 2012-10-23 Queen's University At Kingston Method and apparatus for communication between humans and devices
US6897781B2 (en) * 2003-03-26 2005-05-24 Bed-Check Corporation Electronic patient monitor and white noise source
US7797146B2 (en) * 2003-05-13 2010-09-14 Interactive Drama, Inc. Method and system for simulated interactive conversation
CN100520842C (zh) 2003-05-21 2009-07-29 皇家飞利浦电子股份有限公司 能够产生可听见消息的监控系统
WO2004114207A2 (en) * 2003-05-24 2004-12-29 Gatelinx Corporation Artificial intelligence dialogue processor
US8155974B2 (en) * 2003-06-30 2012-04-10 At&T Intellectual Property I, L.P. Methods and systems for obtaining profile information from individuals using automation
US7499531B2 (en) * 2003-09-05 2009-03-03 Emc Corporation Method and system for information lifecycle management
US7457396B2 (en) * 2003-09-05 2008-11-25 Emc Corporation Automated call management
US20050054381A1 (en) * 2003-09-05 2005-03-10 Samsung Electronics Co., Ltd. Proactive user interface
US8209185B2 (en) * 2003-09-05 2012-06-26 Emc Corporation Interface for management of auditory communications
US8103873B2 (en) * 2003-09-05 2012-01-24 Emc Corporation Method and system for processing auditory communications
US8489769B2 (en) * 2003-10-02 2013-07-16 Accenture Global Services Limited Intelligent collaborative expression in support of socialization of devices
US7090358B2 (en) * 2004-03-04 2006-08-15 International Business Machines Corporation System, apparatus and method of displaying information for foveal vision and peripheral vision
US7802265B2 (en) * 2004-03-15 2010-09-21 Imi Innovations, Inc. Computer interface system using multiple independent graphical data input devices
US8180743B2 (en) 2004-07-01 2012-05-15 Emc Corporation Information management
US8180742B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Policy-based information management
US20060004579A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Flexible video surveillance
US8244542B2 (en) * 2004-07-01 2012-08-14 Emc Corporation Video surveillance
US8229904B2 (en) * 2004-07-01 2012-07-24 Emc Corporation Storage pools for information management
US9268780B2 (en) * 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US7707037B2 (en) * 2004-07-01 2010-04-27 Emc Corporation Archiving of surveillance data
US7444287B2 (en) * 2004-07-01 2008-10-28 Emc Corporation Efficient monitoring system and method
US8626514B2 (en) * 2004-08-31 2014-01-07 Emc Corporation Interface for management of multiple auditory communications
US20060079187A1 (en) * 2004-10-03 2006-04-13 Struck James T GPS, infrasonics, audio tools armband for location and assistance in response to astronomical and other crises
US7461000B2 (en) * 2004-10-19 2008-12-02 International Business Machines Corporation System and methods for conducting an interactive dialog via a speech-based user interface
DE102004056164A1 (de) * 2004-11-18 2006-05-24 Deutsche Telekom Ag Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem
JP4629560B2 (ja) * 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
US9652809B1 (en) 2004-12-21 2017-05-16 Aol Inc. Using user profile information to determine an avatar and/or avatar characteristics
US8473449B2 (en) * 2005-01-06 2013-06-25 Neuric Technologies, Llc Process of dialogue and discussion
US20060216680A1 (en) * 2005-03-24 2006-09-28 Eharmony.Com Selection of relationship improvement content for users in a relationship
US20060248461A1 (en) * 2005-04-29 2006-11-02 Omron Corporation Socially intelligent agent software
US7995717B2 (en) 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US8094803B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US7511606B2 (en) * 2005-05-18 2009-03-31 Lojack Operating Company Lp Vehicle locating unit with input voltage protection
US8094790B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center
JP3974624B2 (ja) * 2005-05-27 2007-09-12 松下電器産業株式会社 表示装置
US7944448B2 (en) * 2005-06-14 2011-05-17 Omron Corporation Apparatus and method for socially intelligent virtual entity
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
US7596498B2 (en) * 2005-09-02 2009-09-29 Microsoft Corporation Monitoring, mining, and classifying electronically recordable conversations
US8047915B2 (en) 2006-01-11 2011-11-01 Lyle Corporate Development, Inc. Character for computer game and method
EP2016562A4 (en) * 2006-05-07 2010-01-06 Sony Computer Entertainment Inc METHOD FOR IMPLEMENTING AFFECTIVE PROPERTIES IN A COMPUTER GENERATED AVATAR DURING A COMPUTER GAME
US8285654B2 (en) * 2006-06-29 2012-10-09 Nathan Bajrach Method and system of providing a personalized performance
EP1895505A1 (en) 2006-09-04 2008-03-05 Sony Deutschland GmbH Method and device for musical mood detection
JP4962067B2 (ja) * 2006-09-20 2012-06-27 株式会社Jvcケンウッド 楽曲再生装置、楽曲再生方法、および楽曲再生プログラム
US8696455B2 (en) * 2006-09-29 2014-04-15 Rockstar Bidco, LP Communication methods and apparatus for online games
US20080091515A1 (en) * 2006-10-17 2008-04-17 Patentvc Ltd. Methods for utilizing user emotional state in a business process
US20080094400A1 (en) * 2006-10-18 2008-04-24 Ning-Nibble Yang Content Based Graphical User Interface Application
US20080147488A1 (en) * 2006-10-20 2008-06-19 Tunick James A System and method for monitoring viewer attention with respect to a display and determining associated charges
US7966567B2 (en) * 2007-07-12 2011-06-21 Center'd Corp. Character expression in a geo-spatial environment
US20080134038A1 (en) * 2006-12-05 2008-06-05 Electronics And Telecommunications Research Interactive information providing service method and apparatus
FI20065828L (fi) * 2006-12-20 2008-06-21 Polar Electro Oy Kannettava elektroninen laite, menetelmä ja tietokoneohjelmistotuote
US8269834B2 (en) * 2007-01-12 2012-09-18 International Business Machines Corporation Warning a user about adverse behaviors of others within an environment based on a 3D captured image stream
US20080215974A1 (en) * 2007-03-01 2008-09-04 Phil Harrison Interactive user controlled avatar animations
US7869586B2 (en) * 2007-03-30 2011-01-11 Eloyalty Corporation Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics
US8023639B2 (en) 2007-03-30 2011-09-20 Mattersight Corporation Method and system determining the complexity of a telephonic communication received by a contact center
US8718262B2 (en) 2007-03-30 2014-05-06 Mattersight Corporation Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication
US8620658B2 (en) * 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US7930676B1 (en) 2007-04-27 2011-04-19 Intuit Inc. System and method for adapting software elements based on mood state profiling
US20090043583A1 (en) * 2007-08-08 2009-02-12 International Business Machines Corporation Dynamic modification of voice selection based on user specific factors
US20090077180A1 (en) * 2007-09-14 2009-03-19 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
CN101119209A (zh) * 2007-09-19 2008-02-06 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
US10419611B2 (en) 2007-09-28 2019-09-17 Mattersight Corporation System and methods for determining trends in electronic communications
US9513699B2 (en) * 2007-10-24 2016-12-06 Invention Science Fund I, LL Method of selecting a second content based on a user's reaction to a first content
US20090112694A1 (en) * 2007-10-24 2009-04-30 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Targeted-advertising based on a sensed physiological response by a person to a general advertisement
US20090112696A1 (en) * 2007-10-24 2009-04-30 Jung Edward K Y Method of space-available advertising in a mobile device
US20090113297A1 (en) * 2007-10-24 2009-04-30 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Requesting a second content based on a user's reaction to a first content
US9582805B2 (en) * 2007-10-24 2017-02-28 Invention Science Fund I, Llc Returning a personalized advertisement
US20090112693A1 (en) * 2007-10-24 2009-04-30 Jung Edward K Y Providing personalized advertising
US8144939B2 (en) * 2007-11-08 2012-03-27 Sony Ericsson Mobile Communications Ab Automatic identifying
US20090193344A1 (en) * 2008-01-24 2009-07-30 Sony Corporation Community mood representation
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
KR101577607B1 (ko) * 2009-05-22 2015-12-15 삼성전자주식회사 상황 및 의도인지 기반의 언어 표현 장치 및 그 방법
KR101562792B1 (ko) * 2009-06-10 2015-10-23 삼성전자주식회사 목표 예측 인터페이스 제공 장치 및 그 방법
KR20110002757A (ko) 2009-07-02 2011-01-10 삼성전자주식회사 감성 모델 장치, 감성 모델의 성향 학습 장치 및 방법
KR101644015B1 (ko) * 2009-11-27 2016-08-01 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8495508B2 (en) * 2010-03-30 2013-07-23 George Lebrun Method and apparatus for contextual based search engine and enterprise knowledge management
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
AU2011274318A1 (en) * 2010-06-29 2012-12-20 Royal Wins Pty Ltd System and method of providing a computer-generated response
FR2965375B1 (fr) * 2010-09-27 2013-04-05 Ivan Lovric Systeme et procede d'agent conversationnel numerique a caractere evolutif
EP2498250B1 (en) * 2011-03-07 2021-05-05 Accenture Global Services Limited Client and server system for natural language-based control of a digital network of devices
US20120268359A1 (en) * 2011-04-19 2012-10-25 Sony Computer Entertainment Inc. Control of electronic device using nerve analysis
US9380978B2 (en) 2011-06-29 2016-07-05 Bruce Reiner Method and apparatus for real-time measurement and analysis of occupational stress and fatigue and performance outcome predictions
US8954317B1 (en) * 2011-07-01 2015-02-10 West Corporation Method and apparatus of processing user text input information
US20130046153A1 (en) 2011-08-16 2013-02-21 Elwha LLC, a limited liability company of the State of Delaware Systematic distillation of status data relating to regimen compliance
EP2575064A1 (en) * 2011-09-30 2013-04-03 General Electric Company Telecare and/or telehealth communication method and system
US8869115B2 (en) * 2011-11-23 2014-10-21 General Electric Company Systems and methods for emotive software usability
US9348479B2 (en) * 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9355366B1 (en) * 2011-12-19 2016-05-31 Hello-Hello, Inc. Automated systems for improving communication at the human-machine interface
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US9311825B2 (en) 2011-12-22 2016-04-12 Senstream, Inc. Biometric sensing and processing apparatus for mobile gaming, education, and wellness applications
US20130178961A1 (en) * 2012-01-05 2013-07-11 Microsoft Corporation Facilitating personal audio productions
US20130212501A1 (en) * 2012-02-10 2013-08-15 Glen J. Anderson Perceptual computing with conversational agent
CN103297389B (zh) * 2012-02-24 2018-09-07 腾讯科技(深圳)有限公司 人机对话方法及装置
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US20130325482A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Estimating congnitive-load in human-machine interaction
DE102013209780B4 (de) 2012-05-29 2022-03-31 GM Global Technology Operations, LLC (n.d. Ges. d. Staates Delaware) Verfahren und Dialogsystem zum Verbessern der Fahrzeugsicherheit mittels Abschätzen einer kognitiven Belastung von auf das Fahren bezogenen Aktivitäten durch eine Mensch-Maschine-Schnittstelle
CN104428734A (zh) 2012-06-25 2015-03-18 微软公司 输入法编辑器应用平台
US9460473B2 (en) * 2012-06-26 2016-10-04 International Business Machines Corporation Content-sensitive notification icons
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9799328B2 (en) 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
US10031968B2 (en) 2012-10-11 2018-07-24 Veveo, Inc. Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
KR102011495B1 (ko) 2012-11-09 2019-08-16 삼성전자 주식회사 사용자의 심리 상태 판단 장치 및 방법
US9143468B1 (en) * 2013-01-08 2015-09-22 Twitter, Inc. Identifying relevant messages in a conversation graph
US9191510B2 (en) 2013-03-14 2015-11-17 Mattersight Corporation Methods and system for analyzing multichannel electronic communication data
EP2994908B1 (en) 2013-05-07 2019-08-28 Veveo, Inc. Incremental speech input interface with real time feedback
RU2637874C2 (ru) * 2013-06-27 2017-12-07 Гугл Инк. Генерирование диалоговых рекомендаций для чатовых информационных систем
US9318113B2 (en) 2013-07-01 2016-04-19 Timestream Llc Method and apparatus for conducting synthesized, semi-scripted, improvisational conversations
KR102141116B1 (ko) * 2013-08-05 2020-08-04 삼성전자주식회사 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
EP3030982A4 (en) 2013-08-09 2016-08-03 Microsoft Technology Licensing Llc INPUT PROCESSORS EDITOR WITH LANGUAGE SUPPORT
US10296160B2 (en) * 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US11245595B2 (en) * 2014-03-12 2022-02-08 Sensia Llc Management of user interfaces within a network
US10207405B2 (en) * 2014-03-31 2019-02-19 Christopher Deane Shaw Methods for spontaneously generating behavior in two and three-dimensional images and mechanical robots, and of linking this behavior to that of human users
US9645703B2 (en) 2014-05-14 2017-05-09 International Business Machines Corporation Detection of communication topic change
US10432742B2 (en) 2014-06-06 2019-10-01 Google Llc Proactive environment-based chat information system
US9390706B2 (en) 2014-06-19 2016-07-12 Mattersight Corporation Personality-based intelligent personal assistant system and methods
US9807559B2 (en) * 2014-06-25 2017-10-31 Microsoft Technology Licensing, Llc Leveraging user signals for improved interactions with digital personal assistant
US9778628B2 (en) 2014-08-07 2017-10-03 Goodrich Corporation Optimization of human supervisors and cyber-physical systems
US10262203B2 (en) 2014-09-02 2019-04-16 Samsung Electronics Co., Ltd. Method for recognizing iris and electronic device therefor
US20160092159A1 (en) * 2014-09-30 2016-03-31 Google Inc. Conversational music agent
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US9704103B2 (en) * 2014-12-16 2017-07-11 The Affinity Project, Inc. Digital companions for human users
US9710613B2 (en) * 2014-12-16 2017-07-18 The Affinity Project, Inc. Guided personal companion
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
EP3259754B1 (en) 2015-02-16 2022-06-15 Samsung Electronics Co., Ltd. Method and device for providing information
EP3267872A1 (en) * 2015-03-09 2018-01-17 Koninklijke Philips N.V. System, device and method for remotely monitoring the well-being of a user with a wearable device
US10997226B2 (en) 2015-05-21 2021-05-04 Microsoft Technology Licensing, Llc Crafting a response based on sentiment identification
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10025775B2 (en) * 2015-09-04 2018-07-17 Conduent Business Services, Llc Emotion, mood and personality inference in real-time environments
EP3185523B1 (en) 2015-12-21 2018-10-10 Wipro Limited System and method for providing interaction between a user and an embodied conversational agent
CN106910513A (zh) * 2015-12-22 2017-06-30 微软技术许可有限责任公司 情绪智能聊天引擎
CN106926258B (zh) * 2015-12-31 2022-06-03 深圳光启合众科技有限公司 机器人情绪的控制方法和装置
US10775882B2 (en) * 2016-01-21 2020-09-15 Microsoft Technology Licensing, Llc Implicitly adaptive eye-tracking user interface
CN109219801A (zh) * 2016-03-24 2019-01-15 苏蓓拉·阿兰德 为个体提供实时或即时的在线帮助以帮助他们实现个性化健康目标
US10592733B1 (en) * 2016-05-20 2020-03-17 Educational Testing Service Computer-implemented systems and methods for evaluating speech dialog system engagement via video
US9792825B1 (en) 2016-05-27 2017-10-17 The Affinity Project, Inc. Triggering a session with a virtual companion
US10140882B2 (en) 2016-05-27 2018-11-27 The Affinity Project, Inc. Configuring a virtual companion
US9802125B1 (en) 2016-05-27 2017-10-31 The Affinity Project, Inc. On demand guided virtual companion
US20180032884A1 (en) * 2016-07-27 2018-02-01 Wipro Limited Method and system for dynamically generating adaptive response to user interactions
US11373219B2 (en) * 2016-08-12 2022-06-28 Eric Koenig System and method for providing a profiled video preview and recommendation portal
US20180068012A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Chat flow tree structure adjustment based on sentiment and flow history
US10546586B2 (en) 2016-09-07 2020-01-28 International Business Machines Corporation Conversation path rerouting in a dialog system based on user sentiment
US11580350B2 (en) 2016-12-21 2023-02-14 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
US10769418B2 (en) 2017-01-20 2020-09-08 At&T Intellectual Property I, L.P. Devices and systems for collective impact on mental states of multiple users
KR102318502B1 (ko) * 2017-03-20 2021-10-29 이베이 인크. 대화 중 미션 변경의 검출
US10636418B2 (en) 2017-03-22 2020-04-28 Google Llc Proactive incorporation of unsolicited content into human-to-computer dialogs
US9865260B1 (en) 2017-05-03 2018-01-09 Google Llc Proactive incorporation of unsolicited content into human-to-computer dialogs
US10599885B2 (en) 2017-05-10 2020-03-24 Oracle International Corporation Utilizing discourse structure of noisy user-generated content for chatbot learning
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US10817670B2 (en) 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US11373632B2 (en) 2017-05-10 2022-06-28 Oracle International Corporation Using communicative discourse trees to create a virtual persuasive dialogue
US11615145B2 (en) 2017-05-10 2023-03-28 Oracle International Corporation Converting a document into a chatbot-accessible form via the use of communicative discourse trees
US11586827B2 (en) 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
US10839154B2 (en) 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
US10796102B2 (en) 2017-05-10 2020-10-06 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US12001804B2 (en) 2017-05-10 2024-06-04 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US11386274B2 (en) 2017-05-10 2022-07-12 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US10679011B2 (en) 2017-05-10 2020-06-09 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
EP3607478A4 (en) 2017-05-11 2020-11-11 Microsoft Technology Licensing, LLC ASSISTANCE TO PSYCHOLOGICAL HEALING IN AN AUTOMATED ONLINE DIALOGUE
US10733380B2 (en) * 2017-05-15 2020-08-04 Thomson Reuters Enterprise Center Gmbh Neural paraphrase generator
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP6768597B2 (ja) * 2017-06-08 2020-10-14 株式会社日立製作所 対話システム、対話システムの制御方法、及び装置
US10860805B1 (en) * 2017-06-15 2020-12-08 Qntfy Corp. Computerized analysis of team behavior and communication to quantify and optimize team function
US10839161B2 (en) 2017-06-15 2020-11-17 Oracle International Corporation Tree kernel learning for text classification into classes of intent
US11100144B2 (en) 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
US10742435B2 (en) 2017-06-29 2020-08-11 Google Llc Proactive provision of new content to group chat participants
US10922360B2 (en) 2017-08-30 2021-02-16 International Business Machines Corporation Ancillary speech generation via query answering in knowledge graphs
US11182412B2 (en) 2017-09-27 2021-11-23 Oracle International Corporation Search indexing using discourse trees
US10796099B2 (en) 2017-09-28 2020-10-06 Oracle International Corporation Enabling autonomous agents to discriminate between questions and requests
CN117114001A (zh) 2017-09-28 2023-11-24 甲骨文国际公司 基于命名实体的解析和识别确定跨文档的修辞相互关系
US11809825B2 (en) 2017-09-28 2023-11-07 Oracle International Corporation Management of a focused information sharing dialogue based on discourse trees
US10950222B2 (en) * 2017-10-02 2021-03-16 Yobs Technologies, Inc. Multimodal video system for generating a personality assessment of a user
US11537645B2 (en) 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
CN111670435B (zh) 2018-01-30 2024-08-06 甲骨文国际公司 使用交流话语树来检测对解释的请求
US10566010B2 (en) * 2018-04-20 2020-02-18 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10622007B2 (en) 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US20190325866A1 (en) * 2018-04-20 2019-10-24 Spotify Ab Systems and Methods for Enhancing Responsiveness to Utterances Having Detectable Emotion
US10621983B2 (en) 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US11328016B2 (en) 2018-05-09 2022-05-10 Oracle International Corporation Constructing imaginary discourse trees to improve answering convergent questions
US11455494B2 (en) 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US11645459B2 (en) 2018-07-02 2023-05-09 Oracle International Corporation Social autonomous agent implementation using lattice queries and relevancy detection
US11562135B2 (en) 2018-10-16 2023-01-24 Oracle International Corporation Constructing conclusive answers for autonomous agents
US11194973B1 (en) * 2018-11-12 2021-12-07 Amazon Technologies, Inc. Dialog response generation
FR3089324A1 (fr) * 2018-11-29 2020-06-05 Orange Procédé de détermination d’un agent conversationnel sur un terminal
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11183185B2 (en) * 2019-01-09 2021-11-23 Microsoft Technology Licensing, Llc Time-based visual targeting for voice commands
US11321536B2 (en) 2019-02-13 2022-05-03 Oracle International Corporation Chatbot conducting a virtual social dialogue
US10908677B2 (en) * 2019-03-25 2021-02-02 Denso International America, Inc. Vehicle system for providing driver feedback in response to an occupant's emotion
WO2021011139A1 (en) * 2019-07-18 2021-01-21 Sri International The conversational assistant for conversational engagement
US11449682B2 (en) 2019-08-29 2022-09-20 Oracle International Corporation Adjusting chatbot conversation to user personality and mood
US11775772B2 (en) 2019-12-05 2023-10-03 Oracle International Corporation Chatbot providing a defeating reply
US11516155B1 (en) 2019-12-20 2022-11-29 Twitter, Inc. Hard and soft ranking messages of conversation graphs in a messaging platform
US11252202B2 (en) 2020-04-07 2022-02-15 International Business Machines Corporation Support request assignment using pace of conversation
US11837062B2 (en) 2021-08-24 2023-12-05 Motorola Mobility Llc Electronic device that pauses media playback based on external interruption context
US11558664B1 (en) * 2021-08-24 2023-01-17 Motorola Mobility Llc Electronic device that pauses media playback based on interruption context
US20240069858A1 (en) * 2022-08-26 2024-02-29 ItsAllAbout, Inc. Machine learning-based interactive conversation system with topic-specific state machines
CN115658908B (zh) * 2022-12-29 2023-04-11 华南理工大学 一种基于对话交互过程的大五人格感知方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105234A (ja) * 1993-10-06 1995-04-21 Matsushita Electric Ind Co Ltd データベース検索装置
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2000250575A (ja) * 1999-03-01 2000-09-14 Matsushita Electric Ind Co Ltd 双方向性テレビ受像機を自動的に選局するための音声理解装置およびその方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0101772A1 (en) 1982-09-01 1984-03-07 Jerome Hal Lemelson Computer security systems
US5223924A (en) 1992-05-27 1993-06-29 North American Philips Corporation System and method for automatically correlating user preferences with a T.V. program information database
US5515173A (en) 1993-03-05 1996-05-07 Gemstar Developement Corporation System and method for automatically recording television programs in television systems with tuners external to video recorders
US5949471A (en) 1993-07-29 1999-09-07 Gemstar Development Corporation Apparatus and method for improved parental control of television use
US5694558A (en) * 1994-04-22 1997-12-02 U S West Technologies, Inc. Method and system for interactive object-oriented dialogue management
US5736982A (en) * 1994-08-03 1998-04-07 Nippon Telegraph And Telephone Corporation Virtual space apparatus with avatars and speech
US5617855A (en) 1994-09-01 1997-04-08 Waletzky; Jeremy P. Medical testing device and associated method
WO1996019074A1 (en) 1994-12-13 1996-06-20 Gemstar Development Corporation Apparatus and methods for channel scanning by theme
JP2874858B2 (ja) 1997-01-30 1999-03-24 株式会社エイ・ティ・アール知能映像通信研究所 対話型映画システム
US5977968A (en) 1997-03-14 1999-11-02 Mindmeld Multimedia Inc. Graphical user interface to communicate attitude or emotion to a computer program
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US5892901A (en) 1997-06-10 1999-04-06 The United States Of America As Represented By The Secretary Of The Navy Secure identification system
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US6557756B1 (en) 1998-09-04 2003-05-06 Ncr Corporation Communications, particularly in the domestic environment
US6054989A (en) * 1998-09-14 2000-04-25 Microsoft Corporation Methods, apparatus and data structures for providing a user interface, which exploits spatial memory in three-dimensions, to objects and which provides spatialized audio
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
IL129399A (en) * 1999-04-12 2005-03-20 Liberman Amir Apparatus and methods for detecting emotions in the human voice
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105234A (ja) * 1993-10-06 1995-04-21 Matsushita Electric Ind Co Ltd データベース検索装置
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2000250575A (ja) * 1999-03-01 2000-09-14 Matsushita Electric Ind Co Ltd 双方向性テレビ受像機を自動的に選局するための音声理解装置およびその方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345604A (ja) * 2002-05-28 2003-12-05 Inst Of Physical & Chemical Res 言語コンピュータ、言語処理方法、ならびに、プログラム
JP2006011316A (ja) * 2004-06-29 2006-01-12 Kokichi Tanihira 仮想会話システム
WO2007091475A1 (ja) * 2006-02-08 2007-08-16 Nec Corporation 音声合成装置、音声合成方法及びプログラム
JP2009198614A (ja) * 2008-02-19 2009-09-03 Toyota Central R&D Labs Inc 対話装置及びプログラム
WO2011030372A1 (ja) * 2009-09-09 2011-03-17 株式会社 東芝 音声対話装置及びプログラム
JP2012220959A (ja) * 2011-04-08 2012-11-12 Sony Computer Entertainment Inc 入力された発話の関連性を判定するための装置および方法
JP2013200423A (ja) * 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
JP2020038387A (ja) * 2012-06-18 2020-03-12 エイディシーテクノロジー株式会社 音声応答装置
JP2018136541A (ja) * 2012-06-18 2018-08-30 エイディシーテクノロジー株式会社 音声応答装置
JP2014219594A (ja) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 会話処理システム及びプログラム
WO2014181524A1 (ja) * 2013-05-09 2014-11-13 ソフトバンクモバイル株式会社 会話処理システム及びプログラム
JP2014222402A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 発話候補生成装置、発話候補生成方法、及び発話候補生成プログラム
JP2015022134A (ja) * 2013-07-18 2015-02-02 日本電信電話株式会社 対話行為出力装置、方法、及びプログラム、並びに対話システム及び方法
JP2016212499A (ja) * 2015-04-30 2016-12-15 Kddi株式会社 対話パターン自動生成装置、方法およびプログラム
JP2017049427A (ja) * 2015-09-01 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
JP2018036580A (ja) * 2016-09-02 2018-03-08 日本電信電話株式会社 疑問発話判定装置、その方法、及びプログラム
JP2018091979A (ja) * 2016-12-02 2018-06-14 国立大学法人豊橋技術科学大学 対話型情報提供システムおよび対話型情報提供方法
JP2018180720A (ja) * 2017-04-06 2018-11-15 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
JP6243072B1 (ja) * 2017-04-06 2017-12-06 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
JP2021503625A (ja) * 2017-11-16 2021-02-12 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 対話セッション管理用のシステム及び方法
JP7038210B2 (ja) 2017-11-16 2022-03-17 ソフトバンク・ロボティクス・ヨーロッパ 対話セッション管理用のシステム及び方法
JP2020134545A (ja) * 2019-02-13 2020-08-31 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP7085500B2 (ja) 2019-02-13 2022-06-16 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
WO2021148903A1 (ja) * 2020-01-22 2021-07-29 株式会社半導体エネルギー研究所 情報処理システム、車両運転者支援システム、情報処理装置、ウエアラブル装置
WO2021161841A1 (ja) * 2020-02-10 2021-08-19 ソニーグループ株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
US6731307B1 (en) 2004-05-04
EP1332492A1 (en) 2003-08-06
KR20020067592A (ko) 2002-08-22
WO2002037474A1 (en) 2002-05-10

Similar Documents

Publication Publication Date Title
JP2004513445A (ja) 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
EP1332491B1 (en) User interface for the administration of an external database
JP2004527808A (ja) 個人のインタラクションをシミュレートする自己更新式ユーザインタフェース/エンタテインメントデバイス
US6721706B1 (en) Environment-responsive user interface/entertainment device that simulates personal interaction
CN108962217B (zh) 语音合成方法及相关设备
US20210081056A1 (en) Vpa with integrated object recognition and facial expression recognition
JP7064018B2 (ja) 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント
US10402501B2 (en) Multi-lingual virtual personal assistant
US11100384B2 (en) Intelligent device user interactions
CN108227932B (zh) 交互意图确定方法及装置、计算机设备及存储介质
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
WO2018093806A1 (en) Embodied dialog and embodied speech authoring tools for use with an expressive social robot
Pittermann et al. Handling emotions in human-computer dialogues
Schuller et al. Speech communication and multimodal interfaces
Sun Intelligible dialogue manager for social robots: An AI dialogue robot solution based on Rasa open-source framework and Pepper robot
Pittermann et al. Human emotions
Hanser et al. Text-to-Animation: Affective, Intelligent and Multimodal Visualisation of Natural Language Scripts
Vildjiounaite et al. Requirements and software framework for adaptive multimodal affect recognition
Khota et al. Audio Sample Curation Using Emotion Inference for Sound Design Support
Kunc Humanized User Interaces
Power Studies of realism and naturalness in a multimodal conversational interface

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071016