JP5616325B2 - ユーザ命令に基づいて表示を変更する方法 - Google Patents

ユーザ命令に基づいて表示を変更する方法 Download PDF

Info

Publication number
JP5616325B2
JP5616325B2 JP2011502466A JP2011502466A JP5616325B2 JP 5616325 B2 JP5616325 B2 JP 5616325B2 JP 2011502466 A JP2011502466 A JP 2011502466A JP 2011502466 A JP2011502466 A JP 2011502466A JP 5616325 B2 JP5616325 B2 JP 5616325B2
Authority
JP
Japan
Prior art keywords
user
display
classification
animation
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011502466A
Other languages
English (en)
Other versions
JP2011516954A (ja
Inventor
ジョウ,シャオミン
エム セー レーメンス,パウル
エム セー レーメンス,パウル
アー エム エル ブリューケルス,アルフォンス
アー エム エル ブリューケルス,アルフォンス
アー トクマコフ,アンドリュー
アー トクマコフ,アンドリュー
デ ライテル−ベッケル,エフェレイネ エム ハルト
デ ライテル−ベッケル,エフェレイネ エム ハルト
ペー ペー プロンク,セルフェリユス
ペー ペー プロンク,セルフェリユス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2011516954A publication Critical patent/JP2011516954A/ja
Application granted granted Critical
Publication of JP5616325B2 publication Critical patent/JP5616325B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B11/00Teaching hand-writing, shorthand, drawing, or painting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、第1のユーザからの第1のユーザ入力と第2のユーザからの第2のユーザ入力とをコンピュータシステムで処理する方法、第1のユーザからの第1のユーザ入力と第2のユーザからの第2のユーザ入力とを処理するコンピュータシステム、及びこの方法を実行するコンピュータ可読媒体に格納されたコンピュータプログラムに関する。
簡単なペン及び紙から、或る形式のコンピュータ装置に接続された描画(drawing)タブレットまで、多くの異なる形式の描画システムが利用可能である。一般的に、ユーザは、適切な受入面上に線を生成するために、適切な描画手段で一連の手動の動きを行う。紙の上の描画は、物を消去及び変更することが困難であることを意味する。
コンピュータ装置を使用した描画は、変更が可能になり得るが、一般的には、描画が商用目的に必要なビジネス上の設定で使用される。これらの電子描画は、コンピュータ環境に入力されてもよい。コンピュータ環境では所望の通りに操作され得るが、動作及び機能はしばしば商用主導型である。
エンターテイメント目的の描画は、しばしば子供により行われる。ペン及び紙であれ、電子タブレットであれ、一般的に利用可能な描画システムは、ユーザが追加により描画を形成することを可能にする。すなわち、描画が終了していない限り、更に進行してもよい。描画が完了すると、容易には変更できない。通常では、ユーザは、描画の1つ以上の輪郭を削除し、再描画しなければならないか、空白ページで再び始めなければならない。1つ以上の輪郭を消去した後の再描画は、全てのユーザが有しているとは限らない適度の描画スキルを必要とする。
子供は電子描画タブレットの使用を楽しむ可能性があるが、電子描画タブレットは、子供を考慮して設計されていない。ユーザインタフェースは非常に複雑であり、子供はこれらの電子装置をうまく使用するために必要な繊細な機械スキルを有していない。更に、これらの装置の多くは、子供による使用にとって十分にロバストではない。
特に子供に関する更なる問題は、これらの描画システムの静的な性質である。描画のときに、子供はストーリーを作り、描画中にナレーションを入れる。ストーリーは動的であるため、話されていることと描かれていることとの間の重なりは、対象物及びキャラクターの基本的な外観及び基本的な構成のような静的な要素に限定されない。
ユーザ命令に基づいて表示(representation)を変更する方法を提供することが、本発明の目的である。
本発明は、第1のユーザからの第1のユーザ入力と第2のユーザからの第2のユーザ入力とをコンピュータシステムで処理する方法に関し、コンピュータシステムは、第1のユーザ入力及び第2のユーザ入力を受け入れるユーザインタフェースと、ディスプレイモニタとを有する。第1のユーザ入力は、ディスプレイモニタ上に描画される表示を示す。第2のユーザ入力は、ディスプレイモニタ上に描画される表示を変更する命令を示す。この方法は、ユーザインタフェースを介して第1のユーザ入力を受け入れ、第1のユーザ入力を入力された対象物(object)の分類に関連付け、ユーザインタフェースを介して第2のユーザ入力を受け入れ、第2のユーザ入力をアニメーションの分類に関連付け、入力された対象物の分類とアニメーションの分類とを使用して表示の変更を選択し、変更を使用して表示を変更することを有する。
本発明の更なる態様によれば、方法が提供され、命令は、第2のユーザの音、書き込み入力(writing)、動き又はジェスチャーから導かれる。
第1のユーザが何かの表示(例えば、ストーリーのキャラクター)を提供すると、これを対象物の分類に関連付けることにより、ある程度識別される。換言すると、可能な最善の一致が決定される。第2のユーザが表示を含むストーリーを想像すると、ストーリーの動的な要素が1つ以上のコミュニケーション形式(動き、書き込み入力、音、音声、ジェスチャー、顔のジェスチャー、又は表情等)で示される。第2のユーザからのこれらの信号から命令を導くことにより、ストーリー内で動的な要素を示すために、表示が変更又はアニメーション化されてもよい。このことは、第1及び第2のユーザへのフィードバックを向上させ、第1及び第2のユーザの楽しみを増加させる。
更なる利点は、表示を入力するために使用される装置のライフタイムの増加である。すなわち、異なる形式からの導かれた命令を使用することにより、すり切れる可能性のあるタッチスクリーン及び書き込み入力タブレット等の既知の装置で、しばしば単一の表示入力を継続して使用する必要が無くなる。
本発明の態様によれば、方法が提供され、アニメーションの分類は、感情の分類を有する。感情を反映するように表示を変更することは、静的なシステムでは特に困難である。この理由は、例えば、特定のキャラクターの口の輪郭の繰り返しの消去及び描画を必要とするからである。しかし、感情を表示することは、口のような表示の一部の単なる外観よりしばしば繊細であるため、本発明の方法は、所望の感情について第1及び第2のユーザへの広範囲の再現性のあるフィードバックを可能にする。子供の場合には、描画に感情を追加することは、楽しみをかなり増加させる。
本発明はまた、第1のユーザからの第1のユーザ入力と第2のユーザからの第2のユーザ入力とを処理するコンピュータシステムに関し、コンピュータシステムは、第1のユーザ入力及び第2のユーザ入力を受け入れるユーザインタフェースと、ディスプレイモニタとを有する。第1のユーザ入力は、ディスプレイモニタ上に描画される表示を示す。第2のユーザ入力は、ディスプレイモニタ上に描画される表示を変更する命令を示す。このコンピュータシステムは、ユーザインタフェースに接続され、第1のユーザ入力を受け入れ、第1のユーザ入力を入力された対象物(object)の分類に関連付ける第1の分類器と、ユーザインタフェースに接続され、第2のユーザ入力を受け入れ、第2のユーザ入力をアニメーションの分類に関連付ける第2の分類器と、第1の分類器と第2の分類器とに接続され、入力された対象物の分類とアニメーションの分類とを受け入れ、入力された対象物の分類とアニメーションの分類とを使用して表示の変更を決定するセレクタと、ディスプレイモニタに接続され、変更を使用してディスプレイモニタ上に描画された表示の変更を制御する変更器とを有する。
本発明の他の態様によれば、システムが提供され、第1のユーザ及び第2のユーザが同じユーザであり、システムは、このユーザから表示を受け入れて命令を受け入れるように構成される。
本発明に従ってユーザ命令に基づいて表示を変更する基本的な方法 本発明による方法を実行するシステムの概略図 本発明のシステムの実施例 図3の第1の分類器の概略図 図3の第2の分類器の概略図 図3のセレクタの概略図 音声分析を使用した感情認識の例
本発明の前記及び他の態様は、以下に記載する実施例から明らかになり、実施例を参照して説明する。
図面は、単に模式的なものであり、縮尺通りに示されていない。特に、明瞭にするために、或る大きさはかなり誇張されている。図面の同様の構成要素は、できるだけ同じ参照符号で示されている。
図1は、本発明に従ってユーザ命令に基づいて表示(representation)を変更する基本的な方法を示している。
表示は、第1のユーザから受け入れられる(110)。表示は、アニメーションの基礎を形成し、開始点の第1のユーザによる選択を表す。ペン及び紙の描画のデジタル化、書き込み入力(writing)タブレットの直接の使用、表示の開始に関するライブラリからの選択、対象物の写真の撮影、又はコンピュータ装置に表示された対象物のスナップショットを行うこと等により、表示は如何なる適切な手段を使用して入力されてもよい。
表示が受け入れられた直後に、何らかの方法で表示を第1のユーザに出力することが有利になり得る。
表示は、入力された対象物の分類に関連付けられる(120)。対象物は無生物(例えば、花瓶、テーブル、車)と生物(例えば、人、漫画のキャラクター、動物、昆虫)との双方を含むように、最も広い意味で使用される点に留意すべきである。本発明は、入力された表示を対象物の分類として識別することにより、変更処理を簡略化する。識別は、他のステップの機能及び要件と、コンピュータ装置により実装されたときの他のトレードオフ(計算能力、速度、メモリ要件、プログラム能力等)とに応じて、大きい程度まで実行されてもよく、小さい程度まで実行されてもよい。例えば、表示が豚を描く場合、対象物の分類は、豚を異なる識別度(動物、ほ乳類、農場の動物、豚、特定の種類の豚等)に関連付けるように規定されてもよい。
表示を対象物の分類に関連付けることは、当業者に既知の如何なる適切な方法を使用して実行されてもよい。例えば、適切な共通点及び類似点のモデルに基づいてもよい。
自然に描画することによりユーザにコンピュータと相互作用させ、スケッチとして入力された表示の認識を提供するシステムは、当該技術分野において知られている。スケッチ認識の現在の可能性を示すこのようなシステムは、MITのRandall Davisによる“Magic Paper: Sketch-Understanding Research,”Computer, vol. 40, no. 9, pp.34-41, Sept., 2007に記載されている。1つの例は、簡単な2次元物理装置をスケッチし、これらの動作を見る“Assist”(A Shrewd Sketch Interpretation and Simulation Tool)である。“Assist”は、我々が行うのと同じようにインクを解釈するという意味で、生のスケッチを理解する。これを物理学シミュレータに渡し、インテリジェントな紙に描画する経験をユーザに与えることで、装置をアニメーション化する。
入力された表示の処理(例えば、初期形状(線及び円弧)としてユーザにより供給された生のデータの再解釈)は、入力された表示が受け入れられたとき又は対象物の分類との関連付け中に実行されてもよい。方向又は曲率及び速度を示すデータの一時的特性に基づいて初期のものを見つけることは、関連付けタスクを支援するために使用されてもよい。
関連付け(120)の後の選択肢として、対象物の分類は、後の選択(150)及び変更(160)ステップ中に表示を入れ替えてもよい。対象物の分類は、入力された表示の概念化(idealize)されたものを表す。入力された元の表示と概念化された表示との間の何らかの表示もまた、後の選択(150)及び変更(160)ステップに使用されてもよい。この場合、入力された表示がある程度“整頓(tidied-up)”されているように第1のユーザにとって見える。このことは、選択されたアニメーションによる表示の変更(160)を簡略化し得る。
命令は、第2のユーザから受け入れられる(130)。これは、意識的な要請を表す如何なる形式で与えられてもよく(例えば、“豚が歩いている”)、ストーリーのナレーション中に第2のユーザにより行われたコメントのように、第2のユーザにより使用されたコミュニケーション手段から導かれた何かを反映してもよい(例えば、“そして、豚が楽しくなった”)。第2のユーザが何らかの通常の手段(ボタン又は選択可能アイコン等)を使用して直接選択し得る直接の入力選択肢(“歩く”、“楽しい”等)を提供することも有利になり得る。
命令は、アニメーションの分類に関連付けられる(140)。特定の柔軟度を許容するために、所定の分類を認識する必要はなく、これらの特定の命令を伝えさえすればよい。例えば、アニメーションの分類“歩く”が利用可能である場合、“歩行中”、“散歩”、“ぶらぶら歩き”、等のような話し言葉のように、“歩く”を近似する如何なる命令と関連付けられてもよい。様々なアニメーションの分類度が規定されてもよい。例えば、アニメーションの命令が“走る”である場合、アニメーションの分類は、これを“走る”、“速く歩く”、“歩く”又は“動き”に関連付けるように規定されてもよい。
ここでは、アニメーションは、最も広い意味で、動き(走ること、ジャンプ等)を記述するためだけではなく、感情的キャラクターの表現(泣くこと、笑うこと等)を記述するためにも使用される。このようなアニメーションは、ビジュアル構成要素とオーディオ構成要素とを有してもよい。例えば、アニメーションが“悲しい”を表現することを意図する場合、ビジュアル構成要素は、目に現れる涙でもよく、オーディオ構成要素は、泣き声でもよい。適切な場合には、オーディオ及びビジュアル構成要素は、音声がアニメーション化された口により行われているように見えるように、同期してもよい。例えば、アニメーションが“楽しい”場合、オーディオ構成要素は、楽しい歌でもよく、ビジュアル構成要素は、同期した口の動きを有してもよい。ビジュアル構成要素は、変更された輪郭(微笑んでいるときの上向きの口等)でもよく、色の変化(当惑しているときの赤い頬等)でもよく、これらの組み合わせでもよい。
アニメーションが感情を示す場合、様々なアニメーションの分類度が規定されてもよい。アニメーションの命令が“楽しい”である場合、アニメーションの分類は、これを“おもしろい”、“微笑む”、“楽しい”又は“笑う”に関連付けるように規定されてもよい。
入力された対象物の分類とアニメーションの分類とを使用した表示の変更が選択される(150)。対象物の分類及びアニメーションの分類は、可能な変更の規定されたライブラリにアクセスするために使用されるパラメータとして考えられてもよい。アクセスされた変更は、入力された表示の適切なアニメーションを表す。例えば、対象物の分類が“豚”であり、アニメーションの分類が“歩く”である場合、豚の歩行を表す一連の足の動き表す。
表示を変更するための変更を使用する(160)。第1のユーザの表示は、選択された変更に従って(すなわち、直接影響を受けたかのように)アニメーション化される。
利点を証明し得る更なる手段は、学習モードである。これにより、第1のユーザは、関連付けの精度を向上させるために、手書き及び音声認識のための一般的に当該技術分野で知られているような方法で、対象物の分類自体を規定してもよく、及び/又は表示が処理される方法を適合してもよい。第1のユーザはまた、表示が何であるかを指定するように求められてもよく、表示が正確に識別されたことを確認するように求められてもよい。
このような学習システムは、A. Lovett, M. Dehghani及びK. Forbus“Efficient Learning of Qualitative Descriptions for Sketch Recognition, 20th International Workshop on Qualitative Reasoning. Hanover, USA, 2006に記載されている。この文献は、オープンドメイン・スケッチ環境(open-domain sketching environment)で対象物を認識する方法を記載している。このシステムは、対象物の前のスケッチに基づいて対象物の一般化を作り、新しいスケッチを分類するためにこれらの一般化を使用する。選択された手法は、定性的にスケッチを示す。この理由は、定性的な情報が、正確な大きさのように、分類からそらす詳細を抽象化する記述レベルを提供するからである。認知問題における固有の不確実性に対処するために、表示を作る処理においてベインズの推理が使用される。認知上の類似性の研究からの心理的証拠によりサポートされた共通点及び類似点の計算モデルである構造マッピングエンジン(SME:Structure Mapping Engine)を使用して、定性的な表示が比較される。このシステムは、同じ対象物の異なるスケッチで、SMEにより見つかった共通の構造に基づいて一般化を生成する。
SMEは、共通点の計算上のモデル及びシミュレーションであり、また、表示を対象物の分類に関連付ける(120)基礎及び/又は命令をアニメーションの分類に関連付ける(140)基礎を形成してもよい。
同様に、関連付けの精度を向上させるために、学習モードもアニメーションの分類に提供されてもよい。
図2は、図1の方法を実行するのに適したシステムの概略図を示している。このシステムは、第1のユーザから表示を受け入れ、表示を適切な形式で第1の分類器(220)に出力する第1の入力(210)を有する。これは、所望の電子フォーマットで表示を入力するのに適した如何なる適切な装置を有してもよい。例えば、第1のユーザの手動の動きをデジタル形式に変換する装置(描画タブレット又はタッチスクリーン等)を有してもよい。これは、紙の画像をデジタル化するスキャナ又は画像をデジタル化するカメラのようなデジタイザでもよい。これはまた、記憶装置又は位置からデジタル形式で表示を受信するネットワーク接続でもよい。第1の入力(210)はまた、表示を第1の分類器(220)に適した形式に変換する手段を有する。
図2のシステムが第1の入力(210)から表示を受け入れると、出力装置(270)を使用して第1のユーザに出力してもよい。このように、第1のユーザは、入力されたときに表示のフィードバックを直ちに得る。
このシステムは、第1の入力(210)から受け入れられた表示を入力された対象物の分類に関連付け、この対象物の分類をセレクタ(250)に出力する第1の分類器(220)を更に有する。第1の分類器は、表示を受け入れ、これを対象物の分類に関連付けることにより識別する。第1の分類器(220)は、入力された対象物の分類を適切なフォーマットでセレクタ(250)に提供するように構成される。
表示の1つ以上の形態は、表示を分類に関連付ける際に支援するために使用されてもよい。例えば、以下のいずれかが単独で又は組み合わせて使用されてもよい。
・第1の入力(210)が第1のユーザの手動の動きを検出する描画インタフェースである場合、第1の分類器(220)への信号は、どのように表示が描かれたか(使用された書き順、大きさ、速度及び圧力等)
・表示が何に見えるか(一筆毎の関係等)
・第1のユーザが表示の入力中に何らかの検出可能なコミュニケーション手段で何を伝えているか(適切な入力により検出される)
表示を入力された対象物の分類に関連付けるときに使用される形態は、以下のものがある。
・どのように表示が規定されているか(すなわち、標準的な表示が特定の対象物の分類のインスタンスであるために従わなければならない一式の幾何学的制約)
・どのように表示が描かれているか(すなわち、使用されている書き順)
・どのように表示が見えるか(すなわち、画像識別の従来の概念)
表示から対象物の分類を生成することに関する1つの問題は、部分的な表示(豚の頭部のみ等)又は異なる図(正面から、側面から、上部から等)を入力するために第1のユーザにとって利用可能な自由度である。
表示が何であるかを第1のユーザが意図していることを決定する際にプロセッサに利用可能な情報量を増加させるために、音、ジェスチャー又は動きの検出のような第1のユーザとの他のインタフェースを使用することが有利になり得る。これは、第2の入力(230)の可能性に関して以下に説明する。音、音声、ジェスチャー、顔のジェスチャー、表情及び/又は表示の入力中の動きのようなコミュニケーション手段を監視することにより、更なる手がかりが提供されることが予想される。音声の場合、適切な音声入力(230)により識別され、第1の分類器(220)に供給されてもよい。
表示を入力された対象物の分類に関連付ける唯一の手段として使用可能なこれらのコミュニケーション手段から命令を導くことも有利になり得る。当業者は、場合によっては命令及び表示に関連付けられた重みを使用して、これらの方法の双方の組み合わせが使用されても良いことを認識する。
単語だけでなく雑音も含めてそれぞれの言葉の発声を記述するために、単語の言葉が使用される点に留意すべきである。例えば、第1のユーザが豚の鳴き声の音を作る場合、これは、表示と対象物の分類との関連付ける際に支援するために使用されてもよい。
第1及び第2のユーザが同じ物理的位置にいる場合、各ユーザは、第2の入力(230)について以下に記載するものと同様の専用又は共用の入力を提供されてもよい。入力が共用される場合、システムは、第1及び第2のユーザ入力間の区別が行えるように、通常の音声認識システムを更に有してもよい。
代替として、第1の分類器(220)が対象物の分類に関連付けたときにのみ、第1の入力(210)を使用して入力された表示を出力する(270)ことが有利になり得る。このことは、関連付けステップ(120)がうまく完了したという第1のユーザの確認を提供する。
第2の入力(230)は、第2のユーザから命令を受け入れ、命令を適切な形式で第2の分類器(240)に出力するために提供される。これは、命令を入力する如何なる適切な装置を有してもよい。これにより、第2のユーザは、特定の方法で表示を変更するように、システムに直接的又は間接的に命令してもよい。第2のユーザは、多くのコミュニケーション手段(動き、書くこと、音、音声、ジェスチャー、顔のジェスチャー、表情、又は直接の選択等)により、命令又は合図を与えてもよい。第2の入力(230)は、コミュニケーション手段を検出するための適切な装置(マイクロホン、カメラ又はアイコン付きのボタン)と、これらの入力から命令を導く手段と、命令を第2の分類器(240)に適した形式に出力する手段とを有する。
共同の描画の形式のために複数の第2のユーザにとって複数の第2の手段(230)を提供することも有利になり得る。このシステムは、異なる入力を分析して重み付け、何が支配的なアニメーションの命令であるかを結果として決定する手段を更に有するように変更されてもよい。特定の形式のアニメーションの命令を導く際に全ての入力が制限される場合(例えば、感情に制限される場合)、このタスクは簡略化されてもよい。必要に応じて、特定の第2のユーザに大きい重みを与えるために、通常の音声識別も使用されてもよい。
アニメーションの命令が第2の入力(220)により検出された音又は音声から導かれる場合、複数の形態が使用されてもよい。例えば、以下のいずれかが単独で又は組み合わせて使用されてもよい。
・音声に含まれるきっかけの単語(“走る”、“悲しい”、“楽しい”等)の認識。例えば、Windows(登録商標) Vista from Microsoft features Windows(登録商標) Speech Recognitionのように、これを行う技術は当該技術分野において知られている。
・話者の感情の状態を検出するために、第2のユーザの音声のピッチ分析が使用されてもよい。
・入力された表示に関係しない潜在的なアニメーションの命令を除去するために、文法的分析が使用されてもよい。例えば、第1のユーザが豚の表示を入力したが、ストーリーのナレーション中に犬が豚に向かって走っているため豚が怖がっていると第2のユーザが言及すると、“走る”ではなく“怖がる”というアニメーションの命令を伝えることのみが重要になる。
Microsoftから現在利用可能な音声認識は柔軟性がある。ユーザが文書を記述し主なアプリケーションで電子メールを行うことを可能にし、音声コマンドを使用してアプリケーションを開始してアプリケーション間の切り換えをすることを可能にし、オペレーティングシステムを制御することを可能にし、ウェブ上のフォームを埋めることも可能にする。Windows(登録商標) Speech Recognitionは、最新のMicrosoft音声技術を使用して構築されている。これは、使用を容易にするために、第2の入力(230)及び第2の分類器(240)により使用され得る以下の機能を提供する。
・コマンド命令:“Say what you see”というコマンドは、アプリケーションの自然の制御及びタスクの完了を可能にする(文書のフォーマット及び保存、アプリケーションのオープン及びアプリケーション間の切り換え、ファイルのオープン、コピー及び削除等)。リンクの名前を話すことにより、インターネットをブラウズしてもよい。このことは、ソフトウェアが音声からコンテキストを抽出することを必要とするため、不要なアニメーションの命令を除去し、及び/又はアニメーションの命令を識別する文法的分析を適用するために、同じ技術が使用されてもよい。
・曖昧性除去:明瞭にするためにユーザインタフェースで曖昧な状況を解決する。ユーザが複数の方法で解釈され得るコマンドを言うと、システムは、何を意図しているかを明瞭にする。このような選択肢は、正確な関連付けが行われたか否かを明瞭にするために、本発明に従ってシステムに追加されてもよい。
・インタラクティブ指導:インタラクティブ音声認識指導は、Windows(登録商標) Vista Speech Recognitionの使用方法を教示し、ユーザの音声がどのようなものであるかを認識システムに教示する。
・パーソナル化(適合化):話し方及びアクセントに対する現在の適合化は、引き続き音声認識の精度を改善している。
・ピッチ分析認識技術:これを行う技術は、当該技術分野において知られており、欧州特許出願EP 1 326 445に記載されている。この出願は、音声コミュニケーションを実行するコミュニケーションユニットと、コミュニケーション相手に対応するCGキャラクターを選択するキャラクター背景選択ユニットとを開示している。音声入力ユニットは音声を取得する。音声分析ユニットは音声を分析し、感情推定ユニットは、音声認識の結果に基づいて感情を推定する。口元動作制御ユニット、身体動作制御ユニット及び表現制御ユニットは、制御情報を3次元画像描画ユニットに送出し、画像を生成する。表示ユニットは画像を表示する。
図2のシステムにこのピッチ分析認識を実装する際に、第2の入力(230)は、音声を分析する音声分析ユニットと、音声分析の結果に基づいて感情を推定する感情推定ユニットとを有する。変更器260は、口元動作制御ユニットと、身体動作制御ユニットと、表現制御ユニットとを有する。変更器(260)はまた、制御ユニットから制御情報を受け入れる画像描画ユニットを有する。出力装置(270)は、画像を表示する。音声分析ユニットは、送出された音声データの強度若しくは音素、又はこれらの双方を分析する。人間の言葉では、音素は、意味を識別する最小の構成単位である。音素は、それ自体が物理的セグメントではないが、理論上の意味でその認識できる抽象化である。
音声強度は、所定の期間(表示レート時間等)の音声データの振幅の絶対値が図7に示すように統合される(サンプリング値が追加される)ように分析され、統合された値のレベルは、その期間の所定の値に基づいて決定される。音素は、通常の音声認識の処理が実行されるように分析され、音素は、“ん(n)”、“あ(a)”、“い(i)”、“う(u)”、“え(e)”又は“お(o)”に分類される、或いは各音素の比が出力される。基本的には、統計的に収集される音素“ん”、“あ”、“い”、“う”、“え”又は“お”の音声データを正規化することにより得られたテンプレートは、音素に分解されて正規化された入力音声データと照合され、最も照合するデータが選択される、或いは照合レベルの比が出力される。照合レベルに関して、適切な所定の距離関数(ユークリッド(Euclid)距離、ヒルベルト(Hilbert)距離、マハラノビス(Maharanobis)距離等)により測定された最小距離を有するデータが選択される、或いは値は、全ての音素“ん”、“あ”、“い”、“う”、“え”又は“お”の測定された距離の和により各距離を割ることにより、比として計算される。これらの音声分析結果は、感情推定ユニットに送信される。
感情推定ユニットは、事前に所定の期間に音声分析ユニットから送信された音声分析結果を格納し、格納された結果に基づいてユーザの感情の状態を推定する。例えば、感情の形式は、“通常”、“笑う”、“怒る”、“泣く”、及び“心配する”に分類される。
音声強度レベルに関して、感情推定ユニットは、感情毎にテンプレートとして特定の期間のレベルパターンを保持する。特定の期間が3回の音声分析に対応することを想定すると、テンプレートは“レベル2、レベル2、レベル2”が“通常”であることを示し、“レベル3、レベル2、レベル3”が“笑う”ことを示し、“レベル3、レベル3、レベル3”が“怒る”ことを示し、“レベル1、レベル2、レベル1”が“泣く”ことを示し、“レベル0、レベル1、レベル0”が“心配する”ことを示す。これらのテンプレートに対する格納された3回の分析結果で、レベル差の絶対値の和(ヒルベルト距離)又はレベル差の2乗の和(ユークリッド距離)が計算され、最も近似するものがその時点での感情の状態であると決定される。或いは、感情の状態は、全ての感情の距離の和により各感情の距離を割ることにより得られた比で計算される。
アニメーションの命令を導くための文法的分析のタスクは、ユーザが文章内で特別の語句又は一時停止を使用することにより簡略化されてもよい。これらの一時停止は、アニメーションの命令と、アニメーションの命令度と、対象物の分類とを分離すべきである。
例えば、“There is a pig called Bill, he is very happy because today is his birthday(ビルと呼ばれる豚がいる。今日はビルの誕生日なのでビルは非常に楽しい。)”という文章は、この場合には以下のように発音されるべきである。“There is a ..... pig ..... called Bill, he is ..... very ..... happy ..... because today is his birthday(ビルと呼ばれる.....豚が.....いる。今日はビルの誕生日なので....ビルは.....非常に....楽しい。)”同様に、“The dog is very sad when he finds he did not pass the exam(犬が試験に合格しなかったことがわかったとき、犬は非常に悲しかった)”という文章では、“The ..... dog ..... is ..... very ..... sad ..... when he finds he did not pass the exam(犬が試験に合格しなかったことがわかったとき、.....犬は.....非常に....悲しかった)”と発音される。
更に又は代替として、第2の分類器(240)は、動き、書き込み入力、ジェスチャー若しくは表情又はこれらのいずれかの組み合わせからアニメーションの命令を導くために入力を提供されてもよい。換言すると、手書き認識、ジェスチャー認識及び表情認識のような複数の技術が使用されてもよい。
・ジェスチャー及び動き認識:これを行うための技術は当該技術分野において知られている。1つの湖のような技術は、E. Kaiser他による“Demo: A Multimodal Learning Interface for Sketch, Speak and Point Creation of a Schedule Chart,”Proc. Int’l Conf. Multimodal Interfaces (ICMI), ACM Press, 2004, pp.329-330.に開示されている。この文献は、2人のスケジュールの一致をトラッキングするシステムを記載している。一方の人が接触式ホワイトボードに立ってガントチャートを生成し、他方の人がメモリ付きのステレオカメラの画面上で見る。ステレオカメラは、見物人の頭、胴体及び口元の動きのリアルタイムの繋がれていない画面に基づくトラッキングを実行し、これらが3次元ジェスチャー認識エージェントにルーティングされる。音声と、3次元の直示的ジェスチャーと、2次元の対象物展開とを使用して、システムは、見物人の示唆をトラッキングし、特定のマイルストーンに移動することができる。システムはまた、音声シーケンスとして言葉ではない(OOV:out-of-vocabulary)言葉を認識することができる音声認識エージェントを有する。従って、ホワイトボードの人がチャートの構成要素についてOOVラベル名を話し、それを書き込むと、OOV音声は、手書き認識器により仮定された文字シーケンスと結合され、新しいラベルの綴り、発音及び意味を生成する。これらは、システムにより動的に学習され、将来の認識のために直ちに利用可能になる。
・顔のジェスチャー及び表情認識:これを行うための技術は、M.J. den UyI, H. van Kuilenburgによる“The Facereader: online facial expression recognition”, Proceedings of Measuring Behavior 2005; Wageningen, 30 August − 2 September 2005に記載のシステムのように、当該技術分野において知られている。この文献は、FaceReaderシステムを記載しており、これは、高精度で表情及び他の顔の特徴をオンラインで記述することができる。この文献は、システムの可能性及びこれを動作させるために使用される技術を記載している。このシステムを使用して、感情表現が89%の精度で認識され、複数の他の顔の特徴を分類することができる。
第2の分類器(240)の機能は、第2の入力(230)から受け入れられた命令をアニメーションの分類に関連付け、アニメーションの分類をセレクタ(250)に出力することである。第2の分類器(240)は、適切なフォーマットでアニメーションの分類をセレクタ(250)に提供するように構成される。
複数の入力が第2の分類器(240)に使用される場合、第2の分類器(240)は、異なる入力を分析して重み付け、何が支配的なアニメーションの分類であるか(従って、何がアニメーションの分類に関連付けられるべきであるか)を結果として決定する手段を更に有してもよい。特定の形式のアニメーションの命令を導く際に全ての入力が制限される場合、(例えば、感情に制限される場合)、このタスクは簡略化されてもよい。
単一の入力が使用される場合であっても、第2の分類器(240)は、依然として、異なる時間に到達する異なるアニメーションの命令を分析して重み付けてもよい。例えば、“The ..... pig ..... felt ..... sad ..... in the morning, but in the afternoon he became ..... happy ..... again. He was so ..... happy ..... that he invited his friends to his home for a barbecue(午前中に豚は悲しかったが、午後になると、再び楽しくなった。豚は非常に楽しかったため、バーベキューのために友達を家に招待した)”という入力を処理するために、“楽しい(happy)”というアニメーションの命令が選択されるべきである。実際には、ユーザは、これらのキーワードのために、数ミリ秒間一時停止してもよい。代替として、複数の感情の言葉が検出された場合、キャラクター上に示される感情は、話されているストーリーの筋に動的に従ってもよい。これは、システムの応答時間に依存する。すなわち、第2のユーザがアニメーションの命令を与えたときからアニメーションが出力装置(270)に出力される時間までの時間に依存する。
システムは、第1の分類器(220)から受け入れられた入力された対象物の分類と、第2の分類器(240)から受け入れられたアニメーションの分類とを使用して表示の変更を決定するセレクタ(250)を有する。セレクタ(250)の出力は、選択された変更であり、これは、変更器(260)に提供される。どのように表示が変更器(260)により変更されるかを決定するために、2つの入力パラメータが使用され、セレクタ(250)は、適切なフォーマットで変更器(260)に適切な命令を提供する。
変更器(260)は、変更を使用して表示を変更するためにシステムに提供される。変更器(260)は、第1の入力(210)から表示を受け入れ、セレクタ(250)から変更を更に受け入れる。変更器(260)は、表示を出力する出力装置(270)に接続され、第1及び/又は第2のユーザにより認識される。変更器(260)は、変更を表示に適用し、これを行うときに、出力装置(270)の表示の第1及び/又は第2のユーザによる認識も変更される。変更器(260)は、第1の入力装置(210)から受け入れられた表示を出力装置(270)に直接(すなわち、変更された表示を出力装置(270)に提供せずに、又は提供する前に)提供するように構成されてもよい。例えば、第1のユーザが描画を入力した後、且つアニメーションの命令が導かれる前に、その描画は出力装置に表示されてもよい。その後、命令が第2の入力(230)から導かれると、第1及び/又は第2のユーザは、描画がアニメーション化されるのを認識する。
システムはまた、変更器(260)から信号を受け入れ、ユーザが認識できるように変更された表示を出力する出力装置(270)を有する。これは、例えば、オーディオ出力及びビジュアル出力を有してもよい。
システムのユーザにとっての更なる利点は、高度の描画スキルが必要ない点である。基本的な表示を使用して命令を与えることは、高度なアーティストではないユーザがシステムを使用することができ、その使用から楽しみを得ることを意味する。
第1及び第2のユーザから入力を受け入れることにより、共同の描画が可能である。第1及び第2のユーザは、同じ物理的位置に存在してもよく、異なる物理的位置に存在してもよい。
第1及び第2のユーザが異なる物理的位置に存在する場合、この方法は、第1の表示が第1のユーザから受け入れられ(110)、第1の命令が第2のユーザから受け入れられ(130)、第2の表示が第2のユーザから受け入れられ、第2の命令が第1のユーザから受け入れられるように変更されてもよい。
第1及び第2のユーザが同じ物理的位置に存在する共同の描画の場合、出力装置(270)は共用されてもよく、各ユーザが別々のディスプレイを提供されてもよい。第1及び第2のユーザが異なる物理的位置に存在する場合、双方のユーザ又は一方のみのユーザがディスプレイを提供されてもよい。
第1のユーザ及び第2のユーザが同じユーザであるように方法が変更されることが有利になり得る。これは、必要な入力及び出力の数を低減し、少ない順列(permutation)が想定されるため、関連付けの精度を増加させ得る。このように、本発明は、単一のユーザにインタラクティブな描画環境を示すために使用され得る。
図3は、子供に適した本発明のシステムの実施例を示している。図3のシステムは、以下に記載する更なるステップを除いて、図2のシステムと同じである。当業者に明らかなように、これらの追加の多くは、図2のシステムの他の実施例でも利用され得る。
この実施例の説明では、第1のユーザ及び第2のユーザは同じユーザであり、単にユーザと呼ばれる。
特に子供用にシステムを設計することにより、システムの複雑レベルは低減されてもよい。例えば、可能な対象物の分類及び/又はアニメーションの分類の数は、子供の言葉及び経験に近づけるように低減されてもよい。このことは、可能な入力された対象物の分類を“農場”、“家の周り”、“学校”等のようなおおよその位置に制限することにより、及び/又はアニメーションの分類を“車”、“動物”、“感情”等のようなテーマに制限することにより、本又は教育用ビデオのような他の情報コンテンツで使用されるものと同様の方法で行われてもよい。
可能性が子供の能力及び年齢に調整され得るように、複雑性を可変にすることが有利になり得る。
出力装置(270)は、LCDモニタのようなビジュアルディスプレイ装置(271)と、スピーカのような任意選択のオーディオ再生装置(272)とを有する。ユーザにとってシステムを簡略化するために、ユーザ表示の第1の入力(210)は、出力に使用される同じユニットに統合されてもよい。これは、例えば、コンピュータ装置に接続された書き込み入力タブレットの使用、又はタッチスクリーンを備えたコンピュータモニタでもよい。
第2の入力(230)は、音声を検出するマイクロホン(235)を有する。特に子供により命令として話された音声が与えられ、ストーリーとして話された命令が述べられる。マイクロホン(235)はまた、出力装置(270)に統合されてもよい。
動作中に、子供は、第1の入力(210)を使用して対象物の表示を描画することにより、開始点を選択する。適切なボタンの押下又は特定の期間の待機のように描画の完了を示した後に、第1の分類器(220)は、表示を対象物の分類に関連付ける。
代替として、第1の分類器(220)は、表示を対象物の分類に継続して関連付けることを試みてもよい。これは、ユーザへの高速且つ自然の応答という利点を有する。
図4は、図3の第1の分類器(220)の概略図を示している。第1の分類器(220)は、第1のプロセッサ(221)と、対象物分類データベース(225)とを有する。表示が第1の入力装置(210)を使用して入力されると、生のデータは何らかの方法で対象物に変換される必要がある。例えば、ユーザが豚を描画すると、第1の分類器(220)のタスクは、対象物の分類“豚”をセレクタ(250)に出力することである。第1のプロセッサ(221)のタスクは、第1の入力(210)により提供された信号を標準化された対象物の定義に変換することである。標準化された対象物の定義は、対象物分類データベース(225)のエントリーと比較されてもよい。対象物の一致がデータベース(225)に見つかると、対象物の分類はセレクタ(250)に出力される。
標準化された対象物の定義を決定するために、表示の複数の態様が第1のプロセッサ(221)により使用されてもよい。例えば、以下のいずれかが単独で又は組み合わせて使用されてもよい。第1の入力(210)がユーザの手動の動きを検出する描画インタフェースである場合、第1のプロセッサ(221)への信号は、どのように表示が描かれたか(使用された書き順、大きさ、速度及び圧力等)、表示が何に見えるか(一筆毎の関係等)、ユーザが表示の入力中に行い、マイクロホン(235)を有する第2の入力(230)により検出された音、第1のユーザが表示の入力中に何を書いたか(いずれかの関連する用語を検出するために手書き分析が使用されてもよい)、を有してもよい。
図3のシステムが対象物の分類を決定した後に、第1の入力(210)を使用して入力された元の表示をビジュアルディスプレイ装置(271)に表示してもよい。これは、関連付けが成功したというビジュアル信号をユーザに提供する。
図5は、図3の第2の分類器(240)の概略図を示し、第2のプロセッサ(241)と、アニメーション分類データベース(245)とを有する。音声のような音が第2の入力(230)を使用して入力されると、音声内でのアニメーションの合図が検出され、同様にアニメーションに変換される必要がある。
感情的アニメーションは子供にとって特に有利である。この理由は、表示される表示との関連性を増加させ、システムを長く使用することに対する興味を保持するためである。このことは、記憶保持を向上させ、学習経験を向上させる。
例えば、ユーザが“走る”と話すと、第2の分類器(240)のタスクは、アニメーションの分類“走る”をセレクタ(250)に出力することである。ユーザが“悲しい”と話すと第2の分類器(240)のタスクは、アニメーションの分類“悲しい”をセレクタ(250)に出力することである。
第2のプロセッサ(241)のタスクは、第2の入力(230)により提供された音を標準化されたアニメーションの定義に変換することである。標準化されたアニメーションの定義は、アニメーション分類データベース(245)のエントリーと比較されてもよい。アニメーションの一致がデータベース(245)に見つかった場合、アニメーションの分類はセレクタ(250)に出力される。
更に又は代替として、動き、書き込み入力、ジェスチャー、顔のジェスチャー若しくは表情又はこれらのいずれかの組み合わせから命令を導くために、適切な入力が提供されてもよい。
・手書き又は手の動きの認識について、信号は、デジタル書き込み入力手段(335)を有する第3の入力(330)を使用して提供されてもよい。デジタル書き込み入力手段(335)は、便宜的に第1の入力(210)と結合されてもよい。
・動き又はジェスチャーの認識について、第4の入力(430)に含まれる第1の画像検出装置(435)(ステレオカメラ等)を使用することにより、命令は、ユーザの口元及び体の姿勢から導かれてもよい。
・表情、顔の動き又は顔のジェスチャーの認識について、第5の入力(530)に含まれる第2の画像検出装置(535)(カメラ等)を使用することにより、命令は、ユーザの顔の特徴の動きから導かれてもよい。これは、感情に対応するアニメーションの命令が望まれる場合には特に有用である。
図3のシステムがアニメーションの分類を決定すると、これはセレクタ(250)に渡される。
アニメーションは、動作(“走る”等)、程度(“速い”又は“遅い”等)を含んでもよい。例えば、アニメーションの分類が感情(“悲しい”等)である場合、程度は“わずかに”又は“非常に”でもよい。このことが望まれる場合、第2の分類器(220)は、利用可能な入力(230、330、430、530)からこれを決定するように変更されなければならない。実際に、程度は、-5から+5までのような数として符号化されてもよい。ただし、0は中間又は初期設定レベルであり、+5は“非常に”又は“非常に速い”であり、-5は“わずかに”又は“非常に遅い”である。第2の分類器(220)がこの程度を決定することができない場合、0の初期設定値が使用されてもよい。
図6は、図3のセレクタ(250)の概略図を示し、第3のプロセッサ(251)とアニメーションデータベース(255)とを有する。
第1の分類器(220)から入力された対象物の分類を受け入れ、第2の分類器(240)からアニメーションの分類を受け入れた後に、第3のプロセッサ(251)は、アニメーションデータベース(255)にアクセスし、適切なアニメーションを取得する。この適切なアニメーションは、変更器(260)に渡され、そこで、ユーザ表示が適切なアニメーションに基づいて変更され、アニメーション化された表示がディスプレイ装置(270)を使用してユーザに表示される。例えば、入力された対象物の分類が“豚”であり、アニメーションの分類が“楽しい”である場合、第3のプロセッサ(251)は、“楽しい豚”にとって適切なアニメーションにアクセスする。
前述のように、利用可能な入力された対象物の分類及び/又はアニメーションの分類を制限することにより、システムの複雑性を低減することが有利になり得る。これらのパラメータは、アニメーションデータベースの複雑性及びサイズに直接影響を与える。
また、アニメーションを表示の1つ以上の部分(音声、ジェスチャー、表現、足取り、髪型、服装、姿勢、足の位置、腕の位置等)に制限することが有利になり得る。このことも、システムの複雑性を低減し得る。例えば、感情(“悲しい”等)は、顔のみの表示、単なる口元(例えば、口がへの字に曲がる)、又は目(例えば、例えば涙が出る)に制限されてもよい。
適切なアニメーションがこのような部分に制限されると、このことは、変更器(260)に通信される必要がある。これにより、変更器は、アニメーションをどこに適用するかを認識する。
代替として、アニメーション化される表示の部分は、ユーザが既存の入力(210、230、330、430、530)を通じて特定のアニメーションの命令を提供することにより、又は出力装置(270)に更なる入力検出を与えることにより、選択可能になってもよい。例えば、表示の部分をさわる又は指し示すことにより、表示のその部分に関連するオーディオ及びビジュアル構成要素のみが出力される。例えば、口元を指し示すことは、歌うことを生じる。手を指し示す間に、表示は拍手してもよい。目を指し示すことは、涙を出してもよい。
適切なアニメーションの最も簡単な形式は、インターネットの“smileys”の複雑性(基本的には口、目及び花の形状)に類似する。
近似のアニメーションは、如何なる適切なフォーマット(削除及び/又は追加によるフレーム毎の変更等)で変更器(260)に提供されてもよい。アニメーションはまた、変更器により認識されるフォーマット(“揺らす”等)で、命令の形式になってもよい。このような場合、変更器は、例えば元の表示の輪郭の外側に更なる輪郭を繰り返し追加及び削除することにより、どのように表現を揺らすかを認識する。
同様に、アニメーションは、命令とアニメーションとの組み合わせを有してもよい。例えば、歩くという表示をアニメーション化するために、アニメーションは、+30度の1式の足と、-30度の一式の足と、これらを交互に表示する命令とを有してもよい。このようなアニメーションの表示の間の時間は、固定でもよく、関連するアニメーションの分類(“走る”及び“歩く”等)に関係してもよく、アニメーションの分類の程度(“速い”及び“遅い”等)に関係してもよい。
アニメーションはまた、表示の異なる部分についてアニメーション部分の及び/又は命令のストリームを有してもよい。例えば、表示が犬に関連し、アニメーションの命令が走るに関連する場合、アニメーションは、足を左右に動かし、頭を上下に動かし、尻尾を上下に動かす結果の命令を有してもよい。
図3のシステムが適切なアニメーションを決定すると、これは、変更器(260)に渡される。変更器(260)は、第1の入力(260)から表示を受け入れ、セレクタ(260)からのアニメーションを表示に適用し、これを出力装置(270)に渡す。
適切なアニメーションは、表示の一部のみ(足等)に影響を与えてもよいため、表示の適切な部分を検出する機能を変更器(260)に提供することが有利になり得る。このタスクは、第1の分類器(220)により生成された入力された対象物の分類を変更器(260)に提供し、表示の関連部分を決定する手段を提供することにより、簡略化されてもよい。
出力装置(270)は、変更器から信号を受け入れ、ユーザにとって適切な出力を生成する。表示のビジュアル構成要素は、ビデオディスプレイ(271)に表示され、いずれかのオーディオ構成要素がオーディオ再生装置(272)を使用して再生される。
ユーザが学習モード(新しいアニメーション)又は編集モード(変更されたアニメーション)でアニメーションデータベース(255)を自分で入力することを可能にすることが有利になり得る。このように、アニメーションは、分割されてもよく、新しいものに合成されてもよい。これは、アニメーションのオーディオ及びビジュアル構成要素について別々に行われてもよい。これにより、例えば、ユーザは、既存のアニメーションの新しいオーディオ構成要素を記録してもよく、既存のオーディオ構成要素を異なるものと置換してもよい。また、ユーザは、1つの入力された対象物の分類からのアニメーションを他のものにコピーしてもよい。例えば、豚のアニメーションは、犬のアニメーションにコピーされ、その犬のアニメーションを生成してもよい。
図3のシステムは、複数の子供にとって共同の描画が可能になるように変更されてもよい。図1及び2に関して前述したように、このことは、1つ以上の入力及び出力を必要としてもよい。
前述の実施例は本発明を例示するものであり、限定するものではなく、当業者は特許請求の範囲を逸脱することなく、多くの代替実施例を設計することができる点に留意すべきである。例えば、実施例は、複数のプロセッサ及びデータベースを参照するが、図2のシステムは、単一のプロセッサと単一の結合されたデータベースとを使用して動作してもよい。
本発明の方法は、プログラムが1つ以上のコンピュータ上で実行されたときに方法が実行されるように、1つ以上のプログラム内のプログラムコードとして符号化されてもよい。プログラムコードはまた、コンピュータ可読媒体に格納されてもよく、コンピュータプログラムプロダクトに含まれてもよい。
図2のシステムは、図1の方法を実行するためのスタンドアローン専用ユニットでもよく、プログラムコードを備えたPCでもよく、ソフトウェアでもよく、PCにアドオンされるハードウェアでもよい。これは、PDA又は携帯電話のようなポータブル電子装置に統合されてもよい。
これは、国際出願IB2007/053926(PH007064)に記載の物理表面上に仮想的に描画するシステムに統合されてもよい。この出願に記載のシステムも特に子供用に設計されているため、図3のシステムは特に有利である。
図2のシステムは、RFIDアプリケーションに使用されているもののような近接データ読み取り器を更に有してもよい。これは、データ担体を読み取り器の近くに持って行くことにより、表示が入力されることを可能にする。同様に、USB装置のような小型データ読み取り器が使用されてもよい。次に、表示は、適切なデータ単体に別々に提供されてもよい。
当業者は、通信ネットワーク(インターネット等)を通じてデータを交換するように、図2のシステムを変更することができる。例えば、表示及び適切なアニメーションのオンラインライブラリがシステムへのダウンロードに利用可能にされてもよい。
同様に、当業者は、機能が分散され、第1及び第2のユーザが物理的に同じ位置又は物理的に離れた位置で共同で描画することを可能にするように、実施例を変更することができる。1人以上のユーザは、第1の入力(210)と、第2の入力(230)と、出力装置(230)とのうち1つ以上を備えてもよい。
特許請求の範囲において、括弧内に配置された参照符号は、特許請求の範囲を制限するものとして解釈されるべきではない。“有する”という動詞及びその派生語は、特許請求の範囲に記載のもの以外の要素又はステップの存在を除外しない。単数の要素は、このような要素の複数の存在を除外しない。本発明は、複数の別個の要素を有するハードウェアを用いて実装されてもよい。複数の手段を列挙した装置の請求項において、複数のこれらの手段は、ハードウェアの同一のアイテムにより具現されてもよい。特定の手段が相互に異なる従属項に記載されているという単なる事実は、これらの手段の組み合わせが有利に使用できないことを示すのではない。
要約すると、本発明は、ユーザ命令に基づいて表示を変更する方法と、この方法により変更された表示を生成するシステムとに関する。通常の描画システム(ペン及び紙、書き込み入力タブレット等)は、全てのユーザが保持しているとは限らない適度の描画スキルを必要とする。更に、これらの通常のシステムは静的な描画を生成する。
本発明の方法は、第1のユーザから表示を受け入れ、表示を入力された対象物の分類に関連付け、第2のユーザから命令を受け入れ、命令をアニメーションの分類に関連付け、入力された対象物の分類とアニメーションの分類とを使用して表示の変更を決定し、変更を使用して表示を変更することを有する。
第1のユーザが何かの表示(例えば、ストーリーのキャラクター)を提供すると、これを対象物の分類に関連付けることにより、ある程度識別される。換言すると、可能な最善の一致が決定される。第2のユーザが表示を含むストーリーを想像すると、ストーリーの動的な要素が1つ以上のコミュニケーション形式(書き込み入力、音声、ジェスチャー、表情等)で示される。これらの信号から命令を導くことにより、ストーリー内で動的な要素を示すために、表示が変更又はアニメーション化されてもよい。このことは、ユーザへのフィードバックを向上させ、ユーザの楽しみを増加させる。

Claims (11)

  1. 第1のユーザからの第1のユーザ入力と複数の第2のユーザからの複数の第2のユーザ入力とをコンピュータシステムで処理する方法であって、
    前記コンピュータシステムは、前記第1のユーザ入力及び前記第2のユーザ入力を受け入れるユーザインタフェースと、ディスプレイモニタと、無生物又は生物の対象物の分類を備えた対象物分類データベースと、動き又は感情のアニメーションの分類を備えたアニメーション分類データベースとを有し、
    前記第1のユーザ入力は、前記ディスプレイモニタ上に描画される表示を示し、
    前記第2のユーザ入力のそれぞれは、前記ディスプレイモニタ上に描画される表示を変更する命令を示し、
    前記方法は、
    前記ユーザインタフェースを介して前記第1のユーザ入力を受け入れ、
    前記第1のユーザ入力を前記対象物分類データベースの分類と比較することにより、前記第1のユーザ入力が入力された対象物の分類に関連付けられ、
    前記ユーザインタフェースを介して前記第2のユーザ入力を受け入れ、
    支配的なアニメーションの命令を決定するために受け入れた前記第2のユーザ入力を分析して重み付け、
    前記支配的なアニメーションの命令を前記アニメーション分類データベースの分類と比較することにより、前記第2のユーザ入力がアニメーションの分類に関連付けられ、
    前記入力された対象物の分類と前記アニメーションの分類とを使用して前記表示の変更を選択し、
    前記変更を使用して前記表示を変更することを有する方法。
  2. 直接の選択、動き、音、音声、書き込み入力、ジェスチャー及びこれらのいずれかの組み合わせを含むグループから選択された前記第1のユーザのコミュニケーション手段から更なる命令を導き、
    前記更なる命令を前記対象物分類データベースの分類と比較することにより、前記表示が入力された対象物の分類に関連付けられることを更に有する、請求項1に記載の方法。
  3. 直接の選択、動き、音、音声、書き込み入力、ジェスチャー及びこれらのいずれかの組み合わせを含むグループから選択された2のユーザのコミュニケーション手段から前記命令を導くことを更に有する、請求項1に記載の方法。
  4. 2のユーザの顔のジェスチャー又は表情から前記命令を導くことを更に有する、請求項に記載の方法。
  5. 前記第1のユーザの動きから前記表示を導くことを更にする、請求項1に記載の方法。
  6. 前記表示は、前記第1のユーザの手の動きから導かれる、請求項に記載の方法。
  7. 前記表示は、オーディオ及びビジュアル構成要素から導かれる、請求項1に記載の方法。
  8. 前記変更は、前記表示の前記オーディオ構成要素又は前記ビジュアル構成要素に制限される、請求項に記載の方法。
  9. 前記変更は、前記表示の一部に制限される、請求項1に記載の方法。
  10. 第1のユーザからの第1のユーザ入力と複数の第2のユーザからの複数の第2のユーザ入力とを処理するコンピュータシステムであって、
    前記第1のユーザ入力及び前記第2のユーザ入力を受け入れるユーザインタフェースと、
    ディスプレイモニタと、
    無生物又は生物の対象物の分類を含むように構成された対象物分類データベースと、
    動き又は感情のアニメーションの分類を含むように構成されたアニメーション分類データベースと
    を有し、
    前記第1のユーザ入力は、前記ディスプレイモニタ上に描画される表示を示し、
    前記第2のユーザ入力のそれぞれは、前記ディスプレイモニタ上に描画される表示を変更する命令を示し、
    前記コンピュータシステムは、
    前記ユーザインタフェースに接続され、前記第1のユーザ入力を受け入れ、前記第1のユーザ入力を前記対象物分類データベースの分類と比較することにより、前記第1のユーザ入力が入力された対象物の分類に関連付けられる第1の分類器と、
    前記ユーザインタフェースに接続され、前記第2のユーザ入力を受け入れ、支配的なアニメーションの命令を決定するために受け入れた前記第2のユーザ入力を分析して重み付け、前記支配的なアニメーションの命令を前記アニメーション分類データベースの分類と比較することにより、前記第2のユーザ入力がアニメーションの分類に関連付けられる第2の分類器と、
    前記第1の分類器と前記第2の分類器とに接続され、前記入力された対象物の分類と前記アニメーションの分類とを受け入れ、前記入力された対象物の分類と前記アニメーションの分類とを使用して前記表示の変更を決定するセレクタと、
    前記ディスプレイモニタに接続され、前記変更を使用して前記ディスプレイモニタ上に描画された表示の変更を制御する変更器と
    を有するシステム。
  11. コンピュータ可読媒体に格納されたコンピュータプログラムであって、
    前記コンピュータプログラムがコンピュータ上で実行されたときに、請求項1に記載の方法を実行するプログラムコード手段を有するコンピュータプログラム。
JP2011502466A 2008-03-31 2009-03-24 ユーザ命令に基づいて表示を変更する方法 Expired - Fee Related JP5616325B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08153763.1 2008-03-31
EP08153763 2008-03-31
PCT/IB2009/051216 WO2009122324A1 (en) 2008-03-31 2009-03-24 Method for modifying a representation based upon a user instruction

Publications (2)

Publication Number Publication Date
JP2011516954A JP2011516954A (ja) 2011-05-26
JP5616325B2 true JP5616325B2 (ja) 2014-10-29

Family

ID=40874869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011502466A Expired - Fee Related JP5616325B2 (ja) 2008-03-31 2009-03-24 ユーザ命令に基づいて表示を変更する方法

Country Status (6)

Country Link
US (1) US20110022992A1 (ja)
EP (1) EP2263226A1 (ja)
JP (1) JP5616325B2 (ja)
KR (1) KR101604593B1 (ja)
CN (1) CN101983396B (ja)
WO (1) WO2009122324A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594740B2 (en) 2008-06-11 2013-11-26 Pantech Co., Ltd. Mobile communication terminal and data input method
US20120026174A1 (en) * 2009-04-27 2012-02-02 Sonoma Data Solution, Llc Method and Apparatus for Character Animation
US20120023135A1 (en) * 2009-11-11 2012-01-26 Erik Dahlkvist Method for using virtual facial expressions
CN103314368B (zh) * 2011-01-25 2016-01-06 惠普发展公司,有限责任合伙企业 文件设计捕获和重复使用系统
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9298287B2 (en) * 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
CN103092339B (zh) * 2012-12-13 2015-10-07 鸿富锦精密工业(深圳)有限公司 电子装置及其页面演示方法
US20140229181A1 (en) * 2013-02-12 2014-08-14 Daniel Begel Method and System to Identify Human Characteristics Using Speech Acoustics
DE202015006141U1 (de) 2014-09-02 2015-12-14 Apple Inc. Elektronische Touch-Kommunikation
US10402864B2 (en) * 2014-09-09 2019-09-03 Toshiba Memory Corporation Data processor, content distribution system, and communication apparatus
JP6777089B2 (ja) * 2015-11-04 2020-10-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN108781175B (zh) 2015-12-21 2021-09-21 谷歌有限责任公司 用于消息交换题绪的自动建议的方法、介质及系统
CN108476164B (zh) 2015-12-21 2021-10-08 谷歌有限责任公司 在消息传送应用中自动地提供机器人服务的方法
US10325395B2 (en) * 2016-01-20 2019-06-18 Facebook, Inc. Techniques for animating stickers with sound
US9838737B2 (en) * 2016-05-05 2017-12-05 Google Inc. Filtering wind noises in video content
US10511450B2 (en) 2016-09-20 2019-12-17 Google Llc Bot permissions
US10547574B2 (en) 2016-09-20 2020-01-28 Google Llc Suggested responses based on message stickers
US10416846B2 (en) * 2016-11-12 2019-09-17 Google Llc Determining graphical element(s) for inclusion in an electronic communication
CN106781837B (zh) * 2016-12-09 2020-05-05 郭建中 一种写字板以及生成写字板的方法
WO2018212822A1 (en) 2017-05-16 2018-11-22 Google Inc. Suggested actions for images
US10404636B2 (en) 2017-06-15 2019-09-03 Google Llc Embedded programs and interfaces for chat conversations
CN107992348B (zh) * 2017-10-31 2020-09-11 厦门宜弘电子科技有限公司 基于智能终端的动态漫画插件处理方法及系统
US11803293B2 (en) * 2018-08-30 2023-10-31 Apple Inc. Merging virtual object kits
WO2020163952A1 (en) * 2019-02-13 2020-08-20 Cao Xinlin System and method for processing commands in a computer-graphics software environment
CN115512017B (zh) * 2022-10-19 2023-11-28 邝文武 一种基于人物特征的动漫形象生成系统及方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630017A (en) * 1991-02-19 1997-05-13 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JP3203061B2 (ja) * 1992-09-07 2001-08-27 シャープ株式会社 音声電子黒板及び音声認識機能を備える表示装置
US5481278A (en) * 1992-10-21 1996-01-02 Sharp Kabushiki Kaisha Information processing apparatus
JPH0744727A (ja) * 1993-07-27 1995-02-14 Sony Corp 画像作成方法およびその装置
US6167562A (en) * 1996-05-08 2000-12-26 Kaneko Co., Ltd. Apparatus for creating an animation program and method for creating the same
JP3327127B2 (ja) * 1996-07-09 2002-09-24 松下電器産業株式会社 画像提示装置
JP3767649B2 (ja) * 1997-05-30 2006-04-19 株式会社ナムコ ゲーム装置及びゲームプログラムを記録したコンピュータ読み取り可能な記録媒体
US6721449B1 (en) * 1998-07-06 2004-04-13 Koninklijke Philips Electronics N.V. Color quantization and similarity measure for content based image retrieval
US6975988B1 (en) * 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
EP1326445B1 (en) * 2001-12-20 2008-01-23 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
AU2003278708A1 (en) * 2002-08-12 2004-02-25 Walker Digital, Llc Digital picture frame and method for editing related applications
JP2006313433A (ja) * 2005-05-06 2006-11-16 Fuji Photo Film Co Ltd 電子機器
JP2007027941A (ja) * 2005-07-13 2007-02-01 Murata Mach Ltd 画像処理装置
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
US7813561B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
JP4340725B2 (ja) * 2006-10-31 2009-10-07 株式会社スクウェア・エニックス ビデオゲーム処理装置、ビデオゲーム処理方法およびビデオゲーム処理プログラム
US8414399B2 (en) * 2008-06-23 2013-04-09 International Business Machines Corporation User value transport mechanism across multiple virtual world environments

Also Published As

Publication number Publication date
KR101604593B1 (ko) 2016-03-18
EP2263226A1 (en) 2010-12-22
JP2011516954A (ja) 2011-05-26
WO2009122324A1 (en) 2009-10-08
CN101983396A (zh) 2011-03-02
KR20110008059A (ko) 2011-01-25
US20110022992A1 (en) 2011-01-27
CN101983396B (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
JP5616325B2 (ja) ユーザ命令に基づいて表示を変更する方法
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
US7512537B2 (en) NLP tool to dynamically create movies/animated scenes
CN113454708A (zh) 语言学风格匹配代理
WO2021248473A1 (en) Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses
US20060197764A1 (en) Document animation system
Benoit et al. Audio-visual and multimodal speech systems
Naert et al. A survey on the animation of signing avatars: From sign representation to utterance synthesis
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
Gibbon et al. Audio-visual and multimodal speech-based systems
CN110737335B (zh) 机器人的交互方法、装置、电子设备及存储介质
WO2019160100A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
US20210005218A1 (en) Nonverbal information generation apparatus, method, and program
CN114173188B (zh) 视频生成方法、电子设备、存储介质和数字人服务器
Courty et al. Why is the creation of a virtual signer challenging computer animation?
Gibet et al. Signing Avatars-Multimodal Challenges for Text-to-sign Generation
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
Gjaci et al. Towards culture-aware co-speech gestures for social robots
WO2019160104A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
De Melo et al. Multimodal expression in virtual humans
Gonzalez et al. Passing an enhanced Turing test–interacting with lifelike computer representations of specific individuals
Schuller et al. Speech communication and multimodal interfaces
Altarawneh et al. Leveraging Cloud-based Tools to Talk with Robots.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130625

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140611

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140819

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140911

R150 Certificate of patent or registration of utility model

Ref document number: 5616325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees