JP6819672B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP6819672B2 JP6819672B2 JP2018508407A JP2018508407A JP6819672B2 JP 6819672 B2 JP6819672 B2 JP 6819672B2 JP 2018508407 A JP2018508407 A JP 2018508407A JP 2018508407 A JP2018508407 A JP 2018508407A JP 6819672 B2 JP6819672 B2 JP 6819672B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- utterance
- mode
- feedback
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 111
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000006872 improvement Effects 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 34
- 230000007613 environmental effect Effects 0.000 claims description 30
- 230000000007 visual effect Effects 0.000 claims description 28
- 230000000694 effects Effects 0.000 claims description 17
- 230000002996 emotional effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 47
- 238000004458 analytical method Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 26
- 230000008859 change Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000008451 emotion Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 230000005281 excited state Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- -1 PCs Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Description
1.本開示に係るフィードバックの制御
1.1.音声認識技術におけるフィードバック
1.2.本開示に係るシステム構成例
1.3.本開示に係る入出力端末10
1.4.本開示に係る情報処理装置30
2.実施形態
2.1.フィードバックのモードについて
2.2.暗示的なフィードバックの例
2.3.フィードバックに係るモードの切り替え
2.4.改善理由を付加した明示的なフィードバック
2.5.視覚情報によるフィードバックの追加制御
2.6.視覚情報によるフィードバックの例
3.入出力端末10及び情報処理装置30のハードウェア構成例
4.まとめ
<<1.1.音声認識技術におけるフィードバック>>
近年、音声認識技術を利用した様々な装置が提供されている。音声認識技術を利用した装置は、PC(Personal Computer)やスマートフォンなどの情報処理装置をはじめ、生活家電や車載用装置など、一般消費者に近い場面でも広く利用されている。また、音声認識技術を利用した装置は、商業施設や公共施設において、人の代わりとなり顧客にサービスを提供する主体としても、今後の活用が期待される。
まず、図1を参照して、本開示に係る情報処理システムの構成例について説明する。図1を参照すると、本開示に係る情報処理システムは、入出力端末10及び情報処理装置30を備える。また、入出力端末10と情報処理装置30は、ネットワーク20を介して互いに通信が行えるように接続される。
次に、本開示に係る入出力端末10について、詳細に説明する。上記で説明したとおり、本開示に係る入出力端末10は、ユーザの発話を収音する機能を有する。また、入出力端末10は、ユーザの発話認識に係る情報に応じて情報処理装置30が制御するフィードバックの情報をユーザに提示する機能を有する。
音声入力部110は、ユーザの発話及び環境音を収音する機能を有する。音声入力部110は、ユーザの発話及び環境音を電気信号に変換するマイクロフォンを含んでよい。また、音声入力部110は、特定方向の音を収音する指向性を有したマイクアレイを含んでもよい。上記のようなマイクアレイにより、音声入力部110が、ユーザの発話を環境音と切り離して収音することも可能となる。また、音声入力部110は、マイクロフォンやマイクアレイを複数含んでもよい。当該構成により、音源の位置、向き、及び動きなどをより高い精度で検出することが可能となる。
センサ部120は、ユーザを含む物体に関する種々の情報を検出する機能を有する。センサ部120は、上記の情報を検出するための複数のセンサを含んでよい。センサ部120は、ユーザの動作を検出するための撮像素子や、赤外線センサ、温度センサなどを含んでもよい。また、センサ部120は、撮像した画像に基づく画像認識を行う機能を有してよい。例えば、センサ部120は、ユーザの口の動きを検出することで、発話を行っているユーザを特定することができる。
音声出力部130は、電気信号を音に変換し出力する機能を有する。具体的には、音声出力部130は、情報処理装置30が制御するフィードバックの情報に基づいて、音声出力によりユーザへのフィードバックを行う機能を有する。音声出力部130は、上記の機能を有するスピーカを含んでよい。また、音声出力部130に含まれるスピーカは、特定の方向や距離などに指向性を持つ音声出力を実現する機能を有してもよい。当該機能を有するスピーカを含むことで、音声出力部130は、例えば、センサ部120が検出したユーザの位置に応じた音声出力を実施することができる。また、音声出力部130は、複数のスピーカを含んでもよい。音声出力部130が複数のスピーカを含む場合、フィードバックを出力するスピーカを制御することで、ユーザの位置に応じたフィードバックを実行することが可能となる。当該機能の詳細については、後述する。
表示部140は、情報処理装置30が制御するフィードバックの情報に基づいて、視覚情報によるユーザへのフィードバックを行う機能を有する。当該機能は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置により実現されてもよい。また、表示部140は、ユーザの操作を受け付ける操作部としての機能を有してもよい。操作部としての機能は、例えば、タッチパネルにより実現され得る。
端末制御部150は、上記で述べた入出力端末10の各構成を制御する機能を有する。端末制御部150は、例えば、音声入力部110及びセンサ部120が検出した各種の情報を取得し、後述するサーバ通信部160を介して、情報処理装置30に送信する機能を有してよい。また、端末制御部150は、サーバ通信部160を介して情報処理装置30からフィードバックに係る情報を取得し、当該情報に基づいて、音声出力部130及び表示部140を制御してもよい。また、ユーザの発話に基づいて処理を実行するアプリケーションが入出力端末10に備えられる場合、端末制御部150は、当該アプリケーションの処理を制御することができる。
サーバ通信部160は、ネットワーク20を介して、情報処理装置30との情報通信を行う機能を有する。具体的には、サーバ通信部160は、音声入力部110やセンサ部120が取得した情報を、端末制御部150の制御に基づいて、情報処理装置30に送信する。また、サーバ通信部160は、情報処理装置30から取得したフィードバックの情報を端末制御部150に引き渡す。
次に、本開示に係る情報処理装置30について、詳細に説明する。本開示に係る情報処理装置30は、入出力端末10が収音したユーザの発話認識に係る情報に応じて、ユーザの発話態様に対して入出力端末10が実行するフィードバックを制御する機能を有する。情報処理装置30は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択することができる。上記の複数のモードには、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、が含まれてよい。また、上記の発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、発話方向、発話内容、及び環境音が含まれてよい。
端末通信部310は、ネットワーク20を介して、入出力端末10との情報通信を行う機能を有する。具体的には、端末通信部310は、入出力端末10から取得した各種の情報を、音声分析部320、音声認識部330、及び位置検出部350に引き渡す。また、端末通信部310は、出力制御部360により制御されるフィードバックの情報を取得し、入出力端末10に送信する機能を有する。なお、情報処理装置30が複数の入出力端末10を制御する場合、端末通信部310は、ネットワーク20を介して、複数の入出力端末10と情報通信を行ってよい。
音声分析部320は、入出力端末10が収音した情報を取得し、当該情報を分析する機能を有する。音声分析部320は、例えば、ユーザの発話音量、発話速度、発話する音の高さ、または発音の明確さなどを含む、ユーザの発話態様に関する情報を分析できる。また、上記ユーザの発話態様には、ユーザの発話に付随して集音される環境音が含まれてよい。また、音声分析部320は、入出力端末10が収音した情報から、ユーザの発話と環境音とを分離する機能を有してもよい。ユーザの発話と環境音との分離は、人間の声に係る周波数帯域の情報などに基づいて行われてもよいし、VAD(Voice Activity Detection)技術などにより実現されてもよい。また、後述する状態記憶部340が、所定のユーザの音声に関する個人情報を記憶している場合、音声分析部320は、当該情報を用いて、ユーザの発話と環境音とを分離することもできる。
音声認識部330は、入出力端末10が収音した音声、または音声分析部320が分離したユーザの音声、に基づいて、ユーザの発話を認識する機能を有する。具体的には、音声認識部330は、取得した音声情報を音素化し、テキスト化する機能を有してよい。なお、音声認識部330による音声認識については種々の手法が用いられてよいため、詳細な説明は省略する。
状態記憶部340は、音声分析部320及び音声認識部330による処理結果を記憶する機能を有する。状態記憶部340は、例えば、音声分析部320により分析されたユーザの発話態様に係る情報や、音声認識部330による音声認識の結果を記憶できる。また、状態記憶部340は、ユーザの音声に係る特徴を含むユーザの属性情報や、発話態様の傾向などを記憶してもよい。
位置検出部350は、入出力端末10が取得した情報に基づいて、ユーザの発話位置や発話方向を推定する機能を有する。位置検出部350は、入出力端末10の音声入力部110が収音した音声情報や、センサ部120が取得した画像情報を含む各種のセンサから収集された情報を基にユーザの発話位置及び発話方向を推定することができる。また、位置検出部350は、上記の情報を基に、発話を行っているユーザ以外の人物及び物体の位置を推定してもよい。
出力制御部360は、音声分析部320、音声認識部330、状態記憶部340、及び位置検出部350から各種の情報を取得し、ユーザの発話に対するフィードバックを制御する機能を有する。出力制御部360は、上記の情報に基づいて、ユーザの発話態様に対するフィードバックのモードを複数のモードから選択する。当該複数のモードには、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、が含まれる。また、出力制御部360は、入出力端末10が行う音声または視覚情報によるフィードバックの情報を生成し、端末通信部310を介して、入出力端末10に送信してもよい。出力制御部360は、後述する出力DB370から条件に基づいたフィードバック情報を検索することで、上記のフィードバックの情報を生成してもよい。出力制御部360によるフィードバック制御の詳細については、後述する。
出力DB370は、入出力端末10が実施する音声または視覚情報によるフィードバックの情報を蓄積するデータベースであってよい。出力DB370は、例えば、フィードバックに係る音声情報を記憶してもよいし、入出力端末10の音声合成機能により音声出力させるためのテキスト情報を記憶してもよい。また、出力DB370は、入出力端末10が実施する視覚情報によるフィードバックに係る画像情報やテキスト情報を記憶してもよい。
<<2.1.フィードバックのモードについて>>
以上、本開示に係るフィードバックの制御について、概要を述べた。続いて、本開示の実施形態に係るフィードバックの制御について、詳細に説明する。本実施形態に係る情報処理装置30は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを複数のモードから選択することができる。
暗示的なフィードバックとは、ユーザの発話態様に対する間接的な改善方法を含むフィードバックである。すなわち、暗示的なフィードバックでは、ユーザに発話態様の改善方法を直接的には提示せず、入出力端末10による出力の態様を変化させることでフィードバックが行われる。ここで、本実施形態に係る暗示的なフィードバックとは、ユーザの発話態様よりも認識精度の高い発話態様でのフィードバックと定義してもよい。上記の認識精度は、入出力端末10によるユーザの発話の認識精度であってよい。言い換えると、暗示的なフィードバックが行われる第1のモードでは、ユーザに期待する発話態様によるフィードバックが行われる。
一方、明示的なフィードバックとは、ユーザの発話態様に対する直接的な改善方法を示すフィードバックであってよい。すなわち、明示的なフィードバックでは、入出力端末10による出力の態様を変化させる暗示的なフィードバックとは異なり、入出力端末10による認識精度を向上させるための改善方法を直接的にユーザに示してよい。このため、明示的なフィードバックが行われる第2のモードでは、ユーザの発話を認識するために、ユーザがとり得る発話の改善方法が具体的に提示される。例えば、ユーザの発話音量が小さい場合、第2のモードでは、「もっと大きな声で喋ってください」、という音声出力が行われてもよい。また、例えば、ユーザの発話速度が速すぎる場合、第2のモードでは、「もっとゆっくり喋ってください」、という音声出力が行われてもよい。上記のように、明示的なフィードバックが行われる第2のモードでは、ユーザがとり得る改善手段を明確に示すことで、ユーザの発話態様が改善されるように促すフィードバックが行われる。
次に、本実施形態に係る暗示的なフィードバックの具体的な例について説明する。本実施形態では、ユーザの発話態様に応じて、様々な暗示的フィードバックが行われてよい。図5は、本実施形態に係る出力制御部360による暗示的なフィードバックの制御の流れを示すフローチャートである。
次に、本実施形態の出力制御部360によるフィードバックに係るモードの選択について説明する。上述したとおり、本実施形態に係る情報処理装置30は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを選択することができる。ここで、ユーザの発話認識に係る情報には、例えば、ユーザ情報、コンテンツ情報、環境情報、デバイス情報が含まれてよい。
まず、認識の試行回数に基づくモードの選択について説明する。本実施形態に係る出力制御部360は、ユーザの発話が所定の回数以内に認識されないことに基づいて、明示的なフィードバックが行われる第2のモードを選択することができる。なお、上記の所定の回数については、システムやアプリケーションの仕様に応じた種々の定義が行われてよい。本実施形態に係る所定の回数は、例えば、ユーザの発話に係る入力を検出したものの認識には至らなかった回数であってもよい(認証失敗回数)。また、所定の回数は、認識に係る入力待ち状態がタイムアウトした回数であってもよい(タイムアウト回数)。また、所定の回数は、ユーザの発話回数であってもよい(発話回数)。さらには、所定の回数は、上記に示した例の合計回数であてもよい。以下、図6及び図7を参照して、上記の制御について詳細に説明する。なお、以下の説明においては、ユーザの発話音量を判定する場合を例に説明を行う。
次に、ユーザの発話態様の変化度合いに基づくモードの選択について説明する。本実施形態に係る出力制御部360は、暗示的なフィードバックを受けたユーザの発話態様に改善が認められないことに基づいて、第2のモードを選択することができる。以下、図8を参照して、上記の制御について詳細に説明する。なお、以下の説明においては、ユーザの発話音量を判定する場合を例に説明を行う。
次に、ユーザの発話位置または発話方向に基づくモードの選択について説明する。本実施形態に係る出力制御部360は、暗示的なフィードバックを受けたユーザの発話位置または発話方向に改善が認められないことに基づいて、第2のモードを選択することができる。このように、本実施形態に係るユーザの発話態様には、ユーザの発話位置や発話方向が含まれてよい。
次に、ユーザの発話態様の分析に基づくモードの選択について説明する。本実施形態に係る出力制御部360は、ユーザの発話態様の分析結果に基づいて、フィードバックのモードを制御することができる。上記の発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、発話方向、発話内容、及び環境音が含まれてよい。
まず、ユーザの属性情報に基づくモードの選択について説明する。本実施形態に係る出力制御部360は、ユーザの属性情報に基づいて、フィードバックのモードを制御することができる。ユーザの属性情報は、音声分析部320がユーザの発話態様を分析することで得られる情報、または音声認識部330による音声認識の結果から得られる情報であってよい。また、ユーザの属性情報には、ユーザの性別、年齢などのプロフィール情報や、使用言語、発話態様の傾向などの情報が含まれてよい。
次に、ユーザの感情に基づくモードの選択について説明する。本実施形態に係る出力制御部360は、ユーザの感情に基づいて、フィードバックのモードを制御することができる。ユーザの感情は、音声分析部320がユーザの発話態様を分析することで得られる情報であってよい。
次に、ユーザの発話内容に基づくモードの選択について説明する。本実施形態に係る出力制御部360は、ユーザの発話内容に基づいて、フィードバックのモードを制御することができる。ユーザの発話内容は、音声認識部330による音声認識の結果から得られる情報であってよい。
次に、環境情報に基づくモードの選択について説明する。本実施形態に係る出力制御部360は、ユーザの周囲に第三者の存在が検出されたことに基づいて、フィードバックのモードを制御することができる。第三者の検出は、位置検出部350による検出結果から得られる情報、または音声認識部330による音声認識の結果から得られる情報であってよい。
以上、出力制御部360によるフィードバックに係るモードの選択について説明した。次に、本実施形態に係る改善理由を付加した明示的なフィードバックについて説明する。本開示に係る出力制御部360は、明示的なフィードバックが行われる第2のモードにおいて、入出力端末10に、改善理由を付加したフィードバックを実行させることができる。出力制御部360が、ユーザに発話態様を改善する理由を併せて提示するようにフィードバックを制御することで、明示的なフィードバックの表現を和らげ、ユーザの感情を損ねる可能性を低減することが可能となる。
次に、本実施形態に係る視覚情報によるフィードバックの追加について説明する。本実施形態に係る出力制御部360は、音声出力によるフィードバックに加え、視覚情報によるフィードバックを制御することが可能である。また、出力制御部360は、ユーザの発話態様が充分に変化しないことに基づいて、視覚情報によるフィードバックを追加することができる。以下、図11を参照して、出力制御部360による上記の制御について、詳細に説明する。
以上、本実施形態に係る視覚情報によるフィードバックの制御について説明した。以下、図12〜図16を参照して、本実施形態に係る視覚情報によるフィードバックの例について説明する。上記の視覚情報には、文字、記号、アバター、インジケータ、または画像の変化が含まれてよい。
図12は、本実施形態の視覚情報による暗示的なフィードバックに用いられるインジケータの一例である。図12Aを参照すると、入出力端末10の表示部140には、2つのインジケータi1及びi2が表示されている。ここで、インジケータi1は、ユーザの発話音量を示すインジケータであってよい。また、インジケータi2は、入出力端末10の出力音量を示すインジケータであってよい。それぞれのインジケータi1及びi2は、ユーザの発話音量または入出力端末10の出力音量の変化に応じて、表示部140の上部に向けてグラデーションの占める割合が変化してよい。すなわち、ユーザの発話音量が大きいほど、インジケータi1は、表示部140の画面上部に向けてグラデーションが広がり、入出力端末10の出力音量が大きいほど、インジケータi2は、表示部140の画面上部に向けてグラデーションが広がってよい。
次に、図13を参照して、本実施形態の視覚情報による暗示的なフィードバックに用いられるアバターについて、一例を説明する。図13に示されるアバターは、ユーザの発話方向に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。図13Aを参照すると、入出力端末10の表示部140には、アバターa1が表示されている。また、入出力端末10の下部には、音声入力部110が配置されている。ここで、アバターa1は、ユーザの発話方向が適切である場合に表示されるアバターの一例であってよい。
次に、図14を参照して、本実施形態の視覚情報による暗示的なフィードバックに用いられるグラフィックについて、一例を説明する。図14に示されるグラフィックg1は、ユーザの発話方向に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。図14Aを参照すると、入出力端末10の表示部140には、グラフィックg1が表示されている。また、入出力端末10の下部には、音声入力部110が配置されている。ここで、グラフィックg1は、ユーザの発話方向が適切である場合に表示されるグラフィックの一例であってよい。
次に、図15を参照して、アバターによる発話位置に対する暗示的なフィードバックについて、一例を説明する。図15に示されるアバターは、ユーザの発話位置に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。図15Aを参照すると、入出力端末10の表示部140には、アバターa4が表示されている。ここで、アバターa4は、ユーザの発話位置が適切である場合に表示されるアバターの一例であってよい。
次に、図16を参照して、矢印による発話方向又は発話位置に対する暗示的フィードバックについて、一例を説明する。図16に示される矢印を含むグラフィックは、ユーザの発話方向または発話位置に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。
次に、本開示に係る入出力端末10及び情報処理装置30に共通するハードウェア構成例について説明する。図17は、本開示に係る入出力端末10及び情報処理装置30のハードウェア構成例を示すブロック図である。図17を参照すると、入出力端末10及び情報処理装置30は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力部878と、出力部879と、記憶部880と、ドライブ881と、接続ポート882と、通信部883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、記憶部880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
入力部878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
出力部879には、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。
記憶部880は、各種のデータを格納するための装置である。記憶部880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信部883は、ネットワーク903に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上、説明したように情報処理装置30は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択することができる。上記の複数のモードには、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、が含まれてよい。また、上記の発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、発話方向、発話内容、及び環境音が含まれてよい。係る構成によれば、ユーザとシステムとの間のより自然な対話を実現することが可能となる。
(1)
ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
を備え、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含む、
情報処理装置。
(2)
前記第1のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
前記第2のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックが行われる、
前記(1)に記載の情報処理装置。
(3)
前記ユーザの発話認識に係る情報は、ユーザ情報、コンテンツ情報、環境情報、デバイス情報を含む、
前記(2)に記載の情報処理装置。
(4)
前記ユーザ情報は、前記ユーザの発話態様を含み、
前記制御部は、前記ユーザの発話態様に基づいて、前記第1のモード又は前記第2のモードを選択する、
前記(3)に記載の情報処理装置。
(5)
前記発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、または発話方向のうち、少なくとも1つが含まれる、
前記(4)に記載の情報処理装置。
(6)
前記制御部は、前記第1のモードによるフィードバックを受けた前記ユーザの発話態様に改善が認められないことに基づいて、前記第2のモードを選択する、
前記(4)または(5)に記載の情報処理装置。
(7)
前記制御部は、前記第1のモードによるフィードバックを行った後、前記ユーザの発話が所定の回数以内に認識されないことに基づいて、前記第2のモードを選択する、
前記(4)〜(6)のいずれかに記載の情報処理装置。
(8)
前記ユーザ情報は、前記ユーザの発話の内容を含み、
前記制御部は、前記ユーザの発話の内容に基づいて、前記第1のモード又は前記第2のモードを選択する、
前記(3)〜(7)のいずれかに記載の情報処理装置。
(9)
前記制御部は、前記ユーザの発話の内容がプライバシー情報を含むと推定されることに基づいて、前記第2のモードを選択する、
前記(8)に記載の情報処理装置。
(10)
前記制御部は、前記環境情報から前記ユーザとは異なる別の人物の存在が推定されることに基づいて、前記第1のモードを選択する、
前記(3)〜(9)のいずれかに記載の情報処理装置。
(11)
前記ユーザ情報は、前記ユーザの属性情報を含み、
前記制御部は、前記ユーザの属性情報に基づいて、前記第1のモード又は前記第2のモードを選択する、
前記(3)〜(10)のいずれかに記載の情報処理装置。
(12)
前記ユーザ情報は、前記ユーザの感情情報を含み、
前記制御部は、前記ユーザの発話から推定される前記ユーザの感情情報に基づいて、前記第1のモード又は前記第2のモードを選択する、
前記(3)〜(11)のいずれかに記載の情報処理装置。
(13)
前記第1のモードでは、前記ユーザの発話音量よりも認識精度の高い音量でフィードバックが行われる、
前記(4)〜(12)のいずれかに記載の情報処理装置。
(14)
前記第1のモードでは、前記ユーザの発話速度よりも認識精度の高い速度でフィードバックが行われる、
前記(4)〜(13)のいずれかに記載の情報処理装置。
(15)
前記第1のモードでは、前記ユーザの発話する音の高さよりも認識精度の高い音の高さでフィーバックが行われる、
前記(4)〜(14)のいずれかに記載の情報処理装置。
(16)
前記第2のモードでは、前記発話態様の改善理由を付加したフィードバックが行われる、
前記(2)〜(15)のいずれかに記載の情報処理装置。
(17)
前記フィードバックは、視覚情報によるフィードバックを含む、
前記(2)〜(16)のいずれかに記載の情報処理装置。
(18)
前記第2のモードでは、前記ユーザの発話を検出したセンサとは異なる別のセンサに発話をすべき旨のフィードバックが行われる、
前記(2)〜(17)のいずれかに記載の情報処理装置。
(19)
前記ユーザの属性情報には、性別、年齢、使用言語、または発話態様の傾向のうち、少なくとも1つが含まれる、
前記(11)に記載の情報処理装置。
(20)
前記制御部は、前記ユーザが興奮状態であると推定されることに基づいて、前記第1のモードを選択する、
前記(12)に記載の情報処理装置。
(21)
前記第1のモードでは、前記ユーザの発話態様に応じた人工音声によるフィードバックが行われる、
前記(1)〜(20)のいずれかに記載の情報処理装置。
(22)
前記視覚情報は、文字、記号、アバター、インジケータ、または画像の変化を含む、
前記(17)に記載の情報処理装置。
(23)
プロセッサが、ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択すること、
を含み、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含む、
情報処理方法。
(24)
コンピュータを、
ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
を備え、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含む、
情報処理装置、
として機能させるためのプログラム。
110 音声入力部
120 センサ部
130 音声出力部
140 表示部
150 端末制御部
160 サーバ通信部
20 ネットワーク
30 情報処理装置
310 端末通信部
320 音声分析部
330 音声認識部
340 状態記憶部
350 位置検出部
360 出力制御部
370 出力DB
Claims (18)
- ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
を備え、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含み、
前記第1のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
前記第2のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックとして、前記ユーザの発話を検出したセンサとは異なる別のセンサに発話をすべき旨のフィードバックが行われる、
情報処理装置。 - 前記ユーザの発話認識に係る情報は、ユーザ情報、コンテンツ情報、環境情報、デバイス情報を含む、
請求項1に記載の情報処理装置。 - 前記ユーザ情報は、前記ユーザの発話態様を含み、
前記制御部は、前記ユーザの発話態様に基づいて、前記第1のモード又は前記第2のモードを選択する、
請求項2に記載の情報処理装置。 - 前記発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、または発話方向のうち、少なくとも1つが含まれる、
請求項3に記載の情報処理装置。 - 前記制御部は、前記第1のモードによるフィードバックを受けた前記ユーザの発話態様に改善が認められないことに基づいて、前記第2のモードを選択する、
請求項3又は4に記載の情報処理装置。 - 前記制御部は、前記第1のモードによるフィードバックを行った後、前記ユーザの発話が所定の回数以内に認識されないことに基づいて、前記第2のモードを選択する、
請求項3〜5のいずれか1項に記載の情報処理装置。 - ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
を備え、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含み、
前記第1のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
前記第2のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックが行われ、
前記ユーザの発話認識に係る情報は、ユーザ情報、コンテンツ情報、環境情報、デバイス情報を含み、
前記ユーザ情報は、前記ユーザの発話の内容を含み、
前記制御部は、前記ユーザの発話の内容に基づいて、前記第1のモード又は前記第2のモードを選択する、
情報処理装置。 - 前記制御部は、前記ユーザの発話の内容がプライバシー情報を含むと推定されることに基づいて、前記第2のモードを選択する、
請求項7に記載の情報処理装置。 - ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
を備え、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含み、
前記第1のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
前記第2のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックが行われ、
前記ユーザの発話認識に係る情報は、ユーザ情報、コンテンツ情報、環境情報、デバイス情報を含み、
前記制御部は、前記環境情報から前記ユーザとは異なる別の人物の存在が推定されることに基づいて、前記第1のモードを選択する、
情報処理装置。 - 前記ユーザ情報は、前記ユーザの属性情報を含み、
前記制御部は、前記ユーザの属性情報に基づいて、前記第1のモード又は前記第2のモードを選択する、
請求項2〜9のいずれか1項に記載の情報処理装置。 - ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
を備え、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含み、
前記第1のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
前記第2のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックが行われ、
前記ユーザの発話認識に係る情報は、ユーザ情報、コンテンツ情報、環境情報、デバイス情報を含み、
前記ユーザ情報は、前記ユーザの感情情報を含み、
前記制御部は、前記ユーザの発話から推定される前記ユーザの感情情報に基づいて、前記第1のモード又は前記第2のモードを選択する、
情報処理装置。 - 前記第1のモードでは、前記ユーザの発話音量よりも認識精度の高い音量でフィードバックが行われる、
請求項3〜6のいずれか1項に記載の情報処理装置。 - 前記第1のモードでは、前記ユーザの発話速度よりも認識精度の高い速度でフィードバックが行われる、
請求項3〜6のいずれか1項に記載の情報処理装置。 - 前記第1のモードでは、前記ユーザの発話する音の高さよりも認識精度の高い音の高さでフィーバックが行われる、
請求項3〜6のいずれか1項に記載の情報処理装置。 - 前記第2のモードでは、前記発話態様の改善理由を付加したフィードバックが行われる、
請求項1〜14のいずれか1項に記載の情報処理装置。 - 前記フィードバックは、視覚情報によるフィードバックを含む、
請求項1〜15のいずれか1項に記載の情報処理装置。 - プロセッサが、ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択すること、
を含み、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含み、
前記第1のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
前記第2のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックとして、前記ユーザの発話を検出したセンサとは異なる別のセンサに発話をすべき旨のフィードバックが行われる、
情報処理方法。 - コンピュータを、
ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
を備え、
前記複数のモードは、暗示的なフィードバックが行われる第1のモードと、明示的なフィードバックが行われる第2のモードと、を含み、
前記第1のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
前記第2のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックとして、前記ユーザの発話を検出したセンサとは異なる別のセンサに発話をすべき旨のフィードバックが行われる、
情報処理装置、
として機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016070593 | 2016-03-31 | ||
JP2016070593 | 2016-03-31 | ||
PCT/JP2017/000726 WO2017168936A1 (ja) | 2016-03-31 | 2017-01-12 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017168936A1 JPWO2017168936A1 (ja) | 2019-02-07 |
JP6819672B2 true JP6819672B2 (ja) | 2021-01-27 |
Family
ID=59963984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018508407A Active JP6819672B2 (ja) | 2016-03-31 | 2017-01-12 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11462213B2 (ja) |
EP (1) | EP3438974A4 (ja) |
JP (1) | JP6819672B2 (ja) |
CN (1) | CN109074805A (ja) |
WO (1) | WO2017168936A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110998724B (zh) * | 2017-08-01 | 2021-05-21 | 杜比实验室特许公司 | 基于位置元数据的音频对象分类 |
CN108108391A (zh) * | 2017-11-21 | 2018-06-01 | 众安信息技术服务有限公司 | 用于数据可视化的信息的处理方法以及装置 |
US20200342870A1 (en) * | 2017-11-28 | 2020-10-29 | Sony Corporation | Information processing device and information processing method |
WO2019150708A1 (ja) * | 2018-02-01 | 2019-08-08 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
JP7223561B2 (ja) * | 2018-03-29 | 2023-02-16 | パナソニックホールディングス株式会社 | 音声翻訳装置、音声翻訳方法及びそのプログラム |
JP2019179502A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社 ディー・エヌ・エー | 動画を作成するためのシステム、方法、及びプログラム |
CN109697290B (zh) * | 2018-12-29 | 2023-07-25 | 咪咕数字传媒有限公司 | 一种信息处理方法、设备及计算机存储介质 |
CN110223711B (zh) * | 2019-06-03 | 2021-06-01 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
JP7312639B2 (ja) * | 2019-07-29 | 2023-07-21 | 株式会社第一興商 | カラオケ用入力装置 |
CN110568931A (zh) * | 2019-09-11 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 交互方法、设备、系统、电子设备及存储介质 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
JP7405660B2 (ja) * | 2020-03-19 | 2023-12-26 | Lineヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
EP3933560A1 (en) * | 2020-06-30 | 2022-01-05 | Spotify AB | Methods and systems for providing animated visual feedback for voice commands |
CN114155865A (zh) * | 2021-12-16 | 2022-03-08 | 广州城市理工学院 | 一种全息互动系统 |
JP7482459B2 (ja) | 2022-09-05 | 2024-05-14 | ダイキン工業株式会社 | システム、支援方法、サーバ装置及び通信プログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5495282A (en) * | 1992-11-03 | 1996-02-27 | The Arbitron Company | Monitoring system for TV, cable and VCR |
JP2003150194A (ja) * | 2001-11-14 | 2003-05-23 | Seiko Epson Corp | 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム |
US8645122B1 (en) * | 2002-12-19 | 2014-02-04 | At&T Intellectual Property Ii, L.P. | Method of handling frequently asked questions in a natural language dialog service |
WO2005076258A1 (ja) | 2004-02-03 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | ユーザ適応型装置およびその制御方法 |
JP4241443B2 (ja) * | 2004-03-10 | 2009-03-18 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法 |
JP4418903B2 (ja) | 2004-03-17 | 2010-02-24 | 株式会社国際電気通信基礎技術研究所 | 音声認識装置 |
US7412378B2 (en) * | 2004-04-01 | 2008-08-12 | International Business Machines Corporation | Method and system of dynamically adjusting a speech output rate to match a speech input rate |
JP2006251061A (ja) | 2005-03-08 | 2006-09-21 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
US20080177734A1 (en) * | 2006-02-10 | 2008-07-24 | Schwenke Derek L | Method for Presenting Result Sets for Probabilistic Queries |
JP4786384B2 (ja) | 2006-03-27 | 2011-10-05 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8886521B2 (en) * | 2007-05-17 | 2014-11-11 | Redstart Systems, Inc. | System and method of dictation for a speech recognition command system |
EP2540099A1 (de) * | 2010-02-24 | 2013-01-02 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum trainieren des sprachverstehens und trainingsvorrichtung |
JP2011209787A (ja) | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP6114915B2 (ja) | 2013-03-25 | 2017-04-19 | パナソニックIpマネジメント株式会社 | 音声入力選択装置及び音声入力選択方法 |
US20140343947A1 (en) * | 2013-05-15 | 2014-11-20 | GM Global Technology Operations LLC | Methods and systems for managing dialog of speech systems |
US10075140B1 (en) * | 2014-06-25 | 2018-09-11 | Amazon Technologies, Inc. | Adaptive user interface configuration |
US9639854B2 (en) * | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US9858920B2 (en) * | 2014-06-30 | 2018-01-02 | GM Global Technology Operations LLC | Adaptation methods and systems for speech systems |
US9418663B2 (en) * | 2014-07-31 | 2016-08-16 | Google Inc. | Conversational agent with a particular spoken style of speech |
EP3264258A4 (en) * | 2015-02-27 | 2018-08-15 | Sony Corporation | Information processing device, information processing method, and program |
-
2017
- 2017-01-12 JP JP2018508407A patent/JP6819672B2/ja active Active
- 2017-01-12 CN CN201780019476.1A patent/CN109074805A/zh not_active Withdrawn
- 2017-01-12 EP EP17773486.0A patent/EP3438974A4/en not_active Withdrawn
- 2017-01-12 US US16/074,202 patent/US11462213B2/en active Active
- 2017-01-12 WO PCT/JP2017/000726 patent/WO2017168936A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US11462213B2 (en) | 2022-10-04 |
JPWO2017168936A1 (ja) | 2019-02-07 |
CN109074805A (zh) | 2018-12-21 |
EP3438974A1 (en) | 2019-02-06 |
EP3438974A4 (en) | 2019-05-08 |
US20210142796A1 (en) | 2021-05-13 |
WO2017168936A1 (ja) | 2017-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US10811012B2 (en) | Message playback using a shared device | |
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
KR102611751B1 (ko) | 키 문구 사용자 인식의 증강 | |
JP5731998B2 (ja) | 対話支援装置、対話支援方法および対話支援プログラム | |
CN106067996B (zh) | 语音再现方法、语音对话装置 | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
JP6585733B2 (ja) | 情報処理装置 | |
US10186267B1 (en) | Message playback using a shared device | |
CN107945806A (zh) | 基于声音特征的用户识别方法及装置 | |
WO2020202862A1 (ja) | 応答生成装置及び応答生成方法 | |
JP6678315B2 (ja) | 音声再生方法、音声対話装置及び音声対話プログラム | |
WO2021153101A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
US20200388268A1 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
WO2019017033A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7310907B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
WO2020017165A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
WO2020166173A1 (ja) | 情報処理装置及び情報処理方法 | |
WO2019142420A1 (ja) | 情報処理装置および情報処理方法 | |
WO2019146199A1 (ja) | 情報処理装置、及び情報処理方法 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
KR102471678B1 (ko) | 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 | |
JP7218816B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201214 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6819672 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |