JP2014203207A - 情報処理装置、情報処理方法及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2014203207A
JP2014203207A JP2013077866A JP2013077866A JP2014203207A JP 2014203207 A JP2014203207 A JP 2014203207A JP 2013077866 A JP2013077866 A JP 2013077866A JP 2013077866 A JP2013077866 A JP 2013077866A JP 2014203207 A JP2014203207 A JP 2014203207A
Authority
JP
Japan
Prior art keywords
information
unit
display
content
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013077866A
Other languages
English (en)
Inventor
淳己 大村
Junki Omura
淳己 大村
道成 河野
Michinari Kono
道成 河野
憲一 岡田
Kenichi Okada
憲一 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2013077866A priority Critical patent/JP2014203207A/ja
Priority to US14/204,688 priority patent/US9720644B2/en
Publication of JP2014203207A publication Critical patent/JP2014203207A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

【課題】話者に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な、情報処理装置を提供する。【解決手段】話者による発話内容の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、を備える、情報処理装置が提供される。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。
話者が発話した内容を解析し、その内容をテキストに変換する音声認識技術が開示されている(例えば特許文献1参照)。特許文献1には、入力される音声を逐次テキスト化して表示する際に、利用者によって読みやすく理解しやすい字幕を生成できる技術が開示されている。また、話者が発話した内容を解析し、その内容に基づいた処理を実行することが出来る技術も考案され、その技術は携帯電話やスマートフォン等に組み込まれている。
特開2012−181358号公報
既存の音声認識技術は、話者が発話した内容の解析が終わってから、その内容を画面に提示したり、その内容による検索処理を実行したり、その内容に基づいた処理を実行したりしていた。しかし、既存の音声認識技術では、話者が発話した内容の解析が終わるまで内容が画面に表示されなかったり、処理が実行されなかったりするので、話者は、発話が終わってから少し待たされる感覚を覚えてしまう。
そこで本開示は、話者に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供する。
本開示によれば、話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、を備える、情報処理装置が提供される。
また本開示によれば、音声情報を逐次取得する音声情報取得部と、前記音声情報取得部が逐次取得した前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析部と、を備え、前記発話内容解析部は、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理装置が提供される。
また本開示によれば、話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、を備える、情報処理方法が提供される。
また本開示によれば、音声情報を逐次取得する音声情報取得ステップと、前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、を備え、前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理方法が提供される。
また本開示によれば、コンピュータに、話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、を実行させる、コンピュータプログラムが提供される。
また本開示によれば、コンピュータに、音声情報を逐次取得する音声情報取得ステップと、前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、を実行させ、前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、コンピュータプログラムが提供される。
以上説明したように本開示によれば、話者に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することができる。
本開示の一実施形態に係る情報処理装置10の概要を示す説明図である。 第1の実施形態に係る画面構成の一例を示した図である。 第1の実施形態に係る表示装置の構成の一例を示した図である。 第1の実施形態の実施例1に係る画面の一態様を示した図である。 第1の実施形態の実施例1に係る画面の表示態様の一例を示した図である。 第1の実施形態の実施例1に係る画面の表示態様の一例を示した図である。 第1の実施形態の実施例1に係る画面の表示態様の一例を示した図である。 第1の実施形態の実施例1に係る画面の表示態様の一例を示した図である。 第1の実施形態に係る情報処理装置における情報の表示に係る動作の一例を示したフローチャートである。 第1の実施形態の実施例1に係る情報処理装置の表示制御の一態様を示したフローチャートである。 第1の実施形態の実施例2に係る画面の一態様を示した図である。 第1の実施形態の実施例2に係る画面の一態様を示した図である。 第1の実施形態の実施例2に係る画面の一例を示した図である。 第1の実施形態の実施例2に係る情報処理装置の表示制御の一態様を示したフローチャートである。 第1の実施形態の実施例3に係る表示の一態様を示した図である。 第1の実施形態の実施例3に係る表示の一態様を示した図である。 第1の実施形態の実施例3に係る表示の一態様を示した図である。 第1の実施形態の実施例3に係る表示の一態様を示した図である。 第1の実施形態の実施例3に係る表示の一態様を示した図である。 第1の実施形態の実施例3に係る表示の一態様を示した図である。 第1の実施形態の実施例3に係る情報処理装置の表示制御の一態様を示したフローチャートである。 本開示の一実施形態に係る情報処理装置10の機能構成例を示す説明図である。 第2の実施形態に係る情報処理装置10の動作例を示すフローチャートである。 第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第2の実施形態に係る情報処理装置10の変形例を示す説明図である。 第2の実施形態の変形例に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。 第3の実施形態に係る画面構成の一例を示した図である。 第3の実施形態に係る表示装置の構成の一例を示した図である。 第3の実施形態の実施例1に係る表示の一態様を示した図である。 第3の実施形態の実施例1に係る表示の一態様を示した図である。 第3の実施形態の実施例1に係る情報処理装置の情報の表示に係る動作の一例を示したフローチャートである。 第3の実施形態の実施例1に係る情報処理装置の履歴情報の表示処理の一態様を示したフローチャートである。 第3の実施形態の実施例2に係る表示の一態様を示した図である。 第3の実施形態の実施例2に係る情報処理装置の情報の表示に係る動作の一例を示したフローチャートである。 第3の実施形態の実施例2に係る情報処理装置の所定語句に基づく処理の一態様を示したフローチャートである。 第3の実施形態の実施例3に係る音声バーの一態様を示した図である。 第3の実施形態の実施例3に係る音声バーの一態様を示した図である。 第3の実施形態の実施例3に係る情報処理装置の情報の表示に係る動作の一例を示したフローチャートである。 第3の実施形態の実施例4に係る表示の一態様を示した図である。 第3の実施形態の実施例5に係る表示の一態様を示した図である。 第3の実施形態の実施例5に係る情報処理装置の履歴情報の表示処理の一態様を示したフローチャートである。 第3の実施形態の実施例6に係る表示の一態様を示した図である。 第3の実施形態の実施例6に係る情報処理装置の所定語句に基づく処理の一態様を示したフローチャートである。 第3の実施形態の実施例7に係る表示の一態様を示した図である。 第3の実施形態の実施例8に係る表示の一態様を示した図である。 ハードウェア構成例を示す説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
<1.第1の実施形態>
[1−1.第1の実施形態の概要]
[1−2.第1の実施形態の構成]
[1−3.表示装置の構成]
[1−4.第1の実施形態の実施例1]
{1−4−1.実施例1の概要}
{1−4−2.実施例1の動作}
[1−5.第1の実施形態の実施例2]
{1−5−1.実施例2の概要}
{1−5−2.実施例2の動作}
[1−6.第1の実施形態の実施例3]
{1−6−1.実施例3の概要}
{1−6−2.実施例3の動作}
[1−7.第1の実施形態のまとめ]
<2.第2の実施形態>
[2−1.第2の実施形態の概要]
[2−2.第2の実施形態の構成]
[2−3.第2の実施形態の動作]
[2−4.第2の実施形態で表示される画面の例]
[2−5.第2の実施形態の変形例]
[2−6.第2の実施形態のまとめ]
<3.第3の実施形態>
[3−1.第3の実施形態の概要]
[3−2.第3の実施形態の構成]
[3−3.表示装置の構成]
[3−4.第3の実施形態の実施例1]
{3−4−1.実施例1の概要}
{3−4−2.実施例1の動作}
[3−5.第3の実施形態の実施例2]
{3−5−1.実施例2の概要}
{3−5−2.実施例2の動作}
[3−6.第3の実施形態の実施例3]
{3−6−1.実施例3の概要}
{3−6−2.実施例3の動作}
[3−7.第3の実施形態の実施例4]
[3−8.第3の実施形態の実施例5]
{3−8−1.実施例5の概要}
{3−8−2.実施例5の動作}
[3−9.第3の実施形態の実施例6]
{3−9−1.実施例6の概要}
{3−9−2.実施例6の動作}
[3−10.第3の実施形態の実施例7]
[3−11.第3の実施形態の実施例8]
{3−11−1.実施例8の概要}
{3−11−2.実施例8の動作}
[3−12.第3の実施形態のまとめ]
<4.ハードウェア構成例>
<1.第1の実施形態>
[1−1.第1の実施形態の概要]
まず、第1の実施形態に係る情報処理装置の概要について説明する。近年では、マウスやタッチパネルのような入力デバイスを使用せずとも、音声認識により所望の処理を実行可能なユーザインタフェース(U/I)が実用化されている。一方で、音声による入力は、マウスやタッチパネルのような入力デバイスに比べて、入力できる情報の自由度が高い。そのため、音声入力を用いたU/Iでは、表示された画面に対して、いつ、どこが、なんと言えば反応するかがわかりにくいという課題が存在する。特に、近年では、CPUやGPUの処理能力が向上し、表示デバイスの解像度も向上してきている。そのため、画面上に多くの情報を同時に表示することが可能となってきており、画面が煩雑化し、上記した課題がさらに冗長されている。
そこで、第1の実施形態に係る情報処理装置では、画面上に表示されたアイコン、ボタン、リンク、メニューのような表示情報のうち、音声認識により操作が可能な(即ち、音声認識に対応した)表示情報を、直感的に識別可能に表示させる情報処理装置を提供する。本実施形態に係る情報処理装置について以下に具体的に説明する。
[1−2.第1の実施形態の構成]
まず、図1を参照しながら、第1の実施形態に係る情報処理装置10の構成について説明する。図1に示すように、本実施形態に係る情報処理装置10は、表示装置100と、集音装置110と含む。
集音装置110は、ユーザ1が発話した音声信号を集音する装置である。集音装置110の具体的な構成の一例としてマイクが挙げられる。集音装置110で集音されたユーザ1の音声信号は、表示装置100に入力される。
表示装置100は、表示部102を備え、操作画面や所望の処理の実行結果を表示部102に出力する装置である。情報処理装置10が起動されると、表示装置100は、例えば、所定の操作画面を生成して表示部102に表示させうる。
表示装置100により生成された画面上には各種表示情報が表示される。ここで、表示情報とは、メニュー画面の表示や終了等の所定の処理を実行したり、各種コンテンツを起動したりするためのアイコン、ボタン、リンク、及びメニューのような操作対象や、各種情報を表示するための表示領域等が含まれる。これらの表示情報には、音声認識に対応している表示情報と、音声認識に対応していない表示情報とが含まれる。
例えば、図2は、第1の実施形態に係る画面構成の一例を示した説明図である。画面v30は、表示装置100の表示部102に表示された画面である。図2に示すように、画面v30は、各コンテンツに対応するアイコンv311を表示する表示領域v310と、所望のコンテンツの情報を表示する表示領域v320とを含む。画面v30の例では、アイコンv311が音声認識に対応しており、表示領域v320は音声認識に対応していないものとする。ユーザ1は、画面v30を見ただけでは、どこが音声認識に対応し、どこが対応しているかが分かりづらい。また、どこが音声認識に対応しているかを示す情報を追加すると、画面が煩雑になる可能性がある。
そこで、表示装置100は、集音装置110で集音された音声信号を検知すると、画面中に表示された表示情報のうち、音声認識に対応している表示情報を、音声認識に対応していない表示情報と識別可能に表示させる。図2に示す画面v30の場合には、例えば、表示装置100は、音声信号が検知されたときに、音声認識に対応しているアイコンv311をアニメーション表示させる。これにより、アイコンv311が強調表示され、音声認識に対応していない表示領域v320と識別可能となる。以降では、これらの動作の詳細について、表示装置100の構成とあわせて説明する。
[1−3.表示装置の構成]
図3を参照しながら、第1の実施形態に係る表示装置100の構成に着目して説明する。図3は、第1の実施形態に係る表示装置100の構成の一例を示した図である。図3に示すように、本実施形態に係る表示装置100は、表示部102と、信号取得部310と、表示制御ユニット320と、解析部330と、辞書データ保持部340と、履歴記憶部350と、コンテンツDB360と、コンテンツ特定部361とを含む。
(信号取得部310)
信号取得部310は、集音装置110で集音された音声信号を検知及び取得を行う。集音装置110で音声信号が集音されると、集音された音声信号が集音装置110から出力される。信号取得部310は、集音装置110から出力された音声信号を検知し取得する。音声信号を検知すると、信号取得部310は、検知結果を後述する表示制御ユニット320の表示制御部321に通知する。なお、信号取得部310は、本開示の「検知部」の一例に相当する。
また、信号取得部310は、取得された音声信号を解析部330に出力する。この信号取得部310からの出力を受けて、解析部330は、信号取得部310から取得した音声信号を解析する。解析部330の詳細については後述する。
(解析部330)
解析部330は、信号取得部310で取得された音声信号を解析する。音声認識に係る処理は、この解析部330により実行される。図3に示すように、解析部330は、音声情報取得部331と、発話内容解析部332と、レベル解析部333とを含む。解析部330は、信号取得部310から音声信号を取得する。解析部330は、取得した音声信号を、音声情報取得部331、発話内容解析部332、及びレベル解析部333に解析させる。なお、音声情報取得部331、発話内容解析部332、及びレベル解析部333による解析処理の詳細についてはそれぞれ後述する。解析部330は、音声信号の解析結果を解析結果取得部322に出力する。
音声情報取得部331は、音声信号に対して音声認識処理を施して、発話内容を示すテキストデータ(以降では、「音声情報」と呼ぶ場合がある)を生成する。音声認識処理の一例として、音声信号を解析することで音響特徴を特定し、特定された音響特徴を、あらかじめ記憶された音響モデル(acoustic
model)や言語モデル(language model)等の各種モデルや、発音辞書(pronunciation dictionary)等の各種辞書データと比較することで音声情報を特定する方法が挙げられる。なお、音声認識処理に用いる音響モデルや言語モデルのような各種モデルと、発話辞書の要な各種辞書データは、後述する辞書データ保持部340に記憶させていてもよい。また、前述の音声認識処理の手法は一例であり、発話内容を示すテキストデータが特定できれば、音声認識処理の手法は限定されない。
音声情報取得部331は、取得された音声情報を発話内容解析部332に出力する。
発話内容解析部332は、音声情報を解析して、その音声情報が示す意味を解釈する。例えば、音声認識に対応するシステムや装置は、あらかじめ決められたキーワードが音声情報として取得されると、そのキーワードに対応する処理を実行する機能を備えている場合がある。具体的には、システム側であらかじめ「終了」というキーワードにアプリケーションの終了を関連付けておくことで、音声情報として「終了」という語句を取得した場合に、アプリケーションの終了させることが可能となる。このような場合に、発話内容解析部332は、取得された音声情報が、あらかじめ処理が関連付けられたキーワードと一致するか否かを判断する。なお、キーワードの一覧と、各キーワードに対応する処理との関係については、例えば、辞書データとして辞書データ保持部340に記憶させていてもよい。
また、発話内容解析部332は、取得された音声情報に類似するキーワードを特定できるようにしてもよい。例えば、ユーザ1の発話内容が必ずしも所定のキーワードに完全一致するとは限らない。そこで、発話内容解析部332は、取得された音声情報と、各キーワードの類似度を測定し、類似度が所定値以上となるキーワードが存在する場合に、そのキーワードに取得された音声情報が対応する(例えば、一致する)と判断してもよい。
類似度の判定については、具体的な一例として、Nグラム法などのような文字列比較の処理を用いて、音声情報と各キーワードとを比較する方法が挙げられる。また、形態素解析や構文解析のような自然言語処理を用いて音声情報を解析し、解析後の情報を各キーワードと比較してもよい。また、音声情報の比較に限らず、例えば、元となる音声信号の波形を、各キーワードに対応する波形と比較することで類似度を判定してもよい。このように、音声情報と各キーワードとの間の類似度が判定できれば、その方法は限定されない。
また、類似度が所定値以上のキーワードが複数存在する場合には、発話内容解析部332は、最も類似度の高いキーワードに取得された音声情報が対応すると判断してもよい。
以上のように、発話内容解析部332は、音声情報を解析して、その音声情報が示す意味を解釈し、対応するキーワードが存在するか否かを判定し、その判定結果を解析結果取得部322に通知する。なお、音声情報に対応するキーワードが存在する場合には、発話内容解析部332は、そのキーワードに対応する対応する処理を示す情報を解析結果取得部322に出力する。これにより、解析結果取得部322は、どのような処理を実行すればよいのかを認識することが可能となる。
また、発話内容解析部332は、取得された音声情報を後述する履歴記憶部350に履歴として記録してもよい。また、このとき発話内容解析部332は、履歴に対して、その履歴を特定するための情報を属性情報として関連付けて記憶させてもよい。例えば、発話内容解析部332は、取得された音声情報の対象となるコンテンツを示す情報を、その音声情報に対応する履歴に属性情報として関連付けて記憶させてもよい。なお、本実施形態において、履歴記憶部350に記録された履歴を用いた処理については、コンテンツ特定部361の動作とあわせて後述する。
レベル解析部333は、音声信号を解析することで信号のレベルを特定し、特定されたレベルを解析結果取得部322に出力する。なお、レベル解析部333は、音声信号のピーク値を出力するようにしてもよいし、レベルの平均値を出力するようにしてもよい。また、レベル解析部333は、取得される音声信号をモニタリングし、その音声信号のレベルを逐次出力するように動作させてもよい。
(辞書データ保持部340)
辞書データ保持部340は、音声情報取得部331及び発話内容解析部332がそれぞれの処理を実行するための各種データを記憶する。各種データの一例としては、音声情報取得部331が音声認識処理を実行するための各種モデル及び辞書データや、発話内容解析部332が、音声情報の示す意味を解釈するための辞書データが挙げられる。
(履歴記憶部350)
履歴記憶部350は、取得された音声情報を履歴として記憶する。履歴記憶部350は、取得された音声情報を、その音声情報が取得されたタイミングを示す情報と関連付けて記憶するとよい。このような履歴記憶部350の構成により、例えば、「昨日視聴した動画」を特定するなどのように、過去の音声認識の結果に基づき、所定の音声情報に関連する情報やコンテンツを特定することが可能となる。
また、履歴記憶部350は、所定のユーザに限らず他のユーザが発話した内容、例えば、異なる複数の集音装置110で集音された音声信号に基づく音声情報をそれぞれ履歴として記憶するようにしてもよい。このような履歴記憶部350の構成により、例えば、「先週、最も再生された音楽」を特定するなどのように、過去の音声認識の結果に基づき、本人のみに限らず複数ユーザの間で利用頻度の高い音声情報に関連する情報やコンテンツを特定することが可能となる。
また、履歴記憶部350は、履歴を特定するための属性情報を、対応する履歴に関連付けて記憶できるようにしてもよい。例えば、取得された音声情報の対象となるコンテンツを示す情報を、その音声情報に対応する履歴に属性情報として関連付けて記憶させてもよい。履歴記憶部350を、このような構成とすることで、例えば、所望のコンテンツに関連して発話された音声情報に対応する履歴を抽出することが可能となる。
(表示制御ユニット320)
表示制御ユニット320は、画面v30の生成及び表示更新に係る処理を実行する。図3に示すように、表示制御ユニット320は、表示制御部321と、解析結果取得部322と、コンテンツ情報取得部323とを含む。
解析結果取得部322は、後述する表示制御部321が、信号取得部310で取得された音声信号の解析結果を解析部330から取得する。解析結果取得部322は、音声信号の解析結果を解析部330から取得する。解析結果取得部322は、取得した解析結果を表示制御部321に出力する。音声信号の解析結果としては、例えば、取得された音声信号に対応する音声情報が所定のキーワードに対応しているか否かを示す情報や、音声信号のレベルを示す情報が挙げられる。また、音声情報が所定のキーワードに対応している場合には、そのキーワードに関連付けられた処理を示す情報を音声信号の解析結果に含めておくとよい。これにより、解析結果を受けた表示制御部321は、そのキーワードに対応してどのような処理を実行すればよいかを認識することが可能となる。
コンテンツ情報取得部323は、所望の条件に一致するコンテンツの情報を後述するコンテンツ特定部361から取得する。具体的には、コンテンツ情報取得部323は、表示制御部321からの指示に基づきコンテンツを取得するための検索条件を生成し、生成された検索条件を後述するコンテンツ特定部361に出力する。その応答として、コンテンツ情報取得部323は、検索条件に一致するコンテンツの情報をコンテンツ特定部361から取得する。コンテンツ情報取得部323は、取得したコンテンツの情報を表示制御部321に出力する。このような構成により、表示制御部321は、例えば、情報が取得された各コンテンツに対応するアイコンv311を画面v30に表示させたり、所望のコンテンツに対応する情報を取得して表示領域v320に表示させたりすることが可能となる。
表示制御部321は、各種表示情報が表示された画面を生成して表示部102に表示させる。また、表示制御部321は、例えば、ユーザ1からの操作(例えば、音声入力)や、この操作に対応する処理の結果に応じて画面の表示を更新する。
表示装置100が起動されると、表示制御部321は、まず画面v30を生成する。画面v30を生成するための画像等の部品は、表示制御部321が読み出し可能な構成(例えば、表示制御部321自身に設けられた記憶媒体)にあらかじめ記憶させていてもよい。
また、表示制御部321は、あらかじめ決められた条件に基づき、コンテンツ情報取得部323にコンテンツの情報を取得させる。具体的な一例として、表示制御部321は、全コンテンツの情報をコンテンツ情報取得部323に取得させてもよいし、コンテンツのカテゴリを示す情報(対応するカテゴリのコンテンツを呼び出すためのリンクのような情報)をコンテンツの情報として取得させてもよい。
表示制御部321は、取得されたコンテンツの情報それぞれをアイコンv311に関連付ける。なお、取得されたコンテンツの情報に音声認識に対応しているか否かを示す情報が設定されている場合には、表示制御部321は、この情報に基づき、対応するアイコンv311に音声認識に対応しているか否かを示すフラグを設定する。一方で、表示制御部321は、コンテンツ自体の音声認識への対応の有無に限らず、各コンテンツに対応するアイコンv311を音声認識に対応しているものとしてフラグを設定してもよい。この場合には、少なくともコンテンツの起動について音声入力により実行することが可能となる。
また、表示制御部321は、「メニューの表示」や「終了」等のように画面ごとにあらかじめ決められた所定の処理を、対応する表示情報に関連付けて画面v30に表示させてもよい。この所定の処理が関連付けられた表示情報は、各コンテンツに対応するアイコンv311と同様に、音声認識への対応の有無が設定されていてもよい。この所定の処理に対応する表示情報への音声認識への対応の有無を示すフラグは、その処理が音声認識に対応しているか否かに応じてあらかじめ設定してもよい。
なお、画面ごとの所定の処理は、必ずしも表示情報として画面v30に表示させなくてもよい。この場合には、対応するメニューやアイコンのような表示情報は画面v30に表示されないが、音声入力により所定のキーワードに対応する語句が入力されると、所定の処理が実行されることとなる。
表示制御部321は、生成された画面v30を表示部102に表示させる。
また、集音装置110で音声信号が集音されると、表示制御部321は、信号取得部310から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部321は、画面v30に表示された各表示情報を、それぞれに設定されたフラグに基づき、各表示情報について音声認識に対応しているか否かを識別する。そして、表示制御部321は、音声認識に対応している表示情報を、音声認識に対応していない表示情報と識別可能に画面v30に表示させる。この動作の具体例については、実施例1として後述する。
また、表示制御部321は、音声信号が所定の期間以上検知されなかった場合、即ち、信号取得部310から所定の期間以上通知が無かった場合に、所定の動作を実行してもよい。このような構成とすることで、表示制御部321は、例えば、音声信号の入力が一定時間以上入力されない状態を、「ユーザ1がどのような語句を音声として入力できるか困っている場合」として検知し、発話可能な語句を画面v30に提示することが可能となる。この動作の具体例については、実施例2として後述する。
また、表示制御部321は、取得された音声信号のレベルに基づき画面v30の表示を制御できるように構成してもよい。この場合には、表示制御部321は、音声信号の解析結果として、コンテンツ情報取得部323から、音声信号のレベルを示す情報を受けるようにする。これにより、表示制御部321は、コンテンツ情報取得部323から受けた音情報に基づき音声信号のレベルを認識し、音声信号のレベルに応じて表示情報の表示態様を変化させる等のよう表示制御が可能となる。この動作の具体例については、実施例3として後述する。
また、表示制御部321は、音声情報として所定のキーワードに対応する語句が取得された場合に、そのキーワードにあらかじめ関連付けられた処理を実行できるように構成してもよい。この場合には、表示制御部321は、音声信号の解析結果として、コンテンツ情報取得部323から、取得された音声信号に対応する音声情報が所定のキーワードに対応しているか否かを示す情報を受ける。これにより、表示制御部321は、音声情報が所定のキーワードに対応している場合を検知することができる。また、表示制御部321は、キーワードに対応する処理を示す情報をあわせて受けるとよい。これにより、表示制御部321は、そのキーワードに関連付けられた処理を実行することが可能となる。このような構成とすることで、表示制御部321は、「え〜っと・・・」のような曖昧な語句が入力された場合に、「ユーザ1がどのような語句を音声として入力できるか困っている場合」として検知し、発話可能な語句を画面v30に提示することが可能となる。この動作の具体例については、実施例2として後述する。
また、表示制御部321は、所定のコンテンツに対応するアイコンv311が選択されている状態で、信号取得部310から音声信号が検知された旨の通知を受けた場合に、そのコンテンツに関連する関連情報を画面v30に表示させてもよい。具体的な一例として、コンテンツとしてゲームが関連付けられたアイコンv311が選択されていた場合に、表示制御部321は、関連情報として、そのゲームの起動メニューやセーブデータを指定するための情報を画面v30に表示させてもよい。
このように動作させる場合には、表示制御部321は、信号取得部310から通知を受けた場合に、まず、選択状態のアイコンv311に関連付けられたコンテンツの情報を抽出する。コンテンツの情報を抽出したら、表示制御部321は、抽出された情報を基に、そのコンテンツに関連する情報をコンテンツ情報取得部323に取得させる。そして、表示制御部321は、コンテンツ情報取得部323により取得された情報に基づき、関連情報を生成して画面v30に表示させればよい。
(コンテンツDB360)
コンテンツDB360は、各コンテンツを、そのコンテンツの属性を示す属性情報と関連付けて記憶する。属性情報は、そのコンテンツを特定するための情報であり、具体的には、例えば、ゲーム、音楽、動画のようなコンテンツの種別を示す情報や、発売日、歌手、販売元のメーカー等のようにそのコンテンツに関する情報が挙げられる。属性情報には、例えば、そのコンテンツが音声認識に対応しているか否かを示す情報を含めてもよい。属性情報として音声認識に対応しているか否かを示すことで、表示制御部321は、コンテンツごとに音声認識に対応しているか否かを判断し、音声認識に対応しているか否かに応じて、そのコンテンツに対応する表示情報の表示態様を切り替えることが可能となる
(コンテンツ特定部361)
コンテンツ特定部361は、所望の検索条件に一致するコンテンツの情報をコンテンツDB360から抽出する。具体的には、コンテンツ特定部361は、コンテンツ情報取得部323からコンテンツを特定するための検索条件を取得する。コンテンツ特定部361は、取得した検索条件と、各コンテンツの属性情報とを比較し、検索条件に一致するコンテンツをコンテンツDB360から抽出する。コンテンツ特定部361は、検索条件に対する応答(検索結果)として、抽出されたコンテンツの情報をコンテンツ情報取得部323に出力する。
なお、コンテンツ特定部361は、履歴記憶部350に記録された音声情報の履歴を組み合わせて、コンテンツの情報を抽出できるようにしてもよい。例えば、コンテンツ特定部361は、所望の時期に使用された頻度の高かった音声情報(もしくは、音声情報に含まれる語句)を特定し、その音声情報に対応するコンテンツをコンテンツDB360から抽出してもよい。コンテンツ特定部361は、このような構成とすることで、例えば、「先週、最も再生された音楽」や「昨日視聴した動画」のように、間接的に指定されたコンテンツを抽出することが可能となる。
また、コンテンツ特定部361は、所望のコンテンツに関して発話された履歴を履歴記憶部350から抽出できるようにしてもよい。コンテンツ特定部361は、このような構成とすることで、例えば、あるコンテンツに関連して他のユーザが発話した内容を、そのコンテンツに関連する情報として抽出することが可能となる。
なお、表示装置100を構成する各部は、必ずしも1つの装置として実装される必要はなく、例えば、各構成がネットワークを介して接続されていてもよい。具体的な一例として、信号取得部310、表示制御ユニット320、及び表示部102を端末として構成し、解析部330、辞書データ保持部340、履歴記憶部350、コンテンツDB360、及びコンテンツ特定部361をサーバに配置してもよい。
[1−4.第1の実施形態の実施例1]
{1−4−1.実施例1の概要}
第1の実施形態の実施例1に係る情報処理装置10の具体的な一例について説明する。本実施形態の実施例1に係る情報処理装置10では、表示制御部321は、音声信号の入力が検知された場合に、画面v30に表示された表示情報のうち、音声認識により操作が可能な(即ち、音声認識に対応した)表示情報を、音声認識に対応しない表示情報と直感的に識別可能に表示させる。以降では、本実施形態の実施例1に係る情報処理装置10の画面の構成及び動作について、図4を参照しながら説明する。図4は、本実施形態の実施例1に係る表示の一態様を示した図である。
図4において、画面v30は、ユーザ1が発話していない状態、即ち、音声信号が検知されていない場合の画面を示している。また、画面v32は、ユーザ1が発話を行った場合、即ち、音声信号が検知された場合の画面を示している。なお、画面v30及びv32において、表示領域v311に表示された各アイコンv311は、音声認識に対応するコンテンツが関連付けられているものとする(即ち、各アイコンv311には、音声認識に対応するフラグが設定されている)。
図4に示す例では、音声信号が検知されていない場合に、表示制御部321は、画面v30に示すように、音声認識に対応するアイコンv311を、他の表示情報と同様に並べて表示させる。音声信号が検知されると、表示制御部321は、画面v32に示すように、アイコンv311のように音声認識に対応した表示情報を、振動するようにアニメーション表示させる。表示制御部321は、このアニメーション表示を、音声信号が検知されている間は継続し、音声信号が検知されなくなると(即ち、ユーザ1の発話が終了すると)停止する。即ち、ユーザ1が集音装置110に向けて発話を行うと、表示制御部321により、音声認識に対応する表示情報が発話に呼応するように動作するため、ユーザ1は、どの表示情報が音声認識に対応しているかを直感的に認識することが可能となる。
なお、画面v32におけるアイコンv311の表示態様は図4の例に限定されない。例えば、図5〜図7は、本実施形態の実施例1に係る画面v32におけるアイコンv311の表示態様の一例を示した図である。
例えば、図5の画面v32に示すように、表示制御部321は、音声信号が検知された場合に、音声認識に対応する表示情報(例えば、アイコンv311)を、音声信号が検知される前とは大きさや形状が変化させることで強調表示してもよい。
また、別の一例として、図6の画面v32に示すように、表示制御部321は、音声信号が検知された場合に、音声認識に対応する表示情報(例えば、アイコンv311)に関連付けて、音声認識に対応している旨を示すマーカv313を表示してもよい。図6の例では、表示制御部321は、音声認識に対応しているアイコンv311に、枠のようなマーカv313を重畳表示させている。これにより、ユーザ1は、音声認識に対応しているアイコンv311を、他の音声認識に対応していない表示情報と直感的に識別することが可能となる。
また、別の一例として、図7の画面v32に示すように、表示制御部321は、音声信号が検知された場合に、音声認識に対応する表示情報(例えば、アイコンv311)の色を変化させることで強調表示してもよい。図7の例では、表示制御部321は、画面v30において音声認識に対応しているアイコンv311を、画面v32では、アイコンv314で示すように音声信号の検知前とは異なる色で表示させる。このように、音声認識に対応している表示情報の色を音声信号の検知前後で変化させることで、ユーザ1は、音声認識に対応している表示情報を、他の音声認識に対応していない表示情報と直感的に識別することが可能となる。
また、表示制御部321は、上述したような音声信号が検知された場合とは異なる契機で、音声認識に対応している表示情報(例えば、アイコンv311)を、音声認識に対応していない他の表示情報と識別可能に表示してもよい。例えば、図8に示す例は、本実施形態の実施例1に係る画面の表示態様の一例を示した図である。図8に示す例では、表示制御部321は、画面v30を表示させたときに、音声認識に対応する表示情報に、音声認識に対応する旨を示す他の表示情報を重畳表示させている。
図8において、画面v33は、画面v30を最初に表示させた直後の状態を示している。図8の画面v33に示すように、表示制御部321は、画面v33を表示させると、領域v310に表示された音声認識に対応する各アイコンv311に重畳するように、音声認識への対応を示す表示情報v350が所定の期間だけ表示させる。このとき、表示制御部321は、ユーザ1の注意を引くように、表示情報v340をアニメーション表示させるとよい。表示制御部321は、所定の期間だけ表示情報v350が表示させ、その後、画面v30に示すように画面を表示させる。このように、表示制御部321は、音声信号が検知された場合に限らず、所定のタイミングで、音声認識に対応している表示情報を、音声認識に対応していない他の表示情報と識別可能に強調表示してもよい。
また、音声認識に対応する表示情報と、音声認識に対応していない他の表示情報とが識別可能であれば、画面v30の表示態様は上記の例に限定されない。例えば、表示制御部321は、音声認識に対応していない他の表示情報を一時的に非表示にすることにより、音声認識に対応する表示情報を強調表示してもよい。また、全ての表示情報を画面内に表示しきれない場合には、一部の表示情報が画面外に隠れてしまっている場合がある。このような場合には、表示制御部321は、音声認識に対応していない表示情報を非表示としたときに、空いた領域に、画面外に隠れてしまっている表示情報(音声認識に対応した表示情報)を表示してもよい。
{1−4−2.実施例1の動作}
次に、本実施形態の実施例1に係る情報処理装置10の動作について図9及び図10を参照しながら説明する。まず、図9を参照する。図9は、本実施形態に係る情報処理装置10の情報の表示に係る動作の一例を示したフローチャートである。
(ステップS301)
表示装置100が起動されると、表示制御部321は、まず画面v30を生成する。画面v30を生成するための画像等の部品は、表示制御部321が読み出し可能な構成にあらかじめ記憶させていてもよい。
また、表示制御部321は、あらかじめ決められた条件に基づき、コンテンツ情報取得部323にコンテンツの情報を取得させる。
(ステップS302)
表示制御部321は、取得されたコンテンツの情報それぞれをアイコンv311に関連付ける。なお、取得されたコンテンツの情報に音声認識に対応しているか否かを示す情報が設定されている場合には、表示制御部321は、この情報に基づき、対応するアイコンv311に音声認識に対応しているか否かを示すフラグを設定する。
また、表示制御部321は、「メニューの表示」や「終了」等のように画面ごとにあらかじめ決められた所定の処理を、対応する表示情報に関連付けて画面v30に表示させてもよい。この所定の処理が関連付けられた表示情報についても、各コンテンツに対応するアイコンv311と同様に、音声認識への対応の有無を設定してもよい。この所定の処理に対応する表示情報への音声認識への対応の有無を示すフラグは、その処理が音声認識に対応しているか否かに応じてあらかじめ設定しておけばよい。
なお、画面ごとの所定の処理については、必ずしも表示情報として画面v30に表示させなくてもよい。この場合には、対応するメニューやアイコンのような表示情報は画面v30に表示されないが、音声入力により所定のキーワードに対応する語句が入力されると、所定の処理が実行されることとなる。
表示制御部321は、生成された画面v30を表示部102に表示させる。
(ステップS303)
表示装置100の起動が完了して表示部102に画面v30が表示されると、音声情報取得部331が、集音装置110で集音された音声信号を受け付けられる状態となる。
(ステップS304)
集音装置110で音声信号が集音されると(ステップS304、Y)、集音された音声信号が集音装置110から出力され、信号取得部310は、集音装置110から出力された音声信号を検知し取得する。音声信号を検知すると、信号取得部310は、検知結果を表示制御ユニット320の表示制御部321に通知する。
(ステップS310)
ここで、信号取得部310からの検知結果の通知を受けた場合の表示制御部321の処理(即ち、ステップS310で示された処理)の内容について、図10を参照しながら説明する。図10は、本実施形態の実施例1に係る情報処理装置10の表示制御の一態様を示したフローチャートである。
(ステップS311)
集音装置110で音声信号が集音されると、表示制御部321は、信号取得部310から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部321は、画面v30に表示された各表示情報を、それぞれに設定されたフラグに基づき、各表示情報について音声認識に対応しているか否かを識別する。そして、表示制御部321は、音声認識に対応している表示情報(例えば、アイコンv311)を、音声認識に対応していない表示情報と識別可能に画面v30に表示させる。なお、音声信号が検知された場合における画面v30の表示態様については前述したとおりである。
(ステップS304、ステップS305)
ここで、再度図9を参照する。音声信号を受け付ける状態は、表示装置100の停止が選択されて一連の処理が終了しない限り継続される(ステップS304、N、かつステップS305、N)。表示装置100の停止が選択されると、表示装置100は一連の処理を終了して停止する。(ステップS305、Y)
以上のように、本実施形態の実施例1に係る情報処理装置10は、音声信号の入力が検知された場合に、画面v30に表示された表示情報のうち、音声認識に対応した表示情報の表示態様を変える等により、音声認識に対応した表示情報を強調表示する。これにより、音声認識に対応した表示情報が、音声認識に対応していない他の表示情報と識別可能に表示される。そのため、ユーザ1は、画面v30に表示された表示情報のうち、いずれが音声認識により操作可能であるかを直感的に認識することが可能となる。
また、音声信号の入力が検知されたときに、表示情報をアニメーション表示させるなどのように、表示情報の表示態様を変化させることで、ユーザ1に対して、音声信号が取得されて音声認識が動作していることを提示することが可能となる。本件については実施例3でも詳しく説明する。
[1−5.第1の実施形態の実施例2]
{1−5−1.実施例2の概要}
第1の実施形態の実施例2に係る情報処理装置10の具体的な動作の一例について説明する。音声入力を用いたU/Iでは、表示された画面に対して、いつ(例えば、どのような状態で)、どこが、なんと言えば反応するのかがわかりにくい場合がある。そこで、本実施形態の実施例2に係る情報処理装置10では、表示制御部321は、音声信号の検知状況に基づき、例えば「ユーザ1がどのような語句を音声として入力できるか困っている場合」等の状態を検知し、発話可能な語句を対応する表示情報に関連付けて参照可能に提示する。以降では、本実施形態の実施例2に係る情報処理装置10の画面の構成及び動作について、図11〜図13を参照しながら説明する。図11〜図13は、本実施形態の実施例2に係る表示の一態様を示した図である。
まず、図11に示す例について説明する。図11に示す画面v34は、前述した画面v30(図2参照)をベースとして、発話可能な語句を関連情報として、対応する表示情報に関連付けて参照可能に提示した場合の画面の一例である。
図11に示す例では、表示制御部321は、画面v34に表示された表示情報のいずれも選択されていない状態で、音声認識に対応する表示情報のそれぞれについて、その表示情報に対応する処理またはコンテンツを起動するための語句を提示している。具体的には、表示制御部321は、ユーザ1が、「え〜っと・・・」のような曖昧な語句を発話したときに、画面v34上の音声認識に対応する表示情報(例えば、アイコンv371)を操作するための語句を、関連情報v371として提示している。
図11に示す例では、表示制御部321は、アイコンv311aに対応するコンテンツを起動するための語句として、関連情報v371aには「シューティング」という語句を提示している。
また、表示制御部321は、関連情報v371として、コンテンツの種別ごとに実行可能な処理を示す語句を提示してもよい。具体的な一例として、表示制御部321は、「ムービー」に対応するコンテンツの場合に、ムービーを購入するためのストアにアクセスする処理が関連付けられた「ストアに行く」という語句の関連情報v371を表示させてもよい。また、対応するコンテンツが「音楽」の場合には、表示制御部321は、ランダム再生の処理が関連付けられた「ランダム再生」という語句の関連情報v371を表示させてもよい。
また、表示制御部321は、「ホーム」や「終了」のように、画面v34に対応する表示情報が表示されていないが、音声入力として受付可能な語句を、関連情報v373として提示してもよい。
なお、「え〜っと・・・」のような曖昧な語句を発話したか否かについては、発話内容解析部332が、集音された音声信号に対応する音声情報が、曖昧な語句を示すキーワードに対応しているか(一致しているか)否かにより判定を行えばよい。発話内容解析部332による判定結果は、解析結果取得部322を介して表示制御部321に通知される。これにより、表示制御部321は、ユーザ1が「え〜っと・・・」のような曖昧な語句を発話したか否かを判断することができる。
また、関連情報v371として提示する各コンテンツの情報については、表示制御部321が、アイコンv311を表示させるときに、コンテンツ特定部361にあらかじめ取得させて、アイコンv311に関連付けておけばよい。また、別の態様として、表示制御部321は、ユーザ1が「え〜っと・・・」のような曖昧な語句を発話したことを検知したときに、各アイコンv311に対応するコンテンツの情報をコンテンツ特定部361に取得させてもよい。また、関連情報v373として提示する情報は、表示制御部321が読み出し可能な構成(例えば、表示制御部321自身に設けられた記憶媒体)にあらかじめ記憶されていてもよい。
次に、図12に示す例について説明する。図12に示す画面v35は、前述した画面v30(図2参照)をベースとして、選択状態にある表示情報に対して発話可能な語句を関連情報として、対応する表示情報に関連付けて参照可能に提示した場合の画面の一例である。
図12に示す例では、表示制御部321は、音声認識に対応する表示情報が選択されている状態(以降は「選択状態」と呼ぶ)で、その表示情報対応するコンテンツに対して、実行可能な処理を示す語句を提示している。例えば、図12において、表示制御部321は、アイコンv311aを、ゲームに対応するコンテンツに関連付けている。なお、このゲームには「はじめる」と「つづきから」という起動メニューが存在する(あらかじめ関連付けられている)ものとする。この場合には、表示制御部321は、ユーザ1が、「え〜っと・・・」のような曖昧な語句を発話したときに、選択状態にあるアイコンv311に対応するゲームを起動するための起動メニュー、即ち、「はじめる」及び「つづきから」を関連情報v371aとして提示してもよい。
なお、関連情報v371として表示される情報は、対応するコンテンツの起動メニューに限られない。例えば、音楽プレーヤーに対応するアイコンv311の場合には、表示制御部321は、あらかじめ作成された再生リストに基づき、再生可能な音楽のリストを関連情報v371として提示してもよい。また、別の一態様として、表示制御部321は、「音楽を再生する」や「ストアに行く」のように、そのコンテンツで実行可能な動作を提示してもよい。なお、上述のような関連情報は、コンテンツごとに関連付けてコンテンツDB360に記憶させていてもよい。表示制御部321は、コンテンツDB360に記憶されたコンテンツごとの情報のうち、所望のコンテンツに関する情報を、コンテンツ情報取得部323を介してコンテンツ特定部361に特定させればよい。
また、図11及び図12に示す例を、既存のアプリケーションに応用してもよい。例えば、図13に示す画面v36は、地図アプリケーションに応用した例を示している。図13に示す例では、表示制御部321は、画面v36上に表示された地図のうち、音声認識に対応する位置(例えば、建物などの位置)に関連して、実行可能な動作を示す語句を関連情報v375として、対応する位置に関連付けて参照可能に提示している。
例えば、所定の位置で撮影された写真や動画をあらかじめ記憶しておき、表示制御部321は、これらの写真や動画を参照する動作に関連付けられた、「写真を見る」や「動画を再生する」といった語句を、関連情報v375aとして対応する位置に関連付けて表示させてもよい。また、対応する位置が飲食店のような場合には、表示制御部321は、その店のおすすめのメニューを表示するための動作に関連付けられた「おすすめを見る」といった語句を、関連情報v375bとして対応する位置に関連付けて表示させてもよい。なお、関連情報v375a及びv375bとして表示させる情報(語句)や、関連情報v375a及びv375bに対応する処理が実行されることで表示されるコンテンツ(例えば、写真、動画、またはメニュー)は、位置情報ごとに関連づけてコンテンツDB360に記憶されていてもよい。この場合には、表示制御部321は、位置情報を検索キーとして、関連情報v375a及びv375bとして表示させる情報(語句)やコンテンツを、コンテンツ情報取得部323を介してコンテンツ特定部361に取得させればよい。なお、以降では、関連情報v371、v373、及びv375を特に区別しない場合には、単に「関連情報」と記載する場合がある。
なお、図11〜図13に示した例では、ユーザ1が、「え〜っと・・・」のような曖昧な語句を発話したときに、関連情報を表示させていたが、必ずしもこの方式に限定されない。例えば、ユーザ1は、どのような語句を音声として入力できるか困っている場合に、発話を行わずに考え込んでいるケースがあり得る。そのため、表示制御部321は、所定の時間だけ沈黙が続いた場合(即ち、音声信号が検知されなかった場合)に、関連情報を表示させてもよい。この場合には、表示制御部321は、信号取得部310からの通知が所定期間なかった場合に、関連情報を表示させればよい。
また、関連情報として表示させる数は適宜変更できるようにしてもよい。例えば、音声認識に対応する表示情報が所定数以上表示されている場合には、表示制御部321は、画面が煩雑にならないように、全ての関連情報を表示させず、各表示情報について所定数ずつ(例えば、1つずつ)表示させてもよい。このような場合には、全ての関連情報を表示させるキーワード(例えば、「ヘルプ」等)をあらかじめ決めておいてもよい。また、表示制御部321は、最初に画面が表示されるタイミングで、チュートリアルとして、各関連情報を、画面が煩雑にならない程度の数ごとに連続的に表示させてもよい。
また、コンテンツに関連して他のユーザが発話している内容を履歴として履歴記憶部350に記憶させておき、表示制御部321は、これらの履歴を、関連情報として表示させてもよい。この場合には、コンテンツ特定部361が、表示制御部321に指示されたコンテンツに対応する履歴を、履歴記憶部350から検索して抽出すればよい。また、発話内容解析部332は、音声情報を履歴記憶部350に記憶させるときに、そのとき起動していたコンテンツを示す情報と関連付けて記憶させてもよい。これにより、コンテンツ特定部361が、各履歴がどのコンテンツが起動しているときに発話されたものかを判別することが可能となる。
また、表示制御部321は、関連情報を表示させた場合に、音声認識に対応していない表示情報を非表示にしてもよい。また、このとき非表示となった表示情報が表示されていた領域を有効に使えるように、表示制御部321は、画面上に表示されている表示情報及び関連情報のレイアウトを調整して表示させてもよい。このような構成により、表示制御部321は、関連情報の表示に伴い表示される情報が増えたとしても、画面が煩雑になるような事態を防止することが可能となる。
{1−5−2.実施例2の動作}
次に、第1の実施形態の実施例2に係る表示装置100の動作について、図11に示した画面v34の場合を例に、図14を参照しながら、実施例1と処理の異なる表示制御の動作に着目して説明する。図14は、本実施形態の実施例2に係る情報処理装置10の表示制御の一態様を示したフローチャートである。なお、図9に示すフローチャートのうち、ステップS310で示された表示制御以外の処理については実施例1と同様のため、詳細な説明は省略する。
(ステップS321)
集音装置110で音声信号が集音されると、表示制御部321は、信号取得部310から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部321は、ユーザ1が「え〜っと・・・」のような所定の語句(曖昧な語句)を発話したか否かを示す情報を、解析結果取得部322を介して解析部330の発話内容解析部332から取得する。ユーザ1による所定の語句の発話が検知された場合には、表示制御部321は、画面v34に表示された各アイコンv311について、そのアイコンv311に関連付けられたコンテンツの情報を、関連情報v371として、コンテンツ情報取得部323に取得させる。
なお、表示制御部321が、コンテンツ情報取得部323に関連情報v371を取得される契機は特に限定されない。例えば、表示制御部321が最初にアイコンv311を表示させるタイミングであらかじめコンテンツ情報取得部323に取得させてもよいし、ユーザ1により発話された曖昧な語句が検知されたタイミングで取得させてもよい。
(ステップS322)
表示制御部321は、コンテンツ情報取得部323に所得させた関連情報v371を、対応するアイコンv311に関連付けて画面v34に表示させる。また、このとき表示制御部321は、「ホーム」や「終了」のように、画面v34に対応する表示情報が表示されていないが、音声入力として受付可能な語句を、関連情報v373として提示してもよい。
以上のように、本実施形態の実施例2に係る情報処理装置10は、音声信号の検知状況に基づき、発話可能な語句を対応する表示情報に関連付けて参照可能に提示する。これにより、ユーザ1は、表示された画面に対して、いつ、どこが、なんと言えば反応するのかを認識することが可能となる。
[1−6.第1の実施形態の実施例3]
{1−6−1.実施例3の概要}
第1の実施形態の実施例3に係る情報処理装置10の具体的な動作の一例について説明する。音声認識を利用可能なU/Iでは、音声の認識に失敗した場合に、ユーザが、なぜ音声認識が失敗したか、わからない場合がある。音声の認識が失敗する原因の一例として、音声信号の入力レベルが、音声認識エンジンに適したレベルよりも大きいまたは小さい場合がある。そこで、本実施形態の実施例3に係る情報処理装置10では、表示制御部321は、集音装置110で集音された音声信号のレベルが適切か否かを識別可能にフィードバックする。以降では、本実施形態の実施例3に係る情報処理装置10の画面の構成及び動作について図15A〜図15Cを参照しながら説明する。図15A〜図15Cは、本実施形態の実施例3に係る表示の一態様を示した図である。
図15Bに示す画面v38は、ユーザ1が発話した音声信号のレベルが、音声認識エンジンに適したレベルの場合の画面を示している。図15Bに示す例では、表示制御部321は、集音装置110で集音された音声信号のレベルが、所定の範囲に含まれる場合(即ち、音声認識エンジンに適したレベルを示す場合)に、所定の表示情報を、音声信号が集音されていない場合とは異なる態様で表示させる。
図15Bに示す表示情報v318は、音声信号のレベルが所定の範囲に含まれる場合に、所定の表示情報が、あらかじめ決められた表示態様で表示された状態を示している。具体的な一例として、図15Bに示す例では、表示制御部321は、表示情報v318として、所定の表示情報が、風でなびくようにアニメーション表示させる。なお、このとき、表示制御部321は、表示情報v318を、集音された音声信号のレベルが、音声認識を行うために適切なレベルを示していることが直感的にわかる表示態様で表示させるとよい。
また、所定の表示情報を、音声信号が集音されていない場合と異なる態様で表示させることで、ユーザ1は、音声信号が取得されて音声認識が動作していることを認識することが可能となる。
図15Aに示す画面v37は、ユーザ1が発話した音声信号のレベルが、音声認識エンジンに適したレベルよりも小さい場合の画面を示している。図15Bに示す例では、表示制御部321は、集音装置110で集音された音声信号のレベルが、所定の範囲のレベルよりも小さい場合(即ち、音声認識エンジンに適したレベルよりも小さい場合)に、所定の表示情報を、表示情報v318とは異なる態様で表示させる。
図15Bに示す表示情報v317は、音声信号のレベルが所定の範囲のレベルよりも小さい場合(即ち、所定の閾値より小さい場合)に、所定の表示情報が、あらかじめ決められた表示態様で表示された状態を示している。具体的な一例として、図15Bに示す例では、表示制御部321は、表示情報v317として、所定の表示情報が、表示情報v318の場合よりも弱い風でなびくようにアニメーション表示させる。なお、このとき、表示制御部321は、表示情報v317を、集音された音声信号のレベルが、音声認識を行うために適切なレベルよりも小さいことが直感的にわかる表示態様で表示させるとよい。
図15Cに示す画面v39は、ユーザ1が発話した音声信号のレベルが、音声認識エンジンに適したレベルよりも大きい場合の画面を示している。図15Cに示す例では、表示制御部321は、集音装置110で集音された音声信号のレベルが、所定の範囲のレベルよりも大きい場合(即ち、音声認識エンジンに適したレベルよりも大きい場合)に、所定の表示情報を、表示情報v318とは異なる態様で表示させる。
図15Cに示す表示情報v319は、音声信号のレベルが所定の範囲のレベルよりも大きい場合(即ち、所定の閾値より大きい場合)に、所定の表示情報が、あらかじめ決められた表示態様で表示された状態を示している。具体的な一例として、図15C示す例では、表示制御部321は、表示情報v319を、所定の表示情報が、大きい力を受けて激しく変形するように(例えば、ぐしゃぐしゃに丸められるように)アニメーション表示させる。なお、このとき、表示制御部321は、表示情報v319を、集音された音声信号のレベルが、音声認識を行うために適切なレベルよりも大きいことが直感的にわかる表示態様で表示させるとよい。
また、図16A〜図16Cに示す例は、表示情報v317、v318、v319の別の一態様を示している。図16Bに示す例では、表示制御部321は、音声信号のレベルが所定の範囲に含まれる場合に、表示情報v318を、所定の表示情報が、OKマークを模擬した表示態様で表示させる。このように表示情報v318を表示させることで、ユーザ1は、音声信号のレベルが適切であることを、直感的に認識することが可能となる。
また、音声信号のレベルが所定の範囲のレベルよりも小さい場合には、表示制御部321は、図16Aに示すように、表示情報v317を、所定の表示情報が、音量が小さいときに人が耳を傾けるような動作を模擬した表示態様で表示させる。このように表示情報v317を表示させることで、ユーザ1は、音声信号のレベルが、音声認識を行うために適切なレベルよりも小さいことを、直感的に認識することが可能となる。
また、音声信号のレベルが所定の範囲のレベルよりも大きい場合には、表示制御部321は、図16Cに示すように、表示情報v319を、所定の表示情報が、音量が大きすぎるときに人が耳を塞ぐような動作を模擬した表示態様で表示させる。このように表示情報v319を表示させることで、ユーザ1は、音声信号のレベルが、音声認識を行うために適切なレベルよりも小さいことを、直感的に認識することが可能となる。
このように、本実施形態の実施例3に係る情報処理装置10は、集音装置110で集音された音声信号のレベルが所定の範囲に含まれるか否かに応じて、所定の表示情報を、異なる表示態様で表示させる。これにより、ユーザ1は、表示態様に応じて、発話された音声信号のレベルが適切か否かを直感的に認識することが可能となる。また、発話された音声信号のレベルが適切か否かを、文字情報ではなく、所定の表示情報の表示態様として提示することで、使用言語の異なるユーザ間でも、発話された音声信号のレベルが適切か否かを同様に認識することが可能となる。
なお、音声信号のレベルに応じて表示態様を変化させる表示情報としては、例えば、実施例1におけるアイコンv311(図5参照)のように、音声認識に対応する表示情報を用いてもよい。また、別の一態様として、音声信号のレベルが適切か否かをフィードバックするための専用の表示情報を設けてもよい。
また、上記の例では、表示制御部321は、取得された音声信号のレベルを所定の閾値と比較することで、3種類の表示態様のいずれで表示させるかを決定していたが、音声信号のレベルが適切か否かを判別可能であれば、この表示態様には限定されない。例えば、表示制御部321は、所定の表示情報を、取得された音声信号のレベルに応じて表示態様が連続的に変化するように表示させてもよい。
{1−6−2.実施例3の動作}
次に、第1の実施形態の実施例3に係る表示装置100の動作について、図17を参照しながら、実施例1と処理の異なる表示制御の動作に着目して説明する。図17は、本実施形態の実施例3に係る情報処理装置10の表示制御の一態様を示したフローチャートである。なお、図9に示すフローチャートのうち、ステップS310で示された表示制御以外の処理については実施例1と同様のため、詳細な説明は省略する。
(ステップS331)
集音装置110で音声信号が集音されると、表示制御部321は、信号取得部310から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部321は、解析結果取得部322を介して解析部330のレベル解析部333から、取得された音声信号のレベルを示す情報を、音声信号の解析結果として取得する。
(ステップS331)
表示制御部321は、解析結果として取得された音声信号のレベルが所定の範囲に含まれるか否かを判断し、その判断結果に応じて表示態様を特定する。表示制御部321は、特定された表示態様で表示されるように、所定の表示情報の表示を更新する。これにより、例えば、取得された音声信号のレベルが所定の範囲に含まれる場合には、所定の表示情報が、図15A〜15Cまたは図16A〜16Cの表示情報v318に示すような表示態様で表示される。また、取得された音声信号のレベルが所定の範囲のレベルよりも小さい場合には、所定の表示情報が、図15A〜15Cまたは図16A〜16Cの表示情報v317に示すような表示態様で表示される。同様に、取得された音声信号のレベルが所定の範囲のレベルよりも大きい場合には、所定の表示情報が、図15A〜15Cまたは図16A〜16Cの表示情報v319に示すような表示態様で表示されることとなる。
以上のように、本実施形態の実施例3に係る情報処理装置10は、音声信号のレベルを測定し、その測定結果に応じて、集音された音声信号のレベルが適切か否かを識別可能にフィードバックする。このような構成により、ユーザ1に対して、発話される音声の大きさの調整を促し、音声の認識率を向上させることが可能となる。
[1−7.第1の実施形態のまとめ]
以上、第1の実施形態に係る情報処理装置10の構成や、具体的な実施例について説明した。上述したように、第1の実施形態に係る情報処理装置10は、音声信号の入力が検知された場合に、画面上に表示された表示情報のうち、音声認識に対応した表示情報を、声認識に対応していない他の表示情報と識別可能に表示させるものである。このような構成により、ユーザ1は、画面上に表示された表示情報のうち、いずれが音声認識により操作可能であるかを直感的に認識することが可能となる。
また、本実施形態に係る情報処理装置10は、音声信号の検知状況に基づき、発話可能な語句を対応する表示情報に関連付けて参照可能に提示する。これにより、ユーザ1は、表示された画面に対して、いつ、どこが、なんと言えば反応するのかを認識することが可能となる。
さらに、本実施形態に係る情報処理装置10は、音声信号のレベルを測定し、その測定結果に応じて、集音された音声信号のレベルが適切か否かを識別可能にフィードバックする。このような構成により、ユーザ1に対して、発話される音声の大きさの調整を促し、音声の認識率を向上させることが可能となる。
なお、上述した各構成の動作は、情報処理装置10のCPUを機能させるためのプログラムによって構成することができる。このプログラムは、その装置にインストールされたOS(Operating System)を介して実行されるように構成してもよい。また、このプログラムは、上述した各構成が含まれる装置が読み出し可能であれば、記憶される位置は限定されない。例えば、装置の外部から接続される記録媒体にプログラムが格納されていてもよい。この場合には、プログラムが格納された記録媒体を装置に接続することによって、その装置のCPUに当該プログラムを実行させるようにするとよい。
<2.本開示の第2の実施形態>
[2−1.第2の実施形態の概要]
まず本開示の第2の実施形態の概要を説明する。本開示の第2の実施形態に係る情報処理装置10は、上述の第1の実施形態同様、図1に示したような全体構成を有する。本開示の第2の実施形態に係る情報処理装置10は、集音装置110が集音した音を表示装置100で解析し、その解析の結果を用いた様々な処理を表示装置100で実行する。集音装置110が集音した音の解析の結果を用いた処理としては、例えば集音装置110が集音した音から変換される文字の表示部102への表示処理、集音装置110が集音した音に基づくプログラムの実行処理、集音装置110が集音した音に基づく、インターネット上の検索処理等がある。
そして本開示の第2の実施形態に係る情報処理装置10は、ユーザ1が集音装置110に向かって発話した後に、発話された内容に基づく処理が実行されるまでユーザ1に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理を実行する。以下で説明する本開示の一実施形態に係る情報処理装置10では、このようにリアルタイムで処理が行われているように感じさせる音声認識処理の例として視覚的なフィードバックを伴う処理を挙げて示すことにする。
以上、本開示の第2の実施形態の概要について説明した。次に、本開示の第2の実施形態に係る情報処理装置10の機能構成例について説明する。
[2−2.第2の実施形態の構成]
図18は、本開示の第2の実施形態に係る情報処理装置10の機能構成例を示す説明図である。以下、図18を用いて本開示の第2の実施形態に係る情報処理装置10の機能構成例について説明する。
図18に示したように、本開示の一実施形態に係る情報処理装置10は、集音装置110と、表示制御ユニット420と、辞書データ保持部430と、表示部102と、を含んで構成される。図18に示した例では、表示制御ユニット420と、表示部102とは、いずれも表示装置100に備えられている。
(表示制御ユニット420)
表示制御ユニット420は、表示装置100の動作を制御し、例えばCPU(Central Processing Unit)等のプロセッサで構成される。そして図18に示したように、表示制御ユニット420は、信号取得部421と、音声情報取得部422と、発話内容解析部423と、発話内容取得部424と、解析結果提示部425と、を含んで構成される。
集音装置110は、上述したように、音を集音する装置であり、例えばユーザ1によって発話された内容を集音する装置である。集音装置110が集音した音は、音声情報として表示装置100の表示制御ユニット420に送られて、表示制御ユニット420においてその集音装置110が集音した音の内容が解析される。
(信号取得部421)
信号取得部421は、集音装置110が集音した音からなる音声信号を集音装置110から取得する。信号取得部421は、取得した音声信号を音声情報取得部422へ供給する。
(音声情報取得部422)
音声情報取得部422は、信号取得部421から供給される音声信号を、音声情報として取得する。音声情報取得部422は、信号取得部421から供給される音声信号を音声情報として取得すると、取得した音声情報を発話内容解析部423に随時提供する。
(発話内容解析部423)
発話内容解析部423は、音声情報取得部422から供給される、集音装置110が集音して得られる音声信号の内容を逐次解析する。発話内容解析部423は、集音装置110が集音した音を解析して、その音の音量、周波数、発話時間、単語、音素等の情報を得る。発話内容解析部423は、集音装置110が集音した音の内容の解析に際し、辞書データ保持部430が保持する辞書データを用いても良い。発話内容解析部423は、集音装置110が集音した音を解析して情報を得ると、その情報を発話内容取得部424に逐次提供する。
(発話内容取得部424)
発話内容取得部424は、発話内容解析部423から逐次提供されてくる、発話内容解析部423での解析結果を逐次取得する。発話内容取得部424は、発話内容解析部423で逐次解析された結果を逐次取得すると、その逐次取得した解析結果を解析結果提示部425に逐次提供する。
(解析結果提示部425)
解析結果提示部425は、発話内容解析部423による解析により得られ、発話内容取得部424から逐次提供された情報を適切な形式に変換して、表示部102に逐次表示させる。既存の一般的な音声認識技術では、話者が発話を開始してから完了するまでの間に取得される、当該発話の内容を解析し、解析が完了してからその解析結果である発話された単語や文章の情報を提示していた。本開示の第2の実施形態に係る情報処理装置10は、ユーザ1が集音装置110に向かって発話している最中であっても、解析結果提示部425は、その発話に伴う情報を発話内容取得部424から逐次得て、表示部102に表示させる。
このように、ユーザ1が集音装置110に向かって発話している最中であっても、その発話に伴う情報を表示部102に表示させることで、本開示の第2の実施形態に係る情報処理装置10は、ユーザ1に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能となる。
(辞書データ保持部430)
辞書データ保持部430は、上述したように、発話内容解析部423での音の解析に際して用いられる辞書データを保持する。辞書データ保持部430は、例えば様々な単語に対して表記、読み、品詞、等の情報を保持している。なお後述するが、辞書データ保持部430で保持されている辞書データは、解析結果提示部425での情報の生成に際して用いられても良い。
以上、図18を用いて本開示の第2の実施形態に係る情報処理装置10の機能構成例について説明した。次に、本開示の第2の実施形態に係る情報処理装置10の動作例について説明する。
[2−3.第2の実施形態の動作]
図19は、本開示の第2の実施形態に係る情報処理装置10の動作例を示すフローチャートである。図19に示したフローチャートは、集音装置110が集音することで得られる音声情報の解析で得られる情報を逐次取得し、音声情報の解析で得られる情報に基づいた情報を逐次表示する、本開示の第2の実施形態に係る情報処理装置10の動作例を示したものである。以下、図19を用いて本開示の第2の実施形態に係る本開示の一実施形態に係る情報処理装置10の動作例について説明する。
ユーザ1が集音装置110に向かって発話すると、集音装置110が集音した音が音声信号として信号取得部421に供給され、信号取得部421から音声情報として音声情報取得部422に入力される(ステップS402)。
上記ステップS402で、集音装置110が集音した音が音声信号として信号取得部421に供給され、信号取得部421から音声情報として音声情報取得部422に入力されると、続いて発話内容解析部423が、音声情報取得部422から供給される、集音装置110が集音して得られる音声信号を逐次解析する(ステップS404)。発話内容解析部423は、音声信号を逐次解析すると、その解析により得られる情報を、発話内容取得部424へ逐次提供する。なお、上記ステップS304での、発話内容解析部423による音声信号の解析の最中にも、ユーザ1による発話は継続され、集音装置110は、ユーザ1の発話による音を集音し、信号取得部421へ提供する。
上記ステップS404で、発話内容解析部423が音声信号を逐次解析し、解析により得られる情報を発話内容取得部424へ逐次提供すると、続いて解析結果提示部425は、発話内容解析部423による逐次解析により得られ、発話内容取得部424から逐次提供された情報を、適切な形式、例えば可視化された情報に変換し、表示部102に逐次表示させる(ステップS406)。
発話内容解析部423による音声信号の逐次解析により、解析結果提示部425において、逐次解析に基づく情報の逐次表示が可能になる。なお本実施形態では、発話内容解析部423による音声信号の逐次解析により得られる情報と、解析結果提示部425により逐次表示される情報との間には、相関性があってもよく、相関性が無くても良い。
解析結果提示部425は、発話内容解析部423による逐次解析により得られる情報を表示部102に逐次表示させている際に、ユーザ1が発話した内容の発話内容解析部423による解析が完了したかどうか判断する(ステップS408)。このステップS408の判断は、例えば、発話内容解析部423が、ユーザ1が発話した内容の解析が完了したことを示すフラグを設定した状態で、解析により得られる情報を発話内容取得部424へ提供したかどうかを解析結果提示部425で判断することで実行されるようにしてもよい。
上記ステップS408の判断の結果、ユーザ1が発話した内容の発話内容解析部423による解析が完了していないと判断した場合は、解析結果提示部425は、上記ステップS406の表示部102への逐次表示を継続する。
一方、上記ステップS408の判断の結果、ユーザ1が発話した内容の発話内容解析部423による解析が完了したと判断した場合は、解析結果提示部425は、逐次解析に伴う可視化された情報の逐次表示から、発話内容解析部423での解析の完了により得られる解析結果に切り替えて表示部102に表示させる(ステップS410)。
本開示の第2の実施形態に係る情報処理装置10は、上述したように動作することで、ユーザ1が集音装置110に向かって発話している最中であっても、その発話に伴う情報を表示部102に表示させる。本開示の第2の実施形態に係る情報処理装置10は、ユーザ1が集音装置110に向かって発話している最中であっても、その発話に伴う情報を表示部102に表示させることで、ユーザ1に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能となる。
以上、本開示の第2の実施形態に係る情報処理装置10の動作例について説明した。次に、上述したような情報処理装置10の動作例によって表示部102に表示される情報の例について説明する。
[2−4.第2の実施形態で表示される画面の例]
図20は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図20に示したのは、ユーザ1が集音装置110に向かって発話している間に、情報処理装置10の動作により表示部102に表示される内容の変遷である。
ユーザ1が集音装置110に向かって話し始めると、発話内容解析部423は、ユーザ1によって発話された内容の解析を開始する。発話内容解析部423は、ユーザ1によって発話された内容の解析を開始すると、ユーザ1によって発話された内容の解析が完了する前であっても解析により得られる情報を発話内容取得部424へ逐次提供する。そして解析結果提示部425は、発話内容取得部424が逐次取得した情報を用いて、ユーザ1によって発話されている内容を可視化した情報を生成し、その情報を表示部102に表示させる。
図20には、ユーザ1が集音装置110に向かって発話している間に、情報処理装置10の動作により表示部102に表示される画面v41、v42、v43、v44が示されている。画面v41、v42、v43、v44には、いずれもマイクを意味しているアイコンv410が表示されている。
図20の一番上は、ユーザ1が集音装置110に向かって発話を始めた直後の、表示部102に表示される画面v41を示している。ユーザ1が「おすすめの中華料理」と喋ろうとしている場合を例示すれば、図20の一番上は、「おす」程度まで喋っている状態を示している。図20の一番上に示したように、ユーザ1が集音装置110に向かって発話を始めた直後から、解析結果提示部425は、その発話により得られる情報を可視化して表示部102に表示させる。図20の一番上では、ユーザ1が喋ろうとしている内容とは無関係の抽象的な記号が情報v411として画面v41に表示されているが、発話内容解析部423が、ユーザ1が「おす」まで喋ったところで「おす」と喋ったことが認識でき、その旨を発話内容取得部424が取得していれば、解析結果提示部425は、画面v41の情報v411に「おす」と表示させてもよい。
図20の上から2番目は、一番上に示した状態からさらにユーザ1が話し続けた場合の、表示部102に表示される画面v42を示している。ユーザ1が「おすすめの中華料理」と喋ろうとしている場合を例示すれば、図20の一番上は、「おすすめの中華」程度まで喋っている状態を示している。図20の上から2番目でも、図20の一番上と同様にユーザ1が喋ろうとしている内容とは無関係の記号が情報v411として画面v41に表示されている。
図20の上から3番目、及び上から3番目は、ユーザ1が喋り終わった状態で表示部102に表示される画面v43、v44を示している。ユーザ1が一通り喋り終わると、発話内容解析部423は、ユーザ1が喋った内容の解析結果を確定させて発話内容取得部424に提供する。解析結果提示部425は、画面v43のように、ユーザ1が喋った内容の確定された解析結果を、それまで表示部102に表示させていた情報v411を消し、画面v44のように、情報v411を情報v412に置き換えて表示させる。
図20では、ユーザ1が集音装置110に向かって発話している間に表示部102に表示させる情報として抽象的な記号を示したが、本開示は係る例に限定されるものではない。
図21は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図21に示したのは、ユーザ1が集音装置110に向かって発話している間に、情報処理装置10の動作により表示部102に表示される内容の変遷である。
解析結果提示部425は、図21に示したように、ユーザ1が集音装置110に向かって発話している間に表示させる情報v421として、抽象的な図形を表示部102に表示させてもよい。
図21の一番上は、図20の一番上のようにユーザ1が集音装置110に向かって発話を始めた直後に表示部102に表示される情報v421を示し、図21の上から2番目は、図20の上から2番目のように一番上に示した状態からさらにユーザ1が話し続けた場合に表示部102に表示される情報v421を示している。このように解析結果提示部425は、ユーザ1の発話時間に応じて抽象的な図形の表示幅を伸ばしても良い。
そして図21の上から3番目は、ユーザ1が喋り終わった状態で表示部102に表示される情報v422を示す。情報v422は、発話内容解析部423が確定させた、ユーザ1が喋った内容の解析結果である。図21では、発話内容解析部423は、「おすすめのイタリアンのお店」とユーザ1が喋ったと解析したので、解析結果提示部425は、その「おすすめのイタリアンのお店」を情報v422として表示部102に表示させる。
図22は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図22に示したのは、ユーザ1が集音装置110に向かって発話している間に、情報処理装置10の動作により表示部102に表示される内容の変遷である。
解析結果提示部425は、図22に示したように、ユーザ1が集音装置110に向かって発話している間に表示させる情報v431として、インジケータを表示部102に表示させてもよい。
図22の一番上は、図20の一番上のようにユーザ1が集音装置110に向かって発話を始めた直後に表示部102に表示される情報v431を示し、図22の上から2番目は、図20の上から2番目のように一番上に示した状態からさらにユーザ1が話し続けた場合に表示部102に表示される情報v431を示している。このように解析結果提示部425は、ユーザ1の発話時間に応じてインジケータの表示幅を伸ばしても良い。
そして図22の上から3番目は、ユーザ1が喋り終わった状態で表示部102に表示される情報v432を示す。情報v432は、発話内容解析部423が確定させた、ユーザ1が喋った内容の解析結果である。図22では、発話内容解析部423は、「おすすめのイタリアンのお店」とユーザ1が喋ったと解析したので、解析結果提示部425は、その「おすすめのイタリアンのお店」を情報v432として表示部102に表示させる。
図23は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図23に示したのは、情報処理装置10による音声認識の開始から終了までの流れの一例である。
図23には、ユーザ1による音声入力が無い状態が示されている。ユーザ1による音声入力が無い非アクティブ状態では、解析結果提示部425は、マイクアイコンとして表示させる情報v410をグレーアウトする、非表示にする等の表示でユーザ1へフィードバックする。
図23には、ユーザ1による音声入力が無い状態から、ユーザ1による発話その他何らかのタイミングで集音装置110への音声入力が開始された状態が示されている。集音装置110への音声入力が開始されると、解析結果提示部425は、マイクアイコンとして表示させる情報v410を図23のように表示させる。
図23には、集音装置110への音声入力が開始された状態から、ユーザ1による発話が行われている最中の状態が示されている。ユーザ1による発話が行われて音声信号が受け付けられている間は、解析結果提示部425は、その音声信号の受け付けのフィードバックとして、図23のように音量レベルに応じた表示を表示部102に行わせる。
図23には、集音装置110への音声入力が開始された状態から、ユーザ1による発話が行われている最中の状態が示されている。図23では、上述したようなリアルタイムでの音声認識のフィードバックを行う様子を示す。図23に示したフィードバックは、音声の受け付け中、及びユーザ1の発話による音声信号の発生が終了した後の、信号解析中に解析結果提示部425によって表示部102に表示される。
図23に示した例では、複数の大小様々な円からなるグラフィックの表示領域は、ユーザ1により発話された語の長さにより決定され得る。このユーザ1による発話語の長さは、発話内容解析部423が発話時間(有音区間)、登録辞書の長さより推測して、認識語と同幅に近づくよう調整する。図23の例では、複数の大小様々な円からなるグラフィックの表示領域が、マイクアイコンで表示される情報v410から右横に伸びている様子が示されている。
図23には、ユーザ1による発話が終了し、発話内容解析部423による音声認識の結果が表示されている状態が示されており。図23に示したような抽象的な図形は、フェードアウトする、発話内容解析部423による音声認識の結果に変化する等して表示部102から消える。
本開示の第2の実施形態に係る情報処理装置10は、図23に示すように、最終的な音声認識の結果を解析結果提示部425が受け取る前に、認識結果を表示する領域を確保するものである。
音声認識では通常、ユーザ1は音声信号の終了後に音声信号の解析処理を待つ必要があった。しかし本開示の第2の実施形態に係る情報処理装置10は、図23に示したリアルタイム音声認識の表現と、結果表示の表現とを滑らかに繋げることにより、ユーザ1の感覚的な待ち時間を減らすことができる。つまり本開示の第2の実施形態に係る情報処理装置10は、上述の説明のように情報を表示部102に表示することで、音声信号終了(あるいは信号受付中)と同時に認識結果が表示されているようにユーザ1に感じさせることが可能である。
図23に示したようなリアルタイム音声認識の表現と、結果表示の表現とを滑らかに繋げる表現として、例えば下記で示すような表現がある。
例えば解析結果提示部425は、ユーザ1の発話内容の解析によって、音量レベル、発話時間、登録単語の長さを推測し、抽象的な図形や記号を表示部102に表示し得る。
発話内容解析部423の解析により、ユーザ1の発話内容の解析途中であっても音素情報が得られる場合、解析結果提示部425は、その音素情報をリアルタイムに表示し得る。図24は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図24に示したのは、情報処理装置10による音声認識の開始から終了までの流れの一例であり、音素情報をリアルタイムに表示する場合の例である。
発話内容解析部423の解析により、ユーザ1の発話内容の解析途中であっても音素情報が得られる場合、図24に示したたように、解析結果提示部425は音素情報を逐次表示していき、キーボード入力による単語変換のように表示を変化させ得る。図24に示した例では、発話内容解析部423の解析により「sa・n・go・ku・shi」という音素が認識され、その認識結果に基づき、解析結果提示部425が「三國志」と変換して表示させている。
なお、発話内容解析部423は各音素を誤って認識する可能性もある。従って解析結果提示部425は、例えば辞書データ保持部430が保持する単語の音素情報と比較し、類似度が高いものがあった場合は、それをユーザ1により発話されている単語と認識し、誤って表示されている音素を修正し得る。
また、音素列が言語の文法的におかしい場合、解析結果提示部425は、その音素列が部分的に間違っていると認識し、正しい音素列へと変換し得る。図25は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図25に示したのは、情報処理装置10による音声認識の開始から終了までの流れの一例であり、音素情報をリアルタイムに表示する場合の例である。
図25の一番上は、発話内容解析部423の解析により「Tkyo」という音素列が出力され、解析結果提示部425は「Tkyo」と表示させた状態を示している。しかし、解析結果提示部425は、例えば辞書データ保持部430や、ネットワーク上に存在するサーバ等が保持する単語の音素情報と比較し、この音素列は「Tokyo」と認識し損ねたものであると認識し得る。この場合、図25の上から2番目に示したように、解析結果提示部425は「Tkyo」から「Tokyo」へと表示を変化させ得る。最終的に発話内容解析部423からの解析結果を取得すると、図25の上から3番目に示したように、解析結果提示部425は「Tokyo」から「東京」へと表示を変化させ得る。
また例えば解析結果提示部425は、コンテキストに合った単語群からランダムに表示していき、発話内容解析部423によって認識された単語を受け取った時点でその認識された単語と入れ替えるよう表示し得る。なお上述のコンテキストとは、例えば実行中のアプリケーションやサービスにおいて登録されている単語群等であり、音声認識で登録辞書を用いない場合は、そのアプリケーションやサービスで多く利用されている単語や任意の推薦エンジンから得られる、ユーザ1が最も発話しそうな単語等である。ランダムに表示される単語は、ユーザ1が実際に発話する単語とは異なる可能性が高い。従って解析結果提示部425は、単語をランダムに表示させる際に、例えばスロットのように短いタイミングで切り替わる、ブラーを掛ける等の表示形態を採り得る。
図26は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図26に示したのは、情報処理装置10による音声認識の開始から終了までの流れの一例であり、音素情報をリアルタイムに表示する場合の例である。
図26の一番上は、発話内容解析部423の解析により、ユーザ1が3文字分の単語を発話したことが出力され、解析結果提示部425は、その発話内容解析部423の解析により得られた情報を用い、3文字分の単語の中から「リンゴ」と表示させた状態を示している。この場合、ユーザ1は実際には「リンゴ」と言う語を発していない可能性が高いが、このように何らかの単語を表示させることで、本開示の第2の実施形態に係る情報処理装置10は、ユーザ1の感覚的な待ち時間を減らすことができる。
図26の上から2番目は、一番上の状態からさらにユーザ1が発話を継続した場合の表示例である。解析結果提示部425は、発話内容解析部423からの解析結果を取得し、一番上で表示させた「リンゴ」の右側に、抽象的な記号や図形等を表示させる。
図26の上から3番目は、上から2番目の状態以降にユーザ1の発話が完了し、発話内容解析部423が解析結果を確定させた場合の表示例である。解析結果提示部425は、発話内容解析部423からの解析結果を取得し、発話内容解析部423に解析結果である「チューリップ」という単語を表示させる。
ここまで示してきた記号、図形、音素情報等は、発話内容解析部423において話者を区別した解析が可能な場合には、解析結果提示部425は話者を区別して表示し得る。たとえば、話者Aが「あい(音素:ai)」と話して、続いて話者Bが「うえお(音素:ueo)」と話し、発話内容解析部423が話者を識別して解析出来た場合には、解析結果提示部425は「ai」と「ueo」とを区別して表現し得る。
[2−5.第2の実施形態の変形例]
ここまでは、解析結果提示部425が、発話内容解析部423の解析結果を逐次取得して、リアルタイムに発話内容解析部423の解析に基づく情報を表示させる例を示した。しかし、発話内容解析部423によるユーザ1の発話内容の解析中に、ユーザ1から所定のキャンセル操作があれば、解析結果提示部425は、情報の表示が取り消されるような表示を行わせても良い。
図27は、本開示の第2の実施形態に係る情報処理装置10の変形例を示す説明図である。図27には、図18からさらに取消受付部426が表示装置100の内部に追加された構成が示されている。
(取消受付部426)
取消受付部426は、解析結果提示部425による情報の表示中に、その情報の表示の取消操作を受け付ける。表示装置100への取消通知の方法としては、例えばリモートコントローラを使ったキャンセル操作、他サービスの起動等による強制終了、ユーザ1の発話によるキャンセル操作、ユーザのジェスチャーによるキャンセル操作等がある。取消受付部426は、表示の取消操作を受け付けると、取消操作を受け付けた旨を解析結果提示部425に送る。解析結果提示部425は、取消受付部426からの取消操作を受け付けた旨の受信により、情報の表示が取り消されるような表示を実行する。
図27は、本開示の第2の実施形態に係る情報処理装置10の動作により表示部102に表示される情報の例を示す説明図である。図28に示したのは、情報処理装置10による音声認識の開始から終了までの流れの一例であり、情報の表示が一旦取り消されるように表示装置100が表示を実行してから、再度情報を表示する場合の例である。
図28の一番上は、図20の一番上のようにユーザ1が集音装置110に向かって発話を始めた直後に表示部102に表示される情報v431を示し、図28の上から2番目は、図20の上から2番目のように一番上に示した状態からさらにユーザ1が話し続けた場合に表示部102に表示される情報v431を示している。
この図28の上から2番目の状態で、ユーザ(ユーザ1)が所定の取消操作を実行すると、解析結果提示部425は、図28の上から3番目のように、伸びていたインジケータを縮ませるよう表示させる。例えばユーザ1が「おすすめのイタリアン」と発話した後に「…はやめて」と発話すると、その「…はやめて」という部分を発話内容解析部423が解析し、ユーザ1による取消操作が行われたと認識し得る。発話内容解析部423は、ユーザ1による取消操作が行われたことを取消受付部426に送り、取消受付部426は、ユーザ1による取消操作が行われたことを解析結果提示部425に通知する。解析結果提示部425は、ユーザ1による取消操作が行われたことを認識すると、図28の上から3番目のように、伸びていたインジケータを縮ませるような表示を行わせる。
ユーザ1が「…はやめて」の後に「中華料理」と発話すると、解析結果提示部425は、図28の上から3番目のように縮ませたインジケータを再び伸ばすよう表示させる。そして発話内容解析部423が解析を完了させると、解析結果提示部425は、図28の上から5番目のように、インジケータ表示から解析結果表示(「おすすめの中華料理」)に滑らかに変化させて表示させる。
このように、情報の表示が一旦取り消されるように表示を実行してから、再度情報を表示することで、表示装置100は、ユーザ1に対して取り消し操作が認識されたこと、及び取り消し操作の認識の後に音声認識処理が再度実行されたことをユーザ1にグラフィカルに見せることが出来る。
上記実施形態では、ユーザ1によって発話された内容を解析、解析結果を表示する表示装置100に集音装置110が接続されている情報処理装置10を示したが、本開示は係る例に限定されるものではない。例えば、ユーザ1によって発話された内容の解析及び表示される情報の生成と、ユーザ1によって発話された内容の表示は、別々の装置で実行されても良い。すなわち、図18に示した表示制御ユニット420を備える装置と、表示部102を備える装置とが、別々の装置であってもよい。
またさらに、図18に示した表示制御ユニット420に含まれる構成要素について、発話内容解析部423と、解析結果提示部425とが、別々の装置に設けられていても良い。すなわち、ユーザ1によって発話された内容の解析処理と、ユーザ1によって発話された内容に基づいて表示される情報の生成処理とは、別々の装置で実行されても良い。
[2−6.第2の実施形態の変形例]
以上説明したように本開示の第2の実施形態によれば、集音装置110に向かって話しているユーザ1が待たされている感覚を覚えずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な情報処理装置10を提供することが出来る。本開示の第2の実施形態に係る情報処理装置10は、ユーザ1が発話した内容を逐次解析し、その逐次解析に基づく内容を表示装置100に逐次表示させる。
逐次解析に基づく内容が表示装置100に逐次表示されることで、本開示の第2の実施形態に係る情報処理装置10を使用するユーザ1は、集音装置110に向かって話しかけると直ぐさま何らかのフィードバックを受けることが出来る。そのため本開示の第2の実施形態に係る情報処理装置10は、集音装置110に向かって話しているユーザ1に対して、待たされている感覚を覚えずに済むという効果を奏する。
<3.第3の実施形態>
[3−1.第3の実施形態の概要]
続いて、第3の実施形態に係る情報処理装置の概要について説明する。音声認識により所望の処理を実行可能なU/Iの中には、VAD(Voice Activity Detection)モードのように音声入力を常時受け付けるモードで動作可能なものがある。VADモードのように音声入力を常時受け付けていると、ユーザが意図して入力した音声以外に、例えば、音声入力を意図しない会話や環境音(例えば、TVから出力される音声)のような周囲の雑音に反応してしまう場合がある。また、VADモードに限らず、PTT(Push−To−Talk)方式のように、音声認識が有効な区間をユーザまたはシステムが指定するモードにおいても、音声認識が有効な区間において同様の課題が存在する。
そこで、第3の実施形態に係る情報処理装置では、集音された音声信号の認識結果を履歴として蓄積し、蓄積された履歴をアクセス可能に画面上に表示させることが可能な情報処理装置を提供する。このような構成とすることで、雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。本実施形態に係る情報処理装置について以下に具体的に説明する。
[3−2.第3の実施形態の構成]
まず、図1を参照しながら、第3の実施形態に係る情報処理装置10の構成について説明する。図1に示すように、第3の実施形態に係る情報処理装置10は、表示装置100と、集音装置110と含む。なお、集音装置110の動作は、第1の実施形態に係る情報処理装置と同様のため、詳細な説明は省略する。
表示装置100は、表示部102を備え、操作画面や所望の処理の実行結果を表示部102に出力する装置である。情報処理装置10が起動されると、表示装置100は、操作画面を生成して表示部102に表示させる。
本実施形態に係る表示装置100は、集音装置110で集音された音声信号の認識結果を、履歴情報として画面上に表示させる。例えば、図29は、第3の実施形態に係る画面構成の一例を示した説明図である。画面v50は、表示装置100の表示部102に表示された画面である。図29に示すように、画面v50は、音声バーv510と、履歴情報v521とを含む。
音声バーv510は、例えば、集音装置110により集音された音声信号の検知状況に応じて、表示態様(例えば、色)が変化するように構成されている。このように、表示装置100は、音声信号の検知状況に応じて、音声バーv510の表示態様を変化させることで、音声信号が検知されていることをユーザ1に視覚的に通知することが可能となる。なお、音声バーv510の表示態様の詳細については、実施例3として後述する。
履歴情報v521は、集音装置110で集音された音声信号に対して音声認識処理が施された発話内容を示す音声情報の履歴を示している。本実施形態に係る表示装置100では、集音装置110で集音された音声信号に対応する音声情報が取得されると、その時点では、音声信号に対応する処理やコンテンツは起動されず、取得された音声情報が履歴とし一旦蓄積される。そして、所定のキーワードに対応する音声情報が取得された場合に、表示装置100は、画面v50に表示された履歴情報v521に対応するコンテンツの情報を取得し、取得されたコンテンツの情報を関連情報として表示させる。
また、関連情報が表示された状態で、表示された関連情報のいずれかに対応する語句が音声情報として取得されると、表示装置100は、取得された音声情報に対応する処理またはコンテンツを起動する。このような構成とすることで、雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。以降では、これらの動作の詳細について、表示装置100の構成とあわせて説明する。
[3−3.表示装置の構成]
図30を参照しながら、第3の実施形態に係る表示装置100の構成に着目して説明する。図30は、第3の実施形態に係る表示装置100の構成の一例を示した図である。図30に示すように、本実施形態に係る表示装置100は、表示部102と、信号取得部510と、表示制御ユニット520と、解析部530と、辞書データ保持部540と、履歴記憶部550と、コンテンツDB560と、コンテンツ特定部561と、システム情報取得部570とを含む。
(信号取得部510)
信号取得部510は、第1の実施形態に係る信号取得部310(図2参照)と同様に動作する。即ち、信号取得部510は、集音装置110から出力された音声信号を検知し取得する。音声信号を検知すると、信号取得部510は、検知結果を後述する表示制御ユニット520の表示制御部521に通知する。なお、信号取得部510がは、本開示の「検知部」の一例に相当する。
また、信号取得部510は、取得された音声信号を解析部530に出力する。この出力を受けて、解析部530は、信号取得部510から取得した音声信号を解析する。
(解析部530)
解析部530は、信号取得部510で取得された音声信号を解析する解析部である。音声認識に係る処理は、この解析部530により実行される。図30に示すように、解析部530は、音声情報取得部531と、発話内容解析部532と、レベル解析部533とを含む。解析部530は、信号取得部510から音声信号を取得する。解析部530は、取得した音声信号を、音声情報取得部531、発話内容解析部532、及びレベル解析部533に解析させる。なお、音声情報取得部531、発話内容解析部532、及びレベル解析部533による解析処理の詳細についてはそれぞれ後述する。解析部530は、音声信号の解析結果を解析結果取得部522に出力する。
音声情報取得部531は、第1の実施形態に係る音声情報取得部331(図2参照)と同様に動作する。即ち、音声情報取得部531は、音声信号に対して音声認識処理を施して、発話内容を示すテキストデータ(即ち、音声情報)を生成する。音声情報取得部531は、取得された音声情報を発話内容解析部532に出力する。
発話内容解析部532は、音声情報を解析して、その音声情報が示す意味を解釈する。発話内容解析部532は、第1の実施形態に係る発話内容解析部332(図2参照)と同様の機能を有する。即ち、発話内容解析部532は、取得された音声情報が、あらかじめ処理が関連付けられたキーワードと一致するか否かを判断する機能を有する。また、発話内容解析部532は、第1の実施形態に係る発話内容解析部332と同様に、取得された音声情報に類似するキーワードを特定できるようにしてもよい。なお、キーワードの一覧と、各キーワードに対応する処理との関係については、例えば、辞書データとして辞書データ保持部540に記憶させていてもよい。
上記に示すように、発話内容解析部532は、音声情報を解析して、その音声情報が示す意味を解釈し、対応するキーワードが存在するか否かを判定し、その判定結果を解析結果取得部522に通知する。なお、音声情報に対応するキーワードが存在する場合には、発話内容解析部532は、そのキーワードに対応する処理を示す情報を解析結果取得部522に出力する。これにより、解析結果取得部322は、どのような処理を実行すればよいのかを認識することが可能となる。なお、音声情報に一致するキーワードが存在しない場合には、発話内容解析部532は、その音声情報自体を解析結果取得部522に出力してもよい。
また、発話内容解析部532は、取得された音声情報を後述する履歴記憶部550に履歴として記憶させる。このとき発話内容解析部532は、履歴に対して、その履歴を特定するための情報を属性情報として関連付けて履歴記憶部550に記憶させてもよい。例えば、発話内容解析部532は、取得された音声情報の対象となるコンテンツを示す情報を、その音声情報に対応する履歴に属性情報として関連付けて記憶させてもよい。また、発話内容解析部532は、発話したユーザや、集音された集音装置110を特定するための情報を、属性情報として履歴に関連付けて履歴記憶部550に記憶させてもよい。また、音声情報が所定のキーワードに一致する場合には、その音声情報については履歴として記録しないように動作させてもよい。
また、発話内容解析部532は、形態素解析や構文解析のような自然言語処理を用いて音声情報を解析し、その音声情報が問合せを意味する音声情報の場合には、問合せに対して実行すべき処理を特定するようにしてもよい。例えば、音声情報が「面白いゲームない?」という問合せを意味する場合に、発話内容解析部532は、この問合せに対して、「ストアで人気のゲームを提示する」処理を特定するように動作する。なお、問合せを意味する音声情報と、その問合せに対する応答を意味する語句、及び、応答に対応する処理を示す情報については、あらかじめ関連付けてリストとして作成し、発話内容解析部532が読み出し可能な所定の記憶部に記憶させていてもよい。ここでは、問合せを意味する音声情報、応答を意味する語句、及び応答に対応する処理を示す情報については、辞書データ保持部540に記憶させておくものとする。
発話内容解析部532は、音声情報に対して自然言語処理を施し、その音声情報が問合せを意味する音声情報であると認識した場合に、当該音声情報をリストと比較して、対応する処理を特定する。そして、発話内容解析部532は、特定された処理を示す情報を、後述する解析結果取得部522を介して表示制御部521に通知する。これにより、表示制御部521は、問合せを意味する音声情報が入力された場合に、その応答としてどのような処理を実行すればよいかを認識することが可能となる。
また、発話内容解析部532は、取得された音声情報が問合せを意味する場合に、その問合せに対する応答を意味する語句を、その取得された音声情報に関連付けて履歴記憶部550に履歴として記録してもよい。このように、応答を意味する語句を履歴に関連付けておくことで、後述する表示制御部521は、問合せを意味する音声情報が取得された場合に、取得された音声情報の履歴に替えて、応答を意味する語句を履歴情報として提示することもできる。
具体的な一例として、音声情報が「面白いゲームない?」という問合せを意味する場合に、「ストアで人気のゲームが提示されていること」を意味する「HIT GAME LIST」のような語句を、その音声情報の履歴に関連付けて記憶させるとよい。これにより、ユーザ1から「面白いゲームない?」という音声情報が入力された場合に、表示制御部521は、例えば、「ストアで人気のゲームを提示する」ためのリンクを、「HIT GAME LIST」と表示された履歴情報して提示することが可能となる。もちろん、「ストアで人気のゲームを提示する」ためのリンクを、「面白いゲームない?」という音声情報の履歴が示された履歴情報として提示してもよい。
なお、ここで示した構成はあくまで一例であり、取得された音声情報が問合せを意味する場合に、応答を意味する語句の履歴情報が提示できれば、その方法は限定されない。例えば、発話内容解析部532が、取得された音声情報が問合せを意味する場合に、応答を意味する語句を、解析結果取得部522を介して表示制御部521に通知してもよい。この場合には、表示制御部521は、履歴情報取得部524を介して取得した履歴に基づく履歴情報の表示を、発話内容解析部532から取得した、応答を意味する語句に切り替えればよい。
レベル解析部533は、第1の実施形態に係るレベル解析部333(図3参照)と同様に動作する。即ち、レベル解析部533は、音声信号を解析することで信号のレベルを特定し、特定されたレベルを解析結果取得部322に出力する。なお、レベル解析部533は、音声信号のピーク値を出力するようにしてもよいし、レベルの平均値を出力するようにしてもよい。また、レベル解析部533は、取得される音声信号をモニタリングし、その音声信号のレベルを逐次出力するように動作させてもよい。
(辞書データ保持部540)
辞書データ保持部540は、第1の実施形態に辞書データ保持部340(図3参照)と同様の構成を有する。即ち、音声情報取得部531及び発話内容解析部532がそれぞれの処理を実行するための各種データを記憶する。各種データの一例としては、音声情報取得部531が音声認識処理を実行するための各種モデル及び辞書データや、発話内容解析部532が、音声情報の示す意味を解釈するための辞書データが挙げられる。
また、辞書データ保持部540は、問合せを意味する音声情報と、その問合せに対する応答を意味する語句、及び、応答に対応する処理を示す情報を関連付けてあらかじめ記憶している。これにより、発話内容解析部532は、辞書データ保持部540を検索することで、所望の問合せに対して、応答を意味する語句、及びその応答に対応する処理を特定することが可能となる。
(システム情報取得部570)
システム情報取得部570は、情報処理装置10の処理部(図示しない)により所定の処理が実行された場合に、この処理が実行された旨の通知と、その処理の結果を処理部から取得する。具体的な一例として、所定のシステムに対して他のユーザ(例えば、ユーザ2とする)がログインした場合に、ユーザ2がログインした旨が処理部からシステム情報取得部570に通知される。また、別の一例として、ユーザ1宛てのメールが受信された場合に、システム情報取得部570は、ユーザ1宛てのメールが受信された旨や、そのメールの内容を示す情報を処理部から通知される。システム情報取得部570は、処理部から通知された情報(以降では、「システム情報」と呼ぶ場合がある)を履歴として履歴記憶部550に記憶させる。なお、この履歴を用いた具体的な動作については、実施例4として後述する。
(履歴記憶部550)
履歴記憶部550は、取得された音声情報を履歴として記憶する。履歴記憶部550は、取得された音声情報を、その音声情報が取得されたタイミングを示す情報と関連付けて記憶してもよい。このような構成により、例えば、「昨日視聴した動画」を特定するなどのように、過去の音声認識の結果に基づき、所定の音声情報に関連する情報やコンテンツを特定することが可能となる。
また、履歴記憶部550は、所定のユーザに限らず他のユーザが発話した内容、例えば、異なる複数の集音装置110で集音された音声信号に基づく音声情報をそれぞれ履歴として記憶するようにしてもよい。このような構成により、例えば、「先週、最も再生された音楽」を特定するなどのように、過去の音声認識の結果に基づき、本人のみに限らず複数ユーザの間で利用頻度の高い音声情報に関連する情報やコンテンツを特定することが可能となる。
また、履歴記憶部550は、音声情報に限らず、システム情報取得部570から通知された、システム情報を履歴として記憶してもよい。このとき、履歴記憶部550は、音声情報の履歴と、システム情報との履歴を識別可能に記憶してもよい。
(表示制御ユニット520)
表示制御ユニット520は、画面v50の生成及び表示更新に係る処理を実行する。図30に示すように、表示制御ユニット520は、表示制御部521と、解析結果取得部522と、コンテンツ情報取得部523と、履歴情報取得部524と、入力情報取得部525を含む。
解析結果取得部522は、信号取得部510で取得された音声信号の解析結果を解析部530から取得し、取得された解析結果を表示制御部521に出力する。音声信号の解析結果としては、例えば、取得された音声信号に対応する音声情報が所定のキーワードに対応しているか否かを示す情報や、音声信号のレベルを示す情報が挙げられるまた、音声情報が所定のキーワードに対応している場合には、そのキーワードに関連付けられた処理を示す情報を音声信号の解析結果に含めておくとよい。これにより、解析結果を受けた表示制御部521が、そのキーワードに対応してどのような処理を実行すればよいかを認識することが可能となる。
また、解析結果取得部522は、解析部530から、音声情報が所定のキーワードに対応している旨を示す情報を取得した場合には、このことを入力情報取得部525に通知する。この処理に基づく動作の詳細については、入力情報取得部525の詳細とあわせて後述する。
コンテンツ情報取得部523は、所望の条件に一致するコンテンツの情報を後述するコンテンツ特定部561から取得する。具体的には、コンテンツ情報取得部523は、表示制御部521からの指示に基づきコンテンツを取得するための検索条件を生成し、生成された検索条件を後述するコンテンツ特定部561に出力する。その応答として、コンテンツ情報取得部523は、検索条件に一致するコンテンツの情報をコンテンツ特定部561から取得する。コンテンツ情報取得部523は、取得されたコンテンツの情報を表示制御部521に出力する。このような構成により、表示制御部521は、例えば、所望の音声情報に対応するコンテンツの情報を取得し、取得された各コンテンツの情報を、前述の音声情報に関連する関連情報として表示させることが可能となる。
履歴情報取得部524は、表示制御部521の指示を受けて、所定の条件に一致する履歴を履歴記憶部550から取得し、取得した履歴を表示制御部521に出力する。
具体的な一例として、履歴記憶部550は、表示制御部521からの指示に基づき、画面v50が最初に表示されたタイミング以降に記録された履歴を取得するとよい。これにより、例えば、ユーザ1が画面v50を表示装置100に表示させてから、ユーザ1の発話により入力された音声情報に対応する履歴のみが、画面v50に表示されることとなる。また、別の一例として、履歴記憶部550は、表示制御部521からの指示に基づき、所望の期間(例えば、過去3日間)に記録された履歴を取得してもよい。
また、上述したような履歴情報取得部524による処理は、例えば、信号取得部510が音声情報を検知したタイミングに同期して動作させるとよい。このような構成とすることで、検知された音声情報の履歴に基づく情報をリアルタイムで画面v50に表示させることが可能となる。
入力情報取得部525は、取得された音声情報が所定のキーワードに対応している場合に、音声情報が所定のキーワードに対応していることを示す通知を解析結果取得部522から取得する。この通知を受けると、入力情報取得部525は、あらかじめ決められた操作に基づく入力(この場合は、音声情報としての所定のキーワードの入力)があったことを表示制御部521に通知する。これにより、表示制御部521は、音声情報として所定のキーワードが入力された場合に、そのキーワードに対応する処理の実行にあわせて画面v50の表示を更新することが可能となる。具体的な一例として、表示制御部521は、所定のキーワード(例えば、「Actions」)に対応する音声情報が取得されると、画面v50に表示されている履歴情報に関連するコンテンツの情報を関連情報としてコンテンツ情報取得部523に取得させるといった動作が可能となる。なお、この入力情報取得部525の動作の詳細については、本実施形態の実施例2に後述する。
また、情報処理装置10に、マウス、キーボード、またはタッチパネルのような入力デバイスを操作部120として設け、入力情報取得部525は、操作部120から操作内容を示す情報を取得できるように構成してもよい。このような構成により、例えば、操作部120に対してあらかじめ決められた操作が行われた場合に、入力情報取得部525は、操作部120に対して、あらかじめ決められた操作に基づく入力があったことを表示制御部521に通知することが可能となる。具体的な一例として、表示制御部521は、タッチパネルとしての操作部120に対して、所定の入力操作が行われた場合に、表示制御部521に対して、所定のキーワードに対応する音声情報が取得された場合と同様の通知を行うことが可能となる。即ち、音声入力に限らず、操作部120に対して所定の操作が行われた場合にも、音声入力が行われた場合と同様の処理を実行させることが可能となる。
表示制御部521は、表示装置100が起動されると、まず画面v50を生成する。画面v50を生成するための画像等の部品は、表示制御部321が読み出し可能な構成にあらかじめ記憶させていてもよい。これにより、画面v50に、音声バーv510を含む所定の表示情報が表示される。
また、表示装置100が起動された時に、表示制御部521は、履歴記憶部550に既に蓄積されている履歴について、履歴情報v521を生成し画面v50に表示させてもよい。この場合には、表示制御部521は、履歴情報取得部524を介して、履歴記憶部550から所定の条件に基づく履歴を取得し、取得された履歴の履歴情報v521を画面v50に表示させればよい。このような動作により、例えば、「現時点から1日前までの過去の履歴について履歴情報v521を表示させる」といった動作が可能となる。
表示制御部521は、生成された画面v50を表示部102に表示させる。このようにして、表示部102に画面v50が表示される。
また、信号取得部510で音声信号が取得されると、表示制御部521は、取得された音声信号に対する解析結果を、解析結果取得部522を介して解析部530から取得する。
具体的な一例として、表示制御部521は、取得された音声信号に基づく音声情報が、所定のキーワードに一致するか否かの判定結果を発話内容解析部532から受ける。取得された音声信号に基づく音声情報が所定のキーワードに対応する場合には、表示制御部521は、そのキーワードに対応する処理を示す情報を、解析結果取得部522を介して発話内容解析部532から取得する。表示制御部521は、解析結果取得部522を介して発話内容解析部532から、所定のキーワードに対応する処理を示す情報を受けると、その情報が示す処理を実行する。なお、この表示制御部521の動作の詳細については、本実施形態の実施例2として後述する。
また、表示制御部521は、取得された音声信号に基づく音声情報が、所定のキーワードに一致しない場合に、その音声情報に対応する履歴の履歴情報を新たに表示させてもよい。この場合には、表示制御部521は、発話内容解析部532から判定結果を受けると、取得された音声信号に対応する音声情報の履歴を、履歴情報取得部524を介して履歴記憶部550から取得する。表示制御部521は、取得した履歴に基づき履歴情報を生成し、生成された履歴情報を画面v50に表示させる。なお、この表示制御部521の動作の詳細については、本実施形態の実施例1として後述する。
また、表示制御部521は、履歴情報に対応する音声情報に関連する情報を、関連情報として取得する機能を有してもよい。この場合には、表示制御部521は、画面v50に表示された各履歴情報に関連するコンテンツの一覧をコンテンツ情報取得部523に取得させ、取得されたコンテンツの一覧を関連情報として表示させてもよい。この機能の具体的な処理の一例として、表示制御部521は、まず各履歴情報に関連付けられた履歴を抽出する。そして、表示制御部521は、抽出された履歴をコンテンツ情報取得部523に出力し、関連情報の取得を指示する。この指示の応答として、表示制御部521は、コンテンツ情報取得部523を介してコンテンツ特定部561からコンテンツの一覧を取得する。表示制御部521は、コンテンツ特定部561から取得したコンテンツの一覧を、関連情報として、対応する履歴情報に関連づけて表示させる。なお、この表示制御部521の動作の詳細については、本実施形態の実施例2として後述する。
また、表示制御部521は、音声信号の検知状況に応じて、音声バーv510の表示を更新する。具体的な一例として、表示制御部521は、音声信号が検知されている場合(発話中の場合)と、音声信号が検知されていない無音の場合とを、音声バーv510に識別可能に表示させる。なお、この表示制御部521の動作の詳細については、本実施形態の実施例3として後述する。
(コンテンツDB560)
コンテンツDB560は、各コンテンツを、そのコンテンツの属性を示す属性情報と関連付けて記憶する。属性情報は、そのコンテンツを特定するための情報であり、具体的な一例として、ゲーム、音楽、動画のようなコンテンツの種別を示す情報や、発売日、歌手、販売元のメーカー等のようにそのコンテンツに関する情報が挙げられる。属性情報には、例えば、そのコンテンツが音声認識に対応しているか否かを示す情報を含めてもよい。属性情報として音声認識に対応しているか否かを示すことで、表示制御部521は、コンテンツごとに音声認識に対応しているか否かを判断し、音声認識に対応しているか否かに応じて、そのコンテンツに対応する表示情報の表示態様を切り替えることが可能となる
(コンテンツ特定部561)
コンテンツ特定部561は、所望の検索条件に一致するコンテンツの情報をコンテンツDB560から抽出する。具体的には、コンテンツ特定部561は、コンテンツ情報取得部523からコンテンツを特定するための検索条件を取得する。コンテンツ特定部561は、取得した検索条件と、各コンテンツの属性情報とを比較し、検索条件に一致するコンテンツをコンテンツDB560から抽出する。コンテンツ特定部561は、検索条件に対する応答(検索結果)として、抽出されたコンテンツの情報をコンテンツ情報取得部523に出力する。
なお、コンテンツ特定部561は、履歴記憶部550に記録された音声情報の履歴を組み合わせて、コンテンツの情報を抽出できるようにしてもよい。例えば、コンテンツ特定部561は、所望の時期に使用された頻度の高かった音声情報(もしくは、音声情報に含まれる語句)を特定し、その音声情報に対応するコンテンツをコンテンツDB560から抽出してもよい。このような構成とすることで、例えば、「先週、最も再生された音楽」や「昨日視聴した動画」のように、間接的に指定されたコンテンツを抽出することが可能となる。
また、コンテンツ特定部561は、所望のコンテンツに関して発話された履歴を履歴記憶部550から抽出できるようにしてもよい。このような構成とすることで、コンテンツ特定部561は、例えば、あるコンテンツに関連して他のユーザが発話した内容を、そのコンテンツに関連する情報として抽出することが可能となる。また、コンテンツ特定部561は、コンテンツに限らず、所望の履歴に関して発話された他の履歴を履歴記憶部550から抽出できるようにしてもよい。このような構成とすることで、コンテンツ特定部561は、所望の語句(音声情報)に関連して、他のユーザが発話した内容を、その履歴に関連する情報として抽出することが可能となる。
なお、表示装置100を構成する各部は、必ずしも1つの装置として実装される必要はなく、例えば、各構成がネットワークを介して接続されていてもよい。具体的な一例として、信号取得部510、表示制御ユニット520、及び表示部102を端末として構成し、解析部530、辞書データ保持部540、履歴記憶部550、コンテンツDB560、及びコンテンツ特定部561、システム情報取得部570をサーバに配置してもよい。
[3−4.第3の実施形態の実施例1]
{3−4−1.実施例1の概要}
第3の実施形態の実施例1に係る情報処理装置10の具体的な動作の一例について説明する。本実施形態の実施例1に係る情報処理装置10は、集音された音声信号の認識結果として音声情報が取得されると、その音声情報に対応する処理やコンテンツを即座には実行せず、取得された音声情報を履歴として記憶する。そして、情報処理装置10の表示制御部521は、記憶された履歴を、音声認識によりアクセス可能な表示情報(以降では、「履歴情報」と呼ぶ)として画面上に表示させる。実施例1では、本実施形態の実施例1に係る情報処理装置10の画面の構成及び動作について、図31を参照しながら、履歴を履歴情報として表示するまでの処理に着目して説明する。図31は、本実施形態の実施例1に係る表示の一態様を示した図である。なお、履歴情報にアクセスして処理を実行させる例については、実施例2として後述する。
図31に示す画面v50の例では、音声バーv510上に履歴情報v521a〜v521dが表示されている状態で、ユーザ1が「STORE」という語句を発話した状態を示している。また、履歴情報v521eは、ユーザ1の発話に伴う音声情報に対応している。なお、以降では、履歴情報v521a〜v521eを特に区別しない場合には、単に「履歴情報v521」と記載する場合がある。また、本実施形態の実施例1では履歴情報v521に着目して説明するものとし、音声バーv510の詳細については、実施例3として別途後述する。
表示制御部521は、音声バーv510上に表示された履歴情報v521a〜v521dを、それぞれに対応する履歴が記録された順に時系列に沿って並べて表示させる。なお、図31に示す例では、履歴情報v521aが最も古く、v521b、v521c、v521dの順に新しいものとする。
また、表示制御部521は、履歴情報v521a〜v521dを、時系列順に並べた方向に応じてスクロールするように表示させてもよい。図31に示す例では、表示制御部521は、方向d50に向けて、履歴情報v521a〜v521dがスクロールするように表示させる。このように、履歴情報v521a〜v521dがスクロールするように表示されることで、ユーザ1は、履歴情報v521a〜v521dが時系列に沿って並んでいること、及び、時系列に沿った方向を直感的に認識することが可能となる。
ユーザ1が「STORE」という語句を、集音装置110に向けて発話すると、集音された音声信号が解析部530で認識され、履歴として記憶される。そして、表示制御部521は、集音された音声情報の履歴に対応する履歴情報v521eを画面v50に追加表示させる。
表示制御部521は、追加表示させた履歴情報v521eを、既に表示されている履歴情報v521a〜v521dと同様に、音声バーv510上に表示させる。このとき、追加された履歴情報v521eに対応する履歴が最も新しいことになる。そのため、図31に示す例では、表示制御部521は、履歴情報v521eを、履歴情報v521dの右側(時系列に沿って新しい側)に配置する。
なお、表示制御部521は、方向d50に向けたスクロール表示に伴い、画面v50外に移動した履歴情報v521を、そのまま非表示としてもよいし、画面v50内に再度表示させてもよい。例えば、履歴情報v521が、画面v50の左端から画面外に移動した場合には、表示制御部521は、逆側の右端から移動するように再度画面v50内に表示させてもよい。また、再度画面v50内に表示させる場合には、表示制御部521は、各履歴情報v521の時系列に沿った新旧が認識できるように、最も新しい履歴情報v521と、最も古い履歴情報v521とが離間して表示されるように、履歴情報v521を再表示するタイミングを調整してもよい。
また、履歴情報v521の表示態様は、図31に示す画面v50の表示態様に限定されない。例えば、図32は、本実施形態の実施例1に係る表示の一態様を示しており、図31に示した画面v50とは表示態様の異なる画面v52について示している。図32に示すように、表示制御部521は、履歴情報v521をリング状に並べた画面v52を表示させてもよい。この場合には、表示制御部521は、これらの履歴情報v521を、図31に示した画面v50と同様に、時系列に沿って並べて表示させてもよい。
また、図31に示した画面v50と同様に、表示制御部521は、履歴情報v521をリングに沿って所定の方向にスクロールするように表示させてもよい。例えば、図32に示す方向d52は、図31の方向d50に対応している。この場合には、表示制御部521は、画面v52において、履歴情報v521を方向d52に向けてスクロール表示させる。
{3−4−2.実施例1の動作}
次に、図33及び図34を参照しながら、本実施形態の実施例1に係る情報処理装置10の動作について説明する。まず、図33を参照する。図33は、本実施形態の実施例1に係る情報処理装置10の情報の表示に係る動作の一例を示したフローチャートである。
(ステップS501)
表示装置100が起動されると、表示制御部521は、まず画面v50を生成する。このとき、画面v50を生成するための画像等の部品は、表示制御部321が読み出し可能な構成にあらかじめ記憶させていてもよい。これにより、画面v50に、音声バーv510を含む所定の表示情報が表示される。
また、表示装置100が起動された時に、表示制御部521は、履歴記憶部550に既に蓄積されている履歴について、履歴情報v521を生成し画面v50に表示させてもよい。この場合には、表示制御部521は、履歴情報取得部524を介して、履歴記憶部550から所定の条件に基づく履歴を取得し、取得された履歴の履歴情報v521を画面v50に表示させればよい。このような動作により、例えば、「現時点から1日前までの過去の履歴について履歴情報v521を表示させる」といった動作が可能となる。
表示制御部521は、生成された画面v50を表示部102に表示させる。このように、初期動作として、表示制御部521により画面v50が生成され、生成された画面v50が表示部102に表示される。
(ステップS502)
画面v50が生成され、生成された画面v50が表示部102に表示されると、表示装置100は、音声信号の受付を開始する。具体的には、信号取得部510が、集音装置110で集音された音声信号の取得を開始する。
(ステップS503)
信号取得部510は、音声信号の取得に係る処理を、音声認識処理が有効になっている限り(例えば、表示装置100が起動している限り)継続する(ステップS503、N)。
(ステップS520)
信号取得部510で音声信号が取得されることで音声信号が検知されると(ステップS503、Y)、表示装置100は、取得された音声信号に対して音声認識処理を施し、対応する音声情報を履歴情報として画面v50に表示させる。以降では、履歴情報の表示に係る動作について、図34を参照しながら説明する。図34は、本実施形態の実施例1に係る情報処理装置10の履歴情報の表示処理の一態様を示したフローチャートである。
(ステップS521)
信号取得部510は、集音装置110で集音された音声信号を取得すると、取得した音声信号を解析部530に出力する。信号取得部510から解析部530に出力された音声信号は、音声情報取得部531により、音声認識処理が施されて音声情報が生成される。生成された音声情報は、履歴として履歴記憶部550に記憶される。
また、信号取得部510は、音声信号を検知した旨を表示制御部521に通知する。信号取得部510から音声信号を検知した旨が通知されると、表示制御部521は、履歴情報取得部524を介して、履歴記憶部550に記憶された履歴を取得する。
(ステップS522)
履歴記憶部550から履歴を取得したら、表示制御部521は、取得した履歴に対応する履歴情報v521が画面上に表示されているか否かを確認する。
(ステップS523)
取得した履歴に対応する履歴情報v521が画面v50に表示されていない場合には(ステップS522、N)、表示制御部521は、取得した履歴に対応する履歴情報v521を生成し、生成した履歴情報に、取得した履歴を関連づけて画面v50に表示させる。なお、取得された履歴に対応する履歴情報v521が既に画面v50に表示されている場合には(ステップS522、Y)、表示制御部521は、履歴情報v521の生成及び表示に係る処理は実行しなくてもよい。
(ステップS509)
ここで、再度図33を参照する。音声信号を受け付けると、音声信号の受け付けに伴う履歴情報v521の表示に係る処理は、表示装置100の停止が選択されて一連の処理が終了しない限り継続される(ステップS509、N)。表示装置100の停止が選択されると、表示装置100は一連の処理を終了して停止する(ステップS509、Y)。
以上のように、本実施形態の実施例1に係る情報処理装置10は、集音された音声信号の認識結果として音声情報が取得されると、その音声情報に対応する処理やコンテンツを即座には実行せず、取得された音声情報を履歴として記憶する。そして、情報処理装置10は、記憶された履歴を、音声認識によりアクセス可能な表示情報として画面上に表示させる。これにより、音声入力を意図しない会話や環境音(例えば、TVから出力される音声)のような周囲の雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。
[3−5.第3の実施形態の実施例2]
{3−5−1.実施例2の概要}
次に、第3の実施形態の実施例2として、履歴情報v521に対して音声入力によりアクセスし、対応する履歴情報v521に関連付けられた履歴に対応する処理を実行するための情報処理装置の動作の一例について図35を参照しながら説明する。図35は、本実施形態の実施例2に係る表示の一態様を示した図であり、ユーザ1があらかじめ決められたキーワードを発話することで、各履歴情報v521に関連する関連情報v530を表示させ、表示された関連情報に対応する処理を情報処理装置10に実行させる例を示している。
図35に示す画面v53の例は、音声バーv510上に履歴情報v521a〜v521dが表示されている状態で、ユーザ1が「Actions」というあらかじめ決められたキーワードを発話した状態を示している。
本実施形態の実施例2に係る情報処理装置10では、表示制御部521は、ユーザ1により発話された内容が所定のキーワードに対応(一致)する場合に、画面v53に表示された各履歴情報v521に関連するコンテンツや処理に関する情報を関連情報v530として表示させる。
例えば、履歴情報v521aが音楽のアーティスト名を示す情報の場合には、表示制御部521は、そのアーティストが関わっている音楽(コンテンツ)の一覧を、関連情報v530aとして表示させる。また、履歴情報v521dがゲームのタイトル名を示す情報の場合には、表示制御部521は、そのゲームのシリーズの一覧を、関連情報v530dとして表示される。
なお、関連情報v530は、履歴情報v521が示す履歴に関連する情報が存在する場合にのみ表示される。そのため、履歴情報v521の中には関連情報v530が表示されないものが含まれていてもよい。例えば、履歴として記録される音声情報の中には、雑音のように意味をなさず、関連する情報が存在しない音声情報が含まれる場合がある。履歴情報v521bは、上述のように関連する情報が存在しない音声情報に対応する履歴情報v521を示している。関連する情報が存在しない音声情報の履歴情報v521については、表示制御部521は、ユーザ1がキーワードを発話したとしても、関連情報v530を表示させない。
図35の画面v53に示すように、関連情報v530が表示されている状態で、ユーザ1により、関連情報v530として表示されたコンテンツまたは処理のうち、いずれかに対応する語句が発話されると、表示制御部521は、その語句に対応するコンテンツまたは処理を、表示装置100の処理部(図示しない)に実行させる。例えば、図35の画面v55は、履歴情報v521bの関連情報v530bのうち、コンテンツv531bを示す語句が発話された場合の画面を示している。この場合には、表示制御部521は、処理部にコンテンツv531bを起動させ、コンテンツv531bに対応する表示情報v532bを表示させる。なお、コンテンツに対応する表示情報v532としては、例えば、そのコンテンツを起動するための起動画面や、そのコンテンツ自体の画面、またはそのコンテンツのアイコンのように、当該コンテンツに関係する表示情報を意味するものとする。
なお、各履歴情報v521について関連情報v530が表示されている状態で、ユーザ1により発話された語句に対応するコンテンツが存在しない場合には、解析部530により、その語句が所定のキーワードに対応するか否かが判定される。発話された語句が所定のキーワードに対応する場合には、表示制御部521は、そのキーワードに対応する処理を実行し、発話された語句がどのキーワードにも対応していない場合には、その語句に対応する履歴情報v521を新しく追加する。
{3−5−2.実施例2の動作}
次に、本実施形態の実施例2に係る情報処理装置10の動作について図36及び図37を参照しながら説明する。まず、図36を参照する。図36は、本実施形態の実施例2に係る情報処理装置10の情報の表示に係る動作の一例を示したフローチャートである。なお、以降では、実施例1と異なるステップS505以降の処理に着目して説明するものとし、実施例1と処理が同様の場合には詳細な説明は省略するものとする。
(ステップS505)
集音装置110で集音された音声信号が取得(検知)されると(ステップS503、Y)、信号取得部510は、取得された音声信号を解析部530に出力する。解析部530は、取得された音声信号を音声情報取得部531に出力する。音声情報取得部531は、取得された音声信号に音声認識処理を施して音声情報を生成する。音声情報取得部531は、生成された音声情報を発話内容解析部532に出力する。
発話内容解析部532は、取得された音声情報が、所定のキーワード(例えば、図35でユーザ1が発話している「Actions」)に一致するか否かを判定する。
(ステップS520)
取得された音声情報が所定のキーワードに一致しない場合には(ステップS505、N)、発話内容解析部532は、その音声情報を履歴として履歴記憶部550に記憶させる。なお、履歴記憶部550に記憶された履歴に対応する履歴情報v521の表示に係る処理は、実施例1と同様である(図34参照)。そのため、詳細な説明については省略するものとする。
(ステップS540)
取得された音声情報が所定のキーワードに一致する場合には(ステップS505、Y)、発話内容解析部532は、判定結果を解析結果取得部522に通知し、そのキーワードに対応する処理を示す情報を解析結果取得部522に出力する。例えば、図35に示す例のように、取得された音声情報が「Actions」というキーワードに一致する場合には、発話内容解析部532は、解析結果取得部522に「関連情報の生成及び表示」に係る処理を示す情報を出力する。以降では、キーワードに対応する処理として、「関連情報の生成及び表示」に係る処理が特定されたものとして説明する。
解析結果取得部522は、発話内容解析部532からの通知を受けて、取得されたキーワードに対応する処理を示す情報を表示制御部521に主力する。以降では、図37を参照しながら、取得された音声情報が所定のキーワードに一致する場合の動作について説明する。図37は、本実施形態の実施例2に係る情報処理装置10の所定語句に基づく処理の一態様を示したフローチャートである。
(ステップS541)
表示制御部521は、解析結果取得部522を介して発話内容解析部532から、所定のキーワードに対応する処理を示す情報を受けると、その情報が示す処理を実行する。
例えば、取得された音声情報が「Actions」というキーワードに一致する場合には、表示制御部521は、「関連情報の生成及び表示」に係る処理を示す情報を受ける。
表示制御部521は、発話内容解析部532から取得した「関連情報の生成及び表示」に係る処理を示す情報に従い、画面v50に表示された各履歴情報v521に関連する関連情報をコンテンツ情報取得部523に取得させる。具体的には、表示制御部521は、まず各履歴情報v521に関連付けられた履歴を抽出する。そして、表示制御部521は、抽出された履歴をコンテンツ情報取得部523に出力し、関連情報の取得を指示する。
表示制御部521から指示を受けると、コンテンツ情報取得部523は、あわせて取得した履歴(即ち、音声情報)を検索キーとして、コンテンツを取得するための検索条件を生成する。コンテンツ情報取得部523は、取得した履歴ごとに、生成した検索条件をコンテンツ特定部561に出力する。
コンテンツ特定部561は、コンテンツ情報取得部523から取得した検索条件に基づき、コンテンツDB560を検索し、検索条件に一致するコンテンツまたは処理(以降では、単に「コンテンツ」と呼ぶものとする)の一覧を抽出する。コンテンツ特定部561は、抽出したコンテンツの一覧を、検索条件に対する応答として、コンテンツ情報取得部523に出力する。コンテンツ情報取得部523は、コンテンツ特定部561から履歴ごとに取得したコンテンツの一覧を、対応する履歴ごとに表示制御部521に出力する。
表示制御部521は、履歴ごとに取得されたコンテンツの一覧を、その履歴に対応する履歴情報v521に関連付けて履歴情報v530として表示させる(図35参照)。
(ステップS542)
履歴情報v521ごとに関連情報v530が表示されると、表示装置100は、再度音声信号を受け付ける。
(ステップS543)
再び、集音装置110で音声信号が集音されると、集音された音声信号に基づき音声情報取得部531で音声情報が生成される。生成された音声情報は、解析結果取得部522を介して、表示制御部521に出力される。
(ステップS544)
表示制御部521は、音声情報取得部531から取得した音声情報を、各履歴情報v521の関連情報v530に含まれるコンテンツの一覧と比較し、取得された音声情報に対応する処理または一覧を特定する。
(ステップS545)
取得された音声情報に対応するコンテンツが特定できた場合には(ステップS544、Y)、表示制御部521は、表示装置100の処理部(図示しない)に特定したコンテンツを実行させ、そのコンテンツに対応する表示情報v532を表示させる。
なお、取得した音声情報に対応するコンテンツが特定できなかった場合には(ステップS544、N)、図36のステップS505に示す処理に遷移し、当該音声情報が所定のキーワードに一致するか否かの判定から行えばよい。なお、以降の処理については、本実施形態の実施例1に係る情報処理装置10と同様である。そのため、詳細な説明は省略する。
なお、上記に示した例では、所定のキーワードが発話された場合に、関連情報v530を表示させていたが、例えば、マウス、キーボード、タッチパネルのような操作部120を設け、所定の操作が行われた場合にも同様に関連情報v530を表示させてもよい。この場合には、図30に示すように、操作部120に対する操作内容が所定の操作か否かを判定する入力情報取得部525を設けるとよい。
操作部120に対してユーザ1から操作が行われると、操作内容を示す操作情報が操作部120から出力される。入力情報取得部525は、操作部120から出力された操作情報を検知し取得する。入力情報取得部525は、取得した操作情報が所定の操作内容を示すか否かを判定し、所定の操作内容を示す場合には、操作情報が所定の操作内容を示すことを表示制御部321に通知する。表示制御部321は、この通知を受けた場合に、「関連情報の生成及び表示」に係る処理を示す情報を受けた場合と同様に動作するようにするとよい。
また、入力情報取得部525を設ける場合には、解析結果取得部522は、「関連情報の生成及び表示」に係る処理を示す情報を入力情報取得部525に出力するように動作させてもよい。この場合には、入力情報取得部525は、「関連情報の生成及び表示」に係る処理を示す情報を受けた場合に、操作部120から所定の操作を示す操作情報が取得された場合と同様に認識し、表示制御部521に通知を行うようにするとよい。実施例2に係る情報処理装置10は、このような構成とすることで、表示制御部521に複雑な判定をさせずに処理を簡略化することが可能となる。
以上のように、本実施形態の実施例2に係る情報処理装置10は、あらかじめ決められたキーワードを発話することで、各履歴情報v521に関連する関連情報v530を表示させ、表示された関連情報に対応する処理を実行させる。実施例2に係る情報処理装置10は、このような構成とすることで、ユーザ1が意図したタイミングで、表示された履歴情報v521にアクセスし、その履歴情報v521に関連するコンテンツを起動することが可能となる。そのため、実施例2に係る情報処理装置10は、音声入力を意図しない会話や環境音のような周囲の雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止し、意図したタイミングで所望の処理を実行させることが可能となる。
[3−6.第3の実施形態の実施例3]
{3−6−1.実施例3の概要}
第3の実施形態の実施例3に係る情報処理装置10の具体的な一例について説明する。本実施形態の実施例3に係る情報処理装置10では、表示制御部521は、集音装置110から集音される音声信号の検知状況をモニタリングし、各タイミングで発話が行われていたか否か、即ち、音声信号が検知されていたか否かを識別可能に示した音声バーv510を表示させる。以降では、音声バーv510の詳細について、図38を参照しながら説明する。図38は、本実施形態の実施例3に係る音声バーv510の一態様を示した図である。
図38に示すように、音声バーv510は、発話中を示す領域v511と、無音区間を示す領域v512とを含んで構成される。領域v511は、音声信号が検知されている状況を示しており、領域v512は、音声信号が検知されていない状況を示している。図38に示す例では、横方向が時系列上の位置(タイミング)に対応している。具体的な一例として、図38に示す例では、音声バーv510の右端が現時点を示し、左方向に位置がずれるほど過去のタイミングを示している。
図38に示す例では、表示制御部521は、音声信号の検知状況に応じて、音声バーv510の右端から領域v511またはv512を表示させ、各領域を、時間の経過にあわせて左方向に移動させる。このように音声バーv510が表示されることで、ユーザ1は、音声信号が検知されたか否か(検知されていたか否か)を直感的に認識することが可能となる。
また、表示制御部521は、音声バーv510上に履歴情報v521を表示させてもよい。このとき、表示制御部521は、履歴情報v521を、その履歴情報v521に対応する音声情報が発話されたタイミングを示す領域v521に関連付けて表示させてもよい。このように履歴情報v521を表示させることで、ユーザ1は、各履歴情報v521に対応する音声情報が発話されたタイミングを直感的に認識することが可能となる。
また、図38に示す例では、表示制御部521は、音声バーv510上に履歴情報v521を表示させていたが、本開示は、必ずしもこの表示態様に限定されない。例えば、図39は、音声バーv510の別の一態様について示した図である。
図39に示す例では、表示制御部521は、発話中を示す領域v541と、無音区間を示す領域v542を含む音声バーv540を表示させる。表示制御部521は、発話中を示す領域v541に、発話中を示すアイコンv523aと、発話された音声情報の履歴を示す履歴情報v522aとを関連付けて表示させる。また、表示制御部521は、無音区間を示す領域v542には、無音区間を示すアイコンv523bを関連付けて表示させる。
なお、表示制御部521は、発話した内容に限らず、システム情報(即ち、所定の処理の実行に伴い処理部から通知された情報)を履歴情報として表示させてもよい。例えば、図39に示す例では、表示制御部521は、所定の処理としてユーザのログイン処理の結果を、その処理の結果が取得されたタイミングに対応する領域に関連付けて表示させている。具体的には、領域v543は、システム情報が取得されたことを示す領域である。表示制御部521は、領域v543に、システム情報(例えば、ユーザがログインしたことを示す情報)を履歴情報v522cとして関連付けて表示している。また、表示制御部521は、領域v543に、所定の処理の履歴であることを示すアイコンv523cを表示させてもよい。なお、システム情報を履歴情報として表示させる例の詳細については、実施例4でも説明する。
なお、領域v511と領域v512との識別が可能であれば、各領域の表示態様は限定されない。例えば、図38に示すように、表示制御部521は、領域v511と領域v512とを異なる色で表示させてもよい。また、表示制御部521は、領域v511及びv512に表示させる色を、時間の経過に伴い色相や濃淡が変化するように表示させてもよい。このように領域v511及びv512の色が時間の経過に伴い変化することで、ユーザ1は、音声信号のモニタリングが継続されている(音声認識処理が動作している)ことを直感的に認識することが可能となる。
また、表示制御部521は、発話中を示す領域v511の色を、領域ごとにランダムで決定してもよい。この場合には、表示制御部521は、各領域に識別子(例えば、ランダムに決定した識別子)を関連付け、その識別子に応じた色を表示させればよい。
また、表示制御部521は、領域v511及びv512の長さに応じて色を変化させてもよい。この場合には、表示制御部521に計時部を設け、表示制御部521は、発話が継続されている状態、及び、無音状態のそれぞれの継続時間を計測し、その計測値に応じて色を決定すればよい。
また、表示制御部521は、検知された音声信号のレベルに応じて色を変化させてもよい。例えば、表示制御部521は、音声信号のレベルが大きい場合には赤やオレンジのような暖色系の色を表示させ、音声信号のレベルが小さくなるにつれて寒色系の色、または、グレー系のように彩度の低い色に変化するように表示させてもよい。なお、音声信号のレベルは、解析部530のレベル解析部533に解析させればよい。
また、表示制御部521は、音声信号のレベルに限らず、例えば、音声信号の周波数に応じて色を変化させてもよい。この場合には、解析部530に、音声信号の周波数解析を行える構成を設ければよい。このように、音声信号の周波数に応じて色を変化させることで、表示制御部521は、例えば、男性が発話した場合と女性が発話した場合とを識別可能に表示させることが可能となる。
また、表示制御部521は、発話したユーザに応じて、領域v511の色を変化させてもよい。この場合には、表示制御部521は、例えば、情報処理装置10にログインしているユーザのログイン情報に基づき、情報処理装置10を操作しているユーザを特定してもよい。
また、音声認識処理に用いる音声認識エンジンの中には、認識された音声情報の信頼度(確度)を示す情報をスコア値として出力できるものがある。そのため、スコア値を出力できる音声認識エンジンが使用されている場合には、表示制御部521は、音声認識エンジンから出力されるスコア値に応じて、各領域v511の色を変化させてもよい。このように、スコア値に応じて色を変化させることで、ユーザ1は、そのタイミングで認識された音声情報の信頼度を直感的に認識することが可能となる。
また、集音装置110を複数設けている場合には、表示制御部521は、音声信号が集音された集音装置110に応じて色を変化させてもよい。例えば、各集音装置110の位置情報を、表示制御部521にあらかじめ記憶させておくことで、表示制御部521は、音声信号の音源の方向や距離に応じて色を変化させることも可能となる。また、複数のユーザがそれぞれ異なる集音装置110を使用しているような場合には、表示制御部521は、音声信号が集音された集音装置110に応じて、発話したユーザを識別可能に提示することが可能となる。なお、複数ユーザによる操作の一例については、実施例8でも説明する。
また、図39に示すように、システム情報についても表示させる場合には、表示制御部521は、その処理の種別に応じて、対応する領域の色を変えて表示させてもよい。具体的な一例として、表示制御部521は、「ゲームの起動」、「録画再生」、「音楽再生」、「メッセージの受信」のような処理のジャンルに応じて、処理の種別を分けるようにしてもよい。
また、表示制御部521は、例えば「AH...」のように意味をなさない音声情報を無効な認識結果として識別し、無効な認識結果に対応する履歴情報を表示させなくてもよい。また、表示制御部521は、無効な認識結果に対応する履歴情報を、例えばグレーアウトさせて表示させる等のように、他の履歴情報と識別可能に表示させてもよい。また、表示制御部521は、無効な認識結果に対応する音声バーの領域を無効領域として、他の領域(発話中を示す領域や無音区間の領域)と識別可能に表示させてもよい。このとき、表示制御部521は、無効領域以外の他の領域が強調されるように、無効領域を例えばグレー系の色で表示させてもよい。なお、対象となる音声情報が無効な認識結果か否かは、例えば、解析部530が、辞書データと比較することで判定して表示制御部521に通知すればよい。このように、意味をなさない音声情報を無効な認識結果として、対応する領域や履歴情報を、表示させない、または、他の音声情報と識別可能に表示させることで、意味をなす音声情報に対応する領域や履歴情報をより強調して表示させることが可能となる。
また、表示制御部521は、音声バーや履歴情報を、所望のタイミングでのみ表示させてもよい。具体的な一例として、表示制御部521は、ユーザ1から所定の操作(例えば、操作部120を介した操作や、所定のキーワードの発話)が行われた場合に音声バーや履歴情報を表示させ、ユーザからの操作が行われていない場合には音声バーや履歴情報を非表示としてもよい。また、他の一例として、表示制御部521は、所定のレベル以上の音声信号の入力が検知された場合に、音声バーや履歴情報を表示させるように動作してもよい。このように、所定の操作が認識された場合、即ち、ユーザ1が操作を所望する場合にのみ音声バーや履歴情報を表示させることで、必要以上に画面が煩雑になることを防止することが可能となる。
{3−6−2.実施例3の動作}
次に、本実施形態の実施例2に係る情報処理装置10の動作について図40を参照しながら、図38に示す音声バーv510を表示させる場合を例に説明する。図40は、本実施形態の実施例3に係る情報処理装置10の情報の表示に係る動作の一例を示したフローチャートである。なお、ここでは、実施例2(図36参照)とは異なるステップS502、S503、S561、及びS562に係る処理に着目して説明することとし、その他の処理については実施例2と同様のため詳細な説明は省略する。
(ステップS502)
画面v50が生成され、生成された画面v50が表示部102に表示されると、表示装置100は、音声信号の受付を開始する。具体的には、信号取得部510が、集音装置110で集音された音声信号の取得を開始する。信号取得部510は、音声信号の取得に係る処理を、表示装置100が起動している限り(厳密には、音声認識処理が有効になっている限り)継続する。
(ステップS562)
信号取得部510から、音声信号の取得が通知されない間(ステップS503、N)は、表示制御部521は、音声バーv510に、無音区間を示す領域v512を表示させる。なお、このとき表示制御部521は、領域v512を開始してから経過した時間に応じて、領域v512の表示態様を変化させてもよい。
(ステップS561)
音声信号が検知されると(ステップS503、Y)、音声信号が検知されている間は、信号取得部510から表示制御部521に音声信号を検知した旨が通知される。信号取得部510から、音声信号の取得が通知されている間(ステップS503、Y)は、表示制御部521は、音声バーv510に、発話中を示す領域v511を表示させる。
なお、信号取得部510から通知を受けた場合に、表示制御部521は、解析結果取得部522を介して、解析部530から音声信号の解析結果を取得するようにしてもよい。この場合には、表示制御部521は、解析結果に応じて領域v511の表示態様を変更してもよい。具体的な一例として、表示制御部521は、解析結果として音声信号のレベルを示す情報を取得することで、音声信号のレベルに応じて領域v511の色を変化させることが可能となる。
なお、以降の処理については、実施例2(図36参照)と同様である。そのため、詳細な説明は省略する。
以上のように、本実施形態の実施例3に係る情報処理装置10は、集音装置110から集音される音声信号の検知状況をモニタリングし、各タイミングで発話が行われていたか否かを識別可能に示した音声バーv510を表示させる。これにより、ユーザ1は、発話した音声が情報処理装置10により認識されているか否かを直感的に識別することが可能となる。
[3−7.第3の実施形態の実施例4]
第3の実施形態の実施例4に係る情報処理装置10の具体的な一例について説明する。本実施形態の実施例4に係る情報処理装置10では、表示制御部521は、音声情報の履歴に加えて、システム情報(即ち、所定の処理の実行に伴い処理部から通知された情報)を履歴情報として提示する。システム情報として、例えば、「ユーザがログインした場合」や「メールを受信した場合」のように、あらかじめ決められた処理が実行された場合に出力される情報が含まれる。以降では、履歴情報を提示するための一例について、図41を参照しながら説明する。図41は、本実施形態の実施例4に係る表示の一態様を示した図である。なお、図41に示す例に限らず、表示制御部521は、システム情報に対応する履歴情報を、実施例1、3に示すように提示してもよい。
図41に示す例では、表示制御部521は、履歴情報v524をメッセージウィンドゥとして時系列順に並べて表示させる。方向d54は、時系列に沿った方向を示しており、下端が最も新しく、上側に配置された履歴情報v524ほど古い履歴を示している。履歴情報の中には、音声情報の履歴に対応した履歴情報v524と、システム情報に対応する履歴情報v524とが含まれる。例えば、履歴情報v524aは、ユーザ1が過去に発話した「TV」という音声情報の履歴に対応している。また、履歴情報v524cは、「Michelがログオンした」ことを示す処理に対応している。
また表示制御部521は、実施例3と同様に、無音区間を識別可能に表示させてもよい。例えば、履歴情報v524が表示されていない領域v524bは、音声信号が検知されていない無音区間を示している。なお、無音区間の検知方法は、実施例3と同様の方法を用いればよい。もちろん、表示制御部521は、無音区間を示す領域v524bを表示させずに、履歴情報v524を時系列に沿って並べて表示させてもよい。
なお、システム情報は、システム情報取得部570が、履歴記憶部550に履歴として記憶させる。具体的には、情報処理装置10の処理部(図示しない)により所定の処理が実行されると、その処理に対応するシステム情報がシステム情報取得部570に出力される。そして、システム情報取得部570は、取得したシステム情報を、履歴記憶部550に履歴として記憶させる。これにより、履歴記憶部550には、音声情報の履歴に加えて、システム情報の履歴が記憶される。このとき、履歴記憶部550は、音声情報の履歴と、システム情報との履歴を識別可能に記憶してもよい。
履歴記憶部550に記憶された、システム情報の履歴は、音声情報の履歴と同様に、履歴情報取得部524により読み出される。履歴情報取得部524により読み出された履歴は、表示制御部521により履歴情報v524として画面に表示される。このとき、表示制御部521は、音声情報に対応する履歴情報v524と、システム情報に対応する履歴情報v524とを識別可能に表示させてもよい。
例えば、図41に示す例では、表示制御部521は、音声情報とシステム情報とのいずれに対応する履歴情報v524かに応じて、その履歴情報v524を左寄りに表示させるか、右寄りに表示させるかを切り替えている。また、実施例3の図39に示す例のように、表示制御部521は、対応する領域の色を変えることで、音声情報に対応する履歴情報v524と、システム情報に対応する履歴情報v524とを識別可能に表示させてもよい。
また、表示制御部521は、音声情報とシステム情報とのいずれに対応する履歴情報かに応じて、各履歴情報の表示領域を変更してもよい。例えば、実施例3の図39に示すように、バー状の表示態様で示す場合には、音声情報に対応する履歴情報と、システム情報に対応する履歴情報とを異なるバー上に表示させてもよい。
以上のように、実施例4に係る情報処理装置10は、音声情報に対応する履歴情報とあわせて、システム情報に対応する履歴情報を表示させる。このような構成により、音声情報に関連するコンテンツと同様に、システム情報に関連するコンテンツを参照し、所望のコンテンツを実行することが可能となる。また、音声情報及びシステム情報のそれぞれに対応する履歴情報が時系列に沿って並べて表示されるため、ユーザ1は、各情報が取得されたタイミングを直感的に識別することが可能となる。
[3−8.第3の実施形態の実施例5]
{3−8−1.実施例5の概要}
第3の実施形態の実施例5に係る情報処理装置10の具体的な一例について説明する。履歴の追加に伴い、画面上に表示される履歴情報の数が増えると、画面が煩雑になり各履歴情報を識別することが困難となる場合がある。そこで、本実施形態の実施例5に係る情報処理装置10では、表示制御部521は、画面に表示される履歴情報の数が所定数を超えた場合に、表示される履歴情報の数が所定数以下となるように一部の履歴に対応する履歴情報を非表示とする。このように一度に表示される履歴情報の数を制限することで、履歴情報の増加に伴い画面が煩雑になることを防止することが可能となる。以降では、本実施形態の実施例5に係る情報処理装置10の一態様について、図42を参照しながら説明する。図42は、本実施形態の実施例5に係る表示の一態様を示した図である。
図42に示す例は、画面v50の音声バーv510上に履歴情報v521a〜v521dが表示されている状態で、表示制御部521が、ユーザ1の発話に基づき、履歴情報v521eが追加表示させた場合を示している。なお、履歴情報v521a〜v521dは、履歴情報v521aが最も古い履歴に対応しており、v521b、v521c、v521dの順に新しい履歴に対応しているものとする。また、図42に示す例では、表示制御部521は、同時に表示できる履歴情報v521の数の最大値(以降では、「最大表示数」と呼ぶ)を「4」に設定しているものとする。
履歴情報v521eが、音声バーv510上に追加されると、表示されている履歴情報v521の数が「5」となり最大表示数を超える。このような場合には、表示制御部521は、既に表示されている履歴情報v521a〜v521dのうち、いずれかの履歴情報v521を非表示とする。具体的な一例として、図42に示す例では、表示制御部521は、対応する履歴が記録されたタイミングが最も古い履歴情報v521aを非表示としている。
なお、非表示とする履歴情報v521は、対応する履歴が記録されたタイミングに限定はされない。他の一例として、表示制御部521は、履歴が取得された数(即ち、音声情報として発話された回数)の大小に応じて、非表示とする履歴情報v521を特定してもよい。例えば、表示制御部521は、履歴が取得された数が最も少ない履歴情報v521を優先して非表示とすることで、発話数の多い音声情報、即ち、ユーザにより着目されている音声情報に対応する履歴情報v521を優先して表示してもよい。なお、表示制御部521が、取得された数を判定する期間は、運用に応じて適宜変更できるようにしてもよい。例えば、表示制御部521は、過去に取得された全ての履歴について判定を行ってもよいし、現時点を基準として直近の所定期間(例えば、直近の1週間)に取得された履歴について判定を行ってもよい。
また、他の一例として、ユーザ1があらかじめ優先して表示させる音声情報を登録できるようにしてもよい。この場合には、表示制御部521は、登録された音声情報の履歴に対応する履歴情報v521以外の他の履歴情報v521から、非表示とする履歴情報v521を特定するようにしてもよい。これにより、例えば、ユーザ1が、所望の音声情報をお気に入りとして登録しておくことで、表示制御部521は、登録された音声情報に対応する履歴情報v521を優先して表示させることが可能となる。
また、履歴情報の表示態様は図42の例(即ち、実施例1に対応する図31の例)に限定されない。例えば、実施例3に示した図39の例に適用してもよい。この場合には、表示制御部521は、履歴情報v522が関連付けられた領域v541の数が最大表示数以下となるように表示を制御すればよい。また、実施例4に示した図41の例に適用してもよい。この場合には、表示制御部521は、ウィンドゥとして表示された履歴情報v524の数が最大表示数以下となるように表示を制御すればよい。
また、上記では最大表示数を制限する例について説明したが、表示制御部521は、最大表示数を制限せずに、履歴情報v521を表示させるサイズを縮小することで、全ての履歴情報v521を表示させてもよい。このように履歴情報v521のサイズを変更して表示させることで、履歴情報v521の数が増えたとしても、各履歴情報v521を重畳させずに表示させることが可能となる。一方で、履歴情報v521のサイズを縮小すると、個々の履歴情報v521を認識するのが困難になる場合がある。そのため、表示制御部521は、最大縮小率をあらかじめ決めて、履歴情報v521のサイズが最大縮小率を超えて縮小されないように制御してもよい。
なお、表示制御部521は、履歴情報v521のサイズを、最大縮小率を超えて縮小させなければ新たに履歴情報v521を表示するスペースが確保できない場合には、履歴情報v521のサイズ変更に替えて、一部の履歴情報v521を非表示としてもよい。表示制御部521が非表示とする履歴情報v521の選定基準は、最大表示数以下となるように制御する場合と同様に決定すればよい。
また、表示制御部521は、履歴情報の縮小率と表示数との双方をパラメータとして、画面v50に表示させる履歴情報v521の数やサイズを適宜変更するようにしてもよい。例えば、表示制御部521は、履歴情報の縮小率に応じて、最大表示数を段階的に設けてもよい。具体的には、表示制御部521は、履歴情報のサイズを「大」「中」「小」の3段階に分けて、サイズが「大」に相当する場合には最大表示数を小さく設定し、履歴情報のサイズが「中」「小」と変化した場合に、各サイズに応じて最大表示数を動的に変更してもよい。同様に、表示制御部521は、履歴情報の表示数に応じて、各履歴情報を表示させるサイズを段階的に変化させてもよい。具体的には、表示制御部521は、履歴情報の数が5個以下の場合は、各履歴情報のサイズを「大」に設定し、履歴情報の数が6〜10個、11個以上と変化するにつれて、各履歴情報のサイズを「中」、「小」と段階的に変化させてもよい。
{3−8−2.実施例5の動作}
次に、本実施形態の実施例5に係る情報処理装置10の動作について、図43を参照しながら説明する。図43は、本実施形態の実施例5に係る情報処理装置10の履歴情報の表示処理(即ち、図33、図36、及び図40におけるステップS520の処理)の一態様を示したフローチャートである。なお、以降では、前述した実施例1〜4とは異なる、履歴情報の表示に係る動作に着目して説明するものとし、他の動作については詳細な説明は省略するものとする。
(ステップS521)
信号取得部510は、集音装置110で集音された音声信号を取得すると、取得した音声信号を解析部530に出力する。信号取得部510から解析部530に出力された音声信号は、音声情報取得部531により、音声認識処理が施されて音声情報となる。生成された音声情報は、発話内容解析部532で意味解釈された後に、履歴として履歴記憶部550に記憶される。
また、信号取得部510は、音声信号が検知された旨を表示制御部521に通知する。信号取得部510から音声信号を検知した旨が通知されると、表示制御部521は、履歴情報取得部524を介して、履歴記憶部550に記憶された履歴を取得する。
(ステップS522)
履歴記憶部550から履歴を取得したら、表示制御部521は、取得した履歴に対応する履歴情報v521が画面上に表示されているか否かを確認する。
(ステップS523)
取得された履歴に対応する履歴情報v521が画面v50に表示されていない場合には(ステップS522、N)、表示制御部521は、取得した履歴に対応する履歴情報v521を生成し、生成した履歴情報v521に取得した履歴を関連づけて画面v50に表示させる。なお、取得した履歴に対応する履歴情報v521が既に画面v50に表示されている場合には(ステップS522、Y)、履歴情報v521の生成及び表示に係る処理は実行されなくてもよい。
(ステップS524)
次に、表示制御部521は、画面v50に表示されている履歴情報v521の数が最大表示数を超えるか否かを判定する。
(ステップS525)
履歴情報v521の数が最大表示数を超える場合には(ステップS524、Y)、表示制御部521は、既に表示されていた履歴情報v521のうちいずれかの履歴情報v521を非表示とする。具体的な一例として、表示制御部521は、表示されている履歴情報v521のうち、対応する履歴が記録されたタイミングが最も古い履歴情報v521を非表示とする。なお、履歴情報v521の数が最大表示数を超えない場合には(ステップS524、N)、履歴情報v521を非表示とする処理は実行されない。
以上のように、本実施形態の実施例5に係る情報処理装置10は、画面に表示される履歴情報の数が最大表示数を超えた場合に、表示される履歴情報の数が最大表示数以下となるように一部の履歴に対応する履歴情報を非表示とする。これより、新たに履歴情報が追加された場合においても、同時に表示される履歴情報の数が最大表示数を超えることはないため、表示された履歴情報の増加に伴い画面が煩雑になる事態を防止することが可能となる。
[3−9.第3の実施形態の実施例6]
{3−9−1.実施例6の概要}
実施例5では、画面に表示された履歴情報の数が最大表示数以下となるように、一部の履歴情報を非表示とする例について説明した。また、実施例5で示した例に限らず、例えば、履歴情報がスクロール移動に伴い画面外に消えた場合に再度表示させないように動作させることも可能である。そこで、第3の実施形態の実施例6では、このように非表示となった履歴情報を再度アクセス可能に表示させる場合の一例について、図44を参照しながら説明する。図44は、本実施形態の実施例6に係る表示の一態様を示した図である。
図44に示す例では、履歴情報v521a〜v521eが画面v50の音声バーv510上に追加され、履歴情報v521の表示数が最大表示数の「4」を超えたため、履歴情報v521aが非表示となった状態を示している。
本実施形態の実施例6に係る情報処理装置10では、表示制御部521は、一部の履歴情報v521が非表示となっている状態で、ユーザ1が、あらかじめ決められた操作を実行すると、非表示となっている履歴情報v521を再度表示させる。具体的な一例として、図44に示す例では、表示制御部521は、ユーザ1が所定のキーワード「List」を発話したことを検知した場合に、非表示となっている履歴情報v521aを再度表示させる。このように所定の操作に基づき非表示となっている履歴情報を表示させることで、ユーザ1は、非表示となっていた履歴情報v521aに再度アクセスすることが可能となる。
なお、図44に示す例では、ユーザ1が所定のキーワードを発話した場合に、非表示となっている履歴情報v521を再度表示させる例について説明したが、非表示となっている履歴情報v521を再度表示させる契機を特定できれば、この例には限定されない。他の一例として、表示制御部521は、ユーザ1が、操作部120に対して所定の操作を行った場合を契機に、非表示となっている履歴情報v521を再度表示させてもよい。この場合には、入力情報取得部525が、操作部120に対する操作の内容を解析することで、所定の操作が行われたことを検知して、検知結果を通知すればよい。また、このとき入力情報取得部525は、表示制御部521に対して、所定のキーワード(例えば、「List」)に対応する音声情報が取得された場合と同様の通知を行ってもよい。
なお、所定の操作の具体的な一例としては、操作部120がタッチパネルやタッチパッドのような場合には、所定のパターンのスライド操作やタップ操作が挙げられる。また、操作部120が加速度センサのようなセンサを内蔵している場合には、入力情報取得部525は、所定のジェスチャー操作を、所定の操作として認識してもよい。また、操作部120がキーボードやマウスのような場合には、入力情報取得部525は、所定のボタンが押下された場合を、所定の操作として認識してもよい。
{3−9−2.実施例6の動作}
次に、本実施形態の実施例6に係る情報処理装置10の動作について、図45を参照しながら説明する。図45は、本実施形態の実施例6に係る情報処理装置10の所定語句に基づく処理(即ち、図36及び図40におけるステップS540の処理)の一態様を示したフローチャートである。なお、以降では、前述した実施例2、3とは異なる、所定語句に基づく処理に着目して説明するものとし、他の動作については詳細な説明は省略するものとする。
(ステップS581)
発話内容解析部532は、集音装置110で集音された音声信号に基づき取得された音声情報が所定のキーワードに一致するか否かを判定する。取得された音声情報が所定のキーワードに一致する場合には、発話内容解析部532は、判定結果を解析結果取得部522に通知し、そのキーワードに対応する処理を示す情報を解析結果取得部522に出力する。例えば、取得された音声情報が「List」というキーワードに一致する場合には、発話内容解析部532は、解析結果取得部522に「非表示となった履歴情報の再表示」に係る処理を示す情報を出力する。また、実施例2(図35参照)に示した例のように、取得された音声情報が「Actions」というキーワードに一致する場合には、解析結果取得部522に「関連情報の生成及び表示」に係る処理を示す情報を出力するように動作させてもよい。
(ステップS582)
取得された音声情報が「非表示となった履歴情報の再表示」に対応するキーワードに一致する場合には(ステップS581、Y)、表示制御部521は、解析結果取得部522を介して発話内容解析部532から「非表示となった履歴情報の再表示」に係る処理を示す情報を受ける。この指示を受けると、表示制御部521は、通知された情報に基づき、非表示となっている履歴情報v521を再度表示させる。
(ステップS581)
なお、取得された音声情報が「非表示となった履歴情報の再表示」に対応するキーワードとは異なる他のキーワードに一致する場合には(ステップS581、N)、表示制御部521は、当該キーワードに対応する処理を示す情報を受ける。この場合についても同様に、表示制御部521は、通知された情報に基づき、対応する処理を実行するように動作させればよい。
具体的な一例として、図45に示す例では、「関連情報の生成及び表示」に対応するキーワード(「Actions」)に一致する場合を示している。この場合には、表示制御部521は、解析結果取得部522を介して発話内容解析部532から通知された、「関連情報の生成及び表示」に対応する処理を示す情報に基づき、ステップS541〜S545で示された、「関連情報の生成及び表示」に係る処理を実行すればよい。なお、ステップS541〜S545に係る処理については、実施例2(図37参照)と同様のため詳細な説明は省略する。
以上のように、本実施形態の実施例6に係る情報処理装置10は、ユーザ1による所定の操作が検知された場合に、非表示となった履歴情報を再度アクセス可能に表示させる。このような構成により、新たな履歴情報の追加に伴い一部の履歴情報が非表示となった場合においても、ユーザ1は、非表示となっていた履歴情報を再度表示させ、表示された履歴情報にアクセスすることが可能となる。
[3−10.第3の実施形態の実施例7]
第3の実施形態の実施例7に係る情報処理装置10の具体的な一例について説明する。
本実施形態の実施例7に係る情報処理装置10では、表示制御部521は、例えば、「面白いゲームない?」といった問い合わせを意味する音声情報が取得された場合に、その問い合わせに対する応答を、履歴情報や関連情報として提示する。具体的には、表示制御部521は、問い合わせを意味する音声情報が取得された場合に、その問合せに対して実行すべき処理(例えば、「ストアで人気のゲームを提示する」処理)を特定し、特定された処理の結果を、履歴情報を介して提示する。以降では、本実施形態の実施例7に係る情報処理装置10の一態様について、図46を参照しながら説明する。図46は、本実施形態の実施例7に係る表示の一態様を示した図である。
図46に示す例は、ユーザ1が「面白いゲームない?」といった問い合わせを意味する内容を発話し、その後に、関連情報を表示するための「Actions」というキーワードを発話した状況を示している。
図46に示すように、ユーザ1が「面白いゲームない?」といった問い合わせを意味する内容を発話すると、表示制御部521は、その問合せに対する応答を意味する「HIT GAME LIST」という語句が提示された履歴情報v527を表示させる。
履歴情報v527が表示された状態で、ユーザ1が「Actions」というキーワードを発話すると、表示制御部521は、ストアで人気のゲームを検索し、対応するコンテンツv531を関連情報v530として表示させる。
以下に、本実施形態の実施例7に係る情報処理装置10の具体的な動作について、図46に示す例に基づき説明する。
ユーザ1により発話された音声信号は、集音装置110により集音され、信号取得部510により取得される。信号取得部510により取得された音声信号は、解析部530の音声情報取得部531により、音声認識処理が施されて音声情報が生成される。音声情報取得部531は、生成された音声情報を発話内容解析部532に出力する。ここまでの処理は、上述した各実施例と同様である。
発話内容解析部532は、音声情報取得部531から取得した音声情報を、形態素解析や構文解析のような自然言語処理を用いて解析し、その音声情報が問合せを意味する音声情報か否かを判定する。
また、発話内容解析部532は、あらかじめ決められた(想定される)問合せを意味する音声情報と、その問合せに対する応答を意味する語句、及び、応答に対応する処理を示す情報を関連付けてリストとして記憶している。
音声情報が問合せを意味する音声情報であると認識した場合に、発話内容解析部532は、当該音声情報をリストと比較して、その問合せを意味する音声情報に関連付けられた応答を意味する音声情報と、その応答に対応する処理とを特定する。そして、発話内容解析部532は、その取得された音声情報に、特定された応答を意味する語句を関連付けて、履歴記憶部550に履歴として記録する。
また、発話内容解析部532は、特定された処理を示す情報を、解析結果取得部522を介して表示制御部521に通知する。例えば、問合せを意味する音声情報が「面白いゲームない?」の場合には、発話内容解析部532は、「ストアで人気のゲームを提示する」処理を示す情報を表示制御部521に通知する。このとき、発話内容解析部532は、音声情報が所定のキーワードと一致する場合と区別するために、通知する情報が、問合せを意味する音声情報に対する応答に対応した処理であることを、表示制御部521にあわせて通知してもよい。なお、以降では、問合せを意味する音声情報が「面白いゲームない?」を意味するものとし、発話内容解析部532は、表示制御部521に、「ストアで人気のゲームを提示する」処理を示す情報を通知したものとして説明する。
また、信号取得部510は、音声信号が検知された旨を表示制御部521に通知する。信号取得部510から音声信号を検知した旨が通知されると、表示制御部521は、履歴情報取得部524を介して、履歴記憶部550に記憶された履歴を取得する。表示制御部521は、取得された履歴に対応する履歴情報v521を生成する。
このとき、取得された履歴が、問合せを意味する音声情報に対応している場合には、その取得された履歴に応答を意味する語句が関連付けられている場合がある。この場合には、表示制御部521は、生成された履歴情報v521に、対応する履歴に関連付けられた応答を意味する語句を提示してもよい。例えば、図46に示す例では、「面白いゲームない?」という音声情報の履歴に対して、「HIT GAME LIST」という応答を意味する語句が関連付けられている。この場合には、表示制御部521は、履歴情報v521に、「HIT GAME LIST」という応答を意味する語句が提示された、履歴情報v527を生成している。
また、表示制御部521は、「面白いゲームない?」という音声情報の解析結果として、発話内容解析部532から、「ストアで人気のゲームを提示する」処理を示す情報を受ける。表示制御部521は、発話内容解析部532から取得した「ストアで人気のゲームを提示する」処理を示す情報を、生成された履歴情報v527に関連付ける。表示制御部521は、発話内容解析部532から取得した情報が関連付けられた履歴情報v527を、画面v50の音声バーv510上に表示させる。
次に、履歴情報v527が表示された状態で、ユーザ1により「Actions」というキーワードが発話された場合の動作について説明する。ユーザ1により「Actions」というキーワードが発話されると、上記の実施例で示したように、発話内容解析部532から表示制御部521に「関連情報の生成及び表示」に係る処理を示す情報が出力される。
表示制御部521は、発話内容解析部532から取得した「関連情報の生成及び表示」に係る処理を示す情報に従い、各履歴情報v521に関連する関連情報をコンテンツ情報取得部523に取得させる。また、表示制御部521は、履歴情報v527のように、所定の処理(例えば、「ストアで人気のゲームを提示する」処理)を示す情報が関連付けられている場合には、当該処理に対応する関連情報をコンテンツ情報取得部523に取得させる。例えば、「ストアで人気のゲームを提示する」処理の場合には、表示制御部521は、コンテンツ情報取得部523に、「ストアで人気のゲーム」を検索し対応するコンテンツを取得するための検索式を生成させる。
コンテンツ情報取得部523は、表示制御部521の指示に基づき生成された検索式をコンテンツ特定部561に出力する。コンテンツ特定部561は、コンテンツ情報取得部523から取得した検索式に一致するコンテンツの情報をコンテンツDB560から抽出する。これにより、「ストアで人気のゲーム」に対応するコンテンツの情報が抽出される。
コンテンツ特定部561は、コンテンツDB560から抽出されたコンテンツの一覧を、コンテンツ情報取得部523に出力する。コンテンツ情報取得部523は、コンテンツ特定部561から履歴ごとに取得したコンテンツの一覧を、対応する履歴ごとに表示制御部521に出力する。これにより、表示制御部521は、「HIT GAME LIST」として示された履歴情報v527に対応する情報として、ストアで人気のゲームに対応するコンテンツの一覧をコンテンツ情報取得部523から取得する。
表示制御部521は、履歴ごとに取得されたコンテンツの一覧を、その履歴に対応する履歴情報v527に関連付けて関連情報v530として表示させる。例えば、図46に示す例では、表示制御部521は、取得された「ストアで人気のゲーム」に対応するコンテンツv531の一覧を、関連情報v530として、履歴情報v527に関連付けて表示させている。
なお、問合せに対応する音声情報は、上記に示した例に限られない。例えば、「楽しい感じの音楽を流してくれない?」といった問い合わせの場合には、特定のジャンル(例えば、ジャズ)の音楽に関連するコンテンツが抽出されるように、発話内容解析部532、表示制御部521、コンテンツ情報取得部523、及びコンテンツ特定部561を動作させればよい。
また、「昨日ゲームどこまでやったっけ?」という、ユーザ1の利用履歴に関連する問合せに対して応答できるようにしてもよい。この場合には、コンテンツDB560に記憶された各コンテンツの利用履歴や、履歴記憶部550に記憶された音声情報の履歴に基づき、対応するコンテンツの情報が抽出されるように動作させればよい。
また、対応するコンテンツを実際に動作させ、その結果を出力できるようにしてもよい。具体的な一例として、「今日の天気は?」という問合せに対して、天気を検索するコンテンツを実行させ、その結果を取得する処理を関連付けておくことで、天気の検索結果をユーザ1に提示することが可能となる。
以上のように、本実施形態の実施例7に係る情報処理装置10では、表示制御部521は、例えば、「面白いゲームない?」といった問い合わせを意味する音声情報を取得した場合に、その問い合わせに対する応答を、履歴情報や関連情報として提示する。これにより、ユーザ1は、所望の処理を実行させるために、処理を命令内容を考えて発話する必要が無くなり、より直感的に操作を行うことが可能となる。
[3−11.第3の実施形態の実施例8]
{3−11−1.実施例8の概要}
第3の実施形態の実施例8に係る情報処理装置10の具体的な一例について説明する。本実施形態の実施例8に係る情報処理装置10では、異なる複数のユーザが、それぞれ異なる集音装置110を介して音声入力を行い、表示制御部521は、各ユーザの発話に基づく音声情報の履歴を履歴情報として識別可能に表示させる。以降では、本実施形態の実施例8に係る情報処理装置10の一態様について、図47を参照しながら説明する。図47は、本実施形態の実施例8に係る表示の一態様を示した図である。
図47に示す例は、音声バーv510及び履歴情報v521が表示された画面v50に対して、ユーザ1a及び1bが、それぞれ異なる集音装置110を介して音声入力を行う場合について示している。具体的には、図47に示す例は、まずユーザ1aが音声入力を行い、次いで、ユーザ1bが音声入力を行った場合を示している。また、図47において、履歴情報v528aは、ユーザ1aの発話に基づく履歴情報を示しており、履歴情報v528bは、ユーザ1bの発話に基づく履歴情報を示している。
なお、以降の説明では、ユーザ1aが操作する集音装置110を「集音装置110a」とし、ユーザ1bが操作する集音装置110を「集音装置110b」として説明する。また、特に集音装置110a及び110bを区別する必要が無い場合には、単に「集音装置110」と記すものとする。
ユーザ1aが、集音装置110aに対して音声入力を行うと、集音装置110aで集音された音声信号は解析部530で音声情報に変換され、履歴として履歴記憶部550に記憶される。そして、表示制御部521が、この履歴を読み出し、履歴情報v528aとして、画面v50に表示された音声バーv510上に表示させる。
次いで、ユーザ1bが、集音装置110bに対して音声入力を行うと、集音装置110bで集音された音声信号は解析部530で音声情報に変換され、履歴として履歴記憶部550に記憶される。そして、表示制御部521が、この履歴を読み出し、履歴情報v528bとして、画面v50に表示された音声バーv510上に表示させる。このとき、履歴情報v528bに対応する履歴は、履歴情報v528aに対応する履歴よりも新しい。そのため、表示制御部521は、履歴情報v528aを基準として、時系列に沿って新しい側(図47の例では右側)に、履歴情報v538bを表示させる。
なお、表示制御部521は、履歴情報v528a及びv528bを、例えば、異なる色で表示させる等のように表示態様を変えて、それぞれを識別可能に表示させてもよい。
また、表示制御部521は、ユーザごとに音声バーv510を生成し、生成されたユーザごとの音声バーv510を画面v50に表示させてもよい。ユーザごとに音声バーv510を生成する場合には、表示制御部521は、各ユーザの発話に基づく履歴情報v528を、発話したユーザに対応する音声バーv510上に表示させる。このように、ユーザごとに音声バーv510を生成して表示させることで、各ユーザの発話に基づく履歴情報v528を識別することが可能となる。また、表示制御部521は、複数のユーザについて音声バーv510を生成した場合に、作成した全ての音声バーv510のうち一部のみを画面v50上に表示させてもよい。具体的な一例として、表示制御部521は、直近に発話したユーザに対応する音声バーv510を画面v50に表示させてもよい。
また、上述した例では、情報処理装置10は、入力元の集音装置110に基づき、取得された音声信号がどのユーザの発話に基づくものかを認識していたが、音声信号を発話したユーザが特定できればこの方法には限定されない。例えば、情報処理装置10は、各ユーザが発話を行う前に、そのユーザを特定するためにあらかじめ決められた操作を受け付けることで、その操作後に入力される音声信号を発話したユーザを特定してもよい。ユーザを特定するための操作の、具体的な一例としては、タッチ入力、音声入力、ジェスチャー入力、顔認識等が挙げられる。また、各ユーザに操作部120を割り当て、どの操作部120から操作を受け付けたかに応じて、以降に発話を行うユーザを特定してもよい。このような構成とすることで、例えば、集音装置110がユーザの人数分設けられない場合においても、情報処理装置10は、各ユーザを識別して音声信号を取得することが可能となる。
{3−11−2.実施例8の動作}
次に、本実施形態の実施例8に係る情報処理装置10の具体的な動作の一例について、履歴情報v528a及びv528bを、識別可能に表示させる場合を例に説明する。
ユーザ1aが、集音装置110aに対して音声入力を行うと、集音装置110aで集音された音声信号が信号取得部510に出力される。信号取得部510は、取得した音声信号を解析部530に出力する。このとき、信号取得部510は、音声信号の取得元である集音装置110aを識別するための識別情報を解析部530にあわせて通知する。解析部530の音声情報取得部531は、信号取得部510から取得した音声信号に音声認識処理を施して音声情報を生成し、生成された音声情報を発話内容解析部532に出力する。
発話内容解析部532は、取得した音声情報が所定のキーワード(例えば、「関連情報の生成及び表示」や「非表示となった履歴情報の再表示」に対応するキーワード)に一致するか否かを判定する。以降では、取得した音声情報が、所定のキーワードに一致せず、履歴情報として表示されるものとして説明する。
発話内容解析部532は、取得した音声情報を履歴として、履歴記憶部550に記憶させる。このとき、発話内容解析部532は、取得した音声情報の履歴に、ユーザ1aの発話に基づくことを示す属性情報(ここでは、集音装置110aを示す識別情報)を関連付けて記憶させる。
また、信号取得部510は、集音装置110aからの音声信号が検知された旨を表示制御部521に通知する。信号取得部510から音声信号を検知した旨が通知されると、表示制御部521は、履歴情報取得部524を介して、履歴記憶部550に記憶された履歴を取得する。これにより、ユーザ1aの発話に基づく履歴が、表示制御部521に取得される。
表示制御部521は、取得した、ユーザ1aの発話に基づく履歴に対応する履歴情報v528aを生成し、生成された履歴情報v528aに取得された履歴を関連づける。
また、表示制御部521は、履歴に関連付けられた属性情報に基づき、取得した履歴が、いずれのユーザの発話に基づく履歴であるかを特定する。この場合には、表示制御部521は、取得した履歴が、ユーザ1aの発話に基づく履歴であることを特定する。
表示制御部521は、特定されたユーザ1aに対応する表示態様で、生成した履歴情報v528aを、画面v50に表示された音声バーv510上に表示させる。図47に示す例では、表示制御部521は、履歴情報v528aを、ユーザ1aに対応する色で表示させている。なお、どのユーザの履歴情報を、どのような表示態様で表示させるかを判別するためのデータは、あらかじめ作成しておき、表示制御部521が読み出し可能な記憶領域に記憶させておけばよい。
次いで、ユーザ1bが、集音装置110bに対して音声入力を行うと、集音装置110bで集音された音声信号が信号取得部510に出力される。信号取得部510は、取得した音声信号を解析部530に出力する。このとき、信号取得部510は、音声信号の取得元である集音装置110bを識別するための識別情報を解析部530にあわせて通知する。解析部530の音声情報取得部531は、信号取得部510から取得した音声信号に音声認識処理を施して音声情報を生成し、生成された音声情報を発話内容解析部532に出力する。
発話内容解析部532は、取得された音声情報が所定のキーワードに一致するか否かを判定する。以降では、取得された音声情報が、所定のキーワードに一致せず、履歴情報として表示されるものとして説明する。
発話内容解析部532は、取得された音声情報を履歴として、履歴記憶部550に記憶させる。このとき、発話内容解析部532は、取得された音声情報の履歴に、ユーザ1bの発話に基づくことを示す属性情報(ここでは、集音装置110bを示す識別情報)を関連付けて記憶させる。
また、信号取得部510は、集音装置110bからの音声信号が検知された旨を表示制御部521に通知する。信号取得部510から音声信号を検知した旨が通知されると、表示制御部521は、履歴情報取得部524を介して、履歴記憶部550に記憶された履歴を取得する。これにより、ユーザ1bの発話に基づく履歴が、表示制御部521に取得される。
表示制御部521は、取得した、ユーザ1bの発話に基づく履歴に対応する履歴情報v528bを生成し、生成された履歴情報v528bに取得された履歴を関連づける。
また、表示制御部521は、履歴に関連付けられた属性情報に基づき、取得した履歴が、いずれのユーザの発話に基づく履歴であるかを特定する。この場合には、表示制御部521は、取得した履歴が、ユーザ1bの発話に基づく履歴であることを特定する。
表示制御部521は、特定されたユーザ1bに対応する表示態様で、生成した履歴情報v528aを、画面v50に表示された音声バーv510上に表示させる。図47に示す例では、表示制御部521は、履歴情報v528bを、ユーザ1bに対応する色(ユーザ1aの場合とは異なる色)で表示させている。なお、このとき表示制御部521は、履歴情報v528aを基準として、時系列に沿って新しい側(図47の例では右側)に、履歴情報v538bを表示させる。
以上のように、本実施形態の実施例8に係る情報処理装置10は、複数のユーザ(例えば、ユーザ1a及び1b)が、それぞれ異なる集音装置110を介して入力した音声信号を履歴情報として表示させる。このような構成により、一のユーザが、他のユーザの発話に基づく履歴にアクセスし、対応するコンテンツを実行することが可能となる。
なお、上述したような構成をソーシャルネットワークやグループウェアのような複数ユーザが利用可能な環境に適用してもよい。これにより、例えば、あるユーザの発話に基づく履歴情報や、その履歴情報に関連する関連情報を、その環境を利用する各ユーザが参照しアクセスすることが可能となる。
[3−12.第3の実施形態のまとめ]
以上、第3の実施形態に係る情報処理装置10の構成や、具体的な実施例について説明した。上述したように、第3の実施形態に係る情報処理装置10は、集音された音声信号の認識結果を履歴として蓄積し、蓄積された履歴をアクセス可能に画面上に表示させることが可能な情報処理装置を提供する。このような構成とすることで、雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。
なお、上述した各構成の動作は、情報処理装置10のCPUを機能させるためのプログラムによって構成することができる。このプログラムは、その装置にインストールされたOS(Operating System)を介して実行されるように構成してもよい。また、このプログラムは、上述した各構成が含まれる装置が読み出し可能であれば、記憶される位置は限定されない。例えば、装置の外部から接続される記録媒体にプログラムが格納されていてもよい。この場合には、プログラムが格納された記録媒体を装置に接続することによって、その装置のCPUに当該プログラムを実行させるように構成するとよい。
<4.ハードウェア構成例>
上記の情報処理装置10の動作は、例えば、図48に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、情報処理装置10の動作は、コンピュータプログラムを用いて図48に示すハードウェアを制御することにより実現されてもよい。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、接触式又は非接触式のICチップ、接触式又は非接触式のICカード、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy−phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
図48に示すように、このハードウェアは、主に、CPU902と、ROM904と、RAM906と、ホストバス908と、ブリッジ910と、を有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926と、を有する。但し、上記のCPUは、Central Processing Unitの略である。また、上記のROMは、Read Only Memoryの略である。そして、上記のRAMは、Random Access Memoryの略である。
CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
出力部918としては、例えば、CRT、LCD、PDP、又はELD等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のCRTは、Cathode Ray Tubeの略である。また、上記のLCDは、Liquid Crystal Displayの略である。そして、上記のPDPは、Plasma DisplayPanelの略である。さらに、上記のELDは、Electro−Luminescence Displayの略である。
記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のHDDは、Hard Disk Driveの略である。
ドライブ922は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体928は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。但し、上記のICは、Integrated Circuitの略である。
接続ポート924は、例えば、USBポート、IEEE1394ポート、SCSI、RS−232Cポート、又は光オーディオ端子等のような外部接続機器930を接続するためのポートである。外部接続機器930は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。但し、上記のUSBは、Universal Serial Busの略である。また、上記のSCSIは、Small Computer System Interfaceの略である。
通信部926は、ネットワーク932に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB用の通信カード、光通信用のルータ、ADSL用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内LAN、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のLANは、Local Area Networkの略である。また、上記のWUSBは、Wireless USBの略である。そして、上記のADSLは、Asymmetric Digital Subscriber Lineの略である。
本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、本技術は以下のような構成も取ることができる。
(1)
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、
前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、
を備える、情報処理装置。
(2)
前記解析結果提示部は、前記発話内容取得部による、確定された前記話者の発話内容の取得前に、前記発話内容取得部が該発話内容の確定前から逐次取得した情報を用いて前記話者による発話内容を可視化した情報を逐次生成する、前記(1)に記載の情報処理装置。
(3)
前記解析結果提示部は、前記発話内容取得部が取得する、前記話者により発話された内容の長さを用いて前記話者による発話内容を可視化した情報を生成する、前記(2)に記載の情報処理装置。
(4)
前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは無関係の情報である、前記(2)または(3)に記載の情報処理装置。
(5)
前記解析結果提示部は、前記発話内容取得部が取得した話者の発話音の長さに基づいた単語を、前記発話内容とは無関係の情報として生成する、前記(4)に記載の情報処理装置。
(6)
確定された前記話者の発話内容を前記発話内容取得部が取得すると、前記解析結果提示部は、提示してきた可視化した情報を、確定された前記話者の発話内容に変化させる、前記(2)〜(5)のいずれかに記載の情報処理装置。
(7)
前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは関係のある情報である、前記(2)に記載の情報処理装置。
(8)
前記話者による発話内容と関係のある情報は、前記発話内容取得部が取得する、前記話者の発話から得られる音素情報である、前記(7)に記載の情報処理装置。
(9)
前記解析結果提示部による情報の逐次生成の取り消しを受け付ける取消受付部を更に備える、前記(1)〜(8)のいずれかに記載の情報処理装置。
(10)
前記解析結果提示部は、前記取消受付部による取り消しの受け付けに伴って、前記解析結果提示部が提示してきた情報を消去させる、前記(9)に記載の情報処理装置。
(11)
音声情報を逐次取得する音声情報取得部と、
前記音声情報取得部が逐次取得した前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析部と、
を備え、
前記発話内容解析部は、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理装置。
(12)
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
を備える、情報処理方法。
(13)
音声情報を逐次取得する音声情報取得ステップと、
前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
を備え、
前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理方法。
(14)
コンピュータに、
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
を実行させる、コンピュータプログラム。
(15)
コンピュータに、
音声情報を逐次取得する音声情報取得ステップと、
前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
を実行させ、
前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、コンピュータプログラム。
10 情報処理装置
100 表示装置
102 表示部
110 集音装置
310、421、510 信号取得部
320、420、520 表示制御ユニット
321、521 表示制御部
322、522 解析結果取得部
323、523 コンテンツ情報取得部
330、530 解析部
331、422、531 音声情報取得部
332、423、532 発話内容解析部
333、533 レベル解析部
340、430、540 辞書データ保持部
350、550 履歴記憶部
361、561 コンテンツ特定部
424 発話内容取得部
425 解析結果提示部
426 取消受付部
524 履歴情報取得部
570 システム情報取得部

Claims (15)

  1. 話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、
    前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、
    を備える、情報処理装置。
  2. 前記解析結果提示部は、前記発話内容取得部による、確定された前記話者の発話内容の取得前に、前記発話内容取得部が該発話内容の確定前から逐次取得した情報を用いて前記話者による発話内容を可視化した情報を逐次生成する、請求項1に記載の情報処理装置。
  3. 前記解析結果提示部は、前記発話内容取得部が取得する、前記話者により発話された内容の長さを用いて前記話者による発話内容を可視化した情報を生成する、請求項2に記載の情報処理装置。
  4. 前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは無関係の情報である、請求項2に記載の情報処理装置。
  5. 前記解析結果提示部は、前記発話内容取得部が取得した話者の発話音の長さに基づいた単語を、前記発話内容とは無関係の情報として生成する、請求項4に記載の情報処理装置。
  6. 確定された前記話者の発話内容を前記発話内容取得部が取得すると、前記解析結果提示部は、提示してきた可視化した情報を、確定された前記話者の発話内容に変化させる、請求項2に記載の情報処理装置。
  7. 前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは関係のある情報である、請求項2に記載の情報処理装置。
  8. 前記話者による発話内容と関係のある情報は、前記発話内容取得部が取得する、前記話者の発話から得られる音素情報である、請求項7に記載の情報処理装置。
  9. 前記解析結果提示部による情報の逐次生成の取り消しを受け付ける取消受付部を更に備える、請求項1に記載の情報処理装置。
  10. 前記解析結果提示部は、前記取消受付部による取り消しの受け付けに伴って、前記解析結果提示部が提示してきた情報を消去させる、請求項9に記載の情報処理装置。
  11. 音声情報を逐次取得する音声情報取得部と、
    前記音声情報取得部が逐次取得した前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析部と、
    を備え、
    前記発話内容解析部は、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理装置。
  12. 話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
    前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
    を備える、情報処理方法。
  13. 音声情報を逐次取得する音声情報取得ステップと、
    前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
    を備え、
    前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理方法。
  14. コンピュータに、
    話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
    前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
    を実行させる、コンピュータプログラム。
  15. コンピュータに、
    音声情報を逐次取得する音声情報取得ステップと、
    前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
    を実行させ、
    前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、コンピュータプログラム。

JP2013077866A 2013-04-03 2013-04-03 情報処理装置、情報処理方法及びコンピュータプログラム Pending JP2014203207A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013077866A JP2014203207A (ja) 2013-04-03 2013-04-03 情報処理装置、情報処理方法及びコンピュータプログラム
US14/204,688 US9720644B2 (en) 2013-04-03 2014-03-11 Information processing apparatus, information processing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013077866A JP2014203207A (ja) 2013-04-03 2013-04-03 情報処理装置、情報処理方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2014203207A true JP2014203207A (ja) 2014-10-27

Family

ID=51655383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013077866A Pending JP2014203207A (ja) 2013-04-03 2013-04-03 情報処理装置、情報処理方法及びコンピュータプログラム

Country Status (2)

Country Link
US (1) US9720644B2 (ja)
JP (1) JP2014203207A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157650A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2018116556A1 (ja) * 2016-12-22 2018-06-28 ソニー株式会社 情報処理装置、および情報処理方法
JP2019050019A (ja) * 2015-05-27 2019-03-28 グーグル エルエルシー 提案される音声ベースのアクションクエリの提供
JP2019091417A (ja) * 2017-11-16 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声サービス提供方法および装置
US10642575B2 (en) 2014-12-02 2020-05-05 Sony Corporation Information processing device and method of information processing for notification of user speech received at speech recognizable volume levels
US11758111B2 (en) 2017-10-27 2023-09-12 Baidu Usa Llc 3D lidar system using a dichroic mirror for autonomous driving vehicles

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9972342B2 (en) * 2015-11-20 2018-05-15 JVC Kenwood Corporation Terminal device and communication method for communication of speech signals
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JPWO2017130486A1 (ja) * 2016-01-28 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN107665706B (zh) * 2016-07-29 2021-05-04 科大讯飞股份有限公司 快速语音交互方法及系统
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11373650B2 (en) * 2017-10-17 2022-06-28 Sony Corporation Information processing device and information processing method
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN113934289A (zh) * 2020-06-29 2022-01-14 北京字节跳动网络技术有限公司 数据处理方法、装置、可读介质及电子设备
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3104661B2 (ja) * 1997-11-25 2000-10-30 日本電気株式会社 日本語文章作成装置
US6697777B1 (en) * 2000-06-28 2004-02-24 Microsoft Corporation Speech recognition user interface
JP2004349851A (ja) * 2003-05-20 2004-12-09 Ntt Docomo Inc 携帯端末、画像通信プログラム、及び画像通信方法
US7624019B2 (en) * 2005-10-17 2009-11-24 Microsoft Corporation Raising the visibility of a voice-activated user interface
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US20120110456A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Integrated voice command modal user interface
JP2012181358A (ja) 2011-03-01 2012-09-20 Nec Corp テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
KR102023008B1 (ko) * 2012-12-10 2019-09-19 엘지전자 주식회사 음성-텍스트 변환 디스플레이 장치 및 그 방법

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642575B2 (en) 2014-12-02 2020-05-05 Sony Corporation Information processing device and method of information processing for notification of user speech received at speech recognizable volume levels
CN106463114B (zh) * 2015-03-31 2020-10-27 索尼公司 信息处理设备、控制方法及程序存储单元
CN106463114A (zh) * 2015-03-31 2017-02-22 索尼公司 信息处理设备、控制方法及程序
JPWO2016157650A1 (ja) * 2015-03-31 2018-01-25 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2016157650A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
EP3282447B1 (en) * 2015-03-31 2020-08-26 Sony Corporation PROGRESSIVE UTTERANCE ANALYSIS FOR SUCCESSIVELY DISPLAYING EARLY SUGGESTIONS BASED ON PARTIAL SEMANTIC PARSES FOR VOICE CONTROL. 
REAL TIME PROGRESSIVE SEMANTIC UTTERANCE ANALYSIS FOR VISUALIZATION AND ACTIONS CONTROL.
JP2019050019A (ja) * 2015-05-27 2019-03-28 グーグル エルエルシー 提案される音声ベースのアクションクエリの提供
US11869489B2 (en) 2015-05-27 2024-01-09 Google Llc Providing suggested voice-based action queries
US11238851B2 (en) 2015-05-27 2022-02-01 Google Llc Providing suggested voice-based action queries
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
WO2018116556A1 (ja) * 2016-12-22 2018-06-28 ソニー株式会社 情報処理装置、および情報処理方法
US11183189B2 (en) 2016-12-22 2021-11-23 Sony Corporation Information processing apparatus and information processing method for controlling display of a user interface to indicate a state of recognition
JPWO2018116556A1 (ja) * 2016-12-22 2019-10-31 ソニー株式会社 情報処理装置、および情報処理方法
US11758111B2 (en) 2017-10-27 2023-09-12 Baidu Usa Llc 3D lidar system using a dichroic mirror for autonomous driving vehicles
JP2019091417A (ja) * 2017-11-16 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声サービス提供方法および装置

Also Published As

Publication number Publication date
US20140304605A1 (en) 2014-10-09
US9720644B2 (en) 2017-08-01

Similar Documents

Publication Publication Date Title
JP6229287B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP2014203207A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP2014203208A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP6779257B2 (ja) メディア環境内におけるインテリジェント自動アシスタント
KR101309794B1 (ko) 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
KR20140089861A (ko) 디스플레이 장치 및 그의 제어 방법
CN108063969A (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
EP3593346B1 (en) Graphical data selection and presentation of digital content
JP6897677B2 (ja) 情報処理装置及び情報処理方法
JP2016192121A (ja) 制御装置、制御方法及びコンピュータプログラム
JP6927318B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20210225363A1 (en) Information processing device and information processing method
JP7230803B2 (ja) 情報処理装置および情報処理方法
KR102414993B1 (ko) 연관 정보 제공 방법 및 시스템
EP3640937B1 (en) Electronic apparatus and controlling method thereof
CN114694661A (zh) 一种第一终端设备、第二终端设备和语音唤醒方法
JP6992800B2 (ja) 情報処理装置および情報処理方法
US20240119930A1 (en) Artificial intelligence device and operating method thereof
JP7297266B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
CN115877997B (zh) 一种面向交互元素的语音交互方法、系统及存储介质
JP6897678B2 (ja) 情報処理装置及び情報処理方法
US20210082427A1 (en) Information processing apparatus and information processing method
KR20160022326A (ko) 디스플레이 장치 및 그의 제어 방법