JP5002283B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP5002283B2
JP5002283B2 JP2007039339A JP2007039339A JP5002283B2 JP 5002283 B2 JP5002283 B2 JP 5002283B2 JP 2007039339 A JP2007039339 A JP 2007039339A JP 2007039339 A JP2007039339 A JP 2007039339A JP 5002283 B2 JP5002283 B2 JP 5002283B2
Authority
JP
Japan
Prior art keywords
input
information processing
speech recognition
words
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007039339A
Other languages
English (en)
Other versions
JP2008203516A (ja
JP2008203516A5 (ja
Inventor
寛樹 山本
英生 久保山
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007039339A priority Critical patent/JP5002283B2/ja
Priority to US12/033,574 priority patent/US8000965B2/en
Publication of JP2008203516A publication Critical patent/JP2008203516A/ja
Publication of JP2008203516A5 publication Critical patent/JP2008203516A5/ja
Application granted granted Critical
Publication of JP5002283B2 publication Critical patent/JP5002283B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、入力された音声を認識する音声認識を提供する情報処理装置に関する。
音声認識技術は、データの入力や機器の操作をキー入力やボタン操作に替えて音声入力で実現する技術として実用化が進んでいる。現在用いられている多くの音声認識技術は、語数に違いはあっても決められた語あるいはフレーズしか認識することができない。したがって、ユーザが音声入力する場面でどのような語またはフレーズが受理されるのか分かりにくいという課題がある。このような課題に対して、音声入力を円滑に進めるために、ユーザに音声入力可能な語やフレーズを提示するよう工夫された音声認識システムがある。
例えば特許文献1に、住所を音声入力する場面で「愛知県刈谷市昭和町のように入力して下さい」と具体的な入力例を示す音声認識装置が開示されている。
また、特許文献2に開示されている音声認識装置は、連続した数字の音声入力が誤認識した場合に、「○番目を×」のように訂正用の入力のテンプレートをユーザに提示する。
GUI(Graphical User Interface)と音声入力を組み合わせたシステムでは、何を入力すれば良いかわかりやすくGUIを構成するものが多い。
例えば、特許文献3に開示されているデータ入力装置では、経路を入力する画面において、「__から__まで」(“__”の部分は入力欄)というテンプレートの表示を行って、例えば「東京から大阪まで」という発声が入力できることをユーザに提示している。このデータ入力装置では、固定された表現をテキスト表示で、複数の語が当てはまる部分を入力欄で示すことによって、言い換え可能な部分と決められた通り入力しなければならない部分を区別している。さらに、所定の操作により入力欄に入力可能な語の例を合成音によるガイダンスあるいは表示でユーザに提示して、受理可能な入力がわかりやすいUIを実現している。
以上のように、ユーザに音声入力の入力例や入力テンプレートを示すことによって、ユーザが何を発声すればよいか戸惑わないようにすることができる。
特開2000−181488号公報 特開2005−283797号公報 特開2004−021920号公報
特許文献1に開示されている音声認識装置では、提示する入力例があらかじめ決められている。
特許文献2の音声認識装置で示される入力例は、言い換え可能な部分がどこであるかがわかりやすいが、一方でこのような入力例を生成する方法については開示されていない。
特許文献3のデータ入力装置では入力欄に入力可能な例をあらかじめ決めておく方法と、入力欄に対応づけられた文法から、各入力欄に対応する語を抽出して入力例を生成する方法が開示されている。しかしながら、ユーザに提示する「__から__まで」という入力テンプレートが、UIを記述した段階で固定される。
上記いずれの発明においても、入力可能なフレーズを変更する場合に音声認識に用いる文法の変更とともに、入力例あるいはGUIの構成を変更する必要が生じる。
例えば、特許文献1の音声認識装置において、住所を入力する場面であらたに番地まで入力できるようにする場合には、あらかじめ設定する入力例を変更する必要がある。
また、特許文献3の音声認識装置において、経路を音声入力するフレーズを「__駅から__駅まで」のように“駅”を追加したフレーズに変更する場合、GUIの記述を変更する必要がある。
以上のように、従来の音声認識システムではユーザに提示する入力例やUIがあらかじめ決められており、音声入力可能なフレーズを変更するにはUIの変更が必要になる。
本発明は、上記の課題を解決するため、文法の変更に合わせてユーザに提示するUIを変更する情報処理装置を提供することを目的とする。
上記課題を解決するために、本発明の情報処理装置は、音声認識文法を取得する取得手段と、前記音声認識文法を解析して構成されたネットワーク上で、隣接する接続間の単語数を取得する解析手段と、前記単語数によって、前記接続間の単語の表示形態を決定する決定手段と、前記決定された表示形態で、前記音声認識文法で受理可能な音声入力のテンプレートを作成する作成手段を有することを特徴とする。
本発明によれば、文法の変更に合わせて、ユーザに提示するUIを変更するカスタマイズ性の良い情報処理装置が提供され、ユーザの利便性や快適性を向上できる。
以下、添付図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。
以下、図面を参照して本発明の第一の実施形態を詳細に説明する。実施例1では、テレビ番組を検索する情報処理装置における、検索条件の入力に本発明を適用した場合について説明する。入力する検索条件は出演者および「ニュース」「映画」などのテレビ番組のカテゴリーとする。
まず、本情報処理装置の動作の概略を説明する。ユーザが所定の操作により、テレビ番組の検索を指示すると、情報処理装置は図2に示すUIを表示する。図2において、200は検索条件を入力するUIの表示の一例である。
201は検索条件を音声入力するための入力テンプレートである。ここで、入力テンプレートとは、音声認識が受理する入力を例示したものである。201に示すように、空欄を含む表示形態であってもよい。この例では、202、204に空の入力欄を用いることで、該当部分に複数の語が入力できることを示している。202、204はそれぞれ、番組の出演者、「スポーツ」「ニュース」などの番組のカテゴリーが入力できる。同様に、205、206は前に接続する語から分岐して二つの語を表示して、「〜を検索」「〜を見たい」という二つの文末表現が音声入力できることを示している。このように本情報処理装置では、201に示した入力テンプレートにより、ユーザにどのような入力が受理できるかを提示する。本発明は、このような入力テンプレートをあらかじめ作成しておくのではなく、音声入力に使用する音声認識文法に基づいて情報処理装置が自動で作成する点に特徴がある。以下、詳細に説明していく。
図1は実施例1に示す情報処理装置の基本構成を示す図である。実施例1の情報処理装置は制御手段100、入力手段101、表示手段102、音声認識手段103、通信手段104、記憶手段105、文法記憶手段106、入力テンプレート記憶手段107、入力テンプレート作成手段110、文法読み出し手段111、文法解析手段112、表示形態決定手段113、文法取得手段114を備える。
制御手段100はワークメモリやCPU、MPU等により構成されており、後段の記憶手段105に記憶されたプログラムやデータを読み出して各種の処理を実行する。
入力手段101はボタン群やキーボード、マウス、タッチパネル、ペン、タブレット、デジタイザ等の他、音声入力のためのマイクロフォン、A/D変換器等の入力装置から構成され、各種の指示を本装置に入力するための入力インタフェースとして機能する。
表示手段102は液晶ディスプレイ等の表示装置から構成され、画像や文字等により構成される各種の情報を表示する。なお、表示手段102としてタッチパネル式の表示装置を用いてもよく、その場合、表示手段102は入力手段101としての機能(各種の指示を本装置に入力する機能)をも有することになる。
音声認識手段103は入力手段101より入力された音声に対して、後述する文法記憶手段106に記憶されている音声認識文法にしたがって音声認識を行い、認識結果を表示手段102に表示する。上記音声認識については公知の技術を利用する。
通信手段104は放送波の受信装置やLANやインターネットに接続するための装置で構成され、後段の文法取得手段114で外部サーバ121から音声認識文法122を取得する際に外部との通信に利用する。
記憶手段105は、各種の情報を保存するためのHDD(ハードディスクドライブ)装置や、情報処理装置に各種の情報を提供するためのCD−ROMやDVD−ROM等の記憶媒体等により構成されている。またこのHDD装置や記憶媒体には、各種のアプリケーションプログラム、ユーザ・インタフェース制御プログラム、そして各プログラムを実行する際に必要な各種のデータ等が記憶されており、これらは後段の制御手段100の制御により本情報処理装置に読み込まれる。文法記憶手段106は、音声認識手段103が受理可能な文法規則を記述した音声認識文法を記憶する領域である。入力テンプレート記憶手段107は、表示手段102に表示する入力テンプレートの情報を記憶する領域である。
入力テンプレート作成手段110は、文法読み出し手段111、文法解析手段112、表示形態決定手段113から構成され、音声認識文法に基づいて入力テンプレートを作成する。文法読み出し手段111は、文法記憶手段106に記憶されている音声認識文法を読み出す。文法解析手段112は、文法読み出し手段111が読み出した音声認識文法の構造を解析する。表示形態決定手段113は、文法解析手段112の解析結果に基づき、入力テンプレートの表示形態を決定する。
文法取得手段114は、通信手段104を介して、外部サーバ121から提供される音声認識文法122を取得する。
まず、本情報処理装置で情報検索を行う処理の流れを説明する。図3は本情報処理装置において、情報検索を行う処理を説明するフローチャートである。このフローチャートを実現するためのプログラムは、記憶手段105に記憶され、制御手段100の制御のもと実行される。
ユーザが情報検索を開始する操作を行うと図3に示したフローチャートに従って処理を進める。まず、制御手段100が入力テンプレート記憶手段107に音声認識文法に対応する入力テンプレートが記憶されているかどうかを確認する(S301)。入力テンプレート記憶手段107に音声認識文法に対応する入力テンプレートが記憶されている場合(S301がYES)はS304の処理に進む。
S301において、入力テンプレート記憶手段107に音声認識文法に対応する入力テンプレートが記憶されていない場合は、入力テンプレート作成手段110が入力テンプレートを作成する(S302)。作成した入力テンプレートは入力テンプレート記憶手段107に記憶し(S303)、S304の処理に進む。入力テンプレートの作成方法について、後段で詳細に説明する。
S304では、制御手段100が入力テンプレート記憶手段107から、情報検索に用いる音声認識文法に対応する入力テンプレートを読み出し、入力テンプレートを含むUIを表示手段102上に表示するよう制御する。表示の一例は図2に示した通りである。
図2において、200は本装置で情報検索を開始する際に表示するUIの一例である。本実施例では、GUIを用いて、入力テンプレート201、キャンセルボタン207、OKボタン208を表示する。202、204は、テキスト入力を受理するGUI部品で、入力手段101が備えるキーボードなどでユーザが文字を入力できる。203、205、206は、テキストを表示するGUI部品で、こちらはユーザが変更することはできない。
以下、本発明では、ユーザが文字を入力できるGUI部品をテキストボックス、ユーザが変更できない固定のテキストを表示するためのGUI部品を固定テキストと記す。
続いて、S305でテキストボックス202、204に検索条件の入力を行う。ユーザは入力手段101が備えるキーボードで入力しても良いし、入力手段101が備えるマイクロフォンを介して音声入力しても良い。制御手段100が音声入力を検出すると、音声認識手段103が文法記憶手段106に記憶されている音声認識文法を用いてユーザが入力した音声を音声認識する。テキストボックス202、204に該当する語が認識された場合は、該当するテキストボックスに認識結果を表示する。本実施例では、テキストボックス202および204両方の検索条件が入力されるまで、番組の検索は行えないものとする。すなわち、両方の検索条件が入力されるまで、OKボタン208は押すことができない。
ユーザが検索条件の入力を終了し、OKボタン208を押す(S306がYES)と、入力された検索条件にしたがって検索を行い、結果を表示手段102上に表示する。情報検索の処理は制御部100が行い、記憶手段105に記憶するデータベース(図示しない)から入力された検索条件に合致する情報を検索する(S307)。
検索結果を表示した場合(S307)、およびユーザがキャンセルボタン207を押して、情報検索の処理を中止した場合(S306がNOかつS308がYES)、情報検索の処理を終了する。
続いて、S302において入力テンプレート作成手段110が入力テンプレートを作成する処理について説明する。本情報処理装置では、音声入力に用いる音声認識文法に基づいて入力テンプレートを作成する。
図4に音声認識文法の一例を示す。図4に示した音声認識文法400は、テレビ番組の検索条件を音声入力するための音声認識文法の一例である。音声認識文法400は、公知のBNF表記に類似した書式で記述されている。以下、本実施例における音声認識文法の書式を説明する。
・“ルール名=右辺;”で文法規則を記述する。
・左辺には定義するルール名のみを記述する。
・ルール名は“$”から始める。
・ルールの定義は“;”で終了する。
・定義済みのルールに関しては右辺に記述できる。
・“|”はORを意味する。
・“[]”で囲まれた部分は省略可能を意味する。
・「$Command」で定義されたルールを音声認識手段103で受理する。
以上の規則にしたがって、音声認識文法400内の401〜405の部分について説明する。
401は、「$Person」というルールを定義している。「$Person」は「久万ひろし」「イチロウ」・・・「Poffy」のいずれかの語であることを定義している。
同様に、402、403、404で「$Perform」「$Category」「$Retrieve」というルールを定義している。
405は音声認識文法400が受理する文法規則を定義している。すなわち、音声認識文法400を用いて音声認識する場合は「○○が出ている△△を検索」あるいは「○○が出ている△△を見たい」という音声入力を受理することを定義している。ここで、○○は「$Person」で定義されたいずれかの語、△△は「$Category」で定義されたいずれかの語である。
続いて、音声認識文法に基づいて入力テンプレートを作成する処理について説明する。以下、図5のフローチャートを参照しながら、入力テンプレートを作成する処理を説明する。
まず、文法読み出し手段111が文法記憶手段106に記憶されている音声認識文法を読み出す(S501)。次に、文法解析手段112が読み出した音声認識文法を解析してネットワークを構成する(S502)。文法を解析してネットワークを構成する方法については当業者には公知の技術であるので説明を省略する。音声認識文法400から構成したネットワークの一例を図6に示す。ネットワークは、アークとノードで構成され、本実施例ではアークが単語(例えば605)、ノードが単語間の接続(例えば606)を表している。
続いて、文法解析手段112は構成したネットワーク上で、隣接するノード間の単語数(=アーク数)を記憶手段105に一時的に記憶する(S503)。記憶手段105に記憶しておくデータの一例を図7に示す。図7に示す表700は、縦軸に開始ノード、横軸に終了ノード、各軸が交差する欄に開始ノード・終了ノード間の単語数を示している。例えば、701はノードN3・ノードN4間の単語数を表す。このように、音声認識文法中の前後の接続を共有する各区間について、区間ごとに区間内の単語数が求められ記憶される。
表示形態決定手段113は各ノード間の単語数に応じて、作成する入力テンプレートの表示形態を決定する。本実施例では、記憶手段105に記憶したノード間の単語数によって、ノード間の単語の表示形態を変更する。すなわち、単語数がX個以上のノード間は、個別の単語を表示せずにテキストボックスとする。なおXは2以上の自然数であるとする。ノード間の単語数がX個未満のノード間はすべての単語を固定テキストで表示する(S504)。ここでは、X=3である場合を例に挙げて説明する。表700から、本実施例において、ノード間の単語数が3以上になるのは、ノードN1・N2間、およびN3・N4間である。図6では、601、603の部分がこれに該当する。したがって、601、603の部分をテキストボックス、602、604の部分を固定テキストで表示するよう表示形態を決定する。このように表示形態を決定すると、図2の200に示した入力テンプレートが作成される。なお、本実施例では、ノード間の単語数が複数かつX個未満の部分については、表示形態を205に示すような分岐表現にする。
(実施例1の変形例1)
上記実施例では、文法読み出し手段111が読み出す音声認識文法が、情報処理装置が備える記憶手段に記憶されている場合について説明した。しかしながら、本発明はこれに限定されることはなく、文法読み出し手段111が外部サーバ121が提供する音声認識文法122を直接読み出すようにしてもよい。
(実施例1の変形例2)
上記実施例では、入力テンプレート記憶手段107に入力テンプレートが記憶されていない場合のみ、入力テンプレート作成(S302)および作成した入力テンプレートを記憶(S303)する処理を行っている。
これとは別に、ユーザが文法取得手段114によって、外部サーバ121から音声認識文法を取得して、既存の音声認識文法を更新した時、あるいは新規の音声認識文法を取得した時にS302、S303の処理を行うようにしてもよい。
以上のように、実施例1の情報処理装置によれば、音声入力に使用する音声認識文法を解析し、解析した結果から入力テンプレートを作成できる。すなわち、音声認識文法を変更すると、ユーザに提示する入力テンプレートが自動的に変更される。したがって、UIの更新を音声認識文法の変更だけで行うことができるようになり、音声入力機能を備えた情報処理装置のUIの変更が容易になる。例えば、本実施例で説明したテレビ番組の検索条件を入力する例では、番組検索の方法はユーザによって異なる。番組名で検索したいユーザもいれば、時間とジャンルで検索したいユーザもいる。このような個別のニーズに対して、ユーザが好みの音声認識文法を選択できるように、様々な音声認識文法を用意することで、ユーザのニーズにあったUIを提供することができるようになる。さらに、ユーザ自身が音声認識文法を変更することで、個人ごとのUIのカスタマイズに自由度が増す。したがって、本発明により音声入力を備えた情報処理装置のユーザの使用感、利便性が向上する。
実施例1におけるS504の処理では、X=3の固定値として、ノード間の単語数がX以上の部分の表示形態をテキストボックスにしている。表示領域の広さが十分にある場合は、入力テンプレートにできるだけ多くの単語が表示されている方が、受理できる入力例がわかりやすくなる。本実施例では、実施例1と同じ構成の情報処理装置において、入力テンプレートを作成する際に、表示領域の大きさに応じてXの値を動的に変更する場合について説明する。
図8に実施例2における、入力テンプレートを作成する処理のフローチャートを示す。図8において、図5のフローチャートと同じ処理については同じ記号で示している。図8の処理では、図5におけるS503とS504の処理の間に、新たにS505とS506の処理が追加されている。
S505において、表示形態決定手段113は、入力テンプレートが表示可能な行数Yを算出する。Yは以下の式で計算できる。
Y=INT{((A−B)/C)/D} (数式1)
数式1において、各変数は以下を意味する。
A:音声入力時に表示するUIの領域の高さ
B:入力テンプレート以外のUI部品の表示に要する領域の高さ
C:入力テンプレート1行の表示に要する領域の高さ
D:同時に使用する音声認識文法の数
変数A、B、Cの単位はいずれもドット数であるとする。また、数式1において、INT()は小数点以下を切り捨てる関数である。数式1により、一つの音声認識文法の入力テンプレートが表示可能な最大行数Yが計算される。
続いて、テキストボックスで表示する単語数の閾値XをY+1とする(S506)。すなわち、固定テキストで表示した場合に、最大行数Yを越えてしまうノード間の表示形態をテキストボックスにする。
図9に一つの音声認識文法と二つの音声認識文法を用いた場合で表示形態が変わる様子を示す。図9において、(A)に示した900は一つの音声認識文法を使用して検索条件の入力を行うUIの表示の例である。表示領域が十分にあるため、音声認識文法が受理する全ての単語を固定テキストで表示している。これに対して、(B)に示した910は、(A)で使用している音声認識文法に加えて「○○を見たい」「○○を検索」(○○はカテゴリー)という音声入力を受理する音声認識を併用して検索条件の入力を行うUIの表示の例である。二つの音声認識文法を使用することにより、入力テンプレートを表示可能な領域が900に比べて狭くなるため、一部の表示形態がテキストボックスによる表示にかわる様子を説明している。
図10は本発明を表示領域が大きい表示手段を備えた情報処理装置で実現した場合(A)と、表示領域が小さい表示手段を備えた情報処理装置で実現した場合(B)に表示される入力テンプレートの表示形態が変化する様子を示している。
以上のように、実施例2の情報処理装置によれば、使用する文法の数、表示領域の大きさに合わせてスケーラブルな入力テンプレートが作成される。
音声認識文法には、単語ごとあるいは文法規則(ルール)ごとに意味タグを付与して記述したものがある。本来、これらの意味タグは得られた認識結果に対して、後処理を行うために付与するものであるが、本実施例ではこの意味タグを、入力テンプレート作成に利用する場合について説明する。
本実施例の情報処理装置は、実施例1と同じ構成で実現される。しかしながら、文法記憶手段106が記憶する音声認識文法および文法取得手段114が取得する音声認識文法に、意味タグが付与される点が実施例1と異なる。
図11に意味タグを付与した音声認識文法の一例を示す。図11に示した音声認識文法1100は、鉄道経路検索などで用いられる「○○から△△まで」のような入力を受理する音声認識文法である。基本的な記述書式は実施例1の音声認識文法と同じくBNF表記に類似した書式で記述されている。本実施例では、単語に「@」を付与し、「@」以降に意味タグを記述するものとする。
音声認識文法1100では、1101で定義される経路の出発地の都市名および1103で定義される目的地の都市名の単語に意味タグが付与される。出発地の都市名に対しては“=From”、目的地の都市名に対しては“slot=To”という意味タグが付与されている。なお、出発地の都市名の“東京”と目的地の都市名の“大阪”には意味タグが付与されていない。先に述べたように、本来意味タグは、認識結果が得られた時に後処理に利用するもので、例えば“東京@slot=From”が認識された場合は、付与されている意味タグ“slot=From”という情報を用いて所定の後処理を行う。しかしながら、実施例3の情報処理装置では、この意味タグを抽出し、表示形態決定手段113で入力テンプレートの表示形態を決める際に、抽出した意味タグを利用する。
図12に実施例3の情報処理装置において、入力テンプレートを作成する処理のフローチャートを示す。実施例1および実施例2と同じ処理には同一の記号を付与する。
表示形態決定手段113は、隣接するノード間、つまり同一区間内で同一の意味タグが付与されている単語は一つにまとめ、その表示形態をテキストボックスにする(S507)。1100に示した音声認識文法では、出発地の都市名のうち、東京をのぞく都市名の表示形態をテキストボックスにする。同様に、目的地の都市名のうち、大阪をのぞく都市名の表示形態をテキストボックスにする。以上の処理で作成される入力テンプレートの一例を図13に示す。
以上、実施例3の情報処理装置では、意味タグを利用して入力テンプレートを作成できる。したがって、音声認識文法に意味タグを付与することによって、表示する入力テンプレートを制御できようになり、音声認識文法による表示するUIのカスタマイズが容易に行えるようになる。
実施例1乃至実施例3で説明した情報処理装置が表示する入力テンプレートでは、テキストボックスを空のまま表示している。しかしながら、テキストボックスが空のままでは、テキストボックスにどのような語が入力できるかわかりにくい場合がある。これに対して、本実施例では、例えば図14のようにテキストボックスに入力可能な代表的な単語を表示して、よりわかりやすい入力テンプレートを表示する。
以下、テキストボックスに入力可能な代表的な単語を代表語と表記する。まず、入力テンプレート作成時に代表語を決定する方法について説明する。
表示形態決定手段113が表示形態を決定する際に、テキストボックスごとに代表語の選択を行う。実施例1、実施例2ではS504の処理を行う際に、実施例3ではS507の処理を行う際に表示形態決定手段113が代表語の選択を行う。本実施例では、代表語はテキストボックスに入力可能な単語のうち、音声認識文法に最初に記述された単語を選択することにするが、テキストボックスに入力可能な単語であればどの単語を選択してもよい。例えば、実施例1が表示する入力テンプレート201のテキストボックス202の場合は、音声認識文法400に記述されている出演者(401)のうち最初に記述されている “久万ひろし”を代表語とする。同様に、カテゴリーが入力可能なテキストボックス203の代表語は“ニュース”である。表示形態決定手段113が選択した代表語は、入力テンプレートを入力テンプレート記憶手段107に記憶する際(S303)に、入力テンプレートと合わせて記憶しておく。制御手段100は、入力テンプレートを表示する際に、入力テンプレート記憶手段107に記憶されている代表語を読み出し、テキストボックス内に表示するよう表示を制御する。図14に示した入力テンプレート1401は、このようにして代表語を表示した一例である。
表示する代表語をユーザの入力履歴から選択するようにしても良い。この場合、S305の処理でユーザが検索条件を入力する際に、制御手段100がユーザの入力履歴を記憶手段105に記憶しておく。入力履歴はテキストボックスごとに記憶する。S304で制御部100が入力テンプレートを表示する際に、入力履歴を記憶手段105から読み出し、該当するテキストボックスごとに表示する代表語を選択する。このとき、制御手段100は、最後に入力された単語、あるいは入力頻度が多い単語などを基準に代表語を選択する。
記憶手段105に入力履歴が存在しない場合は、入力テンプレート記憶部107に記憶されている代表語を表示する。
(実施例4の変形例)
上記実施例において、情報処理装置が選択した代表語とユーザが入力した単語を区別できるように、文字のフォント、色、文字飾り、サイズを変えるなどして代表語を表示する形態をユーザが入力した単語と異なる形態にするのが望ましい。
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。
本発明の実施例に係る情報処理装置の基本構成を示す図である。 本発明の実施例1に係る情報処理装置が表示するUIの一例を示す図である。 本発明の実施例1に係る情報処理装置の処理を説明するフローチャートである。 本発明の実施例1、2、4に係る情報処理装置で処理する音声認識文法の一例を示す図である。 本発明の実施例1に係る情報処理装置における、入力テンプレートを作成する処理を説明するフローチャートである。 本発明の実施例1、2、4に係る情報処理装置において処理する音声認識文法のネットワークの一例を示す図である。 本発明の実施例1に係る情報処理装置が処理において、一時的に記憶するデータの一例を示す図である。 本発明の実施例2に係る情報処理装置における、入力テンプレートを作成する処理を説明するフローチャートである。 本発明の実施例2に係る情報処理装置が表示するUIの一例を示す図である。 本発明の実施例2に係る情報処理装置が表示するUIの一例を示す図である。 本発明の実施例3に係る情報処理装置が処理する音声認識文法の一例を示す図である。 本発明の実施例3に係る情報処理装置における、入力テンプレートを作成する処理を説明するフローチャートである。 本発明の実施例3に係る情報処理装置が表示するUIの一例を示す図である。 本発明の実施例4に係る情報処理装置が表示するUIの一例を示す図である。
符号の説明
100 制御手段
101 入力手段
102 表示手段
103 音声認識手段
104 通信手段
105 記憶手段
106 文法記憶手段
107 入力テンプレート記憶手段
110 入力テンプレート作成手段
111 文法読み出し手段
112 文法解析手段
113 表示形態決定手段
114 文法取得手段
121 外部サーバ
122 音声認識文法

Claims (10)

  1. 音声認識文法を取得する取得手段と、
    前記音声認識文法を解析して構成されたネットワーク上で、隣接する接続間の単語数を取得する解析手段と、
    前記単語数によって、前記接続間の単語の表示形態を決定する決定手段と、
    前記決定された表示形態で、前記音声認識文法で受理可能な音声入力のテンプレートを作成する作成手段を有することを特徴とする情報処理装置。
  2. 前記作成手段は、前記単語数が閾値X(Xは2以上の自然数)以上の区間の表示形態を、ユーザが入力可能な入力欄とすることを特徴とする請求項1に記載の情報処理装置。
  3. 音声入力のテンプレートを表示可能な表示領域の広さを取得する表示領域取得手段を更に備え、
    前記作成手段は、前記表示領域取得手段で取得した表示領域の広さに基づいて、前記閾値Xを決定することを特徴とする請求項2に記載の情報処理装置。
  4. 前記作成手段が作成した入力テンプレートの表示を制御する表示制御手段を備えた請求項1に記載の情報処理装置。
  5. 前記表示制御手段は、前記入力欄を表示させる際に、当該入力欄に入力可能な単語を併せて表示させることを特徴とする請求項4に記載の情報処理装置。
  6. 前記表示制御手段により表示される単語は、前記入力欄に入力可能な単語のうち、前記解析手段が解析した音声認識文法に最初に記述されている単語であることを特徴とする請求項5に記載の情報処理装置。
  7. ユーザの入力履歴を保持する履歴保持手段をさらに備え、
    前記表示制御手段により表示される単語は、前記入力欄にユーザが最後に入力した単語または当該入力欄に入力された頻度が最も多い単語のいずれかであることを特徴とする請求項5に記載の情報処理装置。
  8. 音声認識文法を取得する取得工程と、
    前記音声認識文法を解析して構成されたネットワーク上で、隣接する接続間の単語数を取得する解析工程と、
    前記単語数によって、前記接続間の単語の表示形態を決定する決定工程と、
    前記決定された表示形態で、前記音声認識文法で受理可能な音声入力のテンプレートを作成する作成工程を有することを特徴とする情報処理方法。
  9. 請求項8に記載の情報処理方法をコンピュータに実行させるためのプログラム。
  10. 請求項9に記載のプログラムを記憶したコンピュータ読取可能な記憶媒体。
JP2007039339A 2007-02-20 2007-02-20 情報処理装置および情報処理方法 Expired - Fee Related JP5002283B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007039339A JP5002283B2 (ja) 2007-02-20 2007-02-20 情報処理装置および情報処理方法
US12/033,574 US8000965B2 (en) 2007-02-20 2008-02-19 Information-processing device and method that attains speech-recognition to recognize data input via speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007039339A JP5002283B2 (ja) 2007-02-20 2007-02-20 情報処理装置および情報処理方法

Publications (3)

Publication Number Publication Date
JP2008203516A JP2008203516A (ja) 2008-09-04
JP2008203516A5 JP2008203516A5 (ja) 2010-03-25
JP5002283B2 true JP5002283B2 (ja) 2012-08-15

Family

ID=39707419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007039339A Expired - Fee Related JP5002283B2 (ja) 2007-02-20 2007-02-20 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US8000965B2 (ja)
JP (1) JP5002283B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8543404B2 (en) * 2008-04-07 2013-09-24 Nuance Communications, Inc. Proactive completion of input fields for automated voice enablement of a web page
US8522283B2 (en) 2010-05-20 2013-08-27 Google Inc. Television remote control data transfer
CN111324213A (zh) * 2018-12-13 2020-06-23 青岛海信移动通信技术股份有限公司 终端的信息输入方法和终端
KR102153668B1 (ko) 2019-10-29 2020-09-09 주식회사 퍼즐에이아이 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06261126A (ja) * 1993-03-08 1994-09-16 Nippon Telegr & Teleph Corp <Ntt> オペレータ支援型音声対話装置
JP2967688B2 (ja) * 1994-07-26 1999-10-25 日本電気株式会社 連続単語音声認識装置
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
JP4201411B2 (ja) 1998-12-17 2008-12-24 株式会社デンソー 音声認識装置及びナビゲーションシステム
CN1272698C (zh) * 2000-10-11 2006-08-30 佳能株式会社 信息处理装置、信息处理方法
JP2003241793A (ja) * 2002-02-14 2003-08-29 Nissan Motor Co Ltd 表示装置、名称表示方法及び名称表示プログラム
JP3974419B2 (ja) * 2002-02-18 2007-09-12 株式会社日立製作所 音声入力を用いた情報取得方法及び情報取得システム
JP3814566B2 (ja) * 2002-06-20 2006-08-30 キヤノン株式会社 情報処理装置、情報処理方法、制御プログラム
JP2005283797A (ja) 2004-03-29 2005-10-13 Nissan Motor Co Ltd 音声認識装置および音声認識方法
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames

Also Published As

Publication number Publication date
JP2008203516A (ja) 2008-09-04
US20080201151A1 (en) 2008-08-21
US8000965B2 (en) 2011-08-16

Similar Documents

Publication Publication Date Title
JP6603754B2 (ja) 情報処理装置
JP4416643B2 (ja) マルチモーダル入力方法
JP4878471B2 (ja) 情報処理装置およびその制御方法
US20180144747A1 (en) Real-time caption correction by moderator
US20180143956A1 (en) Real-time caption correction by audience
JP2013068952A (ja) 音声認識結果の統合
JP5002283B2 (ja) 情報処理装置および情報処理方法
JP2009098490A (ja) 音声認識結果編集装置、音声認識装置およびコンピュータプログラム
JP2007171809A (ja) 情報処理装置及び情報処理方法
JP2008083100A (ja) 音声対話装置及びその方法
JP2016061855A (ja) 音声学習装置および制御プログラム
US11967248B2 (en) Conversation-based foreign language learning method using reciprocal speech transmission through speech recognition function and TTS function of terminal
JP2004021920A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP3104661B2 (ja) 日本語文章作成装置
US20220350605A1 (en) Information processing apparatus
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
JP2008084055A (ja) ヘルプ管理端末、ヘルプ管理方法およびヘルプ管理プログラム
JP2007003669A (ja) 文書作成装置
JP5464785B2 (ja) 情報処理装置および情報処理方法
JPWO2020017151A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP5008248B2 (ja) 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP2009116107A (ja) 情報処理装置及び方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100209

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

R151 Written notification of patent or utility model registration

Ref document number: 5002283

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees