JP5002283B2

JP5002283B2 - 情報処理装置および情報処理方法

Info

Publication number: JP5002283B2
Application number: JP2007039339A
Authority: JP
Inventors: 寛樹山本; 英生久保山; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-02-20
Filing date: 2007-02-20
Publication date: 2012-08-15
Anticipated expiration: 2027-02-20
Also published as: JP2008203516A; US8000965B2; US20080201151A1

Description

本発明は、入力された音声を認識する音声認識を提供する情報処理装置に関する。

音声認識技術は、データの入力や機器の操作をキー入力やボタン操作に替えて音声入力で実現する技術として実用化が進んでいる。現在用いられている多くの音声認識技術は、語数に違いはあっても決められた語あるいはフレーズしか認識することができない。したがって、ユーザが音声入力する場面でどのような語またはフレーズが受理されるのか分かりにくいという課題がある。このような課題に対して、音声入力を円滑に進めるために、ユーザに音声入力可能な語やフレーズを提示するよう工夫された音声認識システムがある。

例えば特許文献１に、住所を音声入力する場面で「愛知県刈谷市昭和町のように入力して下さい」と具体的な入力例を示す音声認識装置が開示されている。

また、特許文献２に開示されている音声認識装置は、連続した数字の音声入力が誤認識した場合に、「○番目を×」のように訂正用の入力のテンプレートをユーザに提示する。

ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）と音声入力を組み合わせたシステムでは、何を入力すれば良いかわかりやすくＧＵＩを構成するものが多い。

例えば、特許文献３に開示されているデータ入力装置では、経路を入力する画面において、「＿＿から＿＿まで」（“＿＿”の部分は入力欄）というテンプレートの表示を行って、例えば「東京から大阪まで」という発声が入力できることをユーザに提示している。このデータ入力装置では、固定された表現をテキスト表示で、複数の語が当てはまる部分を入力欄で示すことによって、言い換え可能な部分と決められた通り入力しなければならない部分を区別している。さらに、所定の操作により入力欄に入力可能な語の例を合成音によるガイダンスあるいは表示でユーザに提示して、受理可能な入力がわかりやすいＵＩを実現している。

以上のように、ユーザに音声入力の入力例や入力テンプレートを示すことによって、ユーザが何を発声すればよいか戸惑わないようにすることができる。
特開２０００−１８１４８８号公報特開２００５−２８３７９７号公報特開２００４−０２１９２０号公報

特許文献１に開示されている音声認識装置では、提示する入力例があらかじめ決められている。

特許文献２の音声認識装置で示される入力例は、言い換え可能な部分がどこであるかがわかりやすいが、一方でこのような入力例を生成する方法については開示されていない。

特許文献３のデータ入力装置では入力欄に入力可能な例をあらかじめ決めておく方法と、入力欄に対応づけられた文法から、各入力欄に対応する語を抽出して入力例を生成する方法が開示されている。しかしながら、ユーザに提示する「＿＿から＿＿まで」という入力テンプレートが、ＵＩを記述した段階で固定される。

上記いずれの発明においても、入力可能なフレーズを変更する場合に音声認識に用いる文法の変更とともに、入力例あるいはＧＵＩの構成を変更する必要が生じる。

例えば、特許文献１の音声認識装置において、住所を入力する場面であらたに番地まで入力できるようにする場合には、あらかじめ設定する入力例を変更する必要がある。

また、特許文献３の音声認識装置において、経路を音声入力するフレーズを「＿＿駅から＿＿駅まで」のように“駅”を追加したフレーズに変更する場合、ＧＵＩの記述を変更する必要がある。

以上のように、従来の音声認識システムではユーザに提示する入力例やＵＩがあらかじめ決められており、音声入力可能なフレーズを変更するにはＵＩの変更が必要になる。

本発明は、上記の課題を解決するため、文法の変更に合わせてユーザに提示するＵＩを変更する情報処理装置を提供することを目的とする。

上記課題を解決するために、本発明の情報処理装置は、音声認識文法を取得する取得手段と、前記音声認識文法を解析して構成されたネットワーク上で、隣接する接続間の単語数を取得する解析手段と、前記単語数によって、前記接続間の単語の表示形態を決定する決定手段と、前記決定された表示形態で、前記音声認識文法で受理可能な音声入力のテンプレートを作成する作成手段を有することを特徴とする。

本発明によれば、文法の変更に合わせて、ユーザに提示するＵＩを変更するカスタマイズ性の良い情報処理装置が提供され、ユーザの利便性や快適性を向上できる。

以下、添付図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。

以下、図面を参照して本発明の第一の実施形態を詳細に説明する。実施例１では、テレビ番組を検索する情報処理装置における、検索条件の入力に本発明を適用した場合について説明する。入力する検索条件は出演者および「ニュース」「映画」などのテレビ番組のカテゴリーとする。

まず、本情報処理装置の動作の概略を説明する。ユーザが所定の操作により、テレビ番組の検索を指示すると、情報処理装置は図２に示すＵＩを表示する。図２において、２００は検索条件を入力するＵＩの表示の一例である。

２０１は検索条件を音声入力するための入力テンプレートである。ここで、入力テンプレートとは、音声認識が受理する入力を例示したものである。２０１に示すように、空欄を含む表示形態であってもよい。この例では、２０２、２０４に空の入力欄を用いることで、該当部分に複数の語が入力できることを示している。２０２、２０４はそれぞれ、番組の出演者、「スポーツ」「ニュース」などの番組のカテゴリーが入力できる。同様に、２０５、２０６は前に接続する語から分岐して二つの語を表示して、「〜を検索」「〜を見たい」という二つの文末表現が音声入力できることを示している。このように本情報処理装置では、２０１に示した入力テンプレートにより、ユーザにどのような入力が受理できるかを提示する。本発明は、このような入力テンプレートをあらかじめ作成しておくのではなく、音声入力に使用する音声認識文法に基づいて情報処理装置が自動で作成する点に特徴がある。以下、詳細に説明していく。

図１は実施例１に示す情報処理装置の基本構成を示す図である。実施例１の情報処理装置は制御手段１００、入力手段１０１、表示手段１０２、音声認識手段１０３、通信手段１０４、記憶手段１０５、文法記憶手段１０６、入力テンプレート記憶手段１０７、入力テンプレート作成手段１１０、文法読み出し手段１１１、文法解析手段１１２、表示形態決定手段１１３、文法取得手段１１４を備える。

制御手段１００はワークメモリやＣＰＵ、ＭＰＵ等により構成されており、後段の記憶手段１０５に記憶されたプログラムやデータを読み出して各種の処理を実行する。

入力手段１０１はボタン群やキーボード、マウス、タッチパネル、ペン、タブレット、デジタイザ等の他、音声入力のためのマイクロフォン、Ａ／Ｄ変換器等の入力装置から構成され、各種の指示を本装置に入力するための入力インタフェースとして機能する。

表示手段１０２は液晶ディスプレイ等の表示装置から構成され、画像や文字等により構成される各種の情報を表示する。なお、表示手段１０２としてタッチパネル式の表示装置を用いてもよく、その場合、表示手段１０２は入力手段１０１としての機能（各種の指示を本装置に入力する機能）をも有することになる。

音声認識手段１０３は入力手段１０１より入力された音声に対して、後述する文法記憶手段１０６に記憶されている音声認識文法にしたがって音声認識を行い、認識結果を表示手段１０２に表示する。上記音声認識については公知の技術を利用する。

通信手段１０４は放送波の受信装置やＬＡＮやインターネットに接続するための装置で構成され、後段の文法取得手段１１４で外部サーバ１２１から音声認識文法１２２を取得する際に外部との通信に利用する。

記憶手段１０５は、各種の情報を保存するためのＨＤＤ（ハードディスクドライブ）装置や、情報処理装置に各種の情報を提供するためのＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記憶媒体等により構成されている。またこのＨＤＤ装置や記憶媒体には、各種のアプリケーションプログラム、ユーザ・インタフェース制御プログラム、そして各プログラムを実行する際に必要な各種のデータ等が記憶されており、これらは後段の制御手段１００の制御により本情報処理装置に読み込まれる。文法記憶手段１０６は、音声認識手段１０３が受理可能な文法規則を記述した音声認識文法を記憶する領域である。入力テンプレート記憶手段１０７は、表示手段１０２に表示する入力テンプレートの情報を記憶する領域である。

入力テンプレート作成手段１１０は、文法読み出し手段１１１、文法解析手段１１２、表示形態決定手段１１３から構成され、音声認識文法に基づいて入力テンプレートを作成する。文法読み出し手段１１１は、文法記憶手段１０６に記憶されている音声認識文法を読み出す。文法解析手段１１２は、文法読み出し手段１１１が読み出した音声認識文法の構造を解析する。表示形態決定手段１１３は、文法解析手段１１２の解析結果に基づき、入力テンプレートの表示形態を決定する。

文法取得手段１１４は、通信手段１０４を介して、外部サーバ１２１から提供される音声認識文法１２２を取得する。

まず、本情報処理装置で情報検索を行う処理の流れを説明する。図３は本情報処理装置において、情報検索を行う処理を説明するフローチャートである。このフローチャートを実現するためのプログラムは、記憶手段１０５に記憶され、制御手段１００の制御のもと実行される。

ユーザが情報検索を開始する操作を行うと図３に示したフローチャートに従って処理を進める。まず、制御手段１００が入力テンプレート記憶手段１０７に音声認識文法に対応する入力テンプレートが記憶されているかどうかを確認する（Ｓ３０１）。入力テンプレート記憶手段１０７に音声認識文法に対応する入力テンプレートが記憶されている場合（Ｓ３０１がＹＥＳ）はＳ３０４の処理に進む。

Ｓ３０１において、入力テンプレート記憶手段１０７に音声認識文法に対応する入力テンプレートが記憶されていない場合は、入力テンプレート作成手段１１０が入力テンプレートを作成する（Ｓ３０２）。作成した入力テンプレートは入力テンプレート記憶手段１０７に記憶し（Ｓ３０３）、Ｓ３０４の処理に進む。入力テンプレートの作成方法について、後段で詳細に説明する。

Ｓ３０４では、制御手段１００が入力テンプレート記憶手段１０７から、情報検索に用いる音声認識文法に対応する入力テンプレートを読み出し、入力テンプレートを含むＵＩを表示手段１０２上に表示するよう制御する。表示の一例は図２に示した通りである。

図２において、２００は本装置で情報検索を開始する際に表示するＵＩの一例である。本実施例では、ＧＵＩを用いて、入力テンプレート２０１、キャンセルボタン２０７、ＯＫボタン２０８を表示する。２０２、２０４は、テキスト入力を受理するＧＵＩ部品で、入力手段１０１が備えるキーボードなどでユーザが文字を入力できる。２０３、２０５、２０６は、テキストを表示するＧＵＩ部品で、こちらはユーザが変更することはできない。

以下、本発明では、ユーザが文字を入力できるＧＵＩ部品をテキストボックス、ユーザが変更できない固定のテキストを表示するためのＧＵＩ部品を固定テキストと記す。

続いて、Ｓ３０５でテキストボックス２０２、２０４に検索条件の入力を行う。ユーザは入力手段１０１が備えるキーボードで入力しても良いし、入力手段１０１が備えるマイクロフォンを介して音声入力しても良い。制御手段１００が音声入力を検出すると、音声認識手段１０３が文法記憶手段１０６に記憶されている音声認識文法を用いてユーザが入力した音声を音声認識する。テキストボックス２０２、２０４に該当する語が認識された場合は、該当するテキストボックスに認識結果を表示する。本実施例では、テキストボックス２０２および２０４両方の検索条件が入力されるまで、番組の検索は行えないものとする。すなわち、両方の検索条件が入力されるまで、ＯＫボタン２０８は押すことができない。

ユーザが検索条件の入力を終了し、ＯＫボタン２０８を押す（Ｓ３０６がＹＥＳ）と、入力された検索条件にしたがって検索を行い、結果を表示手段１０２上に表示する。情報検索の処理は制御部１００が行い、記憶手段１０５に記憶するデータベース（図示しない）から入力された検索条件に合致する情報を検索する（Ｓ３０７）。

検索結果を表示した場合（Ｓ３０７）、およびユーザがキャンセルボタン２０７を押して、情報検索の処理を中止した場合（Ｓ３０６がＮＯかつＳ３０８がＹＥＳ）、情報検索の処理を終了する。

続いて、Ｓ３０２において入力テンプレート作成手段１１０が入力テンプレートを作成する処理について説明する。本情報処理装置では、音声入力に用いる音声認識文法に基づいて入力テンプレートを作成する。

図４に音声認識文法の一例を示す。図４に示した音声認識文法４００は、テレビ番組の検索条件を音声入力するための音声認識文法の一例である。音声認識文法４００は、公知のＢＮＦ表記に類似した書式で記述されている。以下、本実施例における音声認識文法の書式を説明する。
・“ルール名＝右辺；”で文法規則を記述する。
・左辺には定義するルール名のみを記述する。
・ルール名は“＄”から始める。
・ルールの定義は“；”で終了する。
・定義済みのルールに関しては右辺に記述できる。
・“｜”はＯＲを意味する。
・“［］”で囲まれた部分は省略可能を意味する。
・「＄Ｃｏｍｍａｎｄ」で定義されたルールを音声認識手段１０３で受理する。

以上の規則にしたがって、音声認識文法４００内の４０１〜４０５の部分について説明する。

４０１は、「＄Ｐｅｒｓｏｎ」というルールを定義している。「＄Ｐｅｒｓｏｎ」は「久万ひろし」「イチロウ」・・・「Ｐｏｆｆｙ」のいずれかの語であることを定義している。

同様に、４０２、４０３、４０４で「＄Ｐｅｒｆｏｒｍ」「＄Ｃａｔｅｇｏｒｙ」「＄Ｒｅｔｒｉｅｖｅ」というルールを定義している。

４０５は音声認識文法４００が受理する文法規則を定義している。すなわち、音声認識文法４００を用いて音声認識する場合は「○○が出ている△△を検索」あるいは「○○が出ている△△を見たい」という音声入力を受理することを定義している。ここで、○○は「＄Ｐｅｒｓｏｎ」で定義されたいずれかの語、△△は「＄Ｃａｔｅｇｏｒｙ」で定義されたいずれかの語である。

続いて、音声認識文法に基づいて入力テンプレートを作成する処理について説明する。以下、図５のフローチャートを参照しながら、入力テンプレートを作成する処理を説明する。

まず、文法読み出し手段１１１が文法記憶手段１０６に記憶されている音声認識文法を読み出す（Ｓ５０１）。次に、文法解析手段１１２が読み出した音声認識文法を解析してネットワークを構成する（Ｓ５０２）。文法を解析してネットワークを構成する方法については当業者には公知の技術であるので説明を省略する。音声認識文法４００から構成したネットワークの一例を図６に示す。ネットワークは、アークとノードで構成され、本実施例ではアークが単語（例えば６０５）、ノードが単語間の接続（例えば６０６）を表している。

続いて、文法解析手段１１２は構成したネットワーク上で、隣接するノード間の単語数（＝アーク数）を記憶手段１０５に一時的に記憶する（Ｓ５０３）。記憶手段１０５に記憶しておくデータの一例を図７に示す。図７に示す表７００は、縦軸に開始ノード、横軸に終了ノード、各軸が交差する欄に開始ノード・終了ノード間の単語数を示している。例えば、７０１はノードＮ３・ノードＮ４間の単語数を表す。このように、音声認識文法中の前後の接続を共有する各区間について、区間ごとに区間内の単語数が求められ記憶される。

表示形態決定手段１１３は各ノード間の単語数に応じて、作成する入力テンプレートの表示形態を決定する。本実施例では、記憶手段１０５に記憶したノード間の単語数によって、ノード間の単語の表示形態を変更する。すなわち、単語数がＸ個以上のノード間は、個別の単語を表示せずにテキストボックスとする。なおＸは２以上の自然数であるとする。ノード間の単語数がＸ個未満のノード間はすべての単語を固定テキストで表示する（Ｓ５０４）。ここでは、Ｘ＝３である場合を例に挙げて説明する。表７００から、本実施例において、ノード間の単語数が３以上になるのは、ノードＮ１・Ｎ２間、およびＮ３・Ｎ４間である。図６では、６０１、６０３の部分がこれに該当する。したがって、６０１、６０３の部分をテキストボックス、６０２、６０４の部分を固定テキストで表示するよう表示形態を決定する。このように表示形態を決定すると、図２の２００に示した入力テンプレートが作成される。なお、本実施例では、ノード間の単語数が複数かつＸ個未満の部分については、表示形態を２０５に示すような分岐表現にする。

（実施例１の変形例１）
上記実施例では、文法読み出し手段１１１が読み出す音声認識文法が、情報処理装置が備える記憶手段に記憶されている場合について説明した。しかしながら、本発明はこれに限定されることはなく、文法読み出し手段１１１が外部サーバ１２１が提供する音声認識文法１２２を直接読み出すようにしてもよい。

（実施例１の変形例２）
上記実施例では、入力テンプレート記憶手段１０７に入力テンプレートが記憶されていない場合のみ、入力テンプレート作成（Ｓ３０２）および作成した入力テンプレートを記憶（Ｓ３０３）する処理を行っている。

これとは別に、ユーザが文法取得手段１１４によって、外部サーバ１２１から音声認識文法を取得して、既存の音声認識文法を更新した時、あるいは新規の音声認識文法を取得した時にＳ３０２、Ｓ３０３の処理を行うようにしてもよい。

以上のように、実施例１の情報処理装置によれば、音声入力に使用する音声認識文法を解析し、解析した結果から入力テンプレートを作成できる。すなわち、音声認識文法を変更すると、ユーザに提示する入力テンプレートが自動的に変更される。したがって、ＵＩの更新を音声認識文法の変更だけで行うことができるようになり、音声入力機能を備えた情報処理装置のＵＩの変更が容易になる。例えば、本実施例で説明したテレビ番組の検索条件を入力する例では、番組検索の方法はユーザによって異なる。番組名で検索したいユーザもいれば、時間とジャンルで検索したいユーザもいる。このような個別のニーズに対して、ユーザが好みの音声認識文法を選択できるように、様々な音声認識文法を用意することで、ユーザのニーズにあったＵＩを提供することができるようになる。さらに、ユーザ自身が音声認識文法を変更することで、個人ごとのＵＩのカスタマイズに自由度が増す。したがって、本発明により音声入力を備えた情報処理装置のユーザの使用感、利便性が向上する。

実施例１におけるＳ５０４の処理では、Ｘ＝３の固定値として、ノード間の単語数がＸ以上の部分の表示形態をテキストボックスにしている。表示領域の広さが十分にある場合は、入力テンプレートにできるだけ多くの単語が表示されている方が、受理できる入力例がわかりやすくなる。本実施例では、実施例１と同じ構成の情報処理装置において、入力テンプレートを作成する際に、表示領域の大きさに応じてＸの値を動的に変更する場合について説明する。

図８に実施例２における、入力テンプレートを作成する処理のフローチャートを示す。図８において、図５のフローチャートと同じ処理については同じ記号で示している。図８の処理では、図５におけるＳ５０３とＳ５０４の処理の間に、新たにＳ５０５とＳ５０６の処理が追加されている。

Ｓ５０５において、表示形態決定手段１１３は、入力テンプレートが表示可能な行数Ｙを算出する。Ｙは以下の式で計算できる。
Ｙ＝ＩＮＴ｛（（Ａ−Ｂ）／Ｃ）／Ｄ｝（数式１）
数式１において、各変数は以下を意味する。
Ａ：音声入力時に表示するＵＩの領域の高さ
Ｂ：入力テンプレート以外のＵＩ部品の表示に要する領域の高さ
Ｃ：入力テンプレート１行の表示に要する領域の高さ
Ｄ：同時に使用する音声認識文法の数
変数Ａ、Ｂ、Ｃの単位はいずれもドット数であるとする。また、数式１において、ＩＮＴ（）は小数点以下を切り捨てる関数である。数式１により、一つの音声認識文法の入力テンプレートが表示可能な最大行数Ｙが計算される。

続いて、テキストボックスで表示する単語数の閾値ＸをＹ＋１とする（Ｓ５０６）。すなわち、固定テキストで表示した場合に、最大行数Ｙを越えてしまうノード間の表示形態をテキストボックスにする。

図９に一つの音声認識文法と二つの音声認識文法を用いた場合で表示形態が変わる様子を示す。図９において、（Ａ）に示した９００は一つの音声認識文法を使用して検索条件の入力を行うＵＩの表示の例である。表示領域が十分にあるため、音声認識文法が受理する全ての単語を固定テキストで表示している。これに対して、（Ｂ）に示した９１０は、（Ａ）で使用している音声認識文法に加えて「○○を見たい」「○○を検索」（○○はカテゴリー）という音声入力を受理する音声認識を併用して検索条件の入力を行うＵＩの表示の例である。二つの音声認識文法を使用することにより、入力テンプレートを表示可能な領域が９００に比べて狭くなるため、一部の表示形態がテキストボックスによる表示にかわる様子を説明している。

図１０は本発明を表示領域が大きい表示手段を備えた情報処理装置で実現した場合（Ａ）と、表示領域が小さい表示手段を備えた情報処理装置で実現した場合（Ｂ）に表示される入力テンプレートの表示形態が変化する様子を示している。

以上のように、実施例２の情報処理装置によれば、使用する文法の数、表示領域の大きさに合わせてスケーラブルな入力テンプレートが作成される。

音声認識文法には、単語ごとあるいは文法規則（ルール）ごとに意味タグを付与して記述したものがある。本来、これらの意味タグは得られた認識結果に対して、後処理を行うために付与するものであるが、本実施例ではこの意味タグを、入力テンプレート作成に利用する場合について説明する。

本実施例の情報処理装置は、実施例１と同じ構成で実現される。しかしながら、文法記憶手段１０６が記憶する音声認識文法および文法取得手段１１４が取得する音声認識文法に、意味タグが付与される点が実施例１と異なる。

図１１に意味タグを付与した音声認識文法の一例を示す。図１１に示した音声認識文法１１００は、鉄道経路検索などで用いられる「○○から△△まで」のような入力を受理する音声認識文法である。基本的な記述書式は実施例１の音声認識文法と同じくＢＮＦ表記に類似した書式で記述されている。本実施例では、単語に「＠」を付与し、「＠」以降に意味タグを記述するものとする。

音声認識文法１１００では、１１０１で定義される経路の出発地の都市名および１１０３で定義される目的地の都市名の単語に意味タグが付与される。出発地の都市名に対しては“＝Ｆｒｏｍ”、目的地の都市名に対しては“ｓｌｏｔ＝Ｔｏ”という意味タグが付与されている。なお、出発地の都市名の“東京”と目的地の都市名の“大阪”には意味タグが付与されていない。先に述べたように、本来意味タグは、認識結果が得られた時に後処理に利用するもので、例えば“東京＠ｓｌｏｔ＝Ｆｒｏｍ”が認識された場合は、付与されている意味タグ“ｓｌｏｔ＝Ｆｒｏｍ”という情報を用いて所定の後処理を行う。しかしながら、実施例３の情報処理装置では、この意味タグを抽出し、表示形態決定手段１１３で入力テンプレートの表示形態を決める際に、抽出した意味タグを利用する。

図１２に実施例３の情報処理装置において、入力テンプレートを作成する処理のフローチャートを示す。実施例１および実施例２と同じ処理には同一の記号を付与する。

表示形態決定手段１１３は、隣接するノード間、つまり同一区間内で同一の意味タグが付与されている単語は一つにまとめ、その表示形態をテキストボックスにする（Ｓ５０７）。１１００に示した音声認識文法では、出発地の都市名のうち、東京をのぞく都市名の表示形態をテキストボックスにする。同様に、目的地の都市名のうち、大阪をのぞく都市名の表示形態をテキストボックスにする。以上の処理で作成される入力テンプレートの一例を図１３に示す。

以上、実施例３の情報処理装置では、意味タグを利用して入力テンプレートを作成できる。したがって、音声認識文法に意味タグを付与することによって、表示する入力テンプレートを制御できようになり、音声認識文法による表示するＵＩのカスタマイズが容易に行えるようになる。

実施例１乃至実施例３で説明した情報処理装置が表示する入力テンプレートでは、テキストボックスを空のまま表示している。しかしながら、テキストボックスが空のままでは、テキストボックスにどのような語が入力できるかわかりにくい場合がある。これに対して、本実施例では、例えば図１４のようにテキストボックスに入力可能な代表的な単語を表示して、よりわかりやすい入力テンプレートを表示する。

以下、テキストボックスに入力可能な代表的な単語を代表語と表記する。まず、入力テンプレート作成時に代表語を決定する方法について説明する。

表示形態決定手段１１３が表示形態を決定する際に、テキストボックスごとに代表語の選択を行う。実施例１、実施例２ではＳ５０４の処理を行う際に、実施例３ではＳ５０７の処理を行う際に表示形態決定手段１１３が代表語の選択を行う。本実施例では、代表語はテキストボックスに入力可能な単語のうち、音声認識文法に最初に記述された単語を選択することにするが、テキストボックスに入力可能な単語であればどの単語を選択してもよい。例えば、実施例１が表示する入力テンプレート２０１のテキストボックス２０２の場合は、音声認識文法４００に記述されている出演者（４０１）のうち最初に記述されている “久万ひろし”を代表語とする。同様に、カテゴリーが入力可能なテキストボックス２０３の代表語は“ニュース”である。表示形態決定手段１１３が選択した代表語は、入力テンプレートを入力テンプレート記憶手段１０７に記憶する際（Ｓ３０３）に、入力テンプレートと合わせて記憶しておく。制御手段１００は、入力テンプレートを表示する際に、入力テンプレート記憶手段１０７に記憶されている代表語を読み出し、テキストボックス内に表示するよう表示を制御する。図１４に示した入力テンプレート１４０１は、このようにして代表語を表示した一例である。

表示する代表語をユーザの入力履歴から選択するようにしても良い。この場合、Ｓ３０５の処理でユーザが検索条件を入力する際に、制御手段１００がユーザの入力履歴を記憶手段１０５に記憶しておく。入力履歴はテキストボックスごとに記憶する。Ｓ３０４で制御部１００が入力テンプレートを表示する際に、入力履歴を記憶手段１０５から読み出し、該当するテキストボックスごとに表示する代表語を選択する。このとき、制御手段１００は、最後に入力された単語、あるいは入力頻度が多い単語などを基準に代表語を選択する。

記憶手段１０５に入力履歴が存在しない場合は、入力テンプレート記憶部１０７に記憶されている代表語を表示する。

（実施例４の変形例）
上記実施例において、情報処理装置が選択した代表語とユーザが入力した単語を区別できるように、文字のフォント、色、文字飾り、サイズを変えるなどして代表語を表示する形態をユーザが入力した単語と異なる形態にするのが望ましい。

なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。

本発明の実施例に係る情報処理装置の基本構成を示す図である。本発明の実施例１に係る情報処理装置が表示するＵＩの一例を示す図である。本発明の実施例１に係る情報処理装置の処理を説明するフローチャートである。本発明の実施例１、２、４に係る情報処理装置で処理する音声認識文法の一例を示す図である。本発明の実施例１に係る情報処理装置における、入力テンプレートを作成する処理を説明するフローチャートである。本発明の実施例１、２、４に係る情報処理装置において処理する音声認識文法のネットワークの一例を示す図である。本発明の実施例１に係る情報処理装置が処理において、一時的に記憶するデータの一例を示す図である。本発明の実施例２に係る情報処理装置における、入力テンプレートを作成する処理を説明するフローチャートである。本発明の実施例２に係る情報処理装置が表示するＵＩの一例を示す図である。本発明の実施例２に係る情報処理装置が表示するＵＩの一例を示す図である。本発明の実施例３に係る情報処理装置が処理する音声認識文法の一例を示す図である。本発明の実施例３に係る情報処理装置における、入力テンプレートを作成する処理を説明するフローチャートである。本発明の実施例３に係る情報処理装置が表示するＵＩの一例を示す図である。本発明の実施例４に係る情報処理装置が表示するＵＩの一例を示す図である。

符号の説明

１００制御手段
１０１入力手段
１０２表示手段
１０３音声認識手段
１０４通信手段
１０５記憶手段
１０６文法記憶手段
１０７入力テンプレート記憶手段
１１０入力テンプレート作成手段
１１１文法読み出し手段
１１２文法解析手段
１１３表示形態決定手段
１１４文法取得手段
１２１外部サーバ
１２２音声認識文法

Claims

音声認識文法を取得する取得手段と、
前記音声認識文法を解析して構成されたネットワーク上で、隣接する接続間の単語数を取得する解析手段と、
前記単語数によって、前記接続間の単語の表示形態を決定する決定手段と、
前記決定された表示形態で、前記音声認識文法で受理可能な音声入力のテンプレートを作成する作成手段を有することを特徴とする情報処理装置。
前記作成手段は、前記単語数が閾値Ｘ（Ｘは２以上の自然数）以上の区間の表示形態を、ユーザが入力可能な入力欄とすることを特徴とする請求項１に記載の情報処理装置。
音声入力のテンプレートを表示可能な表示領域の広さを取得する表示領域取得手段を更に備え、
前記作成手段は、前記表示領域取得手段で取得した表示領域の広さに基づいて、前記閾値Ｘを決定することを特徴とする請求項２に記載の情報処理装置。
前記作成手段が作成した入力テンプレートの表示を制御する表示制御手段を備えた請求項１に記載の情報処理装置。
前記表示制御手段は、前記入力欄を表示させる際に、当該入力欄に入力可能な単語を併せて表示させることを特徴とする請求項４に記載の情報処理装置。
前記表示制御手段により表示される単語は、前記入力欄に入力可能な単語のうち、前記解析手段が解析した音声認識文法に最初に記述されている単語であることを特徴とする請求項５に記載の情報処理装置。
ユーザの入力履歴を保持する履歴保持手段をさらに備え、
前記表示制御手段により表示される単語は、前記入力欄にユーザが最後に入力した単語または当該入力欄に入力された頻度が最も多い単語のいずれかであることを特徴とする請求項５に記載の情報処理装置。
音声認識文法を取得する取得工程と、
前記音声認識文法を解析して構成されたネットワーク上で、隣接する接続間の単語数を取得する解析工程と、
前記単語数によって、前記接続間の単語の表示形態を決定する決定工程と、
前記決定された表示形態で、前記音声認識文法で受理可能な音声入力のテンプレートを作成する作成工程を有することを特徴とする情報処理方法。
請求項８に記載の情報処理方法をコンピュータに実行させるためのプログラム。
請求項９に記載のプログラムを記憶したコンピュータ読取可能な記憶媒体。