JP6747434B2

JP6747434B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6747434B2
Application number: JP2017514726A
Authority: JP
Inventors: 亜由美加藤; 邦仁澤井; 真一河野; 祐平滝; 佑輔中川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-10-23
Filing date: 2016-07-20
Publication date: 2020-08-26
Anticipated expiration: 2036-07-20
Also published as: US10714082B2; US20170337919A1; WO2017068826A1; JPWO2017068826A1

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

近年、音声認識技術の向上により、ユーザが音声によって文字を入力することが一般的になっている。ただし、ユーザが発する音声に含まれる発話情報には、略称、言い換え、および固有名詞等のデータベース（例えば、コーパスなど）に登録されていない未知語が含まれることが多い。

そのため、ユーザの発話情報を適切な表記に変換するためには、ユーザの発話情報に含まれる未知語を適切に認識することが必要である。認識された未知語は、データベースに登録されるため、以後、適切な表記に変換されるようになる。

このような技術としては、例えば、下記の特許文献１に開示されるように、ユーザ同士の連続した対話において、ユーザに登録モードを意識させることなく、対話内容から未知語を抽出し、所定のデータベースに登録する技術を例示することができる。

特開２００３−２７１１８０号公報

しかし、特許文献１に開示された技術では、所定のデータベースに登録されていない単語をすべて自動的に登録してしまうため、ユーザの使用頻度が低い単語も未知語として登録されてしまっていた。そのため、特許文献１に開示された技術によって生成されたデータベースは、登録された未知語に無駄が多く、効率が良くなかった。

そこで、本開示では、未知語が登録されたデータベースを効率的に生成することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、識別された前記未知語を登録するための処理を行う処理部と、を備える、情報処理装置が提供される。

また、本開示によれば、演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、識別された前記未知語を登録するための処理を行うことと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータをユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、識別された前記未知語を登録するための処理を行う処理部と、として機能させる、プログラムが提供される。

本開示によれば、ユーザに使用頻度の高い未知語を意識的に登録させることが可能である。

以上説明したように本開示によれば、未知語が効率的に登録されたデータベースを生成することが可能である。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理装置の概要を説明する説明図である。同実施形態に係る情報処理装置の機能構成を説明するブロック図である。同実施形態に係る情報処理装置の動作例を説明するフローチャート図である。未知語が意図されない表記に変換された画像の一例を示す説明図である。第１の入力例における入力欄の画像例を示す説明図である。第１の入力例における入力欄の画像例を示す説明図である。第１の入力例における入力欄の画像例を示す説明図である。第１の入力例における入力欄の画像例を示す説明図である。登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。所定の発話方法における閾値までの時間を示す閾値画像の設定例を示す説明図である。第２の入力例における入力欄の画像例を示す説明図である。第２の入力例における入力欄の画像例を示す説明図である。第３の入力例における入力欄の画像例を示す説明図である。第３の入力例における入力欄の画像例を示す説明図である。第３の入力例における入力欄の画像例を示す説明図である。第３の入力例における入力欄の画像例を示す説明図である。誤って未知語が識別された入力欄の画像例を示す説明図である。変形例における入力欄の画像例を示す説明図である。変形例における入力欄の画像例を示す説明図である。変形例における入力欄の画像例を示す説明図である。登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。本開示の一実施形態に係る情報処理装置のハードウェア構成例を示したブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．情報処理装置の概要
２．情報処理装置の構成例
３．情報処理装置の動作例
４．未知語の入力の具体例
４．１．第１の入力例
４．２．第２の入力例
４．３．第３の入力例
４．４．入力の修正例
４．５．変形例
５．ハードウェア構成例
６．まとめ

＜１．情報処理装置の概要＞
まず、図１を参照して、本開示の一実施形態に係る情報処理装置の概要について説明する。図１は、本実施形態に係る情報処理装置１の概要を説明する説明図である。

図１に示すように、情報処理装置１は、例えば、音声入力装置５、および表示装置９と接続される。また、情報処理装置１は、操作入力装置７と接続されていてもよい。

情報処理装置１は、ユーザ３によって音声入力装置５を介して音声入力された発話情報を認識し、認識した発話情報を文字にて表示した発話画像９１を生成する。具体的には、情報処理装置１は、音声入力装置５にて収音されたユーザ３の音声からユーザ３の発話情報を認識し、認識した発話情報を表示する発話画像９１を生成する。なお、発話画像９１は、例えば、表示装置９に表示されることによって、ユーザ３に視認されてもよい。

ユーザ３は、音声入力装置５を用いて、発話情報を入力する。例えば、ユーザ３は、音声入力装置５を用いて音声チャットをしながら、操作入力装置７を用いて表示装置９に表示されるビデオゲーム等を遊ぶユーザであってもよい。

音声入力装置５は、ユーザ３の音声を収音し、情報処理装置１に入力する。音声入力装置５は、例えば、表示装置９の前に設置されたマイクロフォンであってもよく、操作入力装置７に内蔵されたマイクロフォンであってもよく、またはユーザ３が装着したヘッドセットなどであってもよい。

操作入力装置７は、ユーザ３からの音声以外の入力を受け付け、情報処理装置１に入力する。例えば、操作入力装置７は、表示装置９に表示されるビデオゲーム等を操作するためのコントローラであってもよい。

表示装置９は、情報処理装置１等によって生成された画像を表示する。表示装置９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）表示装置、液晶表示装置および有機エレクトロルミネッセンス表示装置などの表示装置を備えていれば、特に形態は限定されない。表示装置９は、例えば、表示装置を備えたパーソナルコンピュータ、テレビジョン装置、スマートフォン、表示装置を備えたウェアラブル装置、および透過型または遮蔽型のヘッドマウントディスプレイ装置などであってもよい。

ここで、情報処理装置１の音声認識において、発話情報の認識に用いられるデータベースに登録されていない単語の音声信号は、ユーザ３が意図しない文節区切り、または表記にて認識される可能性が高い。このような場合、ユーザ３は、意図しない表記にて認識された単語を意図した表記に修正するために、発話情報の再入力等をする必要があり、音声入力の利便性が低かった。

特に、ビデオゲームでは、該ビデオゲームにて特有の固有名詞が存在することが多い。このような固有名詞は、通常の発話情報の認識に用いられるデータベース（例えば、コーパスなど）に登録されていないことが多いため、ユーザ３が意図しない文節区切り、または表記にて認識される可能性が高い。

また、該ビデオゲーム用の辞書データベースが用意されていた場合でも、音声チャットなどでは、略称、俗語、および独自の言い換えなどの口語的な表現が使用されることが多いため、データベースに登録されていない未知語がユーザによって生成されることもある。口語的な表現が多い音声チャットなどでは、ユーザ３によって新たな未知語が日々生成されていると考えられる。

そのため、ユーザ３の発話情報に含まれる未知語を発話情報の認識に用いられるデータベースに効率的に登録することが求められていた。

本実施形態に係る情報処理装置１では、ユーザ３の発話情報の中から、所定の条件を満たす単語を未知語として識別し、識別した未知語を発話情報の認識に用いるデータベースに登録するための処理を行う。

ここで、所定の条件を満たす単語とは、ユーザ３が所定の発話方法にて発話した単語である。具体的には後述するが、例えば、情報処理装置１は、各文字の後に所定の無音区間を設けて発話された単語を未知語と識別してもよく、各文字を所定の長音として発話された単語を未知語と識別してもよく、所定の音量以上にて発話された単語を未知語と識別してもよい。さらに、情報処理装置１は、所定の語にて挟まれて発話された単語を未知語と識別してもよい。

これにより、本実施形態に係る情報処理装置１は、ユーザに未知語を意識的に登録させることができるため、効率的に未知語をデータベースに登録することができる。また、所定の発話方法にて発話されたことを未知語の識別に用いる場合、ユーザ３の操作性および利便性を損なわずに、効率的に未知語を識別することが可能である。

また、情報処理装置１は、登録された未知語を一単語と見なして優先的に文節区切りして、音声認識する。したがって、ユーザ３は意識的に未知語を登録することにより、未知語が意図しない文節区切り、または表記にて認識されることを少なくすることができる。よって、情報処理装置１は、ユーザ３の音声入力の利便性を向上させることができる。

＜２．情報処理装置の構成例＞
次に、図２を参照して、本実施形態に係る情報処理装置１の構成について説明する。図２は、本実施形態に係る情報処理装置１の機能構成を説明するブロック図である。

図２に示すように、情報処理装置１は、音声取得部１０１と、発話認識部１０３と、識別部１０５と、識別制御部１０７と、画像生成部１０９と、処理部１１１と、データベース記憶部１１３とを備える。なお、データベース記憶部１１３は、情報処理装置１と接続された外部の記憶装置に備えられていてもよい。

音声取得部１０１は、音声入力装置５からユーザ３が発した音声信号を取得する。具体的には、音声取得部１０１は、音声入力装置５からの信号の入力を受け取ることが可能な接続インタフェースであってもよい。例えば、音声取得部１０１は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、イーサネット（登録商標）ポート、ＩＥＥＥ８０２．１１規格ポート、および光オーディオ端子等の有線または無線の接続ポートで構成された外部入力インタフェースであってもよい。

発話認識部１０３は、ユーザ３が発した音声信号を音声認識することで、ユーザ３が発した音声信号を文字にて書き起こした発話情報に変換する。具体的には、発話認識部１０３は、ユーザ３が発した音声信号から特徴パラメータを抽出し、抽出された特徴パラメータに基づいて各種データベースを参照することで、入力された音声に最も近いと判断された単語列をユーザ３が発した発話情報であると認識する。

なお、発話認識部１０３が音声信号の認識に用いる特徴パラメータとしては、例えば、スペクトル、基本周波数、フォルマント周波数、パワー線形予測係数、ケプストラム係数、線スペクトル対などを例示することができる。

データベース記憶部１１３は、発話認識部１０３によって音声認識に用いられる各種データベースを記憶する。例えば、データベース記憶部１１３は、音響モデルデータベース、言語モデルデータベース、および辞書データベース等を記憶してもよい。

例えば、音響モデルデータベースは、音声認識する音声の言語における個々の音韻および音節などの音響的な特徴を表す音響モデルを集積したデータベースである。なお、音響モデルとしては、例えば、隠れマルコフモデルなどを使用することができる。また、辞書データベースは、音声認識される各単語の発音に関する情報、および音韻および音節の連鎖関係に関する情報などを集積したデータベースであり、言語モデルデータベースは、辞書データベースに登録されている各単語が互いにどのように接続するのかに関する情報を集積したデータベースである。

これらの各種データベースを参照することにより、発話認識部１０３は、ユーザ３が発した音声信号を認識し、認識した発話の内容を文字にて出力することができる。

なお、これらの各種データベースは、ユーザ３ごとにそれぞれ用意されていてもよく、ユーザ３が参加するチャットルームまたはビデオゲーム等にて共通のデータベースが用意されていてもよい。

識別部１０５は、ユーザ３の発話情報の中から、所定の条件を満たす単語を識別し、識別した単語を未知語であると判断する。具体的には、識別部１０５は、ユーザ３の発話情報の中に、所定の発話方法にて発話された単語が含まれるか否かを判断し、所定の発話方法にて発話された単語が含まれる場合、該単語を未知語として識別する。

ここで、所定の発話方法とは、ユーザ３が意識的に行うことができる発話方法であれば、どのようなものであってもよい。ただし、ユーザ３の発話が意図せずに所定の発話方法となってしまうことを防止するために、所定の発話方法は、閾値が設定された発話方法であることが望ましい。情報処理装置１は、ユーザ３に対して閾値を示すことにより、発話の際に閾値を超えて所定の発話方法とするか否かをユーザ３が制御できるようにしてもよい。

なお、上述した所定の発話方法としては、例えば、各文字の後に閾値以上の長さの無音区間を設けて単語を発話する方法、各文字を閾値以上の長さの長音にて単語を発話する方法、および各文字を閾値以上の大きさの音量にて発話する方法などを例示することができる。

識別制御部１０７は、識別部１０５による未知語の識別を制御する。

具体的には、識別制御部１０７は、識別部１０５によって未知語の識別を実行するか否かを制御してもよい。例えば、識別制御部１０７は、ユーザ３の視線情報を取得し、ユーザ３の視線が表示装置９に向いていない場合、未知語の識別を実行しないように識別部１０５を制御してもよい。これは、ユーザ３が表示装置９に視線を向けていない場合、ユーザ３が発話の内容に注意を向けていない可能性が高く、ユーザ３が意図していないにも関わらず、発話情報に含まれる単語が所定の条件を満たし、未知語と識別されることを防止するためである。

また、識別制御部１０７は、識別部１０５による未知語の識別に用いられる所定の条件を制御してもよい。例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することである場合、識別制御部１０７は、無音区間の長さの閾値を変更してもよい。また、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することである場合、識別制御部１０７は、長音の長さの閾値を変更してもよい。さらに、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することである場合、識別制御部１０７は、音量の大きさの閾値を変更してもよい。

このような未知語の識別に用いられる所定の条件の変更は、ユーザ３の入力に基づいて制御されてもよく、または、ユーザ３の状態に関する情報に基づいて制御されてもよい。具体的には、識別制御部１０７は、ユーザ３の入力に基づいて、未知語の識別に用いられる所定の条件、または所定の条件に設定されている閾値を変更してもよい。

識別制御部１０７は、ユーザ３に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。

具体的には、識別制御部１０７は、音声入力装置５および操作入力装置７に備えられた各種センサからユーザ３の生体情報を取得し、取得した生体情報から判断されるユーザ３の状態に基づいて、所定の条件に設定されている閾値を変更してもよい。各種センサから取得可能なユーザ３の生体情報としては、例えば、ユーザ３の心拍（脈拍）数、体温、発汗量、血圧、および呼吸数などを例示することができる。

例えば、識別制御部１０７は、取得したユーザ３の生体情報から、ユーザ３が緊張または興奮状態、および集中度が高い状態であると判断される場合、当該ユーザ３の状態に応じて、所定の条件に設定されている閾値を増加または減少させてもよい。なお、識別制御部１０７が、ユーザ３の状態に応じて、所定の条件に設定されている閾値をどのように制御するのかについては、適宜、適切な制御が選択される。

また、具体的には、識別制御部１０７は、ユーザ３の通常時の発話の様態に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつユーザ３の通常時の発話速度が速い場合、識別制御部１０７は、無音区間の長さの閾値を小さくしてもよい。また、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつユーザ３の通常時の発話速度が速い場合、識別制御部１０７は、長音の長さの閾値を小さくしてもよい。さらに、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつユーザ３の通常時の発話の音量が大きい場合、識別制御部１０７は、音量の大きさの閾値を大きくしてもよい。このような場合、識別制御部１０７は、未知語を識別するための所定の条件をユーザ３ごとに最適化することができるため、未知語の登録に掛かるユーザ３の負担を低減することができる。

識別制御部１０７は、ユーザ３からの発話情報が入力されるコンテンツに関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部１０７は、ユーザ３からの発話情報が入力されるコンテンツの種類に基づいて、所定の条件に設定されている閾値を変更してもよい。

例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部１０７は、無音区間の長さの閾値を大きくしてもよい。また、発話情報が入力されるコンテンツがチャット等の即時的なものである場合、識別制御部１０７は、無音区間の長さの閾値を小さくしてもよい。

例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部１０７は、長音の長さの閾値を大きくしてもよい。また、発話情報が入力されるコンテンツがチャット等の即時的なものである場合、識別制御部１０７は、長音の長さの閾値を小さくしてもよい。

例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部１０７は、音量の大きさの閾値を小さくしてもよい。また、発話情報が入力されるコンテンツがチャット等である場合、識別制御部１０７は、音量の大きさの閾値を大きくしてもよい。

識別制御部１０７は、ユーザ３の周囲の環境に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部１０７は、ユーザ３の周囲の環境の照度、場所、状況、騒音レベル、時刻、高度、気温、風向き、および風量のうちの少なくともいずれかに基づいて、所定の条件に設定されている閾値を変更してもよい。

例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつユーザ３の周囲の環境の騒音レベルが高い場合、ノイズの混入を避けるため、識別制御部１０７は、無音区間の長さの閾値を小さくしてもよい。また、ユーザ３の周囲の環境の騒音レベルが高い場合、識別制御部１０７は、無音区間の長さの閾値を大きくしてもよい。

例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつユーザ３が屋外にいる場合、識別制御部１０７は、ユーザ３が短時間で入力を行うことができるように、長音の長さの閾値を小さくしてもよい。また、ユーザ３が屋内にいる場合、識別制御部１０７は、長音の長さの閾値を大きくしてもよい。

例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつユーザ３の周囲の環境の騒音レベルが高い場合、識別制御部１０７は、音量の大きさの閾値を大きくしてもよい。また、ユーザ３の周囲の環境の騒音レベルが低い場合、識別制御部１０７は、音量の大きさの閾値を小さくしてもよい。

識別制御部１０７は、発話情報を取得する音声入力装置に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部１０７は、発話情報を取得する音声入力装置の音声認識の処理速度、入力感度、ノイズの入りやすさ、および指向性のうちの少なくともいずれかに基づいて、所定の条件に設定されている閾値を変更してもよい。

例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ音声入力装置の音声認識の処理速度が遅い場合、識別制御部１０７は、無音区間の長さの閾値を大きくしてもよい。また、音声入力装置の音声認識の処理速度が速い場合、識別制御部１０７は、無音区間の長さの閾値を小さくしてもよい。

例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ音声入力装置のノイズレベルが高い場合、識別制御部１０７は、誤検出を避けるため、無音区間の長さの閾値を小さくしてもよい。また、音声入力装置のノイズレベルが低い場合、識別制御部１０７は、無音区間の長さの閾値を大きくしてもよい。

例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつ音声入力装置のノイズレベルが高い場合、識別制御部１０７は、誤検出を避けるため、長音の長さの閾値を小さくしてもよい。また、音声入力装置のノイズレベルが低い場合、識別制御部１０７は、長音の長さの閾値を大きくしてもよい。

例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつ音声入力装置の入力感度が高い場合、識別制御部１０７は、音量の大きさの閾値を大きくしてもよい。また、音声入力装置の入力感度が低い場合、識別制御部１０７は、音量の大きさの閾値を小さくしてもよい。

以上の閾値の制御によれば、識別制御部１０７は、未知語を識別するための所定の条件をユーザ３ごとに最適化することができるため、未知語の登録に掛かるユーザ３の負担を低減することができる。ただし、識別制御部１０７による閾値の制御は、上述した例示に限定されない。例えば、識別制御部１０７は、上述した例示における閾値の制御方向と逆の方向に閾値を制御してもよい。

画像生成部１０９は、ユーザ３の発話情報を文字にて表示した発話画像を生成する。具体的には、画像生成部１０９は、発話認識部１０３によって認識したユーザ３の発話情報を文字表記に変換して表示した発話画像を生成する。これにより、ユーザ３は、発話画像に表示された発話情報の文字表記を確認することによって、自身が発話した内容が情報処理装置１において正確に音声認識されているかを確認することができる。

また、発話画像において、識別部１０５によって未知語であると識別された単語は、ひらがな、カタカナ、またはローマ字などの所定の表音文字にて表示されてもよい。これは、未知語では、ユーザ３が意図する漢字変換が不明であるため、漢字等の表意文字で表示するよりも表音文字にて表示することが適切であるためである。また、所定の表音文字にて未知語を表示することにより、未知語が文節区切りされない一単語であることを明示することができる。

また、発話画像において、識別部１０５によって未知語であると識別された単語は、他の発話情報とは異なる表記にて表示されてもよい。例えば、未知語であると識別された単語は、他の発話情報とは異なる文字色、文字の大きさ、文字フォント、または修飾文字（例えば、太字、および斜体文字など）にて表示されてもよい。これにより、画像生成部１０９は、ユーザ３が発話したどの単語を未知語と識別したのかをユーザ３に明示することができる。

さらに、画像生成部１０９は、ユーザ３の発話情報において、未知語を識別するための所定の条件が満たされているか否かを表示する画像を生成してもよい。具体的には、閾値が設定された所定の発話方法にて発話されたか否かによって未知語の識別が行われている場合、画像生成部１０９は、所定の発話方法における閾値、および発話方法が閾値を満たしているか否かを表示する閾値画像を生成してもよい。

これによれば、ユーザ３は、自身の発話が未知語を識別するための所定の発話方法を満たしているか否かを確認することができる。そのため、ユーザ３は、意図しない単語が未知語として識別されたり、または未知語として登録したい単語が未知語と識別されなかったりすることを回避することができる。

処理部１１１は、識別部１０５によって未知語と識別された単語を登録するための処理を行う。例えば、音声認識に用いる各種データベースがデータベース記憶部１１３に記憶されている場合、処理部１１１は、識別部１０５によって未知語と識別された単語をデータベース記憶部１１３に記憶された各種データベースに登録してもよい。また、音声認識に用いる各種データベースが情報処理装置１の外部の記憶装置に記憶されている場合、処理部１１１は、未知語と識別された単語を各種データベースに登録するために必要な情報を生成し、外部の記憶装置に出力してもよい。

なお、処理部１１１は、ユーザ３によって発話情報が確定された場合に、未知語と識別された単語を登録するための処理を行う。例えば、ユーザ３が音声チャットを行っている場合、ユーザ３が発話した発話情報をメッセージとして相手先に送信した際に、処理部１１１は、発話情報が確定されたと判断し、未知語と識別された単語を登録するための処理を行ってもよい。

ただし、処理部１１１によって未知語と識別された単語を登録するための処理が行われるタイミングは、上記に限定されない。例えば、発話情報の修正が少ないユーザ３については、処理部１１１は、ユーザ３が所定の条件を満たすように未知語を発話した時点で、当該未知語を各種データベースに登録するための処理を行ってもよい。また、所定の人数以上のユーザのデータベースに登録されている未知語については、処理部１１１は、ユーザ３が所定の条件を満たすように未知語を発話したされた時点で、当該未知語を各種データベースに登録するための処理を行ってもよい。

また、処理部１１１は、登録された未知語と類似した単語が発話された場合、登録された未知語と類似した単語についても同様に未知語であると判断し、該単語を各種データベースに登録するための処理を行ってもよい。登録された未知語と類似した単語としては、例えば、登録された未知語に接頭語または接尾語が付加された単語を例示することができる。なお、このような場合、処理部１１１は、登録された未知語と類似した単語を各種データベースに登録するための処理を行うか否かをユーザ３に確認してもよい。

＜３．情報処理装置の動作例＞
続いて、図３を参照して、本実施形態に係る情報処理装置１の動作について説明する。図３は、本実施形態に係る情報処理装置１の動作例を説明するフローチャート図である。なお、以下で所定の条件を満たす単語とは、所定の発話方法によって発話された単語を表す。

図３に示すように、音声取得部１０１は、音声入力装置５等からユーザ３の音声信号を取得する（Ｓ１０１）。次に、発話認識部１０３は、音声信号からユーザ３が発話している発話情報を認識する（Ｓ１０３）。続いて、識別部１０５は、発話認識部１０３によって認識された発話情報に所定の条件を満たす単語が含まれているか否かを判断する（Ｓ１０５）。発話情報に所定の条件を満たす単語が含まれる場合（Ｓ１０５／Ｙｅｓ）、識別部１０５は、所定の条件を満たす単語を未知語として識別する（Ｓ１０７）。また、画像生成部１０９は、識別された未知語を文節区切りせずに、所定の表音文字にて表示した発話画像を生成する（Ｓ１０９）。

一方、発話情報に所定の条件を満たす単語が含まれない場合（Ｓ１０５／Ｎｏ）、画像生成部１０９は、発話認識部１０３にて認識された発話情報をそのまま表示した発話画像を生成する（Ｓ１１１）。

ここで、音声取得部１０１は、ユーザ３による発話情報の修正があるか否かを確認し（Ｓ１１３）、発話情報の修正がある場合（Ｓ１１３／Ｙｅｓ）、発話情報の修正のための音声信号を取得する（Ｓ１０１）。一方、発話情報の修正がない場合（Ｓ１１３／Ｎｏ）、発話情報は、ユーザ３によって確定された後、送信される（Ｓ１１５）。未知語が識別されている場合、その後、処理部１１１は、識別した未知語に品詞等を与え、データベース記憶部１１３等に記憶された各種データベースに未知語を登録する。また、処理部１１１は、登録された未知語の変換の優先順位を高めてもよい（Ｓ１１７）。

以上の構成および動作によれば、情報処理装置１は、より簡便な方法によってユーザ３に意識的に未知語を登録させることができる。したがって、情報処理装置１は、未知語が登録されたデータベースを効率的に生成することができる。

また、所定の条件を満たして発話された未知語は、文節区切りされず一単語と見なされて音声認識されるため、情報処理装置１は、未知語がユーザ３の意図しない文節区切り、または表記にて表示されることを防止することができる。また、登録された未知語は、以降は、文節区切りされずに一単語として見なされるため、情報処理装置１は、ユーザ３の音声入力の利便性を向上させることができる。

＜４．未知語の入力の具体例＞
次に、図４〜図１２を参照して、本実施形態に係る情報処理装置１における未知語の入力の具体例について説明する。

まず、図４を参照して、未知語が意図されない表記に変換された場合について説明する。図４は、未知語が意図されない表記に変換された画像の一例を示す説明図である。

図４に示すように、表示装置９に表示されるビデオゲーム等の画像９００において、ユーザ３が音声入力装置５を介して音声入力した発話情報は、下端の入力欄９１０に表示される。ユーザ３は、音声入力した発話情報が意図したとおり適切な表記になっている場合、送信ボタン９２０を押下することにより、音声入力した発話情報を音声チャットなどの相手先に送信することができる。なお、マイク画像９３０は、マイクロフォンの模式的な画像であり、入力欄９１０に表示される発話情報が音声入力によって入力されたものであることを示している。

例えば、ユーザ３が「いまそこでほるみにであったよー」と音声入力し、「ほるみ」が音声認識に用いられるデータベースに登録されていない未知語であったとする。ここで、音声入力された情報は、図４に示すように、データベースに登録されていない「ほるみ」が一単語として認識されず、「ほ」、「る」、「み」のそれぞれが文節区切りされて認識されてしまう。そのため、「ほ」、「る」、「み」のそれぞれが別個に漢字等に変換された結果、「帆留未」というユーザ３が意図しない表記にて入力欄９１０に入力されてしまう。このような場合、ユーザ３は、意図しない表記にて入力された「帆留未」という発話情報を再入力により修正したり、または音声入力に依らない方法にて修正したりする必要があり、音声入力の利便性を低下させていた。

本実施形態に係る情報処理装置１では、所定の条件を満たすようにユーザ３が発話することにより、上記の未知語である「ほるみ」を所定の表音文字にて表記させることができる。また、未知語である「ほるみ」は、ユーザ３が所定の条件を満たすように発話することにより、データベースに登録される。データベース登録された「ほるみ」は、以降、通常の音声入力であっても文節区切り等されずに一単語として認識されるようになる。

このような本実施形態に係る情報処理装置１における未知語の入力の具体例について第１〜第３の入力例を例示して説明する。

（４．１．第１の入力例）
まず、図５Ａ〜図７を参照して、本実施形態に係る第１の未知語の入力例について説明する。図５Ａ〜図５Ｄは、第１の入力例における入力欄の画像例を示す説明図であり、図６は、登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。また、図７は、所定の発話方法における閾値までの時間を示す閾値画像の設定例を示す説明図である。

第１の未知語の入力例において、各文字の後に閾値以上の長さの無音区間を設けて発話された場合、情報処理装置１は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ３が「ほるみ」を未知語として情報処理装置１に識別させたい場合、ユーザ３は「ほ」、「る」、「み」のそれぞれの後に閾値以上の無音区間を設けて発話すればよい。

このような場合、図５Ａに示すように、ユーザ３が「ほ」を発話してから無音区間を設けた場合、未知語として識別される閾値までの時間を示すインジケータである閾値画像９４１が入力欄９１１内に表示される。閾値画像９４１は、例えば、環状であり、閾値までの時間経過に伴い、環の表示色が時計回りに徐々に変化し、色が変化した領域が一周した際に時間経過が閾値に達するような画像であってもよい。また、閾値画像９４１は、横長の棒状であり、棒の表示色が左から徐々に変化し、色が変化した領域が棒の右に達した際に時間経過が閾値に達するような画像であってもよい。

ユーザ３が未知語として「ほるみ」を登録したい場合、図５Ｂに示すように、ユーザ３は、「ほ」、「る」、「み」のそれぞれの文字を発話した後、閾値画像９４１の表示色が変化した領域が一周に達するまで（すなわち、無音区間の長さが閾値を超えるまで）無音区間を設けてから、次の文字を発話すればよい。このように情報処理装置１は、ユーザ３に対して、未知語として識別されるための発話方法を誘導することができるため、ユーザ３による未知語の登録を支援することができる。

図５Ｃに示すように、「ほるみ」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ３は、閾値画像９４１の表示色が変化した領域が一周に達する前（すなわち、無音区間の長さが閾値を超える前）に、次の文字である「で」を発話する。これにより、情報処理装置１は、各文字の発話の後に閾値以上の無音区間が設けられた「ほるみ」を未知語であると識別することができる。

未知語として識別された「ほるみ」は、例えば、図５Ｄに示すように、入力欄９１１において、所定の表音文字であるカタカナにて「ホルミ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。これにより、ユーザ３は、「ほるみ」が未知語として識別されたことを確認することができる。ユーザ３は、意図されたとおりに「ほるみ」が未知語として識別されたことを確認した場合、「今そこでホルミに出合ったよー」という発話情報を確定させることにより、未知語として識別された「ほるみ」をデータベースに登録することができる。

図５Ａ〜図５Ｄに示した入力例により、「ほるみ」が未知語としてデータベースに登録された場合、図６に示すように、ユーザ３が所定の発話方法にて発話しなくとも「ほるみ」は、文節区切りされない一単語として認識され、入力欄９１０に表示されるようになる。この場合の「ほるみ」の表記は、所定の表音文字であるカタカナであってもよい。「ほるみ」の表記を別の表記に変化させたい場合、ユーザ３は、「ほるみ」の音声入力を所望の表記になるまで繰り返せばよい。

なお、上述したように無音区間の長さの閾値は、未知語と識別される閾値までの時間を示すインジケータである閾値画像９４１の表示時間の設定を変更することによって、変更することができる。

例えば、図７に示すように、閾値画像９４１には、未知語を発話してから閾値画像９４１が表示されるまでの時間である「インジケータ開始時間」、および表示色の変化が一周するまでの時間である「インジケータ認識時間」が設定される。すなわち、無音区間の長さの閾値は、「インジケータ開始時間」および「インジケータ認識時間」の和に等しい。ここで、未知語を発話してから閾値画像９４１が表示されるまでの時間が別途設定されているのは、通常の発話でも文字を発話するたびに閾値画像９４１が表示されることを防止するためである。

「インジケータ開始時間」、および「インジケータ認識時間」は、ユーザ３によって変更されてもよいが、ユーザ３の通常の発話速度に基づいて情報処理装置１によって動的に変更されてもよい。

例えば、情報処理装置１は、所定の文字量に対する発話時間から、未知語を含まない場合のユーザ３の発話速度を算出し、ユーザ３の発話速度に基づいて、「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。

また、情報処理装置１は、無音区間の長さが閾値に達する前に次の語が発話された場合における閾値画像９４１の表示色が変化した領域の広さに応じて「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。この場合、情報処理装置１は、閾値画像９４１の表示色が変化した領域の広さが、おおよそ５０％〜６０％程度になるように「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。

また、情報処理装置１は、複数の「インジケータ開始時間」および「インジケータ認識時間」の組み合わせを有していてもよい。これは、緊張または興奮状態、集中度が高い状態、集中度が低い状態などのユーザ３の状態に応じて、情報処理装置１が適切な「インジケータ開始時間」および「インジケータ認識時間」の組み合わせを設定可能にするためである。

ユーザ３の状態は、上述したように、音声入力装置５または操作入力装置７に備えられた各種センサから取得可能なユーザ３の心拍数、体温、発汗量、血圧、または呼吸数などを用いることで判断することができる。また、ユーザ３の状態は、操作入力装置７の操作の頻度、または強度などから判断されてもよい。

（４．２．第２の入力例）
次に、図８Ａおよび図８Ｂを参照して、本実施形態に係る第２の未知語の入力例について説明する。図８Ａおよび図８Ｂは、第２の入力例における入力欄の画像例を示す説明図である。

第２の未知語の入力例において、各文字を閾値以上の音量にて発話された場合、情報処理装置１は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ３が「ほるみ」を未知語として情報処理装置１に識別させたい場合、ユーザ３は「ほ」、「る」、「み」のそれぞれの文字を閾値以上の音量にて発話すればよい。

このような場合、図８Ａに示すように、ユーザ３が「ほ」を発話した場合、ユーザ３の発話の音量を示すインジケータである閾値画像９４３が入力欄９１３内に表示される。例えば、閾値画像９４３は、ユーザ３の発話の音量の大きさを縦軸、時間を横軸に採用したグラフ状であり、音量の大きさの閾値が線として示された画像であってもよい。また、閾値画像９４３は、ユーザ３に発話の音量を示すために常時表示されているものを流用してもよい。

ユーザ３が未知語として「ほるみ」を登録したい場合、図８Ｂに示すように、ユーザ３は、「ほ」、「る」、「み」のそれぞれの文字を音量のグラフが閾値の線を超えるように発話すればよい。また、「ほるみ」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ３は、発話の音量を小さくし、音量のグラフが閾値の線を超えないように発話すればよい。これにより、情報処理装置１は、ユーザ３に対して、未知語として識別されるための発話方法を誘導することができる。

また、未知語として識別された「ほるみ」は、第１の未知語の入力例と同様に、入力欄９１３において、所定の表音文字であるカタカナにて「ホルミ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。

第２の未知語の入力例では、未知語と識別される音量の大きさの閾値を変更することが可能である。このような場合、音量の大きさの閾値は、第１の未知語の入力例における「インジケータ開始時間」および「インジケータ認識時間」と同様に、ユーザ３によって変更されてもよく、ユーザ３の通常の発話音量に基づいて情報処理装置１によって動的に変更されてもよい。さらに、音量の大きさの閾値は、ユーザ３の状態に応じて、適宜、変更されてもよい。

（４．３．第３の入力例）
続いて、図９Ａ〜図９Ｄを参照して、本実施形態に係る第３の未知語の入力例について説明する。図９Ａ〜図９Ｄは、第３の入力例における入力欄の画像例を示す説明図である。

第３の未知語の入力例において、各文字が閾値以上の長さの長音にて発話された場合、情報処理装置１は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ３が「あじーな」を未知語として情報処理装置１に識別させたい場合、ユーザ３は「あ」、「じー」、「な」のそれぞれを閾値以上の長さの長音にて発話すればよい。なお、「じー」は、未知語自体が長音であるため、「じ」の場合よりもさらに長い長音で発話する必要がある。

このような場合、図９Ａに示すように、ユーザ３が「あ」を長音にて発話した場合、未知語として識別される閾値までの時間を示すインジケータである閾値画像９４５が入力欄９１５内に表示される。閾値画像９４５は、例えば、環状であり、閾値までの時間経過に伴い、環の表示色が時計回りに徐々に変化し、色が変化した領域が一周した際に時間経過が閾値に達するような画像であってもよい。また、閾値画像９４５は、横長の棒状であり、棒の表示色が左から徐々に変化し、色が変化した領域が棒の右に達した際に時間経過が閾値に達するような画像であってもよい。

ユーザ３が未知語として「あじーな」を登録したい場合、図９Ａに示すように、ユーザ３は、「あ」、「じー」、「な」のそれぞれの文字を発話した後、閾値画像９４５の表示色が変化した領域が一周に達するまで（すなわち、長音の長さが閾値を超えるまで）長音を延ばしてから、次の文字を発話すればよい。これにより、情報処理装置１は、ユーザ３に対して、未知語として識別されるための発話方法を誘導することができる。

なお、第３の未知語の入力例では、未知語自体が長音であるか否かを判断するために、未知語が長音であると識別される閾値までの時間を示すインジケータである長音判断画像９４６がさらに表示される。図９Ｂおよび図９Ｃに示すように、長音判断画像９４６は、未知語と識別される閾値までの時間を示すインジケータである閾値画像９４５が表示された後、続けて表示される。長音判断画像９４６は、閾値画像９４５と同様の画像であってもよいが、形状または色の少なくともいずれかを変更することにより、異なるインジケータであることが視認できる画像であってもよい。

ユーザ３は、閾値画像９４５の表示色が変化した領域が一周に達するまで発話を延ばした後、さらに長音判断画像９４６の表示色が変化した領域が一周に達するまで（すなわち、長音の長さが長音であるか否かを識別する閾値を超えるまで）長音を延ばすことで、長音を含む未知語を入力することができる。なお、長音判断画像９４６の表示色が変化した領域が一周に達する前（すなわち、長音の長さが長音であるか否かを判断する閾値を超える前）に長音の延ばしが止められた場合、情報処理装置１は、未知語自体が長音ではないと判断する。

さらに、「あじーな」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ３は、閾値画像９４５の表示色が変化した領域が一周に達する前（すなわち、長音の長さが閾値を超える前）に、「に」の長音の延ばしを止め、次の文字である「で」を発話する。これにより、情報処理装置１は、各文字が閾値以上の長音にて発話された「あじーな」を未知語であると識別することができる。

未知語として識別された「あじーな」は、図９Ｄに示すように、入力欄９１５において、所定の表音文字であるカタカナにて「アジーナ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。これにより、ユーザ３は、「あじーな」が未知語として識別されたことを確認することができる。ユーザ３は、意図されたとおりに「あじーな」が未知語として識別されたことを確認した場合、「今そこでアジーナに出合ったよー」という発話情報を確定させることにより、未知語として識別された「あじーな」をデータベースに登録することができる。

なお、長音の長さの閾値は、第１の未知語の入力例と同様に、未知語と識別される閾値までの時間を示すインジケータである閾値画像９４５の表示時間の設定を変更することによって、変更することができる。また、未知語が長音であると識別される閾値までの時間を示すインジケータである長音判断画像９４６についても、閾値画像９４５と同様に、表示時間の設定を変更することが可能である。閾値画像９４５および長音判断画像９４６における「インジケータ開始時間」および「インジケータ認識時間」は、互いに独立して、ユーザ３によって変更されてもよく、ユーザ３の通常の発話速度に基づいて情報処理装置１によって動的に変更されてもよい。

（４．４．入力の修正例）
次に、図１０を参照して、本実施形態に係る未知語の入力の修正例について説明する。図１０は、誤って未知語が識別された入力欄の画像例を示す説明図である。

図１０で示すように、例えば、ユーザ３は、未知語として「ほるみ」を音声入力しようとしたものの、入力欄９１７では、未知語として「でほるみ」が識別されてしまった場合、ユーザ３は、入力欄９１７における未知語の入力をやり直す必要が生じる。

このような場合、入力欄９１７に入力された発話情報を確定または送信する前であれば、ユーザ３は、再度、発話情報の全文または「でほるみ」を含む一部の音声入力をやり直すことで、識別された未知語を「でほるみ」から「ほるみ」に修正することができる。

ここで、「でほるみ」から「ほるみ」に修正された後、入力欄９１７に入力された発話情報が確定または送信された場合、「でほるみ」ではなく「ほるみ」が未知語として登録されることになる。なお、ユーザ３が一部の音声入力をやり直した場合、発話認識部１０３は、パターンマッチング等によってユーザ３が音声入力をやり直した発話箇所を判断し、該当する箇所の発話情報を上書きしてもよい。

これにより、ユーザ３は、発話のミス等によって、意図しない単語が未知語として識別されてデータベースに登録されてしまうことを防止することができる。

（４．５．変形例）
続いて、図１１Ａ〜図１２を参照して、本実施形態に係る未知語の入力の変形例について説明する。図１１Ａ〜図１１Ｃは、変形例における入力欄の画像例を示す説明図であり、図１２は、登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。

本実施形態に係る未知語の入力の変形例は、発話情報が英語等のアルファベットで表記される言語である場合において、未知語の識別および登録を行う例である。このような場合、ユーザ３は、所定の条件（例えば、所定の発話方法にて発話すること）を満たすように未知語を発話することに加えて、該未知語のアルファベット綴りおよび発音を発話することにより、情報処理装置１に未知語を識別させ、識別した未知語を登録させることができる。

図１１Ａ〜図１１Ｃに示すように、例えば、ユーザ３が「Ｈｏｌｍｅ」を未知語として情報処理装置１に識別させたい場合、ユーザ３は、アルファベット綴りである「エイチ（Ｈ）」、「オー（Ｏ）」、「エル（Ｌ）」、「エム（Ｍ）」、「イー（Ｅ）」および発音である「ホォウム（ｈｏｕｍ）」を所定の条件を満たすように発話すればよい。

具体的には、所定の条件が、第１の入力例と同様に、各文字の後に閾値以上の長さの無音区間を設けて発話されることである場合、ユーザ３は、「エイチ（Ｈ）」、「オー（Ｏ）」、「エル（Ｌ）」、「エム（Ｍ）」、「イー（Ｅ）」および「ホォウム（ｈｏｕｍ）」のそれぞれを閾値以上の長さの無音区間を設けて発話することにより、「Ｈｏｌｍｅ」を未知語として情報処理装置１に識別させることができる。

このような場合、入力欄９１９には、第１の入力例と同様に、未知語として識別される閾値までの時間を示すインジケータである閾値画像９４９が表示されてもよい。また、未知語として識別された「Ｈｏｌｍｅ」は、図１１Ｃに示すように、入力欄９１９において、他の文字とは異なる修飾文字にて表示されてもよい。

図１１Ａ〜図１１Ｃに示した入力例により、「Ｈｏｌｍｅ」が未知語としてデータベースに登録された場合、図１２に示すように、ユーザ３が所定の発話方法にて発話しなくとも「Ｈｏｌｍｅ」は、文節区切りされない一単語として認識されて入力欄９１９に表示されるようになる。また、ユーザ３は、「Ｓｅｎｄ」ボタン９２９を押下することにより、音声入力した発話情報を確定させ、音声チャットなどの相手先に送信することができる。なお、マイク画像９３９は、マイクロフォンの模式的な画像であり、入力欄９１９に表示される発話情報が音声入力によって入力されたものであることを示す画像である。

＜５．ハードウェア構成例＞
以下では、図１３を参照して、本実施形態に係る情報処理装置のハードウェア構成例について説明する。図１３は、本実施形態に係る情報処理装置１のハードウェア構成例を示したブロック図である。なお、本実施形態に係る情報処理装置による情報処理は、ソフトウェアとハードウェアとの協働によって実現される。

図１３に示すように、情報処理装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１５１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１５３と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１５５と、ブリッジ１６１と、内部バス１５７および１５９と、インタフェース１６３と、入力装置１６５と、出力装置１６７と、ストレージ装置１６９と、ドライブ１７１と、接続ポート１７３と、通信装置１７５と、を備える。

ＣＰＵ１５１は、演算処理装置および制御装置として機能し、ＲＯＭ１５３等に記憶された各種プログラムに従って、情報処理装置１の動作全般を制御する。ＲＯＭ１５３は、ＣＰＵ１５１が使用するプログラム、演算パラメータを記憶し、ＲＡＭ１５５は、ＣＰＵ１５１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。例えば、ＣＰＵ１５１は、発話認識部１０３、識別部１０５、識別制御部１０７、画像生成部１０９、および処理部１１１等の機能を実行してもよい。

これらＣＰＵ１５１、ＲＯＭ１５３およびＲＡＭ１５５は、ブリッジ１６１、内部バス１５７および１５９等により相互に接続されている。また、ＣＰＵ１５１、ＲＯＭ１５３およびＲＡＭ１５５は、インタフェース１６３を介して入力装置１６５、出力装置１６７、ストレージ装置１６９、ドライブ１７１、接続ポート１７３および通信装置１７５とも接続されている。

入力装置１６５は、タッチパネル、キーボード、ボタン、マイクロフォン、スイッチおよびレバーなどの情報が入力される入力装置を含む。また、入力装置１６５は、入力された情報に基づいて入力信号を生成し、ＣＰＵ１５１に出力するための入力制御回路なども含む。

出力装置１６７は、例えば、ＣＲＴ表示装置、液晶表示装置、有機ＥＬ表示装置などの表示装置を含む。さらに、出力装置１６７は、スピーカおよびヘッドホンなどの音声出力装置を含んでもよい。

ストレージ装置１６９は、情報処理装置１の記憶部の一例として構成されるデータ格納用の装置である。ストレージ装置１６９は、記憶媒体、記憶媒体にデータを記憶する記憶装置、記憶媒体からデータを読み出す読み出し装置、および記憶されたデータを削除する削除装置を含んでもよい。ストレージ装置１６９は、データベース記憶部１１３等の機能を実行してもよい。

ドライブ１７１は、記憶媒体用リードライタであり、情報処理装置１に内蔵、または外付けされる。例えば、ドライブ１７１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記憶されている情報を読み出し、ＲＡＭ１５３に出力する。また、ドライブ１７１は、リムーバブル記憶媒体に情報を書き込むことも可能である。

接続ポート１７３は、例えば、ＵＳＢポート、イーサネット（登録商標）ポート、ＩＥＥＥ８０２．１１規格ポート、および光オーディオ端子等のような外部接続機器を接続するための接続ポートで構成された接続インタフェースである。接続ポート１７３は、音声取得部１０１等の機能を実行してもよい。

通信装置１７５は、例えば、公衆回線網または専用回線網などのネットワーク８に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置１７５は、有線または無線ＬＡＮ対応通信装置であっても、有線によるケーブル通信を行うケーブル通信装置であってもよい。

また、情報処理装置１に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを上述した本実施形態に係る情報処理装置の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

＜６．まとめ＞
以上にて説明したように、本実施形態に係る情報処理装置１によれば、より簡便な方法によってユーザ３に意識的に未知語を登録させることができるため、未知語が登録されたデータベースを効率的に生成することができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
識別された前記未知語を登録するための処理を行う処理部と、
を備える、情報処理装置。
（２）
前記所定の発話方法は、各文字の後に閾値以上の長さの無音区間を設けて発話する方法である、前記（１）に記載の情報処理装置。
（３）
前記所定の発話方法は、各文字を閾値以上の大きさの音量にて発話する方法である、前記（１）に記載の情報処理装置。
（４）
前記所定の発話方法は、各文字を閾値以上の長さの長音にて発話する方法である、前記（１）に記載の情報処理装置。
（５）
前記所定の発話方法における閾値は、前記ユーザに関する情報に基づいて制御される、前記（２）〜（４）のいずれか一項に記載の情報処理装置。
（６）
前記ユーザに関する情報は、前記ユーザの発話速度である、前記（５）に記載の情報処理装置。
（７）
前記ユーザに関する情報、前記ユーザの生体に関する情報である、前記（５）に記載の情報処理装置。
（８）
前記所定の発話方法における閾値は、前記発話情報が入力されるコンテンツに関する情報に基づいて制御される、前記（２）〜（４）のいずれか一項に記載の情報処理装置。
（９）
前記所定の発話方法における閾値は、前記ユーザの周囲の環境に関する情報に基づいて制御される、前記（２）〜（４）のいずれか一項に記載の情報処理装置。
（１０）
前記所定の発話方法における閾値は、前記発話情報を取得する音声入力装置に関する情報に基づいて制御される、前記（２）〜（４）のいずれか一項に記載の情報処理装置。
（１１）
認識した前記ユーザの発話情報を文字にて表示した発話画像を生成する画像生成部をさらに備える、前記（１）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記画像生成部は、前記所定の発話方法における閾値を表示した閾値画像をさらに生成する、前記（１１）に記載の情報処理装置。
（１３）
前記発話画像において、前記未知語は、所定の表音文字にて表示される、前記（１１）または（１２）に記載の情報処理装置。
（１４）
前記発話画像において、前記未知語は、他の発話情報と異なる表記にて表示される、前記（１１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記ユーザの発話情報の言語がアルファベットで表記される言語である場合、
前記所定の発話方法には、前記未知語のアルファベット綴りおよび発音を発話することがさらに含まれる、前記（１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
前記発話情報は、前記ユーザが前記発話情報を発話し直した場合、発話し直した発話情報に修正される、前記（１）〜（１５）のいずれか一項に記載の情報処理装置。
（１７）
前記処理部は、前記ユーザが前記発話情報を確定させた場合、前記発話情報に含まれる前記未知語を登録するための処理を行う、前記（１）〜（１６）のいずれか一項に記載の情報処理装置。
（１８）
登録された前記未知語は、文節区切りされない一単語と見なされる、前記（１）〜（１７）のいずれか一項に記載の情報処理装置。
（１９）
演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、
識別された前記未知語を登録するための処理を行うことと、
を含む、情報処理方法。
（２０）
コンピュータを
ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
識別された前記未知語を登録するための処理を行う処理部と、
として機能させる、プログラム。

１情報処理装置
３ユーザ
５音声入力装置
７操作入力装置
９表示装置
１０１音声取得部
１０３発話認識部
１０５識別部
１０７識別制御部
１０９画像生成部
１１１処理部
１１３データベース記憶部

Claims

ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
前記ユーザによる発話が前記所定の発話方法に該当するか否かを示す画像を生成する画像生成部と、
識別された前記未知語を登録するための処理を行う処理部と、
を備える、情報処理装置。
前記所定の発話方法は、各文字の後に閾値以上の長さの無音区間を設けて発話する方法である、請求項１に記載の情報処理装置。
前記所定の発話方法は、各文字を閾値以上の大きさの音量にて発話する方法である、請求項１に記載の情報処理装置。
前記所定の発話方法は、各文字を閾値以上の長さの長音にて発話する方法である、請求項１に記載の情報処理装置。
前記所定の発話方法における閾値は、前記ユーザに関する情報に基づいて制御される、請求項２乃至請求項４の何れか１項に記載の情報処理装置。
前記ユーザに関する情報は、前記ユーザの発話速度である、請求項５に記載の情報処理装置。
前記ユーザに関する情報は、前記ユーザの生体に関する情報である、請求項５に記載の情報処理装置。
前記所定の発話方法における閾値は、前記発話情報が入力されるコンテンツに関する情報に基づいて制御される、請求項２乃至請求項４の何れか１項に記載の情報処理装置。
前記所定の発話方法における閾値は、前記ユーザの周囲の環境に関する情報に基づいて制御される、請求項２乃至請求項４の何れか１項に記載の情報処理装置。
前記所定の発話方法における閾値は、前記発話情報を取得する音声入力装置に関する情報に基づいて制御される、請求項２乃至請求項４の何れか１項に記載の情報処理装置。
前記画像生成部は、認識した前記ユーザの発話情報を文字にて表示した発話画像を生成する、請求項１乃至請求項１０の何れか１項に記載の情報処理装置。
前記画像生成部は、前記所定の発話方法における閾値を表示した閾値画像をさらに生成する、請求項１１に記載の情報処理装置。
前記発話画像において、前記未知語は、所定の表音文字にて表示される、請求項１１または請求項１２に記載の情報処理装置。
前記発話画像において、前記未知語は、他の発話情報と異なる表記にて表示される、請求項１１乃至請求項１３の何れか１項に記載の情報処理装置。
前記ユーザの発話情報の言語がアルファベットで表記される言語である場合、
前記所定の発話方法には、前記未知語のアルファベット綴りおよび発音を発話することがさらに含まれる、請求項１乃至請求項１４の何れか１項に記載の情報処理装置。
前記発話情報は、前記ユーザが前記発話情報を発話し直した場合、発話し直した発話情報に修正される、請求項１乃至請求項１５の何れか１項に記載の情報処理装置。
前記処理部は、前記ユーザが前記発話情報を確定させた場合、前記発話情報に含まれる前記未知語を登録するための処理を行う、請求項１乃至請求項１６の何れか１項に記載の情報処理装置。
登録された前記未知語は、文節区切りされない一単語と見なされる、請求項１乃至請求項１７の何れか１項に記載の情報処理装置。
演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、
前記ユーザによる発話が前記所定の発話方法に該当するか否かを示す画像を生成することと、
識別された前記未知語を登録するための処理を行うことと、
を含む、情報処理方法。
コンピュータを
ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
前記ユーザによる発話が前記所定の発話方法に該当するか否かを示す画像を生成する画像生成部と、
識別された前記未知語を登録するための処理を行う処理部と、
として機能させる、プログラム。
前記ユーザの視線情報に基づいて、前記識別部による識別動作の実行を制御する識別制御部をさらに備える、請求項１に記載の情報処理装置。