JP6572969B2

JP6572969B2 - 音声認識装置、音声認識システム、及び、プログラム

Info

Publication number: JP6572969B2
Application number: JP2017508878A
Authority: JP
Inventors: 敏郎大櫃
Original assignee: Fujitsu Client Computing Ltd
Current assignee: Fujitsu Client Computing Ltd
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2019-09-11
Anticipated expiration: 2035-03-30
Also published as: JPWO2016157352A1; WO2016157352A1

Description

本発明は、音声認識装置、音声認識システム、及び、プログラムに関する。

近年、ユーザの発話内容を認識する装置が開発され、情報システムに活用され始めている。そのような装置の一例として音声認識装置が知られている。

音声認識装置は、例えば、タブレット型携帯端末、スマートフォン、カーナビゲーション、パーソナルコンピュータといった情報端末装置において、キーボードなどの入力装置の代わりに利用されている。一例として、ユーザによる音声入力は、音声入力された情報端末装置とネットワークを介して接続されているサーバ装置において音声認識が実行され、音声認識の結果に応じて、音楽再生、ビデオ再生、目的地へのナビゲーションなどを実行するために用いられている。

音声認識の結果に基づいて、ユーザの音声入力に対して正確に回答したり、ユーザの音声入力に従って操作指示を行うための制御コマンドなどの処理を行うためには、音声認識装置は、高性能な処理装置と多くのメモリを備える必要がある。

また、音声認識を行う際に、音声認識用の辞書を用いる方法が知られている（例えば、特許文献１）。特許文献１で提案されている方法は、音声認識語彙として音声認識用の辞書に追加登録する際に、ユーザが普段使用している検索クエリをユーザが発話しやすいように加工した語彙を追加登録するものである。

特開２０１１−０５９３１３号公報

しかしながら、特許文献１で提案されている方法では、同音異義語については一切考慮されていない。音声認識技術の適用範囲が広がるにつれて、音声入力される一文は長く複雑になり、同音異義語を含む一文を音声認識しなければならない場面も増加傾向にある。音声入力された一文に同音異義語が含まれている場合には、例えば、ユーザが意図している意味の単語（異義語）をその都度ユーザに選択させればよいが、単語を選択させるための選択画面の表示に伴う処理をその都度追加実行する必要がある。ここで、同音異義語は、意味が異なるが同一の「単語読み」を有する単語である。

同音異義語を音声認識する場合、アクセント（声調）に基づいて、ユーザが意図している意味の単語を認識する必要がある。しかしながら、ユーザ特有のくせなどのために、標準的なアクセント（声調）に基づいて、対応する単語を認識するのが適切ではない場合がある。ユーザのなまりやユーザ特有のくせを考慮して同音異義語などを音声認識する場合、ユーザごとにアクセント（声調）などを保持する必要がある。しかしながら、サーバ装置側で音声認識を行い、その結果を情報端末装置に送信する音声認識システムにおいて、同音異義語などに対するユーザごとのアクセント（声調）などをサーバ装置が保持すると、サーバ装置の処理負荷が急激に増加してしまう。

一つの側面では、本発明は、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識を可能とすると共に、処理負荷を軽減することを可能とする音声認識装置、音声認識システム、及び、プログラムを提供することを課題とする。

一態様における音声認識装置は、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおける声調に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおける音調に基づいて、外部装置により特定された同音異義語が存在する単語以外の単語と特定した同音異義語とにより構成される文に対する、応答文を生成する生成手段と、標準的な音調とは異なるユーザ特有の音調で前記文が発音される場合に、前記音声データにおける前記文の音調に基づいて、前記文を発話した際のユーザの意図を推測する推測手段と、を備え、前記生成手段は、推測した前記ユーザの意図に基づいて、前記応答文を生成することを特徴としている。

一態様における音声認識システムは、第１の音声認識装置と第２の音声認識装置を含む音声認識システムであって、第１の音声認識装置は、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおける声調に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおける音調に基づいて、第２の音声認識装置により特定された同音異義語が存在する単語以外の単語と特定した同音異義語とにより構成される文に対する、応答文を生成する生成手段と、標準的な音調とは異なるユーザ特有の音調で前記文が発音される場合に、前記音声データにおける前記文の音調に基づいて、前記文を発話した際のユーザの意図を推測する推測手段と、を備え、前記生成手段は、推測した前記ユーザの意図に基づいて、前記応答文を生成し、前記第２の音声認識装置は、前記単語の読みに基づいて、前記同音異義語が存在する単語以外の単語を特定する特定手段と、特定した単語を前記第１の音声認識装置に通知する通知手段と、を備えることを特徴としている。

一態様におけるプログラムは、音声認識装置のコンピュータに、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおける声調に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定し、標準的な音調とは異なるユーザ特有の音調で前記文が発音される場合に、前記音声データにおける前記文の音調に基づいて、前記文を発話した際のユーザの意図を推測し、前記文を構成する単語の中に同音異義語が存在する単語が有る場合に、前記音声データにおける前記文の音調に基づいて、また、推測した前記ユーザの意図に基づいて、外部装置により特定された前記同音異義語が存在する単語以外の単語と特定した前記同音異義語とにより構成される前記文に対する、応答文を生成する、処理を実行させることを特徴としている。

一つの側面では、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識が可能となると共に、処理負荷を軽減することが可能となる。

実施形態における音声認識システムの構成例を示す図である。実施形態における情報端末装置の構成例を示す機能ブロック図である。実施形態におけるユーザ特有単語辞書の構成例を示す図である。実施形態におけるユーザ特有文辞書の構成例を示す図である。表示画面の例を示す図である。表示画面の別の例を示す図である。実施形態におけるサーバ装置の構成例を示す機能ブロック図である。実施形態における共通単語辞書の構成例を示す図である。実施形態における共通文辞書の構成例を示す図である。実施形態における特有声調管理記憶部の構成例を示す図である。実施形態における音調管理記憶部の構成例を示す図である。実施形態における特有音調管理記憶部の構成例を示す図である。実施形態における情報端末装置で実行される音声認識処理のフローを説明するためのフローチャートの例の第１部である。実施形態における情報端末装置で実行される音声認識処理のフローを説明するためのフローチャートの例の第２部である。実施形態における情報端末装置で実行される音声認識処理のフローを説明するためのフローチャートの例の第３部である。実施形態における情報端末装置で実行される登録処理のフローを説明するためのフローチャートの例である。実施形態におけるサーバ装置で実行される音声認識処理のフローを説明するためのフローチャートの例である。実施形態における単語解析処理のフローを説明するためのフローチャートの例の第１部である。実施形態における単語解析処理のフローを説明するためのフローチャートの例の第２部である。実施形態における単語解析処理のフローを説明するためのフローチャートの例の第３部である。実施形態における文種別解析処理のフローを説明するためのフローチャートの例の一部である。実施形態における文種別解析処理のフローを説明するためのフローチャートの例の他の一部である。実施形態における再解析処理のフローを説明するためのフローチャートの例である。実施形態における推測内容送信処理のフローを説明するためのフローチャートの例である。実施形態における共通単語辞書の別の構成例を示す図である。実施形態における共通単語辞書の更に別の構成例を示す図である。実施形態における情報端末装置のハードウェア構成の例を示す図である。実施形態におけるサーバ装置のハードウェア構成の例を示す図である。

以下に本発明の実施の形態について図面を参照しながら詳細に説明する。
図１は、本実施形態における音声認識システム１００の構成例を示す図である。音声認識システム１００は、図１に示すように、一又は複数の情報端末装置１とサーバ装置２とを含んでおり、情報端末装置１とサーバ装置２との間は、ネットワークＮＷを介して相互に通信可能に接続されている。

図２は、本実施形態における情報端末装置１の構成例を示す機能ブロック図である。本実施形態における情報端末装置１は、音声入力された音声認識の対象となる一文の中に、ユーザ特有のくせやなまりを考慮した音声認識が必要な単語（例えば、同音異義語）が存在する場合に、それらの単語の音声認識などを行う第１の音声認識装置である。なお、以下において、ユーザ特有のくせやなまりを考慮した音声認識が必要な単語は、同音異義語が存在する単語として説明するが、これに限定されるものではなく、同音異義語が存在しない単語であってもよい。

本実施形態における情報端末装置１は、例えば、スマートフォン、タブレット型携帯端末、カーナビゲーション、パーソナルコンピュータなどにより実現可能であり、図２に示すように、入力部１１と、記憶部１２と、表示部１３と、出力部１４と、通信部１５と、制御部１６と、を備えている。

入力部１１は、例えば、オーディオインターフェースなどを備え、接続されている音声取得装置（例えば、マイクロフォンなど）から音声区間を含む信号（以下、音声データという）を受け付ける。そして、入力部１１は、受け付けた音声データを、制御部１６に出力する。この際、入力部１１は、受け付けた音声データをバッファメモリ（不図示）に一時的に格納し、制御部１６が処理のタイミングに合わせて音声データをバッファメモリから順次取得するようにしてもよい。

記憶部１２は、例えば、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、フラッシュメモリなどを備えている。記憶部１２は、制御部１６が備える、例えば、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）のワークエリア、情報端末装置１全体を制御するための動作プログラムなどの各種プログラムを格納するプログラムエリア、推測結果（詳しくは後述）などの各種のデータを格納するデータエリアとして機能する。

また、記憶部１２は、図２に示すように、ユーザ特有単語辞書１２１、ユーザ特有文辞書１２２、として機能する。

ここで、図３と図４を参照して、ユーザ特有単語辞書１２１とユーザ特有文辞書１２２について、それぞれ、説明する。図３は、本実施形態におけるユーザ特有単語辞書１２１の構成例を示す図である。図４は、本実施形態におけるユーザ特有文辞書１２２の構成例を示す図である。

本実施形態におけるユーザ特有単語辞書１２１は、ユーザ特有のアクセント（声調）で発音される単語を、単語読みごとに管理している。本実施形態におけるユーザ特有単語辞書１２１は、一例では、図３に示すように、「単語読みＩＤ」ごとに、「声調」と「意味」とが対応付けられている。ユーザ特有単語辞書１２１は登録処理部１６６（詳しくは後述）により管理されており、「単語読みＩＤ」欄には、ユーザ特有のアクセント（声調）で発音される単語の単語読みＩＤが格納される。また、「意味」欄には、対応する「単語読みＩＤ」の単語読みを有する単語（同音異義語）の中で、ユーザ特有のアクセント（声調）で発音される単語（意義語）が格納される。

また、「声調」欄には、対応する単語（意義語）のユーザ特有のアクセント（声調）を表す情報（以下、声調情報という）が格納される。声調情報は、例えば、単語読みを構成する各音節文字（日本語の場合は、仮名文字、平仮名文字）のアクセント（声調）パターンである。本実施形態におけるアクセント（声調）パターンは、音節文字のアクセントが高いことを表す“↑”、音節文字のアクセントが低いことを表す“↓”、直前の音節文字に対してアクセント（声調）の高低の変化が無いことを表す“−”の３種類とする。しかしながら、これに限定されるものではなく、上記以外のバリエーションのアクセント（声調）パターンを用いてもよい。また、音声認識の対象とする言語に応じてその他の種類のアクセント（声調）パターンが用いられても良い。例えば、音声認識の対象とする言語が英語である場合には、高低アクセントパターンではなく、一例として、強弱アクセントパターンを用いることが可能である。

本実施形態におけるユーザ特有文辞書１２２は、ユーザ特有のイントネーション（音調）で発音されることがある文を管理している。本実施形態におけるユーザ特有文辞書１２２は、一例では、図４に示すように、「文ＩＤ」ごとに、「文種別」と「音調」と「フラグ」とが対応付けられている。ユーザ特有文辞書１２２は登録処理部１６６により管理されており、「文ＩＤ」欄には、ユーザ特有のイントネーション（音調）で発音されることがある文の文ＩＤが格納される。「文種別」欄には、対応する文において想定される、ユーザがその文を発話する際の目的（意図）を示す情報である文種別が格納される。文種別としては、「質問」、「確認」、「指示」、「否定」などが想定される。

「音調」欄には、ユーザが、対応する文を対応する「文種別」で発話する際のイントネーション（音調）を表す情報（以下、音調情報という）が格納される。イントネーション（音調）としては、上昇調、下降調などが想定される。「フラグ」は、対応する文を対応する「文種別」でユーザが発話する際に、ユーザ特有のイントネーション（音調）で発音されるか否かを示すフラグである。本実施形態においては、フラグ値“０”は標準的なイントネーション（音調）で発音されることを示し、フラグ値“１”はユーザ特有のイントネーション（音調）で発音されることを示している。

図２に戻り、表示部１３は、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ（ＬＣＤ）や有機Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ（ＥＬ）などの表示装置などを備えている。表示部１３は、例えば、図５と図６に例示するような表示画面などの各種の画面や各種機能ボタンなどを表示画面上に表示する。

図２に戻り、出力部１４は、例えば、オーディオインターフェースなどを備え、接続されている音声出力装置（例えば、スピーカなど）を介して、例えば、音声解析結果（詳しくは後述）に応じた応答文を音声出力させる。

通信部１５は、例えば、通信モジュールなどを備えており、ネットワークＮＷを介して接続されているサーバ装置２との間で通信を行う。通信部１５は、例えば、サーバ装置２から送信される音声解析結果などを受信する。

制御部１６は、例えば、ＣＰＵなどを備えており、記憶部１２のプログラムエリアに格納されている動作プログラムを実行して、図２に示すように、音声入力処理部１６１と、特有単語特定部１６２と、特有文種別特定部１６３と、対話処理部１６４と、出力処理部１６５と、登録処理部１６６としての機能を実現する。また、制御部１６は、動作プログラムを実行して、情報端末装置１全体を制御する制御処理や詳しくは後述の音声認識処理などの処理を実行する。

ここで、制御部１６の各機能部が果たす役割の概要について説明する。なお、詳細な役割については、後述する各種の処理の説明の中で説明することとする。

音声入力処理部１６１は、表示部１３を制御して、図５に例示するような音声入力画面を表示画面上に表示させる。音声入力画面は、図５に示すように、ユーザに音声入力を指示するための表示画面である。そして、音声入力処理部１６１は、入力された音声データを、ユーザ（情報端末装置１）を一意に識別可能なユーザＩＤと共に、通信部１５を介して、サーバ装置２に送信する。また、音声入力処理部１６１は、出力部１４に接続されている音声出力装置を介して、音声入力画面の表示内容、例えば、「話してください」を音声出力させてもよい。なお、音声入力の指示は、画面の表示又は音声の出力のいずれか一方であってもよいし、両方であってもよい。また、音声入力の指示は、その他の報知手段を用いて行ってもよい。ここで、図５は、表示画面の例を示す図である。

図２に戻り、特有単語特定部１６２は、ユーザ特有のアクセント（声調）を考慮して、同音異義語の中から、ユーザが意図する意味の単語を特定する。つまり、特有単語特定部１６２は、ユーザ特有単語辞書１２１に基づいて、同音異義語の中から、ユーザが意図する意味の単語を特定する。特有文種別特定部１６３は、ユーザ特有のイントネーション（音調）を考慮して、ユーザが意図する文種別を特定、又は、推測する。つまり、特有文種別特定部１６３は、ユーザ特有文辞書１２２に基づいて、ユーザが意図する文種別を特定、又は、推測する。対話処理部１６４は、音声データの音声解析結果に基づいて、音声入力に対する応答文を生成する処理部である。なお、音声解析結果は、音声データを解析した結果を通知するための通知である。音声解析結果には、音声データを解析して得られた、ユーザが音声入力したと推測される文と文種別とが含まれている。

出力処理部１６５は、応答文に基づいて応答画面を生成し、表示部１３を制御して、生成した応答画面を表示画面上に表示させる。例えば、出力処理部１６５は、図６に例示するような応答画面を表示画面上に表示させる。応答画面は、図６に示すように、応答文を表示する画面である。ここで、図６は、表示画面の別の例を示す図である。また、出力処理部１６５は、出力部１４に接続されている音声出力装置から、応答文を音声出力させる。なお、応答内容の報知は、画面の表示又は音声の出力のいずれか一方であってもよいし、両方であってもよい。

図２に戻り、登録処理部１６６は、ユーザ特有単語辞書１２１とユーザ特有文辞書１２２を管理する処理部である。より具体的には、登録処理部１６６は、同音異義語の中で、標準的なアクセント（声調）とは異なるアクセント（声調）で発音される単語（異義語）をユーザ特有単語辞書１２１に登録する。また、登録処理部１６６は、ユーザ特有のイントネーション（音調）で発音されることがある文をユーザ特有文辞書１２２に登録する。

図７は、本実施形態におけるサーバ装置２の構成例を示す機能ブロック図である。本実施形態におけるサーバ装置２は、音声入力された音声認識の対象となる一文の、ユーザ特有のくせやなまりを考慮する必要がない単語に対する音声認識などを行う第２の音声認識装置である。

本実施形態におけるサーバ装置２は、図７に示すように、通信部２１と、記憶部２２と、制御部２３と、を備えている。

通信部２１は、例えば、通信モジュールなどを備えており、ネットワークＮＷを介して接続されている情報端末装置１との間で通信を行う。通信部２１は、例えば、情報端末装置１から送信される音声データなどを受信する。

記憶部２２は、例えば、ＲＡＭ、ＲＯＭ、ＨａｒｄＤｉｓｋＤｒｉｖｅ（ＨＤＤ）などを備えている。記憶部２２は、制御部２３が備える、例えば、ＣＰＵのワークエリア、サーバ装置２全体を制御するための動作プログラムなどの各種プログラムを格納するプログラムエリア、推測結果（詳しくは後述）などの各種のデータを格納するデータエリアとして機能する。

また、記憶部２２は、図７に示すように、共通単語辞書２２１、共通文辞書２２２、特有声調管理記憶部２２３、音調管理記憶部２２４、特有音調管理記憶部２２５、として機能する。

図８は、本実施形態における共通単語辞書２２１の構成例を示す図である。本実施形態における共通単語辞書２２１は、各種の単語を管理していると共に、同音異義語が存在する各単語の標準的なアクセント（声調）を管理している。共通単語辞書２２１は、一例では、図８に示すように、「単語読みＩＤ」ごとに、「単語読み」と、「声調」と、「意味」と、「フラグ」と、が対応付けられている。意味が異なるが同一の「単語読み」を有する単語が複数存在する場合、つまり、同音異義語が存在する場合には、図８に示すように、「単語読み」に対して複数の「意味」が対応付けられ、「意味」ごとに「声調」が対応付けられている。

「単語読みＩＤ」は、「単語読み」を一意に識別可能な識別子であり、本実施形態においては、同一の「単語読み」に対しては同一の「単語読みＩＤ」が割り当てられている。「単語読み」は、単語の読みを示した情報である。「意味」は、単語を書き表した情報、つまり、単語表記である。つまり、同音異義語が存在する場合であっても、「単語読み」と「意味」とに基づいて、単語を特定することができる。

「声調」は、対応する「意味」の標準的なアクセント（声調）の声調情報である。声調情報は、例えば、「単語読み」を構成する各音節文字（日本語の場合は、仮名文字、平仮名文字）のアクセント（声調）パターンである。本実施形態におけるアクセント（声調）パターンは、音節文字のアクセントが高いことを表す“↑”、音節文字のアクセントが低いことを表す“↓”、直前の音節文字に対してアクセント（声調）の高低の変化が無いことを表す“−”の３種類とする。しかしながら、これに限定されるものではなく、上記以外のバリエーションのアクセント（声調）パターンを用いてもよい。また、音声認識の対象とする言語に応じてその他の種類のアクセント（声調）パターンが用いられても良い。例えば、音声認識の対象とする言語が英語である場合には、高低アクセントパターンではなく、一例として、強弱アクセントパターンを用いることが可能である。

「フラグ」は、対応する「単語読み」の単語に対して、標準的なアクセント（声調）以外で発音するユーザが存在するか否かを示すフラグである。「フラグ」は、登録処理部２３５（詳しくは後述）により管理されており、本実施形態においては、フラグ値“０”は標準的なアクセント（声調）以外で発音するユーザが存在しないことを示し、フラグ値“１”は標準的なアクセント（声調）以外で発音するユーザが存在することを示している。

図９は、本実施形態における共通文辞書２２２の構成例を示す図である。本実施形態における共通文辞書２２２は、音声対話方式においてユーザが一般的に発話すると想定される文ごとに、その文が発話された場合に想定されるユーザの意図（文種別）が対応付けられて登録されている。本実施形態における共通文辞書２２２は、一例では、図９に示すように、各文が「単語」と「接続助詞」と「前段単語」と「後段単語」とに分割された状態で登録され、各文に対して「文種別」と「フラグ」が対応付けられている。なお、図９の例は、「単語」が“以外”の部分を抜粋した例である。なお、共通文辞書２２２に登録されている各文には、各文を一意に識別可能な識別子である文ＩＤが対応付けられているものとする。このように、音声対話方式においてユーザが一般的に発話すると想定される各文を「単語」と「接続助詞」と「前段単語」と「後段単語」とに分割した状態で登録することで、不明瞭になりがちな接続助詞を前後関係で補完することも可能となる。よって、音声認識の精度を向上させることができる。

「単語」は、単語特定部２３２などにより特定、又は、推測された単語の中から、任意に選択された単語（以下、注目単語という）である。「接続助詞」は、対応する「単語」に接続する接続助詞である。例えば、“中華以外のランチ”という文の注目単語を“以外”とした場合、「接続助詞」は“の”となる。

「前段単語」は、注目単語より前の単語である。例えば、“中華以外のランチ”という文の注目単語を“以外”とした場合、「前段単語」は“中華”となる。なお、「前段単語」の欄の数字列は、分野・分類を表すコードである。「後段単語」は、「接続助詞」に続く単語である。例えば、“中華以外のランチ”という文の注目単語を“以外”とした場合、「後段単語」は“ランチ”となる。

「フラグ」は、本実施形態においては、図９に示すように、「後段単語」ごとに対応付けられている。本フラグは、対応する「後段単語」を含む文の中に、標準的なイントネーション（音調）とは異なるイントネーション（音調）で発音される文が存在するか否かを示すフラグである。「フラグ」は、登録処理部２３５により管理されており、本実施形態においては、フラグ値“０”は標準的なイントネーション（音調）とは異なるイントネーション（音調）で発音される文が存在しないことを示し、フラグ値“１”は標準的なイントネーション（音調）とは異なるイントネーション（音調）で発音される文が存在することを示している。

「文種別」は、対応する文に想定される、ユーザがその文を発話する際の目的（意図）の種別であり、「質問」、「確認」、「指示」、「否定」などが想定される。

図１０は、本実施形態における特有声調管理記憶部２２３の構成例を示す図である。特有声調管理記憶部２２３は、ユーザ特有のアクセント（声調）で発音される単語を、ユーザごとに管理している記憶部である。本実施形態における特有声調管理記憶部２２３は、一例では、図１０に示すように、「ユーザＩＤ」ごとに、「単語読みＩＤ」と「意味」とが対応付けられている。特有声調管理記憶部２２３は登録処理部２３５により管理されており、「単語読みＩＤ」欄には、ユーザ特有のアクセント（声調）で発音される単語の単語読みＩＤが格納される。また、「意味」欄には、対応する「単語読みＩＤ」の単語読みを有する単語（同音異義語）の中で、ユーザ特有のアクセント（声調）で発音される単語（意義語）が格納される。

図１１は、本実施形態における音調管理記憶部２２４の構成例を示す図である。音調管理記憶部２２４は、「文種別」ごとに、標準的なイントネーション（音調）を管理している記憶部である。本実施形態における音調管理記憶部２２４は、一例では、図１１に示すように、「文種別」ごとに「音調」が対応付けられている。「音調」欄には、対応する「文種別」の標準的なイントネーション（音調）の音調情報が格納されている。

図１２は、本実施形態における特有音調管理記憶部２２５の構成例を示す図である。特有音調管理記憶部２２５は、ユーザ特有のイントネーション（音調）で発音される文を、ユーザごとに管理している記憶部である。本実施形態における特有音調管理記憶部２２５は、一例では、図１２に示すように、「ユーザＩＤ」ごとに、「文ＩＤ」が対応付けられている。特有音調管理記憶部２２５は登録処理部２３５により管理されており、「文ＩＤ」欄には、ユーザ特有のイントネーション（音調）で発音される文の文ＩＤが格納される。

図７に戻り、制御部２３は、例えば、ＣＰＵなどを備えており、記憶部２２のプログラムエリアに格納されている動作プログラムを実行して、図７に示すように、音声認識部２３１と、単語特定部２３２と、声調・音調検出部２３３と、文種別特定部２３４と、登録処理部２３５としての機能を実現する。また、制御部２３は、動作プログラムを実行して、サーバ装置２全体を制御する制御処理や詳しくは後述の音声認識処理などの処理を実行する。

ここで、制御部２３の各機能部が果たす役割の概要について説明する。なお、詳細な役割については、後述する各種の処理の説明の中で説明することとする。

音声認識部２３１は、既存の技術を用いて、受信した音声データを文字列に変換し、アクセント句を抽出する。例えば、音声の小さい途切れを検出することでアクセント句を抽出する。また、音声認識部２３１は、例えば、音声の大きい途切れ検出することで一文を抽出する。

単語特定部２３２は、共通単語辞書２２１に基づいて、解析対象の文に含まれる各「単語読み」に対応する単語（意味）を特定、又は、推測する。この際、「単語読み」に対応する単語に同音異義語が存在する場合であっても、それらの同音異義語がユーザ特有のアクセント（声調）で発音されることがない場合には、単語特定部２３２は、標準的なアクセント（声調）に基づいて、同音異義語の中から、ユーザが意図する意味の単語を特定、又は、推測する。

声調・音調検出部２３３は、解析対象の文の中に、同音異義語が存在する単語が含まれている場合に、同音異義語が存在する単語のアクセント（声調）パターンを検出する。また、声調・音調検出部２３３は、解析対象の文のイントネーション（音調）を検出する。文種別特定部２３４は、解析対象の文がユーザ特有のイントネーション（音調）で発音されることがない場合には、共通文辞書２２２に基づいて、解析対象の文の文種別を特定、又は、推測する。

登録処理部２３５は、共通単語辞書２２１と共通文辞書２２２などを管理する処理部である。より具体的には、登録処理部２３５は、同音異義語の中に、標準的なアクセント（声調）とは異なるアクセント（声調）で発音されることがある同音異義語が存在することが検出された場合に、共通単語辞書２２１の対応するフラグのフラグ値を“１”に設定する。また、登録処理部２３５は、標準的なイントネーション（音調）とは異なるイントネーション（音調）で発音される文が存在することが検出された場合に、共通文辞書２２２の対応するフラグのフラグ値を“１”に設定する。

また、登録処理部２３５は、ユーザが標準的なアクセント（声調）とは異なるアクセント（声調）で同音意義語を発音することが検出された場合に、その同音異義語と単語読みＩＤをユーザＩＤに対応付けて、特有声調管理記憶部２２３に格納する。また、登録処理部２３６は、ユーザが標準的なイントネーション（音調）とは異なるイントネーション（音調）で文を発音することが検出された場合に、その文の文ＩＤをユーザＩＤに対応付けて、特有音調管理記憶部２２５に格納する。

次に、図１３乃至図１５を参照して、本実施形態における情報端末装置１で実行される音声認識処理の流れについて説明する。図１３乃至図１５は、ぞれぞれ、本実施形態における情報端末装置１で実行される音声認識処理のフローを説明するためのフローチャートの例の第１部、第２部、第３部である。本音声認識処理は、例えば、音声認識用のアプリケーションが起動されることで開始される。

音声入力処理部１６１は、表示部１３を制御して、例えば、図５に例示するような音声入力画面を表示画面上に表示させる（ステップＳ００１）。そして、音声入力処理部１６１は、音声入力がされたか否かを判定する（ステップＳ００２）。音声入力処理部１６１により、音声入力がされていないと判定された場合には（ステップＳ００２；ＮＯ）、処理はステップＳ００２の処理を繰り返して、音声入力がされるのを待つ。一方、音声入力がされたと判定した場合には（ステップＳ００２；ＹＥＳ）、音声入力処理部１６１は、入力された音声データをユーザＩＤと共に、通信部１５を介して、サーバ装置２に送信する（ステップＳ００３）。

そして、対話処理部１６４は、音声解析結果を受信したか否かを判定する（ステップＳ００４）。音声解析結果を受信したと判定した場合には（ステップＳ００４；ＹＥＳ）、対話処理部１６４は、音声解析結果に基づいて、音声入力に対する応答文を生成する（ステップＳ００５）。そして、出力処理部１６５は、例えば、応答文に基づいて応答画面を生成し、表示部１３を制御して、生成した応答画面を表示画面上に表示させる（ステップＳ００６）。

そして、出力処理部１６５は、応答内容に誤りがないか否かを判定する（ステップＳ００７）。例えば、応答画面を表示させた場合には、出力処理部１６５は、応答画面上のＯＫボタンが選択されたか否かを判定する。ＯＫボタンが選択されたと判定した場合には（ステップＳ００７；ＹＥＳ）、出力処理部１６５は、応答内容に誤りがないことを示す応答成功通知をサーバ装置２に送信する（ステップＳ００８）。なお、応答成功通知には、ユーザＩＤが含まれている。

そして、登録処理部１６６は、音声解析結果に推測情報が含まれているか否かを判定する（ステップＳ００９）。推測情報が含まれていると判定した場合には（ステップＳ００９；ＹＥＳ）、登録処理部１６６は、詳しくは後述の登録処理を実行する（ステップＳ０１０）。そして、処理はステップＳ００１の処理へと戻り、前述の処理を繰り返す。なお、推測情報は、サーバ装置２において、共通単語辞書２２１と共通文辞書２２２とに基づく、単語及び／又は文種別の推測が行われたことを示す情報である。

一方、推測情報は含まれていないと判定した場合には（ステップＳ００９；ＮＯ）、登録処理部１６６は、更に、記憶部１２のデータエリアに推測結果（選択した文種別）が保存されているか否かを判定する（ステップＳ０１１）。推測結果が保存されていると判定した場合には（ステップＳ０１１；ＹＥＳ）、登録処理部１６６は、推測結果の内容をユーザ特有文辞書１２２に登録する（ステップＳ０１２）。この場合、登録処理部１６６は、ユーザ特有文辞書１２２における推測結果（選択した文種別）に対応するフラグ値を“１”に設定すると共に、ユーザ特有文辞書１２２における対応する「音調」欄を、文種別解析要求に含まれる音調情報で更新する。そして、処理はステップＳ００１の処理へと戻り、前述の処理を繰り返す。一方、登録処理部１６６により、推測結果は保存されていないと判定された場合には（ステップＳ０１１；ＮＯ）、処理はステップＳ００１の処理へと戻り、前述の処理を繰り返す。

ここで、文種別解析要求は、情報端末装置１に対して、ユーザ特有文辞書１２２に基づく文種別の解析を要求するための通知ある。ユーザが標準的なイントネーション（音調）以外のイントネーション（音調）で解析対象の文を発音することがある場合に、文種別解析要求は、サーバ装置２から対象ユーザの情報端末装置１に送信される。なお、文種別解析要求には、ユーザが音声入力したと推測される文とその文の文ＩＤと対応する音調情報とが含まれている。

ステップＳ００４の処理において、対話処理部１６４により、音声解析結果を受信していないと判定された場合には（ステップＳ００４；ＮＯ）、特有単語特定部１６２は、単語解析要求を受信したか否かを判定する（ステップＳ０１３）。

ここで、単語解析要求は、情報端末装置１に対して、ユーザ特有単語辞書１２１に基づく単語（同音異義語が存在する単語）の解析を要求するための通知ある。解析対象の文の中に同音異義語が存在する単語に対応する「単語読み」が存在する場合であって、ユーザが標準的なアクセント（声調）以外のアクセント（声調）で、それらの同音異義語のいずれかを発音することがある場合に、単語解析要求は、サーバ装置２から対象ユーザの情報端末装置１に送信される。なお、単語解析要求には、解析要求対象の「単語読み」に対応する「単語読みＩＤ」と対応する声調情報とが含まれている。

ステップＳ０１３の処理において、単語解析要求を受信したと判定した場合には（ステップＳ０１３；ＹＥＳ）、特有単語特定部１６２は、ユーザ特有単語辞書１２１を参照して、単語解析要求に基づいて、解析要求対象の「単語読み」に対応する単語を特定する（ステップＳ０１４）。より具体的には、特有単語特定部１６２は、ユーザ特有単語辞書１２１の「単語読みＩＤ」欄を検索して、単語解析要求に含まれる「単語読みＩＤ」と一致するエントリを特定する。そして、特有単語特定部１６２は、特定したエントリに対応する声調情報の中から、単語解析要求に含まれる声調情報と一致する単語（意味）を特定する。

そして、特有単語特定部１６２は、全て特定できたか否かを判定する（ステップＳ０１５）。全て特定できたと判定した場合には（ステップＳ０１５；ＹＥＳ）、特有単語特定部１６２は、特定単語通知をサーバ装置に送信する（ステップＳ０１６）。そして、処理はステップＳ００４の処理へと戻り、前述の処理を実行する。なお、特定単語通知は特定した単語を通知するための通知である。特定単語通知には、ユーザＩＤと、特定した単語と、が含まれている。

一方、少なくとも一部特定できなかったと判定した場合には（ステップＳ０１５；ＹＥＳ）、特有単語特定部１６２は、単語推測要求をサーバ装置２に送信する（ステップＳ０１７）。そして、処理はステップＳ００４の処理へと戻り、前述の処理を実行する。なお、単語推測要求は、特定できた単語を通知すると共に、共通単語辞書２２１に基づいて特定できなかった単語を推測するように要求するための通知である。単語推測要求には、ユーザＩＤと、特定した単語と、が含まれている。

ここで、ステップＳ０１３の処理において、特有単語特定部１６２により、単語解析要求を受信していないと判定された場合には（ステップＳ０１３；ＮＯ）、特有文種別特定部１６３は、文種別解析要求を受信したか否かを判定する（ステップＳ０１８）。

文種別解析要求を受信したと判定した場合には（ステップＳ０１８；ＹＥＳ）、特有文種別特定部１６３は、ユーザ特有文辞書１２２を参照して、文種別解析要求に基づいて、解析対象の文の文種別を特定する（ステップＳ０１９）。より具体的には、特有文種別特定部１６３は、ユーザ特有文辞書１２２の「文ＩＤ」欄を検索して、文種別解析要求に含まれる「文ＩＤ」と一致するエントリを特定する。そして、特有文種別特定部１６３は、特定したエントリに対応する音調情報の中から、文種別解析要求に含まれる音調情報と一致する文種別を特定する。

そして、特有文種別特定部１６３は、特定できたか否かを判定する（ステップＳ０２０）。特定できなかったと判定した場合には（ステップＳ０２０；ＮＯ）、特有文種別特定部１６３は、更に、ユーザ特有文辞書１２２を参照して、文種別解析要求に基づいて、解析対象の文の文種別を推測する（ステップＳ０２１）。より具体的には、特有文種別特定部１６３は、ユーザ特有文辞書１２２の「文ＩＤ」欄を検索して、文種別解析要求に含まれる「文ＩＤ」と一致するエントリを特定する。そして、特有文種別特定部１６３は、特定したエントリに対応する文種別の中から、未選択の文種別を選択する。

そして、特有文種別特定部１６３は、推測結果（選択した文種別）を記憶部１２のデータエリアに一時的に保存する（ステップＳ０２２）。そして、特有文種別特定部１６３は、選択した文種別を含む音声解析結果を対話処理部１６４に出力する（ステップＳ０２３）。そして、処理はステップＳ００５の処理へ進み、前述の処理を実行する。一方、ステップＳ０２０の処理において、特定できたと判定した場合には（ステップＳ０２０；ＹＥＳ）、特有文種別特定部１６３は、特定した文種別を含む音声解析結果を対話処理部１６４に出力する（ステップＳ０２３）。そして、処理はステップＳ００５の処理へと進み、前述の処理を実行する。

ここで、ステップＳ００７の処理において、出力処理部１６５により、ＮＧボタンが選択されたと判定された場合には（ステップＳ００７；ＮＯ）、特有文種別特定部１６３は、保存されている推測結果を削除し（ステップＳ０２４）、文種別解析を行ったか否かを判定する（ステップＳ０２５）。文種別解析を行っていないと判定した場合には（ステップＳ０２５；ＮＯ）、特有文種別特定部１６３は、再解析要求をサーバ装置２に送信する（ステップＳ０２６）。そして、処理はステップＳ００４の処理へと戻り、前述の処理を実行する。なお、再解析要求は、共通単語辞書２２１と共通文辞書２２２とに基づく音声データの再解析を要求するための通知であり、再解析要求には、ユーザＩＤが含まれている。

一方、文種別解析を行ったと判定した場合には（ステップＳ０２５；ＹＥＳ）、特有文種別特定部１６３は、更に、未選択の文種別が有るか否かを判定する（ステップＳ０２７）。特有文種別特定部１６３により、未選択の文種別は無いと判定された場合には（ステップＳ０２７；ＮＯ）、処理はステップＳ０２６の処理へと進む。一方、未選択の文種別が有る判定した場合には（ステップＳ０２７；ＹＥＳ）、特有文種別特定部１６３は、未選択の文種別を選択する（ステップＳ０２８）。

そして、特有文種別特定部１６３は、推測結果（選択した文種別）を記憶部１２のデータエリアに一時的に保存する（ステップＳ０２９）。そして、特有文種別特定部１６３は、選択した文種別を含む音声解析結果を対話処理部１６４に出力する（ステップＳ０３０）。そして、処理はステップＳ００５の処理へ進み、前述の処理を実行する。

次に、図１６を参照して、本実施形態における情報端末装置１で実行される登録処理の流れについて説明する。図１６は、本実施形態における登録処理のフローを説明するためのフローチャートの例である。本登録処理は、上述の音声認識処理にステップＳ０１０の処理に対応する処理である。

登録処理部１６６は、推測内容要求をサーバ装置２に送信する（ステップＳ１０１）。推測内容要求は、共通単語辞書２２１と共通文辞書２２２とに基づく、単語及び／又は文種別の推測結果の内容を要求するための通知である。応答内容に誤りがないとされた音声解析結果に推測情報が含まれている場合、あるいは、推測情報を含む文種別解析要求に基づく音声解析結果に対応した応答内容に誤りがないとされた場合に、推測内容要求は、サーバ装置２に送信される。なお、推測内容要求には、ユーザＩＤが含まれている。

そして、登録処理部１６６は、推測内容通知を受信したか否かを判定する（ステップＳ１０２）。推測内容通知は、推測内容要求に応答して、サーバ装置２から送信される通知であり、推測結果の内容を通知するための通知である。推測内容通知には、サーバ装置２での推測結果の内容が含まれている。例えば、応答内容に誤りが無いとされた音声解析結果の文に含まれる単語の中に、サーバ装置２で推測された同音異義語が有る場合には、サーバ装置２で推測された同音異義語と対応する「単語読みＩＤ」と対応する声調情報とが、推測内容通知に含まれる。また、例えば、応答内容に誤りが無いとされた音声解析結果の文の文種別が、サーバ装置２で推測された場合には、応答内容に誤りが無いとされた音声解析結果の文の文ＩＤと、文ＩＤに対応付けられている文種別と、応答内容に誤りが無いとされた音声解析結果の文の文種別と、対応する音調情報とが、推測内容通知に含まれる。

登録処理部１６６により、推測内容通知を受信していないと判定された場合には（ステップＳ１０２；ＮＯ）、処理はステップＳ１０２の処理を繰り返して、推測内容通知の受信を待つ。一方、推測内容通知を受信したと判定した場合には（ステップＳ１０２；ＹＥＳ）、登録処理部１６６は、推測内容通知に含まれる推測結果の内容をユーザ特有単語辞書１２１及び／又はユーザ特有文辞書１２２に登録する（ステップＳ１０３）。そして、本処理は終了して、上述の音声認識処理のステップＳ００１の処理へと移行する。

次に、図１７を参照して、本実施形態におけるサーバ装置２で実行される音声認識処理の流れについて説明する。図１７は、本実施形態におけるサーバ装置２で実行される音声認識処理のフローを説明するためのフローチャートの例である。本音声認識処理は、音声データの受信をトリガとして開始される。

音声認識部２３１は、音声データを受信したか否かを判定する（ステップＳ２０１）。音声認識部２３１により、音声データを受信していないと判定された場合には（ステップＳ２０１；ＮＯ）、処理はステップＳ２０１の処理を繰り返して、音声データの受信を待つ。一方、音声データを受信したと判定した場合には（ステップＳ２０１；ＹＥＳ）、音声認識部２３１は、受信した音声データを文字列に変換し、文字列をアクセント句に分割する（ステップＳ２０２）。

そして、単語特定部２３２は、声調・音調検出部２３３と連係して、単語解析処理を実行し、共通単語辞書２２１に基づいて、解析対象の文に含まれる各単語を特定、又は、推測する（ステップＳ２０３）。そして、声調・音調検出部２３３は、解析対象の文のイントネーション（音調）を検出する（ステップＳ２０４）。そして、文種別特定部２３４は、文種別解析処理を実行して、共通文辞書２２２に基づいて、解析対象の文の種別を特定、又は、推測する（ステップＳ２０５）。

そして、文種別特定部２３４は、再解析要求を受信したか否かを判定する（ステップＳ２０６）。再解析要求を受信していないと判定した場合には（ステップＳ２０６；ＮＯ）、文種別特定部２３４は、更に、応答成功通知を受信したか否かを判定する（ステップＳ２０７）。文種別特定部２３４により、応答成功通知を受信したと判定された場合には（ステップＳ２０７；ＹＥＳ）、応答成功通知に含まれるユーザＩＤに対応する音声認識処理を終了する。

一方、文種別特定部２３４により、応答成功通知を受信していないと判定された場合には（ステップＳ２０７；ＮＯ）、処理はステップＳ２０６の処理へと戻り、前述の処理を繰り返す。ステップＳ２０６の処理において、再解析要求を受信したと判定した場合には（ステップＳ２０６；ＹＥＳ）、文種別特定部２３４は、更に、未選択の文種別が有るか否かを判定する（ステップＳ２０８）。

未選択の文種別は無いと判定した場合には（ステップＳ２０８；ＮＯ）、文種別特定部２３４は、更に、解析対象の文に含まれる単語の中に同音異義語が存在する単語が有り、未選択の同音異義語が有る否かを判定する（ステップＳ２０９）。文種別特定部２３４により、未選択の同音異義語は無いと判定された場合には（ステップＳ２０９；ＮＯ）、処理はステップＳ２０２の処理へと戻り、前述の処理を実行する。一方、未選択の同音異義語が有ると判定した場合には（ステップＳ２０９；ＹＥＳ）、文種別特定部２３４は、単語特定部２３２と連係して、再解析処理を実行する（ステップＳ２１０）。そして、処理はステップＳ２０６の処理へと戻り、前述の処理を繰り返す。

一方、ステップＳ２０８の処理において、未選択の文種別が有ると判定された場合には（ステップＳ２０８；ＹＥＳ）、文種別特定部２３４は、単語特定部２３２と連係して、再解析処理を実行する（ステップＳ２１０）。そして、処理はステップＳ２０６の処理へと戻り、前述の処理を実行する。

次に、図１８乃至図２０を参照して、本実施形態における単語解析処理の流れについて説明する。図１８乃至図２０は、それぞれ、本実施形態における単語解析処理のフローを説明するためのフローチャートの例の第１部、第２部、第３部である。本単語解析処理は、サーバ装置２で実行される音声認識処理のステップＳ２０３の処理に対応する処理である。

単語特定部２３２は、解析対象の文の各アクセント句を、単語と接続助詞とに分割する（ステップＳ３０１）。そして、単語特定部２３２は、共通単語辞書２２１に基づいて、解析対象の文に含まれる各「単語読み」に対応する単語（意味）を、それぞれ、特定する（ステップＳ３０２）。より具体的には、単語特定部２３２は、共通単語辞書２２１の「単語読み」欄を検索して、処理対象の「単語読み」と一致するエントリを特定する。そして、単語特定部２３２は、特定したエントリの「意味」欄に登録されている単語が一つである場合には、同音異義語が存在しない単語なので、処理対象の「単語読み」に対応する単語として、特定したエントリの「意味」欄に登録されている単語を特定する。

そして、単語特定部２３２は、解析対象の文に含まれる各「単語読み」に対応する単語（意味）を全て特定できたか否かを判定する（ステップＳ３０３）。全て特定できたと判定した場合には（ステップＳ３０３；ＹＥＳ）、単語特定部２３２は、特定（又は、推測）した単語の中から注目単語を任意に選択する（ステップＳ３０４）。そして、本処理は終了し、サーバ装置２で実行される音声認識処理のステップＳ２０４の処理へと移行する。

ステップＳ３０３の処理において、特定できなかった「単語読み」が有ると判定した場合には（ステップＳ３０３；ＮＯ）、単語特定部２３２は、特定できなかった「単語読み」の中に、同音異義語に対応する「単語読み」が有るか否かを判定する（ステップＳ３０５）。単語特定部２３２により、同音異義語に対応する「単語読み」は無いと判定された場合には（ステップＳ３０５；ＮＯ）、処理は後述のステップＳ３２０の処理へと進む。

一方、単語特定部２３２により、同音異義語に対応する「単語読み」が有ると判定された場合には（ステップＳ３０５；ＹＥＳ）、声調・音調検出部２３３は、同音異義語に対応する「単語読み」のアクセント（声調）を検出する（ステップＳ３０６）。そして、単語特定部２３２は、対応するフラグ値が“１”の同音異義語に対応する「単語読み」が有るか否かを判定する（ステップＳ３０７）。

対応するフラグ値が“１”の同音異義語に対応する「単語読み」は無いと判定した場合には（ステップＳ３０７；ＮＯ）、単語特定部２３２は、同音異義語に対応する「単語読み」に対し、共通単語辞書２２１に基づいて、対応する声調情報が検出された声調と一致する単語を特定する（ステップＳ３０８）。より具体的には、単語特定部２３２は、共通単語辞書２２１の「単語読み」欄を検索して、同音異義語に対応する「単語読み」のエントリを特定する。そして、単語特定部２３２は、特定したエントリの意味（同音異義語）の中から、対応する声調情報が、検出した声調（つまり、声調情報）と一致する意味（意義語）を特定する。なお、同音異義語に対応する「単語読み」が複数有る場合には、上述の処理が、それぞれに対して実行される。

そして、単語特定部２３２は、同音異義語に対応する「単語読み」の単語（異義語）が全て特定できたか否かを判定する（ステップＳ３０９）。単語特定部２３２により、同音異義語が全て特定できたと判定された場合には（ステップＳ３０９；ＹＥＳ）、処理は後述のステップＳ３１９の処理へと進む。

一方、単語特定部２３２により、特定できなかった同音異義語に対応する「単語読み」があると判定した場合には（ステップＳ３０９；ＮＯ）、単語特定部２３２は、特定できなかった同音異義語に対応する「単語読み」に対し、共通単語辞書２２１に基づいて、対応する声調情報が検出された声調に最も似ている単語を選択する（ステップＳ３１０）。より具体的には、単語特定部２３２は、共通単語辞書２２１の「単語読み」欄を検索して、特定できなかった同音異義語に対応する「単語読み」のエントリを特定する。そして、単語特定部２３２は、特定したエントリの意味（異義語）の中から、対応する声調情報が、検出した声調に最も似ている意味（意義語）を選択する。なお、特定できなかった同音異義語に対応する「単語読み」が複数有る場合には、上述の処理が、それぞれに対して実行される。

そして、単語特定部２３２は、推測結果（選択した同音異義語）をユーザＩＤと対応付けて、記憶部２２のデータエリアに一時的に保存する（ステップＳ３１１）。そして、処理はステップＳ３０４の処理へと進み、前述の処理を実行する。

ステップＳ３０７の処理において、対応するフラグ値が“１”の同音異義語に対応する「単語読み」が有ると判定した場合には（ステップＳ３０７；ＹＥＳ）、単語特定部２３２は、対応するフラグ値が“１”の「単語読み」に対応する同音異義語の中から、特有声調管理記憶部２２３に登録されている単語と一致する同音異義語を抽出する（ステップＳ３１２）。そして、単語特定部２３２は、抽出できたか否かを判定する（ステップＳ３１３）。単語特定部２３２により、抽出できなかったと判定された場合には（ステップＳ３１３；ＮＯ）、処理は後述のステップＳ３１５の処理へと進む。

一方、抽出できたと判定した場合には（ステップＳ３１３；ＹＥＳ）、単語特定部２３２は、音声データを送信した情報端末装置１に、単語解析要求を送信する（ステップＳ３１４）。この際の単語解析要求には、抽出した同音異義語の「単語読み」に対応する「単語読みＩＤ」と対応する声調情報とが含まれる。このような場合に単語解析要求を情報端末装置１に送信するのは、特有声調管理記憶部２２３に登録されている「単語読み」の単語はユーザ特有のアクセント（声調）で発音されるからである。

そして、単語特定部２３２は、特定単語通知を受信したか否かを判定する（ステップＳ３１５）。特定単語通知を受信していないと判定した場合には（ステップＳ３１５；ＮＯ）、単語特定部２３２は、更に、単語推測要求を受信したか否かを判定する（ステップＳ３１６）。単語特定部２３２により、単語推測要求も受信していないと判定された場合には（ステップＳ３１６；ＮＯ）、処理はステップＳ３１５の処理へと戻り、前述の処理を繰り返す。

一方、特定単語通知を受信したと判定した場合には（ステップＳ３１５；ＹＥＳ）、単語特定部２３２は、抽出できなかった「単語読み」に対し、共通単語辞書２２１に基づいて、対応する声調情報が検出された声調と一致する単語を特定する（ステップＳ３１７）。より具体的には、単語解析要求の対象となった全ての「単語読み」に対し、ユーザ特有単語辞書１２１に基づく単語の特定（あるいは、共通単語辞書２２１に基づく単語の特定、又は、推測）ができたので、単語特定部２３２は、共通単語辞書２２１の「単語読み」欄を検索して、抽出できなかった「単語読み」のエントリを特定する。そして、単語特定部２３２は、特定したエントリの意味（異義語）の中から、対応する声調情報が、検出した声調（つまり、声調情報）と一致する意味（意義語）を特定する。なお、抽出できなかった「単語読み」が複数有る場合には、上述の処理が、それぞれに対して実行される。

そして、単語特定部２３２は、抽出できなかった「単語読み」に対し、単語を全て特定できたか否かを判定する（ステップＳ３１８）。単語特定部２３２により、単語が特定できなかった「単語読み」が有ると判定された場合には（ステップＳ３１８；ＮＯ）、処理はステップＳ３１０の処理へと進み、前述の処理を実行する。一方、抽出できなかった「単語読み」に対し、単語を全て特定できたと判定した場合には（ステップＳ３１８；ＹＥＳ）、単語特定部２３２は、更に、解析対象の文に含まれる「単語読み」の中に、単語が特定されていない「単語読み」が有るか否かを判定する（ステップＳ３１９）。単語特定部２３２により、単語が特定されていない「単語読み」は無いと判定された場合には（ステップＳ３１９；ＮＯ）、処理はステップＳ３０４の処理へと進み、前述の処理を実行する。

一方、単語が特定されていない「単語読み」が有ると判定した場合には（ステップＳ３１９；ＹＥＳ）、単語特定部２３２は、単語が特定されていない「単語読み」に対し、共通単語辞書２２１に基づいて、最適な単語を推測する（ステップＳ３２０）。この場合、解析対象の文に含まれる「単語読み」の中に、共通単語辞書２２１に登録されている「単語読み」と一致しない「単語読み」が存在するということなので、単語特定部２３２は、例えば、そのような「単語読み」に対し、共通単語辞書２２１に基づいて、「単語読み」が最も似ている単語を推測する。そして、処理はステップＳ３０４の処理へと進み、前述の処理を実行する。

ここで、ステップＳ３１６の処理において、単語推測要求を受信したと判定した場合には（ステップＳ３１６；ＹＥＳ）、単語特定部２３２は、単語解析要求の対象となった「単語読み」の中で単語推測要求に含まれる単語以外の「単語読み」に対し、共通単語辞書２２１に登録されている同音異義語から特有声調管理記憶部２２３に登録されている同音異義語を除いた同音異義語の中から、対応する声調情報が検出された声調と一致する同音異義語を特定する（ステップＳ３２１）。例えば、図８と図１０を参照して、単語解析要求の対象となった「単語読み」の中で単語推測要求に含まれる単語以外の「単語読み」が“イガイ”であり、ユーザのユーザＩＤが“ＵＩＤ０００１”であるとした場合、特有声調管理記憶部２２３には、「単語読み」が“イガイ”である単語（意外と以外）が登録されている。また、共通単語辞書２２１に登録されている「単語読み」が“イガイ”である単語は、意外、以外、遺骸、貽貝、固有名詞１である。したがって、この場合、単語特定部２３２は、遺骸、貽貝、固有名詞１の中から、対応する声調情報が検出された声調と一致する単語（異義語）を特定する。

そして、単語特定部２３２は、特定できたか否かを判定する（ステップＳ３２２）。単語特定部２３２により、特定できたと判定された場合には（ステップＳ３２２；ＹＥＳ）、処理はステップＳ３１７の処理へと進み、前述の処理を実行する。一方、特定できなかったと判定した場合には（ステップＳ３２２；ＮＯ）、単語特定部２３２は、単語を特定できなかった「単語読み」に対し、共通単語辞書２２１に登録されている同音異義語から、特有声調管理記憶部２２３に登録されている同音異義語を除いた同音異義語の中から、同音異義語を選択する（ステップＳ３２３）。そして、単語特定部２３２は、推測結果（選択した同音異義語）をユーザＩＤと対応付けて、記憶部２２のデータエリアに一時的に保存する（ステップＳ３２４）。そして、処理はステップＳ３１７の処理へと進み、前述の処理を実行する。

次に、図２１と図２２を参照して、本実施形態における文種別特定処理の流れについて説明する。図２１と図２２は、それぞれ、本実施形態における文種別解析処理のフローを説明するためのフローチャートの例の一部と、他の一部である。本文種別特定処理は、サーバ装置２で実行される音声認識処理のステップＳ２０５の処理に対応する処理である。

文種別特定部２３４は、共通文辞書２２２を参照して、特定、又は、推測された単語で構成された解析対象の文と一致する文を特定する（ステップＳ４０１）。より具体的には、文種別特定部２３４は、共通文辞書２２２の「単語」欄を検索して、注目単語と一致する単語のエントリを特定する。そして、文種別特定部２３４は、特定したエントリに登録されている文の中から、解析対象の文と一致する文を特定する。この際、特定したエントリに登録されている文の中から、解析対象の文と一致する文が特定できない場合であって、解析対象の文に含まれる単語読みに対応する単語の中に、同音異義語が存在する単語が有る場合には、未選択の同音異義語の中から、同音異義語を再選択する処理を、解析対象の文と一致する単語（異義語）が特定できるまで繰り返す。こうすることで、音声対話方式においてユーザが一般的に発話すると想定されている文を特定することができ、音声認識の精度を向上させることができる。

そして、文種別特定部２３４は、特定した文の「後段単語」に対応付けられているフラグ値が“１”であるか否かを判定する（ステップＳ４０２）。特定した文の「後段単語」に対応付けられているフラグ値が“１”であると判定した場合には（ステップＳ４０２；ＹＥＳ）、文種別特定部２３４は、特定した文を特有音調管理記憶部２２５に登録されている文と照合する（ステップＳ４０３）。より具体的には、文種別特定部２３４は、特有音調管理記憶部２２５の「ユーザＩＤ」欄を検索して、音調データと共に受信したユーザＩＤと一致するエントリを特定する。そして、文種別特定部２３４は、特定した文の文ＩＤを、特定したエントリに登録されている文ＩＤと照合する。

そして、文種別特定部２３４は、照合できたか否かを判定する（ステップＳ４０４）。文種別特定部２３４により、照合できなかったと判定された場合には（ステップＳ４０４；ＮＯ）、処理は後述のステップＳ４０８の処理へと進む。一方、照合できたと判定した場合には（ステップＳ４０４；ＹＥＳ）、文種別特定部２３４は、更に、解析対象の文の中に推測された単語が含まれているか否かを判定する（ステップＳ４０５）。

解析対象の文の中に推測された単語が含まれていると判定した場合には（ステップＳ４０５；ＹＥＳ）、文種別特定部２３４は、推測情報を含む文種別解析要求を送信する（ステップＳ４０６）。そして、本処理は終了して、サーバ装置２で実行される音声認識処理のステップＳ２０６の処理へと移行する。一方、解析対象の文の中に推測された単語は含まれていないと判定した場合には（ステップＳ４０５；ＮＯ）、文種別特定部２３４は、推測情報を含まない文種別解析要求を送信する（ステップＳ４０７）。同様に、本処理は終了して、サーバ装置２で実行される音声認識処理のステップＳ２０６の処理へと移行する。このような場合に文種別解析要求を情報端末装置１に送信するのは、特有音調管理記憶部２２５に登録されている文はユーザ特有のイントネーション（音調）で発音される場合があるからである。

ステップＳ４０２の処理において、特定した文の「後段単語」に対応付けられているフラグ値は“１”ではないと判定した場合には（ステップＳ４０２；ＮＯ）、文種別特定部２３４は、共通文辞書２２１に基づいて、解析対象の文の文種別を特定する（ステップＳ４０８）。より具体的には、文種別特定部２３４は、音調管理記憶部２２４を参照して、特定した文に対応付けられている文種別の中から、対応する音調情報が検出されたイントネーション（音調）と一致する文種別を特定する。

そして、文種別特定部２３４は、特定できたか否かを判定する（ステップＳ４０９）。特定できたと判定した場合には（ステップＳ４０９；ＹＥＳ）、文種別特定部２３４は、更に、解析対象の文の中に推測された単語が含まれているか否かを判定する（ステップＳ４１０）。

解析対象の文の中に推測された単語が含まれていると判定した場合には（ステップＳ４１０；ＹＥＳ）、文種別特定部２３４は、推測情報を含む音声解析結果を送信する（ステップＳ４１１）。そして、本処理は終了して、サーバ装置２で実行される音声認識処理のステップＳ２０６の処理へと移行する。一方、解析対象の文の中に推測された単語は含まれていないと判定した場合には（ステップＳ４１０；ＮＯ）、文種別特定部２３４は、推測情報を含まない音声解析結果を送信する（ステップＳ４１２）。同様に、本処理は終了して、サーバ装置２で実行される音声認識処理のステップＳ２０６の処理へと移行する。

ステップＳ４０９の処理において、特定できなかったと判定した場合には（ステップＳ４０９；ＮＯ）、文種別特定部２３４は、共通文辞書２２１に基づいて、解析対象の文の文種別を推測する（ステップＳ４１３）。より具体的には、文種別特定部２３４は、音調管理記憶部２２４を参照して、特定した文に対応付けられている文種別の中から、対応する音調情報が検出されたイントネーション（音調）と最も似ている文種別を選択する。あるいは、文種別特定部２３４は、特定した文に対応付けられている文種別の中から、未選択の文種別を選択してもよい。

そして、文種別特定部２３４は、推測結果（選択した文種別）をユーザＩＤと対応付けて、記憶部２２のデータエリアに一時的に保存し（ステップＳ４１４）、推測情報を含む音声解析結果を情報端末装置１に送信する（ステップＳ４１５）。そして、本処理は終了して、サーバ装置２で実行される音声認識処理のステップＳ２０６の処理へと移行する。

次に、図２３を参照して、本実施形態における再解析処理の流れについて説明する。図２３は、本実施形態における再解析処理のフローを説明するためのフローチャートの例である。本再解析処理は、サーバ装置２で実行される音声認識処理のステップＳ２１０の処理に対応する処理である。

文種別特定部２３４は、特定した文に対応付けられている文種別の内で未選択の文種別が有るか否かを判定する（ステップＳ５０１）。特定した文に対応付けられている文種別の内で未選択の文種別が有ると判定した場合には（ステップＳ５０１；ＹＥＳ）、文種別特定部２３４は、共通文辞書２２２に基づいて、特定した文に対応付けられている文種別の中から、未選択の文種別を推測する（ステップＳ５０２）。より具体的には、文種別特定部２３４は、音調管理記憶部２２４を参照して、特定した文に対応付けられている文種別の内で未選択の文種別の中から、対応する音調情報が検出されたイントネーション（音調）と最も似ている文種別を選択する。あるいは、文種別特定部２３４は、特定した文に対応付けられている文種別の中から、未選択の文種別を選択してもよい。

そして、文種別特定部２３４は、推測結果（選択した文種別）をユーザＩＤと対応付けて、記憶部２２のデータエリアに一時的に保存し（ステップＳ５０３）、推測情報を含む音声解析結果を情報端末装置１に送信する（ステップＳ５０４）。そして、本処理は終了して、サーバ装置２で実行される音声認識処理のステップＳ２０６の処理へと移行する。

ステップＳ５０１の処理において、文種別特定部２３４により、特定した文に対応付けられている文種別の内で未選択の文種別は無いと判定された場合には（ステップＳ５０１；ＮＯ）、単語特定部２３２は、共通単語辞書２２１に基づいて、未選択の同音異義語の中から単語（異義語）を推測する（ステップＳ５０５）。より具体的には、単語特定部２３２は、未選択の同音異義語の中から、対応する声調情報が検出された声調に最も似ている同音異義語を選択する。

そして、単語特定部２３２は、推測結果（選択した同音異義語）をユーザＩＤと対応付けて、記憶部２２のデータエリアに一時的に保存し（ステップＳ５０６）、注目単語を任意に選択する（ステップＳ５０７）。この際、単語特定部２３２は、注目単語として、前回選択した単語が存在する場合には、前回選択した単語を選択する。そして、文種別特定部２３４は、声調・音調検出部２３３と連係して、上述の文種別解析処理を実行する（ステップＳ５０８）。そして、本処理は終了して、サーバ装置２で実行される音声認識処理のステップＳ２０６の処理へと移行する。

次に、図２４を参照して、本実施形態における推測内容送信処理の流れについて説明する。図２４は、本実施形態における推測内容送信処理のフローを説明するためのフローチャートの例である。本推測内容送信処理は、推測内容要求の受信をトリガとして開始される。

登録処理部２３５は、推測内容要求を受信したか否かを判定する（ステップＳ６０１）。登録処理部２３５により、推測内容要求を受信していないと判定された場合には（ステップＳ６０１；ＮＯ）、処理はステップＳ６０１の処理を繰り返して、推測内容要求の受信を待つ。一方、推測内容要求を受信したと判定した場合には（ステップＳ６０１；ＹＥＳ）、登録処理部２３５は、推測内容通知を情報端末装置１に送信する（ステップＳ６０２）。

そして、登録処理部２３５は、推測結果の内容に応じた登録処理を行い（ステップＳ６０３）、処理対象の音声データに対応する推測結果を記憶部２２のデータエリアから削除する（ステップＳ６０４）。そして、処理はステップＳ６０１の処理へと戻り、前述の処理を繰り返す。

なお、単語特定部２３２による同音異義語の推測精度を向上させるために、種々の既存の技術を適用してもよい。例えば、同音異義語を推測する際に、単語特定部２３２は、類語相違の最強調部分を含む声調情報の同音異義語から、単語（異義語）を選択するようにしてもよい。図２５は、この場合の共通単語辞書２２１の例を示す図である。また、例えば、同音異義語を推測する際に、単語を構成する各音節文字（日本語の場合は、仮名文字、平仮名文字）を発音する際の標準的な周波数が用いられてもよい。図２６は、この場合の共通単語辞書２２１の例を示す図である。

次に、ユーザが“中華以外のランチ”と音声入力した場合の具体例にしたがって、上述したフローチャートなどを参照し、音声認識システム全体における音声認識処理の概略的な流れについて、更に、説明する。

ユーザが、“中華以外のランチ”と、情報端末装置１に音声入力すると、情報端末装置１は、対応する音声データをサーバ装置２に送信する。サーバ装置２は、音声データを受信すると、音声データを文字列“チュウカイガイノランチ”に変換し、更に、文字列を、“チュウカ”，“イガイ”，“ノ”，“ランチ”に分割する。

そして、サーバ装置２は、共通単語辞書２２１に基づいて、各単語読み、つまり、“チュウカ”，“イガイ”，“ランチ”に対応する意味（単語）を特定する。ここで、単語読みが“イガイ”の単語に同音異義語（例えば、意外、以外、遺骸、貽貝、固有名詞１）が存在し、特有声調管理記憶部２２３にその同音異義語（例えば、意外と以外）が登録されているとする。この場合、サーバ装置２は、単語読み“チュウカ”の声調を検出し、情報端末装置１側で単語読み“イガイ”の単語解析を行わせるために、単語解析要求を送信する。

情報端末装置１は、単語解析要求を受信すると、ユーザ特有単語辞書１２１（図３に例示）に基づいて、単語読み“イガイ”の単語を特定する。ここで、単語読み“イガイ”の音声データにおける声調情報が（↑↓↓）であるとすると、情報端末装置１は、単語“以外”を特定する。そして、情報端末装置１は、特定単語通知をサーバ装置２に送信し、特定した単語“以外”を通知する。ここで、図８を参照すると、単語読み“イガイ”の一般的な声調情報は（↑↓―）であるため、単語読み“イガイ”の音声データにおける声調情報が（↑↓↓）である場合、共通単語辞書２２１に基づいて、単語“以外”を特定することができないことが分かる。

一方、残りの単語読み“チュウカ”と“ランチ”に対して、サーバ装置２は、共通単語辞書２２１に基づく単語の特定を行う。ここで、単語読みが“チュウカ”の単語は“中華”のみであり、単語読みが“ランチ”の単語は“ランチ”（昼食）のみであるとすると、サーバ装置２は、単語読み“チュウカ”に対して単語“中華”を、単語読み“ランチ”に対して単語“ランチ”（昼食）を特定する。

そして、サーバ装置２は、単語（“中華”、“以外”、“ランチ”）の中から、注目単語を選択する。ここで、サーバ装置２は、単語“以外”を注目単語として選択したとする。この場合、サーバ装置２は、共通文辞書２２２の「単語」欄を検索して、注目単語“以外”のエントリを特定し、特定したエントリに登録されている文の中から、文“中華以外のランチ”と一致する文を特定する。ここで、図９を参照して、特定した文の後段単語“ランチ”に対応付けられているフラグ値が“１”であることから、文“中華以外のランチ”がユーザ特有のイントネーション（音調）で発音されることがあることが分かる。また、ユーザＩＤが“ＵＩＤ０００１”、文“中華以外のランチ”の文ＩＤが“ＳＩＤ００００１”であるとする。この場合、特有音調管理記憶部２２５（図１２に例示）のユーザＩＤ“ＵＩＤ０００１”のエントリには、文ＩＤ“ＳＩＤ００００１”が登録されていることから、サーバ装置２は、文“中華以外のランチ”の文種別を情報端末装置１で特定させるために、文種別解析要求を情報端末装置１に送信する。

そして、情報端末装置１は、文種別解析要求を受信すると、ユーザ特有文辞書１２２に基づいて、文“中華以外のランチ”の文種別を特定する。ここで、文種別解析要求に含まれる音調情報が“音調１１”であるとすると、情報端末装置１は、文種別“質問”を特定する。そして、情報端末装置１は、文“中華以外のランチ”と文種別“質問”を、音声解析結果として、対応する応答文を生成する。文“中華以外のランチ”と文種別“質問”により、情報端末装置１は、文“中華以外のランチ”を目的語としてとらえることができるため、中華以外のランチを食べることができる場所を案内するような応答文を生成することが可能となる。例えば、情報端末装置１がカーナビゲーションである場合には、位置情報に基づいて、例えば、応答文“中華以外のランチでは５００ｍ直進でステーキ屋が開店しています”を生成することができる。このように、音声入力された文の文種別を特定（又は、推測）することができるので、文“中華以外のランチを食べれるレストランを検索する”のように、動詞まで含む形で音声入力されるのではなく、文“中華以外のランチ”のように動詞が省略された形で音声入力されたとしても、音声対話を成立させることができる。ここで、図１１を参照すると、文種別“質問”の標準的な音調は“音調０１”である。したがって、共通文辞書２２２に基づいて、文“中華以外のランチ”の文種別として文種別“質問”を特定することができないことが分かる。

以上に説明したように、ユーザ特有のアクセント（声調）で発音される同音異義語の関する声調情報を情報端末装置１側で保持することで、ユーザ特有のアクセント（声調）で発音される同音異義語を正確に特定することが可能となる。つまり、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識が可能となる。また、ユーザ特有のイントネーション（音調）で発音される文の関する文種別の音調情報を情報端末装置１側で保持することで、ユーザ特有のイントネーション（音調）で発音される文の文種別を正確に特定することが可能となる。したがって、音声認識の精度を向上させることができる。また、情報端末装置１に処理を分散させることで、サーバ装置２の処理負荷を軽減させることができる。

上記実施形態によれば、情報端末装置１は、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおけるアクセント（声調）に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する。そして、情報端末装置１は、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおけるイントネーション（音調）に基づいて、サーバ装置２により特定された単語と情報端末装置１が特定した同音異義語とにより構成される文に対する、応答文を生成する。これにより、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識が可能となると共に、情報端末装置１とサーバ装置２に処理を分散することで、一の装置（例えば、サーバ装置２）で全ての処理を行う場合と比較して、装置の処理負荷を軽減することが可能となる。

また、上記実施形態によれば、情報端末装置１は、同音異義語のユーザのアクセント（声調）が標準的なアクセント（声調）とは異なることが検出された際に、同音異義語のユーザのアクセント（声調）を当該同音異義語に対応付けてユーザ特有単語辞書１２１に登録する。これにより、ユーザ特有のアクセント（声調）で発音される同音異義語が蓄積されていくので、使用される程、音声認識の精度を向上させることができる。よって、音声認識の失敗により繰り返される処理を軽減させることができる。

また、上記実施形態によれば、情報端末装置１は、入力された音声データに基づいて特定される文のユーザの音調が、同一の文種別で当該文を発話した際の標準的な音調とは異なることが検出された際に、音声データにおける音調を文種別と対応付けて、ユーザ特有文辞書１２２に登録する。これにより、ユーザ特有のイントネーション（音調）で発音される文が蓄積されていくので、使用される程、音声認識の精度を向上させることができる。よって、音声認識の失敗により繰り返される処理を軽減させることができる。

図２７は、本実施形態における情報端末装置１のハードウェア構成の例を示す図である。図２に示す情報端末装置１は、例えば、図２７に示す各種ハードウェアにより実現されてもよい。図２７の例では、情報端末装置１は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、フラッシュメモリ２０４、オーディオインターフェース２０５、通信モジュール２０６、読取装置２０７を備え、これらのハードウェアはバス２０８を介して接続されている。

ＣＰＵ２０１は、例えば、フラッシュメモリ２０４に格納されている動作プログラムをＲＡＭ２０２にロードし、ＲＡＭ２０２をワーキングメモリとして使いながら各種処理を実行する。ＣＰＵ２０１は、動作プログラムを実行することで、図２に示す制御部１６の各機能部を実現することができる。

なお、上記動作を実行するための動作プログラムを、フレキシブルディスク、ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＣＤ−ＲＯＭ）、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ（ＤＶＤ）、ＭａｇｎｅｔｏＯｐｔｉｃａｌｄｉｓｋ（ＭＯ）などのコンピュータで読み取り可能な記録媒体２０９に記憶して配布し、これを情報端末装置１の読取装置２０７で読み取ってコンピュータにインストールすることにより、上述の処理を実行するようにしてもよい。さらに、インターネット上のサーバ装置が有するディスク装置等に動作プログラムを記憶しておき、通信モジュール２０６を介して、情報端末装置１のコンピュータに動作プログラムをダウンロード等するものとしてもよい。

なお、実施形態に応じて、ＲＡＭ２０２、ＲＯＭ２０３、フラッシュメモリ２０４以外の他の種類の記憶装置が利用されてもよい。例えば、情報端末装置１は、Ｃｏｎｔｅｎｔ
ＡｄｄｒｅｓｓａｂｌｅＭｅｍｏｒｙ（ＣＡＭ）、ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＳＲＡＭ）、ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＳＤＲＡＭ）などの記憶装置を有してもよい。

なお、実施形態に応じて、情報端末装置１のハードウェア構成は図２７とは異なっていてもよく、図２７に例示した規格・種類以外のその他のハードウェアを情報端末装置１に適用することもできる。

例えば、図２に示す情報端末装置１の制御部１６の各機能部は、ハードウェア回路により実現されてもよい。具体的には、ＣＰＵ２０１の代わりに、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ）などのリコンフィギュラブル回路や、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（ＡＳＩＣ）などにより、図２に示す制御部１６の各機能部が実現されてもよい。もちろん、ＣＰＵ２０１とハードウェア回路の双方により、これらの機能部が実現されてもよい。

図２８は、本実施形態におけるサーバ装置２のハードウェア構成の例を示す図である。図７に示すサーバ装置２は、例えば、図２８に示す各種ハードウェアにより実現されてもよい。図２８の例では、サーバ装置２は、ＣＰＵ３０１、ＲＡＭ３０２、ＲＯＭ３０３、ＨＤＤ３０４、通信モジュール３０５、読取装置３０６を備え、これらのハードウェアはバス３０７を介して接続されている。

ＣＰＵ３０１は、例えば、ＨＤＤ３０４に格納されている動作プログラムをＲＡＭ３０２にロードし、ＲＡＭ３０２をワーキングメモリとして使いながら各種処理を実行する。ＣＰＵ３０１は、動作プログラムを実行することで、図７に示す制御部２３の各機能部を実現することができる。

なお、上記動作を実行するための動作プログラムを、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ、ＭＯなどのコンピュータで読み取り可能な記録媒体３０８に記憶して配布し、これをサーバ装置２の読取装置３０６で読み取ってコンピュータにインストールすることにより、上述の処理を実行するようにしてもよい。さらに、インターネット上のサーバ装置が有するディスク装置等に動作プログラムを記憶しておき、通信モジュール３０５を介して、サーバ装置２のコンピュータに動作プログラムをダウンロード等するものとしてもよい。

なお、実施形態に応じて、ＲＡＭ３０２、ＲＯＭ３０３、ＨＤＤ３０４以外の他の種類の記憶装置が利用されてもよい。例えば、サーバ装置２は、ＣＡＭ、ＳＲＡＭ、ＳＤＲＡＭなどの記憶装置を有してもよい。

なお、実施形態に応じて、サーバ装置２のハードウェア構成は図２８とは異なっていてもよく、図２８に例示した規格・種類以外のその他のハードウェアをサーバ装置２に適用することもできる。

例えば、図７に示すサーバ装置２の制御部２３の各機能部は、ハードウェア回路により実現されてもよい。具体的には、ＣＰＵ３０１の代わりに、ＦＰＧＡなどのリコンフィギュラブル回路や、ＡＳＩＣなどにより、図７に示す制御部２３の各機能部が実現されてもよい。もちろん、ＣＰＵ３０１とハードウェア回路の双方により、これらの機能部が実現されてもよい。

以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態及び代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨及び範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態を成すことができることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して又は置換して、或いは実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。

Claims

入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、
前記文を構成する単語の中に同音異義語が存在する単語が有る場合に、前記音声データにおける前記文の音調に基づいて、外部装置により特定された前記同音異義語が存在する単語以外の単語と特定した前記同音異義語とにより構成される前記文に対する、応答文を生成する生成手段と、
標準的な音調とは異なるユーザ特有の音調で前記文が発音される場合に、前記音声データにおける前記文の音調に基づいて、前記文を発話した際のユーザの意図を推測する推測手段と、を備え、
前記生成手段は、推測した前記ユーザの意図に基づいて、前記応答文を生成する、
ことを特徴とする音声認識装置。
前記同音異義語のユーザの声調を前記同音異義語に対応付けて、保持する第１の保持手段を、更に、備え、
前記特定手段は、対応する前記ユーザの声調が、前記同音異義語が存在する単語の前記音声データにおける声調と一致する同音異義語を特定する、
ことを特徴とする請求項１に記載の音声認識装置。
前記特定手段が前記同音異義語を特定できなかった場合に、前記外部装置に前記同音異義語の特定、又は推測を要求する要求手段を、更に、備える、
ことを特徴とする請求項１又は２に記載の音声認識装置。
前記特定手段は、前記文を構成する単語の内で、前記ユーザの声調が標準的な声調と異なる同音異義語が存在する単語に対してのみ、前記ユーザの声調が標準的な声調と異なる前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記ユーザの声調が標準的な声調と異なる前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する、
ことを特徴とする請求項１乃至３のいずれか一に記載の音声認識装置。
第１の音声認識装置と第２の音声認識装置を含む音声認識システムであって、
前記第１の音声認識装置は、
入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、
前記文を構成する単語の中に同音異義語が存在する単語が有る場合に、前記音声データにおける前記文の音調に基づいて、前記第２の音声認識装置により特定された前記同音異義語が存在する単語以外の単語と特定した前記同音異義語とにより構成される前記文に対する、応答文を生成する生成手段と、
標準的な音調とは異なるユーザ特有の音調で前記文が発音される場合に、前記音声データにおける前記文の音調に基づいて、前記文を発話した際のユーザの意図を推測する推測手段と、
を備え、
前記生成手段は、推測した前記ユーザの意図に基づいて、前記応答文を生成し、
前記第２の音声認識装置は、
前記単語の読みに基づいて、前記同音異義語が存在する単語以外の単語を特定する特定手段と、
特定した単語を前記第１の音声認識装置に通知する通知手段と、
を備える、
ことを特徴とする音声認識システム。
音声認識装置のコンピュータに、
入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定し、
標準的な音調とは異なるユーザ特有の音調で前記文が発音される場合に、前記音声データにおける前記文の音調に基づいて、前記文を発話した際のユーザの意図を推測し、
前記文を構成する単語の中に同音異義語が存在する単語が有る場合に、前記音声データにおける前記文の音調に基づいて、また、推測した前記ユーザの意図に基づいて、外部装置により特定された前記同音異義語が存在する単語以外の単語と特定した前記同音異義語とにより構成される前記文に対する、応答文を生成する、
処理を実行させる、
ことを特徴とするプログラム。