JP2018022049A

JP2018022049A - 音声認識機能付き電子機器及び音声認識機能付きシステム

Info

Publication number: JP2018022049A
Application number: JP2016153335A
Authority: JP
Inventors: 和磨金子; Kazuma Kaneko
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2018-02-08

Abstract

【課題】どのような語彙を発声すればよいのかがユーザにとって分かりやすく、操作性の良い音声認識を提供する電子機器を得る。【解決手段】コンテンツ情報管理部２ｋは、コンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得する。言語解析部２ｎは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第１コンテンツ専用音声認識辞書２１ｈに登録する。そして、照合部２ｉは、共通操作用音声認識辞書２ｇに加えて第１コンテンツ専用音声認識辞書２１ｈを用いて、入力音声を対象に音声認識を行う。【選択図】図１

Description

この発明は、音声認識機能を備えた電子機器に関するものである。

音声認識処理で参照される音声認識辞書を、ユーザに提供するコンテンツに応じて作成することで、より効率的な処理の実現が可能である。例えば、特許文献１には、挿入されたＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）の内周部分に記録されているＴＯＣ（ＴａｂｌｅＯｆＣｏｎｔｅｎｔｓ）を読み出し、ＴＯＣに含まれる全ての曲番及び全ての曲名等に基づいて、挿入されたＣＤ専用の音声認識辞書を作成する再生装置が記載されている。当該再生装置によれば、ユーザが曲名を発声するだけでその曲の再生が開始されるので、効率的である。なお、ＴＯＣには、各曲の演奏時間、開始位置等の情報も記憶されており、一般的なＣＤ再生装置は、これらの情報を使って、演奏時間の表示、曲の迅速な頭出し等を実現している。

特開２００５―８５４３３号公報

しかしながら、上記特許文献１では、ＴＯＣに基づいて音声認識辞書に登録された語彙をユーザに報知しないため、ユーザはどのような語彙を発声すればよいのかが分からない。つまり、上記特許文献１では、曲名の読み方が音声認識の対象となっているが、ユーザが再生装置に音声を入力するにあたり、ＣＤ内の曲名がユーザに報知されることはない。従って、特に、ユーザが収録されている曲が分からないＣＤを挿入した場合等、ユーザはどのような語彙を発声すればよいのかが分からない。このように、従来は、操作性の悪い音声認識がユーザに提供されていた。

この発明は、上記のような課題を解決するためになされたもので、どのような語彙を発声すればよいのかがユーザにとって分かりやすく、操作性の良い音声認識を提供する電子機器を得ることを目的とする。

この発明に係る音声認識機能付き電子機器は、文字列について、当該文字列を読む音声に結びつく特徴情報を記憶する音声認識辞書と、音声認識辞書を用いて、入力音声を認識する音声認識部と、コンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得するコンテンツ情報管理部と、コンテンツ情報管理部が取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく特徴情報を生成し、音声認識辞書に登録する言語解析部とを備えることを特徴とするものである。

この発明によれば、コンテンツに依存して生成された表示中の操作対象に付けられている文字列について、当該文字列を読む音声に結びつく特徴情報が音声認識辞書に登録される。文字列として画面に表示されてユーザに報知されている語彙が、音声認識の対象となるので、ユーザにとってはどのような語彙を発声すればよいのかが分かりやすく、操作性の良い音声認識を提供することができる。

この発明の実施の形態１に係る音声認識機能付き電子機器の構成を示す図である。図２Ａ及び図２Ｂは、この発明の実施の形態１に係る音声認識機能付き電子機器のハードウェア構成例を示す図である。デジタルテレビ放送の画面例である。第１コンテンツ専用音声認識辞書への文字列読み情報の登録処理の一例を示すフローチャートである。図３に示す画面例に対応して生成されるコンテンツ情報を示す表である。コンテンツ情報を作成する際に行われる処理のイメージを示す図である。図５に示すコンテンツ情報に対応して生成される文字列読み情報を示す表である。データ放送画面をユーザが音声操作する場合の処理の一例を示すフローチャートである。この発明の実施の形態２に係る音声認識機能付き電子機器の構成を示す図である。ディスクメニュー画面の一例である。第２コンテンツ専用音声認識辞書への文字列読み情報の登録処理の一例を示すフローチャートである。図１０に示す画面例に対応して生成されるコンテンツ情報を示す表である。図１２に示すコンテンツ情報に対応して生成される文字列読み情報を示す表である。ディスクメニュー画面をユーザが音声操作する場合の処理の一例を示すフローチャートである。この発明の実施の形態３に係る音声認識機能付き電子機器の構成を示す図である。楽曲一覧画面の一例である。第３コンテンツ専用音声認識辞書への文字列読み情報の登録処理の一例を示すフローチャートである。図１６に示す画面例に対応して生成されるコンテンツ情報を示す表である。図１８に示すコンテンツ情報に対応して生成される文字列読み情報を示す表である。楽曲一覧画面をユーザが音声操作する場合の処理の一例を示すフローチャートである。この発明の実施の形態４に係る音声認識機能付き電子機器の構成を示す図である。信号選択部で許可又は禁止される端子の接続状態を示す表である。この発明の実施の形態５に係る音声認識機能付き電子機器の構成を示す図である。この発明の実施の形態５に係る音声認識機能付き電子機器により表示される画面例を示す図である。この発明の実施の形態６に係る音声認識機能付き電子機器の構成を示す図である。

実施の形態１．
図１に、この発明の実施の形態１に係る音声認識機能付き電子機器２の構成を示す。図１では、電子機器２が、入出力部１とデジタルテレビ受信部３と光ディスク再生部４とＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ再生部５とに接続して音声認識機能付きシステムを構成している場合を示している。なお、実施の形態１では、デジタルテレビ放送が入出力部１からユーザに提供される場合を例に説明するので、煩雑さを避けるために光ディスク再生部４及びＵＳＢメモリ再生部５の構成は簡略化している。光ディスクに記憶された情報がユーザに提供される場合は後述の実施の形態２、ＵＳＢメモリに記憶された情報がユーザに提供される場合は後述の実施の形態３で説明する。
また、音声認識機能付きシステムはどこに設置されても構わないが、実施の形態１では車載とした場合を例に説明する。

入出力部１は、映像、音声等の入出力を担う。入出力部１は、音声出力部１ａと映像出力部１ｂとリモコン操作入力部１ｃと音声入力部１ｄと入出力制御部１ｅとを有する。
音声出力部１ａは、電子機器２から入力された音声信号が示す音声、例えばデジタルテレビ放送の音声を出力して、ユーザに提供する。
映像出力部１ｂは、電子機器２から入力された映像信号が示す画面、例えばデジタルテレビ放送の画面を表示して、ユーザに提供する。

リモコン操作入力部１ｃは、ユーザが操作した不図示のリモコンからの赤外光を受信して、ユーザの操作内容である操作イベントを示す操作イベント信号を入出力制御部１ｅに出力する。
音声入力部１ｄは、音声を集音して、当該音声を示す入力音声信号を入出力制御部１ｅに出力する。音声入力部１ｄが集音する音声である入力音声が、音声認識の対象となる。
入出力制御部１ｅは、入出力部１と電子機器２との間での各種信号の入出力を制御する。

電子機器２は、デジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５という３つの映像音声源のいずれかを選択して切替える映像音声源の選択部として機能するとともに、音声認識処理等を行うものである。電子機器２は、音声伝送部２ａと映像伝送部２ｂと操作イベント伝送部２ｃと音響分析部２ｄと音響標準パターン記憶部２ｅと尤度計算部２ｆと共通操作用音声認識辞書２ｇとコンテンツ専用音声認識辞書２ｈと照合部２ｉと音声認識結果変換部２ｊとコンテンツ情報管理部２ｋと言語解析辞書２ｍと言語解析部２ｎと信号選択部２ｐとを有する。

音声伝送部２ａは、信号選択部２ｐからの音声信号を入出力部１へ出力する。
映像伝送部２ｂは、信号選択部２ｐからの映像信号を入出力部１へ出力する。
操作イベント伝送部２ｃは、リモコン操作入力部１ｃが出力して入出力部１から入力された操作イベント信号を取得し、信号選択部２ｐに出力する。

音響分析部２ｄは、音声入力部１ｄが出力して入出力部１から入力された入力音声信号を音響分析する。音響分析の結果は、尤度計算部２ｆに出力される。
音響標準パターン記憶部２ｅには、各音韻の標準的な音響分析の結果である音響標準パターンが、予め記憶されている。
尤度計算部２ｆは、音響標準パターン記憶部２ｅに記憶されている音響標準パターンと音響分析部２ｄから入力された音響分析の結果とを用いて、音声入力部１ｄが集音した入力音声がどの音韻から構成されていそうであるかが分かる尤度を計算する。計算された尤度は、照合部２ｉに出力される。

共通操作用音声認識辞書２ｇは、共通操作用の語彙についての文字列読み情報を記憶した音声認識辞書である。共通操作用の語彙とは、デジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とを音声操作する際に使用される予め決められた語彙であり、例えば、デジタルテレビ受信部３を音声操作する場合の共通操作用の語彙としては、「データ放送」、「チャンネル一覧」、「番組表」等がある。

コンテンツ専用音声認識辞書２ｈは、コンテンツ操作用の語彙についての文字列読み情報を記憶した音声認識辞書である。コンテンツ操作用の語彙とは、共通操作用の語彙のように予め決められた語彙とは異なり、映像出力部１ｂでコンテンツに依存して表示される画面に応じて文字列読み情報が動的に登録される語彙である。コンテンツ専用音声認識辞書２ｈへの文字列読み情報の登録処理については、図４を用いて後述する。
コンテンツ専用音声認識辞書２ｈは、映像音声源であるデジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とに一対一に対応して、デジタルテレビ受信部３用の第１コンテンツ専用音声認識辞書２１ｈと、光ディスク再生部４用の第２コンテンツ専用音声認識辞書２２ｈと、ＵＳＢメモリ再生部５用の第３コンテンツ専用音声認識辞書２３ｈとを有する。

共通操作用音声認識辞書２ｇとコンテンツ専用音声認識辞書２ｈは、同じ１つのメモリに作成されてもよいし、別個のメモリに作成されてもよい。別個のメモリに作成されるようにすれば、コンテンツ専用音声認識辞書２ｈを更新している最中にシステムの電源が喪失するなどの障害が発生しても、共通操作用音声認識辞書２ｇに悪影響が及ぶ恐れを小さくできる。

照合部２ｉは、尤度計算部２ｆから入力された尤度を用いて、音声入力部１ｄが集音した入力音声が、共通操作用音声認識辞書２ｇ又はコンテンツ専用音声認識辞書２ｈに文字列読み情報が記憶されている語彙であるかを判定する。また、記憶されている語彙である場合に、照合部２ｉは、音声認識結果を音声認識結果変換部２ｊに出力する。
音声認識結果変換部２ｊは、照合部２ｉから入力された音声認識結果を、リモコン操作入力部１ｃの出力と同様の、ユーザの操作内容である操作イベントを示す操作イベント信号に変換して信号選択部２ｐに出力する。
音響分析部２ｄと尤度計算部２ｆと照合部２ｉは、音声認識部を構成する。

コンテンツ情報管理部２ｋは、デジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とから、映像出力部１ｂで表示中のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）オブジェクトに関する情報であるコンテンツ情報を取得して、管理する。また、コンテンツ情報管理部２ｋは、コンテンツ情報に示される文字列を抽出して、言語解析部２ｎに出力する。
言語解析辞書２ｍは、表記と読みとの対応関係を数多く記憶した辞書である。
言語解析部２ｎは、言語解析辞書２ｍに記憶されている表記と読みとの対応関係を用いて、コンテンツ情報管理部２ｋから入力された文字列を言語解析し、コンテンツ専用音声認識辞書２ｈに登録すべき情報を生成する。

信号選択部２ｐは、デジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５という３つの映像音声源のいずれかを選択して、接続を切替える。図示のように、端子Ｓ１にデジタルテレビ受信部３を、端子Ｓ２に光ディスク再生部４を、端子Ｓ３にＵＳＢメモリ再生部５を対応させて、端子Ｓ１〜Ｓ３と端子Ｄ１との接続を切替えることで、３つの映像音声源のいずれかを選択する。

デジタルテレビ受信部３は、デジタルテレビ放送波を受信して電子機器２に映像信号及び音声信号を出力する処理等を行う。デジタルテレビ受信部３は、電波受信部３ａとデジタル復調部３ｂと情報分離部３ｃと音声デコード部３ｄと映像デコード部３ｅとデータ放送情報解析部３ｆと音声出力部３ｇと映像出力部３ｈとデータ放送ブラウザ３ｉと画面制御部３ｊとコンテンツ情報送信部３ｋと操作イベント管理部３ｍとを有する。

電波受信部３ａは、地上デジタルテレビ放送波を受信して、受信信号をデジタル復調部３ｂに出力する。
デジタル復調部３ｂは、電波受信部３ａから入力された受信信号をデジタル復調し、音声データ、映像データ、データ放送のデータ等、複数のデータが多重化されたデータ列を情報分離部３ｃに出力する。データ放送のデータには、ニュース、気象情報等に関するデータが含まれている。

情報分離部３ｃは、デジタル復調部３ｂから入力される多重化されたデータ列から、音声データ、映像データ、データ放送のデータ等を分離して、音声デコード部３ｄと映像デコード部３ｅとデータ放送情報解析部３ｆとに出力する。
音声デコード部３ｄは、情報分離部３ｃが出力した音声データをデコード処理して、音声出力部３ｇに出力する。
映像デコード部３ｅは、情報分離部３ｃが出力した映像データをデコード処理して、映像出力部３ｈに出力する。
データ放送情報解析部３ｆは、情報分離部３ｃが出力したデータ放送のデータを解析して、データ放送ブラウザ３ｉに出力する情報を抽出する。

音声出力部３ｇは、音声デコード部３ｄから入力されたデコード済みの音声データを音声信号として電子機器２に出力する。
映像出力部３ｈは、映像デコード部３ｅから入力されたデコード済みの映像データを映像信号として画面制御部３ｊに出力する
データ放送ブラウザ３ｉは、データ放送情報解析部３ｆから入力された情報を用いて、データ放送画面を示す映像信号を生成し、画面制御部３ｊに出力する。また、データ放送ブラウザ３ｉは、データ放送情報解析部３ｆから入力された情報を用いて、コンテンツ情報を生成し、コンテンツ情報送信部３ｋに出力する。
画面制御部３ｊは、映像出力部３ｈから入力された映像信号とデータ放送ブラウザ３ｉから入力された映像信号とを用いて、デジタルテレビ放送の画面を示す映像信号を生成し、電子機器２に出力する。

コンテンツ情報送信部３ｋは、データ放送ブラウザ３ｉから入力されたコンテンツ情報を電子機器２に送信する。
操作イベント管理部３ｍは、信号選択部２ｐを介して電子機器２から入力された操作イベント信号が示す操作イベントを、デジタルテレビ受信部３の各部に通知し、操作イベント信号に応じた処理を行わせる。

次に、入出力部１と電子機器２とデジタルテレビ受信部３のハードウェア構成例について説明する。
入出力部１は、電源供給回路、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、メモリ、入出力インタフェース回路等から構成される。具体的には、音声出力部１ａは、デジタルアナログ変換器を含むデジタルアナログ混在回路、スピーカ、当該スピーカを駆動するための周辺回路等で構成される。映像出力部１ｂは、液晶ディスプレイ等の表示器、当該表示器を駆動するための周辺回路等で構成される。リモコン操作入力部１ｃは、リモコンから出力される赤外光を受信するための赤外光受信機、当該受信機を駆動するための周辺回路等で構成される。音声入力部１ｄは、マイクロホン、当該マイクロホンを駆動するための周辺回路、アナログデジタル変換器を含むアナログデジタル混在回路等で構成される。入出力制御部１ｅは、デジタル信号のインタフェース回路等で構成される。

電子機器２は、電源供給回路、ＣＰＵ、メモリ、入出力インタフェース回路等から構成される。具体的には、音声伝送部２ａと映像伝送部２ｂと操作イベント伝送部２ｃとは、デジタル信号のインタフェース回路等で構成される。信号選択部２ｐは、スイッチを備えた回路等で構成される。
音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各機能は、処理回路により実現される。当該処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するＣＰＵであってもよい。ＣＰＵは、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）とも呼ばれる。

図２Ａは、音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の機能を、専用のハードウェアである処理回路１０１で実現した場合のハードウェア構成例を示す図である。処理回路１０１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはこれらを組み合わせたものが該当する。音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の機能を別個の処理回路１０１を組み合わせて実現してもよいし、各部の機能を１つの処理回路１０１で実現してもよい。

図２Ｂは、音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の機能を、メモリ１０２に格納されるプログラムを実行するＣＰＵ１０３で実現した場合のハードウェア構成例を示す図である。この場合、音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組合せにより実現される。ソフトウェア及びファームウェアはプログラムとして記述され、メモリ１０２に格納される。ＣＰＵ１０３は、メモリ１０２に格納されたプログラムを読み出して実行することにより、音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の機能を実現する。すなわち、電子機器２は、後述する図４、図８、図１１、図１４、図１７及び図２０のフローチャートで示す各ステップが結果的に実行されることになるプログラム等を格納するためのメモリ１０２を有する。また、これらのプログラムは、音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の手順又は方法をコンピュータに実行させるものであるとも言える。ここで、メモリ１０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）等の、不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等が該当する。

なお、音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉについては専用のハードウェアとしての処理回路でその機能を実現し、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋについては処理回路がメモリに格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組合せによって、上記の音響分析部２ｄ、尤度計算部２ｆ、照合部２ｉ、音声認識結果変換部２ｊ、コンテンツ情報管理部２ｋ、言語解析部２ｎの各部の機能を実現することができる。

また、音響標準パターン記憶部２ｅ、共通操作用音声認識辞書２ｇ、コンテンツ専用音声認識辞書２ｈ、言語解析辞書２ｍは、メモリ１０２と同様に各種の記録媒体で構成される。

デジタルテレビ受信部３は、電源供給回路、ＣＰＵ、メモリ、入出力インタフェース回路等から構成される。具体的には、電波受信部３ａは、アンテナ等で構成される。デジタル復調部３ｂと情報分離部３ｃと音声デコード部３ｄと映像デコード部３ｅとデータ放送情報解析部３ｆと映像出力部３ｈとデータ放送ブラウザ３ｉは、図２Ａ及び図２Ｂを用いて説明したのと同様に構成される。音声出力部３ｇとコンテンツ情報送信部３ｋは、デジタル信号のインタフェース回路等で構成される。画面制御部３ｊと操作イベント管理部３ｍは、デジタル信号のインタフェース回路を有しつつ、図２Ａ及び図２Ｂを用いて説明したのと同様に構成される。

次に、図１に示す音声認識機能付きシステムによる処理について説明する。
ユーザが不図示の電源ボタン等を押下すると、音声認識機能付きシステムの各部に電源が供給され、音声認識機能付きシステムは、ハードウェア及びソフトウェアを初期化して、予め設定されたデフォルトの状態とする。
続いて、電子機器２は、図１では不図示のＧＵＩ画面生成部を用いて、映像音声源をユーザに選択させるメニュー画面を示す映像信号を生成する。この映像信号は、映像伝送部２ｂを介して入出力部１に出力される。

入出力部１と電子機器２との間の映像信号及び音声信号の伝送は、例えばＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ、登録商標／以下、記載を省略する）を用いて実施する。ＨＤＭＩはデジタル家電向けのインタフェースであり、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）とディスプレイの接続標準規格であるＤＶＩ（ＤｉｇｉｔａｌＶｉｓｕａｌＩｎｔｅｒｆａｃｅ）を基に、音声伝送機能、デジタルコンテンツの不正コピー防止等の著作権保護機能、色差伝送機能を加えるなどしてＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）家電向けに改良されたものである。ＨＤＭＩは、非圧縮デジタル形式の音声信号と映像信号とを伝送し、音質、画質が理論的に伝送中に劣化することはない。

電子機器２から入出力部１に入力された、映像音声源をユーザに選択させるメニュー画面を示す映像信号は、入出力制御部１ｅを介して最終的に映像出力部１ｂに出力され、映像出力部１ｂは、映像音声源を選択させるメニュー画面を表示する。
続いて、ユーザは、映像出力部１ｂに表示された当該メニュー画面を見て、リモコン操作又は音声操作により、３つの映像音声源のうちいずれかを選択する。ユーザがリモコン操作を行う場合、リモコン操作入力部１ｃはリモコンからの赤外光を受けて操作イベント信号を入出力制御部１ｅに出力し、当該信号は入出力制御部１ｅを介して電子機器２に入力される。また、ユーザが音声操作を行う場合、音声入力部１ｄはユーザが発声した入力音声を集音して入力音声信号を入出力制御部１ｅに出力し、当該信号は入出力制御部１ｅを介して電子機器２に入力される。リモコン操作によって入出力部１から電子機器２に入力される操作イベント信号、及び、音声操作によって入出力部１から電子機器２に入力される入力音声信号は、いずれもユーザの操作イベントを示す操作信号である。

入出力部１と電子機器２との間の操作信号の伝送は、例えばＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）を用いて実施する。ＣＡＮは、車載環境での耐ノイズ性の強化を考慮して設計され、相互接続された機器間のデータ転送に使われる規格である。自動車においては、速度、エンジンの回転数、ブレーキの状態、故障診断の情報等の転送に使用されている。ドイツのボッシュ社が提唱し、その後、国際標準化機構がＩＳＯ１１８９８及びＩＳＯ１１５１９として標準化している。

入出力部１から電子機器２に入力された操作信号は、リモコン操作の場合、操作イベント伝送部２ｃを介して信号選択部２ｐに出力される。また、操作信号は、音声操作の場合、音響分析部２ｄと尤度計算部２ｆと照合部２ｉと音声認識結果変換部２ｊとで処理されて、操作イベント信号として信号選択部２ｐに出力される。

ユーザが映像音声源としてデジタルテレビ受信部３を選択した場合、信号選択部２ｐは、端子Ｄ１と端子Ｓ１とを接続した状態となる。同様に、ユーザが映像音声源として光ディスク再生部４を選択した場合、信号選択部２ｐは、端子Ｄ１と端子Ｓ２とを接続した状態となる。同様に、ユーザが映像音声源としてＵＳＢメモリ再生部５を選択した場合、信号選択部２ｐは、端子Ｄ１と端子Ｓ３とを接続した状態となる。
以上のようにして、デジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５という３つの映像音声源のいずれかが選択される。

ここで、デジタルテレビ受信部３によるデジタルテレビ放送の受信処理について説明する。実施の形態１では、地上デジタルテレビ放送波として、日本の地上デジタルテレビ放送波を受信する場合を例に挙げて説明する。
電波受信部３ａは、ＵＨＦ（ＵｌｔｒａＨｉｇｈＦｒｅｑｕｅｎｃｙ）帯の１３〜６２チャンネルで放送される地上デジタルテレビ放送波を受信して、受信信号をデジタル復調部３ｂに出力する。
続いて、デジタル復調部３ｂは、ユーザ所望のチャンネルに対応する受信信号を選択し、当該受信信号をデジタル復調してＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）にして、情報分離部３ｃに出力する。ＴＳは、ＭＰＥＧ−２規格及びＡＲＩＢ（ＡｓｓｏｃｉａｔｉｏｎｏｆＲａｄｉｏＩｎｄｕｓｔｒｉｅｓａｎｄＢｕｓｉｎｅｓｓｅｓ）標準規格に準拠して音声データ、映像データ、データ放送のデータ等の複数のデータを多重化したデータ列である。

続いて、情報分離部３ｃは、ＴＳ内に多重化されている各種のデータを、音声データと、映像データと、データ放送のデータとしてＤＳＭ−ＣＣ（ＤｉｇｉｔａｌＳｔｏｒａｇｅＭｅｄｉａ−ＣｏｍｍａｎｄａｎｄＣｏｎｔｒｏｌ）形式のデータとに分離して、音声デコード部３ｄと映像デコード部３ｅとデータ放送情報解析部３ｆとに出力する。

音声デコード部３ｄは、情報分離部３ｃが出力した音声データを解析して適当な方式でデコード処理し、音声出力部３ｇに出力する。音声出力部３ｇは、音声デコード部３ｄから入力されたデコード済みの音声データを音声信号として電子機器２に出力する。
映像デコード部３ｅは、情報分離部３ｃが出力した映像データを解析して適当な方式でデコード処理し、映像出力部３ｈに出力する。映像出力部３ｈは、映像デコード部３ｅから入力されたデコード済みの映像データを映像信号として画面制御部３ｊに出力する。映像デコード部３ｅが出力する映像信号が示す映像は、例えば後述の図３に示す画面であれば、領域ａである番組映像部分に対応する。

データ放送情報解析部３ｆは、情報分離部３ｃが出力したＤＳＭ−ＣＣ形式のデータを解析し、当該データ中に含まれるＢＭＬ（ＢｒｏａｄｃａｓｔＭａｒｋｕｐＬａｎｇｕａｇｅ）情報を抽出してデータ放送ブラウザ３ｉに出力する。データ放送ブラウザ３ｉは、ＢＭＬ情報を解析して、データ放送画面を示す映像信号を生成し、画面制御部３ｊに出力する。データ放送画面は、例えば後述の図３に示す画面であれば、領域ａである番組映像部分を除く部分に相当する。

続いて、画面制御部３ｊは、映像出力部３ｈから入力された映像信号とデータ放送ブラウザ３ｉから入力された映像信号とを用いて、図３に示すような１枚のデジタルテレビ放送の画面を示す映像信号を生成する。領域ａには、選局中のチャンネルの番組映像が表示される。領域ｂには、選局中のチャンネル名が表示され、領域ｃには、現在の日付及び時刻が表示され、領域ｄには、領域ａで表示中の番組名が表示される。また、それぞれ「ニュース」、「気象情報」、「警報・災害情報」、「地域情報」という文字列が付けられたボタンＡ〜Ｄは、ユーザの操作対象となるＧＵＩオブジェクトであり、ユーザがリモコンを用いてボタンＡ〜Ｄを押下するなどすると、ニュース、気象情報等の各項目について詳細な情報が示されたデータ放送画面へと遷移する。選局中のチャンネル、表示中の番組、季節等に応じて、地上デジタルテレビ放送波により配信されるデータ放送というコンテンツの内容が様々に変わることから、図３に示すデータ放送画面の内容も、選局中のチャンネル、表示中の番組、季節等に応じて様々に変わる。つまり、ボタンＡ〜Ｄは、コンテンツに依存して生成された操作対象である。
画面制御部３ｊが生成した映像信号は、電子機器２に出力される。

電子機器２とデジタルテレビ受信部３との間の映像信号及び音声信号の伝送は、例えばＨＤＭＩを用いて実施する。
デジタルテレビ受信部３から電子機器２に入力された音声信号は、音声伝送部２ａを介して、また、デジタルテレビ受信部３から電子機器２に入力された映像信号は、映像伝送部２ｂを介して、入出力部１に出力される。その際、必要に応じて音声伝送部２ａは、入力された音声信号にサンプリング周波数変換等を施し、入出力部１で処理可能な形式にして出力する。同様に、必要に応じて映像伝送部２ｂは、入力された映像信号に解像度の変換、インターレース方式とプログレッシブ方式間の変換等を施し、入出力部１で処理可能な形式にして出力する。

なお、電子機器２とデジタルテレビ受信部３との間では、映像信号及び音声信号以外の信号も互いに伝送されており、こうした信号の伝送には、例えばＣＡＮを用いる。

次に、デジタルテレビ受信部３で受信したデジタルテレビ放送がユーザに提供されている場合、つまり、信号選択部２ｐが端子Ｄ１と端子Ｓ１とを接続した状態となっている場合の、コンテンツ専用音声認識辞書２ｈへの文字列読み情報の登録処理について、図４に示すフローチャートを用いて説明する。

まず、コンテンツ情報管理部２ｋが、入出力部１でデータ放送画面を表示中かを判定する（ステップＳＴ１）。例えば、コンテンツ情報管理部２ｋは、デジタルテレビ受信部３に対して、データ放送画面が表示されるような映像信号を電子機器２に出力しているかを問い合わせる。番組表画面及びチャンネル一覧画面等が入出力部１で表示されている場合は、データ放送画面は表示されない。チャンネル一覧画面は、選局可能なチャンネルを一覧で示した画面である。
デジタルテレビ受信部３は、画面制御部３ｊが生成した映像信号を電子機器２に出力している。また、データ放送画面を示す映像信号は、データ放送ブラウザ３ｉで生成されて、画面制御部３ｊに出力されている。画面制御部３ｊは、データ放送ブラウザ３ｉが出力したデータ放送画面を示す映像信号を用いて映像信号を生成している場合に、データ放送画面が表示されるような映像信号を電子機器２に出力している旨を、また、そうでない場合にはその旨を、電子機器２に通知する。

入出力部１でデータ放送画面を表示中ではない場合（ステップＳＴ１；ＮＯ）、コンテンツ情報管理部２ｋが、デジタルテレビ受信部３用の第１コンテンツ専用音声認識辞書２１ｈに登録されている文字列読み情報等を破棄する（ステップＳＴ２）。具体的には、第１コンテンツ専用音声認識辞書２１ｈとして割り付けられているメモリ領域を初期化する。

一方、入出力部１でデータ放送画面を表示中である場合（ステップＳＴ１；ＹＥＳ）、コンテンツ情報管理部２ｋが、第１コンテンツ専用音声認識辞書２１ｈが作成済みかを判定する（ステップＳＴ３）。第１コンテンツ専用音声認識辞書２１ｈが作成済みとは、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報がなにかしら登録されている状態を指す。例えば、第１コンテンツ専用音声認識辞書２１ｈが作成されると設定され、ステップＳＴ２のように初期化されると消去されるフラグをコンテンツ専用音声認識辞書２ｈに用意しておく。コンテンツ情報管理部２ｋは、このフラグに基づき、第１コンテンツ専用音声認識辞書２１ｈが作成済みかを判定する。あるいは、第１コンテンツ専用音声認識辞書２１ｈとして割り付けられているメモリ領域に情報が書き込まれているか否かに基づき、判定してもよい。

第１コンテンツ専用音声認識辞書２１ｈが作成済みではない場合（ステップＳＴ３；ＮＯ）、後述のステップＳＴ５の処理に移行する。
一方、第１コンテンツ専用音声認識辞書２１ｈが作成済みの場合（ステップＳＴ３；ＹＥＳ）、コンテンツ情報管理部２ｋが、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が前回登録された時点から、データ放送画面の表示内容が更新されたかを判定する（ステップＳＴ４）。例えば、コンテンツ情報管理部２ｋは、デジタルテレビ受信部３に対して、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が前回登録された際の時刻を通知するとともに、データ放送画面の表示内容の更新の有無を問い合わせる。このために、コンテンツ情報管理部２ｋは、後述のステップＳＴ７のように第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が登録される度に、その時刻を記憶する。デジタルテレビ受信部３では、データ放送画面を示す映像信号をデータ放送ブラウザ３ｉが生成している。データ放送ブラウザ３ｉは、データ放送画面を示す映像信号を生成し直す度にその時刻を記憶しており、当該時刻とコンテンツ情報管理部２ｋが通知する時刻とを比較して、データ放送画面の表示内容の更新の有無を電子機器２に通知する。

例えば、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が前回登録された時点では、図３に示すデータ放送画面が表示されており、その後ユーザが「ニュース」のボタンＡを押下する操作を行った場合は、ニュースについて詳細な情報が示されたデータ放送画面へと遷移するので、データ放送画面の表示内容が更新されたことになる。

データ放送画面の表示内容が更新されていない場合（ステップＳＴ４；ＮＯ）、作成済みの第１コンテンツ専用音声認識辞書２１ｈは更新不要であるため、処理を終了する。
一方、データ放送画面の表示内容が更新されている場合（ステップＳＴ４；ＹＥＳ）、コンテンツ情報管理部２ｋが、データ放送というコンテンツに依存して生成され、操作対象となる表示中のＧＵＩオブジェクトに関する情報であるコンテンツ情報を取得する（ステップＳＴ５）。図３の画面例であれば、コンテンツに依存して生成され、操作対象となる表示中のＧＵＩオブジェクトは、「ニュース」、「気象情報」、「警報・災害情報」、「地域情報」の４つのボタンＡ〜Ｄが該当する。
コンテンツ情報管理部２ｋは、デジタルテレビ受信部３に対して、コンテンツ情報の送信を要求する。要求を受けると、データ放送ブラウザ３ｉは、図５に示す表の情報を含んだコンテンツ情報を生成する。

図５における「ＩＤ番号」列の情報は、操作対象となるＧＵＩオブジェクトの識別番号である。
「オブジェクト種類」列の情報は、ＧＵＩオブジェクトの種類を示し、図３の画面例では全て文字列付きボタンである。ＧＵＩオブジェクトの種類としては、文字列付きボタン以外にも、図付きボタン、チェックボックス、スクロール可能なテキストボックス等がある。なお、図３中の領域ｂ〜ｄに示されているのは、文字列付きラベルであるので、操作対象とはならず、たとえユーザがリモコン操作により押下したとしても、画面の遷移等の変化は何ら起こらない。

「キャプション文字列」列の情報は、ＧＵＩオブジェクトに付けられている文字列の情報を示し、文字列付きボタンの場合、ボタン上に表示される文字列に該当する。
「対応する操作イベント」列の情報は、照合部２ｉが出力する音声認識結果が「ＩＤ番号」列の何れかに該当する場合に、電子機器２がデジタルテレビ受信部３へ送信する操作イベント信号で示すべき操作イベントである。

データ放送ブラウザ３ｉは、そもそも、ＢＭＬ情報を解析してＧＵＩオブジェクトを含むデータ放送画面を示す映像信号を生成するものであるので、その際に同時にコンテンツ情報を生成することが可能である。

なお、入出力部１で表示されないＧＵＩオブジェクトに関してまでコンテンツ情報を生成する必要性は低いので、データ放送ブラウザ３ｉは、コンテンツ情報を生成する際に、ＧＵＩオブジェクトが入出力部１で表示されるか否かを判定する。例えば、ユーザにより画面スクロール等の操作が行われると、一部のＧＵＩオブジェクトが表示から外れる場合がある。
例えば図６に示すように、座標（０，０）を左下端点、座標（Ｘａ，Ｙａ）を右上端点とする長方形Ｅを映像出力部１ｂの全表示領域とし、また、座標（Ｘｂ，Ｙｂ）を左下端点、座標（Ｘｃ，Ｙｃ）を右上端点とする長方形Ｆを、図３に示すボタンＡ〜ＤのようなＧＵＩオブジェクトとする。

データ放送ブラウザ３ｉは、（０≦Ｘｂ）かつ（Ｘｃ≦Ｘａ）かつ（０≦Ｙｂ）かつ（Ｙｃ≦Ｙａ）であるか否かを評価して、長方形Ｆで示すＧＵＩオブジェクトが入出力部１で表示されるか否かを判定すればよい。ここで、（Ｘｂ＜Ｘｃ）かつ（Ｙｂ＜Ｙｃ）は、暗黙の前提条件である。評価結果が「真」の場合、長方形Ｆで示すＧＵＩオブジェクトは、長方形Ｅで示す全表示領域の中にあることになる。一方、評価結果が「偽」の場合、長方形Ｆで示すＧＵＩオブジェクトの一部又は全部が、長方形Ｅで示す全表示領域の外にあることになる。従って、データ放送ブラウザ３ｉは、評価結果が「真」であるＧＵＩオブジェクトのみを対象に、コンテンツ情報を生成する。

データ放送ブラウザ３ｉは、以上のようにして生成したコンテンツ情報をコンテンツ情報送信部３ｋへ出力し、コンテンツ情報送信部３ｋを介してコンテンツ情報管理部２ｋはコンテンツ情報を取得する。

コンテンツ情報管理部２ｋは、コンテンツ情報を取得すると「ＩＤ番号」に示された識別番号及び「キャプション文字列」に示された文字列を抽出して言語解析部２ｎに出力し、言語解析部２ｎは、コンテンツ情報管理部２ｋから入力された文字列について言語解析辞書２ｍを用いた言語解析を行い、文字列読み情報を生成する（ステップＳＴ６）。
図５に示すコンテンツ情報の場合、図７に示すように「ＩＤ番号」及び「キャプション文字列」と紐付けられた「文字列読み情報」が、言語解析部２ｎによって生成される。

言語解析辞書２ｍは、表記と読みとの対応関係を数多く記憶した辞書である。ここでの表記は、文字列を構成する部分文字列を意味する。
言語解析部２ｎは、言語解析辞書２ｍを用いて、コンテンツ情報管理部２ｋから入力された「キャプション文字列」に示された文字列を、部分文字列に分割する。例えば、「気象情報」という文字列であれば、「気象」と「情報」という２つの部分文字列に分割する。そして、さらに言語解析部２ｎは、言語解析辞書２ｍを用いて、分割した部分文字列それぞれに対して読み情報を割り当てる。例えば、「気象」という部分文字列に対して「きしょう」という読み情報を割り当て、「情報」という部分文字列に対して「じょうほう」という読み情報を割り当てる。部分文字列それぞれの読み情報を合体して、言語解析部２ｎは、「文字列読み情報」を生成する。

なお、「キャプション文字列」で示す文字列から「文字列読み情報」を生成する方法については、特開２００９−２５８２９３号公報に記載の「音声認識語彙辞書作成装置」、特開２００２−４１０８１号公報に記載の「音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体」等に詳細に開示されており、実施の形態１でもこれらの文献に示された方法と同様の処理を適宜採用すればよい。もちろん、これらの文献以外の方法を採用しても構わない。
また、言語解析部２ｎが生成するのは、図７に示すような文字列読み情報に限らず、異なる文字列を読む音声を識別可能な情報であればよい。文字列読み情報は、文字列について、当該文字列を読む音声に結びつく特徴情報の一例として示した。

続いて、言語解析部２ｎが、「ＩＤ番号」と「文字列読み情報」とを紐付けた状態で、第１コンテンツ専用音声認識辞書２１ｈに登録する（ステップＳＴ７）。このとき、第１コンテンツ専用音声認識辞書２１ｈに既に何らかの「ＩＤ番号」と「文字列読み情報」とが登録されている場合、それらを削除したうえで登録処理を行い、第１コンテンツ専用音声認識辞書２１ｈを更新する。これにより、第１コンテンツ専用音声認識辞書２１ｈに前回登録したＩＤ番号及び文字列読み情報を置き換える。
以上のようにして、第１コンテンツ専用音声認識辞書２１ｈに、データ放送というコンテンツに依存して生成されて入出力部１の映像出力部１ｂで表示されており、かつ操作対象となるＧＵＩオブジェクトのみに限って、当該ＧＵＩオブジェクトに付けられた文字列の文字列読み情報が登録される。

次に、データ放送画面をユーザが音声操作する場合の処理について、図８に示すフローチャートを用いて説明する。
なお、入力音声を音響分析し、分析結果に基づいて入力音声を認識する方法については、上記の特開２００２‐４１０８１号公報等に開示されており、以下では詳細な説明を省略する。
ユーザが図３に示すようなデータ放送画面を見て、例えば「ニュース」と発声すると、ユーザが発声した入力音声は、音声入力部１ｄで集音され、入力音声信号として入出力制御部１ｅに出力される。音響分析部２ｄは、入出力制御部１ｅを介して、入力音声信号を取得し、音響分析を行う（ステップＳＴ１０）。音響分析の結果は、尤度計算部２ｆに出力される。

具体的には例えば、音響分析部２ｄは、入力音声信号を２０ミリ秒〜４０ミリ秒程度の短い時間間隔のフレーム単位で周波数分析し、音声の周波数的な特徴を示す周波数パラメータの時系列を生成する。そして、音響分析部２ｄは、音響分析の結果として、生成した周波数パラメータの時系列を尤度計算部２ｆへ出力する。

続いて、尤度計算部２ｆが、入力された周波数パラメータの時系列と比較するために、音響標準パターン記憶部２ｅに記憶されている音韻毎の音響標準パターンを読み出す（ステップＳＴ１１）。音韻毎の音響標準パターンとは、各音韻の代表的な周波数パラメータである。

続いて、尤度計算部２ｆが、読み出した音韻毎の音響標準パターンと周波数パラメータの時系列をフレーム単位で比較して、入力音声の各フレームが、どの音韻に、どの程度似ているかを表す尤度を計算する（ステップＳＴ１２）。計算されたフレーム毎の尤度は、照合部２ｉに出力される。

続いて、照合部２ｉが、共通操作用音声認識辞書２ｇに記憶されている全ての文字列読み情報を読み出す（ステップＳＴ１３）。

続いて、照合部２ｉが、入力音声が共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている語彙であるか、つまり入力音声が共通操作用であるかを判定する（ステップＳＴ１４）。
具体的には、照合部２ｉが、入力されたフレーム毎の尤度を、共通操作用音声認識辞書２ｇに記憶されている全ての文字列読み情報と照合し、共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている全ての語彙に対する類似度を計算する。そして、照合部２ｉは、計算した類似度が最大の語彙を抽出し、当該語彙の類似度が設定値以上の場合に、入力音声が共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている語彙であると判定する。

入力音声が、共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている語彙である場合（ステップＳＴ１４；ＹＥＳ）、後述のステップＳＴ１８の処理に移行する。
一方、入力音声が、共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている語彙でない場合（ステップＳＴ１４；ＮＯ）、照合部２ｉが、第１コンテンツ専用音声認識辞書２１ｈに記憶されている全ての文字列読み情報を読み出す（ステップＳＴ１５）。
第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている語彙は、例えば図７の表に示すような文字列読み情報として記憶されている４つの語彙であり、データ放送画面に表示中のＧＵＩオブジェクトを音声操作するための語彙である。

続いて、照合部２ｉが、入力音声が第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている語彙であるか、つまり入力音声がコンテンツ操作用であるかを判定する（ステップＳＴ１６）。
具体的には、照合部２ｉが、入力されたフレーム毎の尤度を、第１コンテンツ専用音声認識辞書２１ｈに記憶されている全ての文字列読み情報と照合し、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている全ての語彙に対する類似度を計算する。そして、照合部２ｉは、計算した類似度が最大の語彙を抽出し、当該語彙の類似度が設定値以上の場合に、入力音声が第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている語彙であると判定する。

入力音声が、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている語彙でない場合（ステップＳＴ１６；ＮＯ）、電子機器２は、音声認識の失敗を示す音声信号又は映像信号を入出力部１に出力する（ステップＳＴ１７）。これにより、音声認識に失敗した旨が、音声又は映像でユーザに報知される。そして、電子機器２は、次の入力音声に備える。

一方、入力音声が、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている語彙である場合（ステップＳＴ１６；ＹＥＳ）、又は、入力音声が、共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている語彙である場合（ステップＳＴ１４；ＹＥＳ）、照合部２ｉが、音声認識結果を音声認識結果変換部２ｊに出力し、音声認識結果変換部２ｊが、入力された音声認識結果を操作イベント信号に変換して出力する（ステップＳＴ１８）。

例えば、入力音声が「ニュース」である場合を例に説明する。照合部２ｉは、第１コンテンツ専用音声認識辞書２１ｈを用いて、「ニュース」に対応するＩＤ番号を音声認識結果として出力する。音声認識結果変換部２ｊは、コンテンツ情報管理部２ｋが管理するコンテンツ情報を用いて、音声認識結果であるＩＤ番号に対応する操作イベントを特定し、当該操作イベントを示す操作イベント信号をデジタルテレビ受信部３に出力する。この場合、「ボタンＡ押下」を示す操作イベント信号を出力する。この操作イベント信号は、リモコン操作により「ニュース」のＧＵＩオブジェクトを押下した場合にデジタルテレビ受信部３に出力される操作イベント信号と同様のものである。

音声認識結果変換部２ｊが出力した操作イベント信号は、操作イベント管理部３ｍに入力される。操作イベント管理部３ｍは、操作イベント信号が示す操作イベントをデータ放送ブラウザ３ｉに通知し、データ放送ブラウザ３ｉは、ニュースについて詳細な情報が示されたデータ放送画面を示す映像信号を生成する。
データ放送ブラウザ３ｉが生成したこの映像信号は、画面制御部３ｊにて映像出力部３ｈが出力する映像信号と合成されて、１枚のデジタルテレビ放送の画面を示す映像信号が電子機器２を介して入出力部１に入力される。
以上のようにして、ユーザは、音声によってデータ放送画面を操作する。

以上のように、この実施の形態１に係る電子機器２によれば、コンテンツ情報管理部２ｋは、データ放送というコンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得し、言語解析部２ｎは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第１コンテンツ専用音声認識辞書２１ｈに登録する。そして、照合部２ｉは、共通操作用音声認識辞書２ｇに加えて第１コンテンツ専用音声認識辞書２１ｈを用いて、入力音声を対象に音声認識を行う。
文字列として画面に表示されてユーザに報知されている語彙が、音声認識の対象となるので、ユーザにとっては音声操作をする場合にどのような語彙を発声すればよいのかが分かりやすく、操作性の良い音声認識を提供することができる。
また、コンテンツに依存して生成された表示中の操作対象に付けられている文字列について第１コンテンツ専用音声認識辞書２１ｈに動的に登録することで、コンテンツによる表示内容が事前に分からなくとも、任意のコンテンツを音声操作するのに必要な情報が第１コンテンツ専用音声認識辞書２１ｈに登録される。
また、表示中の操作対象に限って、付けられている文字列について第１コンテンツ専用音声認識辞書２１ｈに登録するので、文字列読み情報が登録される語彙があまり増大せず、語彙数の増大に伴う音声認識の誤認識が少なくなる。

また、コンテンツ情報管理部２ｋは、表示内容が更新されるたびに、操作対象に付けられている文字列の情報を取得し、言語解析部２ｎは、表示内容が更新されてコンテンツ情報管理部２ｋが取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成し、当該文字列読み情報で第１コンテンツ専用音声認識辞書２１ｈに前回登録した文字列読み情報を置き換えることとした。表示内容が更新される度に、第１コンテンツ専用音声認識辞書２１ｈも更新されるので、常に適切な音声操作が可能となる。また、第１コンテンツ専用音声認識辞書２１ｈの更新により、前回登録された文字列読み情報は削除されるので、文字列読み情報が登録される語彙が累積的に増大せず、語彙数の増大に伴う音声認識の誤認識が少なくなる。

また、照合部２ｉによる音声認識結果を、ユーザの操作内容である操作イベントを示す操作イベント信号に変換する音声認識結果変換部２ｊを備え、コンテンツ情報管理部２ｋは、コンテンツに依存して生成された表示中の操作対象が操作された場合に出力される操作イベント信号で示される操作イベントの情報を取得し、音声認識結果変換部２ｊは、当該情報を用いて、照合部２ｉによる音声認識結果を、対応する操作イベントを示す操作イベント信号に変換することとした。コンテンツ情報管理部２ｋが、操作対象が操作された場合に出力される操作イベント信号で示される操作イベントの情報を取得することで、各種の制御仕様に準拠したデジタルテレビ受信部３等の映像音声源を電子機器２に接続する場合でも、電子機器２の仕様を接続する映像音声源の制御仕様に合わせて変更する必要がなくなる。

また、コンテンツに依存せずに生成される操作対象に対応する音声に結びつく文字列読み情報を記憶する共通操作用音声認識辞書２ｇと、言語解析部２ｎが生成した文字列読み情報を記憶するコンテンツ専用音声認識辞書２ｈとを、別個のメモリに有することとした。このようにすると、コンテンツ専用音声認識辞書２ｈを更新している最中にシステムの電源が喪失するなどの障害が発生しても、共通操作用音声認識辞書２ｇに悪影響が及ぶ恐れを小さくできる。また、共通操作用音声認識辞書２ｇについては内容を更新する必要がなくなるので、共通操作用音声認識辞書２ｇをＲＯＭ等の安価なメモリで構成でき、システムの製造コストを低減できる。

実施の形態２．
図９に、この発明の実施の形態２に係る音声認識機能付き電子機器２の構成を示す。図９では、電子機器２が、入出力部１とデジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とに接続して音声認識機能付きシステムを構成している場合を示している。なお、実施の形態２では、光ディスクに記憶された情報が入出力部１からユーザに提供される場合を例に説明するので、煩雑さを避けるためにデジタルテレビ受信部３及びＵＳＢメモリ再生部５の構成は簡略化している。
実施の形態２は、ユーザに提供されるのが光ディスクに記憶された情報である点で実施の形態１と異なり、図９に示す構成のうち、図１と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。

光ディスク再生部４は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ、登録商標／以下、記載を省略する）等の光ディスクに記録されたコンテンツを再生する処理等を行う。光ディスク再生部４は、ディスク制御部４ａとディスク情報読み出し部４ｂと情報分離部４ｃと音声デコード部４ｄと映像デコード部４ｅとメディアコンテンツデコード部４ｆと音声出力部４ｇと映像出力部４ｈとメディアコンテンツ実行部４ｉと画面制御部４ｊとコンテンツ情報送信部４ｋと操作イベント管理部４ｍとを有する。

ディスク制御部４ａは、光ディスクの挿抜、回転等を制御する。
ディスク情報読み出し部４ｂは、光ディスクに記録された情報を読み出し、読み出した情報を情報分離部４ｃに出力する。
情報分離部４ｃは、ディスク情報読み出し部４ｂが出力した情報に多重化されている、コンテンツの音声データ、コンテンツの映像データ、コンテンツの映像音声以外のデータ等の各データを分離し、音声デコード部４ｄと映像デコード部４ｅとメディアコンテンツデコード部４ｆとに出力する。

音声デコード部４ｄは、情報分離部４ｃが出力したコンテンツの音声データをデコード処理して、音声出力部４ｇに出力する。
映像デコード部４ｅは、情報分離部４ｃが出力したコンテンツの映像データをデコード処理して、映像出力部４ｈに出力する。
メディアコンテンツデコード部４ｆは、情報分離部４ｃが出力したコンテンツの映像音声以外のデータをデコード処理して、メディアコンテンツ実行部４ｉに出力する。

音声出力部４ｇは、音声デコード部４ｄから入力されたデコード済みの音声データを音声信号として電子機器２に出力する。
映像出力部４ｈは、映像デコード部４ｅから入力されたデコード済みの映像データを映像信号として画面制御部４ｊに出力する。
メディアコンテンツ実行部４ｉは、メディアコンテンツデコード部４ｆから入力されたデコード済みの映像音声以外のデータに応じてディスクメニュー画面等を示す映像信号を生成するなどし、画面制御部４ｊに出力する。また、メディアコンテンツ実行部４ｉは、コンテンツ情報を生成し、コンテンツ情報送信部４ｋに出力する。
画面制御部４ｊは、映像出力部４ｈから入力された映像信号とメディアコンテンツ実行部４ｉから入力された映像信号とを用いて、１枚の表示用画面を示す映像信号を生成し、電子機器２に出力する。

コンテンツ情報送信部４ｋは、メディアコンテンツ実行部４ｉから入力されたコンテンツ情報を電子機器２に送信する。
操作イベント管理部４ｍは、信号選択部２ｐを介して電子機器２から入力された操作イベント信号が示す操作イベントを、光ディスク再生部４の各部に通知し、操作イベント信号に応じた処理を行わせる。

メディアコンテンツ実行部４ｉは、ＢＤに記録されたＪａｖａ（登録商標／以下、記載を省略する）機能を使用したコンテンツを実行するＢＤ−Ｊ（Ｂｌｕ−ｒａｙＤｉｓｃ−Ｊａｖａ）実行部４１ｉと、ＢＤに記録されたＪａｖａ機能を使用しないコンテンツを実行するＨＤＭＶ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｏｖｉｅ）実行部４２ｉと、ＤＶＤのメニュー機能等を実行するＤＶＤナビゲーション実行部４３ｉとを有する。

ＢＤ−Ｊ及びＨＤＭＶは、ＢＤに映画等のコンテンツを記録する際に使われる規格であり、その規格は「ＳｙｓｔｅｍＤｅｓｃｒｉｐｔｉｏｎＢｌｕ−ｒａｙＤｉｓｃＲｅａｄ−ＯｎｌｙＦｏｒｍａｔ，Ｐａｒｔ３ＡｕｄｉｏＶｉｓｕａｌＢａｓｉｃＳｐｅｃｉｆｉｃａｔｉｏｎｓ，Ｖｅｒｓｉｏｎ２．４ｆｏｒ２Ｄ，Ｄｅｃｅｍｂｅｒ２００９」で定義される。ＢＤ−Ｊは、Ｊａｖａ機能を使った高度なインタラクティブ機能を追加することができ、ＨＤＭＶはＪａｖａ機能を使わずにＤＶＤとの親和性がより高いという特徴がある。
また、ＤＶＤに関する規格は、「再生専用ディスクＤＶＤ規格，パート３ビデオ規格（邦訳），バージョン１．０」で定義される。

光ディスク再生部４は、電源供給回路、ＣＰＵ、メモリ、入出力インタフェース回路等から構成される。具体的には、ディスク制御部４ａは、光ディスクを回転させる制御モーター、光学的ピックアップ、光ディスクの回転数及び光学的ピックアップの位置等を制御する制御回路等で構成される。ディスク情報読み出し部４ｂは、光学的ピックアップが出力する電気信号をデジタル化するデジタルインタフェース回路、デジタル化したデータを一時的に蓄積するデジタルメモリ回路を有しつつ、図２Ａ及び図２Ｂを用いて説明したのと同様に構成される。情報分離部４ｃと音声デコード部４ｄと映像デコード部４ｅとメディアコンテンツデコード部４ｆと映像出力部４ｈとメディアコンテンツ実行部４ｉは、図２Ａ及び図２Ｂを用いて説明したのと同様に構成される。音声出力部４ｇとコンテンツ情報送信部４ｋは、デジタル信号のインタフェース回路等で構成される。画面制御部４ｊと操作イベント管理部４ｍは、デジタル信号のインタフェース回路を有しつつ、図２Ａ及び図２Ｂを用いて説明したのと同様に構成される。

次に、信号選択部２ｐが端子Ｄ１と端子Ｓ２とを接続した状態となっており、光ディスク再生部４が光ディスクを再生する場合の処理について説明する。当該処理は、光ディスクを再生する場合の処理として周知の処理と概ね同様であるので、以下では簡単な説明に留める。

ディスク制御部４ａは、ＢＤ、ＤＶＤ等の光ディスクがディスクスロット又はディスクトレーに挿入されると、光ディスクを回転させ、光ピックアップの位置を制御して、光ディスクに記録されている情報を読み出せる状態にする。
続いて、ディスク情報読み出し部４ｂは、光ディスクに記録されている情報を読み出し、その情報のデータ構造等に基づいて、ＢＤ、ＤＶＤ等、挿入された光ディスクの種類を判定する。そして、ディスク情報読み出し部４ｂは、判定した光ディスクの種類に応じて、読み出した情報を整列してデジタルメモリ回路に記録する。整列された情報は、情報分離部４ｃに出力される。

続いて、情報分離部４ｃは、ディスク情報読み出し部４ｂが読み出した情報から、音声データ、映像データ、映像音声以外のデータ等を分離して、音声デコード部４ｄと映像デコード部４ｅとメディアコンテンツデコード部４ｆとに出力する。挿入された光ディスクがＤＶＤの場合、前述したＤＶＤ規格で定義された論理データ構造中に音声データ、映像データ、ディスクメニュー画面のデータ等が格納されている。挿入された光ディスクがＢＤの場合、前述したＢＤ−Ｊ、ＨＤＭＶに関する規格に準拠したＴＳ内に音声データ、映像データ、ディスクメニュー画面のデータ等が格納されている。なお、ＴＳというデータの枠組み、いわゆるコンテナ自体は、実施の形態１で説明したデジタルテレビ放送の場合と同様であるが、格納されているデータ仕様はＢＤ向けであり、デジタルテレビ放送向けのデータ仕様とは異なっている。

音声デコード部４ｄは、情報分離部４ｃが出力した音声データを解析して適当な方式でデコード処理し、音声出力部４ｇに出力する。音声出力部４ｇは、音声デコード部４ｄから入力されたデコード済みの音声データを音声信号として電子機器２に出力する。
映像デコード部４ｅは、情報分離部４ｃが出力した映像データを解析して適当な方式でデコード処理し、映像出力部４ｈに出力する。映像出力部４ｈは、映像デコード部４ｅから入力されたデコード済みの映像データを映像信号として画面制御部４ｊに出力する。

メディアコンテンツデコード部４ｆは、ディスクメニュー画面のデータ等、情報分離部４ｃが出力した音声データ及び映像データ以外のデータを解析してデコード処理し、メディアコンテンツ実行部４ｉに出力する。

続いて、メディアコンテンツ実行部４ｉは、メディアコンテンツデコード部４ｆが出力したディスクメニュー画面のデータ等を、光ディスクの種類及び再生対象のコンテンツの種類等に応じて、ＢＤ−Ｊ実行部４１ｉとＨＤＭＶ実行部４２ｉとＤＶＤナビゲーション実行部４３ｉとで処理する。
例えば、挿入された光ディスクがＢＤであり、再生対象のコンテンツがＢＤ−Ｊアプリケーションの場合、メディアコンテンツ実行部４ｉは、メディアコンテンツデコード部４ｆからのデータをＢＤ−Ｊ実行部４１ｉで処理する。また、挿入された光ディスクがＢＤであり、再生対象のコンテンツがＨＤＭＶアプリケーションの場合、メディアコンテンツ実行部４ｉは、メディアコンテンツデコード部４ｆからのデータをＨＤＭＶ実行部４２ｉで処理する。また、挿入された光ディスクがＤＶＤの場合、メディアコンテンツ実行部４ｉは、メディアコンテンツデコード部４ｆからのデータをＤＶＤナビゲーション実行部４３ｉで処理する。

ＢＤ−Ｊ実行部４１ｉとＨＤＭＶ実行部４２ｉとＤＶＤナビゲーション実行部４３ｉは、メディアコンテンツデコード部４ｆから入力されたデータに応じて、ディスクメニュー画面、字幕等を示す映像信号を生成し、画面制御部４ｊに出力する。
続いて、画面制御部４ｊは、映像出力部４ｈから入力された映像信号とメディアコンテンツ実行部４ｉから入力された映像信号とを用いて、１枚の表示用画面を示す映像信号を生成する。画面制御部４ｊが生成した映像信号は、電子機器２に出力される。

図１０は、画面制御部４ｊが生成する映像信号が示す表示用画面の一例を示している。図１０に示すのは、ＤＶＤ、ＢＤ等の再生開始時に最初に表示されるディスクメニュー画面の例であり、メディアコンテンツ実行部４ｉが出力する映像信号が示す画面に等しい。図１０において、「Ｐｌａｙ」と「Ｓｃｅｎｅｓ」と「ＳｅｔＵｐ」と「ＳｐｅｃｉａｌＦｅａｔｕｒｅｓ」という文字列が付けられた４つのボタンＧ〜Ｊは、ユーザの操作対象となるＧＵＩオブジェクトであり、ユーザがリモコンを用いてボタンＧ〜Ｊを押下するなどすると、ボタンに割り当てられた機能が各々開始される。

例えば、「Ｐｌａｙ」ボタンＧが押下されると、本編の映画が再生される。また、「Ｓｃｅｎｅｓ」ボタンＨが押下されると、本編の映画における代表的なシーンをリスト表示する画面に遷移し、ユーザがいずれかのシーンを選択すると、そのシーンが表示される。また、「ＳｅｔＵｐ」ボタンＩが押下されると、再生時の各種設定を行う画面へ遷移し、ユーザは、各種設定として字幕の表示又は非表示、字幕言語の選択等が設定できる。また、「ＳｐｅｃｉａｌＦｅａｔｕｒｅｓ」ボタンＪが押下されると、本編の映画に関するクイズやおまけのミニゲーム等を選択するサブ画面へ遷移する。
なお、ディスクメニュー画面の表示内容及び各ボタンＧ〜Ｊが押下された時に開始される機能は、再生する光ディスクに記録されているコンテンツに応じて様々に異なる。つまり、ボタンＧ〜Ｊは、コンテンツに依存して生成された操作対象である。

多重化された情報から映像データ、音声データ等を分離し、分離した映像データ、音声データを各々デコードして出力するという情報処理の大まかな流れは、光ディスク再生部４と実施の形態１で説明したデジタルテレビ受信部３とで共通する。デジタルテレビ受信部３と光ディスク再生部４間の大きな相違点は、デジタルテレビ受信部３がデジタルテレビ放送波により受信した情報をリアルタイムで再生し続けるのに対して、光ディスク再生部４では、再生、停止、早送り、早戻し等の再生状態を内部的に持ち、ユーザがこの再生状態を制御できる点である。

次に、光ディスク再生部４が光ディスクに記録されたコンテンツを再生しており、入出力部１でディスクメニュー画面が表示されている場合の、コンテンツ専用音声認識辞書２ｈへの文字列読み情報の登録処理について、図１１に示すフローチャートを用いて説明する。

まず、コンテンツ情報管理部２ｋが、入出力部１でディスクメニュー画面を表示中かを判定する（ステップＳＴ２０）。例えば、コンテンツ情報管理部２ｋは、光ディスク再生部４に対して、ディスクメニュー画面が表示されるような映像信号を電子機器２に出力しているかを問い合わせる。光ディスク再生部４は、ＢＤ−Ｊ実行部４１ｉ、ＨＤＭＶ実行部４２ｉ又はＤＶＤナビゲーション実行部４３ｉで、ディスクメニュー画面を示す映像信号を生成している。ＢＤ再生中で、再生中のコンテンツがＢＤ−Ｊアプリケーションの場合、ＢＤ−Ｊ実行部４１ｉが、ディスクメニュー画面を示す映像信号を生成しているか否かを電子機器２に通知する。また、ＢＤ再生中で、再生中のコンテンツがＨＤＭＶアプリケーションの場合、ＨＤＭＶ実行部４２ｉが、ディスクメニュー画面を示す映像信号を生成しているか否かを電子機器２に通知する。また、ＤＶＤ再生中の場合、ＤＶＤナビゲーション実行部４３ｉが、ディスクメニュー画面を示す映像信号を生成しているか否かを電子機器２に通知する。

入出力部１でディスクメニュー画面を表示中ではない場合（ステップＳＴ２０；ＮＯ）、コンテンツ情報管理部２ｋが、光ディスク再生部４用の第２コンテンツ専用音声認識辞書２２ｈに登録されている文字列読み情報等を破棄する（ステップＳＴ２１）。具体的には、第２コンテンツ専用音声認識辞書２２ｈとして割り付けられているメモリ領域を初期化する。

一方、入出力部１でディスクメニュー画面を表示中である場合（ステップＳＴ２０；ＹＥＳ）、コンテンツ情報管理部２ｋが、第２コンテンツ専用音声認識辞書２２ｈが作成済みかを判定する（ステップＳＴ２２）。ステップＳＴ２２の具体的な処理は、実施の形態１のステップＳＴ３で説明したものに相当する。

第２コンテンツ専用音声認識辞書２２ｈが作成済みではない場合（ステップＳＴ２２；ＮＯ）、後述のステップＳＴ２４の処理に移行する。
一方、第２コンテンツ専用音声認識辞書２２ｈが作成済みの場合（ステップＳＴ２２；ＹＥＳ）、コンテンツ情報管理部２ｋが、第２コンテンツ専用音声認識辞書２２ｈに文字列読み情報が前回登録された時点から、ディスクメニュー画面の表示内容が更新されたかを判定する（ステップＳＴ２３）。例えば、コンテンツ情報管理部２ｋは、光ディスク再生部４に対して、第２コンテンツ専用音声認識辞書２２ｈに文字列読み情報が前回登録された際の時刻を通知するとともに、ディスクメニュー画面の表示内容の更新の有無を問い合わせる。このために、コンテンツ情報管理部２ｋは、後述のステップＳＴ２６のように第２コンテンツ専用音声認識辞書２２ｈに文字列読み情報が登録される度に、その時刻を記憶する。光ディスク再生部４では、ディスクメニュー画面を示す映像信号をＢＤ−Ｊ実行部４１ｉ、ＨＤＭＶ実行部４２ｉ又はＤＶＤナビゲーション実行部４３ｉが生成している。ＢＤ−Ｊ実行部４１ｉ、ＨＤＭＶ実行部４２ｉ又はＤＶＤナビゲーション実行部４３ｉは、ディスクメニュー画面を示す映像信号を生成し直す度にその時刻を記憶しており、当該時刻とコンテンツ情報管理部２ｋが通知する時刻とを比較して、ディスクメニュー画面の表示内容の更新の有無を電子機器２に通知する。

例えば、第２コンテンツ専用音声認識辞書２２ｈに文字列読み情報が前回登録された時点では、図１０に示すディスクメニュー画面が表示されており、その後ユーザが「Ｓｃｅｎｅｓ」のボタンＨを押下する操作を行った場合は、本編の映画における代表的なシーンをリスト表示するディスクメニュー画面へと遷移するので、ディスクメニュー画面の表示内容が更新されたことになる。

ディスクメニュー画面の表示内容が更新されていない場合（ステップＳＴ２３；ＮＯ）、作成済みの第２コンテンツ専用音声認識辞書２２ｈは更新不要であるため、処理を終了する。
一方、ディスクメニュー画面の表示内容が更新されている場合（ステップＳＴ２３；ＹＥＳ）、コンテンツ情報管理部２ｋが、光ディスクに記録されたコンテンツに依存して生成され、操作対象となる表示中のＧＵＩオブジェクトに関する情報であるコンテンツ情報を取得する（ステップＳＴ２４）。図１０の画面例であれば、コンテンツに依存して生成され、操作対象となる表示中のＧＵＩオブジェクトは、「Ｐｌａｙ」と「Ｓｃｅｎｅｓ」と「ＳｅｔＵｐ」と「ＳｐｅｃｉａｌＦｅａｔｕｒｅｓ」の４つのボタンＧ〜Ｊが該当する。
コンテンツ情報管理部２ｋは、光ディスク再生部４に対して、コンテンツ情報の送信を要求する。要求を受けると、メディアコンテンツ実行部４ｉは、図１２に示す表の情報を含んだコンテンツ情報を生成する。

コンテンツ情報の生成方法は、光ディスクの種類、コンテンツの種類等によって異なる。以下に、コンテンツ情報の生成方法に関する簡単な説明を記載する。
まず、ＢＤ−Ｊアプリケーションの場合について説明する。
前述したＢＤ−Ｊ規格によれば、ＢＤ−Ｊ実行部４１ｉは、ディスクメニュー画面を作成する「ＢＤ−Ｊアプリケーション」と、ＢＤ−Ｊアプリケーションを制御する管理アプリケーション「ＡｐｐｌｉｃａｔｉｏｎＭａｎａｇｅｒ」と、ＡｐｐｌｉｃａｔｉｏｎＭａｎａｇｅｒ及びＢＤ−Ｊアプリケーション等を実行する「Ｊａｖａ仮想マシーン」と、ＰＢＰ（ＰｅｒｓｏｎａｌＢａｓｉｓＰｒｏｆｉｌｅ）１．０、ＧＥＭ（ＧｌｏｂａｌｌｙＥｘｅｃｕｔａｂｌｅＭＨＰ（ＭｕｌｔｉｍｅｄｉａＨｏｍｅＰｌａｔｆｏｒｍ））１．０．２、ＨＡＶｉ（ＨｏｍｅＡｕｄｉｏＶｉｄｅｏＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙ）等の「プロファイル」とから構成される。

個々のＢＤ−Ｊアプリケーションは、ＪａｖａＸｌｅｔ仕様に準拠したアプリケーションであり、ＡｐｐｌｉｃａｔｉｏｎＭａｎａｇｅｒがＢＤ−Ｊアプリケーションのライフサイクルを制御する。ライフサイクルとは、Ｕｎｌｏａｄｅｄ、Ｌｏａｄｅｄ、Ｐａｕｓｅｄ、Ａｃｔｉｖｅ、Ｄｅｓｔｒｏｙｅｄの５状態である。
ＢＤ−Ｊアプリケーションは、ディスクメニュー画面のＧＵＩ基盤としてｏｒｇ．ｈａｖｉ．ｕｉ．Ｈｓｃｅｎｅクラスのオブジェクトを生成し、このＨｓｃｅｎｅオブジェクト上に文字列付きボタン等のＧＵＩオブジェクトを配置する。

ＡｐｐｌｉｃａｔｉｏｎＭａｎａｇｅｒは、Ｈｓｃｅｎｅオブジェクトを管理するＨＳｃｅｎｅＦａｃｔｏｒｙオブジェクトのｇｅｔＩｎｓｔａｎｃｅ（）関数を使って、各ＢＤ−Ｊアプリケーションが生成したＨｓｃｅｎｅオブジェクトを取得する。
ｏｒｇ．ｈａｖｉ．ｕｉ．Ｈｓｃｅｎｅクラスは、ｊａｖａ．ａｗｔ．Ｃｏｎｔａｉｎｅｒの派生クラスであるので、ＡｐｐｌｉｃａｔｉｏｎＭａｎａｇｅｒは、Ｈｓｃｅｎｅ．ｇｅｔＣｏｍｐｏｎｅｎｔＣｏｕｎｔ（）関数を使って、画面上に配置されているＧＵＩオブジェクトの個数が取得でき、Ｈｓｃｅｎｅ．ｇｅｔＣｏｍｐｏｎｅｎｔｓ（）関数を使って、画面上に配置されているＧＵＩオブジェクトを取得できる。取得した全ＧＵＩオブジェクトについて、ｉｎｓｔａｎｃｅＯｆ演算子を使い、オブジェクトの種類がＨＴｅｘｔＢｕｔｔｏｎクラスか否かを確認し、ＨＴｅｘｔＢｕｔｔｏｎクラスであれば、図１２のようにコンテンツ情報に含めればよい。
以上のようにして、ＢＤ−Ｊ実行部４１ｉによって、コンテンツ情報を生成することが可能である。

次に、ＨＤＭＶアプリケーションの場合について説明する。
前述したＨＤＭＶ規格によれば、ＨＤＭＶ実行部４２ｉを構成するＭｏｄｕｌｅＭａｎａｇｅｒからＨＤＭＶＭｏｄｕｌｅを経由して、再生中のＭｏｖｉｅＯｂｊｅｃｔを解析する。ＭｏｖｉｅＯｂｊｅｃｔ内に格納されたＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ）を解析し、以下の順で上位から下位に向かってデータ構造を探索する。すなわち、ｇｒａｐｈｉｃｓ＿ｓｅｇｍｅｎｔ（）構造体、ｓｅｇｍｅｎｔ＿ｄｅｓｃｒｉｐｔｏｒ（）構造体、ｉｎｔｅｒａｃｔｉｖｅ＿ｃｏｍｐｏｓｉｔｉｏｎ（）構造体、ｐａｇｅ（）構造体、ｂｕｔｔｏｎ＿ｏｖｅｒｌａｐ＿group（）構造体、ｂｕｔｔｏｎ（）構造体の順である。
最下層のｂｕｔｔｏｎ（）構造体から、コンテンツ情報に必要な情報を抽出して、コンテンツ情報とすればよい。なお、文字列付きボタン等のキャプション文字列が取得できない場合は、ボタンＩＤ、例えば、「いち」、「に」、「さん」、「よん」をキャプション文字列として使用すればよい。
以上のようにして、ＨＤＭＶ実行部４２ｉによって、コンテンツ情報を生成することが可能である。

次に、ＤＶＤの場合について説明する。
前述したＤＶＤ規格によれば、ＤＶＤ−Ｖｉｄｅｏディスクの構成を上位から下位へ解析すると、以下のような階層構造になる。すなわち、ＤＶＤボリューム構造、ＤＶＤ−Ｖｉｄｅｏｚｏｎｅ、ビデオタイトルセット（ＶＴＳ）、ビデオオブジェクト（ＶＯＢ）、ナビゲーションパック（ＮＶ＿ＰＣＫ）、再生制御情報（ＰＣＩ）、ハイライト情報（ＨＬＩ）である。このハイライト情報（ＨＬＩ）中に、文字列付きボタン等のボタン情報が記載されているので、このボタン情報を解析して、コンテンツ情報に必要な情報を取得する。なお、文字列付きボタンのキャプション文字列が取得できない場合は、ボタンＩＤ、例えば、「いち」、「に」、「さん」、「よん」をキャプション文字列として使用すればよい。
以上のようにして、ＤＶＤナビゲーション実行部４３ｉによって、コンテンツ情報を生成することが可能である。

メディアコンテンツ実行部４ｉは、以上のようにして生成したコンテンツ情報をコンテンツ情報送信部４ｋへ出力し、コンテンツ情報送信部４ｋを介してコンテンツ情報管理部２ｋはコンテンツ情報を取得する。

コンテンツ情報管理部２ｋは、コンテンツ情報を取得すると「ＩＤ番号」に示された識別番号及び「キャプション文字列」に示された文字列を抽出して言語解析部２ｎに出力し、言語解析部２ｎは、コンテンツ情報管理部２ｋから入力された文字列について言語解析辞書２ｍを用いた言語解析を行い、文字列読み情報を生成する（ステップＳＴ２５）。
図１２に示すコンテンツ情報の場合、図１３に示すように「ＩＤ番号」及び「キャプション文字列」と紐付けられた「文字列読み情報」が、言語解析部２ｎによって生成される。ステップＳＴ２５の具体的な処理は、実施の形態１のステップＳＴ６で説明したものに相当する。ステップＳＴ６と異なる点は、「キャプション文字列」の文字列データが日本語でなく英語であり、生成される文字列読み情報が英語の発音記号である点だけである。従って、言語解析辞書２ｍに、日本語での表記と読みとの対応関係に加えて、英語での表記と読みとの対応関係を記憶させておけばよい。

続いて、言語解析部２ｎが、「ＩＤ番号」と「文字列読み情報」とを紐付けた状態で、第２コンテンツ専用音声認識辞書２２ｈに登録する（ステップＳＴ２６）。このとき、実施の形態１のステップＳＴ７と同様に、第２コンテンツ専用音声認識辞書２２ｈに既に何らかの「ＩＤ番号」と「文字列読み情報」とが登録されている場合は、それらを削除したうえで登録処理を行う。
以上のようにして、第２コンテンツ専用音声認識辞書２２ｈに、光ディスクに記録されたコンテンツに依存して生成されて入出力部１の映像出力部１ｂで表示されており、かつ操作対象となるＧＵＩオブジェクトのみに限って、当該ＧＵＩオブジェクトに付けられた文字列の文字列読み情報が登録される。

次に、ディスクメニュー画面をユーザが音声操作する場合の処理について、図１４に示すフローチャートを用いて説明する。図１４に示す処理のうち、図８と同一又は相当する処理については、同一の符号を付してその説明を省略する。

ユーザが図１０に示すようなディスクメニュー画面を見て、例えば「Ｓｃｅｎｅｓ」と発声した場合に、照合部２ｉが、入力音声は共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている語彙でないと判定すると（ステップＳＴ１４；ＮＯ）、照合部２ｉが、第２コンテンツ専用音声認識辞書２２ｈに記憶されている全ての文字列読み情報を読み出す（ステップＳＴ３０）。

続いて、照合部２ｉが、入力音声が第２コンテンツ専用音声認識辞書２２ｈに文字列読み情報が記憶されている語彙であるか、つまり入力音声がコンテンツ操作用であるかを判定する（ステップＳＴ３１）。ステップＳＴ３１の具体的な処理は、実施の形態１のステップＳＴ１６で説明したものに相当する。

以上のように、この実施の形態２に係る電子機器２によれば、コンテンツ情報管理部２ｋは、光ディスクに記録されたコンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得し、言語解析部２ｎは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第２コンテンツ専用音声認識辞書２２ｈに登録する。そして、照合部２ｉは、共通操作用音声認識辞書２ｇに加えて第２コンテンツ専用音声認識辞書２２ｈを用いて、入力音声を対象に音声認識を行う。
これにより、実施の形態１と同様の効果を得ることができる。

実施の形態３．
図１５に、この発明の実施の形態３に係る音声認識機能付き電子機器２の構成を示す。図１５では、電子機器２が、入出力部１とデジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とに接続して音声認識機能付きシステムを構成している場合を示している。なお、実施の形態３では、ＵＳＢメモリに記憶された情報が入出力部１からユーザに提供される場合を例に説明するので、煩雑さを避けるためにデジタルテレビ受信部３及び光ディスク再生部４の構成は簡略化している。
実施の形態３は、ユーザに提供されるのがＵＳＢメモリに記憶された情報である点で実施の形態１と異なり、図１５に示す構成のうち、図１と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。

ＵＳＢメモリ再生部５は、ＵＳＢメモリに記録されたコンテンツを再生する処理等を行う。ＵＳＢメモリ再生部５は、ＵＳＢメモリインタフェース部５ａとファイルシステム５ｂと情報分離部５ｃと音声デコード部５ｄと映像デコード部５ｅとタイトル関連情報解析部５ｆと音声出力部５ｇと映像出力部５ｈとタイトル関連情報出力部５ｉと画面制御部５ｊとコンテンツ情報送信部５ｋと操作イベント管理部５ｍとを有する。

ＵＳＢメモリインタフェース部５ａは、接続されたＵＳＢメモリを使用可能な状態に設定する。
ファイルシステム５ｂは、ＵＳＢメモリインタフェース部５ａに接続されたＵＳＢメモリにファイル形式で記録されているコンテンツを論理的に読み書きし、読み出した情報を情報分離部５ｃに出力する。
情報分離部５ｃは、ファイルシステム５ｂが読み出した情報に多重化されている、コンテンツの音声データ、コンテンツの映像データ、コンテンツの映像音声以外のデータ等の各データを分離し、音声デコード部５ｄと映像デコード部５ｅとタイトル関連情報解析部５ｆとに出力する。

音声デコード部５ｄは、情報分離部５ｃが出力したコンテンツの音声データをデコード処理して、音声出力部５ｇに出力する。
映像デコード部５ｅは、情報分離部５ｃが出力したコンテンツの映像データをデコード処理して、映像出力部５ｈに出力する。
タイトル関連情報解析部５ｆは、情報分離部５ｃが出力したコンテンツの映像音声以外のデータをデコード処理して、タイトル関連情報出力部５ｉに出力する。

音声出力部５ｇは、音声デコード部５ｄから入力されたデコード済みの音声データを音声信号として電子機器２に出力する。
映像出力部５ｈは、映像デコード部５ｅから入力されたデコード済みの映像データを映像信号として画面制御部５ｊに出力する。
タイトル関連情報出力部５ｉは、タイトル関連情報解析部５ｆから入力されたデコード済みの映像音声以外のデータに応じて楽曲一覧画面等を示す映像信号を生成するなどし、画面制御部５ｊに出力する。また、タイトル関連情報出力部５ｉは、コンテンツ情報を生成し、コンテンツ情報送信部５ｋに出力する。
画面制御部５ｊは、映像出力部５ｈから入力された映像信号とタイトル関連情報出力部５ｉから入力された映像信号とを用いて、１枚の表示用画面を示す映像信号を生成し、電子機器２に出力する。

コンテンツ情報送信部５ｋは、タイトル関連情報出力部５ｉから入力されたコンテンツ情報を電子機器２に送信する。
操作イベント管理部５ｍは、信号選択部２ｐを介して電子機器２から入力された操作イベント信号が示す操作イベントを、ＵＳＢメモリ再生部５の各部に通知し、操作イベント信号に応じた処理を行わせる。

ＵＳＢメモリ再生部５は、電源供給回路、ＣＰＵ、メモリ、入出力インタフェース回路等から構成される。具体的には、ＵＳＢメモリインタフェース部５ａは、ＵＳＢメモリを接続するためのコネクタ、電源供給回路、入出力インタフェース回路等で構成される。ファイルシステム５ｂは、ＣＰＵ上で実行するソフトウェアにより実現されており、汎用のＰＣ等で使用されているＦＡＴ（ＦｉｌｅＡｌｌｏｃａｔｉｏｎＴａｂｌｅ）ファイルシステム等と同様である。情報分離部５ｃと音声デコード部５ｄと映像デコード部５ｅとタイトル関連情報解析部５ｆと映像出力部５ｈとタイトル関連情報出力部５ｉは、図２Ａ及び図２Ｂを用いて説明したのと同様に構成される。音声出力部５ｇとコンテンツ情報送信部５ｋは、デジタル信号のインタフェース回路等で構成される。画面制御部５ｊと操作イベント管理部５ｍは、デジタル信号のインタフェース回路を有しつつ、図２Ａ及び図２Ｂを用いて説明したのと同様に構成される。

次に、信号選択部２ｐが端子Ｄ１と端子Ｓ３とを接続した状態となっており、ＵＳＢメモリ再生部５がＵＳＢメモリに記録されたコンテンツを再生する場合の処理について説明する。当該処理は、ＵＳＢメモリに記録されたコンテンツを再生する場合の処理として周知の処理と概ね同様であるので、以下では簡単な説明に留める。

ＵＳＢメモリインタフェース部５ａは、ＵＳＢメモリが接続されると、当該ＵＳＢメモリに対する電源供給を開始し、当該ＵＳＢメモリが対応可能な転送速度、転送方式等を調停し、接続されたＵＳＢメモリを使用可能な状態に設定する。転送速度は、例えばＵＳＢ２．０仕様であれば、１．５Ｍｂｐｓ、１２Ｍｂｐｓ、４８０Ｍｂｐｓ等である。また、転送方式は、例えばＵＳＢ２．０仕様であれば、コントロール、バルク、インタラプト、アイソクロナス等である。

続いて、ファイルシステム５ｂは、接続されたＵＳＢメモリのファイルシステムを調査し、該当するファイルシステムを使用可能に設定する。例えば、ＵＳＢメモリが、ＦＡＴファイルシステムによりフォーマットされていれば、ＦＡＴファイルシステムを使用可能とし、ＮＴＦＳ（ＮＴＦｉｌｅＳｙｓｔｅｍ）によりフォーマットされていれば、ＮＴＦＳを使用可能とする。この適切なファイルシステムを経由することで、ファイルシステム５ｂは、ＵＳＢメモリに記録されているファイル形式のコンテンツを読み書き可能となる。そして、ファイルシステム５ｂは、読み出したコンテナファイルを情報分離部５ｃに出力する。

続いて、情報分離部５ｃは、ファイルシステム５ｂが出力したコンテナファイルから、音声データ、映像データ、映像音声以外のデータ等を分離して、音声デコード部５ｄと映像デコード部５ｅとタイトル関連情報解析部５ｆとに出力する。
コンテナファイルは、各種方法で圧縮された音声データ、映像データ、映像音声以外のデータ等をまとめたファイルである。代表的なコンテナとしては、ＡＶＩ（ＡｕｄｉｏＶｉｄｅｏＩｎｔｅｒｌｅａｖｅ）、ＴＳ（ＭＰＥＧ２−ＴＳ）等がある。

音声デコード部５ｄは、情報分離部５ｃが出力した音声データを解析して適当な方式でデコード処理し、音声出力部５ｇに出力する。音声出力部５ｇは、音声デコード部５ｄから入力されたデコード済みの音声データを音声信号として電子機器２に出力する。
映像デコード部５ｅは、情報分離部５ｃが出力した映像データを解析して適当な方式でデコード処理し、映像出力部５ｈに出力する。映像出力部５ｈは、映像デコード部５ｅから入力されたデコード済みの映像データを映像信号として画面制御部５ｊに出力する。

タイトル関連情報解析部５ｆは、楽曲名及びアーティスト名のデータ等、情報分離部５ｃが出力した音声データ及び映像データ以外のデータを解析してデコード処理し、タイトル関連情報出力部５ｉに出力する。楽曲名及びアーティスト名のデータは、タイトル関連情報を示すデータである。

続いて、タイトル関連情報出力部５ｉは、タイトル関連情報解析部５ｆが出力した楽曲名及びアーティスト名のデータ等に応じて、例えば、図１６のような楽曲一覧画面を示す映像信号を生成する。
続いて、画面制御部５ｊは、映像出力部５ｈから入力された映像信号と、タイトル関連情報出力部５ｉから入力された映像信号とを用いて、１枚の表示用画面を示す映像信号を生成する。画面制御部５ｊが生成した映像信号は、電子機器２に出力される。

図１６は、画面制御部５ｊが生成する映像信号が示す表示用画面の一例を示している。図１６に示すのは、ＵＳＢメモリに記録されているコンテンツを再生する際に表示される楽曲一覧画面の例であり、タイトル関連情報出力部５ｉが出力する映像信号が示す画面に等しい。図１６において、画面内の左上側にある「曲名１（アーティスト名１）」から「曲名４（アーティスト名４）」はそれぞれ、ユーザの操作対象となるＧＵＩオブジェクトであり、当該ＧＵＩオブジェクトをユーザがリモコンを用いて操作するなどすると、対応する曲名の楽曲が再生される。
なお、画面内の左上側にある「曲名１（アーティスト名１）」から「曲名４（アーティスト名４）」は、再生するＵＳＢメモリに記録されているコンテンツに応じて様々に異なる。つまり、これらは、コンテンツに依存して生成された操作対象である。

また、ボタンＫは、押下されると表示内容が楽曲一覧の先頭側に移動し、ボタンＬは、押下されると表示内容が楽曲一覧の末尾側に移動する。ボタンＫ及びボタンＬは、ＰＣ等で表示されるいわゆるスクロールバーに相当する。

また、「前曲へ」「再生」、「次曲へ」、「ランダム再生」という文字列が付けられた４つのボタンＭ〜Ｐは、ユーザの操作対象となるＧＵＩオブジェクトであり、ユーザがリモコンを用いてボタンＭ〜Ｐを押下するなどすると、ボタンに割り当てられた機能が各々開始される。
例えば、「前曲へ」ボタンＭが押下されると、再生中の楽曲よりも楽曲一覧上で１つ前に位置する楽曲が再生される。また、「再生」ボタンＮが押下されると、選択中の楽曲が再生される。また、「次曲へ」ボタンＯが押下されると、再生中の楽曲よりも楽曲一覧上で１つ後に位置する楽曲が再生される。また、「ランダム再生」ボタンＰが押下されると、楽曲一覧の各楽曲を乱数等に基づいて順不同で再生する。

領域ｅには、再生中の楽曲を含むアルバムの写真が表示され、領域ｅの下側には、再生中の楽曲の曲名、その楽曲のアーティスト名、その楽曲を含むアルバムの名前等が表示されている。

次に、ＵＳＢメモリ再生部５がＵＳＢメモリに記録されたコンテンツを再生しており、入出力部１で楽曲一覧画面が表示されている場合の、コンテンツ専用音声認識辞書２ｈへの文字列読み情報の登録処理について、図１７に示すフローチャートを用いて説明する。

まず、コンテンツ情報管理部２ｋが、入出力部１で楽曲一覧画面を表示中かを判定する（ステップＳＴ４０）。例えば、コンテンツ情報管理部２ｋは、ＵＳＢメモリ再生部５に対して、楽曲一覧画面が表示されるような映像信号を電子機器２に出力しているかを問い合わせる。ＵＳＢメモリ再生部５は、タイトル関連情報出力部５ｉで、楽曲一覧画面を示す映像信号を生成している。タイトル関連情報出力部５ｉは、楽曲一覧画面を示す映像信号を生成している場合にその旨を、また、そうでない場合にはその旨を電子機器２に通知する。

入出力部１で楽曲一覧画面を表示中ではない場合（ステップＳＴ４０；ＮＯ）、コンテンツ情報管理部２ｋが、ＵＳＢメモリ再生部５用の第３コンテンツ専用音声認識辞書２３ｈに登録されている文字列読み情報等を破棄する（ステップＳＴ４１）。具体的には、第３コンテンツ専用音声認識辞書２３ｈとして割り付けられているメモリ領域を初期化する。

一方、入出力部１で楽曲一覧画面を表示中である場合（ステップＳＴ４０；ＹＥＳ）、コンテンツ情報管理部２ｋが、第３コンテンツ専用音声認識辞書２３ｈが作成済みかを判定する（ステップＳＴ４２）。ステップＳＴ４２の具体的な処理は、実施の形態１のステップＳＴ３で説明したものに相当する。

第３コンテンツ専用音声認識辞書２３ｈが作成済みではない場合（ステップＳＴ４２；ＮＯ）、後述のステップＳＴ４４の処理に移行する。
一方、第３コンテンツ専用音声認識辞書２３ｈが作成済みの場合（ステップＳＴ４２；ＹＥＳ）、コンテンツ情報管理部２ｋが、第３コンテンツ専用音声認識辞書２３ｈに文字列読み情報が前回登録された時点から、楽曲一覧画面の表示内容が更新されたかを判定する（ステップＳＴ４３）。例えば、コンテンツ情報管理部２ｋは、ＵＳＢメモリ再生部５に対して、第３コンテンツ専用音声認識辞書２３ｈに文字列読み情報が前回登録された際の時刻を通知するとともに、楽曲一覧画面の表示内容の更新の有無を問い合わせる。このために、コンテンツ情報管理部２ｋは、後述のステップＳＴ４６のように第３コンテンツ専用音声認識辞書２３ｈに文字列読み情報が登録される度に、その時刻を記憶する。ＵＳＢメモリ再生部５では、楽曲一覧画面を示す映像信号をタイトル関連情報出力部５ｉが生成している。タイトル関連情報出力部５ｉは、楽曲一覧画面を示す映像信号を生成し直す度にその時刻を記憶しており、当該時刻とコンテンツ情報管理部２ｋが通知する時刻とを比較して、楽曲一覧画面の表示内容の更新の有無を電子機器２に通知する。

例えば、第３コンテンツ専用音声認識辞書２３ｈに文字列読み情報が前回登録された時点では、図１６に示す楽曲一覧画面が表示されており、その後ユーザがボタンＬを押下する操作を行った場合は、例えば「曲名１（アーティスト名１）」に代えて「曲名５（アーティスト名５）」が表示された楽曲一覧画面へと遷移するので、楽曲一覧画面の表示内容が更新されたことになる。

楽曲一覧画面の表示内容が更新されていない場合（ステップＳＴ４３；ＮＯ）、作成済みの第３コンテンツ専用音声認識辞書２３ｈは更新不要であるため、処理を終了する。
一方、楽曲一覧画面の表示内容が更新されている場合（ステップＳＴ４３；ＹＥＳ）、コンテンツ情報管理部２ｋが、ＵＳＢメモリに記録されたコンテンツに依存して生成され、操作対象となる表示中のＧＵＩオブジェクトに関する情報であるコンテンツ情報を取得する（ステップＳＴ４４）。このとき、図１６の画面例が入出力部１で表示されているのであれば、コンテンツに依存して生成され、操作対象となる表示中のＧＵＩオブジェクトは、画面内の左上側にある「曲名１（アーティスト名１）」と「曲名２（アーティスト名２）」と「曲名３（アーティスト名３）」と「曲名４（アーティスト名４）」とが該当する。
コンテンツ情報管理部２ｋは、ＵＳＢメモリ再生部５に対して、コンテンツ情報の送信を要求する。要求を受けると、タイトル関連情報出力部５ｉは、図１８に示す表の情報を含んだコンテンツ情報を生成する。

図１８に示すコンテンツ情報は、実施の形態１で図５に示したコンテンツ情報と、オブジェクト種類が文字列付きリストである点、また、対応する操作イベントが「ボタンＡ押下」〜「ボタンＤ押下」でなく、「楽曲１再生」〜「楽曲４再生」である点で主に異なる。
なお、図１６における４つのボタンＭ〜Ｐは、ユーザの操作対象とはなるが、コンテンツに依存せずに生成されるＧＵＩオブジェクトであるので、コンテンツ情報には含まれない。これらのボタンＭ〜Ｐを音声操作するための語彙の文字列読み情報は、共通操作用音声認識辞書２ｇに当初から登録されている。

タイトル関連情報出力部５ｉは、そもそも、タイトル関連情報解析部５ｆが出力したデータに応じてＧＵＩオブジェクトを含む楽曲一覧画面を示す映像信号を生成するものであるので、その際に同時にコンテンツ情報を生成することが可能である。
タイトル関連情報出力部５ｉは、生成したコンテンツ情報をコンテンツ情報送信部５ｋへ出力し、コンテンツ情報送信部５ｋを介してコンテンツ情報管理部２ｋはコンテンツ情報を取得する。

コンテンツ情報管理部２ｋは、コンテンツ情報を取得すると「ＩＤ番号」に示された識別番号及び「キャプション文字列」に示された文字列を抽出して言語解析部２ｎに出力し、言語解析部２ｎは、コンテンツ情報管理部２ｋから入力された文字列について言語解析辞書２ｍを用いた言語解析を行い、文字列読み情報を生成する（ステップＳＴ４５）。
図１８に示すコンテンツ情報の場合、図１９に示すように「ＩＤ番号」及び「キャプション文字列」と紐付けられた「文字列読み情報」が、言語解析部２ｎによって生成される。図１９に示す文字列読み情報では、キャプション文字列の後半部分にあたるアーティスト名１〜４の読み情報を省略した場合を示している。ステップＳＴ４５の具体的な処理は、実施の形態１のステップＳＴ６で説明したものに相当する。

続いて、言語解析部２ｎが、「ＩＤ番号」と「文字列読み情報」とを紐付けた状態で、第３コンテンツ専用音声認識辞書２３ｈに登録する（ステップＳＴ４６）。このとき、実施の形態１のステップＳＴ７と同様に、第３コンテンツ専用音声認識辞書２３ｈに既に何らかの「ＩＤ番号」と「文字列読み情報」とが登録されている場合は、それらを削除したうえで登録処理を行う。
以上のようにして、第３コンテンツ専用音声認識辞書２３ｈに、ＵＳＢメモリに記録されたコンテンツに依存して生成されて入出力部１の映像出力部１ｂで表示されており、かつ操作対象となるＧＵＩオブジェクトのみに限って、当該ＧＵＩオブジェクトに付けられた文字列の文字列読み情報が登録される。

次に、楽曲一覧画面をユーザが音声操作する場合の処理について、図２０に示すフローチャートを用いて説明する。図２０に示す処理のうち、図８と同一又は相当する処理については、同一の符号を付してその説明を省略する。

ユーザが図１６に示すような楽曲一覧画面を見て、例えば「曲名１」と発声した場合に、照合部２ｉが、入力音声は共通操作用音声認識辞書２ｇに文字列読み情報が記憶されている語彙でないと判定すると（ステップＳＴ１４；ＮＯ）、照合部２ｉが、第３コンテンツ専用音声認識辞書２３ｈに記憶されている全ての文字列読み情報を読み出す（ステップＳＴ５０）。

続いて、照合部２ｉが、入力音声が第３コンテンツ専用音声認識辞書２３ｈに文字列読み情報が記憶されている語彙であるか、つまり入力音声がコンテンツ操作用であるかを判定する（ステップＳＴ５１）。ステップＳＴ５１の具体的な処理は、実施の形態１のステップＳＴ１６で説明したものに相当する。

以上のように、この実施の形態３に係る電子機器２によれば、コンテンツ情報管理部２ｋは、ＵＳＢメモリに記録されたコンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得し、言語解析部２ｎは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第３コンテンツ専用音声認識辞書２３ｈに登録する。そして、照合部２ｉは、共通操作用音声認識辞書２ｇに加えて第３コンテンツ専用音声認識辞書２３ｈを用いて、入力音声を対象に音声認識を行う。
これにより、実施の形態１と同様の効果を得ることができる。

実施の形態４．
図２１に、この発明の実施の形態４に係る音声認識機能付き電子機器２Ａ，２Ｂの構成を示す。図２１では、電子機器２Ａ，２Ｂが、入出力部１Ａ，１Ｂとデジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とに接続して音声認識機能付きシステムを構成している場合を示している。

入出力部１Ａ，１Ｂは、それぞれ実施の形態１で示した入出力部１と同様に構成される。入出力部１Ａ，１Ｂの詳細な構成については、図示を省略している。
電子機器２Ａ，２Ｂは、それぞれ実施の形態１で示した電子機器２と同様に構成される。電子機器２Ａ，２Ｂの詳細な構成については、信号選択部２ｐ以外は図示を省略している。

電子機器２Ａと入出力部１Ａ，１Ｂとの間には、信号選択部６が設けられている。
信号選択部６は、電子機器２Ａと入出力部１Ａ，１Ｂとの接続を切替える。端子Ｄ１０と端子Ｓ１０とが接続した状態となると、電子機器２Ａは、入出力部１Ａと接続する。端子Ｄ１１と端子Ｓ１０とが接続した状態となると、電子機器２Ａは、入出力部１Ｂと接続する。

電子機器２Ｂと入出力部１Ａ，１Ｂとの間には、信号選択部７が設けられている。
信号選択部７は、電子機器２Ｂと入出力部１Ａ，１Ｂとの接続を切替える。端子Ｄ１２と端子Ｓ１１とが接続した状態となると、電子機器２Ｂは、入出力部１Ａと接続する。端子Ｄ１３と端子Ｓ１１とが接続した状態となると、電子機器２Ｂは、入出力部１Ｂと接続する。

このように、実施の形態４では、入出力部及び電子機器を二重化している。従って、２系統の映像及び音声を同時にユーザに提供でき、また、ユーザは、入出力部１Ａ，１Ｂが表示する画面を見て、それぞれ別々に音声操作することができる。
なお、入出力部１Ａに同時に２系統の映像信号及び音声信号、また、入出力部１Ｂに同時に２系統の映像信号及び音声信号が入力されることがないよう、信号選択部６，７は制御される。図２２に示すように、状態Ｎｏ．１及び状態Ｎｏ．４のように信号選択部６，７の各端子が接続されることは禁止する。

以上のように、この実施の形態４に係る電子機器２Ａ，２Ｂによれば、入出力部及び電子機器を二重化したので、実施の形態１〜３と同様の効果に加え、２系統の映像及び音声を同時にユーザに提供でき、また、ユーザは、入出力部１Ａ，１Ｂが表示する画面を見て、それぞれ別々に音声操作することができる。

実施の形態５．
図２３に、この発明の実施の形態５に係る音声認識機能付き電子機器２の構成を示す。図２３では、電子機器２が、入出力部１とデジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とに接続して音声認識機能付きシステムを構成している場合を示している。
実施の形態５では、電子機器２が映像付加部２ｑを有している点で実施の形態１〜３と異なる。図２３に示す構成のうち、図１と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。

映像付加部２ｑは、ユーザからの音声の受付が開始されると、コンテンツ専用音声認識辞書２ｈに文字列読み情報が記憶されている語彙について、その読みを追加表示した画面を示す映像信号を生成する。

映像付加部２ｑの処理について説明する。映像付加部２ｑが行う処理は、周知のスキャンコンバータ等と同様であるので、以下では詳細な説明は省略する。
まず、映像付加部２ｑは、音声認識が開始されると、映像伝送部２ｂから入出力部１へ伝送する途中の映像信号を抜き取って、不図示のメモリに一時的に格納する。一般に、音声認識機能付きのシステムでは、誤認識を少なくするため、リモコン等に「音声認識」ボタンを設けて、このボタンを押下してから一定時間だけ音声認識機能を有効として音声を受け付け、一定時間経過後に音声認識機能を無効化することが多い。従って、映像付加部２ｑは、操作イベント伝送部２ｃに入力される操作イベント信号を監視することで、音声認識開始を判定することができる。

続いて、映像付加部２ｑは、コンテンツ専用音声認識辞書２ｈに登録されている文字列読み情報を読み出し、当該情報を用いて、コンテンツ専用音声認識辞書２ｈに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。
映像付加部２ｑは、信号選択部２ｐでデジタルテレビ受信部３を選択中の場合、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。同様に、映像付加部２ｑは、信号選択部２ｐで光ディスク再生部４を選択中の場合、第２コンテンツ専用音声認識辞書２２ｈに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。同様に、映像付加部２ｑは、信号選択部２ｐでＵＳＢメモリ再生部５を選択中の場合、第３コンテンツ専用音声認識辞書２３ｈに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。

続いて、映像付加部２ｑは、生成した映像信号と、一時的に格納した伝送途中の映像信号とを用いて、１枚の表示用画面を示す映像信号を生成する。その際、一時的に格納した伝送途中の映像信号が示す画面が適度に縮小されるような映像信号を生成する。
続いて、映像付加部２ｑは、生成した映像信号を映像伝送部２ｂに出力する。当該映像信号により、入出力部１で表示される画面例を、図２４に示す。実施の形態１で示した図３に対し、データ放送画面を音声操作する際に使用できる語彙の読み情報が、領域ｆに追加表示されている。

以上のように、この実施の形態５に係る電子機器２によれば、映像付加部２ｑがコンテンツ専用音声認識辞書２ｈに文字列読み情報が記憶されている語彙について、その読みを追加表示した画面を示す映像信号を生成する。従って、実施の形態１〜３と比較して、ユーザにとってはどのような語彙を発音すればよいかが更に分かりやすくなり、操作性が更に良い音声認識を提供することができる。

実施の形態６．
図２５に、この発明の実施の形態６に係る音声認識機能付き電子機器２の構成を示す。図２５では、電子機器２が、入出力部１とデジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とに接続して音声認識機能付きシステムを構成している場合を示している。
実施の形態６では、電子機器２が音声合成部２ｒを有している点で実施の形態１〜３と異なる。図２５に示す構成のうち、図１と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。

音声合成部２ｒは、ユーザからの音声の受付が開始されると、コンテンツ専用音声認識辞書２ｈに文字列読み情報が記憶されている語彙について、音声合成して音声信号を生成する。

音声合成部２ｒが行う処理は、周知のテキスト音声合成装置と同様であるので、詳細な説明は省略する。音声合成部２ｒは、コンテンツ専用音声認識辞書２ｈに登録されている文字列読み情報を用いて、テキスト音声合成する。
音声合成部２ｒは、信号選択部２ｐでデジタルテレビ受信部３を選択中の場合、第１コンテンツ専用音声認識辞書２１ｈに文字列読み情報が記憶されている語彙をテキスト音声合成する。同様に、音声合成部２ｒは、信号選択部２ｐで光ディスク再生部４を選択中の場合、第２コンテンツ専用音声認識辞書２２ｈに文字列読み情報が記憶されている語彙をテキスト音声合成する。同様に、音声合成部２ｒは、信号選択部２ｐでＵＳＢメモリ再生部５を選択中の場合、第３コンテンツ専用音声認識辞書２３ｈに文字列読み情報が記憶されている語彙をテキスト音声合成する。
音声合成部２ｒは、音声伝送部２ａから入出力部１へ伝送する途中の音声信号とテキスト音声合成して得た音声信号とをミキシングして、音声伝送部２ａに出力する。これにより、入出力部１からは、コンテンツ専用音声認識辞書２ｈに文字列読み情報が記憶されている語彙の情報を読み上げた音声が出力される。

以上のように、この実施の形態６に係る電子機器２によれば、音声合成部２ｒがコンテンツ専用音声認識辞書２ｈに文字列読み情報が記憶されている語彙を音声合成して入出力部１から音声出力されるようにした。従って、実施の形態１〜３と比較して、ユーザにとってはどのような語彙を発音すればよいかが更に分かりやすくなり、操作性が更に良い音声認識を提供することができる。また、ユーザは、画面を見なくとも、どのような語彙を発音すればよいかが分かる。

なお、上記では、映像音声源として、デジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とを備えた構成について説明した。しかしながら、これらに限らず、デジタルラジオ放送波を受信するデジタルラジオ受信部、経路案内を行うナビゲーション装置等、他の種類の映像音声源を備えてもよい。また、電子機器２と接続するのは、少なくとも映像信号を電子機器２に出力する映像源として機能する機器であればよい。
また、上記では、映像音声源を３つ備えた構成について説明した。しかしながら、映像音声源は１以上の任意の個数備えた構成としてよい。

また、上記では、ＣＡＮを通信手段として用いる場合を示したが、ＣＡＮに代えてＭＯＳＴ（ＭｅｄｉａＯｒｉｅｎｔｅｄＳｙｓｔｅｍｓＴｒａｎｓｐｏｒｔ、登録商標）、Ｅｔｈｅｒｎｅｔ（登録商標）等の他の通信手段を用いてもよい。

また、上記では、入出力部１と電子機器２とデジタルテレビ受信部３と光ディスク再生部４とＵＳＢメモリ再生部５とをそれぞれ別筐体で構成し、これらの間をネットワーク接続する構成について説明した。しかしながら、これらを同一筐体内に実装し、ネットワーク接続の代わりにＣＰＵ間通信を用いるように構成してもよい。

また、上記では、図６を用いて説明したように、表示される画面内にＧＵＩオブジェクトの全部分がある場合に、当該ＧＵＩオブジェクトが入出力部１で表示されると判定した。しかしながら、ＧＵＩオブジェクトの８０％等、その大部分が画面内にある場合についても、当該ＧＵＩオブジェクトが入出力部１で表示されると判定してもよい。このようにすれば、ユーザが画面をスクロールしている途中で、画面内に入る、或いは画面外に出るＧＵＩオブジェクトについてもコンテンツ専用音声認識辞書２ｈに文字列読み情報を登録することができ、音声操作の操作性が向上する。

また、上記では、入力音声をフレーム単位で分析し、音韻毎の音響標準パターンと比較した後に、共通操作用音声認識辞書２ｇ、コンテンツ専用音声認識辞書２ｈ等の音声認識辞書と照合を行う例について説明したが、比較を行う対象単位は音韻毎でなくても、例えば、半音素等の別の方法を用いても良い。半音素は、音韻の半分程度の単位であり、前後に連なる音韻の違いをより詳細に反映することができる。

また、コンテンツ専用音声認識辞書２ｈは、第１コンテンツ専用音声認識辞書２１ｈと第２コンテンツ専用音声認識辞書２２ｈと第３コンテンツ専用音声認識辞書２３ｈとを有する。これら第１〜第３コンテンツ専用音声認識辞書２１ｈ〜２３ｈそれぞれに対応してメモリ領域を３つぶん割り当ててもよいし、コンテンツ専用音声認識辞書２ｈとして割り当てるメモリ量を削減するために、第１〜第３コンテンツ専用音声認識辞書２１ｈ〜２３ｈに共用のメモリ領域を割り当ててもよい。

また、上記では、コンテンツに依存して生成されるＧＵＩオブジェクトが表示される画面として、データ放送画面等を例に挙げて説明した。しかしながら、番組表画面、放送局一覧画面等にもＧＵＩオブジェクトが存在する場合、それらの画面に対して上記した方法を適用して音声操作できるようにしてもよい。この場合、番組表画面、放送局一覧画面を示す映像信号を生成する構成から、コンテンツ情報を取得するようにすればよい。

また、上記実施の形態２では、光ディスクの例としてＤＶＤとＢＤの場合について説明した。光ディスクがＣＤである場合、実施の形態３と同様の方法により、ＣＤについても楽曲一覧画面を音声操作することができる。

また、上記実施の形態４では、入出力部１を２つ備えた構成について説明した。しかしながら、入出力部１を３つ以上備えるようにしてもよい。

また、上記では、操作イベント信号が示す操作イベントとして、リモコン操作によるボタン押下イベントや曲の再生イベントの例について説明した。しかしながら、リモコンの代わりにタッチパネル等の画面上の位置指定を行う機器の場合、操作イベントとして、画面上の位置情報を用いればよい。

また、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態においての任意の構成要素の省略が可能である。

１，１Ａ，１Ｂ入出力部、１ａ音声出力部、１ｂ映像出力部、１ｃリモコン操作入力部、１ｄ音声入力部、１ｅ入出力制御部、２，２Ａ，２Ｂ電子機器、２ａ音声伝送部、２ｂ映像伝送部、２ｃ操作イベント伝送部、２ｄ音響分析部、２ｅ音響標準パターン記憶部、２ｆ尤度計算部、２ｇ共通操作用音声認識辞書、２ｈコンテンツ専用音声認識辞書、２ｉ照合部、２ｊ音声認識結果変換部、２ｋコンテンツ情報管理部、２ｍ言語解析辞書、２ｎ言語解析部、２ｐ信号選択部、２ｑ映像付加部、２ｒ音声合成部、３デジタルテレビ受信部、３ａ電波受信部、３ｂデジタル復調部、３ｃ情報分離部、３ｄ音声デコード部、３ｅ映像デコード部、３ｆデータ放送情報解析部、３ｇ音声出力部、３ｈ映像出力部、３ｉデータ放送ブラウザ、３ｊ画面制御部、３ｋコンテンツ情報送信部、３ｍ操作イベント管理部、４光ディスク再生部、４ａディスク制御部、４ｂディスク情報読み出し部、４ｃ情報分離部、４ｄ音声デコード部、４ｅ映像デコード部、４ｆメディアコンテンツデコード部、４ｇ音声出力部、４ｈ映像出力部、４ｉメディアコンテンツ実行部、４ｊ画面制御部、４ｋコンテンツ情報送信部、４ｍ操作イベント管理部、５ＵＳＢメモリ再生部、５ａＵＳＢメモリインタフェース部、５ｂファイルシステム、５ｃ情報分離部、５ｄ音声デコード部、５ｅ映像デコード部、５ｆタイトル関連情報解析部、５ｇ音声出力部、５ｈ映像出力部、５ｉタイトル関連情報出力部、５ｊ画面制御部、５ｋコンテンツ情報送信部、５ｍ操作イベント管理部、６信号選択部、７信号選択部、２１ｈ第１コンテンツ専用音声認識辞書、２２ｈ第２コンテンツ専用音声認識辞書、２３ｈ第３コンテンツ専用音声認識辞書、４１ｉＢＤ−Ｊ実行部、４２ｉＨＤＭＶ実行部、４３ｉＤＶＤナビゲーション実行部、１０１処理回路、１０２メモリ、１０３ＣＰＵ。

Claims

文字列について、当該文字列を読む音声に結びつく特徴情報を記憶する音声認識辞書と、
前記音声認識辞書を用いて、入力音声を認識する音声認識部と、
コンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得するコンテンツ情報管理部と、
前記コンテンツ情報管理部が取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく特徴情報を生成し、前記音声認識辞書に登録する言語解析部とを備えることを特徴とする音声認識機能付き電子機器。
前記コンテンツ情報管理部は、表示内容が更新されるたびに、前記操作対象に付けられている文字列の情報を取得し、
前記言語解析部は、表示内容が更新されて前記コンテンツ情報管理部が取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく特徴情報を生成し、当該特徴情報で前記音声認識辞書に前回登録した特徴情報を置き換えることを特徴とする請求項１記載の音声認識機能付き電子機器。
前記音声認識部による音声認識結果を、ユーザの操作内容である操作イベントを示す操作イベント信号に変換する音声認識結果変換部を備え、
前記コンテンツ情報管理部は、前記操作対象が操作された場合に出力される操作イベント信号で示される操作イベントの情報を取得し、
前記音声認識結果変換部は、当該情報を用いて、前記音声認識部による音声認識結果を、対応する操作イベントを示す操作イベント信号に変換することを特徴とする請求項１または請求項２記載の音声認識機能付き電子機器。
前記音声認識辞書は、コンテンツに依存せずに生成される操作対象に対応する音声に結びつく特徴情報を記憶する共通操作用音声認識辞書と、前記言語解析部が生成した特徴情報を記憶するコンテンツ専用音声認識辞書とを、別個のメモリに有することを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声認識機能付き電子機器。
音声の受付が開始されると、前記言語解析部が生成して前記音声認識辞書に特徴情報が記憶された語彙の情報を示す映像信号を出力する映像付加部を備えることを特徴とする請求項１から請求項４のうちのいずれか１項記載の音声認識機能付き電子機器。
音声の受付が開始されると、前記言語解析部が生成して前記音声認識辞書に特徴情報が記憶された語彙の情報を示す音声信号を出力する音声合成部を備えることを特徴とする請求項１から請求項５のうちのいずれか１項記載の音声認識機能付き電子機器。
請求項１記載の音声認識機能付き電子機器と、
前記電子機器に映像信号を出力する映像源と、
前記電子機器の出力を画面表示する入出力部とを備えることを特徴とする音声認識機能付きシステム。