JP2018022049A - 音声認識機能付き電子機器及び音声認識機能付きシステム - Google Patents

音声認識機能付き電子機器及び音声認識機能付きシステム Download PDF

Info

Publication number
JP2018022049A
JP2018022049A JP2016153335A JP2016153335A JP2018022049A JP 2018022049 A JP2018022049 A JP 2018022049A JP 2016153335 A JP2016153335 A JP 2016153335A JP 2016153335 A JP2016153335 A JP 2016153335A JP 2018022049 A JP2018022049 A JP 2018022049A
Authority
JP
Japan
Prior art keywords
unit
content
information
character string
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016153335A
Other languages
English (en)
Inventor
和磨 金子
Kazuma Kaneko
和磨 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2016153335A priority Critical patent/JP2018022049A/ja
Publication of JP2018022049A publication Critical patent/JP2018022049A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】どのような語彙を発声すればよいのかがユーザにとって分かりやすく、操作性の良い音声認識を提供する電子機器を得る。【解決手段】コンテンツ情報管理部2kは、コンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得する。言語解析部2nは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第1コンテンツ専用音声認識辞書21hに登録する。そして、照合部2iは、共通操作用音声認識辞書2gに加えて第1コンテンツ専用音声認識辞書21hを用いて、入力音声を対象に音声認識を行う。【選択図】図1

Description

この発明は、音声認識機能を備えた電子機器に関するものである。
音声認識処理で参照される音声認識辞書を、ユーザに提供するコンテンツに応じて作成することで、より効率的な処理の実現が可能である。例えば、特許文献1には、挿入されたCD(Compact Disc)の内周部分に記録されているTOC(Table Of Contents)を読み出し、TOCに含まれる全ての曲番及び全ての曲名等に基づいて、挿入されたCD専用の音声認識辞書を作成する再生装置が記載されている。当該再生装置によれば、ユーザが曲名を発声するだけでその曲の再生が開始されるので、効率的である。なお、TOCには、各曲の演奏時間、開始位置等の情報も記憶されており、一般的なCD再生装置は、これらの情報を使って、演奏時間の表示、曲の迅速な頭出し等を実現している。
特開2005―85433号公報
しかしながら、上記特許文献1では、TOCに基づいて音声認識辞書に登録された語彙をユーザに報知しないため、ユーザはどのような語彙を発声すればよいのかが分からない。つまり、上記特許文献1では、曲名の読み方が音声認識の対象となっているが、ユーザが再生装置に音声を入力するにあたり、CD内の曲名がユーザに報知されることはない。従って、特に、ユーザが収録されている曲が分からないCDを挿入した場合等、ユーザはどのような語彙を発声すればよいのかが分からない。このように、従来は、操作性の悪い音声認識がユーザに提供されていた。
この発明は、上記のような課題を解決するためになされたもので、どのような語彙を発声すればよいのかがユーザにとって分かりやすく、操作性の良い音声認識を提供する電子機器を得ることを目的とする。
この発明に係る音声認識機能付き電子機器は、文字列について、当該文字列を読む音声に結びつく特徴情報を記憶する音声認識辞書と、音声認識辞書を用いて、入力音声を認識する音声認識部と、コンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得するコンテンツ情報管理部と、コンテンツ情報管理部が取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく特徴情報を生成し、音声認識辞書に登録する言語解析部とを備えることを特徴とするものである。
この発明によれば、コンテンツに依存して生成された表示中の操作対象に付けられている文字列について、当該文字列を読む音声に結びつく特徴情報が音声認識辞書に登録される。文字列として画面に表示されてユーザに報知されている語彙が、音声認識の対象となるので、ユーザにとってはどのような語彙を発声すればよいのかが分かりやすく、操作性の良い音声認識を提供することができる。
この発明の実施の形態1に係る音声認識機能付き電子機器の構成を示す図である。 図2A及び図2Bは、この発明の実施の形態1に係る音声認識機能付き電子機器のハードウェア構成例を示す図である。 デジタルテレビ放送の画面例である。 第1コンテンツ専用音声認識辞書への文字列読み情報の登録処理の一例を示すフローチャートである。 図3に示す画面例に対応して生成されるコンテンツ情報を示す表である。 コンテンツ情報を作成する際に行われる処理のイメージを示す図である。 図5に示すコンテンツ情報に対応して生成される文字列読み情報を示す表である。 データ放送画面をユーザが音声操作する場合の処理の一例を示すフローチャートである。 この発明の実施の形態2に係る音声認識機能付き電子機器の構成を示す図である。 ディスクメニュー画面の一例である。 第2コンテンツ専用音声認識辞書への文字列読み情報の登録処理の一例を示すフローチャートである。 図10に示す画面例に対応して生成されるコンテンツ情報を示す表である。 図12に示すコンテンツ情報に対応して生成される文字列読み情報を示す表である。 ディスクメニュー画面をユーザが音声操作する場合の処理の一例を示すフローチャートである。 この発明の実施の形態3に係る音声認識機能付き電子機器の構成を示す図である。 楽曲一覧画面の一例である。 第3コンテンツ専用音声認識辞書への文字列読み情報の登録処理の一例を示すフローチャートである。 図16に示す画面例に対応して生成されるコンテンツ情報を示す表である。 図18に示すコンテンツ情報に対応して生成される文字列読み情報を示す表である。 楽曲一覧画面をユーザが音声操作する場合の処理の一例を示すフローチャートである。 この発明の実施の形態4に係る音声認識機能付き電子機器の構成を示す図である。 信号選択部で許可又は禁止される端子の接続状態を示す表である。 この発明の実施の形態5に係る音声認識機能付き電子機器の構成を示す図である。 この発明の実施の形態5に係る音声認識機能付き電子機器により表示される画面例を示す図である。 この発明の実施の形態6に係る音声認識機能付き電子機器の構成を示す図である。
実施の形態1.
図1に、この発明の実施の形態1に係る音声認識機能付き電子機器2の構成を示す。図1では、電子機器2が、入出力部1とデジタルテレビ受信部3と光ディスク再生部4とUSB(Universal Serial Bus)メモリ再生部5とに接続して音声認識機能付きシステムを構成している場合を示している。なお、実施の形態1では、デジタルテレビ放送が入出力部1からユーザに提供される場合を例に説明するので、煩雑さを避けるために光ディスク再生部4及びUSBメモリ再生部5の構成は簡略化している。光ディスクに記憶された情報がユーザに提供される場合は後述の実施の形態2、USBメモリに記憶された情報がユーザに提供される場合は後述の実施の形態3で説明する。
また、音声認識機能付きシステムはどこに設置されても構わないが、実施の形態1では車載とした場合を例に説明する。
入出力部1は、映像、音声等の入出力を担う。入出力部1は、音声出力部1aと映像出力部1bとリモコン操作入力部1cと音声入力部1dと入出力制御部1eとを有する。
音声出力部1aは、電子機器2から入力された音声信号が示す音声、例えばデジタルテレビ放送の音声を出力して、ユーザに提供する。
映像出力部1bは、電子機器2から入力された映像信号が示す画面、例えばデジタルテレビ放送の画面を表示して、ユーザに提供する。
リモコン操作入力部1cは、ユーザが操作した不図示のリモコンからの赤外光を受信して、ユーザの操作内容である操作イベントを示す操作イベント信号を入出力制御部1eに出力する。
音声入力部1dは、音声を集音して、当該音声を示す入力音声信号を入出力制御部1eに出力する。音声入力部1dが集音する音声である入力音声が、音声認識の対象となる。
入出力制御部1eは、入出力部1と電子機器2との間での各種信号の入出力を制御する。
電子機器2は、デジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5という3つの映像音声源のいずれかを選択して切替える映像音声源の選択部として機能するとともに、音声認識処理等を行うものである。電子機器2は、音声伝送部2aと映像伝送部2bと操作イベント伝送部2cと音響分析部2dと音響標準パターン記憶部2eと尤度計算部2fと共通操作用音声認識辞書2gとコンテンツ専用音声認識辞書2hと照合部2iと音声認識結果変換部2jとコンテンツ情報管理部2kと言語解析辞書2mと言語解析部2nと信号選択部2pとを有する。
音声伝送部2aは、信号選択部2pからの音声信号を入出力部1へ出力する。
映像伝送部2bは、信号選択部2pからの映像信号を入出力部1へ出力する。
操作イベント伝送部2cは、リモコン操作入力部1cが出力して入出力部1から入力された操作イベント信号を取得し、信号選択部2pに出力する。
音響分析部2dは、音声入力部1dが出力して入出力部1から入力された入力音声信号を音響分析する。音響分析の結果は、尤度計算部2fに出力される。
音響標準パターン記憶部2eには、各音韻の標準的な音響分析の結果である音響標準パターンが、予め記憶されている。
尤度計算部2fは、音響標準パターン記憶部2eに記憶されている音響標準パターンと音響分析部2dから入力された音響分析の結果とを用いて、音声入力部1dが集音した入力音声がどの音韻から構成されていそうであるかが分かる尤度を計算する。計算された尤度は、照合部2iに出力される。
共通操作用音声認識辞書2gは、共通操作用の語彙についての文字列読み情報を記憶した音声認識辞書である。共通操作用の語彙とは、デジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とを音声操作する際に使用される予め決められた語彙であり、例えば、デジタルテレビ受信部3を音声操作する場合の共通操作用の語彙としては、「データ放送」、「チャンネル一覧」、「番組表」等がある。
コンテンツ専用音声認識辞書2hは、コンテンツ操作用の語彙についての文字列読み情報を記憶した音声認識辞書である。コンテンツ操作用の語彙とは、共通操作用の語彙のように予め決められた語彙とは異なり、映像出力部1bでコンテンツに依存して表示される画面に応じて文字列読み情報が動的に登録される語彙である。コンテンツ専用音声認識辞書2hへの文字列読み情報の登録処理については、図4を用いて後述する。
コンテンツ専用音声認識辞書2hは、映像音声源であるデジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とに一対一に対応して、デジタルテレビ受信部3用の第1コンテンツ専用音声認識辞書21hと、光ディスク再生部4用の第2コンテンツ専用音声認識辞書22hと、USBメモリ再生部5用の第3コンテンツ専用音声認識辞書23hとを有する。
共通操作用音声認識辞書2gとコンテンツ専用音声認識辞書2hは、同じ1つのメモリに作成されてもよいし、別個のメモリに作成されてもよい。別個のメモリに作成されるようにすれば、コンテンツ専用音声認識辞書2hを更新している最中にシステムの電源が喪失するなどの障害が発生しても、共通操作用音声認識辞書2gに悪影響が及ぶ恐れを小さくできる。
照合部2iは、尤度計算部2fから入力された尤度を用いて、音声入力部1dが集音した入力音声が、共通操作用音声認識辞書2g又はコンテンツ専用音声認識辞書2hに文字列読み情報が記憶されている語彙であるかを判定する。また、記憶されている語彙である場合に、照合部2iは、音声認識結果を音声認識結果変換部2jに出力する。
音声認識結果変換部2jは、照合部2iから入力された音声認識結果を、リモコン操作入力部1cの出力と同様の、ユーザの操作内容である操作イベントを示す操作イベント信号に変換して信号選択部2pに出力する。
音響分析部2dと尤度計算部2fと照合部2iは、音声認識部を構成する。
コンテンツ情報管理部2kは、デジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とから、映像出力部1bで表示中のGUI(Graphical User Interface)オブジェクトに関する情報であるコンテンツ情報を取得して、管理する。また、コンテンツ情報管理部2kは、コンテンツ情報に示される文字列を抽出して、言語解析部2nに出力する。
言語解析辞書2mは、表記と読みとの対応関係を数多く記憶した辞書である。
言語解析部2nは、言語解析辞書2mに記憶されている表記と読みとの対応関係を用いて、コンテンツ情報管理部2kから入力された文字列を言語解析し、コンテンツ専用音声認識辞書2hに登録すべき情報を生成する。
信号選択部2pは、デジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5という3つの映像音声源のいずれかを選択して、接続を切替える。図示のように、端子S1にデジタルテレビ受信部3を、端子S2に光ディスク再生部4を、端子S3にUSBメモリ再生部5を対応させて、端子S1〜S3と端子D1との接続を切替えることで、3つの映像音声源のいずれかを選択する。
デジタルテレビ受信部3は、デジタルテレビ放送波を受信して電子機器2に映像信号及び音声信号を出力する処理等を行う。デジタルテレビ受信部3は、電波受信部3aとデジタル復調部3bと情報分離部3cと音声デコード部3dと映像デコード部3eとデータ放送情報解析部3fと音声出力部3gと映像出力部3hとデータ放送ブラウザ3iと画面制御部3jとコンテンツ情報送信部3kと操作イベント管理部3mとを有する。
電波受信部3aは、地上デジタルテレビ放送波を受信して、受信信号をデジタル復調部3bに出力する。
デジタル復調部3bは、電波受信部3aから入力された受信信号をデジタル復調し、音声データ、映像データ、データ放送のデータ等、複数のデータが多重化されたデータ列を情報分離部3cに出力する。データ放送のデータには、ニュース、気象情報等に関するデータが含まれている。
情報分離部3cは、デジタル復調部3bから入力される多重化されたデータ列から、音声データ、映像データ、データ放送のデータ等を分離して、音声デコード部3dと映像デコード部3eとデータ放送情報解析部3fとに出力する。
音声デコード部3dは、情報分離部3cが出力した音声データをデコード処理して、音声出力部3gに出力する。
映像デコード部3eは、情報分離部3cが出力した映像データをデコード処理して、映像出力部3hに出力する。
データ放送情報解析部3fは、情報分離部3cが出力したデータ放送のデータを解析して、データ放送ブラウザ3iに出力する情報を抽出する。
音声出力部3gは、音声デコード部3dから入力されたデコード済みの音声データを音声信号として電子機器2に出力する。
映像出力部3hは、映像デコード部3eから入力されたデコード済みの映像データを映像信号として画面制御部3jに出力する
データ放送ブラウザ3iは、データ放送情報解析部3fから入力された情報を用いて、データ放送画面を示す映像信号を生成し、画面制御部3jに出力する。また、データ放送ブラウザ3iは、データ放送情報解析部3fから入力された情報を用いて、コンテンツ情報を生成し、コンテンツ情報送信部3kに出力する。
画面制御部3jは、映像出力部3hから入力された映像信号とデータ放送ブラウザ3iから入力された映像信号とを用いて、デジタルテレビ放送の画面を示す映像信号を生成し、電子機器2に出力する。
コンテンツ情報送信部3kは、データ放送ブラウザ3iから入力されたコンテンツ情報を電子機器2に送信する。
操作イベント管理部3mは、信号選択部2pを介して電子機器2から入力された操作イベント信号が示す操作イベントを、デジタルテレビ受信部3の各部に通知し、操作イベント信号に応じた処理を行わせる。
次に、入出力部1と電子機器2とデジタルテレビ受信部3のハードウェア構成例について説明する。
入出力部1は、電源供給回路、CPU(Central Processing Unit)、メモリ、入出力インタフェース回路等から構成される。具体的には、音声出力部1aは、デジタルアナログ変換器を含むデジタルアナログ混在回路、スピーカ、当該スピーカを駆動するための周辺回路等で構成される。映像出力部1bは、液晶ディスプレイ等の表示器、当該表示器を駆動するための周辺回路等で構成される。リモコン操作入力部1cは、リモコンから出力される赤外光を受信するための赤外光受信機、当該受信機を駆動するための周辺回路等で構成される。音声入力部1dは、マイクロホン、当該マイクロホンを駆動するための周辺回路、アナログデジタル変換器を含むアナログデジタル混在回路等で構成される。入出力制御部1eは、デジタル信号のインタフェース回路等で構成される。
電子機器2は、電源供給回路、CPU、メモリ、入出力インタフェース回路等から構成される。具体的には、音声伝送部2aと映像伝送部2bと操作イベント伝送部2cとは、デジタル信号のインタフェース回路等で構成される。信号選択部2pは、スイッチを備えた回路等で構成される。
音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各機能は、処理回路により実現される。当該処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するCPUであってもよい。CPUは、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、DSP(Digital Signal Processor)とも呼ばれる。
図2Aは、音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の機能を、専用のハードウェアである処理回路101で実現した場合のハードウェア構成例を示す図である。処理回路101は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、またはこれらを組み合わせたものが該当する。音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の機能を別個の処理回路101を組み合わせて実現してもよいし、各部の機能を1つの処理回路101で実現してもよい。
図2Bは、音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の機能を、メモリ102に格納されるプログラムを実行するCPU103で実現した場合のハードウェア構成例を示す図である。この場合、音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組合せにより実現される。ソフトウェア及びファームウェアはプログラムとして記述され、メモリ102に格納される。CPU103は、メモリ102に格納されたプログラムを読み出して実行することにより、音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の機能を実現する。すなわち、電子機器2は、後述する図4、図8、図11、図14、図17及び図20のフローチャートで示す各ステップが結果的に実行されることになるプログラム等を格納するためのメモリ102を有する。また、これらのプログラムは、音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の手順又は方法をコンピュータに実行させるものであるとも言える。ここで、メモリ102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)等の、不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)等が該当する。
なお、音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、音響分析部2d、尤度計算部2f、照合部2iについては専用のハードウェアとしての処理回路でその機能を実現し、音声認識結果変換部2j、コンテンツ情報管理部2kについては処理回路がメモリに格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組合せによって、上記の音響分析部2d、尤度計算部2f、照合部2i、音声認識結果変換部2j、コンテンツ情報管理部2k、言語解析部2nの各部の機能を実現することができる。
また、音響標準パターン記憶部2e、共通操作用音声認識辞書2g、コンテンツ専用音声認識辞書2h、言語解析辞書2mは、メモリ102と同様に各種の記録媒体で構成される。
デジタルテレビ受信部3は、電源供給回路、CPU、メモリ、入出力インタフェース回路等から構成される。具体的には、電波受信部3aは、アンテナ等で構成される。デジタル復調部3bと情報分離部3cと音声デコード部3dと映像デコード部3eとデータ放送情報解析部3fと映像出力部3hとデータ放送ブラウザ3iは、図2A及び図2Bを用いて説明したのと同様に構成される。音声出力部3gとコンテンツ情報送信部3kは、デジタル信号のインタフェース回路等で構成される。画面制御部3jと操作イベント管理部3mは、デジタル信号のインタフェース回路を有しつつ、図2A及び図2Bを用いて説明したのと同様に構成される。
次に、図1に示す音声認識機能付きシステムによる処理について説明する。
ユーザが不図示の電源ボタン等を押下すると、音声認識機能付きシステムの各部に電源が供給され、音声認識機能付きシステムは、ハードウェア及びソフトウェアを初期化して、予め設定されたデフォルトの状態とする。
続いて、電子機器2は、図1では不図示のGUI画面生成部を用いて、映像音声源をユーザに選択させるメニュー画面を示す映像信号を生成する。この映像信号は、映像伝送部2bを介して入出力部1に出力される。
入出力部1と電子機器2との間の映像信号及び音声信号の伝送は、例えばHDMI(High−Definition Multimedia Interface、登録商標/以下、記載を省略する)を用いて実施する。HDMIはデジタル家電向けのインタフェースであり、PC(Personal Computer)とディスプレイの接続標準規格であるDVI(Digital Visual Interface)を基に、音声伝送機能、デジタルコンテンツの不正コピー防止等の著作権保護機能、色差伝送機能を加えるなどしてAV(Audio Visual)家電向けに改良されたものである。HDMIは、非圧縮デジタル形式の音声信号と映像信号とを伝送し、音質、画質が理論的に伝送中に劣化することはない。
電子機器2から入出力部1に入力された、映像音声源をユーザに選択させるメニュー画面を示す映像信号は、入出力制御部1eを介して最終的に映像出力部1bに出力され、映像出力部1bは、映像音声源を選択させるメニュー画面を表示する。
続いて、ユーザは、映像出力部1bに表示された当該メニュー画面を見て、リモコン操作又は音声操作により、3つの映像音声源のうちいずれかを選択する。ユーザがリモコン操作を行う場合、リモコン操作入力部1cはリモコンからの赤外光を受けて操作イベント信号を入出力制御部1eに出力し、当該信号は入出力制御部1eを介して電子機器2に入力される。また、ユーザが音声操作を行う場合、音声入力部1dはユーザが発声した入力音声を集音して入力音声信号を入出力制御部1eに出力し、当該信号は入出力制御部1eを介して電子機器2に入力される。リモコン操作によって入出力部1から電子機器2に入力される操作イベント信号、及び、音声操作によって入出力部1から電子機器2に入力される入力音声信号は、いずれもユーザの操作イベントを示す操作信号である。
入出力部1と電子機器2との間の操作信号の伝送は、例えばCAN(Controller Area Network)を用いて実施する。CANは、車載環境での耐ノイズ性の強化を考慮して設計され、相互接続された機器間のデータ転送に使われる規格である。自動車においては、速度、エンジンの回転数、ブレーキの状態、故障診断の情報等の転送に使用されている。ドイツのボッシュ社が提唱し、その後、国際標準化機構がISO11898及びISO11519として標準化している。
入出力部1から電子機器2に入力された操作信号は、リモコン操作の場合、操作イベント伝送部2cを介して信号選択部2pに出力される。また、操作信号は、音声操作の場合、音響分析部2dと尤度計算部2fと照合部2iと音声認識結果変換部2jとで処理されて、操作イベント信号として信号選択部2pに出力される。
ユーザが映像音声源としてデジタルテレビ受信部3を選択した場合、信号選択部2pは、端子D1と端子S1とを接続した状態となる。同様に、ユーザが映像音声源として光ディスク再生部4を選択した場合、信号選択部2pは、端子D1と端子S2とを接続した状態となる。同様に、ユーザが映像音声源としてUSBメモリ再生部5を選択した場合、信号選択部2pは、端子D1と端子S3とを接続した状態となる。
以上のようにして、デジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5という3つの映像音声源のいずれかが選択される。
ここで、デジタルテレビ受信部3によるデジタルテレビ放送の受信処理について説明する。実施の形態1では、地上デジタルテレビ放送波として、日本の地上デジタルテレビ放送波を受信する場合を例に挙げて説明する。
電波受信部3aは、UHF(Ultra High Frequency)帯の13〜62チャンネルで放送される地上デジタルテレビ放送波を受信して、受信信号をデジタル復調部3bに出力する。
続いて、デジタル復調部3bは、ユーザ所望のチャンネルに対応する受信信号を選択し、当該受信信号をデジタル復調してTS(Transport Stream)にして、情報分離部3cに出力する。TSは、MPEG−2規格及びARIB(Association of Radio Industries and Businesses)標準規格に準拠して音声データ、映像データ、データ放送のデータ等の複数のデータを多重化したデータ列である。
続いて、情報分離部3cは、TS内に多重化されている各種のデータを、音声データと、映像データと、データ放送のデータとしてDSM−CC(Digital Storage Media−Command and Control)形式のデータとに分離して、音声デコード部3dと映像デコード部3eとデータ放送情報解析部3fとに出力する。
音声デコード部3dは、情報分離部3cが出力した音声データを解析して適当な方式でデコード処理し、音声出力部3gに出力する。音声出力部3gは、音声デコード部3dから入力されたデコード済みの音声データを音声信号として電子機器2に出力する。
映像デコード部3eは、情報分離部3cが出力した映像データを解析して適当な方式でデコード処理し、映像出力部3hに出力する。映像出力部3hは、映像デコード部3eから入力されたデコード済みの映像データを映像信号として画面制御部3jに出力する。映像デコード部3eが出力する映像信号が示す映像は、例えば後述の図3に示す画面であれば、領域aである番組映像部分に対応する。
データ放送情報解析部3fは、情報分離部3cが出力したDSM−CC形式のデータを解析し、当該データ中に含まれるBML(Broadcast Markup Language)情報を抽出してデータ放送ブラウザ3iに出力する。データ放送ブラウザ3iは、BML情報を解析して、データ放送画面を示す映像信号を生成し、画面制御部3jに出力する。データ放送画面は、例えば後述の図3に示す画面であれば、領域aである番組映像部分を除く部分に相当する。
続いて、画面制御部3jは、映像出力部3hから入力された映像信号とデータ放送ブラウザ3iから入力された映像信号とを用いて、図3に示すような1枚のデジタルテレビ放送の画面を示す映像信号を生成する。領域aには、選局中のチャンネルの番組映像が表示される。領域bには、選局中のチャンネル名が表示され、領域cには、現在の日付及び時刻が表示され、領域dには、領域aで表示中の番組名が表示される。また、それぞれ「ニュース」、「気象情報」、「警報・災害情報」、「地域情報」という文字列が付けられたボタンA〜Dは、ユーザの操作対象となるGUIオブジェクトであり、ユーザがリモコンを用いてボタンA〜Dを押下するなどすると、ニュース、気象情報等の各項目について詳細な情報が示されたデータ放送画面へと遷移する。選局中のチャンネル、表示中の番組、季節等に応じて、地上デジタルテレビ放送波により配信されるデータ放送というコンテンツの内容が様々に変わることから、図3に示すデータ放送画面の内容も、選局中のチャンネル、表示中の番組、季節等に応じて様々に変わる。つまり、ボタンA〜Dは、コンテンツに依存して生成された操作対象である。
画面制御部3jが生成した映像信号は、電子機器2に出力される。
電子機器2とデジタルテレビ受信部3との間の映像信号及び音声信号の伝送は、例えばHDMIを用いて実施する。
デジタルテレビ受信部3から電子機器2に入力された音声信号は、音声伝送部2aを介して、また、デジタルテレビ受信部3から電子機器2に入力された映像信号は、映像伝送部2bを介して、入出力部1に出力される。その際、必要に応じて音声伝送部2aは、入力された音声信号にサンプリング周波数変換等を施し、入出力部1で処理可能な形式にして出力する。同様に、必要に応じて映像伝送部2bは、入力された映像信号に解像度の変換、インターレース方式とプログレッシブ方式間の変換等を施し、入出力部1で処理可能な形式にして出力する。
なお、電子機器2とデジタルテレビ受信部3との間では、映像信号及び音声信号以外の信号も互いに伝送されており、こうした信号の伝送には、例えばCANを用いる。
次に、デジタルテレビ受信部3で受信したデジタルテレビ放送がユーザに提供されている場合、つまり、信号選択部2pが端子D1と端子S1とを接続した状態となっている場合の、コンテンツ専用音声認識辞書2hへの文字列読み情報の登録処理について、図4に示すフローチャートを用いて説明する。
まず、コンテンツ情報管理部2kが、入出力部1でデータ放送画面を表示中かを判定する(ステップST1)。例えば、コンテンツ情報管理部2kは、デジタルテレビ受信部3に対して、データ放送画面が表示されるような映像信号を電子機器2に出力しているかを問い合わせる。番組表画面及びチャンネル一覧画面等が入出力部1で表示されている場合は、データ放送画面は表示されない。チャンネル一覧画面は、選局可能なチャンネルを一覧で示した画面である。
デジタルテレビ受信部3は、画面制御部3jが生成した映像信号を電子機器2に出力している。また、データ放送画面を示す映像信号は、データ放送ブラウザ3iで生成されて、画面制御部3jに出力されている。画面制御部3jは、データ放送ブラウザ3iが出力したデータ放送画面を示す映像信号を用いて映像信号を生成している場合に、データ放送画面が表示されるような映像信号を電子機器2に出力している旨を、また、そうでない場合にはその旨を、電子機器2に通知する。
入出力部1でデータ放送画面を表示中ではない場合(ステップST1;NO)、コンテンツ情報管理部2kが、デジタルテレビ受信部3用の第1コンテンツ専用音声認識辞書21hに登録されている文字列読み情報等を破棄する(ステップST2)。具体的には、第1コンテンツ専用音声認識辞書21hとして割り付けられているメモリ領域を初期化する。
一方、入出力部1でデータ放送画面を表示中である場合(ステップST1;YES)、コンテンツ情報管理部2kが、第1コンテンツ専用音声認識辞書21hが作成済みかを判定する(ステップST3)。第1コンテンツ専用音声認識辞書21hが作成済みとは、第1コンテンツ専用音声認識辞書21hに文字列読み情報がなにかしら登録されている状態を指す。例えば、第1コンテンツ専用音声認識辞書21hが作成されると設定され、ステップST2のように初期化されると消去されるフラグをコンテンツ専用音声認識辞書2hに用意しておく。コンテンツ情報管理部2kは、このフラグに基づき、第1コンテンツ専用音声認識辞書21hが作成済みかを判定する。あるいは、第1コンテンツ専用音声認識辞書21hとして割り付けられているメモリ領域に情報が書き込まれているか否かに基づき、判定してもよい。
第1コンテンツ専用音声認識辞書21hが作成済みではない場合(ステップST3;NO)、後述のステップST5の処理に移行する。
一方、第1コンテンツ専用音声認識辞書21hが作成済みの場合(ステップST3;YES)、コンテンツ情報管理部2kが、第1コンテンツ専用音声認識辞書21hに文字列読み情報が前回登録された時点から、データ放送画面の表示内容が更新されたかを判定する(ステップST4)。例えば、コンテンツ情報管理部2kは、デジタルテレビ受信部3に対して、第1コンテンツ専用音声認識辞書21hに文字列読み情報が前回登録された際の時刻を通知するとともに、データ放送画面の表示内容の更新の有無を問い合わせる。このために、コンテンツ情報管理部2kは、後述のステップST7のように第1コンテンツ専用音声認識辞書21hに文字列読み情報が登録される度に、その時刻を記憶する。デジタルテレビ受信部3では、データ放送画面を示す映像信号をデータ放送ブラウザ3iが生成している。データ放送ブラウザ3iは、データ放送画面を示す映像信号を生成し直す度にその時刻を記憶しており、当該時刻とコンテンツ情報管理部2kが通知する時刻とを比較して、データ放送画面の表示内容の更新の有無を電子機器2に通知する。
例えば、第1コンテンツ専用音声認識辞書21hに文字列読み情報が前回登録された時点では、図3に示すデータ放送画面が表示されており、その後ユーザが「ニュース」のボタンAを押下する操作を行った場合は、ニュースについて詳細な情報が示されたデータ放送画面へと遷移するので、データ放送画面の表示内容が更新されたことになる。
データ放送画面の表示内容が更新されていない場合(ステップST4;NO)、作成済みの第1コンテンツ専用音声認識辞書21hは更新不要であるため、処理を終了する。
一方、データ放送画面の表示内容が更新されている場合(ステップST4;YES)、コンテンツ情報管理部2kが、データ放送というコンテンツに依存して生成され、操作対象となる表示中のGUIオブジェクトに関する情報であるコンテンツ情報を取得する(ステップST5)。図3の画面例であれば、コンテンツに依存して生成され、操作対象となる表示中のGUIオブジェクトは、「ニュース」、「気象情報」、「警報・災害情報」、「地域情報」の4つのボタンA〜Dが該当する。
コンテンツ情報管理部2kは、デジタルテレビ受信部3に対して、コンテンツ情報の送信を要求する。要求を受けると、データ放送ブラウザ3iは、図5に示す表の情報を含んだコンテンツ情報を生成する。
図5における「ID番号」列の情報は、操作対象となるGUIオブジェクトの識別番号である。
「オブジェクト種類」列の情報は、GUIオブジェクトの種類を示し、図3の画面例では全て文字列付きボタンである。GUIオブジェクトの種類としては、文字列付きボタン以外にも、図付きボタン、チェックボックス、スクロール可能なテキストボックス等がある。なお、図3中の領域b〜dに示されているのは、文字列付きラベルであるので、操作対象とはならず、たとえユーザがリモコン操作により押下したとしても、画面の遷移等の変化は何ら起こらない。
「キャプション文字列」列の情報は、GUIオブジェクトに付けられている文字列の情報を示し、文字列付きボタンの場合、ボタン上に表示される文字列に該当する。
「対応する操作イベント」列の情報は、照合部2iが出力する音声認識結果が「ID番号」列の何れかに該当する場合に、電子機器2がデジタルテレビ受信部3へ送信する操作イベント信号で示すべき操作イベントである。
データ放送ブラウザ3iは、そもそも、BML情報を解析してGUIオブジェクトを含むデータ放送画面を示す映像信号を生成するものであるので、その際に同時にコンテンツ情報を生成することが可能である。
なお、入出力部1で表示されないGUIオブジェクトに関してまでコンテンツ情報を生成する必要性は低いので、データ放送ブラウザ3iは、コンテンツ情報を生成する際に、GUIオブジェクトが入出力部1で表示されるか否かを判定する。例えば、ユーザにより画面スクロール等の操作が行われると、一部のGUIオブジェクトが表示から外れる場合がある。
例えば図6に示すように、座標(0,0)を左下端点、座標(Xa,Ya)を右上端点とする長方形Eを映像出力部1bの全表示領域とし、また、座標(Xb,Yb)を左下端点、座標(Xc,Yc)を右上端点とする長方形Fを、図3に示すボタンA〜DのようなGUIオブジェクトとする。
データ放送ブラウザ3iは、(0≦Xb)かつ(Xc≦Xa)かつ(0≦Yb)かつ(Yc≦Ya)であるか否かを評価して、長方形Fで示すGUIオブジェクトが入出力部1で表示されるか否かを判定すればよい。ここで、(Xb<Xc)かつ(Yb<Yc)は、暗黙の前提条件である。評価結果が「真」の場合、長方形Fで示すGUIオブジェクトは、長方形Eで示す全表示領域の中にあることになる。一方、評価結果が「偽」の場合、長方形Fで示すGUIオブジェクトの一部又は全部が、長方形Eで示す全表示領域の外にあることになる。従って、データ放送ブラウザ3iは、評価結果が「真」であるGUIオブジェクトのみを対象に、コンテンツ情報を生成する。
データ放送ブラウザ3iは、以上のようにして生成したコンテンツ情報をコンテンツ情報送信部3kへ出力し、コンテンツ情報送信部3kを介してコンテンツ情報管理部2kはコンテンツ情報を取得する。
コンテンツ情報管理部2kは、コンテンツ情報を取得すると「ID番号」に示された識別番号及び「キャプション文字列」に示された文字列を抽出して言語解析部2nに出力し、言語解析部2nは、コンテンツ情報管理部2kから入力された文字列について言語解析辞書2mを用いた言語解析を行い、文字列読み情報を生成する(ステップST6)。
図5に示すコンテンツ情報の場合、図7に示すように「ID番号」及び「キャプション文字列」と紐付けられた「文字列読み情報」が、言語解析部2nによって生成される。
言語解析辞書2mは、表記と読みとの対応関係を数多く記憶した辞書である。ここでの表記は、文字列を構成する部分文字列を意味する。
言語解析部2nは、言語解析辞書2mを用いて、コンテンツ情報管理部2kから入力された「キャプション文字列」に示された文字列を、部分文字列に分割する。例えば、「気象情報」という文字列であれば、「気象」と「情報」という2つの部分文字列に分割する。そして、さらに言語解析部2nは、言語解析辞書2mを用いて、分割した部分文字列それぞれに対して読み情報を割り当てる。例えば、「気象」という部分文字列に対して「きしょう」という読み情報を割り当て、「情報」という部分文字列に対して「じょうほう」という読み情報を割り当てる。部分文字列それぞれの読み情報を合体して、言語解析部2nは、「文字列読み情報」を生成する。
なお、「キャプション文字列」で示す文字列から「文字列読み情報」を生成する方法については、特開2009−258293号公報に記載の「音声認識語彙辞書作成装置」、特開2002−41081号公報に記載の「音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体」等に詳細に開示されており、実施の形態1でもこれらの文献に示された方法と同様の処理を適宜採用すればよい。もちろん、これらの文献以外の方法を採用しても構わない。
また、言語解析部2nが生成するのは、図7に示すような文字列読み情報に限らず、異なる文字列を読む音声を識別可能な情報であればよい。文字列読み情報は、文字列について、当該文字列を読む音声に結びつく特徴情報の一例として示した。
続いて、言語解析部2nが、「ID番号」と「文字列読み情報」とを紐付けた状態で、第1コンテンツ専用音声認識辞書21hに登録する(ステップST7)。このとき、第1コンテンツ専用音声認識辞書21hに既に何らかの「ID番号」と「文字列読み情報」とが登録されている場合、それらを削除したうえで登録処理を行い、第1コンテンツ専用音声認識辞書21hを更新する。これにより、第1コンテンツ専用音声認識辞書21hに前回登録したID番号及び文字列読み情報を置き換える。
以上のようにして、第1コンテンツ専用音声認識辞書21hに、データ放送というコンテンツに依存して生成されて入出力部1の映像出力部1bで表示されており、かつ操作対象となるGUIオブジェクトのみに限って、当該GUIオブジェクトに付けられた文字列の文字列読み情報が登録される。
次に、データ放送画面をユーザが音声操作する場合の処理について、図8に示すフローチャートを用いて説明する。
なお、入力音声を音響分析し、分析結果に基づいて入力音声を認識する方法については、上記の特開2002‐41081号公報等に開示されており、以下では詳細な説明を省略する。
ユーザが図3に示すようなデータ放送画面を見て、例えば「ニュース」と発声すると、ユーザが発声した入力音声は、音声入力部1dで集音され、入力音声信号として入出力制御部1eに出力される。音響分析部2dは、入出力制御部1eを介して、入力音声信号を取得し、音響分析を行う(ステップST10)。音響分析の結果は、尤度計算部2fに出力される。
具体的には例えば、音響分析部2dは、入力音声信号を20ミリ秒〜40ミリ秒程度の短い時間間隔のフレーム単位で周波数分析し、音声の周波数的な特徴を示す周波数パラメータの時系列を生成する。そして、音響分析部2dは、音響分析の結果として、生成した周波数パラメータの時系列を尤度計算部2fへ出力する。
続いて、尤度計算部2fが、入力された周波数パラメータの時系列と比較するために、音響標準パターン記憶部2eに記憶されている音韻毎の音響標準パターンを読み出す(ステップST11)。音韻毎の音響標準パターンとは、各音韻の代表的な周波数パラメータである。
続いて、尤度計算部2fが、読み出した音韻毎の音響標準パターンと周波数パラメータの時系列をフレーム単位で比較して、入力音声の各フレームが、どの音韻に、どの程度似ているかを表す尤度を計算する(ステップST12)。計算されたフレーム毎の尤度は、照合部2iに出力される。
続いて、照合部2iが、共通操作用音声認識辞書2gに記憶されている全ての文字列読み情報を読み出す(ステップST13)。
続いて、照合部2iが、入力音声が共通操作用音声認識辞書2gに文字列読み情報が記憶されている語彙であるか、つまり入力音声が共通操作用であるかを判定する(ステップST14)。
具体的には、照合部2iが、入力されたフレーム毎の尤度を、共通操作用音声認識辞書2gに記憶されている全ての文字列読み情報と照合し、共通操作用音声認識辞書2gに文字列読み情報が記憶されている全ての語彙に対する類似度を計算する。そして、照合部2iは、計算した類似度が最大の語彙を抽出し、当該語彙の類似度が設定値以上の場合に、入力音声が共通操作用音声認識辞書2gに文字列読み情報が記憶されている語彙であると判定する。
入力音声が、共通操作用音声認識辞書2gに文字列読み情報が記憶されている語彙である場合(ステップST14;YES)、後述のステップST18の処理に移行する。
一方、入力音声が、共通操作用音声認識辞書2gに文字列読み情報が記憶されている語彙でない場合(ステップST14;NO)、照合部2iが、第1コンテンツ専用音声認識辞書21hに記憶されている全ての文字列読み情報を読み出す(ステップST15)。
第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている語彙は、例えば図7の表に示すような文字列読み情報として記憶されている4つの語彙であり、データ放送画面に表示中のGUIオブジェクトを音声操作するための語彙である。
続いて、照合部2iが、入力音声が第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている語彙であるか、つまり入力音声がコンテンツ操作用であるかを判定する(ステップST16)。
具体的には、照合部2iが、入力されたフレーム毎の尤度を、第1コンテンツ専用音声認識辞書21hに記憶されている全ての文字列読み情報と照合し、第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている全ての語彙に対する類似度を計算する。そして、照合部2iは、計算した類似度が最大の語彙を抽出し、当該語彙の類似度が設定値以上の場合に、入力音声が第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている語彙であると判定する。
入力音声が、第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている語彙でない場合(ステップST16;NO)、電子機器2は、音声認識の失敗を示す音声信号又は映像信号を入出力部1に出力する(ステップST17)。これにより、音声認識に失敗した旨が、音声又は映像でユーザに報知される。そして、電子機器2は、次の入力音声に備える。
一方、入力音声が、第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている語彙である場合(ステップST16;YES)、又は、入力音声が、共通操作用音声認識辞書2gに文字列読み情報が記憶されている語彙である場合(ステップST14;YES)、照合部2iが、音声認識結果を音声認識結果変換部2jに出力し、音声認識結果変換部2jが、入力された音声認識結果を操作イベント信号に変換して出力する(ステップST18)。
例えば、入力音声が「ニュース」である場合を例に説明する。照合部2iは、第1コンテンツ専用音声認識辞書21hを用いて、「ニュース」に対応するID番号を音声認識結果として出力する。音声認識結果変換部2jは、コンテンツ情報管理部2kが管理するコンテンツ情報を用いて、音声認識結果であるID番号に対応する操作イベントを特定し、当該操作イベントを示す操作イベント信号をデジタルテレビ受信部3に出力する。この場合、「ボタンA押下」を示す操作イベント信号を出力する。この操作イベント信号は、リモコン操作により「ニュース」のGUIオブジェクトを押下した場合にデジタルテレビ受信部3に出力される操作イベント信号と同様のものである。
音声認識結果変換部2jが出力した操作イベント信号は、操作イベント管理部3mに入力される。操作イベント管理部3mは、操作イベント信号が示す操作イベントをデータ放送ブラウザ3iに通知し、データ放送ブラウザ3iは、ニュースについて詳細な情報が示されたデータ放送画面を示す映像信号を生成する。
データ放送ブラウザ3iが生成したこの映像信号は、画面制御部3jにて映像出力部3hが出力する映像信号と合成されて、1枚のデジタルテレビ放送の画面を示す映像信号が電子機器2を介して入出力部1に入力される。
以上のようにして、ユーザは、音声によってデータ放送画面を操作する。
以上のように、この実施の形態1に係る電子機器2によれば、コンテンツ情報管理部2kは、データ放送というコンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得し、言語解析部2nは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第1コンテンツ専用音声認識辞書21hに登録する。そして、照合部2iは、共通操作用音声認識辞書2gに加えて第1コンテンツ専用音声認識辞書21hを用いて、入力音声を対象に音声認識を行う。
文字列として画面に表示されてユーザに報知されている語彙が、音声認識の対象となるので、ユーザにとっては音声操作をする場合にどのような語彙を発声すればよいのかが分かりやすく、操作性の良い音声認識を提供することができる。
また、コンテンツに依存して生成された表示中の操作対象に付けられている文字列について第1コンテンツ専用音声認識辞書21hに動的に登録することで、コンテンツによる表示内容が事前に分からなくとも、任意のコンテンツを音声操作するのに必要な情報が第1コンテンツ専用音声認識辞書21hに登録される。
また、表示中の操作対象に限って、付けられている文字列について第1コンテンツ専用音声認識辞書21hに登録するので、文字列読み情報が登録される語彙があまり増大せず、語彙数の増大に伴う音声認識の誤認識が少なくなる。
また、コンテンツ情報管理部2kは、表示内容が更新されるたびに、操作対象に付けられている文字列の情報を取得し、言語解析部2nは、表示内容が更新されてコンテンツ情報管理部2kが取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成し、当該文字列読み情報で第1コンテンツ専用音声認識辞書21hに前回登録した文字列読み情報を置き換えることとした。表示内容が更新される度に、第1コンテンツ専用音声認識辞書21hも更新されるので、常に適切な音声操作が可能となる。また、第1コンテンツ専用音声認識辞書21hの更新により、前回登録された文字列読み情報は削除されるので、文字列読み情報が登録される語彙が累積的に増大せず、語彙数の増大に伴う音声認識の誤認識が少なくなる。
また、照合部2iによる音声認識結果を、ユーザの操作内容である操作イベントを示す操作イベント信号に変換する音声認識結果変換部2jを備え、コンテンツ情報管理部2kは、コンテンツに依存して生成された表示中の操作対象が操作された場合に出力される操作イベント信号で示される操作イベントの情報を取得し、音声認識結果変換部2jは、当該情報を用いて、照合部2iによる音声認識結果を、対応する操作イベントを示す操作イベント信号に変換することとした。コンテンツ情報管理部2kが、操作対象が操作された場合に出力される操作イベント信号で示される操作イベントの情報を取得することで、各種の制御仕様に準拠したデジタルテレビ受信部3等の映像音声源を電子機器2に接続する場合でも、電子機器2の仕様を接続する映像音声源の制御仕様に合わせて変更する必要がなくなる。
また、コンテンツに依存せずに生成される操作対象に対応する音声に結びつく文字列読み情報を記憶する共通操作用音声認識辞書2gと、言語解析部2nが生成した文字列読み情報を記憶するコンテンツ専用音声認識辞書2hとを、別個のメモリに有することとした。このようにすると、コンテンツ専用音声認識辞書2hを更新している最中にシステムの電源が喪失するなどの障害が発生しても、共通操作用音声認識辞書2gに悪影響が及ぶ恐れを小さくできる。また、共通操作用音声認識辞書2gについては内容を更新する必要がなくなるので、共通操作用音声認識辞書2gをROM等の安価なメモリで構成でき、システムの製造コストを低減できる。
実施の形態2.
図9に、この発明の実施の形態2に係る音声認識機能付き電子機器2の構成を示す。図9では、電子機器2が、入出力部1とデジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とに接続して音声認識機能付きシステムを構成している場合を示している。なお、実施の形態2では、光ディスクに記憶された情報が入出力部1からユーザに提供される場合を例に説明するので、煩雑さを避けるためにデジタルテレビ受信部3及びUSBメモリ再生部5の構成は簡略化している。
実施の形態2は、ユーザに提供されるのが光ディスクに記憶された情報である点で実施の形態1と異なり、図9に示す構成のうち、図1と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。
光ディスク再生部4は、DVD(Digital Versatile Disc)、BD(Blu−ray Disc、登録商標/以下、記載を省略する)等の光ディスクに記録されたコンテンツを再生する処理等を行う。光ディスク再生部4は、ディスク制御部4aとディスク情報読み出し部4bと情報分離部4cと音声デコード部4dと映像デコード部4eとメディアコンテンツデコード部4fと音声出力部4gと映像出力部4hとメディアコンテンツ実行部4iと画面制御部4jとコンテンツ情報送信部4kと操作イベント管理部4mとを有する。
ディスク制御部4aは、光ディスクの挿抜、回転等を制御する。
ディスク情報読み出し部4bは、光ディスクに記録された情報を読み出し、読み出した情報を情報分離部4cに出力する。
情報分離部4cは、ディスク情報読み出し部4bが出力した情報に多重化されている、コンテンツの音声データ、コンテンツの映像データ、コンテンツの映像音声以外のデータ等の各データを分離し、音声デコード部4dと映像デコード部4eとメディアコンテンツデコード部4fとに出力する。
音声デコード部4dは、情報分離部4cが出力したコンテンツの音声データをデコード処理して、音声出力部4gに出力する。
映像デコード部4eは、情報分離部4cが出力したコンテンツの映像データをデコード処理して、映像出力部4hに出力する。
メディアコンテンツデコード部4fは、情報分離部4cが出力したコンテンツの映像音声以外のデータをデコード処理して、メディアコンテンツ実行部4iに出力する。
音声出力部4gは、音声デコード部4dから入力されたデコード済みの音声データを音声信号として電子機器2に出力する。
映像出力部4hは、映像デコード部4eから入力されたデコード済みの映像データを映像信号として画面制御部4jに出力する。
メディアコンテンツ実行部4iは、メディアコンテンツデコード部4fから入力されたデコード済みの映像音声以外のデータに応じてディスクメニュー画面等を示す映像信号を生成するなどし、画面制御部4jに出力する。また、メディアコンテンツ実行部4iは、コンテンツ情報を生成し、コンテンツ情報送信部4kに出力する。
画面制御部4jは、映像出力部4hから入力された映像信号とメディアコンテンツ実行部4iから入力された映像信号とを用いて、1枚の表示用画面を示す映像信号を生成し、電子機器2に出力する。
コンテンツ情報送信部4kは、メディアコンテンツ実行部4iから入力されたコンテンツ情報を電子機器2に送信する。
操作イベント管理部4mは、信号選択部2pを介して電子機器2から入力された操作イベント信号が示す操作イベントを、光ディスク再生部4の各部に通知し、操作イベント信号に応じた処理を行わせる。
メディアコンテンツ実行部4iは、BDに記録されたJava(登録商標/以下、記載を省略する)機能を使用したコンテンツを実行するBD−J(Blu−ray Disc−Java)実行部41iと、BDに記録されたJava機能を使用しないコンテンツを実行するHDMV(High Definition Movie)実行部42iと、DVDのメニュー機能等を実行するDVDナビゲーション実行部43iとを有する。
BD−J及びHDMVは、BDに映画等のコンテンツを記録する際に使われる規格であり、その規格は「System Description Blu−ray Disc Read−Only Format,Part 3 Audio Visual Basic Specifications,Version 2.4 for 2D,December 2009」で定義される。BD−Jは、Java機能を使った高度なインタラクティブ機能を追加することができ、HDMVはJava機能を使わずにDVDとの親和性がより高いという特徴がある。
また、DVDに関する規格は、「再生専用ディスク DVD規格,パート3 ビデオ規格(邦訳),バージョン1.0」で定義される。
光ディスク再生部4は、電源供給回路、CPU、メモリ、入出力インタフェース回路等から構成される。具体的には、ディスク制御部4aは、光ディスクを回転させる制御モーター、光学的ピックアップ、光ディスクの回転数及び光学的ピックアップの位置等を制御する制御回路等で構成される。ディスク情報読み出し部4bは、光学的ピックアップが出力する電気信号をデジタル化するデジタルインタフェース回路、デジタル化したデータを一時的に蓄積するデジタルメモリ回路を有しつつ、図2A及び図2Bを用いて説明したのと同様に構成される。情報分離部4cと音声デコード部4dと映像デコード部4eとメディアコンテンツデコード部4fと映像出力部4hとメディアコンテンツ実行部4iは、図2A及び図2Bを用いて説明したのと同様に構成される。音声出力部4gとコンテンツ情報送信部4kは、デジタル信号のインタフェース回路等で構成される。画面制御部4jと操作イベント管理部4mは、デジタル信号のインタフェース回路を有しつつ、図2A及び図2Bを用いて説明したのと同様に構成される。
次に、信号選択部2pが端子D1と端子S2とを接続した状態となっており、光ディスク再生部4が光ディスクを再生する場合の処理について説明する。当該処理は、光ディスクを再生する場合の処理として周知の処理と概ね同様であるので、以下では簡単な説明に留める。
ディスク制御部4aは、BD、DVD等の光ディスクがディスクスロット又はディスクトレーに挿入されると、光ディスクを回転させ、光ピックアップの位置を制御して、光ディスクに記録されている情報を読み出せる状態にする。
続いて、ディスク情報読み出し部4bは、光ディスクに記録されている情報を読み出し、その情報のデータ構造等に基づいて、BD、DVD等、挿入された光ディスクの種類を判定する。そして、ディスク情報読み出し部4bは、判定した光ディスクの種類に応じて、読み出した情報を整列してデジタルメモリ回路に記録する。整列された情報は、情報分離部4cに出力される。
続いて、情報分離部4cは、ディスク情報読み出し部4bが読み出した情報から、音声データ、映像データ、映像音声以外のデータ等を分離して、音声デコード部4dと映像デコード部4eとメディアコンテンツデコード部4fとに出力する。挿入された光ディスクがDVDの場合、前述したDVD規格で定義された論理データ構造中に音声データ、映像データ、ディスクメニュー画面のデータ等が格納されている。挿入された光ディスクがBDの場合、前述したBD−J、HDMVに関する規格に準拠したTS内に音声データ、映像データ、ディスクメニュー画面のデータ等が格納されている。なお、TSというデータの枠組み、いわゆるコンテナ自体は、実施の形態1で説明したデジタルテレビ放送の場合と同様であるが、格納されているデータ仕様はBD向けであり、デジタルテレビ放送向けのデータ仕様とは異なっている。
音声デコード部4dは、情報分離部4cが出力した音声データを解析して適当な方式でデコード処理し、音声出力部4gに出力する。音声出力部4gは、音声デコード部4dから入力されたデコード済みの音声データを音声信号として電子機器2に出力する。
映像デコード部4eは、情報分離部4cが出力した映像データを解析して適当な方式でデコード処理し、映像出力部4hに出力する。映像出力部4hは、映像デコード部4eから入力されたデコード済みの映像データを映像信号として画面制御部4jに出力する。
メディアコンテンツデコード部4fは、ディスクメニュー画面のデータ等、情報分離部4cが出力した音声データ及び映像データ以外のデータを解析してデコード処理し、メディアコンテンツ実行部4iに出力する。
続いて、メディアコンテンツ実行部4iは、メディアコンテンツデコード部4fが出力したディスクメニュー画面のデータ等を、光ディスクの種類及び再生対象のコンテンツの種類等に応じて、BD−J実行部41iとHDMV実行部42iとDVDナビゲーション実行部43iとで処理する。
例えば、挿入された光ディスクがBDであり、再生対象のコンテンツがBD−Jアプリケーションの場合、メディアコンテンツ実行部4iは、メディアコンテンツデコード部4fからのデータをBD−J実行部41iで処理する。また、挿入された光ディスクがBDであり、再生対象のコンテンツがHDMVアプリケーションの場合、メディアコンテンツ実行部4iは、メディアコンテンツデコード部4fからのデータをHDMV実行部42iで処理する。また、挿入された光ディスクがDVDの場合、メディアコンテンツ実行部4iは、メディアコンテンツデコード部4fからのデータをDVDナビゲーション実行部43iで処理する。
BD−J実行部41iとHDMV実行部42iとDVDナビゲーション実行部43iは、メディアコンテンツデコード部4fから入力されたデータに応じて、ディスクメニュー画面、字幕等を示す映像信号を生成し、画面制御部4jに出力する。
続いて、画面制御部4jは、映像出力部4hから入力された映像信号とメディアコンテンツ実行部4iから入力された映像信号とを用いて、1枚の表示用画面を示す映像信号を生成する。画面制御部4jが生成した映像信号は、電子機器2に出力される。
図10は、画面制御部4jが生成する映像信号が示す表示用画面の一例を示している。図10に示すのは、DVD、BD等の再生開始時に最初に表示されるディスクメニュー画面の例であり、メディアコンテンツ実行部4iが出力する映像信号が示す画面に等しい。図10において、「Play」と「Scenes」と「Set Up」と「Special Features」という文字列が付けられた4つのボタンG〜Jは、ユーザの操作対象となるGUIオブジェクトであり、ユーザがリモコンを用いてボタンG〜Jを押下するなどすると、ボタンに割り当てられた機能が各々開始される。
例えば、「Play」ボタンGが押下されると、本編の映画が再生される。また、「Scenes」ボタンHが押下されると、本編の映画における代表的なシーンをリスト表示する画面に遷移し、ユーザがいずれかのシーンを選択すると、そのシーンが表示される。また、「Set Up」ボタンIが押下されると、再生時の各種設定を行う画面へ遷移し、ユーザは、各種設定として字幕の表示又は非表示、字幕言語の選択等が設定できる。また、「Special Features」ボタンJが押下されると、本編の映画に関するクイズやおまけのミニゲーム等を選択するサブ画面へ遷移する。
なお、ディスクメニュー画面の表示内容及び各ボタンG〜Jが押下された時に開始される機能は、再生する光ディスクに記録されているコンテンツに応じて様々に異なる。つまり、ボタンG〜Jは、コンテンツに依存して生成された操作対象である。
多重化された情報から映像データ、音声データ等を分離し、分離した映像データ、音声データを各々デコードして出力するという情報処理の大まかな流れは、光ディスク再生部4と実施の形態1で説明したデジタルテレビ受信部3とで共通する。デジタルテレビ受信部3と光ディスク再生部4間の大きな相違点は、デジタルテレビ受信部3がデジタルテレビ放送波により受信した情報をリアルタイムで再生し続けるのに対して、光ディスク再生部4では、再生、停止、早送り、早戻し等の再生状態を内部的に持ち、ユーザがこの再生状態を制御できる点である。
次に、光ディスク再生部4が光ディスクに記録されたコンテンツを再生しており、入出力部1でディスクメニュー画面が表示されている場合の、コンテンツ専用音声認識辞書2hへの文字列読み情報の登録処理について、図11に示すフローチャートを用いて説明する。
まず、コンテンツ情報管理部2kが、入出力部1でディスクメニュー画面を表示中かを判定する(ステップST20)。例えば、コンテンツ情報管理部2kは、光ディスク再生部4に対して、ディスクメニュー画面が表示されるような映像信号を電子機器2に出力しているかを問い合わせる。光ディスク再生部4は、BD−J実行部41i、HDMV実行部42i又はDVDナビゲーション実行部43iで、ディスクメニュー画面を示す映像信号を生成している。BD再生中で、再生中のコンテンツがBD−Jアプリケーションの場合、BD−J実行部41iが、ディスクメニュー画面を示す映像信号を生成しているか否かを電子機器2に通知する。また、BD再生中で、再生中のコンテンツがHDMVアプリケーションの場合、HDMV実行部42iが、ディスクメニュー画面を示す映像信号を生成しているか否かを電子機器2に通知する。また、DVD再生中の場合、DVDナビゲーション実行部43iが、ディスクメニュー画面を示す映像信号を生成しているか否かを電子機器2に通知する。
入出力部1でディスクメニュー画面を表示中ではない場合(ステップST20;NO)、コンテンツ情報管理部2kが、光ディスク再生部4用の第2コンテンツ専用音声認識辞書22hに登録されている文字列読み情報等を破棄する(ステップST21)。具体的には、第2コンテンツ専用音声認識辞書22hとして割り付けられているメモリ領域を初期化する。
一方、入出力部1でディスクメニュー画面を表示中である場合(ステップST20;YES)、コンテンツ情報管理部2kが、第2コンテンツ専用音声認識辞書22hが作成済みかを判定する(ステップST22)。ステップST22の具体的な処理は、実施の形態1のステップST3で説明したものに相当する。
第2コンテンツ専用音声認識辞書22hが作成済みではない場合(ステップST22;NO)、後述のステップST24の処理に移行する。
一方、第2コンテンツ専用音声認識辞書22hが作成済みの場合(ステップST22;YES)、コンテンツ情報管理部2kが、第2コンテンツ専用音声認識辞書22hに文字列読み情報が前回登録された時点から、ディスクメニュー画面の表示内容が更新されたかを判定する(ステップST23)。例えば、コンテンツ情報管理部2kは、光ディスク再生部4に対して、第2コンテンツ専用音声認識辞書22hに文字列読み情報が前回登録された際の時刻を通知するとともに、ディスクメニュー画面の表示内容の更新の有無を問い合わせる。このために、コンテンツ情報管理部2kは、後述のステップST26のように第2コンテンツ専用音声認識辞書22hに文字列読み情報が登録される度に、その時刻を記憶する。光ディスク再生部4では、ディスクメニュー画面を示す映像信号をBD−J実行部41i、HDMV実行部42i又はDVDナビゲーション実行部43iが生成している。BD−J実行部41i、HDMV実行部42i又はDVDナビゲーション実行部43iは、ディスクメニュー画面を示す映像信号を生成し直す度にその時刻を記憶しており、当該時刻とコンテンツ情報管理部2kが通知する時刻とを比較して、ディスクメニュー画面の表示内容の更新の有無を電子機器2に通知する。
例えば、第2コンテンツ専用音声認識辞書22hに文字列読み情報が前回登録された時点では、図10に示すディスクメニュー画面が表示されており、その後ユーザが「Scenes」のボタンHを押下する操作を行った場合は、本編の映画における代表的なシーンをリスト表示するディスクメニュー画面へと遷移するので、ディスクメニュー画面の表示内容が更新されたことになる。
ディスクメニュー画面の表示内容が更新されていない場合(ステップST23;NO)、作成済みの第2コンテンツ専用音声認識辞書22hは更新不要であるため、処理を終了する。
一方、ディスクメニュー画面の表示内容が更新されている場合(ステップST23;YES)、コンテンツ情報管理部2kが、光ディスクに記録されたコンテンツに依存して生成され、操作対象となる表示中のGUIオブジェクトに関する情報であるコンテンツ情報を取得する(ステップST24)。図10の画面例であれば、コンテンツに依存して生成され、操作対象となる表示中のGUIオブジェクトは、「Play」と「Scenes」と「Set Up」と「Special Features」の4つのボタンG〜Jが該当する。
コンテンツ情報管理部2kは、光ディスク再生部4に対して、コンテンツ情報の送信を要求する。要求を受けると、メディアコンテンツ実行部4iは、図12に示す表の情報を含んだコンテンツ情報を生成する。
コンテンツ情報の生成方法は、光ディスクの種類、コンテンツの種類等によって異なる。以下に、コンテンツ情報の生成方法に関する簡単な説明を記載する。
まず、BD−Jアプリケーションの場合について説明する。
前述したBD−J規格によれば、BD−J実行部41iは、ディスクメニュー画面を作成する「BD−Jアプリケーション」と、BD−Jアプリケーションを制御する管理アプリケーション「Application Manager」と、Application Manager及びBD−Jアプリケーション等を実行する「Java仮想マシーン」と、PBP(Personal Basis Profile)1.0、GEM(Globally Executable MHP(Multimedia Home Platform))1.0.2、HAVi(Home Audio Video Interoperability)等の「プロファイル」とから構成される。
個々のBD−Jアプリケーションは、Java Xlet仕様に準拠したアプリケーションであり、Application ManagerがBD−Jアプリケーションのライフサイクルを制御する。ライフサイクルとは、Unloaded、Loaded、Paused、Active、Destroyedの5状態である。
BD−Jアプリケーションは、ディスクメニュー画面のGUI基盤としてorg.havi.ui.Hsceneクラスのオブジェクトを生成し、このHsceneオブジェクト上に文字列付きボタン等のGUIオブジェクトを配置する。
Application Managerは、Hsceneオブジェクトを管理するHSceneFactoryオブジェクトのgetInstance( )関数を使って、各BD−Jアプリケーションが生成したHsceneオブジェクトを取得する。
org.havi.ui.Hsceneクラスは、java.awt.Containerの派生クラスであるので、Application Managerは、Hscene.getComponentCount( )関数を使って、画面上に配置されているGUIオブジェクトの個数が取得でき、Hscene.getComponents( )関数を使って、画面上に配置されているGUIオブジェクトを取得できる。取得した全GUIオブジェクトについて、instanceOf演算子を使い、オブジェクトの種類がHTextButtonクラスか否かを確認し、HTextButtonクラスであれば、図12のようにコンテンツ情報に含めればよい。
以上のようにして、BD−J実行部41iによって、コンテンツ情報を生成することが可能である。
次に、HDMVアプリケーションの場合について説明する。
前述したHDMV規格によれば、HDMV実行部42iを構成するModule ManagerからHDMV Moduleを経由して、再生中のMovie Objectを解析する。Movie Object内に格納されたPES(Packetized Elementary Stream)を解析し、以下の順で上位から下位に向かってデータ構造を探索する。すなわち、graphics_segment( )構造体、segment_descriptor( )構造体、interactive_composition( )構造体、page( )構造体、button_overlap_group( )構造体、button( )構造体の順である。
最下層のbutton( )構造体から、コンテンツ情報に必要な情報を抽出して、コンテンツ情報とすればよい。なお、文字列付きボタン等のキャプション文字列が取得できない場合は、ボタンID、例えば、「いち」、「に」、「さん」、「よん」をキャプション文字列として使用すればよい。
以上のようにして、HDMV実行部42iによって、コンテンツ情報を生成することが可能である。
次に、DVDの場合について説明する。
前述したDVD規格によれば、DVD−Videoディスクの構成を上位から下位へ解析すると、以下のような階層構造になる。すなわち、DVDボリューム構造、DVD−Video zone、ビデオタイトルセット(VTS)、ビデオオブジェクト(VOB)、ナビゲーションパック(NV_PCK)、再生制御情報(PCI)、ハイライト情報(HLI)である。このハイライト情報(HLI)中に、文字列付きボタン等のボタン情報が記載されているので、このボタン情報を解析して、コンテンツ情報に必要な情報を取得する。なお、文字列付きボタンのキャプション文字列が取得できない場合は、ボタンID、例えば、「いち」、「に」、「さん」、「よん」をキャプション文字列として使用すればよい。
以上のようにして、DVDナビゲーション実行部43iによって、コンテンツ情報を生成することが可能である。
メディアコンテンツ実行部4iは、以上のようにして生成したコンテンツ情報をコンテンツ情報送信部4kへ出力し、コンテンツ情報送信部4kを介してコンテンツ情報管理部2kはコンテンツ情報を取得する。
コンテンツ情報管理部2kは、コンテンツ情報を取得すると「ID番号」に示された識別番号及び「キャプション文字列」に示された文字列を抽出して言語解析部2nに出力し、言語解析部2nは、コンテンツ情報管理部2kから入力された文字列について言語解析辞書2mを用いた言語解析を行い、文字列読み情報を生成する(ステップST25)。
図12に示すコンテンツ情報の場合、図13に示すように「ID番号」及び「キャプション文字列」と紐付けられた「文字列読み情報」が、言語解析部2nによって生成される。ステップST25の具体的な処理は、実施の形態1のステップST6で説明したものに相当する。ステップST6と異なる点は、「キャプション文字列」の文字列データが日本語でなく英語であり、生成される文字列読み情報が英語の発音記号である点だけである。従って、言語解析辞書2mに、日本語での表記と読みとの対応関係に加えて、英語での表記と読みとの対応関係を記憶させておけばよい。
続いて、言語解析部2nが、「ID番号」と「文字列読み情報」とを紐付けた状態で、第2コンテンツ専用音声認識辞書22hに登録する(ステップST26)。このとき、実施の形態1のステップST7と同様に、第2コンテンツ専用音声認識辞書22hに既に何らかの「ID番号」と「文字列読み情報」とが登録されている場合は、それらを削除したうえで登録処理を行う。
以上のようにして、第2コンテンツ専用音声認識辞書22hに、光ディスクに記録されたコンテンツに依存して生成されて入出力部1の映像出力部1bで表示されており、かつ操作対象となるGUIオブジェクトのみに限って、当該GUIオブジェクトに付けられた文字列の文字列読み情報が登録される。
次に、ディスクメニュー画面をユーザが音声操作する場合の処理について、図14に示すフローチャートを用いて説明する。図14に示す処理のうち、図8と同一又は相当する処理については、同一の符号を付してその説明を省略する。
ユーザが図10に示すようなディスクメニュー画面を見て、例えば「Scenes」と発声した場合に、照合部2iが、入力音声は共通操作用音声認識辞書2gに文字列読み情報が記憶されている語彙でないと判定すると(ステップST14;NO)、照合部2iが、第2コンテンツ専用音声認識辞書22hに記憶されている全ての文字列読み情報を読み出す(ステップST30)。
続いて、照合部2iが、入力音声が第2コンテンツ専用音声認識辞書22hに文字列読み情報が記憶されている語彙であるか、つまり入力音声がコンテンツ操作用であるかを判定する(ステップST31)。ステップST31の具体的な処理は、実施の形態1のステップST16で説明したものに相当する。
以上のように、この実施の形態2に係る電子機器2によれば、コンテンツ情報管理部2kは、光ディスクに記録されたコンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得し、言語解析部2nは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第2コンテンツ専用音声認識辞書22hに登録する。そして、照合部2iは、共通操作用音声認識辞書2gに加えて第2コンテンツ専用音声認識辞書22hを用いて、入力音声を対象に音声認識を行う。
これにより、実施の形態1と同様の効果を得ることができる。
実施の形態3.
図15に、この発明の実施の形態3に係る音声認識機能付き電子機器2の構成を示す。図15では、電子機器2が、入出力部1とデジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とに接続して音声認識機能付きシステムを構成している場合を示している。なお、実施の形態3では、USBメモリに記憶された情報が入出力部1からユーザに提供される場合を例に説明するので、煩雑さを避けるためにデジタルテレビ受信部3及び光ディスク再生部4の構成は簡略化している。
実施の形態3は、ユーザに提供されるのがUSBメモリに記憶された情報である点で実施の形態1と異なり、図15に示す構成のうち、図1と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。
USBメモリ再生部5は、USBメモリに記録されたコンテンツを再生する処理等を行う。USBメモリ再生部5は、USBメモリインタフェース部5aとファイルシステム5bと情報分離部5cと音声デコード部5dと映像デコード部5eとタイトル関連情報解析部5fと音声出力部5gと映像出力部5hとタイトル関連情報出力部5iと画面制御部5jとコンテンツ情報送信部5kと操作イベント管理部5mとを有する。
USBメモリインタフェース部5aは、接続されたUSBメモリを使用可能な状態に設定する。
ファイルシステム5bは、USBメモリインタフェース部5aに接続されたUSBメモリにファイル形式で記録されているコンテンツを論理的に読み書きし、読み出した情報を情報分離部5cに出力する。
情報分離部5cは、ファイルシステム5bが読み出した情報に多重化されている、コンテンツの音声データ、コンテンツの映像データ、コンテンツの映像音声以外のデータ等の各データを分離し、音声デコード部5dと映像デコード部5eとタイトル関連情報解析部5fとに出力する。
音声デコード部5dは、情報分離部5cが出力したコンテンツの音声データをデコード処理して、音声出力部5gに出力する。
映像デコード部5eは、情報分離部5cが出力したコンテンツの映像データをデコード処理して、映像出力部5hに出力する。
タイトル関連情報解析部5fは、情報分離部5cが出力したコンテンツの映像音声以外のデータをデコード処理して、タイトル関連情報出力部5iに出力する。
音声出力部5gは、音声デコード部5dから入力されたデコード済みの音声データを音声信号として電子機器2に出力する。
映像出力部5hは、映像デコード部5eから入力されたデコード済みの映像データを映像信号として画面制御部5jに出力する。
タイトル関連情報出力部5iは、タイトル関連情報解析部5fから入力されたデコード済みの映像音声以外のデータに応じて楽曲一覧画面等を示す映像信号を生成するなどし、画面制御部5jに出力する。また、タイトル関連情報出力部5iは、コンテンツ情報を生成し、コンテンツ情報送信部5kに出力する。
画面制御部5jは、映像出力部5hから入力された映像信号とタイトル関連情報出力部5iから入力された映像信号とを用いて、1枚の表示用画面を示す映像信号を生成し、電子機器2に出力する。
コンテンツ情報送信部5kは、タイトル関連情報出力部5iから入力されたコンテンツ情報を電子機器2に送信する。
操作イベント管理部5mは、信号選択部2pを介して電子機器2から入力された操作イベント信号が示す操作イベントを、USBメモリ再生部5の各部に通知し、操作イベント信号に応じた処理を行わせる。
USBメモリ再生部5は、電源供給回路、CPU、メモリ、入出力インタフェース回路等から構成される。具体的には、USBメモリインタフェース部5aは、USBメモリを接続するためのコネクタ、電源供給回路、入出力インタフェース回路等で構成される。ファイルシステム5bは、CPU上で実行するソフトウェアにより実現されており、汎用のPC等で使用されているFAT(File Allocation Table)ファイルシステム等と同様である。情報分離部5cと音声デコード部5dと映像デコード部5eとタイトル関連情報解析部5fと映像出力部5hとタイトル関連情報出力部5iは、図2A及び図2Bを用いて説明したのと同様に構成される。音声出力部5gとコンテンツ情報送信部5kは、デジタル信号のインタフェース回路等で構成される。画面制御部5jと操作イベント管理部5mは、デジタル信号のインタフェース回路を有しつつ、図2A及び図2Bを用いて説明したのと同様に構成される。
次に、信号選択部2pが端子D1と端子S3とを接続した状態となっており、USBメモリ再生部5がUSBメモリに記録されたコンテンツを再生する場合の処理について説明する。当該処理は、USBメモリに記録されたコンテンツを再生する場合の処理として周知の処理と概ね同様であるので、以下では簡単な説明に留める。
USBメモリインタフェース部5aは、USBメモリが接続されると、当該USBメモリに対する電源供給を開始し、当該USBメモリが対応可能な転送速度、転送方式等を調停し、接続されたUSBメモリを使用可能な状態に設定する。転送速度は、例えばUSB2.0仕様であれば、1.5Mbps、12Mbps、480Mbps等である。また、転送方式は、例えばUSB2.0仕様であれば、コントロール、バルク、インタラプト、アイソクロナス等である。
続いて、ファイルシステム5bは、接続されたUSBメモリのファイルシステムを調査し、該当するファイルシステムを使用可能に設定する。例えば、USBメモリが、FATファイルシステムによりフォーマットされていれば、FATファイルシステムを使用可能とし、NTFS(NT File System)によりフォーマットされていれば、NTFSを使用可能とする。この適切なファイルシステムを経由することで、ファイルシステム5bは、USBメモリに記録されているファイル形式のコンテンツを読み書き可能となる。そして、ファイルシステム5bは、読み出したコンテナファイルを情報分離部5cに出力する。
続いて、情報分離部5cは、ファイルシステム5bが出力したコンテナファイルから、音声データ、映像データ、映像音声以外のデータ等を分離して、音声デコード部5dと映像デコード部5eとタイトル関連情報解析部5fとに出力する。
コンテナファイルは、各種方法で圧縮された音声データ、映像データ、映像音声以外のデータ等をまとめたファイルである。代表的なコンテナとしては、AVI(Audio Video Interleave)、TS(MPEG2−TS)等がある。
音声デコード部5dは、情報分離部5cが出力した音声データを解析して適当な方式でデコード処理し、音声出力部5gに出力する。音声出力部5gは、音声デコード部5dから入力されたデコード済みの音声データを音声信号として電子機器2に出力する。
映像デコード部5eは、情報分離部5cが出力した映像データを解析して適当な方式でデコード処理し、映像出力部5hに出力する。映像出力部5hは、映像デコード部5eから入力されたデコード済みの映像データを映像信号として画面制御部5jに出力する。
タイトル関連情報解析部5fは、楽曲名及びアーティスト名のデータ等、情報分離部5cが出力した音声データ及び映像データ以外のデータを解析してデコード処理し、タイトル関連情報出力部5iに出力する。楽曲名及びアーティスト名のデータは、タイトル関連情報を示すデータである。
続いて、タイトル関連情報出力部5iは、タイトル関連情報解析部5fが出力した楽曲名及びアーティスト名のデータ等に応じて、例えば、図16のような楽曲一覧画面を示す映像信号を生成する。
続いて、画面制御部5jは、映像出力部5hから入力された映像信号と、タイトル関連情報出力部5iから入力された映像信号とを用いて、1枚の表示用画面を示す映像信号を生成する。画面制御部5jが生成した映像信号は、電子機器2に出力される。
図16は、画面制御部5jが生成する映像信号が示す表示用画面の一例を示している。図16に示すのは、USBメモリに記録されているコンテンツを再生する際に表示される楽曲一覧画面の例であり、タイトル関連情報出力部5iが出力する映像信号が示す画面に等しい。図16において、画面内の左上側にある「曲名1(アーティスト名1)」から「曲名4(アーティスト名4)」はそれぞれ、ユーザの操作対象となるGUIオブジェクトであり、当該GUIオブジェクトをユーザがリモコンを用いて操作するなどすると、対応する曲名の楽曲が再生される。
なお、画面内の左上側にある「曲名1(アーティスト名1)」から「曲名4(アーティスト名4)」は、再生するUSBメモリに記録されているコンテンツに応じて様々に異なる。つまり、これらは、コンテンツに依存して生成された操作対象である。
また、ボタンKは、押下されると表示内容が楽曲一覧の先頭側に移動し、ボタンLは、押下されると表示内容が楽曲一覧の末尾側に移動する。ボタンK及びボタンLは、PC等で表示されるいわゆるスクロールバーに相当する。
また、「前曲へ」「再生」、「次曲へ」、「ランダム再生」という文字列が付けられた4つのボタンM〜Pは、ユーザの操作対象となるGUIオブジェクトであり、ユーザがリモコンを用いてボタンM〜Pを押下するなどすると、ボタンに割り当てられた機能が各々開始される。
例えば、「前曲へ」ボタンMが押下されると、再生中の楽曲よりも楽曲一覧上で1つ前に位置する楽曲が再生される。また、「再生」ボタンNが押下されると、選択中の楽曲が再生される。また、「次曲へ」ボタンOが押下されると、再生中の楽曲よりも楽曲一覧上で1つ後に位置する楽曲が再生される。また、「ランダム再生」ボタンPが押下されると、楽曲一覧の各楽曲を乱数等に基づいて順不同で再生する。
領域eには、再生中の楽曲を含むアルバムの写真が表示され、領域eの下側には、再生中の楽曲の曲名、その楽曲のアーティスト名、その楽曲を含むアルバムの名前等が表示されている。
次に、USBメモリ再生部5がUSBメモリに記録されたコンテンツを再生しており、入出力部1で楽曲一覧画面が表示されている場合の、コンテンツ専用音声認識辞書2hへの文字列読み情報の登録処理について、図17に示すフローチャートを用いて説明する。
まず、コンテンツ情報管理部2kが、入出力部1で楽曲一覧画面を表示中かを判定する(ステップST40)。例えば、コンテンツ情報管理部2kは、USBメモリ再生部5に対して、楽曲一覧画面が表示されるような映像信号を電子機器2に出力しているかを問い合わせる。USBメモリ再生部5は、タイトル関連情報出力部5iで、楽曲一覧画面を示す映像信号を生成している。タイトル関連情報出力部5iは、楽曲一覧画面を示す映像信号を生成している場合にその旨を、また、そうでない場合にはその旨を電子機器2に通知する。
入出力部1で楽曲一覧画面を表示中ではない場合(ステップST40;NO)、コンテンツ情報管理部2kが、USBメモリ再生部5用の第3コンテンツ専用音声認識辞書23hに登録されている文字列読み情報等を破棄する(ステップST41)。具体的には、第3コンテンツ専用音声認識辞書23hとして割り付けられているメモリ領域を初期化する。
一方、入出力部1で楽曲一覧画面を表示中である場合(ステップST40;YES)、コンテンツ情報管理部2kが、第3コンテンツ専用音声認識辞書23hが作成済みかを判定する(ステップST42)。ステップST42の具体的な処理は、実施の形態1のステップST3で説明したものに相当する。
第3コンテンツ専用音声認識辞書23hが作成済みではない場合(ステップST42;NO)、後述のステップST44の処理に移行する。
一方、第3コンテンツ専用音声認識辞書23hが作成済みの場合(ステップST42;YES)、コンテンツ情報管理部2kが、第3コンテンツ専用音声認識辞書23hに文字列読み情報が前回登録された時点から、楽曲一覧画面の表示内容が更新されたかを判定する(ステップST43)。例えば、コンテンツ情報管理部2kは、USBメモリ再生部5に対して、第3コンテンツ専用音声認識辞書23hに文字列読み情報が前回登録された際の時刻を通知するとともに、楽曲一覧画面の表示内容の更新の有無を問い合わせる。このために、コンテンツ情報管理部2kは、後述のステップST46のように第3コンテンツ専用音声認識辞書23hに文字列読み情報が登録される度に、その時刻を記憶する。USBメモリ再生部5では、楽曲一覧画面を示す映像信号をタイトル関連情報出力部5iが生成している。タイトル関連情報出力部5iは、楽曲一覧画面を示す映像信号を生成し直す度にその時刻を記憶しており、当該時刻とコンテンツ情報管理部2kが通知する時刻とを比較して、楽曲一覧画面の表示内容の更新の有無を電子機器2に通知する。
例えば、第3コンテンツ専用音声認識辞書23hに文字列読み情報が前回登録された時点では、図16に示す楽曲一覧画面が表示されており、その後ユーザがボタンLを押下する操作を行った場合は、例えば「曲名1(アーティスト名1)」に代えて「曲名5(アーティスト名5)」が表示された楽曲一覧画面へと遷移するので、楽曲一覧画面の表示内容が更新されたことになる。
楽曲一覧画面の表示内容が更新されていない場合(ステップST43;NO)、作成済みの第3コンテンツ専用音声認識辞書23hは更新不要であるため、処理を終了する。
一方、楽曲一覧画面の表示内容が更新されている場合(ステップST43;YES)、コンテンツ情報管理部2kが、USBメモリに記録されたコンテンツに依存して生成され、操作対象となる表示中のGUIオブジェクトに関する情報であるコンテンツ情報を取得する(ステップST44)。このとき、図16の画面例が入出力部1で表示されているのであれば、コンテンツに依存して生成され、操作対象となる表示中のGUIオブジェクトは、画面内の左上側にある「曲名1(アーティスト名1)」と「曲名2(アーティスト名2)」と「曲名3(アーティスト名3)」と「曲名4(アーティスト名4)」とが該当する。
コンテンツ情報管理部2kは、USBメモリ再生部5に対して、コンテンツ情報の送信を要求する。要求を受けると、タイトル関連情報出力部5iは、図18に示す表の情報を含んだコンテンツ情報を生成する。
図18に示すコンテンツ情報は、実施の形態1で図5に示したコンテンツ情報と、オブジェクト種類が文字列付きリストである点、また、対応する操作イベントが「ボタンA押下」〜「ボタンD押下」でなく、「楽曲1再生」〜「楽曲4再生」である点で主に異なる。
なお、図16における4つのボタンM〜Pは、ユーザの操作対象とはなるが、コンテンツに依存せずに生成されるGUIオブジェクトであるので、コンテンツ情報には含まれない。これらのボタンM〜Pを音声操作するための語彙の文字列読み情報は、共通操作用音声認識辞書2gに当初から登録されている。
タイトル関連情報出力部5iは、そもそも、タイトル関連情報解析部5fが出力したデータに応じてGUIオブジェクトを含む楽曲一覧画面を示す映像信号を生成するものであるので、その際に同時にコンテンツ情報を生成することが可能である。
タイトル関連情報出力部5iは、生成したコンテンツ情報をコンテンツ情報送信部5kへ出力し、コンテンツ情報送信部5kを介してコンテンツ情報管理部2kはコンテンツ情報を取得する。
コンテンツ情報管理部2kは、コンテンツ情報を取得すると「ID番号」に示された識別番号及び「キャプション文字列」に示された文字列を抽出して言語解析部2nに出力し、言語解析部2nは、コンテンツ情報管理部2kから入力された文字列について言語解析辞書2mを用いた言語解析を行い、文字列読み情報を生成する(ステップST45)。
図18に示すコンテンツ情報の場合、図19に示すように「ID番号」及び「キャプション文字列」と紐付けられた「文字列読み情報」が、言語解析部2nによって生成される。図19に示す文字列読み情報では、キャプション文字列の後半部分にあたるアーティスト名1〜4の読み情報を省略した場合を示している。ステップST45の具体的な処理は、実施の形態1のステップST6で説明したものに相当する。
続いて、言語解析部2nが、「ID番号」と「文字列読み情報」とを紐付けた状態で、第3コンテンツ専用音声認識辞書23hに登録する(ステップST46)。このとき、実施の形態1のステップST7と同様に、第3コンテンツ専用音声認識辞書23hに既に何らかの「ID番号」と「文字列読み情報」とが登録されている場合は、それらを削除したうえで登録処理を行う。
以上のようにして、第3コンテンツ専用音声認識辞書23hに、USBメモリに記録されたコンテンツに依存して生成されて入出力部1の映像出力部1bで表示されており、かつ操作対象となるGUIオブジェクトのみに限って、当該GUIオブジェクトに付けられた文字列の文字列読み情報が登録される。
次に、楽曲一覧画面をユーザが音声操作する場合の処理について、図20に示すフローチャートを用いて説明する。図20に示す処理のうち、図8と同一又は相当する処理については、同一の符号を付してその説明を省略する。
ユーザが図16に示すような楽曲一覧画面を見て、例えば「曲名1」と発声した場合に、照合部2iが、入力音声は共通操作用音声認識辞書2gに文字列読み情報が記憶されている語彙でないと判定すると(ステップST14;NO)、照合部2iが、第3コンテンツ専用音声認識辞書23hに記憶されている全ての文字列読み情報を読み出す(ステップST50)。
続いて、照合部2iが、入力音声が第3コンテンツ専用音声認識辞書23hに文字列読み情報が記憶されている語彙であるか、つまり入力音声がコンテンツ操作用であるかを判定する(ステップST51)。ステップST51の具体的な処理は、実施の形態1のステップST16で説明したものに相当する。
以上のように、この実施の形態3に係る電子機器2によれば、コンテンツ情報管理部2kは、USBメモリに記録されたコンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得し、言語解析部2nは、その文字列について、当該文字列を読む音声に結びつく文字列読み情報を生成して第3コンテンツ専用音声認識辞書23hに登録する。そして、照合部2iは、共通操作用音声認識辞書2gに加えて第3コンテンツ専用音声認識辞書23hを用いて、入力音声を対象に音声認識を行う。
これにより、実施の形態1と同様の効果を得ることができる。
実施の形態4.
図21に、この発明の実施の形態4に係る音声認識機能付き電子機器2A,2Bの構成を示す。図21では、電子機器2A,2Bが、入出力部1A,1Bとデジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とに接続して音声認識機能付きシステムを構成している場合を示している。
入出力部1A,1Bは、それぞれ実施の形態1で示した入出力部1と同様に構成される。入出力部1A,1Bの詳細な構成については、図示を省略している。
電子機器2A,2Bは、それぞれ実施の形態1で示した電子機器2と同様に構成される。電子機器2A,2Bの詳細な構成については、信号選択部2p以外は図示を省略している。
電子機器2Aと入出力部1A,1Bとの間には、信号選択部6が設けられている。
信号選択部6は、電子機器2Aと入出力部1A,1Bとの接続を切替える。端子D10と端子S10とが接続した状態となると、電子機器2Aは、入出力部1Aと接続する。端子D11と端子S10とが接続した状態となると、電子機器2Aは、入出力部1Bと接続する。
電子機器2Bと入出力部1A,1Bとの間には、信号選択部7が設けられている。
信号選択部7は、電子機器2Bと入出力部1A,1Bとの接続を切替える。端子D12と端子S11とが接続した状態となると、電子機器2Bは、入出力部1Aと接続する。端子D13と端子S11とが接続した状態となると、電子機器2Bは、入出力部1Bと接続する。
このように、実施の形態4では、入出力部及び電子機器を二重化している。従って、2系統の映像及び音声を同時にユーザに提供でき、また、ユーザは、入出力部1A,1Bが表示する画面を見て、それぞれ別々に音声操作することができる。
なお、入出力部1Aに同時に2系統の映像信号及び音声信号、また、入出力部1Bに同時に2系統の映像信号及び音声信号が入力されることがないよう、信号選択部6,7は制御される。図22に示すように、状態No.1及び状態No.4のように信号選択部6,7の各端子が接続されることは禁止する。
以上のように、この実施の形態4に係る電子機器2A,2Bによれば、入出力部及び電子機器を二重化したので、実施の形態1〜3と同様の効果に加え、2系統の映像及び音声を同時にユーザに提供でき、また、ユーザは、入出力部1A,1Bが表示する画面を見て、それぞれ別々に音声操作することができる。
実施の形態5.
図23に、この発明の実施の形態5に係る音声認識機能付き電子機器2の構成を示す。図23では、電子機器2が、入出力部1とデジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とに接続して音声認識機能付きシステムを構成している場合を示している。
実施の形態5では、電子機器2が映像付加部2qを有している点で実施の形態1〜3と異なる。図23に示す構成のうち、図1と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。
映像付加部2qは、ユーザからの音声の受付が開始されると、コンテンツ専用音声認識辞書2hに文字列読み情報が記憶されている語彙について、その読みを追加表示した画面を示す映像信号を生成する。
映像付加部2qの処理について説明する。映像付加部2qが行う処理は、周知のスキャンコンバータ等と同様であるので、以下では詳細な説明は省略する。
まず、映像付加部2qは、音声認識が開始されると、映像伝送部2bから入出力部1へ伝送する途中の映像信号を抜き取って、不図示のメモリに一時的に格納する。一般に、音声認識機能付きのシステムでは、誤認識を少なくするため、リモコン等に「音声認識」ボタンを設けて、このボタンを押下してから一定時間だけ音声認識機能を有効として音声を受け付け、一定時間経過後に音声認識機能を無効化することが多い。従って、映像付加部2qは、操作イベント伝送部2cに入力される操作イベント信号を監視することで、音声認識開始を判定することができる。
続いて、映像付加部2qは、コンテンツ専用音声認識辞書2hに登録されている文字列読み情報を読み出し、当該情報を用いて、コンテンツ専用音声認識辞書2hに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。
映像付加部2qは、信号選択部2pでデジタルテレビ受信部3を選択中の場合、第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。同様に、映像付加部2qは、信号選択部2pで光ディスク再生部4を選択中の場合、第2コンテンツ専用音声認識辞書22hに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。同様に、映像付加部2qは、信号選択部2pでUSBメモリ再生部5を選択中の場合、第3コンテンツ専用音声認識辞書23hに文字列読み情報が記憶されている語彙について、その読みを示す映像信号を生成する。
続いて、映像付加部2qは、生成した映像信号と、一時的に格納した伝送途中の映像信号とを用いて、1枚の表示用画面を示す映像信号を生成する。その際、一時的に格納した伝送途中の映像信号が示す画面が適度に縮小されるような映像信号を生成する。
続いて、映像付加部2qは、生成した映像信号を映像伝送部2bに出力する。当該映像信号により、入出力部1で表示される画面例を、図24に示す。実施の形態1で示した図3に対し、データ放送画面を音声操作する際に使用できる語彙の読み情報が、領域fに追加表示されている。
以上のように、この実施の形態5に係る電子機器2によれば、映像付加部2qがコンテンツ専用音声認識辞書2hに文字列読み情報が記憶されている語彙について、その読みを追加表示した画面を示す映像信号を生成する。従って、実施の形態1〜3と比較して、ユーザにとってはどのような語彙を発音すればよいかが更に分かりやすくなり、操作性が更に良い音声認識を提供することができる。
実施の形態6.
図25に、この発明の実施の形態6に係る音声認識機能付き電子機器2の構成を示す。図25では、電子機器2が、入出力部1とデジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とに接続して音声認識機能付きシステムを構成している場合を示している。
実施の形態6では、電子機器2が音声合成部2rを有している点で実施の形態1〜3と異なる。図25に示す構成のうち、図1と同一又は相当する部分については、同一の符号を付してその説明を省略又は簡略化する。
音声合成部2rは、ユーザからの音声の受付が開始されると、コンテンツ専用音声認識辞書2hに文字列読み情報が記憶されている語彙について、音声合成して音声信号を生成する。
音声合成部2rが行う処理は、周知のテキスト音声合成装置と同様であるので、詳細な説明は省略する。音声合成部2rは、コンテンツ専用音声認識辞書2hに登録されている文字列読み情報を用いて、テキスト音声合成する。
音声合成部2rは、信号選択部2pでデジタルテレビ受信部3を選択中の場合、第1コンテンツ専用音声認識辞書21hに文字列読み情報が記憶されている語彙をテキスト音声合成する。同様に、音声合成部2rは、信号選択部2pで光ディスク再生部4を選択中の場合、第2コンテンツ専用音声認識辞書22hに文字列読み情報が記憶されている語彙をテキスト音声合成する。同様に、音声合成部2rは、信号選択部2pでUSBメモリ再生部5を選択中の場合、第3コンテンツ専用音声認識辞書23hに文字列読み情報が記憶されている語彙をテキスト音声合成する。
音声合成部2rは、音声伝送部2aから入出力部1へ伝送する途中の音声信号とテキスト音声合成して得た音声信号とをミキシングして、音声伝送部2aに出力する。これにより、入出力部1からは、コンテンツ専用音声認識辞書2hに文字列読み情報が記憶されている語彙の情報を読み上げた音声が出力される。
以上のように、この実施の形態6に係る電子機器2によれば、音声合成部2rがコンテンツ専用音声認識辞書2hに文字列読み情報が記憶されている語彙を音声合成して入出力部1から音声出力されるようにした。従って、実施の形態1〜3と比較して、ユーザにとってはどのような語彙を発音すればよいかが更に分かりやすくなり、操作性が更に良い音声認識を提供することができる。また、ユーザは、画面を見なくとも、どのような語彙を発音すればよいかが分かる。
なお、上記では、映像音声源として、デジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とを備えた構成について説明した。しかしながら、これらに限らず、デジタルラジオ放送波を受信するデジタルラジオ受信部、経路案内を行うナビゲーション装置等、他の種類の映像音声源を備えてもよい。また、電子機器2と接続するのは、少なくとも映像信号を電子機器2に出力する映像源として機能する機器であればよい。
また、上記では、映像音声源を3つ備えた構成について説明した。しかしながら、映像音声源は1以上の任意の個数備えた構成としてよい。
また、上記では、CANを通信手段として用いる場合を示したが、CANに代えてMOST(Media Oriented Systems Transport、登録商標)、Ethernet(登録商標)等の他の通信手段を用いてもよい。
また、上記では、入出力部1と電子機器2とデジタルテレビ受信部3と光ディスク再生部4とUSBメモリ再生部5とをそれぞれ別筐体で構成し、これらの間をネットワーク接続する構成について説明した。しかしながら、これらを同一筐体内に実装し、ネットワーク接続の代わりにCPU間通信を用いるように構成してもよい。
また、上記では、図6を用いて説明したように、表示される画面内にGUIオブジェクトの全部分がある場合に、当該GUIオブジェクトが入出力部1で表示されると判定した。しかしながら、GUIオブジェクトの80%等、その大部分が画面内にある場合についても、当該GUIオブジェクトが入出力部1で表示されると判定してもよい。このようにすれば、ユーザが画面をスクロールしている途中で、画面内に入る、或いは画面外に出るGUIオブジェクトについてもコンテンツ専用音声認識辞書2hに文字列読み情報を登録することができ、音声操作の操作性が向上する。
また、上記では、入力音声をフレーム単位で分析し、音韻毎の音響標準パターンと比較した後に、共通操作用音声認識辞書2g、コンテンツ専用音声認識辞書2h等の音声認識辞書と照合を行う例について説明したが、比較を行う対象単位は音韻毎でなくても、例えば、半音素等の別の方法を用いても良い。半音素は、音韻の半分程度の単位であり、前後に連なる音韻の違いをより詳細に反映することができる。
また、コンテンツ専用音声認識辞書2hは、第1コンテンツ専用音声認識辞書21hと第2コンテンツ専用音声認識辞書22hと第3コンテンツ専用音声認識辞書23hとを有する。これら第1〜第3コンテンツ専用音声認識辞書21h〜23hそれぞれに対応してメモリ領域を3つぶん割り当ててもよいし、コンテンツ専用音声認識辞書2hとして割り当てるメモリ量を削減するために、第1〜第3コンテンツ専用音声認識辞書21h〜23hに共用のメモリ領域を割り当ててもよい。
また、上記では、コンテンツに依存して生成されるGUIオブジェクトが表示される画面として、データ放送画面等を例に挙げて説明した。しかしながら、番組表画面、放送局一覧画面等にもGUIオブジェクトが存在する場合、それらの画面に対して上記した方法を適用して音声操作できるようにしてもよい。この場合、番組表画面、放送局一覧画面を示す映像信号を生成する構成から、コンテンツ情報を取得するようにすればよい。
また、上記実施の形態2では、光ディスクの例としてDVDとBDの場合について説明した。光ディスクがCDである場合、実施の形態3と同様の方法により、CDについても楽曲一覧画面を音声操作することができる。
また、上記実施の形態4では、入出力部1を2つ備えた構成について説明した。しかしながら、入出力部1を3つ以上備えるようにしてもよい。
また、上記では、操作イベント信号が示す操作イベントとして、リモコン操作によるボタン押下イベントや曲の再生イベントの例について説明した。しかしながら、リモコンの代わりにタッチパネル等の画面上の位置指定を行う機器の場合、操作イベントとして、画面上の位置情報を用いればよい。
また、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態においての任意の構成要素の省略が可能である。
1,1A,1B 入出力部、1a 音声出力部、1b 映像出力部、1c リモコン操作入力部、1d 音声入力部、1e 入出力制御部、2,2A,2B 電子機器、2a 音声伝送部、2b 映像伝送部、2c 操作イベント伝送部、2d 音響分析部、2e 音響標準パターン記憶部、2f 尤度計算部、2g 共通操作用音声認識辞書、2h コンテンツ専用音声認識辞書、2i 照合部、2j 音声認識結果変換部、2k コンテンツ情報管理部、2m 言語解析辞書、2n 言語解析部、2p 信号選択部、2q 映像付加部、2r 音声合成部、3 デジタルテレビ受信部、3a 電波受信部、3b デジタル復調部、3c 情報分離部、3d 音声デコード部、3e 映像デコード部、3f データ放送情報解析部、3g 音声出力部、3h 映像出力部、3i データ放送ブラウザ、3j 画面制御部、3k コンテンツ情報送信部、3m 操作イベント管理部、4 光ディスク再生部、4a ディスク制御部、4b ディスク情報読み出し部、4c 情報分離部、4d 音声デコード部、4e 映像デコード部、4f メディアコンテンツデコード部、4g 音声出力部、4h 映像出力部、4i メディアコンテンツ実行部、4j 画面制御部、4k コンテンツ情報送信部、4m 操作イベント管理部、5 USBメモリ再生部、5a USBメモリインタフェース部、5b ファイルシステム、5c 情報分離部、5d 音声デコード部、5e 映像デコード部、5f タイトル関連情報解析部、5g 音声出力部、5h 映像出力部、5i タイトル関連情報出力部、5j 画面制御部、5k コンテンツ情報送信部、5m 操作イベント管理部、6 信号選択部、7 信号選択部、21h 第1コンテンツ専用音声認識辞書、22h 第2コンテンツ専用音声認識辞書、23h 第3コンテンツ専用音声認識辞書、41i BD−J実行部、42i HDMV実行部、43i DVDナビゲーション実行部、101 処理回路、102 メモリ、103 CPU。

Claims (7)

  1. 文字列について、当該文字列を読む音声に結びつく特徴情報を記憶する音声認識辞書と、
    前記音声認識辞書を用いて、入力音声を認識する音声認識部と、
    コンテンツに依存して生成された表示中の操作対象に付けられている文字列の情報を取得するコンテンツ情報管理部と、
    前記コンテンツ情報管理部が取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく特徴情報を生成し、前記音声認識辞書に登録する言語解析部とを備えることを特徴とする音声認識機能付き電子機器。
  2. 前記コンテンツ情報管理部は、表示内容が更新されるたびに、前記操作対象に付けられている文字列の情報を取得し、
    前記言語解析部は、表示内容が更新されて前記コンテンツ情報管理部が取得した文字列の情報に示される文字列について、当該文字列を読む音声に結びつく特徴情報を生成し、当該特徴情報で前記音声認識辞書に前回登録した特徴情報を置き換えることを特徴とする請求項1記載の音声認識機能付き電子機器。
  3. 前記音声認識部による音声認識結果を、ユーザの操作内容である操作イベントを示す操作イベント信号に変換する音声認識結果変換部を備え、
    前記コンテンツ情報管理部は、前記操作対象が操作された場合に出力される操作イベント信号で示される操作イベントの情報を取得し、
    前記音声認識結果変換部は、当該情報を用いて、前記音声認識部による音声認識結果を、対応する操作イベントを示す操作イベント信号に変換することを特徴とする請求項1または請求項2記載の音声認識機能付き電子機器。
  4. 前記音声認識辞書は、コンテンツに依存せずに生成される操作対象に対応する音声に結びつく特徴情報を記憶する共通操作用音声認識辞書と、前記言語解析部が生成した特徴情報を記憶するコンテンツ専用音声認識辞書とを、別個のメモリに有することを特徴とする請求項1から請求項3のうちのいずれか1項記載の音声認識機能付き電子機器。
  5. 音声の受付が開始されると、前記言語解析部が生成して前記音声認識辞書に特徴情報が記憶された語彙の情報を示す映像信号を出力する映像付加部を備えることを特徴とする請求項1から請求項4のうちのいずれか1項記載の音声認識機能付き電子機器。
  6. 音声の受付が開始されると、前記言語解析部が生成して前記音声認識辞書に特徴情報が記憶された語彙の情報を示す音声信号を出力する音声合成部を備えることを特徴とする請求項1から請求項5のうちのいずれか1項記載の音声認識機能付き電子機器。
  7. 請求項1記載の音声認識機能付き電子機器と、
    前記電子機器に映像信号を出力する映像源と、
    前記電子機器の出力を画面表示する入出力部とを備えることを特徴とする音声認識機能付きシステム。
JP2016153335A 2016-08-04 2016-08-04 音声認識機能付き電子機器及び音声認識機能付きシステム Pending JP2018022049A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016153335A JP2018022049A (ja) 2016-08-04 2016-08-04 音声認識機能付き電子機器及び音声認識機能付きシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016153335A JP2018022049A (ja) 2016-08-04 2016-08-04 音声認識機能付き電子機器及び音声認識機能付きシステム

Publications (1)

Publication Number Publication Date
JP2018022049A true JP2018022049A (ja) 2018-02-08

Family

ID=61165453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016153335A Pending JP2018022049A (ja) 2016-08-04 2016-08-04 音声認識機能付き電子機器及び音声認識機能付きシステム

Country Status (1)

Country Link
JP (1) JP2018022049A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020137607A1 (ja) * 2018-12-27 2020-07-02 ソニー株式会社 音声発話に基いてアイテムを選択する表示制御装置
CN112634874A (zh) * 2020-12-24 2021-04-09 江西台德智慧科技有限公司 一种基于人工智能的自动调音终端设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020137607A1 (ja) * 2018-12-27 2020-07-02 ソニー株式会社 音声発話に基いてアイテムを選択する表示制御装置
US11941322B2 (en) 2018-12-27 2024-03-26 Saturn Licensing Llc Display control device for selecting item on basis of speech
CN112634874A (zh) * 2020-12-24 2021-04-09 江西台德智慧科技有限公司 一种基于人工智能的自动调音终端设备
CN112634874B (zh) * 2020-12-24 2022-09-23 江西台德智慧科技有限公司 一种基于人工智能的自动调音终端设备

Similar Documents

Publication Publication Date Title
EP2271089B1 (en) Apparatus and method for simultaneously utilizing audio visual data
JP4584250B2 (ja) 映像処理装置、映像処理装置の集積回路、映像処理方法、及び映像処理プログラム
CN1984291B (zh) 执行时移功能的方法及使用该方法的电视接收机
CN1906694B (zh) 再现装置、再现方法、程序、记录介质和数据结构
US8351767B2 (en) Reproducing device and associated methodology for playing back streams
US20050180462A1 (en) Apparatus and method for reproducing ancillary data in synchronization with an audio signal
WO2007029479A1 (ja) 記録再生装置、記録再生方法、記録再生プログラムおよびコンピュータに読み取り可能な記録媒体
JP2002300495A (ja) 発話認識に基づいたキャプションシステム
US8264609B2 (en) Caption presentation method and apparatus using same
JP2018022049A (ja) 音声認識機能付き電子機器及び音声認識機能付きシステム
JP2008160232A (ja) 映像音声再生装置
US8224152B2 (en) Apparatus and method for reproducing text file in digital video device
US8269889B2 (en) Television apparatus
US7756401B2 (en) Digital audio-video information reproducing apparatus and reproducing method for reproducing subtitle file and file-based audio-video file
JP2914936B2 (ja) 多種言語対応型記録媒体の信号記録方法及び装置
US8897616B2 (en) Apparatus and method for upconverting content data
JP3315879B2 (ja) 画像記録装置及び画像再生装置
JP5382478B2 (ja) 再生装置、および再生方法
JP2012034235A (ja) 映像再生装置及び映像再生方法
JP4729983B2 (ja) 再生装置および再生方法、プログラム、並びに、データ構造
JP2006148839A (ja) 放送装置、受信装置、及びこれらを備えるデジタル放送システム
JP2011205415A (ja) 情報編集装置及び情報編集方法
KR20060133159A (ko) 시청정보를 이용한 디스크 재생 기능을 갖는 텔레비전수상기 및 방법
KR20100060230A (ko) 데이터 정보 표시 장치