JP4367713B2

JP4367713B2 - 放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体

Info

Publication number: JP4367713B2
Application number: JP2005282936A
Authority: JP
Inventors: 弓子加藤; 孝浩釜井; 秀行吉田; 良文廣瀬
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2003-01-15
Filing date: 2005-09-28
Publication date: 2009-11-18
Anticipated expiration: 2023-12-26
Also published as: JP2006085179A

Description

本発明は、放送局から放送されてくる放送を受信する放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体に関するものである。

従来のテレビ放送で放送される番組やコマーシャルを視聴している際に、視聴者が番組やコマーシャルに登場した物や番組やコマーシャルで演奏された音楽等の対象物を入手したいと思うことがある。

このような場合視聴者は、まず、ＰＣ（パーソナルコンピュータ）をインターネットに接続し、インターネットでこれらの対象物に関する情報を検索し、目的とする対象物に関する情報を入手する。

そして、入手した情報に基づきこれらの対象物を販売する販売店に連絡するか来店して、これらの対象物を購入する。従来視聴者は、番組やコマーシャルに登場した対象物をこのような手順で購入していた。

しかしながら、視聴者が、放送された番組やコマーシャルに登場する対象物を入手するためには、放送の受信とは全く関係なくＰＣからインターネットに接続し、インターネットを介して目的とする対象物に関する情報をダウンロードしなければならず、さらに、ダウンロードした情報に基づき電話などで対象物を注文したりしなければならず不便である。

すなわち、従来の放送では放送された番組やコマーシャルに登場する対象物を簡単に入手することが出来ず手間がかかり不便であるという課題がある。

そこで、上記のような課題を解決するために、本出願の出願人に係る他の特許出願（特願２００１−２５８５６４）で、本出願人は、放送された番組やコマーシャルに登場する対象物を手間がかからず簡単に入手することが出来る双方向放送による買い物支援システムについて特許出願した。

以下、本出願人が特許出願した双方向放送による買い物支援システムについて説明する。

図３７に、本出願に係る出願人の特許出願における双方向放送による買い物支援システムの概念構成を示すブロック図を示す。また、図３８に、双方向放送による買い物支援システム（以下買い物支援システムと略す）の動作を示す流れ図を示す。また、図３９に、図３７の部分の詳細を示す機能ブロック図を示す。

図３７において、買い物支援システムは、放送局１０、販売業者２０、及び家庭３０から構成されており、家庭３０には、ＴＶ／ＳＴＢ３１０、及びリモートコントローラ３２０が設置されている。

放送局１０は、番組を番組付加情報とともに放送する放送局である。販売業者２０は番組中に登場する物を商品として取り扱う販売業者である。家庭３０は放送を受信する家庭である。

ＴＶ／ＳＴＢ３１０は、双方向放送受信機であるテレビあるいはＳＴＢ（ＳｅｔＴｏ
ｐＢｏｘ）としての双方向放送受信機である。

リモートコントローラ３２０は、ＴＶ／ＳＴＢ３１０を操作するための手段であり、マイクロホン３２１を備える。

ＴＶ／ＳＴＢ３１０は、認識語彙記憶部３１１と音声認識部３１２などを備える。すなわち、図３９に示すように、ＴＶ／ＳＴＢ３１０は、放送受信部３１３、認識語彙生成部３１４、認識語彙記憶部３１１、音声認識部３１２、時間表現辞書３１６、記憶時間制御部３１５、付加情報記憶部３１７、表示部３１８、送信部３１９から構成される。

放送受信部３１３は放送電波を受信する手段である。認識語彙生成部３１４は放送受信部３１３で受信した番組付加情報から音声認識の対象語彙を生成する手段である。認識語彙記憶部３１１は、生成された認識語彙を記憶する手段である。時間表現辞書３１６は「さっきの」、「今の」といった時間に関する表現を認識語彙として保持する辞書である。音声認識部３１２は認識語彙記憶部３１１と時間表現辞書３１６とを認識語彙辞書として使用して音声認識を行う手段である。記憶時間制御部３１５は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習し、音声認識部３１２および認識語彙記憶部３１１の制御を行う手段である。付加情報記憶部３１７は音声認識によって指定された番組中の物等に対応する付加情報を記憶する手段である。表示部３１８は付加情報を表示する手段である。送信部３１９は付加情報の選択等の視聴者の入力結果を放送局へ送信する手段である。

次に、このような買い物支援システムの動作を説明する。

図３８に、買い物支援システム及びサービスの動作を示す。以下図３８に基づいて説明する。

まず視聴者は番組視聴中に番組に登場する物等に注目し、特定のものに注目していることを伝える言葉を発声する。そうすると、マイクロホン３２１は、その発声を入力し、音声認識部３１２に出力する。

音声認識部３１２は、マイクロホン３２１から入力された発声信号に対して音声認識を行う。そしてその音声認識結果に基づいて音声認識部３１２は、視聴者が注目した物等を判断し、対応する番組付加情報を特定して、付加情報記憶部３１７へ蓄積する（ステップ３３１）。

ドラマを視聴している場合を例に取って具体的に説明すると、例えばドラマの視聴中に登場人物が着用していた洋服に視聴者の注意が向いたが、その洋服を来ていた登場人物は画面から退場してしまったような場合、視聴者は「さっきの赤いジャケットいいな。」などと発声する。

視聴者が発声した音声はマイクロホン３２１より入力され、音声認識部３１２は時間表現辞書３１６と認識語彙記憶部３１１を参照して入力された音声を認識し、放送された番組付加情報より該当する付加情報を抽出する。

認識語彙記憶部３１１に記憶されている認識語彙は、認識語彙生成部３１４で、受信した番組付加情報より付加情報のついた物や音楽等をあらわす語彙を逐次生成したものである。すなわち、番組付加情報は、番組付加情報が放送局で対応付けられた物や音楽を特定するためのキーワード情報をも含んでおり、認識語彙生成部３１４はこのキーワード情報から認識語彙を生成する。そして、音声認識部３１２は、「さっきの赤いジャケットいいな。」などの視聴者の発声音声を音声認識することによって視聴者の発声音声から認識語彙を抽出する。例えば「さっきの赤いジャケットいいな。」という発声音声の場合には、「赤い」、「ジャケット」という認識語彙が抽出される。そして抽出した認識語彙に対応するキーワード情報の個数が最も多い番組付加情報を選択し、選択した番組付加情報を付加情報記憶部３１７に記憶させる。すなわち、ある番組付加情報が「赤い」という認識語彙に対応するキーワード情報と、「ジャケット」という認識語彙に対応するキーワード情報とを共に含んでいる場合にはその番組付加情報を付加情報記憶部３１７に記憶させる。このように音声認識部３１２は、番組付加情報を選択することによって特定することが出来る。

なお、音声認識部３１２は、視聴者の発声音声から抽出した認識語彙に対応するキーワード情報の個数が最も多い番組付加情報を選択するとして説明したが、これに限らない。音声認識部３１２は、視聴者の発声音声から抽出した認識語彙に対応するキーワード情報の個数が最も多い順に例えば５個の番組付加情報を選択して、選択した番組付加情報を付加情報記憶部３１７に記憶しても構わない。このように音声認識部３１２は、番組付加情報を特定するのではなく絞り込んでも構わない。

記憶時間制御部３１５はあらかじめ定められた時間範囲あるいはシーン数、または視聴者のこれまでの発声とその後の入力より学習された時間表現に対応するもっとも大きい時間幅あるいはシーン数の間、生成された認識語彙が保持されるよう制御する。なお、記憶時間制御部３１５の学習については後述する。例えば「さっきの赤いジャケットいいな。」という発声音声の場合には、記憶時間制御部３１５の制御に従って、音声認識部３１２は、「さっき」という過去を示す時間表現語彙を抽出し、時間表現辞書３１６を参照して「さっき」に対応する時間範囲あるいはシーン数の間に放送された番組付加情報を対象にして上記の特定または絞り込みを行う。

ドラマが終了した後（ステップ３３２）、表示部３１８は、音声認識により指定されたドラマに登場した物等に対応する付加情報を表示する（ステップ３３３）。

付加情報には大きさ、重さ、材質、色違い、サイズ違い価格、製造者、販売者、販売者連絡先等の情報が含まれており、視聴者はこれらの情報を確認して検討し、購入する場合にはリモートコントローラ３２０あるいはポインティングデバイス、あるいは音声認識等の入力手段により付加情報を選択し購入情報を入力する。

送信部３１９は、購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する（ステップ３３４）。

さて、前述したように記憶時間制御部３１５は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習することについて具体的に説明する。記憶時間制御部３１５は、時間表現辞書３１６に格納されている時間に関する表現である認識語彙毎に実際の時間幅またはシーン数を対応付けるための情報を保持している。例えば、記憶時間制御部３１５は、例えば「さっき」という認識語彙については、現在時刻を基準にして２０秒前から５分前までの時間幅を対応つけ、また、「今」については、現在時刻を基準にして現在から３０秒前までの時間幅を対応付ける。

従って上述したように、記憶時間制御部３１５「さっき」という時間表現を表す認識語彙を音声認識部３５２から受け取った場合には、現在時刻を基準にして２０秒前から５分前までの時間幅の間に受け取った番組付加情報に対して特定及び絞り込みを行うよう制御し、この制御に従って音声認識部３５２は、現在時刻を基準にして２０秒前から５分前までの時間幅の間に受け取った番組付加情報に対して特定及び絞り込みを行い、その特定または絞り込みされた番組付加情報を付加情報記憶部３１７に記憶させる。すなわち、記憶時間制御部３１５は、この時間幅の間に生成された認識語彙が保持されるように制御する。

ところが、記憶時間制御部３１５が「さっき」という時間表現を表す認識語彙を受け取った場合に、上述したように現在時刻を基準にして２０秒前から５分前までの時間幅を対応付けた場合に、視聴者が表示部３１８で表示された番組付加情報が視聴者の意図していた時間幅と異なる番組付加情報が表示されることが起こり得る。このような場合、視聴者はマイクロホン３２１に向かって「やり直して」「もっと前の情報を表示してほしいな」「もっと後の情報を表示してほしいな」などと発声する。

そうすると、音声認識部３１２は、その視聴者からの発声を音声認識し、音声認識結果を記憶時間制御部３１５に通知する。音声認識部３１２が「もっと前の情報を表示してほしいな」という発声を音声認識した場合には、「もっと前」、「情報」、「表示」を認識語彙として抽出し、記憶時間制御部３１５に通知する。

記憶時間制御部３１５は、音声認識部３５２から「もっと前」、「情報」、「表示」という認識語彙を受け取ると、「さっき」という時間表現を表す認識語彙に対応付けられた時間幅の情報を修正する。すなわち、「さっき」という認識語彙に現在時刻を基準にして４０秒前から５分４０秒前までの時間幅を対応付けるように修正する。そして、記憶時間制御部３１５は、音声認識部３１２に現在時刻を基準にして４０秒前から５分４０秒前までの間に受け取った番組付加情報を対象として再度番組付加情報の特定または絞り込みを行うよう音声認識部３１２を制御する。音声認識部３１２は、記憶時間制御部３１５の制御に従って、再度番組付加情報の特定または絞り込みを行い、特定または絞り込んだ番組付加情報を付加情報記憶部３１７に記憶させ、表示部３１８は、付加情報記憶部３１７に記憶された番組付加情報を表示する。そして、視聴者は、表示された番組付加情報に目的とするものが含まれている場合にはその番組付加情報を選択して購入情報を入力する。

このような処理を多数繰り返すことによって、記憶時間制御部３１５は、時間表現を表す認識語彙に視聴者の意図を反映したり時間幅を対応付けることが出来るようになる。これが記憶時間制御部３１５が学習するということである。

以上のように、買い物支援システムおよびサービスによれば、視聴者が興味を持った、番組中に登場した物や音楽等について、番組そのものの視聴を、メモをとる等の作業で妨げることなく、自然な発声を行うだけで、番組の視聴と連続的に、情報を取得し、購入することが可能になる。

本出願に係る出願人が特許出願した買い物支援システムを用いることによりこのようなすぐれた効果を得ることが出来る。

しかしながら、上述した買い物支援システムでは、付加情報を特定するために、音声認識された単語と付加情報が含むキーワード情報に対応するキーワードとの合致の程度を判定することにより付加情報を特定しているが、この方法よりもさらに柔軟かつ適切に付加情報を特定できるようにしたいという要望がある。つまり、放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来るようにしたいという課題がある。

また、視聴者が発声するときの表現により適するようにして付加情報を特定したいという要望がある。つまり、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に入手したいという課題がある。

また、視聴者の興味により適するようにして付加情報を特定したいという課題がある。つまり、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するようにして手間がかからず簡単に入手したいという課題がある。

本発明は、上記課題を考慮し、放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来る放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体を提供することを目的とするものである。

また、本発明は、上記課題を考慮し、放送された番組やコマーシャル
に登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体を提供することを目的とするものである。

また、本発明は、上記課題を考慮し、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体を提供することを目的とするものである。

上述した課題を解決するために、第１の本発明は、放送されてくる、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信ステップと、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定ステップと、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識ステップと、
その音声認識結果に基づいて、前記キーワード情報を特定する特定ステップと、
その特定した前記キーワード情報に対応付けられた前記付加情報を表示する表示ステップと、を備えた、放送受信方法である。また、第２の本発明は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正ステップを備え、
前記音声認識ステップにおいては、補正された前記言語モデルを利用して音声認識する、第１の本発明の放送受信方法である。
また、第３の本発明は、前記シーンコードは、前記シーンが変化する毎に放送され、
前記受信ステップにおいては、前記シーンが変化する毎に放送されてくる前記シーンコードを受信し、
前記言語モデル特定ステップにおいては、前記シーンコードが受信される毎に前記言語モデルを特定し、
前記音声認識ステップにおいては、前記シーンコードが受信される毎に特定される前記言語モデルを利用して音声認識する、第１の本発明の放送受信方法である。
また、第４の本発明は、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを放送する放送手段を有する第１装置と、
前記第１装置から放送される前記付加情報及び前記シーンコードを前記放送内容と同時に受信する受信手段、予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段、特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段、その音声認識結果に基づいて、前記キーワード情報を特定する特定手段、及びその特定した前記キーワード情報に対応付けられた前記付加情報を表示する表示手段を有する第２装置と、を備えた、放送受信システムである。
また、第５の本発明は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段を有し、
前記音声認識手段は、補正された前記言語モデルを利用して音声認識する、第４の本発明の放送受信システムである。
また、第６の本発明は、前記放送手段は、前記シーンが変化する毎に前記シーンコードを放送し、
前記受信手段は、前記シーンが変化する毎に放送されてくる前記シーンコードを受信し、
前記言語モデル特定手段は、前記シーンコードが受信される毎に前記言語モデルを特定し、
前記音声認識手段は、前記シーンコードが受信される毎に特定される前記言語モデルを利用して音声認識する、第４の本発明の放送受信システムである。
また、第７の本発明は、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを放送する放送手段を備え、
放送されてくる前記付加情報及び前記シーンコードが前記放送内容と同時に受信され、予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルが特定され、特定された前記言語モデルを利用して、視聴者が発声した音声が音声認識され、その音声認識結果に基づいて、前記キーワード情報が特定され、その特定した前記キーワード情報に対応付けられた付加情報が表示される、第１装置である。
また、第８の本発明は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度が既に行われた音声認識の音声認識結果の履歴情報に基づいて補正され、
補正された前記言語モデルを利用して音声認識される、第７の本発明の第１装置である。
また、第９の本発明は、放送されてくる、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、
その音声認識結果に基づいて、前記キーワード情報を特定する特定手段と、
その特定した前記キーワード情報に対応付けられた付加情報を表示する表示手段と、を備えた、第２装置である。
また、第１０の本発明は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段を備え、
前記音声認識手段は、補正された前記言語モデルを利用して音声認識する、第９の本発明の第２装置である。
また、第１１の本発明は、前記言語モデルは、前記言語モデルに予め付与されているＩＤを利用して特定される、第９の本発明の第２装置である。
また、第１２の本発明は、前記言語モデルは、言語モデル特定用キーワード情報を利用して特定され、
前記予め保持されている言語モデルにも言語モデル特定用キーワード情報が付加されており、
前記言語モデル特定手段は、それらの言語モデル特定用キーワードの合致の程度に応じて前記言語モデルを特定する、第９の本発明の第２装置である。
また、第１３の本発明は、前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を補正する場合であって、
前記履歴情報は、前記既に行われた音声認識により認識された単語を含むものであり、
前記補正手段は、前記キーワード情報に対応する単語を含む前記単語クラスに含まれる単語を抽出し、
抽出された単語のうち前記履歴情報に含まれる単語に関して、前記言語モデルの表現形式における、前記単語クラスを基準とするその単語の出現頻度を増加させ、
抽出された単語のうち前記履歴情報に含まれない単語に関して、前記言語モデルの表現形式における、前記単語クラスを基準とするその単語の出現頻度を減少させる、第１０の本発明の第２装置である。
また、第１４の本発明は、前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を補正する場合であって、
前記履歴情報は、前記既に行われた音声認識により認識された単語を含むものであり、
前記補正手段は、前記キーワード情報に対応する単語を含む単語クラスを抽出し、
抽出された前記単語クラスに関して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を増加させ、
抽出されなかった前記単語クラスに関して、前記言語モデルの表現形式における、所定の単語クラスの組み合わせが出現する頻度を減少させる、第１０の本発明の第２装置である。
また、第１５の本発明は、前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を補正する場合であって、
前記履歴情報は、前記既に行われた音声認識により認識された単語を含む単語クラスを含むものであり、
前記補正手段は、前記キーワード情報に対応する単語クラスを抽出し、
抽出された前記単語クラスに関して、前記言語モデルの表現形式における、所定の単語クラスの組み合わせが出現する頻度を増加させ、
抽出されなかった前記単語クラスに関して、前記言語モデルの表現形式における、所定の単語クラスの組み合わせが出現する頻度を減少させる、第１０の本発明の第２装置である。
また、第１６の本発明は、表示された前記付加情報に対する所定の操作が行われた場合、その所定の操作に対応する指示を所定の送信先に送信する送信手段を備えた、第９〜１２のいずれかの本発明の第２装置である。
また、第１７の本発明は、前記付加情報は商品販売情報及び／またはサービス販売情報であり、
前記所定の操作に対応する指示とは、商品及び／またはサービスの資料請求または購入指示情報である、第１６の本発明の第２装置である。
また、第１８の本発明は、予め保持されている前記言語モデルは、予めネットワークを利用して取得したものである、第９の本発明の第２装置である。
また、第１９の本発明は、放送されてくる、放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信ステップと、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定ステップと、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識ステップと、を備えた、音声認識方法である。
また、第２０の本発明は、放送されてくる、放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、を備えた、音声認識装置である。
また、第２１の本発明は、第９の本発明の第２装置の、
放送されてくる、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、
その音声認識結果に基づいて、前記キーワード情報を特定する特定手段と、
その特定した前記キーワード情報に対応付けられた付加情報を表示する表示手段と、
としてコンピュータを機能させるためのプログラムである。
また、第２２の本発明は、第２０の本発明の音声認識装置の、
放送されてくる、放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、
としてコンピュータを機能させるためのプログラムである。
また、第２３の本発明は、第２１または２２の本発明のプログラムを記録した記録媒体であって、コンピュータにより処理可能な記録媒体である。

本発明は、放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来る放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体を提供することが出来る。

また、本発明は、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体を提供することが出来る。

また、本発明は、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適
するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体を提供することが出来る。

以下に、本発明の実施の形態を図面を参照して説明する。

（実施の形態１）
まず、本発明の実施の形態１における双方向放送による買い物支援システムについて説明する。

図１に、本発明の実施の形態１における双方向放送による買い物支援システムの概念構成を示すブロック図を示す。図２の双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

図１において、本実施の形態の買い物支援システムは、放送局１０、販売業者２０、及び家庭３０から構成されており、家庭３０には、ＴＶ／ＳＴＢ３１０、及びリモートコントローラ３２０が設置されている。

ＴＶ／ＳＴＢ３１０は、双方向放送受信機であるテレビあるいはＳＴＢ(Set Top Box)
としての双方向放送受信機である。

ＴＶ／ＳＴＢ３１０は、認識語彙記憶部３５１と音声認識部３５２などを備える。すなわち、図２に示すように、ＴＶ／ＳＴＢ３１０は、放送受信部３１３、認識語彙生成部３５４、認識語彙記憶部３５１、音声認識部３５２、時間表現辞書３１６、記憶時間制御部３１５、付加情報記憶部３１７、表示部３１８、送信部３１９から構成される。

放送受信部３１３は放送電波を受信する手段である。認識語彙生成部３５４は放送受信部３１３で受信した番組付加情報から音声認識の対象語彙である認識語彙セットを生成する手段である。認識語彙記憶部３５１は、生成された認識語彙セットを記憶する手段である。時間表現辞書３１６は「さっきの」、「今の」といった時間に関する表現を認識語彙として保持する辞書である。音声認識部３５２は認識語彙記憶部３５１と時間表現辞書３１６とを認識語彙辞書として使用して音声認識を行う手段である。記憶時間制御部３１５は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習し、音声認識部３５２および認識語彙記憶部３５１の制御を行う手段である。付加情報記憶部３１７は音声認識によって指定された番組中の物等に対応する付加情報を記憶する手段である。表示部３１８は付加情報を表示する手段である。送信部３１９は付加情報の選択等の視聴者の入力結果を放送局へ送信する手段である。

図３に、認識語彙生成部３５４の部分の詳細な構成を示す、認識語彙生成部３５４は、認識語彙抽出部３５５、認識語彙拡張部３５７、類義語辞書３５６、認識語彙適応部３５８から構成される。

認識語彙抽出部３５５は、番組付加情報に含まれるキーワード情報に対応する単語をキーワードとして抽出する手段である。認識語彙拡張部３５７は、抽出されたキーワードを拡張して認識語彙セットを生成する手段である。類義語辞書３５６は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された辞書である。なお、実施の形態１では一つの単語は必ず特定の一つの単語クラスのみに含まれ、一つの単語が複数の単語クラスに含まれることはないと仮定する。一つの単語が複数の単語クラスに含まれる場合については実施の形態２で詳細に説明する。認識語彙適応部３５８は、音声認識結果に応じて類義語辞書３５６に記載されている各単語が出現する頻度を補正する手段である。

次に、このような本実施の形態の動作を説明する。

図４に、本実施の形態の買い物支援システムの動作の概要を示すフローチャートを示す。また、図６及び図８に本実施の形態の買い物支援システムの動作の詳細を示すフローチャートを示す。以下、図４、図６、及び図８に基づいて説明する。

図２と図４において、放送局１０からは、放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーワード情報を含む付加情報が放送内容とともに放送されてくる。

放送受信部３１３は、この放送を受信する。そうすると、認識語彙生成部３５４は、番組付加情報に含まれるキーワード情報を抽出する（ステップ３５１）。さらに認識語彙生成部３５４は、キーワード情報に対応するキーワードの類義語を抽出する（ステップ３５２）。さらに、認識語彙生成部３５４は、抽出した類義語を認識語彙セットとして認識語彙記憶部３５１に記憶させる（ステップ３５３）。

次に、視聴者が発声した場合に音声認識し、その結果を類義語辞書３９０にフィードバックし類義語辞書中の認識された単語に重みを加算する（ステップ３５４）。
以下の説明では、まず、ステップ３５１、３５２、３５３の動作を詳細に説明した後、音声認識の動作を説明し、その後、ステップ３５４の動作を詳細に説明する。

まず、ステップ３５１、３５２、及び３５３の動作を図３と図６を用いてさらに詳細に説明する。

図５に類義語辞書３９０を示す。類義語辞書３９０は、単語３９１と、その単語の読み３９２と、その単語が含まれる単語クラス３９３と、その単語の出現頻度３９４とが記載された辞書である。なお、単語クラスとは、単語間の類義性を基準にして、複数の単語が分類されたものである。また、本実施の形態の買い物支援システムを使用する初期状態においては、十分に大きい日本語コーパスから求められた単語クラス内の出現頻度３９４が記載されている。

例えば、単語３９１の一例としてジャケットがあり、ジャケットの読み３９２はジャケットであり、ジャケットが含まれる単語クラス３９３は衣類であり、ジャケットの単語クラスである衣類に含まれる単語のうちジャケットが出現する出現頻度３９４は０．２０である。また、単語３９１の一例として上着があり、上着の読み３９２はウワギであり、ウワギが含まれる単語クラス３９３は衣類であり、上着の単語クラスである衣類に含まれる単語のうち上着が出現する出現頻度３９４は０．１０である。
ステップ３５５において、付加情報としてジャケットの付加情報が送られてきたとする。この場合付加情報としてはジャケットを示すキーワード情報のほかに付加情報としては、ジャケットの値段や色やサイズなどの説明、ジャケットの販売元の説明なども含まれる。このように付加情報は、キーワード情報の他に付加情報が対応付けられている商品に関する情報も含まれている。なお、付加情報の詳細については後述する。

次に、ステップ３５６において、認識語彙抽出部３５５は、付加情報に含まれるキーワード情報を抽出する。すなわち、ジャケットの付加情報が送られてきた場合には、キーワード情報としてジャケットに対応する情報を抽出する。そして、認識語彙拡張部３５７は、類義語辞書３５６を利用して、抽出したキーワード情報に対応するキーワードと同一の単語クラス３９３に属する単語から構成される認識語彙セットを生成する。

具体的に説明すると、対象物がジャケットである付加情報のキーワード情報に対応するキーワードがジャケットであるとする。そうすると認識語彙抽出部３５５は、この付加情報からキーワード情報に対応するキーワードであるジャケットを抽出する。

そして、認識語彙拡張部３５７は、キーワードであるジャケットを含む単語クラス３９３が衣類であるので、単語クラスが衣類である単語を抽出する。図５の類義語辞書の場合、単語クラス３９３が衣類である単語は、上着、ジャケット、服であることがわかる。そうすると、認識語彙拡張部３５７は、上着、ジャケット、及び服を認識語彙セットを構成する単語とする。また、それぞれの単語に対応する出現頻度３９４を認識語彙セットに記載する。図７にこのようにして作成された認識語彙セット３９５を示す。ジャケット、服、上着のそれぞれの読み３９６がジャケット、フク、ウワギのように記載されている。そして、単語クラス内頻度３９７が読み３９６に対応して０．２、０．３、０．１などと記載されていることがわかる。

次に、ステップ３５７において、認識語彙拡張部３５７は、生成した認識語彙セットを付加情報と対応させて認識語彙記憶部３５１に記憶させる。

ここで、認識語彙記憶部３５１は半導体メモリーまたはハードディスク装置であるとする。従って、生成された認識語彙セットは、付加情報と対応出来るような形式で半導体メモリーまたはハードディスク装置に格納される。

次に、視聴者が番組視聴中に発声した音声を音声認識する際の動作を説明する。図２において、まず視聴者は番組視聴中に番組に登場する物等に注目し、特定のものに注目していることを伝える言葉を発声する。そうすると、マイクロホン３２１は、その発声を入力し、音声認識部３５２に出力する。

音声認識部３５２は、マイクロホン３２１から入力された発声信号に対して音声認識を行う。そしてその音声認識結果に基づいて音声認識部３５２は、視聴者が注目した物等を判断し、対応する番組付加情報を特定して、付加情報記憶部３１７へ蓄積する。

ドラマを視聴している場合を例に取って具体的に説明すると、例えばドラマの視聴中に登場人物が着用していた洋服に視聴者の注意が向いたが、その洋服を来ていた登場人物は画面から退場してしまったような場合、視聴者は「さっきの赤い上着いいな。」などと発声する。

視聴者が発声した音声はマイクロホン３２１より入力され、音声認識部３５２は時間表現辞書３１６と認識語彙記憶部３５１を参照して入力された音声を認識し、放送された番組付加情報より該当する付加情報を抽出する。

すなわち、認識語彙記憶部３５１に記憶されている認識語彙セットのうち図７に示した認識語彙セット３９５は、上着という単語を含んでいるので、音声認識部３５２は認識語彙セット３９５を特定する。

また、音声認識部３５２が音声認識した結果、音声認識の候補として複数の単語が認識された場合、認識語彙セット３９５の単語クラス内頻度３９７が高い方の単語を音声認識結果で認識された単語として特定する。

この場合、複数の単語がそれぞれ異なった単語クラスに属している場合には、例えば各単語クラスの重みを同一として扱う。すなわち、それら複数の単語の単語クラス内頻度３９７どうしを直接比較し、単語クラス内頻度３９７が高い方の単語を音声認識部３５２が特定すればよい。例えば認識語彙セットとしてジャケットというキーワードから生成された図７で示した認識語彙セットと、車庫というキーワードから生成された認識語彙セットが存在する場合に、音声認識した結果、ジャケットと車庫とが音声認識の候補として認識された場合、ジャケットが含まれる単語クラスである衣類と、車庫が含まれる単語クラスである建造物とを同じ重みであるすなわち平等に扱う。そして、ジャケットの単語クラス内頻度３９７と車庫の単語クラス内頻度３９７を直接比較し、単語クラス内頻度３９７が高い方を音声認識された単語として特定する。

なお、本実施の形態では、音声認識の候補として複数の単語が認識された場合、これら複数の単語がそれぞれ異なったクラスに属している場合には、複数の単語が含まれる各単語クラスの出現頻度を平等に出現するとして扱うとして説明したが、これに限らず、予め各単語クラスの出現する頻度を上述した十分大きな日本語コーパスより求めておき各単語クラスに出現する頻度をも考慮すればさらに正確に音声認識結果の単語を特定することが出来るようになる。また、各単語クラスの重みを放送局１０からデータ放送により放送して、放送受信部３１３でこの各単語クラスの重みを受信し、音声認識部３５２が受信した各単語クラスの重みをも考慮することも出来る。また、ＴＶ／ＳＴＢ３１０とネットワークで接続されたＰＣを通じて、インターネットのホームページから商品を購入した場合等には、その購入履歴情報を取得して、取得した購入情報から各単語クラスの重みを生成し、音声認識部３５２で音声認識に利用することも可能である。

このようにして、音声認識部３５２が図７の認識語彙セット３９５を特定すると、音声認識部３５２は、付加情報記憶部３１７に認識語彙セット３９５に対応する付加情報であるジャケットの付加情報を記憶させる。

このように本実施の形態によれば、放送局１０から放送されてきた付加情報に含まれるキーワード情報に対応するキーワードがジャケットである場合に、認識語彙セットを生成して音声認識に利用することにより、ジャケットと類義性のある上着という単語を視聴者が発声した場合であっても、ジャケットに対応する付加情報を特定することが出来るようになる。また、同様にジャケットと類義性がある服という単語を視聴者が発声した場合であっても、ジャケットの付加情報を特定することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に特定することが出来るようになる。

記憶時間制御部３１５はあらかじめ定められた時間範囲あるいはシーン数、または視聴者のこれまでの発声とその後の入力より学習された時間表現に対応するもっとも大きい時間幅あるいはシーン数の間、生成された認識語彙セットが保持されるよう制御する。なお、記憶時間制御部３１５の学習については後述する。例えば「さっきの赤い上着いいな。」という発声音声の場合には、記憶時間制御部３１５の制御に従って、音声認識部３５２は、「さっき」という過去を示す時間表現語彙を抽出し、時間表現辞書３１６を参照して「さっき」に対応する時間範囲あるいはシーン数の間に放送された番組付加情報を対象にして上記の特定を行う。

ドラマが終了した後、表示部３１８は、音声認識により指定されたドラマに登場した物等に対応する付加情報を表示する。

付加情報には大きさ、上述したように重さ、材質、色違い、サイズ違い価格、製造者、販売者、販売者連絡先等の情報が含まれており、視聴者はこれらの情報を確認して検討し、購入する場合にはリモートコントローラ３２０あるいはポインティングデバイス、あるいは音声認識等の入力手段により付加情報を選択し購入情報を入力する。

送信部３１９は、購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する。

従って上述したように、記憶時間制御部３１５「さっき」という時間表現を表す認識語彙を音声認識部３１２から受け取った場合には、現在時刻を基準にして２０秒前から５分前までの時間幅の間に受け取った番組付加情報に対して特定を行うよう制御し、この制御に従って音声認識部３１２は、現在時刻を基準にして２０秒前から５分前までの時間幅の間に受け取った番組付加情報に対して特定を行い、その特定された番組付加情報を付加情報記憶部３１７に記憶させる。すなわち、記憶時間制御部３１５は、この時間幅の間に生成された認識語彙セットが保持されるように制御する。

そうすると、音声認識部３５２は、その視聴者からの発声を音声認識し、音声認識結果を記憶時間制御部３１５に通知する。音声認識部３５２が「もっと前の情報を表示してほしいな」という発声を音声認識した場合には、「もっと前」、「情報」、「表示」を認識語彙として抽出し、記憶時間制御部３１５に通知する。

記憶時間制御部３１５は、音声認識部３１２から「もっと前」、「情報」、「表示」という認識語彙を受け取ると、「さっき」という時間表現を表す認識語彙に対応付けられた時間幅の情報を修正する。すなわち、「さっき」という認識語彙に現在時刻を基準にして４０秒前から５分４０秒前までの時間幅を対応付けるように修正する。そして、記憶時間制御部３１５は、音声認識部３５２に現在時刻を基準にして４０秒前から５分４０秒前までの間に受け取った番組付加情報を対象として再度番組付加情報の特定を行うよう音声認識部３５２を制御する。音声認識部３５２は、記憶時間制御部３１５の制御に従って、再度番組付加情報の特定を行い、特定した番組付加情報を付加情報記憶部３１７に記憶させ、表示部３１８は、付加情報記憶部３１７に記憶された番組付加情報を表示する。そして、視聴者は、表示された番組付加情報に目的とするものが含まれている場合にはその番組付加情報を選択して購入情報を入力する。

次に、図４のステップ３５４の動作を図８のフローチャートを用いて詳細に説明する。

上述したように音声認識する際、図３の認識語彙適応部３５８は、単語認識結果を類義語辞書３９０にフィードバックし、類義語辞書３９０中の認識された単語に重みを加算する。

すなわち、図８のフローチャートにおいて、ステップ３５８で音声認識部３５２が単語Ａを認識したとする（ステップ３５８）。単語Ａとしては、具体的には上述したようにウワギが認識されたとする。

類義語辞書適応部３５８は、類義語辞書３９０で読みがＡである単語を検索する（ステップ３５９）。すなわち、類義語辞書適応部３５８は、類義語辞書３９０から読みがウワギである単語を抽出する。従って単語上着が抽出される。

次に、類義語辞書適応部３５８は、単語Ａすなわち上着の単語クラス内頻度３９７に（１／想定出現単語総数）を加算する。ここで想定単語出現総数とは、類義語辞書３９０の出現頻度３９４を作成する際の出現単語の総数を仮想的に設定した値であり、例えば想定単語出現総数を１００とする。そうすると、今までの上着の出現頻度３９４は０．１０であったので、類義語辞書適応部３５８は、上着の出現頻度３９４を０．１０＋０．０１＝０．１１とする。このように類義語辞書適応部３５８は、類義語辞書３９０の単語のうち音声認識により認識された単語Ａの出現頻度３９４を増加させる。

次に、ステップ３６１において、類義語辞書適応部３５８は、単語Ａが含まれる単語クラスに含まれる単語のうち単語Ａ以外の単語の頻度から（その単語の出現頻度×（１／想定単語出現総数））を減算する。上着が含まれる単語クラスは、衣類であり、衣類には上着以外の単語としてジャケット及び服という単語が含まれている。従って、ジャケット及び服という単語の出現頻度３９４を減少させる。すなわち、今までジャケットの頻度は０．２０であったので、類義語辞書適応部３５８は、ジャケットの出現頻度３９４を０．２−（０．２×（１／１００））＝０．１９８とする。また、今まで服の頻度は、０．３０であったので、類義語辞書適応部３５８は、服の出現頻度３９４を０．３−（０．３×（１／１００））＝０．２９７とする。

音声認識部３５２が単語を認識するたびに、認識語彙適応部３５８は図８のステップ３５９、３６０、及び３６１の処理を行う。

放送局１０から新たな付加情報が放送されてきた場合、認識語彙拡張部３５７が認識語彙セット３９５を生成する際、類義語辞書３９０の出現頻度３９４として上記のように補正された出現頻度３９４が用いられる。従って、視聴者がよく発声する単語は音声認識部３５２でより認識されやすくなるようにすることが出来る。

以上のように、本実施の形態の買い物支援システムによれば、視聴者が興味を持った、番組中に登場した物や音楽等について、番組そのものの視聴を、メモをとる等の作業で妨げることなく、自然な発声を行うだけで、番組の視聴と連続的に、情報を取得し、購入することが可能になる。

また、認識語彙セットを利用することにより、付加情報に含まれるキーワード情報に対応するキーワードのみならず、そのキーワードに類義性のある単語を発声することによっても認識語彙セットを特定出来、従って付加情報を特定することが出来るようになる。

なお本実施の形態では購入情報は対応する付加情報の識別番号等とあわせて送信部３１９から放送局へ送信されるとしたが、付加情報に含まれる販売元へ送信されるとしても良い。

なお、本実施の形態では音声認識部３５２は認識結果より対応する付加情報を特定するとしたが、番組内でのタイムスタンプのみを確定し、付加情報記憶部３１７はそのタイムスタンプおよびそれ以前の付加情報およびタイムスタンプおよびそれ以前の付加情報に対応する認識語彙セットを記憶するものとしても良い。すなわち、音声認識部３５２は、視聴者が音声を発声した時刻のみを確定し、付加情報記憶部３１７は、その時刻に対応する付加情報やその時刻までの所定の時間の間に放送された付加情報およびその付加情報に対応する認識語彙セットを記憶することもできる。視聴後に視聴者に記憶された付加情報を提示し、視聴者の発声した音声を認識し手詳細な付加情報の提示や購入情報等の送信を行う。なお、このように番組視聴後に付加情報の特定を行う場合については、後述する実施の形態５〜７で詳細に説明する。

なお、本実施の形態では付加情報記憶部３１７は選択された付加情報のみを記憶するとしたが、番組の全付加情報を記憶し、音声認識部により選択された付加情報のみを表示するとしても良い。

なお、本実施の形態では付加情報を記憶し番組終了後表示するとしたが、付加情報と収録しておいた番組あるいは放送局へ要求信号を送り再度受信した対応シーンを表示するとしても良い。

なお、本実施の形態では付加情報を記憶し番組終了後表示するとしたが、付加情報の識別コードのみを記憶し、付加情報は放送局へ要求信号を送り再度受信して表示するとしても良い。

なお、本実施の形態の放送局１０は本発明の第１装置の例であり、本実施の形態のＴＶ／ＳＴＢ３１０は本発明の第２装置の例であり、本実施の形態の放送受信部３１３は本発明の受信手段の例であり、本実施の形態の認識語彙生成部３５４は認識語彙セット生成手段の例であり、本実施の形態の音声認識部３５２は本発明の音声認識手段の例であり、本実施の形態の音声認識部３５２は本発明の特定手段の例であり、本実施の形態の表示部３１８は本発明の表示手段の例であり、本実施の形態の認識語彙適応部３５８は出現頻度補正手段の例である。

（実施の形態２）
次に、本発明の実施の形態２における双方向放送による買い物支援システムについて説明する。

本発明の実施の形態２における双方向放送による買い物支援システムの概念構成を示すブロック図は、図１で、認識語彙記憶部３５１を認識語彙記憶部３６１に変更し、音声認識部３５２を音声認識部３６２に変更したものに相当する。従って図１の説明は実施の形態１と重複するので省略する。図９に、双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

ＴＶ／ＳＴＢ３１０は、図９に示すように、放送受信部３１３、認識語彙生成部３６０、認識語彙記憶部３６１、音声認識部３６２、時間表現辞書３１６、記憶時間制御部３１５、付加情報記憶部３１７、表示部３１８、送信部３１９、認識履歴記憶部３６３から構成される。

放送受信部３１３、時間表現辞書３１６、記憶時間制御部３１５、付加情報記憶部３１７、表示部３１８、及び送信部３１９については実施の形態１と同様であるので説明を省略する。

認識語彙生成部３６０は、放送受信部３１３で受信した番組付加情報から音声認識の対象語彙である認識語彙セットを生成する手段である。なお、実施の形態１とは異なり認識語彙生成部３６０は、一つの単語が複数の単語クラスに含まれる場合に認識語彙セットを生成するところが実施の形態１とは異なっている。認識語彙記憶部３６１は、一つの単語が複数の単語クラスに含まれる場合に生成された認識語彙セットを記憶する手段である。音声認識部３６２は、認識語彙記憶部３６１と時間表現辞書３１６とを認識語彙辞書として使用して音声認識を行う手段である。認識履歴記憶部３６３は、音声認識部３６２で既に認識された単語及びその単語が含まれる単語クラスを記憶しておく手段であり、例えば半導体メモリーまたはハードディスク装置で構成される。

図１０に、認識語彙生成部３６０の部分の詳細な構成を示す、認識語彙生成部３６０は、認識語彙抽出部３６４、認識語彙拡張部３６６、類義語辞書３６５、認識語彙適応部３６７から構成される。

認識語彙抽出部３６４は、番組付加情報に含まれるキーワード情報に対応する単語をキーワードとして抽出する手段である。認識語彙拡張部３６６は、抽出されたキーワードを拡張して認識語彙セットを生成する手段である。類義語辞書３６５は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された辞書である。このように、実施の形態２の類義語辞書３６５は、一つの単語が複数の単語クラスに含まれる場合も扱うことが可能である。認識語彙適応部３６７は、音声認識結果に応じて類義語辞書３６５に記載されている各単語が出現する頻度を補正する手段である。

次に、このような本実施の形態の動作を説明する。

図１２は、本実施の形態の買い物支援システムが認識語彙セットを生成して、付加情報と対応させて認識語彙記憶部３６１に記憶させるまでの動作を示すフローチャートである。また、図１５は、視聴者が発声した音声を認識した場合の動作を示すフローチャートである。まず、図１２に基づいて、認識語彙セットを生成して、付加情報と対応させて認識語彙記憶部３６１に認識語彙セットを記憶させるまでの動作を説明する。その後、視聴者が発声した音声を音声認識する場合の動作を説明する。

図１２において、実施の形態１と同様に、放送局１０からは、放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーワード情報を含む付加情報が放送内容とともに放送されてくる。放送受信部３１３は、この放送を受信する。

ここで、図１１に実施の形態２で用いる類義語辞書４００を示す。類義語辞書４００は実施の形態１のものとは異なり一つの単語が複数の単語クラスに含まれる場合をも扱うことが出来るものである。類義語辞書４００は、単語４０１と、その単語の読み４６１と、その単語が含まれる単語クラス１（４０２）と、単語クラス２（４０３）・・・単語クラスｎ（４０４）、その単語の出現頻度４０５とが記載された辞書である。なお、単語クラスとは、単語間の類義性を基準にして、複数の単語が分類されたものである。実施の形態２の類義語辞書では一つの単語４０１がｎ個の単語クラスに含まれている。また、本実施の形態の買い物支援システムを使用する初期状態においては、十分に大きい日本語コーパスから求められた出現頻度４０５が記載されている。この出現頻度４０５は、実施の形態１とは異なり、十分に大きい日本語コーパスにおける出現頻度が記載されている。

例えば、単語４０１の一例としてジャケットがあり、ジャケットの読み４６１はジャケットであり、ジャケットが含まれる単語クラス１（４０２）は衣類であり、単語クラス２（４０３）は流行などである。ジャケットの出現する出現頻度４０５は０．０２０である。

ステップ３７０において、付加情報としてジャケットの付加情報が送られてきたとする。なお、この付加情報については実施の形態１で説明したものと同様である。

次に、ステップ３７１において、認識語彙抽出部３６４は、付加情報に含まれるキーワード情報を抽出する。すなわち、ジャケットの付加情報が送られてきた場合には、キーワード情報としてジャケットに対応する情報を抽出する。そして、認識語彙拡張部３６６は、類義語辞書４００を利用して、抽出したキーワード情報に対応するキーワードと同一の単語クラス１（４０２）、単語クラス２（４０３）、・・・単語クラスｎ（４０４）に属する単語から構成される認識語彙セットを生成する。

具体的に説明すると、対象物がジャケットである付加情報のキーワード情報に対応するキーワードがジャケットであるとする。そうすると認識語彙抽出部３６４は、この付加情報からキーワード情報に対応するキーワードであるジャケットを抽出する。

そして、認識語彙拡張部３６６は、キーワードであるジャケットを含む単語クラス１（４０２）が衣類であり、単語クラス２（４０３）が流行などであるので、単語クラスが衣類、流行等である単語を抽出する。図１１の類義語辞書４００の場合、単語クラスが衣類である単語は、ジャケットなどであることがわかる。そうすると、認識語彙拡張部３６６は、ジャケットなどを認識語彙セットを構成する単語とする。

図１３にこのようにして作成された認識語彙セット４０６の例を示す。認識語彙セット４０６は、ジャケット、服、上着、バッグなどから構成されている。また、認識語彙セットの単語４０６には類義語辞書４００の出現頻度も頻度４０９として記載される。

次に、ステップ３７２において、認識語彙拡張部３６６は、認識語彙セットにおける各単語の頻度４０９を求める。すなわち、認識語彙セット内の各単語の頻度４０９を合計すると１になるように認識語彙セット４０６で頻度４０９を規格化する。

図１４に、このようにして頻度４０９が規格化された認識語彙セット４１０を示す。最終的には、認識語彙セット４１０として、単語の読み４１１と規格化された頻度であるセット内頻度４１２が記載される。

次に、ステップ３７３において、認識語彙適応部３７３は、認識履歴記憶部３６３より付加情報のキーワード情報に対応するキーワードが含まれる単語クラスに含まれる単語を抽出する。すなわち、認識履歴記憶部３６３は半導体メモリーまたはハードディスクから構成されており、認識履歴記憶部３６３には、既に行われた音声認識により認識された単語及びその単語が属する単語クラスが記憶されており、これらの単語のうち、ジャケットというキーワードが含まれる単語クラスに含まれる単語を抽出する。一般的には実施の形態２ではジャケットに含まれる単語クラスとしては、図１１の類義語辞書４０１が示すように衣類、流行など複数の単語クラスがある。

次に、ステップ３７４において、認識語彙適応部３７３は、認識語彙セット４１０の単語のうちステップ３７３で抽出された単語と一致する単語のセット内頻度４１２に関して、（認識履歴中の出現数／想定単語出現数）を加算する。一方、認識語彙セット４１０の単語のうちステップ３７３で抽出されなかった単語のセット内頻度４１２に関して、（セット内頻度×認識履歴中の認識語彙セット内単語の総出現数）／（想定単語出現数）を減算する。

次に、ステップ３７５において、認識語彙適応部３７３は、ステップ３７４でセット内頻度４１２が補正された認識語彙セット４１０を付加情報と対応させて認識語彙記憶部３６１に記憶させる。

以上で、認識語彙記憶部３６１に認識語彙セット４１０が付加情報と対応させて記憶される。

認識語彙セットを用いて音声認識部３６２が付加情報を特定する動作は実施の形態１と同様であるので説明を省略する。

次に、音声認識する場合の動作について説明する。以下に説明する動作は、すでに生成されている認識語彙セットを音声認識された後も繰り返し使う場合に、その音声認識結果を反映するための処理である。

すなわち、図１５に示すフローチャートで、ステップ３８０において、音声認識部３６２が単語Ａを認識したとする。具体的には単語Ａとしてウワギが認識されたとする。

ステップ３８１で、認識語彙適応部３６７は、類義語辞書４００を参照して単語Ａが含まれる単語クラスを抽出する。

次に、ステップ３８２で、認識語彙適応部３６７は、認識履歴記憶部３６３に単語Ａと単語Ａが含まれる単語クラスとを記憶させる。ただし、認識履歴記憶部３６３の単語記憶数の上限を超える場合は、最古の単語から順に削除する。

ステップ３８１、３８２で認識履歴記憶部３６３に記憶された単語Ａなどの単語は、上述した図１２のステップ３７３、３７４で用いられる。

一方、ステップ３８３において、認識語彙適応部３６７は、類義語辞書４００で読みがＡである単語を検索する。本実施の形態では、単語Ａとしてウワギが認識されているので、ウワギが読みである単語を検索して、上着という単語を抽出する。

次に、ステップ３８４において、認識語彙適応部３６７は、認識語彙セット４１０中の単語Ａのセット内頻度４１２に（１／想定単語出現数）を加算する。具体的には、想定単語総数を１００とした場合には上着の頻度は０．１＋０．０１＝０．１１に補正される。

次に、ステップ３８５において、認識語彙適応部３６７は、認識語彙セット４１０中の単語Ａ以外の単語の頻度から（セット内頻度×（１／想定単語総数））を減算する。具体的には、ジャケットの頻度は、０．２−（０．２×１／１００）＝０．１９８と補正され、服の頻度は、０．３−（０．３×１／１００）＝０．２９７と補正される。

音声認識する毎にステップ３８０からステップ３８５までの処理を繰り返す。

なお、実施の形態２でも実施の形態１で説明した種々の変形例を適用することが出来ることは言うまでもない。

なお、本実施の形態の放送局１０は本発明の第１装置の例であり、本実施の形態のＴＶ／ＳＴＢ３１０は本発明の第２装置の例であり、本実施の形態の放送受信部３１３は本発明の受信手段の例であり、本実施の形態の認識語彙生成部３６０は認識語彙セット生成手段の例であり、本実施の形態の音声認識部３６２は本発明の音声認識手段の例であり、本実施の形態の音声認識部３６２は本発明の特定手段の例であり、本実施の形態の表示部３１８は本発明の表示手段の例であり、本実施の形態の認識語彙適応部３６７は出現頻度補正手段の例である。

（実施の形態３）
次に、本発明の実施の形態３における双方向放送による買い物支援システムについて説明する。

本発明の実施の形態３における双方向放送による買い物支援システムの概念構成を示すブロック図は、図１で、認識語彙記憶部３５１を文法記憶部３７６に変更し、音声認識部３５２を音声認識部３７７に変更したものに相当する。従って図１の説明は実施の形態１と重複するので省略する。図１６に、双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

ＴＶ／ＳＴＢ３１０は、図１６に示すように放送受信部３１３、認識語彙生成部３７１、類義語辞書３７４、語彙重み修正部３７５、文法記憶部３７６、音声認識部３７７、認識履歴記憶部３６３、付加情報記憶部３１７、表示部３１８、送信部３１９、リモートコントローラ３２０、マイクロホン３２１、記憶時間制御部３１５から構成される。また、認識語彙生成部３７１は、ドメイン別ルール３７２、及び文法選択部３７３から構成される。すなわち、認識語彙生成部３７１は半導体メモリーまたはハードディスクの機能を有し、半導体メモリーまたはハードディスクにドメイン別ルール３７２を記憶しているものとする。また、文法記憶部３７６は、半導体メモリーまたはハードディスクの機能を有しており、それらの中に後述するＮｇｒａｍ文法情報を記憶しているものとする。

放送受信部３１３、記憶時間制御部３１５、付加情報記憶部３１７、表示部３１８、送信部３１９、リモートコントローラ３２０、マイクロホン３２１については第１の実施の形態と同様であるので、詳細な説明を省略する。

認識語彙生成部３７１は、ドメイン別ルール３７２に示すようにドラマ、屋外、秋などのドメイン毎のＮｇｒａｍ文法情報を自らが有する半導体メモリーまたはハードディスクに予め記憶しており、放送受信部３１３から送られてくるシーンコードに対応するドメインのＮｇｒａｍ文法情報を選択する手段である。すなわち、文法選択部３７３は、放送受信部３１３から出力されてくるシーンコードに対応するドメインのＮｇｒａｍ文法情報を選択する手段である。

文法記憶部３７６は、半導体メモリーまたはハードディスクの機能を有し、文法選択部３７３で選択されたＮｇｒａｍ文法情報をこれらの半導体メモリーまたはハードディスクに記憶する手段である。

語彙重み修正部３７５は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書３７４を利用して、Ｎｇｒａｍ文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を、認識履歴記憶部３６３に記憶されている既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する手段である。

音声認識部３７７は、文法記憶部３７６に記憶されているＮｇｒａｍ文法情報を利用して、視聴者が発声した音声を連続音声認識する手段である。

次に、このような本実施の形態の動作を説明する。

まず、図１７のフローチャートを用いて動作の概要を説明する。

放送局１０からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びＮｇｒａｍ文法情報を特定するためのシーンコードも放送されてくる。放送受信部３１３は、この放送を受信する。

ステップ３９０において、文法選択部３７３は、放送受信部３１３から出力されてくるデータからシーンコード及び付加情報が含むキーワード情報を抽出する。ここで、シーンコードとは、認識語彙生成部３７１がドメイン毎に記憶しているＮｇｒａｍ文法情報を特定するための情報である。

次に、ステップ３９１において、文法選択部３７３は、放送受信部３１３から出力されたシーンコードに対応するドメインのＮｇｒａｍ文法情報を選択する。

次に、ステップ３９２において、語彙重み修正部３７５は、Ｎｇｒａｍ文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を認識履歴記憶部３６３に記憶されている認識履歴情報と類義語辞書３７４を用いて補正する。

次に、ステップ３９３において、認識語彙重み修正部３７５は、補正したＮｇｒａｍ文法情報を文法記憶部３７６に記憶させる。

このようにして文法記憶部３７６に記憶されたＮｇｒａｍ文法情報が音声認識部３７７で音声認識のために用いられる。ステップ３９３において、認識語彙重み修正部３７５が、認識履歴情報と類義語辞書３７４を用いてＮｇｒａｍ文法情報を補正するので、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するように音声認識することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの表現に適するように特定することが出来るようになる。以下このことを詳細に説明する。

次に、図１８のフローチャートを用いて、実施の形態３の買い物支援システムの詳細な動作の説明を行う。

図１８において、上述したように、放送局１０からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びＮｇｒａｍ文法情報を特定するためのシーンコードも放送されてくる。

ステップ４００において、放送受信部３１３は、この放送を受信する。

ステップ４０１において、文法選択部３７３は、放送受信部３１３から出力されてくるデータからシーンコード及び付加情報が含むキーワード情報を抽出する。

ここで、シーンコードとは、認識語彙生成部３７１がドメイン毎に記憶しているＮｇｒａｍ文法情報を特定するための情報である。例えばシーンコードの例としては、ドラマ、屋外、秋などのドメインを特定するためのコードである。認識語彙生成部３７１にはドメイン別ルール３７２に示すように、ドメイン別にＮｇｒａｍ文法情報が格納されている。従って、シーンコードを指定することにより、指定したシーンコードに対応するドメインのＮｇｒａｍ文法情報を特定することが出来る。

また、実施の形態１と同様に、付加情報としてジャケットの付加情報が送られてきたとする。この場合付加情報としてはジャケットを示すキーワード情報のほかに付加情報としては、ジャケットの値段や色やサイズなどの説明、ジャケットの販売元の説明なども含まれることは実施の形態１と同様である。

文法選択部３７３は、シーンコードに対応するドメインのＮｇｒａｍ文法情報をドメイン別ルール３７２から選択すると、選択したＮｇｒａｍ文法情報を文法記憶部３７６に記憶させる。

ここで、Ｎｇｒａｍ文法情報の一般式は次の数１のようになる。

数１において、Ｐ（Ｗ_i｜Ｗ_i-1Ｗ_i-2・・・Ｗ_i-n+1）は、十分大きな日本語コーパスにおいて単語列Ｗ_i-1Ｗ_i-2・・・Ｗ_i-n+1の後ろに単語Ｗ_iが現れる確率を表しており、Ｎ（Ｗ_iＷ_i-1・・・Ｗ_i-n+1）は、十分大きな日本語コーパスにおいて単語列Ｗ_iＷ_i-1・・・
Ｗ_i-n+1が現れた頻度を表している。

Ｎｇｒａｍ文法では数１を以下の数２のように近似する。

数２において、Ｐ（Ｃ_i｜Ｃ_i-1・・・Ｃ_i-n+1）は、十分大きな日本語コーパスにおい
て単語クラス列Ｃ_i-1・・・Ｃ_i-n+1の後ろに単語クラスＣ_iが現れた確率を表している。
また、Ｐ（Ｗ_i｜Ｃ_i）は、十分大きな日本語コーパスにおいて、単語クラスＣ_iに含まれ
る単語のうち、単語Ｗ_iが出現する確率を表している。

特にｎ＝２の場合には、数１は数３のようになる。

また、数２は数４のようになる。

以下ｎ＝２の場合について説明するが、ｎが２より大きい場合については、単語クラスＣ_i-1などを単語クラス列Ｃ_i-1・・・Ｃ_i-n+1などと読み替えればよい。

数４において、Ｐ（Ｗ_i｜Ｗ_i-1）は、単語Ｗ_i-1の後ろに単語Ｗ_iが現れる確率を表しており、Ｐ（Ｃ_i｜Ｃ_i-1）は、十分大きな日本語コーパスにおいて、単語クラスＣ_i-1に含まれる単語の後ろに単語クラスＣ_iに含まれる単語が出現する確率を表しており、Ｐ（Ｗ_i｜Ｃ_i）は、前述した日本語コーパスにおいて、単語クラスＣ_iに含まれる単語のうち、単語Ｗ_iが出現する確率を表している。ここで、単語クラスＣ_iやＣ_i-1などは類義語辞書３７４で定義されている。類義語辞書３７４は、例えば実施の形態１で説明した図５の類義語辞書３９０と同様のものであるとする。すなわち、数４は、単語Ｗ_i-1の後ろに単語Ｗ_iが現れる確率は、単語クラスＣ_i-1に含まれる単語の後ろに単語クラスＣ_iに含まれる単語が出現する確率と単語クラスＣ_iに含まれる単語のうち単語Ｗ_iが出現する確率との積で表されることを示している。

図１９に、このようにして文法記憶部３７６に記憶されたＮｇｒａｍ文法情報の例であるＮｇｒａｍ文法情報４５４を示す。Ｎｇｒａｍ文法情報４５４において、例えばアノという単語の後ろにウワギという単語が現れる確率は、［指示語］という単語クラスに含まれる単語の後ろに［衣類］という単語クラスに含まれる単語が現れる確率と［衣類］という単語クラスに含まれる単語のうちウワギという単語が現れる確率との積で表されている。

次に、ステップ４０２、及びステップ４０３において、語彙重み修正部３７５は、Ｎｇｒａｍ文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を認識履歴記憶部３６３に記憶されている認識履歴情報と類義語辞書３７４を用いて補正する。すなわち、数４におけるＰ（Ｗ_i｜Ｃ_i）を認識履歴記憶部３６３に記憶されている認識履歴情報と類義語辞書３７４とを用いて補正する。

図２０に、ステップ４０２及びステップ４０３の動作を説明するための図を示す。以下図２０を用いてステップ４０２及びステップ４０３の動作を具体的に説明する。

まず、ステップ４０２において、上述したように付加情報に含まれるキーワード情報に対応するキーワードはジャケットである。類義語辞書３７４には、ジャケットは単語クラス［衣類］に含まれると定義されているとする。そして、類義語辞書３７４に単語クラス［衣類］に含まれる単語として、Ｃ_i４２４に示すようにジャケット、フク、ウワギ、シャツが定義されているとする。このような場合には、語彙重み修正部３７５は、Ｃ_i４２４に示すように、付加情報に含まれるキーワード情報に対応するキーワードがジャケットである場合には、［衣類］という単語クラスに属する単語であるジャケット、フク、ウワギ、シャツを抽出する。

次に、ステップ４０３において、認識履歴記憶部３６３に、認識履歴情報４２１として、パンプス、クチベニ、テレビ、ジャケットなどの単語が記憶されている。認識履歴記憶部３６３に記憶されている認識履歴情報４２１は、既に行われた音声認識の結果認識された単語の履歴を示すものである。

また、文法選択部３７３がＮｇｒａｍ文法情報をシーンコードから特定して選択した際の数４におけるＰ（Ｗ_i｜Ｃ_i）は、初期状態４２１のようになっているとする。すなわち、単語クラス［衣類］に含まれる単語のうち、ジャケットが現れる確率が０．４であり、単語クラス［衣類］に含まれる単語のうち、フクが現れる確率が０．３であり、単語クラス［衣類］に含まれる単語のうち、ウワギが現れる確率が０．２であり、単語クラス［衣類］に含まれる単語のうち、シャツが現れる確率が０．１であるとする。

このような場合、語彙重み修正部３７５は、単語ジャケットが含まれる単語クラスである［衣類］に属する単語であるジャケット、フク、ウワギ、シャツのうち、認識履歴情報４２１に含まれる各単語の数４におけるＰ（Ｗ_i｜Ｃ_i）に（認識履歴情報４２１中の出現数）／（想定単語出現数）だけ加算する。ここで想定単語出現数とは、実施の形態１で説明したものと同様の意味である。認識履歴情報４２１には、ジャケット、フク、ウワギ、シャツのうち、ジャケットとフクが含まれていおり、ジャケットは２回出現しており、フクは１回出現している。このような場合、想定単語出現数を１００とする場合には、Ｐ（ジャケット｜［衣類］）に２／１００を加算する。また、Ｐ（フク｜［衣類］）に１／１００を加算する。

また、語彙重み修正部３７５は、単語ジャケットが含まれる単語クラスである［衣類］に属する単語であるジャケット、フク、ウワギ、シャツのうち、認識履歴情報４２１に含まれない各単語の数４におけるＰ（Ｗ_i｜Ｃ_i）から（（補正前のＰ（Ｗ_i｜［衣類］））／（単語クラス［衣類］に属する単語で認識履歴情報４２１に含まれなかった各単語のＰ（Ｗ_i｜［衣類］）の総和））×（（認識履歴情報４２１中の単語クラス［衣類］に属する単語の出現総数）／（想定出現単語総数））を減算する。すなわち、一般的には、認識履歴情報４２１に含まれない各単語の数４におけるＰ（Ｗ_i｜Ｃ_i）から（（補正前のＰ（Ｗ_i｜Ｃ_i））／（単語クラスＣ_iに属する単語で認識履歴情報４２１に含まれなかった各単語のＰ（Ｗ_i｜Ｃ_i）の総和））×（（認識履歴情報４２１中の単語クラスＣ_iに属する単語の出現総数）／（想定出現単語総数））を減算する。

認識履歴情報４２１には、ジャケット、フク、ウワギ、シャツのうち、ウワギとシャツが含まれていない。このような場合、想定単語出現数を１００とする場合には、Ｐ（ウワギ｜［衣類］）から（０．２／（Ｐ（ウワギ｜［衣類］＋Ｐ（シャツ｜［衣類］））×（３／１００）を減算する。また、Ｐ（シャツ｜［衣類］）から（０．１／（Ｐ（ウワギ｜［衣類］＋Ｐ（シャツ｜［衣類］））×（３／１００）を減算する。

また、語彙重み修正部３７５は、単語ジャケットが含まれる単語クラスである［衣類］に属する単語であるジャケット、フク、ウワギ、シャツのうち、いずれの単語も認識履歴情報４２１に含まれていない場合には、単語クラス［衣類］に関して数４におけるＰ（Ｗ_i｜Ｃ_i）を補正せず、そのまま用いる。

上記のように語彙重み修正部３７５が数４におけるＰ（Ｗ_i｜Ｃ_i）を補正すると、図２０の適応後４２２に示すように補正される。

次に、ステップ４０４において、語彙重み修正部３７５は、数４におけるＰ（Ｗ_i｜Ｃ_i）を補正した数４に示したＮｇｒａｍ文法情報を付加情報と対応させて文法記憶部３７６に記憶させる。

次に、音声認識の際には、音声認識部３７７は、視聴者が発声した音声を文法記憶部３７６に記憶されているＮｇｒａｍ文法情報を用いて音声認識する。

視聴者が「あのジャケットいいな」と発声した場合には、音声認識部３７７は、文法記憶部３７６に記憶されている補正されたＮｇｒａｍ文法情報を用いて連続音声認識する。その結果「あのジャケットいいな」という文章が認識される。Ｎｇｒａｍ文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。

Ｎｇｒａｍ文法情報を用いることにより、音声認識部３７７が「あの」、「ジャケット」、「いいな」という単語を認識したとする。そうすると、次に音声認識部３７７は、付加情報に含まれるキーワード情報に対応するキーワードであるジャケットが音声認識された単語であるジャケットと一致するので、ジャケットの付加情報を特定する。そして、特定したジャケットの付加情報を付加情報記憶部３１７に記憶させる。これ以降の付加情報の処理に関する動作は実施の形態１と同様であるので説明を省略する。

また、音声認識部３６３が上記のように単語を認識するたびに認識した単語を認識履歴記憶部３６３に記憶させる。

そして、放送局１０から新たにシーンコードが送られてくるまでは、語彙重み修正部３７５は、認識履歴情報記憶部３６３に新たに単語が記憶されるたびにその新たに記憶された単語を認識履歴情報４２１としてステップ４０２及びステップ４０３の動作を繰り返す。このようにして語彙重み修正部３７５は、音声認識中にも数４におけるＰ（Ｗ_i｜Ｃ_i）を補正する。

そして、放送局１０から新たにシーンコードが送られてきた場合には、認識重み修正部３７５は、シーンコードが送られてくるまでの認識履歴情報４２１を対象として図１８のステップ４０２、４０３の動作を行う。

なお、実施の形態３でＮｇｒａｍ文法情報を用いて音声認識した後、付加情報に含まれるキーワード情報に対応するキーワードを用いて付加情報を特定する際に、実施の形態１または実施の形態２で説明した認識語彙セットを用いて付加情報を特定することも出来る。このようにすれば、本実施の形態の効果に加え、実施の形態１や実施の形態２の効果をも得ることが出来る。

さらに、本実施の形態の認識語彙生成部３７１に格納されているドメイン別ルール３７２として示すＮｇｒａｍ文法情報は、予めインターネットなどのネットワークを利用してダウンロードしたものを用いても構わない。

さらに、本実施の形態では、文法選択部３７２がシーンコードが入力されると、そのシーンコードに対応するドメインのＮｇｒａｍ文法情報を選択するとして説明したが、これに限らない。放送局１０からＮｇｒａｍ文法情報を特定するための情報であるＮｇｒａｍ文法情報特定用キーワード情報が送られてきて、ドメイン別ルール３７２に記憶されているＮｇｒａｍ文法情報にもＮｇｒａｍ文法情報特定用キーワード情報が付加されており、文法選択部は、それらのＮｇｒａｍ文法情報特定用キーワードの合致の程度に応じてＮｇｒａｍ文法情報を特定し、特定したＮｇｒａｍ文法情報を選択しても構わない。

さらに、本実施の形態では、Ｎｇｒａｍ文法情報を用いて音声認識するとして説明したが、これに限らず、Ｎｇｒａｍ以外の言語モデルを用いて音声認識しても本実施の形態と同様の効果を得ることが出来る。ここでＮｇｒａｍ以外の言語モデルとは、例えば隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）、確率文脈自由文法（ｐｒｏｂａｂｉｌｉｓｔｉｃｃｏｎｔｅｘｔ−ｆｒｅｅｇｒａｍｍａｒ）などである。Ｎｇｒａｍ以外の言語モデル、たとえば隠れマルコフモデルにおいて、認識結果に基づいて、認識された単語を出力する「状態」から音声認識によって認識された単語が出力される出力確率を増加させる、あるいは確率文脈自由文法において、認識された単語へ展開する「非終端記号」（例えば認識された単語が属するクラスを表す）が、認識された単語を「終端記号」として生成する確率を増加させるとしてもよい。

このように、認識重み修正部３７５が、数４におけるＰ（Ｗ_i｜Ｃ_i）を補正するので、視聴者が発声する表現に適した連続音声がより認識されやすくなる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの表現に適するように特定することが出来るようになる。

なお、本実施の形態の放送局１０は本発明の第１装置の例であり、本実施の形態のＴＶ／ＳＴＢ３１０は本発明の第２装置の例であり、本実施の形態の放送受信部３１３は本発明の受信手段の例であり、本実施の形態の認識語彙生成部３７１は本発明の言語モデル特定手段の例であり、本実施の形態の語彙重み修正部３７５は本発明の補正手段の例であり、本実施の形態の音声認識部３７７は本発明の音声認識手段の例であり、本実施の形態の音声認識部３７７は本発明の特定手段の例であり、本実施の形態の表示部３１８は本発明の表示手段の例であり、本実施の形態のシーンコードは本発明のＩＤの例である。

（実施の形態４）
次に、本発明の実施の形態４における双方向放送による買い物支援システムについて説明する。

本発明の実施の形態４における双方向放送による買い物支援システムの概念構成を示すブロック図は、図１で、認識語彙記憶部３５１を文法記憶部３７６に変更し、音声認識部３５２を音声認識部３７７に変更したものに相当する。従って図１の説明は実施の形態１と重複するので省略する。図２１に、双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

ＴＶ／ＳＴＢ３１０は、図２１に示すように放送受信部３１３、文法記憶部３７６、音声認識部３７７、商品データ記憶部３１７、表示部３１８、送信部３１９、クラス化部３８２、認識履歴記憶部３６３、類義語辞書３７４、クラス重み修正部３８１から構成される。

放送受信部３１３、付加情報記憶部３１７、表示部３１８、送信部３１９、リモートコントローラ３２０、マイクロホン３２１については第１の実施の形態と同様であるので、詳細な説明を省略する。また、文法記憶部３７６、音声認識部３７７、認識履歴記憶部３６３については第３の実施の形態と同様であるので詳細な説明を省略する。

クラス重み修正部３８１は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書３７４を利用して、Ｎｇｒａｍ文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を補正する手段である。

音声認識部３７７は、音声認識された結果認識された単語から類義語辞書３７４を利用して、その単語が含まれるクラスを特定し、認識された単語とその単語が含まれるクラスとを認識履歴記憶部３６３に記憶させる手段である。

次に、このような実施の形態４の動作を実施の形態３との相違点を中心に説明する。

まず、図２２のフローチャートを用いて動作の概要を説明する。

放送局１０からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びＮｇｒａｍ文法情報も放送されてくる。放送受信部３１３は、この放送を受信する。

ステップ４１０において、放送受信部３１３は、文法記憶部３７６に放送されてきたＮｇｒａｍ文法情報を記憶させる。

次に、ステップ４１１において、クラス重み修正部３８１は、Ｎｇｒａｍ文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を認識履歴記憶部３６３に記憶されている認識履歴情報を用いて補正する。

次に、ステップ４１２において、クラス重み修正部３８１は、補正したＮｇｒａｍ文法情報を文法記憶部３７６に記憶させる。

このようにして文法記憶部３７６に記憶されたＮｇｒａｍ文法情報が、実施の形態３と同様に音声認識部３７７で音声認識のために用いられる。ステップ４１１において、クラス重み修正部３８１が、認識履歴情報を用いてＮｇｒａｍ文法情報を補正するので、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するように音声認識することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの興味に適するように特定することが出来るようになる。以下このことを詳細に説明する。

次に、図２３のフローチャートを用いて、実施の形態４の買い物支援システムの詳細な動作の説明を行う。

図２３において、上述したように、放送局１０からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びＮｇｒａｍ文法情報も放送されてくる。

ステップ４２０において、放送受信部３１３は、この放送を受信して、Ｎｇｒａｍ文法情報を文法記憶部３７６に記憶させる。

Ｎｇｒａｍ文法情報については実施の形態３で説明したので説明を省略する。実施の形態４では、実施の形態３とは異なり数４におけるＰ（Ｃ_i｜Ｃ_i-1）を認識履歴記憶部３６３の認識履歴情報を用いて補正する。

図２４に、数４におけるＰ（Ｃ_i｜Ｃ_i-1）の例を示す。例えば図２４で指示語という単語クラスの後ろに衣類というクラスが出現する確率は０．３０であることがわかる。

次に、ステップ４２１において、放送受信部３１３は付加情報を受信すると付加情報記憶部３１７に記憶させる。ここで、受信した付加情報は実施の形態３と同様にジャケットの付加情報であるとする。

次に、ステップ４２２、及びステップ４２３において、クラス重み修正部３８１は、Ｎｇｒａｍ文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を認識履歴記憶部３６３に記憶されている認識履歴情報を用いて補正する。すなわち、数４におけるＰ（Ｃ_i｜Ｃ_i-1）を認識履歴記憶部３６３に記憶されている認識履歴情報を用いて補正する。

図２５に、ステップ４２２及びステップ４２３の動作を説明するための図を示す。以下図２５を用いてステップ４２２及びステップ４２３の動作を具体的に説明する。

まず、ステップ４２２において、上述したように付加情報に含まれるキーワード情報に対応するキーワードはジャケットである。類義語辞書３７４には、ジャケットは単語クラス［衣類］に含まれると定義されているとする。また、認識履歴記憶部３６３には、図２５の認識履歴情報４５１に示すような認識履歴情報が記憶されているとする。

この認識履歴情報４５１は、音声認識された単語とその単語が含まれる単語クラスとから構成されている。すなわち、音声認識部３７７が音声認識を行った結果認識した単語を含む単語クラスをクラス化部３８２が類義語辞書３７４を用いて検出する。そして、クラス化部３８２は、認識された単語とその単語が含まれる単語クラスとを予め認識履歴記憶部３６３に記憶させておく。このように認識履歴情報４５１は、クラス化部３８２により生成されたものである。

クラス重み修正部３８１は、付加情報のキーワード情報に対応するキーワードであるジャケットが含まれる単語クラスである［衣類］を類義語辞書３７４を用いて特定し、さらに、単語クラス［衣類］に属する単語を認識履歴情報４５１から抽出する。認識履歴情報４５１に示すように、単語クラス［衣類］に属する単語としてジャケットが２回、フクが２回抽出されている。

次に、ステップ４２３において、単語クラスは、類義語辞書３７４にクラスの集合４５０に示すようにｎ個の単語クラスが定義されているとする。放送受信部３１３がＮｇｒａｍ文法情報を受信して、文法記憶部３７６に記憶させた際の数４におけるＰ（Ｃ_i｜Ｃ_i-1）は、初期状態４５２のようになっているとする。例えば、単語クラス［指示語］に含まれる単語の後ろに単語クラス［衣類］に含まれる単語が現れる確率が０．７であり、単語クラス［指示語］に含まれる単語の後ろに単語クラス［家具］に含まれる単語が現れる確率が０．３である。

このような場合、クラス重み修正部３８１は、ある単語クラスに含まれる単語の後ろに単語クラス［衣類］に含まれる単語が現れる確率であるＰ（［衣類］｜Ｃ_i-1）に、単語クラス［衣類］に含まれる単語が認識履歴情報４５１に出現する出現数を想定出現単語総数で割った値を加算する。すなわち、Ｃ_iが付加情報のキーワード情報に対応するキーワードを含む単語クラスである場合に、ある単語クラスに含まれる単語の後ろにＣ_iに含まれる単語が現れる確率に、単語クラスＣ_iに含まれる単語が認識履歴情報４５１に出現する出現数を想定出現単語総数で割った値を加算する。

初期状態４５２のＰ（［衣類］｜［指示語］）には、認識履歴情報４５１に単語クラス［衣類］の単語が４個現れているので、想定単語出現総数を１００として４／１００が加算されていることがわかる。

一方、クラス重み修正部３８１は、単語クラス［衣類］以外の単語クラスをＣ_jとした場合、Ｐ（Ｃ_j｜Ｃ_i-1）から、（（修正前のＰ（Ｃ_j｜Ｃ_i-1））×（認識履歴のなかった単語クラスＣ_jのＰ（Ｃ_j｜Ｃ_i-1）の総和））×（（認識履歴情報４５１中の単語クラス［衣類］に属する単語の出現総数）／（想定出現単語総数））を減算する。すなわち、Ｃ_jが付加情報のキーワード情報に対応するキーワードを含む単語クラス以外の単語クラスであり、Ｃ_iが付加情報のキーワード情報に対応するキーワードを含む単語クラスである
場合に、Ｐ（Ｃ_j｜Ｃ_i-1）から、（（修正前のＰ（Ｃ_j｜Ｃ_i-1））／認識履歴のなかった単語クラスＣ_jのＰ（Ｃ_j｜Ｃ_i-1）の総和）））×（認識履歴情報４５１中のＣ_iに属する単語の出現総数）／（想定出現単語総数）を減算する。

初期状態４５２のＰ（［家具］｜［指示語］）からは、（０．３／０．３）×（４／１００）だけ減算されていることがわかる。このようにすることにより、図２５の適応後４５３に示すように数４におけるＰ（Ｃ_j｜Ｃ_i-1）が補正される。

次に、ステップ４２４において、クラス重み修正部３８１は、数４におけるＰ（Ｃ_i｜Ｃ_i−1）を補正した数４に示したＮｇｒａｍ文法情報を付加情報と対応させて文法記憶部３７６に記憶させる。

このように、クラス重み修正部３８１が、数４におけるＰ（Ｃ_i｜Ｃ_i−1）を補正するので、視聴者の趣味に適した連続音声がより認識されやすくなる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の趣味に適するように特定することが出来るようになる。

なお、本実施の形態においても上記各実施の形態で説明した種々の変形例が適用出来ることは言う間でもない。

なお、本実施の形態では、Ｎｇｒａｍ文法情報が放送局１０から送られてくるとして説明したが、実施の形態３と同様にＮｇｒａｍ文法情報をシーンコードなどにより選択するようにすることも出来る。また、逆に実施の形態３で、Ｎｇｒａｍ文法情報をシーンコードから選択する代わりに、実施の形態４で説明したように、Ｎｇｒａｍ文法情報が放送局から送られてくるとしても構わない。

さらに、本実施の形態では、Ｎｇｒａｍ文法情報を用いて音声認識を行うとして説明したが、これに限らない。Ｎｇｒａｍ以外の言語モデルを用いても構わない。ここで、Ｎｇｒａｍ以外の言語モデルとは、例えば、隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）、確率文脈自由文法（ｐｒｏｂａｂｉｌｉｓｔｉｃｃｏｎｔｅｘｔ−ｆｒｅｅｇｒａｍｍａｒ）などである。Ｎｇｒａｍ以外の言語モデル、たとえば隠れマルコフモデルにおいて、認識結果に基づいて、認識された単語を出力する「状態」をＳ１とすると、Ｓ１へ遷移するアークを持つ状態Ｓｉそれぞれについて、ＳｉからＳ１への遷移確率を増加させる。あるいは確率文脈自由文法において、認識された単語（終端記号）を展開する「非終端記号」をＣ１とすると、Ｃ１を含む記号列を展開する生成規則の確率を増加させるものとしてもよい。

なお、本実施の形態の放送局１０は本発明の第１装置の例であり、本実施の形態のＴＶ／ＳＴＢ３１０は本発明の第２装置の例であり、本実施の形態の放送受信部３１３は本発明の受信手段の例であり、本実施の形態のクラス重み修正部３８１は本発明の補正手段の例であり、本実施の形態の音声認識部３７７は本発明の音声認識手段の例であり、本実施の形態の音声認識部３７７は本発明の特定手段の例であり、本実施の形態の表示部３１８は本発明の表示手段の例である。

（実施の形態５）
次に、本発明の実施の形態５における買い物支援システムについて説明する。

本発明の実施の形態５における買い物支援システムの概念構成を示すブロック図は、図１で、認識語彙記憶部３５１を時間・言語モデル情報記憶部２００５に変更し、音声認識部３５２を音声認識部３７７に変更したものに相当する。従って図１の説明は実施の形態１と重複するので省略する。図２９に、買い物支援システムの詳細を示す機能ブロック図を示す。

ＴＶ／ＳＴＢ３１０は、図２９に示すように放送受信部３１３、制御部２００１、音響出力部２００３、画像表示部２００４、時間選択入力手段２００２、時間・言語モデル情報記憶部２００５、情報選択部２００６、音声認識部３７７、マイクロホン３２１、及び送信部３１９から構成される。

放送受信部３１３、送信部３１９、リモートコントローラ３２０、マイクロホン３２１については第１の実施の形態と同様であるので、詳細な説明を省略する。

制御部２００１は、音響出力部２００３、画像表示部２００４、情報選択部２００６などを制御する手段である。

音響信号出力部２００３は、制御部２００１から出力された音響信号を音響信号出力部２００３が有するスピーカから音声として出力する手段である。

画像表示部２００４は、制御部２００１から出力された映像信号を画像表示部２００４が有するディスプレイに表示する手段である。

時間選択入力手段２００２は、ボタンスイッチを含み、買い物支援システムの使用者が番組視聴中に興味を持ったものがある場合にはその時の時間位置を指定する手段である。

時間・言語モデル情報記憶部２００５は、時間選択入力手段２００２で指定された時間位置と、その時間位置に対応する言語モデル情報を記憶する手段である。

音声認識部３７７は、買い物支援システムの使用者が発声した音声をＮｇｒａｍ文法情報を用いて音声認識する手段である。

情報選択部２００６は、音声認識部３７７が音声認識することにより認識した単語と、付加情報に含まれるキーワード情報に対応するキーワードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部２００６は、第３の実施の形態の認識語彙生成部３７１、類義語辞書３７４、語彙重み修正部３７５、認識履歴記憶部３６３、付加情報記憶部３１７などの各種の機能を有している。

送信部３１９は、選択された付加情報に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する手段である。

なお、本実施の形態のＴＶ／ＳＴＢ３１０は、視聴している番組などを記録するハードディスクが内蔵されているものとする。

次に、このような本実施の形態の動作を説明する。

図３０に本実施の形態のＴＶ／ＳＴＢ３１０の動作を示すフローチャートを示す。以下、図３０に基づいて動作を説明する。

放送局１０からは、放送されてくる放送内容である番組内容２００７が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報である番組付加情報（商品情報）２００８及びＮｇｒａｍ文法情報である番組付加情報（Ｎｇｒａｍ文法）２００９が放送されてくる。放送受信部３１３は、この放送を受信する。すなわち、第３の実施の形態とは、異なり本実施の形態では、番組付加情報（Ｎｇｒａｍ文法）２００９も放送局から放送されてくる。

制御部２００１は、放送受信部３１３で受信された番組内容２００７を番組内容２０１０として音響信号出力部２００３及び画像表示部２００４に出力するとともに、音響信号出力部２００３が番組内容２０１０の音声信号をスピーカから出力するよう制御し、また画像表示部２００４が番組内容２０１０の映像信号をディスプレイに表示するよう制御する。また、制御部２００１は、番組内容２００７、番組付加情報（商品情報）２００８、番組付加情報（Ｎｇｒａｍ文法）２００９など放送されてくる情報を、一旦内蔵のハードディスクに記録するように制御する。

今、音響信号出力部２００３のスピーカと画像表示部２００４のディスプレイとに、例えばドラマの番組が出力されているとする。そして、本実施の形態の買い物支援システムの使用者は、ドラマを視聴しているとする。

そして、視聴者が番組を視聴している最中に、登場人物の洋服や、ドラマのセットとして用いられている家具や本など番組中で興味があるものがディスプレイに映った場合、この使用者は、時間選択入力手段２００２を操作して、時間的な付箋を貼り付ける。

すなわち、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、時間選択入力手段２００２が有するボタンスイッチを押す。

時間選択入力手段２００２は、使用者がボタンスイッチを押すことによって入力した付箋を貼る命令が入力された時点の時刻より１０秒前の時刻と付箋を貼る命令が入力された時点の時刻より１０秒後の時刻とを時間位置として制御部２００１に出力する（ステップ５０１）。

制御部２００１は、時間選択入力手段２００２から時間位置を入力されると、その時間位置と、その時間位置に含まれる番組付加情報（Ｎｇｒａｍ文法）２００９とを対応付けて、時間情報および時間に対応するＮｇｒａｍ文法２０１１として時間・言語モデル情報記憶部２００５に格納する（ステップ５０２）。

次に、使用者が番組の視聴を終了した後、または視聴を中断した後、制御部２００１は、時間・言語モデル情報記憶部２００５に格納されている時間位置および時間に対応するＮｇｒａｍ文法２０１１を読み出し、その読み出された時間位置に含まれる番組内容の音声信号及び映像信号を内蔵のハードディスクから抽出し、それぞれ音響信号出力部２００３及び画像表示部２００４に出力する（ステップ５０３）。このようにして、時間・言語モデル情報記憶部２００５に格納されている時間位置に含まれるシーンが、洋服を着たドラマの登場人物が映っているシーンであるとすると、時間位置で指定される時間幅すなわち２０秒間分の洋服を着たドラマの登場人物が映っているシーンが再度使用者に提示される。

また、制御部２００１は、読み出した時間位置に対応するＮｇｒａｍ文法情報を情報選択部２００６に出力する。情報選択部２００６は、このＮｇｒａｍ文法情報を音声認識部３７７に出力する。

また、制御部２００１は、読み出した時間位置に含まれる番組付加情報（商品情報）２００８を内蔵ハードディスクから抽出し、情報選択部２００６に出力する。

使用者は、再度提示された時間位置で指定されたシーンを見て登場人物が着ている洋服を特定する音声をマイクロホン３２１に入力する（ステップ５０４）。例えば、使用者は、「あの、洋服いいな」とマイクロホン３２１に向かって発声する。

そうすると、音声認識部３７７は、時間・言語モデル情報記憶部２００５から読み出されてきた番組付加情報（Ｎｇｒａｍ文法）２００９であるＮｇｒａｍ文法情報を用いて、「あの、洋服いいな」という音声信号を音声認識する（ステップ５０５）。

すなわち、使用者が「あの洋服いいな」と発声した場合には、音声認識部３７７は、時間・言語モデル情報記憶部２００５から読み出され、実施の形態３のように最適化されたＮｇｒａｍ文法情報を用いて連続音声認識する。なお、Ｎｇｒａｍ文法情報を最適化する方法は実施の形態３と同様であるので、詳細な説明を省略する。その結果「あの洋服いいな」という文章が認識される。Ｎｇｒａｍ文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。

Ｎｇｒａｍ文法情報を用いることにより、音声認識部３７７が「あの」、「洋服」、「いいな」という単語を認識したとする。そうすると、次に音声認識部３７７は、「あの」、「洋服」、「いいな」という単語列を情報選択部２００６に出力する。

情報選択部２００６は、抽出された付加情報（商品情報）２０１３に含まれるキーワード情報に対応するキーワードである洋服が音声認識された単語である洋服と一致するので、洋服の付加情報を特定する。そして、特定した洋服の付加情報を選択された情報２０１３として送信部３１９に出力する。送信部３１９は、選択された情報２０１３に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する（ステップ５０６）。

なお、時間選択入力手段２００２がタッチパネルを含むものである場合には、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、タッチパネルの付箋ボタンに触れればよい。また、時間選択入力手段２００２がマイクを含むものである場合には、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、「付箋を貼って」などと発声すればよい。

さらに、本実施の形態では、情報選択部２００６が時間・言語モデル情報記憶部２００５から読み出されたＮｇｒａｍ文法情報が、実施の形態３と同様の方法により最適化するとして説明したが、これに限らず、実施の形態４と同様の方法により最適化しても構わない。

さらに、本実施の形態では、時間・言語モデル情報記憶部２００５が、時間位置と番組付加情報（Ｎｇｒａｍ文法）２００９であるＮｇｒａｍ文法情報とを時間情報および時間に対応するＮｇｒａｍ文法２０１１として格納するとして説明したが、これに限らない。時間・言語モデル情報記憶部２００５が、時間位置のみを格納し、Ｎｇｒａｍ文法情報は格納しなくても構わない。なお、この場合には、制御部２００１は、ステップ５０３において、読み出した時間位置に含まれるＮｇｒａｍ文法情報を内蔵ハードディスクに格納されている番組付加情報（Ｎｇｒａｍ文法）２００９から抽出して、情報選択部２００６に出力すればよい。

さらに、本実施の形態では、時間・言語モデル情報記憶部２００５が、時間位置と番組付加情報（Ｎｇｒａｍ文法）２００９であるＮｇｒａｍ文法情報とを時間情報および時間に対応するＮｇｒａｍ文法２０１１として格納するとして説明したが、これに限らない。時間・言語モデル情報記憶部２００５が、時間位置と番組付加情報（Ｎｇｒａｍ文法）２００９であるＮｇｒａｍ文法情報に加え、時間位置に含まれる番組付加情報（商品情報）２００８を格納しても構わない。なお、この場合には、制御部２００１は、ステップ５０３において、読み出した時間位置に含まれる付加情報（商品情報）２００８を時間・言語モデル情報記憶部２００５から読み出し、情報選択部２００６に出力すればよい。

さらに、本実施の形態では、放送局１０から番組付加情報（Ｎｇｒａｍ文法）２００９が送信されてくるとして説明したが、番組付加情報（Ｎｇｒａｍ文法）２００９の代わりに実施の形態１や実施の形態２で説明した認識語彙セットが放送局１０から放送されてきても構わない。なお、この場合には、制御部２００１、音声認識部３７７、及び情報選択部２００６は、Ｎｇｒａｍ文法情報の代わりに認識語彙セットを扱い、情報選択部２００６及び音声認識部３７７の動作は第１の実施の形態や第２の実施の形態と同様に認識語彙セットを用いて、付加情報（商品情報）２００８を特定するものとする。

さらに、本実施の形態では、番組付加情報（商品情報）２００８の全てを内蔵のハードディスクに記録し、時間選択入力手段２００２で指定された時間位置に含まれる番組付加情報（商品情報）２００８のみを提示するとして説明したが、これに限らない。時間選択入力手段２００２で指定された時間位置に含まれる番組付加情報（商品情報）２００８のみを記憶しておき提示しても構わない。

このように本実施の形態によれば、番組視聴中ではなく番組終了後または番組中断後に付加情報（商品情報）を特定する動作を行うので、番組視聴中に使用者の番組の視聴を中断することなく付加情報（商品情報）の特定を行うことが出来る。

（実施の形態６）
次に、本発明の実施の形態６における買い物支援システムについて説明する。

本発明の実施の形態６における買い物支援システムの概念構成を示すブロック図は、図１で、認識語彙記憶部３５１を商品情報・言語モデル情報記憶部２０１５に変更し、音声認識部３５２を音声認識部３７７に変更したものに相当する。従って図１の説明は実施の形態１と重複するので省略する。図３１に、買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

ＴＶ／ＳＴＢ３１０は、図３１に示すように放送受信部３１３、制御部２００１、音響出力部２００３、画像表示部２００４、時間選択入力手段２００２、商品情報・言語モデル情報記憶部２０１５、情報選択部２０１６、音声認識部３７７、マイクロホン３２１、及び送信部３１９から構成される。

制御部２００１は、音響出力部２００３、画像表示部２００４、情報選択部２０１６などを制御する手段である。

商品情報・言語モデル情報記憶部２０１５は、時間選択入力手段２００２で指定された時間位置に対応する付加情報として言語モデル情報（Ｎｇｒａｍ文法情報）と商品情報とを記憶する手段である。

情報選択部２０１６は、音声認識部３７７が音声認識することにより認識した単語と、付加情報に含まれるキーワード情報に対応するキーワードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部２０１６は、第３の実施の形態の認識語彙生成部３７１、類義語辞書３７４、語彙重み修正部３７５、認識履歴記憶部３６３、付加情報記憶部３１７などの各種の機能を有している。

なお、本実施の形態のＴＶ／ＳＴＢ３１０は、実施の形態５のように視聴している番組などを記録するハードディスクが内蔵されていてもよいが、ハードディスクが内蔵されていなくても構わない。

次に、このような本実施の形態の動作を第５の実施の形態との相違点を中心に説明する。

図３１に本実施の形態のＴＶ／ＳＴＢ３１０の動作を示すフローチャートを示す。以下、図３１に基づいて動作を説明する。

制御部２００１は、放送受信部３１３で受信された番組内容２００７を番組内容２０１０として音響信号出力部２００３及び画像表示部２００４に出力するとともに、音響信号出力部２００３が番組内容２０１０の音声信号をスピーカから出力するよう制御し、また画像表示部２００４が番組内容２０１０の映像信号をディスプレイに表示するよう制御する。

ステップ５１１の動作は、第５の実施の形態のステップ５０１の動作と同様である。

次に、制御部２００１は、時間選択入力手段２００２から時間位置を入力されると、その時間位置に含まれる番組付加情報（商品情報）２００８である商品情報と番組付加情報（Ｎｇｒａｍ文法）２００９であるＮｇｒａｍ文法情報とを選択された時間に対応する商品情報とＮｇｒａｍ文法２０１７として、商品情報・言語モデル情報記憶部２０１５に格納する（ステップ５１２）。

次に、使用者が番組の視聴を終了した後、または視聴を中断した後、制御部２００１は、商品情報・言語モデル情報記憶部２０１５に格納されているＮｇｒａｍ文法情報と商品情報とを読み出し、商品情報を一覧表にして画像表示部２００４に出力する。画像表示部２００４は商品情報の一覧表をディスプレイに表示する。（ステップ５１３）。図３３にこのようにして表示された商品情報の例を示す。すなわち、時間選択入力手段２００２が時間位置を指定した範囲に映っていた商品の商品情報が図３３のように表示される。このようにして使用者に時間位置を指定した商品情報が提示される。

また、制御部２００１は、読み出したＮｇｒａｍ文法情報と商品情報とを情報選択部２０１６に出力する。情報選択部２０１６は、このＮｇｒａｍ文法情報を音声認識部３７７に出力する。

使用者は、図３３の商品情報の一覧表を見ながら、洋服を特定する音声をマイクロホン３２１に入力する（ステップ５１４）。例えば、使用者は、「あの、洋服いいな」とマイクロホン３２１に向かって発声する。なお、ステップ５１４以降の動作は第５の実施の形態の動作と同様であるので説明を省略する。

なお、第５の実施の形態で説明した変形例は、第６の実施の形態でも同様に適用することが出来る。

（実施の形態７）
次に、本発明の実施の形態７における買い物支援システムについて説明する。

本発明の実施の形態７における買い物支援システムの概念構成を示すブロック図は、図１で、認識語彙記憶部３５１を音声・商品情報・言語モデル情報記憶部２０１９に変更し、音声認識部３５２を音声認識部３７７に変更したものに相当する。従って図１の説明は実施の形態１と重複するので省略する。図３４に、買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

ＴＶ／ＳＴＢ３１０は、図３４に示すように放送受信部３１３、制御部２０１８、音響出力部２００３、画像表示部２００４、音声・商品情報・言語モデル情報記憶部２０１９、情報選択部２０２０、音声認識部３７７、マイクロホン３２１、及び送信部３１９から構成される。

制御部２０１８は、音響出力部２００３、画像表示部２００４、情報選択部２０２０などを制御する手段である。

音響信号出力部２００３は、制御部２０１８から出力された音響信号を音響信号出力部２００３が有するスピーカから音声として出力する手段である。

画像表示部２００４は、制御部２０１８から出力された映像信号を画像表示部２００４が有するディスプレイに表示する手段である。

音声・商品情報・言語モデル情報記憶部２０１９は、番組視聴中に買い物支援システムの使用者がマイクロホン３２１に向かって発声した時点を含む２０秒間の間に含まれる付加情報として言語モデル情報（Ｎｇｒａｍ文法情報）と商品情報と、使用者が発声した音声を記憶する手段である。

情報選択部２０２０は、音声認識部３７７が音声認識することにより認識した単語と、付加情報に含まれるキーワード情報に対応するキーワードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部２０２０は、第３の実施の形態の認識語彙生成部３７１、類義語辞書３７４、語彙重み修正部３７５、認識履歴記憶部３６３、付加情報記憶部３１７などの各種の機能を有している。

次に、このような本実施の形態の動作を第５の実施の形態及び第６の実施の形態との相違点を中心に説明する。

図３５に本実施の形態のＴＶ／ＳＴＢ３１０の動作を示すフローチャートを示す。以下、図３５に基づいて動作を説明する。

制御部２０１８は、放送受信部３１３で受信された番組内容２００７を番組内容２０１０として音響信号出力部２００３及び画像表示部２００４に出力するとともに、音響信号出力部２００３が番組内容２０１０の音声信号をスピーカから出力するよう制御し、また画像表示部２００４が番組内容２０１０の映像信号をディスプレイに表示するよう制御する。

そして、視聴者が番組を視聴している最中に、登場人物の洋服や、ドラマのセットとして用いられている家具や本など番組中で興味があるものがディスプレイに映った場合、この使用者は、マイクロホン３２１に向かって発声する（ステップ５２１）。

次に、制御部２０１８は、ステップ５２１で入力された入力音声と、その入力音声が入力された時点の時間位置を含む２０秒間の間に含まれる商品情報とＮｇｒａｍ文法情報を音声・商品情報・言語モデル情報記憶部に格納する（ステップ５２２）。つまり、制御部２０１８は、入力音声が入力された時点を含む２０秒間の間に含まれる番組付加情報（商品情報）２００８である商品情報と、番組付加情報（Ｎｇｒａｍ文法）２００９であるＮｇｒａｍ文法情報とを選択された時間に対応する商品情報とＮｇｒａｍ文法２０１７として音声・商品情報・言語モデル情報記憶部２０１９に格納する。また、制御部２０１８は、ステップ５２１で入力された入力音声を時間選択時の入力音声２０２２として音声・商品情報・言語モデル情報記憶部２０１９に格納する。

次に制御部５２３は、番組の視聴を中断することなく、音声・商品情報・言語モデル情報記憶部２０１９に記憶された時間選択時の入力音声２０２２を、その入力音声に対応する、音声・商品情報・言語モデル情報記憶部２０１９に記憶されているＮｇｒａｍ文法情報を用いて音声認識部３７７が音声入力するように制御する。この制御に従って、音声認識部３７７は、音声認識を行う（ステップ５２３）。そして、情報選択部２０２０は、商品情報の特定が可能な場合は商品情報の特定を行う。この商品情報の特定の動作は、第３の実施の形態と同様にして行う。なお、ステップ５２３の動作を行っている場合には、番組の視聴は中断されない。

次に、音声認識部３７７による音声認識の結果、情報選択部２０２０が商品情報を特定出来る場合には、ステップ５２８に進み、商品情報を特定できない場合には、ステップ５２５に進む（ステップ５２４）。なお、商品情報を特定出来る場合とは、例えば、「あの洋服いいな」など時間選択時の入力音声２０２２が具体的な商品を示している場合であり、商品情報を特定出来ない場合とは、例えば「あれ、いいな」など時間選択時の入力音声２０２２が具体的な商品を示していない場合である。

ステップ５２８において、制御部２０１８は、番組視聴終了後または番組視聴中断後に、特定された商品情報を使用者に提示するよう情報選択部２０２０、音響出力部２００３、画像表示部２００４を制御する。この制御に従って、画像表示部２００４のディスプレイには、特定された商品情報が表示され、ステップ５３０に進む。

一方、ステップ５２５において、番組視聴終了後または番組視聴中断後に、制御部２０１８は、時間選択時の入力音声２０２２が入力された時点を含む２０秒間に含まれる商品情報を音声・商品情報・言語モデル情報記憶部２０１９から読み出して、商品情報の一覧表として画像表示部２００４に出力する。そして、画像表示部は商品情報の一覧表表示する。図３３にこのようにして表示された商品情報の例を示す。すなわち、時間選択時の入力音声２０２２が入力された時点を含む２０秒間に含まれる商品情報が図３３のように表示される。このようにして使用者に時間位置を指定した商品情報が提示される。

使用者は、図３３の一覧表を見ながら、マイクロホン３２１に向かって、特定したい商品情報を特定する音声を入力する（ステップ５２６）。例えば、洋服を特定したい場合には、「あの、洋服いいな」など洋服を特定する音声をマイクロホン３２１に向かって発声する。

次に、音声認識部３７７は、時間選択時の入力音声２０２２が入力された時点を含む２０秒間に含まれるＮｇｒａｍ文法情報を音声・商品情報・言語モデル情報記憶部２０１９から読み出し、読み出したＮｇｒａｍ文法情報を用いて音声認識を行う（ステップ５２７）。すなわち、使用者が「あの洋服いいな」と発声した場合には、音声認識部３７７は、音声・商品情報・言語モデル情報記録部２０１９から読み出され、実施の形態３のように最適化されたＮｇｒａｍ文法情報を用いて連続音声認識する。なお、Ｎｇｒａｍ文法情報を最適化する方法は実施の形態３と同様であるので、詳細な説明を省略する。その結果「あの洋服いいな」という文章が認識される。Ｎｇｒａｍ文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。

Ｎｇｒａｍ文法情報を用いることにより、音声認識部３７７が「あの」、「洋服」、「いいな」という単語を認識したとする。そうすると、次に音声認識部３７７は、「あの」、「洋服」、「いいな」という単語列を情報選択部２０２０に出力する。

情報選択部２００６は、音声・商品情報・言語モデル情報記憶部２０１９に含まれるキーワード情報に対応するキーワードである洋服が音声認識された単語である洋服と一致するので、洋服の付加情報を特定する。

ステップ５３０において、情報選択部２０２０は、特定された付加情報を選択された情報２０１３として送信部３１９に出力する。送信部３１９は、選択された情報２０１３に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する（ステップ５３０）。

なお、第７の実施の形態では、ステップ５２６において図３３の一覧表を見てから音声を入力するとしたが、第５の実施の形態のように、時間位置で指定されるシーンが再度提示されたのを見て音声入力するとしてもよい。

なお、第５の実施の形態で説明した変形例は、第７の実施の形態でも同様に適用することが出来る。

このように本実施の形態によれば、番組視聴中ではなく番組終了後または番組中断後に付加情報（商品情報）を提示したり、特定したりする動作を行うので、番組視聴中に使用者の番組の視聴を中断することなく付加情報（商品情報）の特定を行うことが出来る。

なお、本実施の形態では、図３５に示すフローチャートに従って動作するとして説明したが、これに限らず、図３６に示すフローチャートに従って動作しても構わない。図３６に示すフローチャートでは、図３５に示すフローチャートとはステップ５２２の挿入位置が異なっている。すなわち、図３５ではステップ５２４の前にステップ５２２を行っていたのに対して、図３６では、ステップ５２４で音声認識により商品情報が特定できなかった場合にのみステップ５２２が行われている。このように音声認識により商品情報が特定できなかった場合にのみ音声入力のあった時間位置に対応する商品情報とＮｇｒａｍ文法を格納するとしても本実施の形態と同等の効果を得ることが出来る。

（関連技術１）
次に、本発明に関連する技術である関連技術１について説明する。

図２６は、本発明の関連技術１における買い物支援システムのうち、買い物のための番組付加情報を番組作成と同時に自動作成する部分を示す機能ブロック図である。図２７に本発明の関連技術１における買い物支援システムのうち番組付加情報を番組作成と同時に自動作成する動作を示す流れ図を示す。

図２６において番組記録装置１０１０及び付加情報コード発信機１０２０が示されている。

付加情報コード発信機１０２０は、番組付加情報のコード番号を電波あるいは赤外線により発信する発信機である。

番組記録装置１０１０は、マイクロホン１０１１、カメラ１０１２、受信部１０１３、付加情報照合用データベース１０１４、情報照合部１０１７、番組付加情報データベース１０１５、及び番組記憶部１０１６を備える。

受信部１０１３は、付加情報コード発信機１０２０の信号を受信する手段である。付加情報照合用データベース１０１４は、番組付加情報のコード番号と番組付加情報の照合情報とが記録されているデータベースである。情報照合部１０１７は、付加情報照合用データベース１０１４の内容から、カメラおよびマイクロホンから入力した画像および音響信号中に受信部１０１３で受信した付加情報コードに対応する物あるいは生物あるいは人物が記録されているか否かを判断する手段である。番組付加情報データベース１０１５は、番組に記録する付加情報を記憶したデータベースである。番組記憶部１０１６は、画像および音響信号および番組付加情報を同期して記録する手段である。

次に、このような関連技術１の動作を説明する。

以下、図２７を参照して説明する。なお、図２７の流れ図に従う動作を行った場合には、物、生物、あるいは人物などの多数の対象物のうち、その対象物が映像中に捉えられている場合のみにその対象物の番組付加情報を放送する放送内容を自動的に作成することが出来るようになる。

まず、図２７の流れ図に基づいて、動作の概要を説明する。

まず、撮影に先立って付加情報コード発信機１０２０を対応する付加情報がある物、生物、あるいは人物に取り付ける(ステップ１０３１)。

撮影はカメラ１０１２とマイクロホン１０１１より、画像と音響信号を入力すると同時に受信部１０１３より付加情報コード発信機が発信した信号を受信する(ステップ１０３
２)。

次に、情報照合部１０１７において発信機の信号の有無および受信した信号に付加情報コードが含まれているか否かを判断する(ステップ１０３３)。ステップ１０３３において発信機の信号が無いあるいは受信信号に付加情報コードが含まれていなかった場合は、カメラ１０１２およびマイクロホン１０１１より入力された画像と音響信号のみを記録する(ステップ１０４０)。

一方、ステップ１０３３において受信内容に付加情報コードがあった場合は、付加情報照合用データベース１０１４より付加情報コードに対応した照合情報を抽出し（ステップ１０３４）、情報照合部１０１７はカメラ１０１２およびマイクロホン１０１１より入力された画像および音響信号中に照合情報に該当するものがあるかどうかを判断する(ステ
ップ１０３５)。

ステップ１０３５で入力された画像および音響信号中に照合情報に該当するものが無いと判断された場合はカメラ１０１２およびマイクロホン１０１１より入力された画像と音響信号のみを記録する(ステップ１０４０)。

ステップ１０３５で入力された画像および音響信号中に照合情報に該当するものがあると判断された場合は番組付加情報データベース１０１５より該当する番組付加情報を抽出し、画像および音響信号に同期して記録する(ステップ１０３６)。

図２８に、番組やコマーシャルなどの放送内容を製作している撮影現場を示す。撮影現場にはカメラ１０１２が設置されており、カメラ１０１２は設置場所を移動することが出来る。例えばカメラ１０１２は、カメラ１０１２ａの位置からカメラ１０１２ｂの位置まで自由に移動することが出来る。

また、撮影現場にはそれぞれ異なった固定位置に位置固定発信機１０３０ａ、１０３０ｂ、１０３０ｃが設置されている。これらの位置固定発信機１０３０ａ、１０３０ｂ、１０３０ｃは、３次元の固定座標を作る。なお、図２８では固定位置に３台の位置固定発信機１０３０ａ、１０３０ｂ、１０３０ｃが設置されているとして説明したが、これに限らず、３台以上の位置固定発信機を固定位置に設置しても構わない。

カメラ１０１２は、移動や姿勢変更をすることが出来るが、位置固定発信機１０３０ａ、１０３０ｂ、１０３０ｃそれぞれからの信号を受信することにより、カメラ１０１２自身の座標上の位置及び姿勢の情報を計算することが出来る。

一方、付加情報コード発信機１０２０は、位置固定発信機１０３０ａ、１０３０ｂ、１０３０ｃからの信号を受信することにより、自分の座標上の位置を計算する。そして、付加情報コード発信機１０２０は、自分の座標上の位置を発信する。

また、カメラ１０１２は、カメラ１０１２自身の座標上の位置と姿勢、付加情報コード発信機１０２０の座標上の位置、カメラ１０１２の内部情報としての焦点距離と視野角より、付加情報コード発信機１０２０がそのカメラ１０１２の撮影範囲内に存在するか否かを判断する。

そして、カメラ１０１２は、付加情報コード発信機１０２０がカメラ１０１２の撮影範囲内の存在すると判断した場合には、その付加情報コード発信機１０２０から送られてきた付加情報コードを情報照会部１０１７に出力する。また、カメラ１０１２は、付加情報コード発信機１０２０がカメラ１０１２の撮影範囲内には存在しないと判断した場合には、その付加情報コード発信機１０２０から送られてきた付加情報コードを情報照会部１０１７には出力しない。このようにすすることにより情報照会部１０１７は、付加情報コード１０２０が送られてきた場合にはその付加情報コード１０２０に対応する番組付加情報を映像音声と同期させて記録することにより対象物が映像中に捉えられている場合のみにその対象物に対応つけられた番組付加情報を放送する放送内容を自動的に作成することが出来る。

以上のように本関連技術１における番組付加情報を番組作成と同時に自動作成システムによれば、番組作成後に製作者が全シーンを確認して番組付加情報を番組に付加、記録していく作業が不要となり、番組作成の作業時間の短縮および作業コストの削減が可能となる。

なお、本関連技術１では、付加情報コード発信機１０２０は付加情報のコード番号を発信したが、付加情報照合用データを発信し、情報照合部１０１６は付加情報照合用データベースを利用せず、受信したデータに基づいて画像および音響信号との照合を行うとしても良い。

なお、本関連技術１では、情報照合部１０１７は番組付加情報データベースよりコード番号に対応する番組付加情報を抽出して画像および音響信号と同期させて記録するとしたが、番組と付加情報とをリンクするタグ情報を記録するとしても良い。

尚、本発明または本発明に関連する発明のプログラムは、上述した本発明の第２装置の全部又は一部の手段（又は、装置、素子等）の機能をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムである。

又、本発明または本発明に関連する発明の記録媒体は、上述した本発明の第２装置の全部又は一部の手段（又は、装置、素子等）の全部又は一部の機能をコンピュータにより実行させるためのプログラムを記録した記録媒体であり、コンピュータにより読み取り可能且つ、読み取られた前記プログラムが前記コンピュータと協動して前記機能を実行する記録媒体である。

尚、上記「一部の手段（又は、装置、素子等）」とは、それらの複数の手段の内の、一つ又は幾つかの手段を意味し、上記「一部のステップ（又は、工程、動作、作用等）」とは、それらの複数のステップの内の、一つ又は幾つかのステップを意味する。

又、上記「手段（又は、装置、素子等）の機能」とは、前記手段の全部又は一部の機能を意味し、上記「ステップ（又は、工程、動作、作用等）の動作」とは、前記ステップの全部又は一部の動作を意味する。

又、本発明または本発明に関連する発明のプログラムの一利用形態は、コンピュータにより読み取り可能な記録媒体に記録され、コンピュータと協働して動作する態様であっても良い。

又、本発明または本発明に関連する発明のプログラムの一利用形態は、伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様であっても良い。

又、本発明に関連する発明のデータ構造としては、データベース、データフォーマット、データテーブル、データリスト、データの種類などを含む。

又、記録媒体としては、ＲＯＭ等が含まれ、伝送媒体としては、インターネット等の伝送媒体、光・電波・音波等が含まれる。

又、上述したコンピュータは、ＣＰＵ等の純然たるハードウェアに限らず、ファームウェアや、ＯＳ、更に周辺機器を含むものであっても良い。
尚、以上説明した様に、本発明または本発明に関連する発明の構成は、ソフトウェア的に実現しても良いし、ハードウェア的に実現しても良い。

本発明にかかる、放送受信方法、放送受信システム、記録媒体、及びプログラムは、放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来るという効果を有し、放送局から放送されてくる放送を受信する放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体等に有用である。

本発明にかかる、放送受信方法、放送受信システム、記録媒体、及びプログラムは、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に入手することが出来るという効果を有し、放送局から放送されてくる放送を受信する放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体等に有用である。

本発明にかかる、放送受信方法、放送受信システム、記録媒体、及びプログラムは、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するようにして手間がかからず簡単に入手することが出来るという効果を有し、放送局から放送されてくる放送を受信する放送受信方法、放送受信システム、第１装置、第２装置、音声認識方法、音声認識装置、プログラム及び記録媒体等に有用である。

本発明の実施の形態１における買い物支援システムの概略構成を示すブロック図本発明の実施の形態１におけるＴＶ／ＳＴＢの構成を示すブロック図本発明の実施の形態１における認識語彙生成部の詳細な構成を示すブロック図本発明の実施の形態１における買い物支援システムの動作の概要を示すフローチャート図本発明の実施の形態１における類義語辞書の例を示す図本発明の実施の形態１における買い物支援システムの動作の詳細を示すフローチャート図本発明の実施の形態１における認識語彙セットの例を示す図本発明の実施の形態１における買い物支援システムの動作の詳細を示すフローチャート図本発明の実施の形態２におけるＴＶ／ＳＴＢの構成を示すブロック図本発明の実施の形態２における認識語彙生成部３６０の詳細な構成を示すブロック図本発明の実施の形態２における類義語辞書の例を示す図本発明の実施の形態２における買い物支援システムの動作の詳細を示すフローチャート図本発明の実施の形態２における認識語彙セットの例を示す図本発明の実施の形態２における頻度が規格化された認識語彙セットの例を示す図本発明の実施の形態２における買い物支援システムの動作の詳細を示すフローチャート図本発明の実施の形態３におけるＴＶ／ＳＴＢの構成を示すブロック図本発明の実施の形態３における買い物支援システムの動作の概要を示すフローチャート図本発明の実施の形態３における買い物支援システムの動作の詳細を示すフローチャート図本発明の実施の形態３におけるＮｇｒａｍ文法情報の例を示す図本発明の実施の形態３における語彙重み修正部の動作を説明するための図本発明の実施の形態４におけるＴＶ／ＳＴＢの構成を示すブロック図本発明の実施の形態４における買い物支援システムの動作の概要を示すフローチャート図本発明の実施の形態４における買い物支援システムの動作の詳細を示すフローチャート図本発明の実施の形態４における数４のＰ（Ｃ_i｜Ｃ_i-1）の例を示す図本発明の実施の形態４におけるクラス重み修正部の動作を説明するための図本発明の関連技術１における番組付加情報自動作成装置の構成を示すブロック図本発明の関連技術１における番組付加情報自動作成装置の動作を示す流れ図本発明の関連技術１におけるカメラ、位置固定発信機、付加情報コード発信機の関係を示す図本発明の第５の実施の形態におけるＴＶ／ＳＴＢの構成を示すブロック図本発明の第５の実施の形態における双方向放送による買い物支援システムの動作を示すフローチャート図本発明の第６の実施の形態におけるＴＶ／ＳＴＢの構成を示すブロック図本発明の第６の実施の形態における双方向放送による買い物支援システムの動作を示すフローチャート図本発明の第６の実施の形態における商品情報の一覧表の一例を示す図本発明の第７の実施の形態におけるＴＶ／ＳＴＢの構成を示すブロック図本発明の第７の実施の形態における双方向放送による買い物支援システムの動作を示すフローチャート図本発明の第７の実施の形態における双方向放送による買い物支援システムの図３５とはことなる動作を示すフローチャート図本出願に係る出願人の出願における双方向放送による買い物支援システムの概念構成を示すブロック図本出願に係る出願人の出願における双方向放送による買い物支援システムの動作を示す流れ図本出願に係る出願人の出願における双方向放送による買い物支援システムの詳細な構成を示すブロック図

符号の説明

１０放送局
２０販売業者
３０家庭
３１０ＴＶ／ＳＴＢ
３１３放送受信部
３１５記憶時間制御部
３１６時間表現辞書
３１７付加情報記憶部
３１８表示部
３１９送信部
３５１認識語彙記憶部
３５２音声認識部
３５５認識語彙抽出部
３５６類義語辞書
３５７認識語彙拡張部
３５８認識語彙適応部

Claims

放送されてくる、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信ステップと、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定ステップと、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識ステップと、
その音声認識結果に基づいて、前記キーワード情報を特定する特定ステップと、
その特定した前記キーワード情報に対応付けられた前記付加情報を表示する表示ステップと、を備えた、放送受信方法。
単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正ステップを備え、
前記音声認識ステップにおいては、補正された前記言語モデルを利用して音声認識する、請求項１記載の放送受信方法。
前記シーンコードは、前記シーンが変化する毎に放送され、
前記受信ステップにおいては、前記シーンが変化する毎に放送されてくる前記シーンコードを受信し、
前記言語モデル特定ステップにおいては、前記シーンコードが受信される毎に前記言語モデルを特定し、
前記音声認識ステップにおいては、前記シーンコードが受信される毎に特定される前記言語モデルを利用して音声認識する、請求項１記載の放送受信方法。
放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを放送する放送手段を有する第１装置と、
前記第１装置から放送される前記付加情報及び前記シーンコードを前記放送内容と同時に受信する受信手段、予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段、特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段、その音声認識結果に基づいて、前記キーワード情報を特定する特定手段、及びその特定した前記キーワード情報に対応付けられた前記付加情報を表示する表示手段を有する第２装置と、を備えた、放送受信システム。
単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段を有し、
前記音声認識手段は、補正された前記言語モデルを利用して音声認識する、請求項４記載の放送受信システム。
前記放送手段は、前記シーンが変化する毎に前記シーンコードを放送し、
前記受信手段は、前記シーンが変化する毎に放送されてくる前記シーンコードを受信し、
前記言語モデル特定手段は、前記シーンコードが受信される毎に前記言語モデルを特定し、
前記音声認識手段は、前記シーンコードが受信される毎に特定される前記言語モデルを利用して音声認識する、請求項４記載の放送受信システム。
放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを放送する放送手段を備え、
放送されてくる前記付加情報及び前記シーンコードが前記放送内容と同時に受信され、予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルが特定され、特定された前記言語モデルを利用して、視聴者が発声した音声が音声認識され、その音声認識結果に基づいて、前記キーワード情報が特定され、その特定した前記キーワード情報に対応付けられた付加情報が表示される、第１装置。
単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度が既に行われた音声認識の音声認識結果の履歴情報に基づいて補正され、
補正された前記言語モデルを利用して音声認識される、請求項７記載の第１装置。
放送されてくる、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、
その音声認識結果に基づいて、前記キーワード情報を特定する特定手段と、
その特定した前記キーワード情報に対応付けられた付加情報を表示する表示手段と、を備えた、第２装置。
単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び／または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段を備え、
前記音声認識手段は、補正された前記言語モデルを利用して音声認識する、請求項９記載の第２装置。
前記言語モデルは、前記言語モデルに予め付与されているＩＤを利用して特定される、請求項９記載の第２装置。
前記言語モデルは、言語モデル特定用キーワード情報を利用して特定され、
前記予め保持されている言語モデルにも言語モデル特定用キーワード情報が付加されており、
前記言語モデル特定手段は、それらの言語モデル特定用キーワードの合致の程度に応じて前記言語モデルを特定する、請求項９記載の第２装置。
前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を補正する場合であって、
前記履歴情報は、前記既に行われた音声認識により認識された単語を含むものであり、
前記補正手段は、前記キーワード情報に対応する単語を含む前記単語クラスに含まれる単語を抽出し、
抽出された単語のうち前記履歴情報に含まれる単語に関して、前記言語モデルの表現形式における、前記単語クラスを基準とするその単語の出現頻度を増加させ、
抽出された単語のうち前記履歴情報に含まれない単語に関して、前記言語モデルの表現形式における、前記単語クラスを基準とするその単語の出現頻度を減少させる、請求項１０記載の第２装置。
前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を補正する場合であって、
前記履歴情報は、前記既に行われた音声認識により認識された単語を含むものであり、
前記補正手段は、前記キーワード情報に対応する単語を含む単語クラスを抽出し、
抽出された前記単語クラスに関して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を増加させ、
抽出されなかった前記単語クラスに関して、前記言語モデルの表現形式における、所定の単語クラスの組み合わせが出現する頻度を減少させる、請求項１０記載の第２装置。
前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を補正する場合であって、
前記履歴情報は、前記既に行われた音声認識により認識された単語を含む単語クラスを含むものであり、
前記補正手段は、前記キーワード情報に対応する単語クラスを抽出し、
抽出された前記単語クラスに関して、前記言語モデルの表現形式における、所定の単語クラスの組み合わせが出現する頻度を増加させ、
抽出されなかった前記単語クラスに関して、前記言語モデルの表現形式における、所定の単語クラスの組み合わせが出現する頻度を減少させる、請求項１０記載の第２装置。
表示された前記付加情報に対する所定の操作が行われた場合、その所定の操作に対応する指示を所定の送信先に送信する送信手段を備えた、請求項９〜１２のいずれかに記載の第２装置。
前記付加情報は商品販売情報及び／またはサービス販売情報であり、
前記所定の操作に対応する指示とは、商品及び／またはサービスの資料請求または購入指示情報である、請求項１６記載の第２装置。
予め保持されている前記言語モデルは、予めネットワークを利用して取得したものであ
る、請求項９記載の第２装置。
放送されてくる、放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信ステップと、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定ステップと、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識ステップと、を備えた、音声認識方法。
放送されてくる、放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、を備えた、音声認識装置。
請求項９記載の第２装置の、
放送されてくる、放送内容に登場する対象物の特定を行うためのキーワード情報を含む付加情報及び前記放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、
その音声認識結果に基づいて、前記キーワード情報を特定する特定手段と、
その特定した前記キーワード情報に対応付けられた付加情報を表示する表示手段と、
としてコンピュータを機能させるためのプログラム。
請求項２０記載の音声認識装置の、放送されてくる、放送内容のシーンを示すシーンコードを、前記放送内容と同時に受信する受信手段と、
予め保持されている言語モデルの内、前記シーンコードが受信された時点でそのシーンコードに対応する前記言語モデルを特定する言語モデル特定手段と、
特定された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、
としてコンピュータを機能させるためのプログラム。
請求項２１または２２記載のプログラムを記録した記録媒体であって、コンピュータにより処理可能な記録媒体。