以下に、本発明の実施の形態を図面を参照して説明する。
(実施の形態1)
まず、本発明の実施の形態1における双方向放送による買い物支援システムについて説明する。
図1に、本発明の実施の形態1における双方向放送による買い物支援システムの概念構成を示すブロック図を示す。図2の双方向放送による買い物支援システム(以下買い物支援システムと呼ぶ)の詳細を示す機能ブロック図を示す。
図1において、本実施の形態の買い物支援システムは、放送局10、販売業者20、及び家庭30から構成されており、家庭30には、TV/STB310、及びリモートコントローラ320が設置されている。
放送局10は、番組を番組付加情報とともに放送する放送局である。販売業者20は番組中に登場する物を商品として取り扱う販売業者である。家庭30は放送を受信する家庭である。
TV/STB310は、双方向放送受信機であるテレビあるいはSTB(Set Top Box)
としての双方向放送受信機である。
リモートコントローラ320は、TV/STB310を操作するための手段であり、マイクロホン321を備える。
TV/STB310は、認識語彙記憶部351と音声認識部352などを備える。すなわち、図2に示すように、TV/STB310は、放送受信部313、認識語彙生成部354、認識語彙記憶部351、音声認識部352、時間表現辞書316、記憶時間制御部315、付加情報記憶部317、表示部318、送信部319から構成される。
放送受信部313は放送電波を受信する手段である。認識語彙生成部354は放送受信部313で受信した番組付加情報から音声認識の対象語彙である認識語彙セットを生成する手段である。認識語彙記憶部351は、生成された認識語彙セットを記憶する手段である。時間表現辞書316は「さっきの」、「今の」といった時間に関する表現を認識語彙として保持する辞書である。音声認識部352は認識語彙記憶部351と時間表現辞書316とを認識語彙辞書として使用して音声認識を行う手段である。記憶時間制御部315は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習し、音声認識部352および認識語彙記憶部351の制御を行う手段である。付加情報記憶部317は音声認識によって指定された番組中の物等に対応する付加情報を記憶する手段である。表示部318は付加情報を表示する手段である。送信部319は付加情報の選択等の視聴者の入力結果を放送局へ送信する手段である。
図3に、認識語彙生成部354の部分の詳細な構成を示す、認識語彙生成部354は、認識語彙抽出部355、認識語彙拡張部357、類義語辞書356、認識語彙適応部358から構成される。
認識語彙抽出部355は、番組付加情報に含まれるキーワード情報に対応する単語をキーワードとして抽出する手段である。認識語彙拡張部357は、抽出されたキーワードを拡張して認識語彙セットを生成する手段である。類義語辞書356は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された辞書である。なお、実施の形態1では一つの単語は必ず特定の一つの単語クラスのみに含まれ、一つの単語が複数の単語クラスに含まれることはないと仮定する。一つの単語が複数の単語クラスに含まれる場合については実施の形態2で詳細に説明する。認識語彙適応部358は、音声認識結果に応じて類義語辞書356に記載されている各単語が出現する頻度を補正する手段である。
次に、このような本実施の形態の動作を説明する。
図4に、本実施の形態の買い物支援システムの動作の概要を示すフローチャートを示す。また、図6及び図8に本実施の形態の買い物支援システムの動作の詳細を示すフローチャートを示す。以下、図4、図6、及び図8に基づいて説明する。
図2と図4において、放送局10からは、放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーワード情報を含む付加情報が放送内容とともに放送されてくる。
放送受信部313は、この放送を受信する。そうすると、認識語彙生成部354は、番組付加情報に含まれるキーワード情報を抽出する(ステップ351)。さらに認識語彙生成部354は、キーワード情報に対応するキーワードの類義語を抽出する(ステップ352)。さらに、認識語彙生成部354は、抽出した類義語を認識語彙セットとして認識語彙記憶部351に記憶させる(ステップ353)。
次に、視聴者が発声した場合に音声認識し、その結果を類義語辞書390にフィードバックし類義語辞書中の認識された単語に重みを加算する(ステップ354)。
以下の説明では、まず、ステップ351、352、353の動作を詳細に説明した後、音声認識の動作を説明し、その後、ステップ354の動作を詳細に説明する。
まず、ステップ351、352、及び353の動作を図3と図6を用いてさらに詳細に説明する。
図5に類義語辞書390を示す。類義語辞書390は、単語391と、その単語の読み392と、その単語が含まれる単語クラス393と、その単語の出現頻度394とが記載された辞書である。なお、単語クラスとは、単語間の類義性を基準にして、複数の単語が分類されたものである。また、本実施の形態の買い物支援システムを使用する初期状態においては、十分に大きい日本語コーパスから求められた単語クラス内の出現頻度394が記載されている。
例えば、単語391の一例としてジャケットがあり、ジャケットの読み392はジャケットであり、ジャケットが含まれる単語クラス393は衣類であり、ジャケットの単語クラスである衣類に含まれる単語のうちジャケットが出現する出現頻度394は0.20である。また、単語391の一例として上着があり、上着の読み392はウワギであり、ウワギが含まれる単語クラス393は衣類であり、上着の単語クラスである衣類に含まれる単語のうち上着が出現する出現頻度394は0.10である。
ステップ355において、付加情報としてジャケットの付加情報が送られてきたとする。この場合付加情報としてはジャケットを示すキーワード情報のほかに付加情報としては、ジャケットの値段や色やサイズなどの説明、ジャケットの販売元の説明なども含まれる。このように付加情報は、キーワード情報の他に付加情報が対応付けられている商品に関する情報も含まれている。なお、付加情報の詳細については後述する。
次に、ステップ356において、認識語彙抽出部355は、付加情報に含まれるキーワード情報を抽出する。すなわち、ジャケットの付加情報が送られてきた場合には、キーワード情報としてジャケットに対応する情報を抽出する。そして、認識語彙拡張部357は、類義語辞書356を利用して、抽出したキーワード情報に対応するキーワードと同一の単語クラス393に属する単語から構成される認識語彙セットを生成する。
具体的に説明すると、対象物がジャケットである付加情報のキーワード情報に対応するキーワードがジャケットであるとする。そうすると認識語彙抽出部355は、この付加情報からキーワード情報に対応するキーワードであるジャケットを抽出する。
そして、認識語彙拡張部357は、キーワードであるジャケットを含む単語クラス393が衣類であるので、単語クラスが衣類である単語を抽出する。図5の類義語辞書の場合、単語クラス393が衣類である単語は、上着、ジャケット、服であることがわかる。そうすると、認識語彙拡張部357は、上着、ジャケット、及び服を認識語彙セットを構成する単語とする。また、それぞれの単語に対応する出現頻度394を認識語彙セットに記載する。図7にこのようにして作成された認識語彙セット395を示す。ジャケット、服、上着のそれぞれの読み396がジャケット、フク、ウワギのように記載されている。そして、単語クラス内頻度397が読み396に対応して0.2、0.3、0.1などと記載されていることがわかる。
次に、ステップ357において、認識語彙拡張部357は、生成した認識語彙セットを付加情報と対応させて認識語彙記憶部351に記憶させる。
ここで、認識語彙記憶部351は半導体メモリーまたはハードディスク装置であるとする。従って、生成された認識語彙セットは、付加情報と対応出来るような形式で半導体メモリーまたはハードディスク装置に格納される。
次に、視聴者が番組視聴中に発声した音声を音声認識する際の動作を説明する。 図2において、まず視聴者は番組視聴中に番組に登場する物等に注目し、特定のものに注目していることを伝える言葉を発声する。そうすると、マイクロホン321は、その発声を入力し、音声認識部352に出力する。
音声認識部352は、マイクロホン321から入力された発声信号に対して音声認識を行う。そしてその音声認識結果に基づいて音声認識部352は、視聴者が注目した物等を判断し、対応する番組付加情報を特定して、付加情報記憶部317へ蓄積する。
ドラマを視聴している場合を例に取って具体的に説明すると、例えばドラマの視聴中に登場人物が着用していた洋服に視聴者の注意が向いたが、その洋服を来ていた登場人物は画面から退場してしまったような場合、視聴者は「さっきの赤い上着いいな。」などと発声する。
視聴者が発声した音声はマイクロホン321より入力され、音声認識部352は時間表現辞書316と認識語彙記憶部351を参照して入力された音声を認識し、放送された番組付加情報より該当する付加情報を抽出する。
すなわち、認識語彙記憶部351に記憶されている認識語彙セットのうち図7に示した認識語彙セット395は、上着という単語を含んでいるので、音声認識部352は認識語彙セット395を特定する。
また、音声認識部352が音声認識した結果、音声認識の候補として複数の単語が認識された場合、認識語彙セット395の単語クラス内頻度397が高い方の単語を音声認識結果で認識された単語として特定する。
この場合、複数の単語がそれぞれ異なった単語クラスに属している場合には、例えば各単語クラスの重みを同一として扱う。すなわち、それら複数の単語の単語クラス内頻度397どうしを直接比較し、単語クラス内頻度397が高い方の単語を音声認識部352が特定すればよい。例えば認識語彙セットとしてジャケットというキーワードから生成された図7で示した認識語彙セットと、車庫というキーワードから生成された認識語彙セットが存在する場合に、音声認識した結果、ジャケットと車庫とが音声認識の候補として認識された場合、ジャケットが含まれる単語クラスである衣類と、車庫が含まれる単語クラスである建造物とを同じ重みであるすなわち平等に扱う。そして、ジャケットの単語クラス内頻度397と車庫の単語クラス内頻度397を直接比較し、単語クラス内頻度397が高い方を音声認識された単語として特定する。
なお、本実施の形態では、音声認識の候補として複数の単語が認識された場合、これら複数の単語がそれぞれ異なったクラスに属している場合には、複数の単語が含まれる各単語クラスの出現頻度を平等に出現するとして扱うとして説明したが、これに限らず、予め各単語クラスの出現する頻度を上述した十分大きな日本語コーパスより求めておき各単語クラスに出現する頻度をも考慮すればさらに正確に音声認識結果の単語を特定することが出来るようになる。また、各単語クラスの重みを放送局10からデータ放送により放送して、放送受信部313でこの各単語クラスの重みを受信し、音声認識部352が受信した各単語クラスの重みをも考慮することも出来る。また、TV/STB310とネットワークで接続されたPCを通じて、インターネットのホームページから商品を購入した場合等には、その購入履歴情報を取得して、取得した購入情報から各単語クラスの重みを生成し、音声認識部352で音声認識に利用することも可能である。
このようにして、音声認識部352が図7の認識語彙セット395を特定すると、音声認識部352は、付加情報記憶部317に認識語彙セット395に対応する付加情報であるジャケットの付加情報を記憶させる。
このように本実施の形態によれば、放送局10から放送されてきた付加情報に含まれるキーワード情報に対応するキーワードがジャケットである場合に、認識語彙セットを生成して音声認識に利用することにより、ジャケットと類義性のある上着という単語を視聴者が発声した場合であっても、ジャケットに対応する付加情報を特定することが出来るようになる。また、同様にジャケットと類義性がある服という単語を視聴者が発声した場合であっても、ジャケットの付加情報を特定することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に特定することが出来るようになる。
記憶時間制御部315はあらかじめ定められた時間範囲あるいはシーン数、または視聴者のこれまでの発声とその後の入力より学習された時間表現に対応するもっとも大きい時間幅あるいはシーン数の間、生成された認識語彙セットが保持されるよう制御する。なお、記憶時間制御部315の学習については後述する。例えば「さっきの赤い上着いいな。」という発声音声の場合には、記憶時間制御部315の制御に従って、音声認識部352は、「さっき」という過去を示す時間表現語彙を抽出し、時間表現辞書316を参照して「さっき」に対応する時間範囲あるいはシーン数の間に放送された番組付加情報を対象にして上記の特定を行う。
ドラマが終了した後、表示部318は、音声認識により指定されたドラマに登場した物等に対応する付加情報を表示する。
付加情報には大きさ、上述したように重さ、材質、色違い、サイズ違い価格、製造者、販売者、販売者連絡先等の情報が含まれており、視聴者はこれらの情報を確認して検討し、購入する場合にはリモートコントローラ320あるいはポインティングデバイス、あるいは音声認識等の入力手段により付加情報を選択し購入情報を入力する。
送信部319は、購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する。
さて、前述したように記憶時間制御部315は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習することについて具体的に説明する。記憶時間制御部315は、時間表現辞書316に格納されている時間に関する表現である認識語彙毎に実際の時間幅またはシーン数を対応付けるための情報を保持している。例えば、記憶時間制御部315は、例えば「さっき」という認識語彙については、現在時刻を基準にして20秒前から5分前までの時間幅を対応つけ、また、「今」については、現在時刻を基準にして現在から30秒前までの時間幅を対応付ける。
従って上述したように、記憶時間制御部315「さっき」という時間表現を表す認識語彙を音声認識部312から受け取った場合には、現在時刻を基準にして20秒前から5分前までの時間幅の間に受け取った番組付加情報に対して特定を行うよう制御し、この制御に従って音声認識部312は、現在時刻を基準にして20秒前から5分前までの時間幅の間に受け取った番組付加情報に対して特定を行い、その特定された番組付加情報を付加情報記憶部317に記憶させる。すなわち、記憶時間制御部315は、この時間幅の間に生成された認識語彙セットが保持されるように制御する。
ところが、記憶時間制御部315が「さっき」という時間表現を表す認識語彙を受け取った場合に、上述したように現在時刻を基準にして20秒前から5分前までの時間幅を対応付けた場合に、視聴者が表示部318で表示された番組付加情報が視聴者の意図していた時間幅と異なる番組付加情報が表示されることが起こり得る。このような場合、視聴者はマイクロホン321に向かって「やり直して」「もっと前の情報を表示してほしいな」「もっと後の情報を表示してほしいな」などと発声する。
そうすると、音声認識部352は、その視聴者からの発声を音声認識し、音声認識結果を記憶時間制御部315に通知する。音声認識部352が「もっと前の情報を表示してほしいな」という発声を音声認識した場合には、「もっと前」、「情報」、「表示」を認識語彙として抽出し、記憶時間制御部315に通知する。
記憶時間制御部315は、音声認識部312から「もっと前」、「情報」、「表示」という認識語彙を受け取ると、「さっき」という時間表現を表す認識語彙に対応付けられた時間幅の情報を修正する。すなわち、「さっき」という認識語彙に現在時刻を基準にして40秒前から5分40秒前までの時間幅を対応付けるように修正する。そして、記憶時間制御部315は、音声認識部352に現在時刻を基準にして40秒前から5分40秒前までの間に受け取った番組付加情報を対象として再度番組付加情報の特定を行うよう音声認識部352を制御する。音声認識部352は、記憶時間制御部315の制御に従って、再度番組付加情報の特定を行い、特定した番組付加情報を付加情報記憶部317に記憶させ、表示部318は、付加情報記憶部317に記憶された番組付加情報を表示する。そして、視聴者は、表示された番組付加情報に目的とするものが含まれている場合にはその番組付加情報を選択して購入情報を入力する。
このような処理を多数繰り返すことによって、記憶時間制御部315は、時間表現を表す認識語彙に視聴者の意図を反映したり時間幅を対応付けることが出来るようになる。これが記憶時間制御部315が学習するということである。
次に、図4のステップ354の動作を図8のフローチャートを用いて詳細に説明する。
上述したように音声認識する際、図3の認識語彙適応部358は、単語認識結果を類義語辞書390にフィードバックし、類義語辞書390中の認識された単語に重みを加算する。
すなわち、図8のフローチャートにおいて、ステップ358で音声認識部352が単語Aを認識したとする(ステップ358)。単語Aとしては、具体的には上述したようにウワギが認識されたとする。
類義語辞書適応部358は、類義語辞書390で読みがAである単語を検索する(ステップ359)。すなわち、類義語辞書適応部358は、類義語辞書390から読みがウワギである単語を抽出する。従って単語上着が抽出される。
次に、類義語辞書適応部358は、単語Aすなわち上着の単語クラス内頻度397に(1/想定出現単語総数)を加算する。ここで想定単語出現総数とは、類義語辞書390の出現頻度394を作成する際の出現単語の総数を仮想的に設定した値であり、例えば想定単語出現総数を100とする。そうすると、今までの上着の出現頻度394は0.10であったので、類義語辞書適応部358は、上着の出現頻度394を0.10+0.01=0.11とする。このように類義語辞書適応部358は、類義語辞書390の単語のうち音声認識により認識された単語Aの出現頻度394を増加させる。
次に、ステップ361において、類義語辞書適応部358は、単語Aが含まれる単語クラスに含まれる単語のうち単語A以外の単語の頻度から(その単語の出現頻度×(1/想定単語出現総数))を減算する。上着が含まれる単語クラスは、衣類であり、衣類には上着以外の単語としてジャケット及び服という単語が含まれている。従って、ジャケット及び服という単語の出現頻度394を減少させる。すなわち、今までジャケットの頻度は0.20であったので、類義語辞書適応部358は、ジャケットの出現頻度394を0.2−(0.2×(1/100))=0.198とする。また、今まで服の頻度は、0.30であったので、類義語辞書適応部358は、服の出現頻度394を0.3−(0.3×(1/100))=0.297とする。
音声認識部352が単語を認識するたびに、認識語彙適応部358は図8のステップ359、360、及び361の処理を行う。
放送局10から新たな付加情報が放送されてきた場合、認識語彙拡張部357が認識語彙セット395を生成する際、類義語辞書390の出現頻度394として上記のように補正された出現頻度394が用いられる。従って、視聴者がよく発声する単語は音声認識部352でより認識されやすくなるようにすることが出来る。
以上のように、本実施の形態の買い物支援システムによれば、視聴者が興味を持った、番組中に登場した物や音楽等について、番組そのものの視聴を、メモをとる等の作業で妨げることなく、自然な発声を行うだけで、番組の視聴と連続的に、情報を取得し、購入することが可能になる。
また、認識語彙セットを利用することにより、付加情報に含まれるキーワード情報に対応するキーワードのみならず、そのキーワードに類義性のある単語を発声することによっても認識語彙セットを特定出来、従って付加情報を特定することが出来るようになる。
なお本実施の形態では購入情報は対応する付加情報の識別番号等とあわせて送信部319から放送局へ送信されるとしたが、付加情報に含まれる販売元へ送信されるとしても良い。
なお、本実施の形態では音声認識部352は認識結果より対応する付加情報を特定するとしたが、番組内でのタイムスタンプのみを確定し、付加情報記憶部317はそのタイムスタンプおよびそれ以前の付加情報およびタイムスタンプおよびそれ以前の付加情報に対応する認識語彙セットを記憶するものとしても良い。すなわち、音声認識部352は、視聴者が音声を発声した時刻のみを確定し、付加情報記憶部317は、その時刻に対応する付加情報やその時刻までの所定の時間の間に放送された付加情報およびその付加情報に対応する認識語彙セットを記憶することもできる。視聴後に視聴者に記憶された付加情報を提示し、視聴者の発声した音声を認識し手詳細な付加情報の提示や購入情報等の送信を行う。なお、このように番組視聴後に付加情報の特定を行う場合については、後述する実施の形態5〜7で詳細に説明する。
なお、本実施の形態では付加情報記憶部317は選択された付加情報のみを記憶するとしたが、番組の全付加情報を記憶し、音声認識部により選択された付加情報のみを表示するとしても良い。
なお、本実施の形態では付加情報を記憶し番組終了後表示するとしたが、付加情報と収録しておいた番組あるいは放送局へ要求信号を送り再度受信した対応シーンを表示するとしても良い。
なお、本実施の形態では付加情報を記憶し番組終了後表示するとしたが、付加情報の識別コードのみを記憶し、付加情報は放送局へ要求信号を送り再度受信して表示するとしても良い。
なお、本実施の形態の放送局10は本発明の第1装置の例であり、本実施の形態のTV/STB310は本発明の第2装置の例であり、本実施の形態の放送受信部313は本発明の受信手段の例であり、本実施の形態の認識語彙生成部354は認識語彙セット生成手段の例であり、本実施の形態の音声認識部352は本発明の音声認識手段の例であり、本実施の形態の音声認識部352は本発明の特定手段の例であり、本実施の形態の表示部318は本発明の表示手段の例であり、本実施の形態の認識語彙適応部358は出現頻度補正手段の例である。
(実施の形態2)
次に、本発明の実施の形態2における双方向放送による買い物支援システムについて説明する。
本発明の実施の形態2における双方向放送による買い物支援システムの概念構成を示すブロック図は、図1で、認識語彙記憶部351を認識語彙記憶部361に変更し、音声認識部352を音声認識部362に変更したものに相当する。従って図1の説明は実施の形態1と重複するので省略する。図9に、双方向放送による買い物支援システム(以下買い物支援システムと呼ぶ)の詳細を示す機能ブロック図を示す。
TV/STB310は、図9に示すように、放送受信部313、認識語彙生成部360、認識語彙記憶部361、音声認識部362、時間表現辞書316、記憶時間制御部315、付加情報記憶部317、表示部318、送信部319、認識履歴記憶部363から構成される。
放送受信部313、時間表現辞書316、記憶時間制御部315、付加情報記憶部317、表示部318、及び送信部319については実施の形態1と同様であるので説明を省略する。
認識語彙生成部360は、放送受信部313で受信した番組付加情報から音声認識の対象語彙である認識語彙セットを生成する手段である。なお、実施の形態1とは異なり認識語彙生成部360は、一つの単語が複数の単語クラスに含まれる場合に認識語彙セットを生成するところが実施の形態1とは異なっている。認識語彙記憶部361は、一つの単語が複数の単語クラスに含まれる場合に生成された認識語彙セットを記憶する手段である。音声認識部362は、認識語彙記憶部361と時間表現辞書316とを認識語彙辞書として使用して音声認識を行う手段である。認識履歴記憶部363は、音声認識部362で既に認識された単語及びその単語が含まれる単語クラスを記憶しておく手段であり、例えば半導体メモリーまたはハードディスク装置で構成される。
図10に、認識語彙生成部360の部分の詳細な構成を示す、認識語彙生成部360は、認識語彙抽出部364、認識語彙拡張部366、類義語辞書365、認識語彙適応部367から構成される。
認識語彙抽出部364は、番組付加情報に含まれるキーワード情報に対応する単語をキーワードとして抽出する手段である。認識語彙拡張部366は、抽出されたキーワードを拡張して認識語彙セットを生成する手段である。類義語辞書365は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された辞書である。このように、実施の形態2の類義語辞書365は、一つの単語が複数の単語クラスに含まれる場合も扱うことが可能である。認識語彙適応部367は、音声認識結果に応じて類義語辞書365に記載されている各単語が出現する頻度を補正する手段である。
次に、このような本実施の形態の動作を説明する。
図12は、本実施の形態の買い物支援システムが認識語彙セットを生成して、付加情報と対応させて認識語彙記憶部361に記憶させるまでの動作を示すフローチャートである。また、図15は、視聴者が発声した音声を認識した場合の動作を示すフローチャートである。まず、図12に基づいて、認識語彙セットを生成して、付加情報と対応させて認識語彙記憶部361に認識語彙セットを記憶させるまでの動作を説明する。その後、視聴者が発声した音声を音声認識する場合の動作を説明する。
図12において、実施の形態1と同様に、放送局10からは、放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーワード情報を含む付加情報が放送内容とともに放送されてくる。放送受信部313は、この放送を受信する。
ここで、図11に実施の形態2で用いる類義語辞書400を示す。類義語辞書400は実施の形態1のものとは異なり一つの単語が複数の単語クラスに含まれる場合をも扱うことが出来るものである。類義語辞書400は、単語401と、その単語の読み461と、その単語が含まれる単語クラス1(402)と、単語クラス2(403)・・・単語クラスn(404)、その単語の出現頻度405とが記載された辞書である。なお、単語クラスとは、単語間の類義性を基準にして、複数の単語が分類されたものである。実施の形態2の類義語辞書では一つの単語401がn個の単語クラスに含まれている。また、本実施の形態の買い物支援システムを使用する初期状態においては、十分に大きい日本語コーパスから求められた出現頻度405が記載されている。この出現頻度405は、実施の形態1とは異なり、十分に大きい日本語コーパスにおける出現頻度が記載されている。
例えば、単語401の一例としてジャケットがあり、ジャケットの読み461はジャケットであり、ジャケットが含まれる単語クラス1(402)は衣類であり、単語クラス2(403)は流行などである。ジャケットの出現する出現頻度405は0.020である。
ステップ370において、付加情報としてジャケットの付加情報が送られてきたとする。なお、この付加情報については実施の形態1で説明したものと同様である。
次に、ステップ371において、認識語彙抽出部364は、付加情報に含まれるキーワード情報を抽出する。すなわち、ジャケットの付加情報が送られてきた場合には、キーワード情報としてジャケットに対応する情報を抽出する。そして、認識語彙拡張部366は、類義語辞書400を利用して、抽出したキーワード情報に対応するキーワードと同一の単語クラス1(402)、単語クラス2(403)、・・・単語クラスn(404)に属する単語から構成される認識語彙セットを生成する。
具体的に説明すると、対象物がジャケットである付加情報のキーワード情報に対応するキーワードがジャケットであるとする。そうすると認識語彙抽出部364は、この付加情報からキーワード情報に対応するキーワードであるジャケットを抽出する。
そして、認識語彙拡張部366は、キーワードであるジャケットを含む単語クラス1(402)が衣類であり、単語クラス2(403)が流行などであるので、単語クラスが衣類、流行等である単語を抽出する。図11の類義語辞書400の場合、単語クラスが衣類である単語は、ジャケットなどであることがわかる。そうすると、認識語彙拡張部366は、ジャケットなどを認識語彙セットを構成する単語とする。
図13にこのようにして作成された認識語彙セット406の例を示す。認識語彙セット406は、ジャケット、服、上着、バッグなどから構成されている。また、認識語彙セットの単語406には類義語辞書400の出現頻度も頻度409として記載される。
次に、ステップ372において、認識語彙拡張部366は、認識語彙セットにおける各単語の頻度409を求める。すなわち、認識語彙セット内の各単語の頻度409を合計すると1になるように認識語彙セット406で頻度409を規格化する。
図14に、このようにして頻度409が規格化された認識語彙セット410を示す。最終的には、認識語彙セット410として、単語の読み411と規格化された頻度であるセット内頻度412が記載される。
次に、ステップ373において、認識語彙適応部373は、認識履歴記憶部363より付加情報のキーワード情報に対応するキーワードが含まれる単語クラスに含まれる単語を抽出する。すなわち、認識履歴記憶部363は半導体メモリーまたはハードディスクから構成されており、認識履歴記憶部363には、既に行われた音声認識により認識された単語及びその単語が属する単語クラスが記憶されており、これらの単語のうち、ジャケットというキーワードが含まれる単語クラスに含まれる単語を抽出する。一般的には実施の形態2ではジャケットに含まれる単語クラスとしては、図11の類義語辞書401が示すように衣類、流行など複数の単語クラスがある。
次に、ステップ374において、認識語彙適応部373は、認識語彙セット410の単語のうちステップ373で抽出された単語と一致する単語のセット内頻度412に関して、(認識履歴中の出現数/想定単語出現数)を加算する。一方、認識語彙セット410の単語のうちステップ373で抽出されなかった単語のセット内頻度412に関して、(セット内頻度×認識履歴中の認識語彙セット内単語の総出現数)/(想定単語出現数)を減算する。
次に、ステップ375において、認識語彙適応部373は、ステップ374でセット内頻度412が補正された認識語彙セット410を付加情報と対応させて認識語彙記憶部361に記憶させる。
以上で、認識語彙記憶部361に認識語彙セット410が付加情報と対応させて記憶される。
認識語彙セットを用いて音声認識部362が付加情報を特定する動作は実施の形態1と同様であるので説明を省略する。
次に、音声認識する場合の動作について説明する。以下に説明する動作は、すでに生成されている認識語彙セットを音声認識された後も繰り返し使う場合に、その音声認識結果を反映するための処理である。
すなわち、図15に示すフローチャートで、ステップ380において、音声認識部362が単語Aを認識したとする。具体的には単語Aとしてウワギが認識されたとする。
ステップ381で、認識語彙適応部367は、類義語辞書400を参照して単語Aが含まれる単語クラスを抽出する。
次に、ステップ382で、認識語彙適応部367は、認識履歴記憶部363に単語Aと単語Aが含まれる単語クラスとを記憶させる。ただし、認識履歴記憶部363の単語記憶数の上限を超える場合は、最古の単語から順に削除する。
ステップ381、382で認識履歴記憶部363に記憶された単語Aなどの単語は、上述した図12のステップ373、374で用いられる。
一方、ステップ383において、認識語彙適応部367は、類義語辞書400で読みがAである単語を検索する。本実施の形態では、単語Aとしてウワギが認識されているので、ウワギが読みである単語を検索して、上着という単語を抽出する。
次に、ステップ384において、認識語彙適応部367は、認識語彙セット410中の単語Aのセット内頻度412に(1/想定単語出現数)を加算する。具体的には、想定単語総数を100とした場合には上着の頻度は0.1+0.01=0.11に補正される。
次に、ステップ385において、認識語彙適応部367は、認識語彙セット410中の単語A以外の単語の頻度から(セット内頻度×(1/想定単語総数))を減算する。具体的には、ジャケットの頻度は、0.2−(0.2×1/100)=0.198と補正され、服の頻度は、0.3−(0.3×1/100)=0.297と補正される。
音声認識する毎にステップ380からステップ385までの処理を繰り返す。
以上のように、本実施の形態の買い物支援システムによれば、視聴者が興味を持った、番組中に登場した物や音楽等について、番組そのものの視聴を、メモをとる等の作業で妨げることなく、自然な発声を行うだけで、番組の視聴と連続的に、情報を取得し、購入することが可能になる。
また、認識語彙セットを利用することにより、付加情報に含まれるキーワード情報に対応するキーワードのみならず、そのキーワードに類義性のある単語を発声することによっても認識語彙セットを特定出来、従って付加情報を特定することが出来るようになる。
なお、実施の形態2でも実施の形態1で説明した種々の変形例を適用することが出来ることは言うまでもない。
なお、本実施の形態の放送局10は本発明の第1装置の例であり、本実施の形態のTV/STB310は本発明の第2装置の例であり、本実施の形態の放送受信部313は本発明の受信手段の例であり、本実施の形態の認識語彙生成部360は認識語彙セット生成手段の例であり、本実施の形態の音声認識部362は本発明の音声認識手段の例であり、本実施の形態の音声認識部362は本発明の特定手段の例であり、本実施の形態の表示部318は本発明の表示手段の例であり、本実施の形態の認識語彙適応部367は出現頻度補正手段の例である。
(実施の形態3)
次に、本発明の実施の形態3における双方向放送による買い物支援システムについて説明する。
本発明の実施の形態3における双方向放送による買い物支援システムの概念構成を示すブロック図は、図1で、認識語彙記憶部351を文法記憶部376に変更し、音声認識部352を音声認識部377に変更したものに相当する。従って図1の説明は実施の形態1と重複するので省略する。図16に、双方向放送による買い物支援システム(以下買い物支援システムと呼ぶ)の詳細を示す機能ブロック図を示す。
TV/STB310は、図16に示すように放送受信部313、認識語彙生成部371、類義語辞書374、語彙重み修正部375、文法記憶部376、音声認識部377、認識履歴記憶部363、付加情報記憶部317、表示部318、送信部319、リモートコントローラ320、マイクロホン321、記憶時間制御部315から構成される。また、認識語彙生成部371は、ドメイン別ルール372、及び文法選択部373から構成される。すなわち、認識語彙生成部371は半導体メモリーまたはハードディスクの機能を有し、半導体メモリーまたはハードディスクにドメイン別ルール372を記憶しているものとする。また、文法記憶部376は、半導体メモリーまたはハードディスクの機能を有しており、それらの中に後述するNgram文法情報を記憶しているものとする。
放送受信部313、記憶時間制御部315、付加情報記憶部317、表示部318、送信部319、リモートコントローラ320、マイクロホン321については第1の実施の形態と同様であるので、詳細な説明を省略する。
認識語彙生成部371は、ドメイン別ルール372に示すようにドラマ、屋外、秋などのドメイン毎のNgram文法情報を自らが有する半導体メモリーまたはハードディスクに予め記憶しており、放送受信部313から送られてくるシーンコードに対応するドメインのNgram文法情報を選択する手段である。すなわち、文法選択部373は、放送受信部313から出力されてくるシーンコードに対応するドメインのNgram文法情報を選択する手段である。
文法記憶部376は、半導体メモリーまたはハードディスクの機能を有し、文法選択部373で選択されたNgram文法情報をこれらの半導体メモリーまたはハードディスクに記憶する手段である。
語彙重み修正部375は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書374を利用して、Ngram文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を、認識履歴記憶部363に記憶されている既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する手段である。
音声認識部377は、文法記憶部376に記憶されているNgram文法情報を利用して、視聴者が発声した音声を連続音声認識する手段である。
次に、このような本実施の形態の動作を説明する。
まず、図17のフローチャートを用いて動作の概要を説明する。
放送局10からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びNgram文法情報を特定するためのシーンコードも放送されてくる。放送受信部313は、この放送を受信する。
ステップ390において、文法選択部373は、放送受信部313から出力されてくるデータからシーンコード及び付加情報が含むキーワード情報を抽出する。ここで、シーンコードとは、認識語彙生成部371がドメイン毎に記憶しているNgram文法情報を特定するための情報である。
次に、ステップ391において、文法選択部373は、放送受信部313から出力されたシーンコードに対応するドメインのNgram文法情報を選択する。
次に、ステップ392において、語彙重み修正部375は、Ngram文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を認識履歴記憶部363に記憶されている認識履歴情報と類義語辞書374を用いて補正する。
次に、ステップ393において、認識語彙重み修正部375は、補正したNgram文法情報を文法記憶部376に記憶させる。
このようにして文法記憶部376に記憶されたNgram文法情報が音声認識部377で音声認識のために用いられる。ステップ393において、認識語彙重み修正部375が、認識履歴情報と類義語辞書374を用いてNgram文法情報を補正するので、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するように音声認識することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの表現に適するように特定することが出来るようになる。以下このことを詳細に説明する。
次に、図18のフローチャートを用いて、実施の形態3の買い物支援システムの詳細な動作の説明を行う。
図18において、上述したように、放送局10からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びNgram文法情報を特定するためのシーンコードも放送されてくる。
ステップ400において、放送受信部313は、この放送を受信する。
ステップ401において、文法選択部373は、放送受信部313から出力されてくるデータからシーンコード及び付加情報が含むキーワード情報を抽出する。
ここで、シーンコードとは、認識語彙生成部371がドメイン毎に記憶しているNgram文法情報を特定するための情報である。例えばシーンコードの例としては、ドラマ、屋外、秋などのドメインを特定するためのコードである。認識語彙生成部371にはドメイン別ルール372に示すように、ドメイン別にNgram文法情報が格納されている。従って、シーンコードを指定することにより、指定したシーンコードに対応するドメインのNgram文法情報を特定することが出来る。
また、実施の形態1と同様に、付加情報としてジャケットの付加情報が送られてきたとする。この場合付加情報としてはジャケットを示すキーワード情報のほかに付加情報としては、ジャケットの値段や色やサイズなどの説明、ジャケットの販売元の説明なども含まれることは実施の形態1と同様である。
文法選択部373は、シーンコードに対応するドメインのNgram文法情報をドメイン別ルール372から選択すると、選択したNgram文法情報を文法記憶部376に記憶させる。
ここで、Ngram文法情報の一般式は次の数1のようになる。
数1において、P(Wi|Wi-1Wi-2・・・Wi-n+1)は、十分大きな日本語コーパスにおいて単語列Wi-1Wi-2・・・Wi-n+1の後ろに単語Wiが現れる確率を表しており、N(WiWi-1・・・Wi-n+1)は、十分大きな日本語コーパスにおいて単語列WiWi-1・・・
Wi-n+1が現れた頻度を表している。
Ngram文法では数1を以下の数2のように近似する。
数2において、P(Ci|Ci-1・・・Ci-n+1)は、十分大きな日本語コーパスにおい
て単語クラス列Ci-1・・・Ci-n+1の後ろに単語クラスCiが現れた確率を表している。
また、P(Wi|Ci)は、十分大きな日本語コーパスにおいて、単語クラスCiに含まれ
る単語のうち、単語Wiが出現する確率を表している。
特にn=2の場合には、数1は数3のようになる。
また、数2は数4のようになる。
以下n=2の場合について説明するが、nが2より大きい場合については、単語クラスCi-1などを単語クラス列Ci-1・・・Ci-n+1などと読み替えればよい。
数4において、P(Wi|Wi-1)は、単語Wi-1の後ろに単語Wiが現れる確率を表しており、P(Ci|Ci-1)は、十分大きな日本語コーパスにおいて、単語クラスCi-1に含まれる単語の後ろに単語クラスCiに含まれる単語が出現する確率を表しており、P(Wi|Ci)は、前述した日本語コーパスにおいて、単語クラスCiに含まれる単語のうち、単語Wiが出現する確率を表している。ここで、単語クラスCiやCi-1などは類義語辞書374で定義されている。類義語辞書374は、例えば実施の形態1で説明した図5の類義語辞書390と同様のものであるとする。すなわち、数4は、単語Wi-1の後ろに単語Wiが現れる確率は、単語クラスCi-1に含まれる単語の後ろに単語クラスCiに含まれる単語が出現する確率と単語クラスCiに含まれる単語のうち単語Wiが出現する確率との積で表されることを示している。
図19に、このようにして文法記憶部376に記憶されたNgram文法情報の例であるNgram文法情報454を示す。Ngram文法情報454において、例えばアノという単語の後ろにウワギという単語が現れる確率は、[指示語]という単語クラスに含まれる単語の後ろに[衣類]という単語クラスに含まれる単語が現れる確率と[衣類]という単語クラスに含まれる単語のうちウワギという単語が現れる確率との積で表されている。
次に、ステップ402、及びステップ403において、語彙重み修正部375は、Ngram文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を認識履歴記憶部363に記憶されている認識履歴情報と類義語辞書374を用いて補正する。すなわち、数4におけるP(Wi|Ci)を認識履歴記憶部363に記憶されている認識履歴情報と類義語辞書374とを用いて補正する。
図20に、ステップ402及びステップ403の動作を説明するための図を示す。以下図20を用いてステップ402及びステップ403の動作を具体的に説明する。
まず、ステップ402において、上述したように付加情報に含まれるキーワード情報に対応するキーワードはジャケットである。類義語辞書374には、ジャケットは単語クラス[衣類]に含まれると定義されているとする。そして、類義語辞書374に単語クラス[衣類]に含まれる単語として、Ci424に示すようにジャケット、フク、ウワギ、シャツが定義されているとする。このような場合には、語彙重み修正部375は、Ci424に示すように、付加情報に含まれるキーワード情報に対応するキーワードがジャケットである場合には、[衣類]という単語クラスに属する単語であるジャケット、フク、ウワギ、シャツを抽出する。
次に、ステップ403において、認識履歴記憶部363に、認識履歴情報421として、パンプス、クチベニ、テレビ、ジャケットなどの単語が記憶されている。認識履歴記憶部363に記憶されている認識履歴情報421は、既に行われた音声認識の結果認識された単語の履歴を示すものである。
また、文法選択部373がNgram文法情報をシーンコードから特定して選択した際の数4におけるP(Wi|Ci)は、初期状態421のようになっているとする。すなわち、単語クラス[衣類]に含まれる単語のうち、ジャケットが現れる確率が0.4であり、単語クラス[衣類]に含まれる単語のうち、フクが現れる確率が0.3であり、単語クラス[衣類]に含まれる単語のうち、ウワギが現れる確率が0.2であり、単語クラス[衣類]に含まれる単語のうち、シャツが現れる確率が0.1であるとする。
このような場合、語彙重み修正部375は、単語ジャケットが含まれる単語クラスである[衣類]に属する単語であるジャケット、フク、ウワギ、シャツのうち、認識履歴情報421に含まれる各単語の数4におけるP(Wi|Ci)に(認識履歴情報421中の出現数)/(想定単語出現数)だけ加算する。ここで想定単語出現数とは、実施の形態1で説明したものと同様の意味である。認識履歴情報421には、ジャケット、フク、ウワギ、シャツのうち、ジャケットとフクが含まれていおり、ジャケットは2回出現しており、フクは1回出現している。このような場合、想定単語出現数を100とする場合には、P(ジャケット|[衣類])に2/100を加算する。また、P(フク|[衣類])に1/100を加算する。
また、語彙重み修正部375は、単語ジャケットが含まれる単語クラスである[衣類]に属する単語であるジャケット、フク、ウワギ、シャツのうち、認識履歴情報421に含まれない各単語の数4におけるP(Wi|Ci)から((補正前のP(Wi|[衣類]))/(単語クラス[衣類]に属する単語で認識履歴情報421に含まれなかった各単語のP(Wi|[衣類])の総和))×((認識履歴情報421中の単語クラス[衣類]に属する単語の出現総数)/(想定出現単語総数))を減算する。すなわち、一般的には、認識履歴情報421に含まれない各単語の数4におけるP(Wi|Ci)から((補正前のP(Wi|Ci))/(単語クラスCiに属する単語で認識履歴情報421に含まれなかった各単語のP(Wi|Ci)の総和))×((認識履歴情報421中の単語クラスCiに属する単語の出現総数)/(想定出現単語総数))を減算する。
認識履歴情報421には、ジャケット、フク、ウワギ、シャツのうち、ウワギとシャツが含まれていない。このような場合、想定単語出現数を100とする場合には、P(ウワギ|[衣類])から(0.2/(P(ウワギ|[衣類]+P(シャツ|[衣類]))×(3/100)を減算する。また、P(シャツ|[衣類])から(0.1/(P(ウワギ|[衣類]+P(シャツ|[衣類]))×(3/100)を減算する。
また、語彙重み修正部375は、単語ジャケットが含まれる単語クラスである[衣類]に属する単語であるジャケット、フク、ウワギ、シャツのうち、いずれの単語も認識履歴情報421に含まれていない場合には、単語クラス[衣類]に関して数4におけるP(Wi|Ci)を補正せず、そのまま用いる。
上記のように語彙重み修正部375が数4におけるP(Wi|Ci)を補正すると、図20の適応後422に示すように補正される。
次に、ステップ404において、語彙重み修正部375は、数4におけるP(Wi|Ci)を補正した数4に示したNgram文法情報を付加情報と対応させて文法記憶部376に記憶させる。
次に、音声認識の際には、音声認識部377は、視聴者が発声した音声を文法記憶部376に記憶されているNgram文法情報を用いて音声認識する。
視聴者が「あのジャケットいいな」と発声した場合には、音声認識部377は、文法記憶部376に記憶されている補正されたNgram文法情報を用いて連続音声認識する。その結果「あのジャケットいいな」という文章が認識される。Ngram文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。
Ngram文法情報を用いることにより、音声認識部377が「あの」、「ジャケット」、「いいな」という単語を認識したとする。そうすると、次に音声認識部377は、付加情報に含まれるキーワード情報に対応するキーワードであるジャケットが音声認識された単語であるジャケットと一致するので、ジャケットの付加情報を特定する。そして、特定したジャケットの付加情報を付加情報記憶部317に記憶させる。これ以降の付加情報の処理に関する動作は実施の形態1と同様であるので説明を省略する。
また、音声認識部363が上記のように単語を認識するたびに認識した単語を認識履歴記憶部363に記憶させる。
そして、放送局10から新たにシーンコードが送られてくるまでは、語彙重み修正部375は、認識履歴情報記憶部363に新たに単語が記憶されるたびにその新たに記憶された単語を認識履歴情報421としてステップ402及びステップ403の動作を繰り返す。このようにして語彙重み修正部375は、音声認識中にも数4におけるP(Wi|Ci)を補正する。
そして、放送局10から新たにシーンコードが送られてきた場合には、認識重み修正部375は、シーンコードが送られてくるまでの認識履歴情報421を対象として図18のステップ402、403の動作を行う。
なお、実施の形態3でNgram文法情報を用いて音声認識した後、付加情報に含まれるキーワード情報に対応するキーワードを用いて付加情報を特定する際に、実施の形態1または実施の形態2で説明した認識語彙セットを用いて付加情報を特定することも出来る。このようにすれば、本実施の形態の効果に加え、実施の形態1や実施の形態2の効果をも得ることが出来る。
さらに、本実施の形態の認識語彙生成部371に格納されているドメイン別ルール372として示すNgram文法情報は、予めインターネットなどのネットワークを利用してダウンロードしたものを用いても構わない。
さらに、本実施の形態では、文法選択部372がシーンコードが入力されると、そのシーンコードに対応するドメインのNgram文法情報を選択するとして説明したが、これに限らない。放送局10からNgram文法情報を特定するための情報であるNgram文法情報特定用キーワード情報が送られてきて、ドメイン別ルール372に記憶されているNgram文法情報にもNgram文法情報特定用キーワード情報が付加されており、文法選択部は、それらのNgram文法情報特定用キーワードの合致の程度に応じてNgram文法情報を特定し、特定したNgram文法情報を選択しても構わない。
さらに、本実施の形態では、Ngram文法情報を用いて音声認識するとして説明したが、これに限らず、Ngram以外の言語モデルを用いて音声認識しても本実施の形態と同様の効果を得ることが出来る。ここでNgram以外の言語モデルとは、例えば隠れマルコフモデル(hidden Markov model)、確率文脈自由文法(probabilistic context−free grammar)などである。Ngram以外の言語モデル、たとえば隠れマルコフモデルにおいて、認識結果に基づいて、認識された単語を出力する「状態」から音声認識によって認識された単語が出力される出力確率を増加させる、あるいは確率文脈自由文法において、認識された単語へ展開する「非終端記号」(例えば認識された単語が属するクラスを表す)が、認識された単語を「終端記号」として生成する確率を増加させるとしてもよい。
このように、認識重み修正部375が、数4におけるP(Wi|Ci)を補正するので、視聴者が発声する表現に適した連続音声がより認識されやすくなる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの表現に適するように特定することが出来るようになる。
なお、本実施の形態の放送局10は本発明の第1装置の例であり、本実施の形態のTV/STB310は本発明の第2装置の例であり、本実施の形態の放送受信部313は本発明の受信手段の例であり、本実施の形態の認識語彙生成部371は本発明の言語モデル特定手段の例であり、本実施の形態の語彙重み修正部375は本発明の補正手段の例であり、本実施の形態の音声認識部377は本発明の音声認識手段の例であり、本実施の形態の音声認識部377は本発明の特定手段の例であり、本実施の形態の表示部318は本発明の表示手段の例であり、本実施の形態のシーンコードは本発明のIDの例である。
(実施の形態4)
次に、本発明の実施の形態4における双方向放送による買い物支援システムについて説明する。
本発明の実施の形態4における双方向放送による買い物支援システムの概念構成を示すブロック図は、図1で、認識語彙記憶部351を文法記憶部376に変更し、音声認識部352を音声認識部377に変更したものに相当する。従って図1の説明は実施の形態1と重複するので省略する。図21に、双方向放送による買い物支援システム(以下買い物支援システムと呼ぶ)の詳細を示す機能ブロック図を示す。
TV/STB310は、図21に示すように放送受信部313、文法記憶部376、音声認識部377、商品データ記憶部317、表示部318、送信部319、クラス化部382、認識履歴記憶部363、類義語辞書374、クラス重み修正部381から構成される。
放送受信部313、付加情報記憶部317、表示部318、送信部319、リモートコントローラ320、マイクロホン321については第1の実施の形態と同様であるので、詳細な説明を省略する。また、文法記憶部376、音声認識部377、認識履歴記憶部363については第3の実施の形態と同様であるので詳細な説明を省略する。
クラス重み修正部381は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書374を利用して、Ngram文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を補正する手段である。
音声認識部377は、音声認識された結果認識された単語から類義語辞書374を利用して、その単語が含まれるクラスを特定し、認識された単語とその単語が含まれるクラスとを認識履歴記憶部363に記憶させる手段である。
次に、このような実施の形態4の動作を実施の形態3との相違点を中心に説明する。
まず、図22のフローチャートを用いて動作の概要を説明する。
放送局10からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びNgram文法情報も放送されてくる。放送受信部313は、この放送を受信する。
ステップ410において、放送受信部313は、文法記憶部376に放送されてきたNgram文法情報を記憶させる。
次に、ステップ411において、クラス重み修正部381は、Ngram文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を認識履歴記憶部363に記憶されている認識履歴情報を用いて補正する。
次に、ステップ412において、クラス重み修正部381は、補正したNgram文法情報を文法記憶部376に記憶させる。
このようにして文法記憶部376に記憶されたNgram文法情報が、実施の形態3と同様に音声認識部377で音声認識のために用いられる。ステップ411において、クラス重み修正部381が、認識履歴情報を用いてNgram文法情報を補正するので、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するように音声認識することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの興味に適するように特定することが出来るようになる。以下このことを詳細に説明する。
次に、図23のフローチャートを用いて、実施の形態4の買い物支援システムの詳細な動作の説明を行う。
図23において、上述したように、放送局10からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及びNgram文法情報も放送されてくる。
ステップ420において、放送受信部313は、この放送を受信して、Ngram文法情報を文法記憶部376に記憶させる。
Ngram文法情報については実施の形態3で説明したので説明を省略する。実施の形態4では、実施の形態3とは異なり数4におけるP(Ci|Ci-1)を認識履歴記憶部363の認識履歴情報を用いて補正する。
図24に、数4におけるP(Ci|Ci-1)の例を示す。例えば図24で指示語という単語クラスの後ろに衣類というクラスが出現する確率は0.30であることがわかる。
次に、ステップ421において、放送受信部313は付加情報を受信すると付加情報記憶部317に記憶させる。ここで、受信した付加情報は実施の形態3と同様にジャケットの付加情報であるとする。
次に、ステップ422、及びステップ423において、クラス重み修正部381は、Ngram文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を認識履歴記憶部363に記憶されている認識履歴情報を用いて補正する。すなわち、数4におけるP(Ci|Ci-1)を認識履歴記憶部363に記憶されている認識履歴情報を用いて補正する。
図25に、ステップ422及びステップ423の動作を説明するための図を示す。以下図25を用いてステップ422及びステップ423の動作を具体的に説明する。
まず、ステップ422において、上述したように付加情報に含まれるキーワード情報に対応するキーワードはジャケットである。類義語辞書374には、ジャケットは単語クラス[衣類]に含まれると定義されているとする。また、認識履歴記憶部363には、図25の認識履歴情報451に示すような認識履歴情報が記憶されているとする。
この認識履歴情報451は、音声認識された単語とその単語が含まれる単語クラスとから構成されている。すなわち、音声認識部377が音声認識を行った結果認識した単語を含む単語クラスをクラス化部382が類義語辞書374を用いて検出する。そして、クラス化部382は、認識された単語とその単語が含まれる単語クラスとを予め認識履歴記憶部363に記憶させておく。このように認識履歴情報451は、クラス化部382により生成されたものである。
クラス重み修正部381は、付加情報のキーワード情報に対応するキーワードであるジャケットが含まれる単語クラスである[衣類]を類義語辞書374を用いて特定し、さらに、単語クラス[衣類]に属する単語を認識履歴情報451から抽出する。認識履歴情報451に示すように、単語クラス[衣類]に属する単語としてジャケットが2回、フクが2回抽出されている。
次に、ステップ423において、単語クラスは、類義語辞書374にクラスの集合450に示すようにn個の単語クラスが定義されているとする。放送受信部313がNgram文法情報を受信して、文法記憶部376に記憶させた際の数4におけるP(Ci|Ci-1)は、初期状態452のようになっているとする。例えば、単語クラス[指示語]に含まれる単語の後ろに単語クラス[衣類]に含まれる単語が現れる確率が0.7であり、単語クラス[指示語]に含まれる単語の後ろに単語クラス[家具]に含まれる単語が現れる確率が0.3である。
このような場合、クラス重み修正部381は、ある単語クラスに含まれる単語の後ろに単語クラス[衣類]に含まれる単語が現れる確率であるP([衣類]|Ci-1)に、単語クラス[衣類]に含まれる単語が認識履歴情報451に出現する出現数を想定出現単語総数で割った値を加算する。すなわち、Ciが付加情報のキーワード情報に対応するキーワードを含む単語クラスである場合に、ある単語クラスに含まれる単語の後ろにCiに含まれる単語が現れる確率に、単語クラスCiに含まれる単語が認識履歴情報451に出現する出現数を想定出現単語総数で割った値を加算する。
初期状態452のP([衣類]|[指示語])には、認識履歴情報451に単語クラス[衣類]の単語が4個現れているので、想定単語出現総数を100として4/100が加算されていることがわかる。
一方、クラス重み修正部381は、単語クラス[衣類]以外の単語クラスをCjとした場合、P(Cj|Ci-1)から、((修正前のP(Cj|Ci-1))×(認識履歴のなかった単語クラスCjのP(Cj|Ci-1)の総和))×((認識履歴情報451中の単語クラス[衣類]に属する単語の出現総数)/(想定出現単語総数))を減算する。すなわち、Cjが付加情報のキーワード情報に対応するキーワードを含む単語クラス以外の単語クラスであり、Ciが付加情報のキーワード情報に対応するキーワードを含む単語クラスである
場合に、P(Cj|Ci-1)から、((修正前のP(Cj|Ci-1))/認識履歴のなかった単語クラスCjのP(Cj|Ci-1)の総和)))×(認識履歴情報451中のCiに属する単語の出現総数)/(想定出現単語総数)を減算する。
初期状態452のP([家具]|[指示語])からは、(0.3/0.3)×(4/100)だけ減算されていることがわかる。このようにすることにより、図25の適応後453に示すように数4におけるP(Cj|Ci-1)が補正される。
次に、ステップ424において、クラス重み修正部381は、数4におけるP(Ci|Ci−1)を補正した数4に示したNgram文法情報を付加情報と対応させて文法記憶部376に記憶させる。
次に、音声認識の際には、音声認識部377は、視聴者が発声した音声を文法記憶部376に記憶されているNgram文法情報を用いて音声認識する。
視聴者が「あのジャケットいいな」と発声した場合には、音声認識部377は、文法記憶部376に記憶されている補正されたNgram文法情報を用いて連続音声認識する。その結果「あのジャケットいいな」という文章が認識される。Ngram文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。
Ngram文法情報を用いることにより、音声認識部377が「あの」、「ジャケット」、「いいな」という単語を認識したとする。そうすると、次に音声認識部377は、付加情報に含まれるキーワード情報に対応するキーワードであるジャケットが音声認識された単語であるジャケットと一致するので、ジャケットの付加情報を特定する。そして、特定したジャケットの付加情報を付加情報記憶部317に記憶させる。これ以降の付加情報の処理に関する動作は実施の形態1と同様であるので説明を省略する。
このように、クラス重み修正部381が、数4におけるP(Ci|Ci−1)を補正するので、視聴者の趣味に適した連続音声がより認識されやすくなる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の趣味に適するように特定することが出来るようになる。
なお、本実施の形態においても上記各実施の形態で説明した種々の変形例が適用出来ることは言う間でもない。
なお、本実施の形態では、Ngram文法情報が放送局10から送られてくるとして説明したが、実施の形態3と同様にNgram文法情報をシーンコードなどにより選択するようにすることも出来る。また、逆に実施の形態3で、Ngram文法情報をシーンコードから選択する代わりに、実施の形態4で説明したように、Ngram文法情報が放送局から送られてくるとしても構わない。
さらに、本実施の形態では、Ngram文法情報を用いて音声認識を行うとして説明したが、これに限らない。Ngram以外の言語モデルを用いても構わない。ここで、Ngram以外の言語モデルとは、例えば、隠れマルコフモデル(hidden Markov model)、確率文脈自由文法(probabilistic context−free grammar)などである。Ngram以外の言語モデル、たとえば隠れマルコフモデルにおいて、認識結果に基づいて、認識された単語を出力する「状態」をS1とすると、S1へ遷移するアークを持つ状態Siそれぞれについて、SiからS1への遷移確率を増加させる。あるいは確率文脈自由文法において、認識された単語(終端記号)を展開する「非終端記号」をC1とすると、C1を含む記号列を展開する生成規則の確率を増加させるものとしてもよい。
なお、本実施の形態の放送局10は本発明の第1装置の例であり、本実施の形態のTV/STB310は本発明の第2装置の例であり、本実施の形態の放送受信部313は本発明の受信手段の例であり、本実施の形態のクラス重み修正部381は本発明の補正手段の例であり、本実施の形態の音声認識部377は本発明の音声認識手段の例であり、本実施の形態の音声認識部377は本発明の特定手段の例であり、本実施の形態の表示部318は本発明の表示手段の例である。
(実施の形態5)
次に、本発明の実施の形態5における買い物支援システムについて説明する。
本発明の実施の形態5における買い物支援システムの概念構成を示すブロック図は、図1で、認識語彙記憶部351を時間・言語モデル情報記憶部2005に変更し、音声認識部352を音声認識部377に変更したものに相当する。従って図1の説明は実施の形態1と重複するので省略する。図29に、買い物支援システムの詳細を示す機能ブロック図を示す。
TV/STB310は、図29に示すように放送受信部313、制御部2001、音響出力部2003、画像表示部2004、時間選択入力手段2002、時間・言語モデル情報記憶部2005、情報選択部2006、音声認識部377、マイクロホン321、及び送信部319から構成される。
放送受信部313、送信部319、リモートコントローラ320、マイクロホン321については第1の実施の形態と同様であるので、詳細な説明を省略する。
制御部2001は、音響出力部2003、画像表示部2004、情報選択部2006などを制御する手段である。
音響信号出力部2003は、制御部2001から出力された音響信号を音響信号出力部2003が有するスピーカから音声として出力する手段である。
画像表示部2004は、制御部2001から出力された映像信号を画像表示部2004が有するディスプレイに表示する手段である。
時間選択入力手段2002は、ボタンスイッチを含み、買い物支援システムの使用者が番組視聴中に興味を持ったものがある場合にはその時の時間位置を指定する手段である。
時間・言語モデル情報記憶部2005は、時間選択入力手段2002で指定された時間位置と、その時間位置に対応する言語モデル情報を記憶する手段である。
音声認識部377は、買い物支援システムの使用者が発声した音声をNgram文法情報を用いて音声認識する手段である。
情報選択部2006は、音声認識部377が音声認識することにより認識した単語と、付加情報に含まれるキーワード情報に対応するキーワードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部2006は、第3の実施の形態の認識語彙生成部371、類義語辞書374、語彙重み修正部375、認識履歴記憶部363、付加情報記憶部317などの各種の機能を有している。
送信部319は、選択された付加情報に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する手段である。
なお、本実施の形態のTV/STB310は、視聴している番組などを記録するハードディスクが内蔵されているものとする。
次に、このような本実施の形態の動作を説明する。
図30に本実施の形態のTV/STB310の動作を示すフローチャートを示す。以下、図30に基づいて動作を説明する。
放送局10からは、放送されてくる放送内容である番組内容2007が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報である番組付加情報(商品情報)2008及びNgram文法情報である番組付加情報(Ngram文法)2009が放送されてくる。放送受信部313は、この放送を受信する。すなわち、第3の実施の形態とは、異なり本実施の形態では、番組付加情報(Ngram文法)2009も放送局から放送されてくる。
制御部2001は、放送受信部313で受信された番組内容2007を番組内容2010として音響信号出力部2003及び画像表示部2004に出力するとともに、音響信号出力部2003が番組内容2010の音声信号をスピーカから出力するよう制御し、また画像表示部2004が番組内容2010の映像信号をディスプレイに表示するよう制御する。また、制御部2001は、番組内容2007、番組付加情報(商品情報)2008、番組付加情報(Ngram文法)2009など放送されてくる情報を、一旦内蔵のハードディスクに記録するように制御する。
今、音響信号出力部2003のスピーカと画像表示部2004のディスプレイとに、例えばドラマの番組が出力されているとする。そして、本実施の形態の買い物支援システムの使用者は、ドラマを視聴しているとする。
そして、視聴者が番組を視聴している最中に、登場人物の洋服や、ドラマのセットとして用いられている家具や本など番組中で興味があるものがディスプレイに映った場合、この使用者は、時間選択入力手段2002を操作して、時間的な付箋を貼り付ける。
すなわち、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、時間選択入力手段2002が有するボタンスイッチを押す。
時間選択入力手段2002は、使用者がボタンスイッチを押すことによって入力した付箋を貼る命令が入力された時点の時刻より10秒前の時刻と付箋を貼る命令が入力された時点の時刻より10秒後の時刻とを時間位置として制御部2001に出力する(ステップ501)。
制御部2001は、時間選択入力手段2002から時間位置を入力されると、その時間位置と、その時間位置に含まれる番組付加情報(Ngram文法)2009とを対応付けて、時間情報および時間に対応するNgram文法2011として時間・言語モデル情報記憶部2005に格納する(ステップ502)。
次に、使用者が番組の視聴を終了した後、または視聴を中断した後、制御部2001は、時間・言語モデル情報記憶部2005に格納されている時間位置および時間に対応するNgram文法2011を読み出し、その読み出された時間位置に含まれる番組内容の音声信号及び映像信号を内蔵のハードディスクから抽出し、それぞれ音響信号出力部2003及び画像表示部2004に出力する(ステップ503)。このようにして、時間・言語モデル情報記憶部2005に格納されている時間位置に含まれるシーンが、洋服を着たドラマの登場人物が映っているシーンであるとすると、時間位置で指定される時間幅すなわち20秒間分の洋服を着たドラマの登場人物が映っているシーンが再度使用者に提示される。
また、制御部2001は、読み出した時間位置に対応するNgram文法情報を情報選択部2006に出力する。情報選択部2006は、このNgram文法情報を音声認識部377に出力する。
また、制御部2001は、読み出した時間位置に含まれる番組付加情報(商品情報)2008を内蔵ハードディスクから抽出し、情報選択部2006に出力する。
使用者は、再度提示された時間位置で指定されたシーンを見て登場人物が着ている洋服を特定する音声をマイクロホン321に入力する(ステップ504)。例えば、使用者は、「あの、洋服いいな」とマイクロホン321に向かって発声する。
そうすると、音声認識部377は、時間・言語モデル情報記憶部2005から読み出されてきた番組付加情報(Ngram文法)2009であるNgram文法情報を用いて、「あの、洋服いいな」という音声信号を音声認識する(ステップ505)。
すなわち、使用者が「あの洋服いいな」と発声した場合には、音声認識部377は、時間・言語モデル情報記憶部2005から読み出され、実施の形態3のように最適化されたNgram文法情報を用いて連続音声認識する。なお、Ngram文法情報を最適化する方法は実施の形態3と同様であるので、詳細な説明を省略する。その結果「あの洋服いいな」という文章が認識される。Ngram文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。
Ngram文法情報を用いることにより、音声認識部377が「あの」、「洋服」、「いいな」という単語を認識したとする。そうすると、次に音声認識部377は、「あの」、「洋服」、「いいな」という単語列を情報選択部2006に出力する。
情報選択部2006は、抽出された付加情報(商品情報)2013に含まれるキーワード情報に対応するキーワードである洋服が音声認識された単語である洋服と一致するので、洋服の付加情報を特定する。そして、特定した洋服の付加情報を選択された情報2013として送信部319に出力する。送信部319は、選択された情報2013に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する(ステップ506)。
なお、時間選択入力手段2002がタッチパネルを含むものである場合には、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、タッチパネルの付箋ボタンに触れればよい。また、時間選択入力手段2002がマイクを含むものである場合には、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、「付箋を貼って」などと発声すればよい。
さらに、本実施の形態では、情報選択部2006が時間・言語モデル情報記憶部2005から読み出されたNgram文法情報が、実施の形態3と同様の方法により最適化するとして説明したが、これに限らず、実施の形態4と同様の方法により最適化しても構わない。
さらに、本実施の形態では、時間・言語モデル情報記憶部2005が、時間位置と番組付加情報(Ngram文法)2009であるNgram文法情報とを時間情報および時間に対応するNgram文法2011として格納するとして説明したが、これに限らない。時間・言語モデル情報記憶部2005が、時間位置のみを格納し、Ngram文法情報は格納しなくても構わない。なお、この場合には、制御部2001は、ステップ503において、読み出した時間位置に含まれるNgram文法情報を内蔵ハードディスクに格納されている番組付加情報(Ngram文法)2009から抽出して、情報選択部2006に出力すればよい。
さらに、本実施の形態では、時間・言語モデル情報記憶部2005が、時間位置と番組付加情報(Ngram文法)2009であるNgram文法情報とを時間情報および時間に対応するNgram文法2011として格納するとして説明したが、これに限らない。時間・言語モデル情報記憶部2005が、時間位置と番組付加情報(Ngram文法)2009であるNgram文法情報に加え、時間位置に含まれる番組付加情報(商品情報)2008を格納しても構わない。なお、この場合には、制御部2001は、ステップ503において、読み出した時間位置に含まれる付加情報(商品情報)2008を時間・言語モデル情報記憶部2005から読み出し、情報選択部2006に出力すればよい。
さらに、本実施の形態では、放送局10から番組付加情報(Ngram文法)2009が送信されてくるとして説明したが、番組付加情報(Ngram文法)2009の代わりに実施の形態1や実施の形態2で説明した認識語彙セットが放送局10から放送されてきても構わない。なお、この場合には、制御部2001、音声認識部377、及び情報選択部2006は、Ngram文法情報の代わりに認識語彙セットを扱い、情報選択部2006及び音声認識部377の動作は第1の実施の形態や第2の実施の形態と同様に認識語彙セットを用いて、付加情報(商品情報)2008を特定するものとする。
さらに、本実施の形態では、番組付加情報(商品情報)2008の全てを内蔵のハードディスクに記録し、時間選択入力手段2002で指定された時間位置に含まれる番組付加情報(商品情報)2008のみを提示するとして説明したが、これに限らない。時間選択入力手段2002で指定された時間位置に含まれる番組付加情報(商品情報)2008のみを記憶しておき提示しても構わない。
このように本実施の形態によれば、番組視聴中ではなく番組終了後または番組中断後に付加情報(商品情報)を特定する動作を行うので、番組視聴中に使用者の番組の視聴を中断することなく付加情報(商品情報)の特定を行うことが出来る。
(実施の形態6)
次に、本発明の実施の形態6における買い物支援システムについて説明する。
本発明の実施の形態6における買い物支援システムの概念構成を示すブロック図は、図1で、認識語彙記憶部351を商品情報・言語モデル情報記憶部2015に変更し、音声認識部352を音声認識部377に変更したものに相当する。従って図1の説明は実施の形態1と重複するので省略する。図31に、買い物支援システム(以下買い物支援システムと呼ぶ)の詳細を示す機能ブロック図を示す。
TV/STB310は、図31に示すように放送受信部313、制御部2001、音響出力部2003、画像表示部2004、時間選択入力手段2002、商品情報・言語モデル情報記憶部2015、情報選択部2016、音声認識部377、マイクロホン321、及び送信部319から構成される。
放送受信部313、送信部319、リモートコントローラ320、マイクロホン321については第1の実施の形態と同様であるので、詳細な説明を省略する。
制御部2001は、音響出力部2003、画像表示部2004、情報選択部2016などを制御する手段である。
音響信号出力部2003は、制御部2001から出力された音響信号を音響信号出力部2003が有するスピーカから音声として出力する手段である。
画像表示部2004は、制御部2001から出力された映像信号を画像表示部2004が有するディスプレイに表示する手段である。
時間選択入力手段2002は、ボタンスイッチを含み、買い物支援システムの使用者が番組視聴中に興味を持ったものがある場合にはその時の時間位置を指定する手段である。
商品情報・言語モデル情報記憶部2015は、時間選択入力手段2002で指定された時間位置に対応する付加情報として言語モデル情報(Ngram文法情報)と商品情報とを記憶する手段である。
音声認識部377は、買い物支援システムの使用者が発声した音声をNgram文法情報を用いて音声認識する手段である。
情報選択部2016は、音声認識部377が音声認識することにより認識した単語と、付加情報に含まれるキーワード情報に対応するキーワードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部2016は、第3の実施の形態の認識語彙生成部371、類義語辞書374、語彙重み修正部375、認識履歴記憶部363、付加情報記憶部317などの各種の機能を有している。
送信部319は、選択された付加情報に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する手段である。
なお、本実施の形態のTV/STB310は、実施の形態5のように視聴している番組などを記録するハードディスクが内蔵されていてもよいが、ハードディスクが内蔵されていなくても構わない。
次に、このような本実施の形態の動作を第5の実施の形態との相違点を中心に説明する。
図31に本実施の形態のTV/STB310の動作を示すフローチャートを示す。以下、図31に基づいて動作を説明する。
放送局10からは、放送されてくる放送内容である番組内容2007が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報である番組付加情報(商品情報)2008及びNgram文法情報である番組付加情報(Ngram文法)2009が放送されてくる。放送受信部313は、この放送を受信する。すなわち、第3の実施の形態とは、異なり本実施の形態では、番組付加情報(Ngram文法)2009も放送局から放送されてくる。
制御部2001は、放送受信部313で受信された番組内容2007を番組内容2010として音響信号出力部2003及び画像表示部2004に出力するとともに、音響信号出力部2003が番組内容2010の音声信号をスピーカから出力するよう制御し、また画像表示部2004が番組内容2010の映像信号をディスプレイに表示するよう制御する。
今、音響信号出力部2003のスピーカと画像表示部2004のディスプレイとに、例えばドラマの番組が出力されているとする。そして、本実施の形態の買い物支援システムの使用者は、ドラマを視聴しているとする。
ステップ511の動作は、第5の実施の形態のステップ501の動作と同様である。
次に、制御部2001は、時間選択入力手段2002から時間位置を入力されると、その時間位置に含まれる番組付加情報(商品情報)2008である商品情報と番組付加情報(Ngram文法)2009であるNgram文法情報とを選択された時間に対応する商品情報とNgram文法2017として、商品情報・言語モデル情報記憶部2015に格納する(ステップ512)。
次に、使用者が番組の視聴を終了した後、または視聴を中断した後、制御部2001は、商品情報・言語モデル情報記憶部2015に格納されているNgram文法情報と商品情報とを読み出し、商品情報を一覧表にして画像表示部2004に出力する。画像表示部2004は商品情報の一覧表をディスプレイに表示する。(ステップ513)。図33にこのようにして表示された商品情報の例を示す。すなわち、時間選択入力手段2002が時間位置を指定した範囲に映っていた商品の商品情報が図33のように表示される。このようにして使用者に時間位置を指定した商品情報が提示される。
また、制御部2001は、読み出したNgram文法情報と商品情報とを情報選択部2016に出力する。情報選択部2016は、このNgram文法情報を音声認識部377に出力する。
使用者は、図33の商品情報の一覧表を見ながら、洋服を特定する音声をマイクロホン321に入力する(ステップ514)。例えば、使用者は、「あの、洋服いいな」とマイクロホン321に向かって発声する。なお、ステップ514以降の動作は第5の実施の形態の動作と同様であるので説明を省略する。
なお、第5の実施の形態で説明した変形例は、第6の実施の形態でも同様に適用することが出来る。
このように本実施の形態によれば、番組視聴中ではなく番組終了後または番組中断後に付加情報(商品情報)を特定する動作を行うので、番組視聴中に使用者の番組の視聴を中断することなく付加情報(商品情報)の特定を行うことが出来る。
(実施の形態7)
次に、本発明の実施の形態7における買い物支援システムについて説明する。
本発明の実施の形態7における買い物支援システムの概念構成を示すブロック図は、図1で、認識語彙記憶部351を音声・商品情報・言語モデル情報記憶部2019に変更し、音声認識部352を音声認識部377に変更したものに相当する。従って図1の説明は実施の形態1と重複するので省略する。図34に、買い物支援システム(以下買い物支援システムと呼ぶ)の詳細を示す機能ブロック図を示す。
TV/STB310は、図34に示すように放送受信部313、制御部2018、音響出力部2003、画像表示部2004、音声・商品情報・言語モデル情報記憶部2019、情報選択部2020、音声認識部377、マイクロホン321、及び送信部319から構成される。
放送受信部313、送信部319、リモートコントローラ320、マイクロホン321については第1の実施の形態と同様であるので、詳細な説明を省略する。
制御部2018は、音響出力部2003、画像表示部2004、情報選択部2020などを制御する手段である。
音響信号出力部2003は、制御部2018から出力された音響信号を音響信号出力部2003が有するスピーカから音声として出力する手段である。
画像表示部2004は、制御部2018から出力された映像信号を画像表示部2004が有するディスプレイに表示する手段である。
音声・商品情報・言語モデル情報記憶部2019は、番組視聴中に買い物支援システムの使用者がマイクロホン321に向かって発声した時点を含む20秒間の間に含まれる付加情報として言語モデル情報(Ngram文法情報)と商品情報と、使用者が発声した音声を記憶する手段である。
音声認識部377は、買い物支援システムの使用者が発声した音声をNgram文法情報を用いて音声認識する手段である。
情報選択部2020は、音声認識部377が音声認識することにより認識した単語と、付加情報に含まれるキーワード情報に対応するキーワードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部2020は、第3の実施の形態の認識語彙生成部371、類義語辞書374、語彙重み修正部375、認識履歴記憶部363、付加情報記憶部317などの各種の機能を有している。
送信部319は、選択された付加情報に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する手段である。
なお、本実施の形態のTV/STB310は、実施の形態5のように視聴している番組などを記録するハードディスクが内蔵されていてもよいが、ハードディスクが内蔵されていなくても構わない。
次に、このような本実施の形態の動作を第5の実施の形態及び第6の実施の形態との相違点を中心に説明する。
図35に本実施の形態のTV/STB310の動作を示すフローチャートを示す。以下、図35に基づいて動作を説明する。
放送局10からは、放送されてくる放送内容である番組内容2007が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報である番組付加情報(商品情報)2008及びNgram文法情報である番組付加情報(Ngram文法)2009が放送されてくる。放送受信部313は、この放送を受信する。すなわち、第3の実施の形態とは、異なり本実施の形態では、番組付加情報(Ngram文法)2009も放送局から放送されてくる。
制御部2018は、放送受信部313で受信された番組内容2007を番組内容2010として音響信号出力部2003及び画像表示部2004に出力するとともに、音響信号出力部2003が番組内容2010の音声信号をスピーカから出力するよう制御し、また画像表示部2004が番組内容2010の映像信号をディスプレイに表示するよう制御する。
今、音響信号出力部2003のスピーカと画像表示部2004のディスプレイとに、例えばドラマの番組が出力されているとする。そして、本実施の形態の買い物支援システムの使用者は、ドラマを視聴しているとする。
そして、視聴者が番組を視聴している最中に、登場人物の洋服や、ドラマのセットとして用いられている家具や本など番組中で興味があるものがディスプレイに映った場合、この使用者は、マイクロホン321に向かって発声する(ステップ521)。
次に、制御部2018は、ステップ521で入力された入力音声と、その入力音声が入力された時点の時間位置を含む20秒間の間に含まれる商品情報とNgram文法情報を音声・商品情報・言語モデル情報記憶部に格納する(ステップ522)。つまり、制御部2018は、入力音声が入力された時点を含む20秒間の間に含まれる番組付加情報(商品情報)2008である商品情報と、番組付加情報(Ngram文法)2009であるNgram文法情報とを選択された時間に対応する商品情報とNgram文法2017として音声・商品情報・言語モデル情報記憶部2019に格納する。また、制御部2018は、ステップ521で入力された入力音声を時間選択時の入力音声2022として音声・商品情報・言語モデル情報記憶部2019に格納する。
次に制御部523は、番組の視聴を中断することなく、音声・商品情報・言語モデル情報記憶部2019に記憶された時間選択時の入力音声2022を、その入力音声に対応する、音声・商品情報・言語モデル情報記憶部2019に記憶されているNgram文法情報を用いて音声認識部377が音声入力するように制御する。この制御に従って、音声認識部377は、音声認識を行う(ステップ523)。そして、情報選択部2020は、商品情報の特定が可能な場合は商品情報の特定を行う。この商品情報の特定の動作は、第3の実施の形態と同様にして行う。なお、ステップ523の動作を行っている場合には、番組の視聴は中断されない。
次に、音声認識部377による音声認識の結果、情報選択部2020が商品情報を特定出来る場合には、ステップ528に進み、商品情報を特定できない場合には、ステップ525に進む(ステップ524)。なお、商品情報を特定出来る場合とは、例えば、「あの洋服いいな」など時間選択時の入力音声2022が具体的な商品を示している場合であり、商品情報を特定出来ない場合とは、例えば「あれ、いいな」など時間選択時の入力音声2022が具体的な商品を示していない場合である。
ステップ528において、制御部2018は、番組視聴終了後または番組視聴中断後に、特定された商品情報を使用者に提示するよう情報選択部2020、音響出力部2003、画像表示部2004を制御する。この制御に従って、画像表示部2004のディスプレイには、特定された商品情報が表示され、ステップ530に進む。
一方、ステップ525において、番組視聴終了後または番組視聴中断後に、制御部2018は、時間選択時の入力音声2022が入力された時点を含む20秒間に含まれる商品情報を音声・商品情報・言語モデル情報記憶部2019から読み出して、商品情報の一覧表として画像表示部2004に出力する。そして、画像表示部は商品情報の一覧表表示する。図33にこのようにして表示された商品情報の例を示す。すなわち、時間選択時の入力音声2022が入力された時点を含む20秒間に含まれる商品情報が図33のように表示される。このようにして使用者に時間位置を指定した商品情報が提示される。
使用者は、図33の一覧表を見ながら、マイクロホン321に向かって、特定したい商品情報を特定する音声を入力する(ステップ526)。例えば、洋服を特定したい場合には、「あの、洋服いいな」など洋服を特定する音声をマイクロホン321に向かって発声する。
次に、音声認識部377は、時間選択時の入力音声2022が入力された時点を含む20秒間に含まれるNgram文法情報を音声・商品情報・言語モデル情報記憶部2019から読み出し、読み出したNgram文法情報を用いて音声認識を行う(ステップ527)。すなわち、使用者が「あの洋服いいな」と発声した場合には、音声認識部377は、音声・商品情報・言語モデル情報記録部2019から読み出され、実施の形態3のように最適化されたNgram文法情報を用いて連続音声認識する。なお、Ngram文法情報を最適化する方法は実施の形態3と同様であるので、詳細な説明を省略する。その結果「あの洋服いいな」という文章が認識される。Ngram文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。
Ngram文法情報を用いることにより、音声認識部377が「あの」、「洋服」、「いいな」という単語を認識したとする。そうすると、次に音声認識部377は、「あの」、「洋服」、「いいな」という単語列を情報選択部2020に出力する。
情報選択部2006は、音声・商品情報・言語モデル情報記憶部2019に含まれるキーワード情報に対応するキーワードである洋服が音声認識された単語である洋服と一致するので、洋服の付加情報を特定する。
ステップ530において、情報選択部2020は、特定された付加情報を選択された情報2013として送信部319に出力する。送信部319は、選択された情報2013に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する(ステップ530)。
なお、第7の実施の形態では、ステップ526において図33の一覧表を見てから音声を入力するとしたが、第5の実施の形態のように、時間位置で指定されるシーンが再度提示されたのを見て音声入力するとしてもよい。
なお、第5の実施の形態で説明した変形例は、第7の実施の形態でも同様に適用することが出来る。
このように本実施の形態によれば、番組視聴中ではなく番組終了後または番組中断後に付加情報(商品情報)を提示したり、特定したりする動作を行うので、番組視聴中に使用者の番組の視聴を中断することなく付加情報(商品情報)の特定を行うことが出来る。
なお、本実施の形態では、図35に示すフローチャートに従って動作するとして説明したが、これに限らず、図36に示すフローチャートに従って動作しても構わない。図36に示すフローチャートでは、図35に示すフローチャートとはステップ522の挿入位置が異なっている。すなわち、図35ではステップ524の前にステップ522を行っていたのに対して、図36では、ステップ524で音声認識により商品情報が特定できなかった場合にのみステップ522が行われている。このように音声認識により商品情報が特定できなかった場合にのみ音声入力のあった時間位置に対応する商品情報とNgram文法を格納するとしても本実施の形態と同等の効果を得ることが出来る。
(関連技術1)
次に、本発明に関連する技術である関連技術1について説明する。
図26は、本発明の関連技術1における買い物支援システムのうち、買い物のための番組付加情報を番組作成と同時に自動作成する部分を示す機能ブロック図である。図27に本発明の関連技術1における買い物支援システムのうち番組付加情報を番組作成と同時に自動作成する動作を示す流れ図を示す。
図26において番組記録装置1010及び付加情報コード発信機1020が示されている。
付加情報コード発信機1020は、番組付加情報のコード番号を電波あるいは赤外線により発信する発信機である。
番組記録装置1010は、マイクロホン1011、カメラ1012、受信部1013、付加情報照合用データベース1014、情報照合部1017、番組付加情報データベース1015、及び番組記憶部1016を備える。
受信部1013は、付加情報コード発信機1020の信号を受信する手段である。付加情報照合用データベース1014は、番組付加情報のコード番号と番組付加情報の照合情報とが記録されているデータベースである。情報照合部1017は、付加情報照合用データベース1014の内容から、カメラおよびマイクロホンから入力した画像および音響信号中に受信部1013で受信した付加情報コードに対応する物あるいは生物あるいは人物が記録されているか否かを判断する手段である。番組付加情報データベース1015は、番組に記録する付加情報を記憶したデータベースである。番組記憶部1016は、画像および音響信号および番組付加情報を同期して記録する手段である。
次に、このような関連技術1の動作を説明する。
以下、図27を参照して説明する。なお、図27の流れ図に従う動作を行った場合には、物、生物、あるいは人物などの多数の対象物のうち、その対象物が映像中に捉えられている場合のみにその対象物の番組付加情報を放送する放送内容を自動的に作成することが出来るようになる。
まず、図27の流れ図に基づいて、動作の概要を説明する。
まず、撮影に先立って付加情報コード発信機1020を対応する付加情報がある物、生物、あるいは人物に取り付ける(ステップ1031)。
撮影はカメラ1012とマイクロホン1011より、画像と音響信号を入力すると同時に受信部1013より付加情報コード発信機が発信した信号を受信する(ステップ103
2)。
次に、情報照合部1017において発信機の信号の有無および受信した信号に付加情報コードが含まれているか否かを判断する(ステップ1033)。ステップ1033において発信機の信号が無いあるいは受信信号に付加情報コードが含まれていなかった場合は、カメラ1012およびマイクロホン1011より入力された画像と音響信号のみを記録する(ステップ1040)。
一方、ステップ1033において受信内容に付加情報コードがあった場合は、付加情報照合用データベース1014より付加情報コードに対応した照合情報を抽出し(ステップ1034)、情報照合部1017はカメラ1012およびマイクロホン1011より入力された画像および音響信号中に照合情報に該当するものがあるかどうかを判断する(ステ
ップ1035)。
ステップ1035で入力された画像および音響信号中に照合情報に該当するものが無いと判断された場合はカメラ1012およびマイクロホン1011より入力された画像と音響信号のみを記録する(ステップ1040)。
ステップ1035で入力された画像および音響信号中に照合情報に該当するものがあると判断された場合は番組付加情報データベース1015より該当する番組付加情報を抽出し、画像および音響信号に同期して記録する(ステップ1036)。
図28に、番組やコマーシャルなどの放送内容を製作している撮影現場を示す。撮影現場にはカメラ1012が設置されており、カメラ1012は設置場所を移動することが出来る。例えばカメラ1012は、カメラ1012aの位置からカメラ1012bの位置まで自由に移動することが出来る。
また、撮影現場にはそれぞれ異なった固定位置に位置固定発信機1030a、1030b、1030cが設置されている。これらの位置固定発信機1030a、1030b、1030cは、3次元の固定座標を作る。なお、図28では固定位置に3台の位置固定発信機1030a、1030b、1030cが設置されているとして説明したが、これに限らず、3台以上の位置固定発信機を固定位置に設置しても構わない。
カメラ1012は、移動や姿勢変更をすることが出来るが、位置固定発信機1030a、1030b、1030cそれぞれからの信号を受信することにより、カメラ1012自身の座標上の位置及び姿勢の情報を計算することが出来る。
一方、付加情報コード発信機1020は、位置固定発信機1030a、1030b、1030cからの信号を受信することにより、自分の座標上の位置を計算する。そして、付加情報コード発信機1020は、自分の座標上の位置を発信する。
また、カメラ1012は、カメラ1012自身の座標上の位置と姿勢、付加情報コード発信機1020の座標上の位置、カメラ1012の内部情報としての焦点距離と視野角より、付加情報コード発信機1020がそのカメラ1012の撮影範囲内に存在するか否かを判断する。
そして、カメラ1012は、付加情報コード発信機1020がカメラ1012の撮影範囲内の存在すると判断した場合には、その付加情報コード発信機1020から送られてきた付加情報コードを情報照会部1017に出力する。また、カメラ1012は、付加情報コード発信機1020がカメラ1012の撮影範囲内には存在しないと判断した場合には、その付加情報コード発信機1020から送られてきた付加情報コードを情報照会部1017には出力しない。このようにすすることにより情報照会部1017は、付加情報コード1020が送られてきた場合にはその付加情報コード1020に対応する番組付加情報を映像音声と同期させて記録することにより対象物が映像中に捉えられている場合のみにその対象物に対応つけられた番組付加情報を放送する放送内容を自動的に作成することが出来る。
以上のように本関連技術1における番組付加情報を番組作成と同時に自動作成システムによれば、番組作成後に製作者が全シーンを確認して番組付加情報を番組に付加、記録していく作業が不要となり、番組作成の作業時間の短縮および作業コストの削減が可能となる。
なお、本関連技術1では、付加情報コード発信機1020は付加情報のコード番号を発信したが、付加情報照合用データを発信し、情報照合部1016は付加情報照合用データベースを利用せず、受信したデータに基づいて画像および音響信号との照合を行うとしても良い。
なお、本関連技術1では、情報照合部1017は番組付加情報データベースよりコード番号に対応する番組付加情報を抽出して画像および音響信号と同期させて記録するとしたが、番組と付加情報とをリンクするタグ情報を記録するとしても良い。
尚、本発明または本発明に関連する発明のプログラムは、上述した本発明の第2装置の全部又は一部の手段(又は、装置、素子等)の機能をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムである。
又、本発明または本発明に関連する発明の記録媒体は、上述した本発明の第2装置の全部又は一部の手段(又は、装置、素子等)の全部又は一部の機能をコンピュータにより実行させるためのプログラムを記録した記録媒体であり、コンピュータにより読み取り可能且つ、読み取られた前記プログラムが前記コンピュータと協動して前記機能を実行する記録媒体である。
尚、上記「一部の手段(又は、装置、素子等)」とは、それらの複数の手段の内の、一つ又は幾つかの手段を意味し、上記「一部のステップ(又は、工程、動作、作用等)」とは、それらの複数のステップの内の、一つ又は幾つかのステップを意味する。
又、上記「手段(又は、装置、素子等)の機能」とは、前記手段の全部又は一部の機能を意味し、上記「ステップ(又は、工程、動作、作用等)の動作」とは、前記ステップの全部又は一部の動作を意味する。
又、本発明または本発明に関連する発明のプログラムの一利用形態は、コンピュータにより読み取り可能な記録媒体に記録され、コンピュータと協働して動作する態様であっても良い。
又、本発明または本発明に関連する発明のプログラムの一利用形態は、伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様であっても良い。
又、本発明に関連する発明のデータ構造としては、データベース、データフォーマット、データテーブル、データリスト、データの種類などを含む。
又、記録媒体としては、ROM等が含まれ、伝送媒体としては、インターネット等の伝送媒体、光・電波・音波等が含まれる。
又、上述したコンピュータは、CPU等の純然たるハードウェアに限らず、ファームウェアや、OS、更に周辺機器を含むものであっても良い。
尚、以上説明した様に、本発明または本発明に関連する発明の構成は、ソフトウェア的に実現しても良いし、ハードウェア的に実現しても良い。