JP2009130411A

JP2009130411A - 字幕監視装置及び字幕監視プログラム

Info

Publication number: JP2009130411A
Application number: JP2007300103A
Authority: JP
Inventors: Nagahito Narita; 長人成田; Tsutomu Shiina; 努椎名
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-11-20
Filing date: 2007-11-20
Publication date: 2009-06-11
Anticipated expiration: 2027-11-20
Also published as: JP5022193B2

Abstract

【課題】字幕の有無だけでなく、放送番組の内容に字幕が対応することを、人手をかけずに監視できる字幕監視装置を提供することを目的とする。
【解決手段】字幕監視装置１は、放送番組信号から音声信号と字幕信号と電子番組表情報とを分離させる放送番組受信手段１０と、音声信号を音声認識して音声テキストを生成する音声認識手段２０と、行単位音声テキストを形態素解析する音声テキスト形態素解析手段３０と、字幕信号を復号して字幕テキストを生成する字幕復号手段４０と、行単位字幕テキストを形態素解析する字幕テキスト形態素解析手段５０と、行単位で、行単位音声テキストと行単位字幕テキストとの一致率を算出し、その一致率に基づいて警告を出力するテキスト比較手段６０と、を備える。
【選択図】図１

Description

本発明は、放送番組の内容に字幕が対応することを監視する字幕監視装置及びそのプログラムに関する。

従来から、字幕送出装置に発生した障害を警告する技術や放送番組に字幕が付加されていないことを監視する技術が知られている。例えば、特許文献１には、放送番組に字幕が正常に付加されていることを示す特殊パケットデータを予め付加し、この特殊パケットデータの有無によって、放送番組に字幕が付加されているか否かを監視する文字放送監視システムが記載されている。
特開平１１−２８５０３２号公報

しかし、特許文献１に記載の発明は、放送番組の内容と異なる字幕が表示されていることを監視できない問題がある。また、多数存在する放送番組の全てについて、人間が監視することは現実的でなく、その内容に字幕が対応していない放送番組が放送されてしまうことがあり、この不備を視聴者に指摘されることもあった。このため、放送番組の内容に字幕が対応していることを、人手をかけずに監視したいとの強い要望があった。

本発明は、字幕の有無だけでなく、放送番組の内容に字幕が対応することを、人手をかけずに監視できる字幕監視装置及びそのプログラムを提供することを目的とする。

前記した課題を解決するため、請求項１に係る字幕監視装置は、放送されている放送番組の内容に字幕が対応していることを、放送番組に対応する電子番組表情報を用いて監視する字幕監視装置であって、放送番組受信手段と、音声認識手段と、音声テキスト形態素解析手段と、字幕復号手段と、字幕テキスト形態素解析手段と、テキスト比較手段と、を備える構成とした。

かかる構成によれば、字幕監視装置は、放送番組受信手段によって、放送番組信号を受信すると共に、放送番組信号から音声信号と字幕信号と電子番組表情報とを分離させる。ここで、電子番組表情報（ＥＰＧ：ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ）とは、放送番組信号とともに送信され、放送番組のジャンルや放送番組の字幕に関する字幕情報を含むものである。また、字幕監視装置は、音声認識手段によって、放送番組受信手段が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成する。ここで、音声認識手段は、統計学的手法により音声認識を行うことができ、この開始時間と時間長から、不連続部分での音声テキストの行区切りが分かる。また、字幕監視装置は、音声テキスト形態素解析手段によって、音声認識手段が生成した音声テキストに音声認識手段が生成した音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する。

また、字幕監視装置は、字幕復号手段によって、放送番組受信手段が分離させた字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する。ここで、字幕信号には、字幕テキストの行区切りが含まれるため、字幕復号手段は、その行区切りを字幕テキストの行開始時間とする。また、字幕監視装置は、字幕テキスト形態素解析手段によって、字幕復号手段が生成した字幕テキストに字幕復号手段が生成した字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する。また、字幕監視装置は、テキスト比較手段によって、放送番組受信手段が分離させた電子番組表情報に字幕情報が含まれる場合には、行単位で、音声テキスト形態素解析手段が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。ここで、テキスト比較手段は、電子番組表情報に字幕情報が含まれない場合、この放送番組が字幕を表示しないと判断し、一致率の算出及び警告の出力を行わない。

また、請求項２に係る字幕監視装置は、請求項１に係る字幕監視装置において、前記放送番組受信手段が、前記電子番組表情報から前記放送番組のジャンルを取得し、前記音声認識手段が、予め登録された複数の言語モデルから、前記放送番組受信手段が取得した前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いて、前記音声信号を音声認識して前記音声テキストを生成することを特徴とする。

かかる構成によれば、字幕監視装置は、放送番組のジャンルに対応した言語モデルを用いるので、音声認識の精度を向上させることができる。

また、請求項３に係る字幕監視装置は、請求項２に係る字幕監視装置において、前記テキスト比較手段が、前記放送番組送出情報に含まれる前記放送番組のジャンル毎に前記行数を設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする。

かかる構成によれば、字幕監視装置は、放送番組のジャンル毎に警告を出力する行数を異なる値とすることができる。

また、前記した課題を解決するため、請求項４に係る字幕監視装置は、録画された放送番組の内容に字幕が対応していることを、放送番組に対応する放送番組送出情報を用いて監視する字幕監視装置であって、音声信号分離手段と、音声認識手段と、音声テキスト形態素解析手段と、字幕復号手段と、字幕テキスト形態素解析手段と、テキスト比較手段と、を備える構成とした。

かかる構成によれば、字幕監視装置は、音声信号分離手段によって、放送番組信号を受信すると共に、放送番組信号から音声信号を分離させる。また、字幕監視装置は、音声認識手段によって、音声信号分離手段が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成する。ここで、音声認識手段は、統計学的手法により音声認識を行うことができ、この開始時間と時間長から、不連続部分での音声テキストの行区切りが分かる。また、字幕監視装置は、音声テキスト形態素解析手段によって、音声認識手段が生成した音声テキストに音声認識手段が生成した音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する。

また、字幕監視装置は、字幕復号手段によって、字幕信号を受信し、当該字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する。ここで、字幕信号には、字幕テキストの行区切りが含まれるため、字幕復号手段は、その行区切りを字幕テキストの行開始時間とする。また、字幕監視装置は、字幕テキスト形態素解析手段によって、字幕復号手段が生成した字幕テキストに字幕復号手段が生成した字幕時間情報に基づいた行開始時間を付与した行単位字幕テキストを、形態素に分割する。また、字幕監視装置は、テキスト比較手段によって、放送番組送出情報を受信すると共に、放送番組送出情報に字幕情報が含まれる場合には、行単位に、音声テキスト形態素解析手段が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。ここで、放送番組送出情報とは、放送番組と共に作成され、放送番組のジャンルや放送番組の字幕に関する字幕情報を含むものである。従って、テキスト比較手段は、放送番組送出情報に字幕情報が含まれない場合、この放送番組が字幕を表示しないと判断し、一致率の算出及び警告の出力を行わない。

また、請求項５に係る字幕監視装置は、請求項４に係る字幕監視装置において、前記音声認識手段が、予め登録された複数の言語モデルから、前記放送番組送出情報に含まれる前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いた音声認識によって前記音声テキストを生成することを特徴とする。

また、請求項６に係る字幕監視装置は、請求項５に係る字幕監視装置において、前記テキスト比較手段が、前記放送番組送出情報に含まれる前記放送番組のジャンル毎に前記行数が設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする。

また、前記した課題を解決するため、請求項７に係る字幕監視プログラムは、放送されている放送番組の内容に字幕が対応していることを、放送番組に対応する電子番組表情報を用いて監視するために、コンピュータを、放送番組受信手段、音声認識手段、音声テキスト形態素解析手段、字幕復号手段、字幕テキスト形態素解析手段、テキスト比較手段、として機能させることとした。

また、前記した課題を解決するため、請求項８に係る字幕監視プログラムは、録画された放送番組の内容に字幕が対応していることを、放送番組に対応する放送番組送出情報を用いて監視するために、コンピュータを、音声信号分離手段、放送番組受信手段、音声認識手段、音声テキスト形態素解析手段、字幕復号手段、字幕テキスト形態素解析手段、テキスト比較手段、として機能させることとした。

本発明に係る字幕監視装置及びそのプログラムによれば、以下のような優れた効果を奏する。請求項１，７に係る発明は、電子番組表情報に含まれる字幕情報を用いて、現在放送されている放送番組の音声と字幕の内容の一致率を算出し、この一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。このため、請求項１，７に係る発明によれば、リアルタイムで、字幕の有無だけでなく、放送番組の内容に字幕が対応することを、人手をかけずに監視することができる。

また、請求項４，８に係る発明は、放送番組送出情報に含まれる字幕情報を用いて、ビデオテープ又はサーバのＨＤＤ等の記録媒体に録画された放送番組の音声と字幕の一致率を算出し、この一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。このため、請求項４，８に係る発明によれば、放送番組の放送前に、字幕の有無だけでなく、放送番組の内容に字幕が対応することを、人手をかけずに監視することができる。

また、請求項２，５に係る発明によれば、音声認識の精度が向上するので音声テキストを正確に生成でき、字幕監視装置の監視精度を向上させることができる。さらに、請求項３，６に係る発明によれば、放送番組のジャンル毎の固有名詞等が音声認識されにくい場合であっても、警告を出力する行数を調整して警告が出力され続けるといった事態を防止できるため、字幕監視装置の監視精度を向上させることができる。

以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段及び同一の部材には同一の符号を付し、説明を省略した。

（第１実施形態）
［字幕監視装置の構成］
図１を参照して、字幕監視装置の構成について説明する。図１は、本発明の第１実施形態に係る字幕監視装置のブロック図である。字幕監視装置１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）から構成される。また、字幕監視装置１は、放送されている放送番組の内容に字幕が対応していることを、人手をかけずに監視する機能を実現するために、放送番組受信手段１０と、音声認識手段２０と、音声テキスト形態素解析手段３０と、字幕復号手段４０と、字幕テキスト形態素解析手段５０と、テキスト比較手段６０と、を備える。

放送番組受信手段１０は、放送番組信号を受信すると共に、放送番組信号から音声信号と字幕信号と電子番組表情報とを分離させるものである。ここで、放送番組受信手段１０は、この放送番組信号から映像のベースバンド信号、音声のベースバンド信号（音声信号）、字幕信号及び電子番組表情報を復号し、電子番組表情報から放送番組の字幕情報やジャンルを取得する。例えば、放送番組受信手段１０は、地上デジタル放送用チューナやこの機能を備える拡張ボードで実現できる。また、放送番組受信手段１０は、音声信号、字幕情報及びジャンルを音声認識手段２０に出力し、字幕情報及び字幕信号を字幕復号手段４０に出力し、字幕情報をテキスト比較手段６０に出力する。なお、放送番組受信手段１０は、電子番組表情報に字幕情報が含まれない場合には、字幕情報を音声認識手段２０、字幕復号手段４０及びテキスト比較手段６０に出力せずとも良い。

音声認識手段２０は、放送番組受信手段１０が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成するものである。ここで、音声認識手段２０は、この開始時間と時間長から、不連続部分で音声テキストの行区切りが分かる。また、この不連続部分は、発話の区切りとなるもので、音声信号における発話無音部分を検出すれば分かる。例えば、音声時間情報は、コンピュータが内蔵する時計を用いて生成し、放送番組の開示時間を０時０分０秒として、音声テキストの相対的な開始時間を求めて生成する。また、音声認識手段２０は、この音声テキスト及び音声時間情報を音声テキスト形態素解析手段３０に出力する。なお、音声認識手段２０は、放送番組受信手段１０から字幕情報が出力されない場合、音声テキストや音声時間情報を生成しなくとも良い。

ここで、報道番組、スポーツ番組、バラエティー番組等の放送番組のジャンル毎で様々な固有名詞が用いられるが、登場人物名や地名等の固有名詞や方言は、音声認識が難しい。このため、音声認識の精度を向上させるため、報道番組用言語モデル、バラエティー番組用言語モデル、スポーツ番組用言語モデル等の放送番組のジャンル毎に言語モデル（辞書データベース）をＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、Ｎ−Ｇｒａｍ等の統計学的手法によって作成し、図示しない記憶手段に予め記憶（登録）させても良い。そして、音声認識手段２０は、放送番組受信手段１０が出力した放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出して選択する。さらに、音声認識手段２０は、選択した言語モデルを用いた音声認識によって音声テキストを生成する。

ここで、前記した記憶手段は、例えば、ＨＤＤであり、音声認識手段２０が用いる複数の言語モデルの他、後記するテキスト比較手段６０が用いる予め設定した閾値、所定行数及び所定時間を記憶するものである。

音声テキスト形態素解析手段３０は、音声認識手段２０が生成した音声テキストに行開始時間が付与された行単位音声テキストを形態素に分割するものである。ここでは、音声テキスト形態素解析手段３０は、行単位音声テキストをＨＭＭ等の統計学的手法によって形態素解析して複数の形態素に分割する。また、音声テキスト形態素解析手段３０は、この行単位音声テキストをテキスト比較手段６０に出力する。

字幕復号手段４０は、放送番組受信手段１０が分離させた字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成するものである。例えば、字幕時間情報は、コンピュータが内蔵する時計から生成でき、字幕情報に含まれる字幕テキストの行区切りの開始部分に、放送番組の開始時間からの相対時間を付与して生成する。また、字幕復号手段４０は、ＮＡＢ形式やＡＲＩＢ形式で符号化された字幕信号を復号して、生成した字幕テキスト及び字幕時間情報を字幕テキスト形態素解析手段５０に出力する。なお、字幕復号手段４０は、放送番組受信手段１０から字幕情報が出力されない場合、字幕テキストや字幕時間情報を生成しなくとも良い。

字幕テキスト形態素解析手段５０は、字幕復号手段４０が生成した字幕テキストに行開始時間が付与された行単位字幕テキストを形態素に分割するものである。ここでは、字幕テキスト形態素解析手段５０は、行単位字幕テキストをＨＭＭ等の統計学的手法によって形態素解析して複数の形態素に分割する。また、字幕テキスト形態素解析手段５０は、生成した行単位字幕テキストをテキスト比較手段６０に出力する。

テキスト比較手段６０は、放送番組受信手段１０が分離させた電子番組表情報に字幕情報が含まれる場合には、行単位で、音声テキスト形態素解析手段３０が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段４０が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するものである。

このとき、画面表示の妨げとならないように、放送番組内のアナウンサや俳優の音声を要約した字幕を表示することも多く、１行だけで比較した場合、音声テキストと字幕テキストの内容が全く一致しない場合も考えられる。このため、５行以上連続して上記の一致率が０となった場合に、警告を出力しても良い。さらに、テキスト比較手段６０は、報道番組、スポーツ番組、バラエティー番組等の放送番組のジャンル毎に警告を出力する行数を設定し、算出した一致率が閾値以下で、この行数以上連続したときに警告を出力しても良い。なお、この行数は、５行に限定されず、１行以上であれば良い。

また、行単位音声テキストの行開始時間と行単位字幕テキストの行開始時間が完全に一致することは少ないので、テキスト比較手段６０は、これら行開始時間が完全に一致する場合に加え、行単位字幕テキストの行開始時間から所定時間範囲以内（例えば、２秒以内）に行単位音声テキストの行開始時間が含まれれば、同一行であると判断しても良い。なお、テキスト比較手段６０は、この一致率が閾値以下の場合に限られず、この一致率が閾値以上、閾値未満又は閾値を超える場合に警告を出力しても良い。

また、テキスト比較手段６０は、警告や比較結果を画面表示するディスプレイ装置、警告音を鳴らすアラーム、又は、警告メールを生成し、予め登録された者にその警告メールを送信する電子メールサーバを備えても良い。ここで、図１のテキスト比較手段６０は、上記の警告や比較結果を表示可能なディスプレイ装置を備えることとした。以下、図２を参照して、テキスト比較手段６０での形態素の比較や比較結果の表示について説明する（適宜図１参照）。

図２は、図１の字幕監視装置の比較結果の画面表示例である。図２に示すように、テキスト比較手段６０は、放送番組情報表示領域６１と、放送番組表示領域６２と、データ比較表示領域６３と、を分けて表示する。テキスト比較手段６０は、電子番組表情報を放送番組受信手段１０から取得し、放送番組情報表示領域６１に、電子番組表情報に含まれる放送チャネル、番組名、副題、放送開始時間、放送終了時間、イベントＩＤ、字幕の有無（字幕情報の有無）及び放送番組のジャンルを表示しても良い。また、テキスト比較手段６０は、放送番組信号を放送番組受信手段１０から取得し、放送番組表示領域６２に放送番組とその字幕を表示しても良い。なお、この放送番組では、ヨットの映像と共に、１２時００分２５秒に「今日は、いい風が吹いています。」という字幕が表示され（第１行目）、１２時００分４５秒に「絶好のヨット日よりです。」という字幕が表示される（第２行目）。

また、データ比較表示領域６３には、左側から順に、時刻と、字幕データ（行単位字幕テキスト）と、音声認識結果（行単位音声テキスト）と、適合と、を比較結果として表示する。ここで、上記の時刻として、行単位字幕テキストの行開始時間を表示する。また、上記の適合には、前記した一致率が閾値（例えば、０）を越える場合には「ＯＫ」を、一致率が閾値以下の場合には「ＮＧ」を表示する。さらに、データ比較表示領域６３には、複数行の比較結果を時系列順にソートして表示しても良く、この場合、テキスト比較手段６０は、放送番組表示領域６２で表示する放送番組の時間情報（タイムコード）に、データ比較表示領域６３の最上段に表示する比較結果の時刻を同期させても良い。

例えば、テキスト比較手段６０は、行単位音声テキスト又は行単位字幕テキストの全形態素数に対して、一致する形態素数の比を一致率として算出する。まず、テキスト比較手段６０は、第１行目の「今日は、｜いい風が｜ふいています。」という行単位字幕テキストと、「京都｜いい風｜拭いています。」という行単位音声テキストについて、各形態素が一致するか否かを比較する（なお、「｜」は形態素の区切りを示す）。ここで、行単位字幕テキストと行単位音声テキストの行開始時間は略等しいものとする。上記のように、「今日は」と「京都」は一致せず、「いい風が」と「いい風」は一致せず、「ふいています。」と「拭いています。」も一致しない。このように、全形態素が一致しないことから、テキスト比較手段６０は、これらの一致率を０として算出し、この一致率が閾値（例えば、０）以下であることから、これらが一致しないと判断して「ＮＧ」を表示する。もし、ここで、この一致率が閾値以下で警告を出力する行数（例えば、５行）以上連続した場合、テキスト比較手段６０は、警告を出力する。なお、テキスト比較手段６０は、比較する各行の形態素が所定数（例えば、２個）以上一致する場合、これらの行が一致すると判断しても良い。

次に、テキスト比較手段６０は、第２行目の「絶好の｜ヨット｜日よりです。」という行単位字幕テキストと、「絶好の｜ヨット｜美より」という行単位音声テキストについて、各形態素が一致するか否かを比較する。ここで、「絶好の」及び「ヨット」という形態素が一致し、「日よりです。」と「美より」という形態素が一致しない。従って、３形態素中、２形態素が一致するので、テキスト比較手段６０は、これらの一致率を２／３として算出し、一致率が閾値（例えば、０）を超えていることから、これらが一致すると判断して「ＯＫ」を表示する。以上のように、字幕監視装置１は、行単位音声テキスト及び行単位字幕テキストに含まれる内容語及び機能語の一致率を算出して比較し、その一致率に応じて警告を出力することができる。なお、字幕監視装置１は、内容語のみの一致率を算出し、又は、機能語を含めた一致率を算出し、その一致率に応じて警告を出力しても良い。

なお、放送番組で記号が字幕表示される間、例えば、音楽番組で音符マークが字幕表示される間は、音声認識手段２０が音声認識することができない。ここで、字幕監視装置１は、音声認識できない記号を記憶手段の設定ファイルに予め登録しておく。そして、テキスト比較手段６０は、比較の際、この設定ファイルに登録された記号を読み出し、この記号が行単位字幕テキストに含まれる場合、その行を比較しない。これによって、字幕監視装置１は、比較結果の精度を向上させることができる。

［字幕監視装置の動作］
図３を参照して、字幕監視装置の動作について説明する（適宜図１参照）。図３は、図１の字幕監視装置の動作を示すフローチャートである。まず、字幕監視装置１は、放送番組受信手段１０によって、放送番組信号を受信すると共に、放送番組信号から音声信号と字幕信号と電子番組表情報とを分離させる（ステップＳ１）。

ステップＳ１に続いて、字幕監視装置１は、音声認識手段２０によって、放送番組受信手段１０が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する（ステップＳ２）。また、字幕監視装置１は、音声認識手段２０によって、放送番組受信手段１０が出力した放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出し、選択した言語モデルを用いた音声認識によって音声テキストを生成する。

ステップＳ２に続いて、字幕監視装置１は、音声テキスト形態素解析手段３０によって、音声認識手段２０が生成した音声テキストに行開始時間が付与された行単位音声テキストを形態素に分割する（ステップＳ３）。

ステップＳ３に続いて、字幕監視装置１は、字幕復号手段４０によって、放送番組受信手段１０が分離させた字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する（ステップＳ４）。また、字幕監視装置１は、字幕テキスト形態素解析手段５０によって、字幕復号手段４０が生成した字幕テキストに行開始時間が付与された行単位字幕テキストを形態素に分割する（ステップＳ５）。

ステップＳ５に続いて、字幕監視装置１は、テキスト比較手段６０によって、放送番組受信手段１０が分離させた電子番組表情報に字幕情報が含まれる場合には、行単位で、音声テキスト形態素解析手段３０が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段４０が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下のときには警告を出力する（ステップＳ６）。

（第２実施形態）
［字幕監視装置の構成］
図４を参照して、字幕監視装置の構成について説明する。図４は、本発明の第２実施形態に係る字幕監視装置のブロック図である。字幕監視装置１Ｂは、ビデオテープ又はサーバのＨＤＤ等の記録媒体に録画された放送番組の内容に字幕が対応していることを、人手をかけずに監視する機能を実現するために、音声信号分離手段７０と、音声認識手段２０Ｂと、音声テキスト形態素解析手段３０と、字幕復号手段４０Ｂと、字幕テキスト形態素解析手段５０と、テキスト比較手段６０Ｂと、を備える。

音声信号分離手段７０は、放送番組信号を受信すると共に、放送番組信号から音声信号を分離させるものである。ここで、字幕監視装置１Ｂは、ビデオデッキやサーバと接続できる図示しないインタフェースを備え、音声信号分離手段７０は、上記の記録媒体に録画されている放送番組信号を受信する。また、音声信号分離手段７０は、この音声信号を音声認識手段２０Ｂに出力する。

音声認識手段２０Ｂは、音声信号分離手段７０が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成するものである。ここで、放送番組送出情報は、放送番組と共に上記の記録媒体に録画され、音声認識手段２０Ｂは、上記の記録媒体に録画されている放送番組送出情報を受信し、図１の音声認識手段２０と同様に、音声テキスト及び音声時間情報を生成する。なお、音声認識手段２０Ｂは、放送番組送出情報に字幕情報が含まれない場合、放送番組が字幕を表示しないものと判断し、音声テキストや音声時間情報を生成しなくとも良い。

また、図１の音声認識手段２０と同様に、放送番組のジャンル毎に言語モデルを作成し、図示しない記憶手段に予め記憶（登録）させても良い。そして、音声認識手段２０Ｂは、放送番組送出情報に含まれる放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出して選択する。さらに、音声認識手段２０Ｂは、選択した言語モデルを用いた音声認識によって音声テキストを生成する。

字幕復号手段４０Ｂは、字幕信号を受信し、字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成するものである。ここで、字幕復号手段４０Ｂは、上記の記録媒体に録画されている放送番組送出情報を受信し、図１の字幕復号手段４０と同様に、字幕テキスト及び字幕時間情報を生成する。なお、字幕復号手段４０Ｂは、放送番組送出情報に字幕情報が含まれない場合、放送番組が字幕を表示しないものと判断し、音声テキストや音声時間情報を生成しなくとも良い。

テキスト比較手段６０Ｂは、放送番組送出情報を受信すると共に、放送番組送出情報に字幕情報が含まれる場合には、行単位に、音声テキスト形態素解析手段３０が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段５０が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下のときには警告を出力するものである。ここで、テキスト比較手段６０Ｂは、図１のテキスト比較手段６０と同様に、一致率を算出し、比較結果や警告を出力する。

［字幕監視装置の動作］
図５を参照して、字幕監視装置の動作について説明する（適宜図４参照）。図５は、図４の字幕監視装置の動作を示すフローチャートである。まず、字幕監視装置１Ｂは、音声信号分離手段７０によって、放送番組信号を受信すると共に、放送番組信号から音声信号を分離させる（ステップＳ１１）。

ステップＳ１１に続いて、字幕監視装置１Ｂは、音声認識手段２０Ｂによって、音声信号分離手段７０が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成する（ステップＳ１２）。また、字幕監視装置１は、音声認識手段２０Ｂによって、受信した放送番組送出情報に含まれる放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出し、選択した言語モデルを用いた音声認識によって音声テキストを生成する。

ステップＳ１２に続いて、字幕監視装置１Ｂは、音声テキスト形態素解析手段３０によって、音声認識手段２０Ｂが生成した音声テキストに行開始時間が付与された行単位音声テキストを形態素に分割する（ステップＳ１３）。

ステップＳ１３に続いて、字幕監視装置１Ｂは、字幕復号手段４０Ｂによって、字幕信号を受信し、字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する(ステップＳ１４)。また、字幕監視装置１Ｂは、字幕テキスト形態素解析手段５０によって、字幕復号手段４０Ｂが生成した字幕テキストに行開始時間が付与された行単位字幕テキストを形態素に分割する（ステップＳ１５）。

ステップＳ１５に続いて、字幕監視装置１Ｂは、テキスト比較手段６０Ｂによって、放送番組送出情報を受信すると共に、放送番組送出情報に字幕情報が含まれる場合には、行単位に、音声テキスト形態素解析手段３０が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段５０が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下のときには警告を出力する（ステップＳ１６）。

以上のように、本発明に係る字幕監視装置は、現在放送されている放送番組又は予め録画された放送番組の内容に、字幕が対応していることを、人手をかけずに監視することができる。なお、各実施形態では、本発明に係る字幕監視装置を独立した装置として説明したが、本発明に係る字幕監視装置を放送番組送信装置に組み込んでも良く、一般的なコンピュータを、前記した各手段として機能させるプログラムによって動作させることもできる。このプログラムは、通信回線を介して配布しても良く、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。

本発明の第１実施形態に係る字幕監視装置のブロック図である。図１の字幕監視装置の比較結果の画面表示例である。図１の字幕監視装置の動作を示すフローチャートである。本発明の第２実施形態に係る字幕監視装置のブロック図である。図４の字幕監視装置の動作を示すフローチャートである。

符号の説明

１，１Ｂ字幕監視装置
１０放送番組受信手段
２０，２０Ｂ音声認識手段
３０音声テキスト形態素解析手段
４０，４０Ｂ字幕復号手段
５０字幕テキスト形態素解析手段
６０，６０Ｂテキスト比較手段
７０音声信号分離手段

Claims

放送されている放送番組の内容に字幕が対応していることを、前記放送番組に対応する電子番組表情報を用いて監視する字幕監視装置であって、
放送番組信号を受信すると共に、当該放送番組信号から音声信号と字幕信号と前記電子番組表情報とを分離させる放送番組受信手段と、
前記放送番組受信手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段と、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段と、
前記放送番組受信手段が分離させた前記字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段と、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段と、
前記放送番組受信手段が分離させた前記電子番組表情報に字幕情報が含まれる場合には、行単位で、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段と、
を備えることを特徴とする字幕監視装置。
前記放送番組受信手段は、前記電子番組表情報から前記放送番組のジャンルを取得し、
前記音声認識手段は、予め登録された複数の言語モデルから、前記放送番組受信手段が取得した前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いて、前記音声信号を音声認識して前記音声テキストを生成することを特徴とする請求項１に記載の字幕監視装置。
前記テキスト比較手段は、前記電子番組表情報に含まれる前記放送番組のジャンル毎に前記行数を設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする請求項２に記載の字幕監視装置。
録画された放送番組の内容に字幕が対応していることを、前記放送番組に対応する放送番組送出情報を用いて監視する字幕監視装置であって、
放送番組信号を受信すると共に、当該放送番組信号から音声信号を分離させる音声信号分離手段と、
前記音声信号分離手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段と、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段と、
字幕信号を受信し、当該字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段と、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段と、
前記放送番組送出情報を受信すると共に、当該放送番組送出情報に字幕情報が含まれる場合には、行単位に、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段と、
を備えることを特徴とする字幕監視装置。
前記音声認識手段は、予め登録された複数の言語モデルから、前記放送番組送出情報に含まれる前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いて、前記音声信号を音声認識して前記音声テキストを生成することを特徴とする請求項４に記載の字幕監視装置。
前記テキスト比較手段は、前記放送番組送出情報に含まれる前記放送番組のジャンル毎に前記行数を設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする請求項５に記載の字幕監視装置。
放送されている放送番組の内容に字幕が対応していることを、前記放送番組に対応する電子番組表情報を用いて監視するために、コンピュータを、
放送番組信号を受信すると共に、当該放送番組信号から音声信号と字幕信号と前記電子番組表情報とを分離させる放送番組受信手段、
前記放送番組受信手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段、
前記放送番組受信手段が分離させた前記字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段、
前記放送番組受信手段が分離させた前記電子番組表情報に字幕情報が含まれる場合には、行単位で、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段、
として機能させることを特徴とする字幕監視プログラム。
録画された放送番組の内容に字幕が対応していることを、前記放送番組に対応する放送番組送出情報を用いて監視するために、コンピュータを、
放送番組信号を受信すると共に、当該放送番組信号から音声信号を分離させる音声信号分離手段、
前記音声信号分離手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段、
字幕信号を受信し、当該字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段、
前記放送番組送出情報を受信すると共に、当該放送番組送出情報に字幕情報が含まれる場合には、行単位に、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段、
として機能させることを特徴とする字幕監視プログラム。