JP5022193B2 - Subtitle monitoring apparatus and subtitle monitoring program - Google Patents

Subtitle monitoring apparatus and subtitle monitoring program Download PDF

Info

Publication number
JP5022193B2
JP5022193B2 JP2007300103A JP2007300103A JP5022193B2 JP 5022193 B2 JP5022193 B2 JP 5022193B2 JP 2007300103 A JP2007300103 A JP 2007300103A JP 2007300103 A JP2007300103 A JP 2007300103A JP 5022193 B2 JP5022193 B2 JP 5022193B2
Authority
JP
Japan
Prior art keywords
text
subtitle
broadcast program
speech
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007300103A
Other languages
Japanese (ja)
Other versions
JP2009130411A (en
Inventor
長人 成田
努 椎名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2007300103A priority Critical patent/JP5022193B2/en
Publication of JP2009130411A publication Critical patent/JP2009130411A/en
Application granted granted Critical
Publication of JP5022193B2 publication Critical patent/JP5022193B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/04Diagnosis, testing or measuring for television systems or their details for receivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N2017/008Diagnosis, testing or measuring for television systems or their details for television teletext

Description

本発明は、放送番組の内容に字幕が対応することを監視する字幕監視装置及びそのプログラムに関する。   The present invention relates to a caption monitoring apparatus that monitors whether captions correspond to the contents of a broadcast program, and a program thereof.

従来から、字幕送出装置に発生した障害を警告する技術や放送番組に字幕が付加されていないことを監視する技術が知られている。例えば、特許文献1には、放送番組に字幕が正常に付加されていることを示す特殊パケットデータを予め付加し、この特殊パケットデータの有無によって、放送番組に字幕が付加されているか否かを監視する文字放送監視システムが記載されている。
特開平11−285032号公報
2. Description of the Related Art Conventionally, a technique for warning a failure that has occurred in a caption transmission device and a technique for monitoring that captions are not added to a broadcast program are known. For example, in Patent Document 1, special packet data indicating that captions are normally added to a broadcast program is added in advance, and whether or not captions are added to a broadcast program depending on the presence or absence of the special packet data. A teletext monitoring system to be monitored is described.
Japanese Patent Laid-Open No. 11-285032

しかし、特許文献1に記載の発明は、放送番組の内容と異なる字幕が表示されていることを監視できない問題がある。また、多数存在する放送番組の全てについて、人間が監視することは現実的でなく、その内容に字幕が対応していない放送番組が放送されてしまうことがあり、この不備を視聴者に指摘されることもあった。このため、放送番組の内容に字幕が対応していることを、人手をかけずに監視したいとの強い要望があった。   However, the invention described in Patent Document 1 has a problem that it cannot be monitored that subtitles different from the content of the broadcast program are displayed. In addition, it is not practical for humans to monitor all of the many broadcast programs, and broadcast programs whose contents do not support subtitles may be broadcast. This deficiency has been pointed out to viewers. Sometimes there was. For this reason, there has been a strong demand to monitor that subtitles correspond to the contents of broadcast programs without human intervention.

本発明は、字幕の有無だけでなく、放送番組の内容に字幕が対応することを、人手をかけずに監視できる字幕監視装置及びそのプログラムを提供することを目的とする。   An object of the present invention is to provide a caption monitoring device and a program thereof that can monitor not only the presence / absence of captions but also the correspondence of captions to the contents of broadcast programs without human intervention.

前記した課題を解決するため、請求項1に係る字幕監視装置は、放送されている放送番組の内容に字幕が対応していることを、放送番組に対応する電子番組表情報を用いて監視する字幕監視装置であって、放送番組受信手段と、音声認識手段と、音声テキスト形態素解析手段と、字幕復号手段と、字幕テキスト形態素解析手段と、テキスト比較手段と、を備える構成とした。   In order to solve the above-described problem, the caption monitoring device according to claim 1 monitors that the caption corresponds to the content of the broadcast program being broadcast using the electronic program guide information corresponding to the broadcast program. The subtitle monitoring apparatus includes a broadcast program receiving unit, a voice recognition unit, a voice text morpheme analysis unit, a subtitle decoding unit, a subtitle text morpheme analysis unit, and a text comparison unit.

かかる構成によれば、字幕監視装置は、放送番組受信手段によって、放送番組信号を受信すると共に、放送番組信号から音声信号と字幕信号と電子番組表情報とを分離させる。ここで、電子番組表情報(EPG:Electric Program Guide)とは、放送番組信号とともに送信され、放送番組のジャンルや放送番組の字幕に関する字幕情報を含むものである。また、字幕監視装置は、音声認識手段によって、放送番組受信手段が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成する。ここで、音声認識手段は、統計学的手法により音声認識を行うことができ、この開始時間と時間長から、不連続部分での音声テキストの行区切りが分かる。また、字幕監視装置は、音声テキスト形態素解析手段によって、音声認識手段が生成した音声テキストに音声認識手段が生成した音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する。   According to such a configuration, the caption monitoring device receives the broadcast program signal by the broadcast program receiving unit, and separates the audio signal, the caption signal, and the electronic program guide information from the broadcast program signal. Here, the electronic program guide information (EPG: Electric Program Guide) is transmitted together with the broadcast program signal, and includes subtitle information related to the genre of the broadcast program and the subtitles of the broadcast program. Further, the caption monitoring device generates speech text by recognizing the speech signal separated by the broadcast program receiving means by the speech recognition means, and generating the relative start time of the speech text from the start time of the broadcast program. Voice time information including the time length of the voice text is generated. Here, the speech recognition means can perform speech recognition by a statistical method, and the line break of the speech text at the discontinuous portion can be known from the start time and the time length. Further, the caption monitoring device uses the speech text morpheme analysis unit to convert the speech text generated by the speech recognition unit into line-unit speech text in which the line start time based on the speech time information generated by the speech recognition unit is added to the morpheme. To divide.

また、字幕監視装置は、字幕復号手段によって、放送番組受信手段が分離させた字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する。ここで、字幕信号には、字幕テキストの行区切りが含まれるため、字幕復号手段は、その行区切りを字幕テキストの行開始時間とする。また、字幕監視装置は、字幕テキスト形態素解析手段によって、字幕復号手段が生成した字幕テキストに字幕復号手段が生成した字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する。また、字幕監視装置は、テキスト比較手段によって、放送番組受信手段が分離させた電子番組表情報に字幕情報が含まれる場合には、行単位で、音声テキスト形態素解析手段が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。ここで、テキスト比較手段は、電子番組表情報に字幕情報が含まれない場合、この放送番組が字幕を表示しないと判断し、一致率の算出及び警告の出力を行わない。   Further, the caption monitoring device generates caption text by decoding the caption signal separated by the broadcast program receiving means by the caption decoding means, and caption time information indicating a relative start time for each line break of the caption text Is generated. Here, since the caption signal includes a line break of the caption text, the caption decoding means sets the line break as the line start time of the caption text. Further, the caption monitoring device uses the caption text morpheme analyzing means to convert the caption text generated by the caption decoding means into line-by-line caption text in which the line start time is given based on the caption time information generated by the caption decoding means. To divide. In addition, the subtitle monitoring apparatus, when the subtitle information is included in the electronic program guide information separated by the broadcast program receiving means by the text comparison means, is line-by-line audio text generated by the audio text morphological analysis means in line units. The morpheme and line start time are compared with the morpheme and line start time of the line-by-line subtitle text generated by the subtitle text morpheme analyzing means, and the coincidence rate is calculated, and the calculated coincidence rate is preset below a preset threshold value A warning is output when the specified number of lines are continued. Here, when the electronic program guide information does not include subtitle information, the text comparing means determines that this broadcast program does not display subtitles, and does not calculate the coincidence rate and output a warning.

また、請求項2に係る字幕監視装置は、請求項1に係る字幕監視装置において、前記放送番組受信手段が、前記電子番組表情報から前記放送番組のジャンルを取得し、前記音声認識手段が、予め登録された複数の言語モデルから、前記放送番組受信手段が取得した前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いて、前記音声信号を音声認識して前記音声テキストを生成することを特徴とする。   The subtitle monitoring apparatus according to claim 2 is the subtitle monitoring apparatus according to claim 1, wherein the broadcast program receiving unit acquires a genre of the broadcast program from the electronic program guide information, and the voice recognition unit includes: A language model corresponding to the genre of the broadcast program acquired by the broadcast program receiving means is selected from a plurality of language models registered in advance, and the audio signal is recognized by using the selected language model. The speech text is generated.

かかる構成によれば、字幕監視装置は、放送番組のジャンルに対応した言語モデルを用いるので、音声認識の精度を向上させることができる。   According to such a configuration, the caption monitoring device uses the language model corresponding to the genre of the broadcast program, so that the accuracy of voice recognition can be improved.

また、請求項3に係る字幕監視装置は、請求項2に係る字幕監視装置において、前記テキスト比較手段が、前記放送番組送出情報に含まれる前記放送番組のジャンル毎に前記行数を設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする。   Further, in the caption monitoring device according to claim 3, in the caption monitoring device according to claim 2, the text comparison unit sets the number of lines for each genre of the broadcast program included in the broadcast program transmission information. A warning is output when the calculated coincidence rate is equal to or less than the threshold value and continues for the number of lines set for each genre of the broadcast program.

かかる構成によれば、字幕監視装置は、放送番組のジャンル毎に警告を出力する行数を異なる値とすることができる。   According to this configuration, the caption monitoring device can set different numbers of lines for outputting warnings for each genre of broadcast program.

また、前記した課題を解決するため、請求項4に係る字幕監視装置は、録画された放送番組の内容に字幕が対応していることを、放送番組に対応する放送番組送出情報を用いて監視する字幕監視装置であって、音声信号分離手段と、音声認識手段と、音声テキスト形態素解析手段と、字幕復号手段と、字幕テキスト形態素解析手段と、テキスト比較手段と、を備える構成とした。   In order to solve the above-described problem, the caption monitoring device according to claim 4 monitors that the caption corresponds to the content of the recorded broadcast program by using broadcast program transmission information corresponding to the broadcast program. A subtitle monitoring apparatus that includes an audio signal separation unit, a voice recognition unit, a voice text morpheme analysis unit, a subtitle decoding unit, a subtitle text morpheme analysis unit, and a text comparison unit.

かかる構成によれば、字幕監視装置は、音声信号分離手段によって、放送番組信号を受信すると共に、放送番組信号から音声信号を分離させる。また、字幕監視装置は、音声認識手段によって、音声信号分離手段が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成する。ここで、音声認識手段は、統計学的手法により音声認識を行うことができ、この開始時間と時間長から、不連続部分での音声テキストの行区切りが分かる。また、字幕監視装置は、音声テキスト形態素解析手段によって、音声認識手段が生成した音声テキストに音声認識手段が生成した音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する。   According to this configuration, the caption monitoring device receives the broadcast program signal and separates the audio signal from the broadcast program signal by the audio signal separation unit. Further, the caption monitoring device recognizes the voice signal separated by the voice signal separation means by the voice recognition means to generate voice text, and sets the relative start time of the voice text from the start time of the broadcast program. Voice time information including the time length of the voice text is generated. Here, the speech recognition means can perform speech recognition by a statistical method, and the line break of the speech text at the discontinuous portion can be known from the start time and the time length. Further, the caption monitoring device uses the speech text morpheme analysis unit to convert the speech text generated by the speech recognition unit into line-unit speech text in which the line start time based on the speech time information generated by the speech recognition unit is added to the morpheme. To divide.

また、字幕監視装置は、字幕復号手段によって、字幕信号を受信し、当該字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する。ここで、字幕信号には、字幕テキストの行区切りが含まれるため、字幕復号手段は、その行区切りを字幕テキストの行開始時間とする。また、字幕監視装置は、字幕テキスト形態素解析手段によって、字幕復号手段が生成した字幕テキストに字幕復号手段が生成した字幕時間情報に基づいた行開始時間を付与した行単位字幕テキストを、形態素に分割する。また、字幕監視装置は、テキスト比較手段によって、放送番組送出情報を受信すると共に、放送番組送出情報に字幕情報が含まれる場合には、行単位に、音声テキスト形態素解析手段が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。ここで、放送番組送出情報とは、放送番組と共に作成され、放送番組のジャンルや放送番組の字幕に関する字幕情報を含むものである。従って、テキスト比較手段は、放送番組送出情報に字幕情報が含まれない場合、この放送番組が字幕を表示しないと判断し、一致率の算出及び警告の出力を行わない。   Further, the caption monitoring device receives the caption signal by the caption decoding means, decodes the caption signal, generates caption text, and displays caption time information indicating a relative start time for each line break of the caption text. Generate. Here, since the caption signal includes a line break of the caption text, the caption decoding means sets the line break as the line start time of the caption text. In addition, the caption monitoring device divides line-by-line subtitle text into which morphemes are provided by subtitle text morpheme analyzing means, to which the line start time based on the subtitle time information generated by the subtitle decoding means is added to the subtitle text generated by the subtitle decoding means. To do. In addition, the caption monitoring device receives broadcast program transmission information by the text comparison means and, when the broadcast program transmission information includes caption information, the line-by-line audio generated by the audio text morphological analysis means for each line. The match rate is calculated by comparing the morpheme and line start time of the text with the morpheme and line start time of the line-by-line subtitle text generated by the caption text morpheme analyzing means, and the calculated match rate is less than or equal to a preset threshold value. Output a warning when the set number of lines are continued. Here, the broadcast program transmission information is created together with the broadcast program and includes subtitle information regarding the genre of the broadcast program and the subtitles of the broadcast program. Therefore, when the broadcast program transmission information does not include caption information, the text comparison means determines that the broadcast program does not display captions, and does not calculate the coincidence rate and output a warning.

また、請求項5に係る字幕監視装置は、請求項4に係る字幕監視装置において、前記音声認識手段が、予め登録された複数の言語モデルから、前記放送番組送出情報に含まれる前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いた音声認識によって前記音声テキストを生成することを特徴とする。   Further, the caption monitoring device according to claim 5 is the caption monitoring device according to claim 4, wherein the voice recognition unit is configured to detect the broadcast program included in the broadcast program transmission information from a plurality of language models registered in advance. A language model corresponding to a genre is selected, and the speech text is generated by speech recognition using the selected language model.

かかる構成によれば、字幕監視装置は、放送番組のジャンルに対応した言語モデルを用いるので、音声認識の精度を向上させることができる。   According to such a configuration, the caption monitoring device uses the language model corresponding to the genre of the broadcast program, so that the accuracy of voice recognition can be improved.

また、請求項6に係る字幕監視装置は、請求項5に係る字幕監視装置において、前記テキスト比較手段が、前記放送番組送出情報に含まれる前記放送番組のジャンル毎に前記行数が設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする。   The subtitle monitoring apparatus according to claim 6 is the subtitle monitoring apparatus according to claim 5, wherein the text comparison unit sets the number of lines for each genre of the broadcast program included in the broadcast program transmission information. A warning is output when the calculated coincidence rate is equal to or less than the threshold value and continues for the number of lines set for each genre of the broadcast program.

かかる構成によれば、字幕監視装置は、放送番組のジャンル毎に警告を出力する行数を異なる値とすることができる。   According to this configuration, the caption monitoring device can set different numbers of lines for outputting warnings for each genre of broadcast program.

また、前記した課題を解決するため、請求項7に係る字幕監視プログラムは、放送されている放送番組の内容に字幕が対応していることを、放送番組に対応する電子番組表情報を用いて監視するために、コンピュータを、放送番組受信手段、音声認識手段、音声テキスト形態素解析手段、字幕復号手段、字幕テキスト形態素解析手段、テキスト比較手段、として機能させることとした。   In order to solve the above-mentioned problem, the caption monitoring program according to claim 7 uses the electronic program guide information corresponding to the broadcast program to indicate that the caption corresponds to the content of the broadcast program being broadcast. In order to monitor, the computer is caused to function as broadcast program receiving means, speech recognition means, speech text morpheme analysis means, caption decoding means, caption text morpheme analysis means, and text comparison means.

また、前記した課題を解決するため、請求項8に係る字幕監視プログラムは、録画された放送番組の内容に字幕が対応していることを、放送番組に対応する放送番組送出情報を用いて監視するために、コンピュータを、音声信号分離手段、放送番組受信手段、音声認識手段、音声テキスト形態素解析手段、字幕復号手段、字幕テキスト形態素解析手段、テキスト比較手段、として機能させることとした。   In order to solve the above-described problem, the caption monitoring program according to claim 8 monitors that the caption corresponds to the content of the recorded broadcast program by using broadcast program transmission information corresponding to the broadcast program. Therefore, the computer is caused to function as an audio signal separating unit, a broadcast program receiving unit, an audio recognition unit, an audio text morpheme analyzing unit, a caption decoding unit, a caption text morpheme analyzing unit, and a text comparing unit.

本発明に係る字幕監視装置及びそのプログラムによれば、以下のような優れた効果を奏する。請求項1,7に係る発明は、電子番組表情報に含まれる字幕情報を用いて、現在放送されている放送番組の音声と字幕の内容の一致率を算出し、この一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。このため、請求項1,7に係る発明によれば、リアルタイムで、字幕の有無だけでなく、放送番組の内容に字幕が対応することを、人手をかけずに監視することができる。   According to the caption monitoring device and the program thereof according to the present invention, the following excellent effects can be obtained. The inventions according to claims 1 and 7 use the caption information included in the electronic program guide information to calculate the coincidence ratio between the audio of the broadcast program currently being broadcast and the content of the caption, and this coincidence ratio is preset. A warning is output when a predetermined number of lines or more continue below the threshold. Therefore, according to the first and seventh aspects of the present invention, it is possible to monitor not only the presence / absence of captions but also the correspondence of captions to the contents of broadcast programs in real time without human intervention.

また、請求項4,8に係る発明は、放送番組送出情報に含まれる字幕情報を用いて、ビデオテープ又はサーバのHDD等の記録媒体に録画された放送番組の音声と字幕の一致率を算出し、この一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力する。このため、請求項4,8に係る発明によれば、放送番組の放送前に、字幕の有無だけでなく、放送番組の内容に字幕が対応することを、人手をかけずに監視することができる。   According to the fourth and eighth aspects of the present invention, the subtitle information included in the broadcast program transmission information is used to calculate the coincidence ratio between the audio and subtitles of the broadcast program recorded on a recording medium such as a video tape or a server HDD. Then, a warning is output when the coincidence rate is equal to or less than a preset threshold and continues for a preset number of rows. Therefore, according to the inventions according to claims 4 and 8, before broadcasting a broadcast program, it is possible to monitor not only the presence / absence of subtitles but also the correspondence of subtitles to the contents of the broadcast program without manpower. it can.

また、請求項2,5に係る発明によれば、音声認識の精度が向上するので音声テキストを正確に生成でき、字幕監視装置の監視精度を向上させることができる。さらに、請求項3,6に係る発明によれば、放送番組のジャンル毎の固有名詞等が音声認識されにくい場合であっても、警告を出力する行数を調整して警告が出力され続けるといった事態を防止できるため、字幕監視装置の監視精度を向上させることができる。   According to the inventions according to claims 2 and 5, since the accuracy of speech recognition is improved, speech text can be generated accurately, and the monitoring accuracy of the caption monitoring device can be improved. Further, according to the third and sixth aspects of the invention, even when proper nouns or the like for each broadcast program genre are difficult to recognize by voice, the warning is continuously output by adjusting the number of lines for outputting the warning. Since the situation can be prevented, the monitoring accuracy of the caption monitoring device can be improved.

以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段及び同一の部材には同一の符号を付し、説明を省略した。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings as appropriate. In each embodiment, means having the same function and the same member are denoted by the same reference numerals, and description thereof is omitted.

(第1実施形態)
[字幕監視装置の構成]
図1を参照して、字幕監視装置の構成について説明する。図1は、本発明の第1実施形態に係る字幕監視装置のブロック図である。字幕監視装置1は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)及びHDD(Hard Disk Drive)から構成される。また、字幕監視装置1は、放送されている放送番組の内容に字幕が対応していることを、人手をかけずに監視する機能を実現するために、放送番組受信手段10と、音声認識手段20と、音声テキスト形態素解析手段30と、字幕復号手段40と、字幕テキスト形態素解析手段50と、テキスト比較手段60と、を備える。
(First embodiment)
[Configuration of caption monitoring device]
With reference to FIG. 1, the configuration of the caption monitoring device will be described. FIG. 1 is a block diagram of a caption monitoring device according to the first embodiment of the present invention. The caption monitoring device 1 includes, for example, a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and an HDD (Hard Disk Drive). Also, the caption monitoring device 1 includes a broadcast program receiving unit 10 and a voice recognition unit in order to realize a function of monitoring that the subtitles correspond to the contents of the broadcast program being broadcast without manpower. 20, a speech text morpheme analysis unit 30, a caption decoding unit 40, a caption text morpheme analysis unit 50, and a text comparison unit 60.

放送番組受信手段10は、放送番組信号を受信すると共に、放送番組信号から音声信号と字幕信号と電子番組表情報とを分離させるものである。ここで、放送番組受信手段10は、この放送番組信号から映像のベースバンド信号、音声のベースバンド信号(音声信号)、字幕信号及び電子番組表情報を復号し、電子番組表情報から放送番組の字幕情報やジャンルを取得する。例えば、放送番組受信手段10は、地上デジタル放送用チューナやこの機能を備える拡張ボードで実現できる。また、放送番組受信手段10は、音声信号、字幕情報及びジャンルを音声認識手段20に出力し、字幕情報及び字幕信号を字幕復号手段40に出力し、字幕情報をテキスト比較手段60に出力する。なお、放送番組受信手段10は、電子番組表情報に字幕情報が含まれない場合には、字幕情報を音声認識手段20、字幕復号手段40及びテキスト比較手段60に出力せずとも良い。   The broadcast program receiving means 10 receives a broadcast program signal and separates an audio signal, a caption signal, and electronic program guide information from the broadcast program signal. Here, the broadcast program receiving means 10 decodes the video baseband signal, the audio baseband signal (audio signal), the subtitle signal, and the electronic program guide information from the broadcast program signal, and the broadcast program signal from the electronic program guide information. Get subtitle information and genre. For example, the broadcast program receiving means 10 can be realized by a terrestrial digital broadcast tuner or an expansion board having this function. The broadcast program receiving unit 10 outputs the audio signal, subtitle information, and genre to the audio recognition unit 20, outputs the subtitle information and subtitle signal to the subtitle decoding unit 40, and outputs the subtitle information to the text comparison unit 60. The broadcast program receiving means 10 may not output the caption information to the speech recognition means 20, the caption decoding means 40, and the text comparison means 60 if the electronic program guide information does not include caption information.

音声認識手段20は、放送番組受信手段10が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成するものである。ここで、音声認識手段20は、この開始時間と時間長から、不連続部分で音声テキストの行区切りが分かる。また、この不連続部分は、発話の区切りとなるもので、音声信号における発話無音部分を検出すれば分かる。例えば、音声時間情報は、コンピュータが内蔵する時計を用いて生成し、放送番組の開示時間を0時0分0秒として、音声テキストの相対的な開始時間を求めて生成する。また、音声認識手段20は、この音声テキスト及び音声時間情報を音声テキスト形態素解析手段30に出力する。なお、音声認識手段20は、放送番組受信手段10から字幕情報が出力されない場合、音声テキストや音声時間情報を生成しなくとも良い。   The voice recognition means 20 recognizes the voice signal separated by the broadcast program receiving means 10 to generate voice text, and also the relative start time of the voice text from the start time of the broadcast program and the time length of the voice text. Is generated. Here, the speech recognizing means 20 knows the line break of the speech text at the discontinuous portion from the start time and the time length. Further, this discontinuous portion is a utterance break, and can be understood by detecting a silent portion of a speech signal. For example, the voice time information is generated by using a clock built in the computer, and a broadcast program disclosure time is set to 0: 0: 0, and a relative start time of the voice text is obtained. The speech recognition unit 20 outputs the speech text and the speech time information to the speech text morpheme analysis unit 30. Note that the speech recognition unit 20 does not have to generate speech text or speech time information when caption information is not output from the broadcast program reception unit 10.

ここで、報道番組、スポーツ番組、バラエティー番組等の放送番組のジャンル毎で様々な固有名詞が用いられるが、登場人物名や地名等の固有名詞や方言は、音声認識が難しい。このため、音声認識の精度を向上させるため、報道番組用言語モデル、バラエティー番組用言語モデル、スポーツ番組用言語モデル等の放送番組のジャンル毎に言語モデル(辞書データベース)をHMM(Hidden Markov Model)、N−Gram等の統計学的手法によって作成し、図示しない記憶手段に予め記憶(登録)させても良い。そして、音声認識手段20は、放送番組受信手段10が出力した放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出して選択する。さらに、音声認識手段20は、選択した言語モデルを用いた音声認識によって音声テキストを生成する。   Here, various proper nouns are used for each genre of broadcast programs such as news programs, sports programs, variety programs, etc., but proper nouns and dialects such as characters and place names are difficult to recognize. For this reason, in order to improve the accuracy of speech recognition, a language model (dictionary database) is set for each broadcast program genre such as a language model for news programs, a language model for variety programs, a language model for sports programs, etc. , N-Gram and other statistical methods may be used and stored (registered) in advance in storage means (not shown). Then, the voice recognition unit 20 reads and selects a language model corresponding to the genre of the broadcast program output from the broadcast program reception unit 10 from a plurality of language models stored in the storage unit. Furthermore, the speech recognition means 20 generates speech text by speech recognition using the selected language model.

ここで、前記した記憶手段は、例えば、HDDであり、音声認識手段20が用いる複数の言語モデルの他、後記するテキスト比較手段60が用いる予め設定した閾値、所定行数及び所定時間を記憶するものである。   Here, the storage means described above is, for example, an HDD, and stores, in addition to a plurality of language models used by the speech recognition means 20, a preset threshold value, a predetermined number of lines, and a predetermined time used by the text comparison means 60 described later. Is.

音声テキスト形態素解析手段30は、音声認識手段20が生成した音声テキストに行開始時間が付与された行単位音声テキストを形態素に分割するものである。ここでは、音声テキスト形態素解析手段30は、行単位音声テキストをHMM等の統計学的手法によって形態素解析して複数の形態素に分割する。また、音声テキスト形態素解析手段30は、この行単位音声テキストをテキスト比較手段60に出力する。   The speech text morpheme analyzing unit 30 divides the line unit speech text in which the line start time is given to the speech text generated by the speech recognition unit 20 into morphemes. Here, the speech text morpheme analyzing means 30 divides a line unit speech text into a plurality of morphemes by performing a morphological analysis by a statistical method such as HMM. Further, the speech text morpheme analyzing unit 30 outputs the line unit speech text to the text comparing unit 60.

字幕復号手段40は、放送番組受信手段10が分離させた字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成するものである。例えば、字幕時間情報は、コンピュータが内蔵する時計から生成でき、字幕情報に含まれる字幕テキストの行区切りの開始部分に、放送番組の開始時間からの相対時間を付与して生成する。また、字幕復号手段40は、NAB形式やARIB形式で符号化された字幕信号を復号して、生成した字幕テキスト及び字幕時間情報を字幕テキスト形態素解析手段50に出力する。なお、字幕復号手段40は、放送番組受信手段10から字幕情報が出力されない場合、字幕テキストや字幕時間情報を生成しなくとも良い。   The subtitle decoding means 40 decodes the subtitle signal separated by the broadcast program receiving means 10 to generate subtitle text and generates subtitle time information indicating the relative start time for each line break of the subtitle text. is there. For example, the caption time information can be generated from a clock built in the computer, and is generated by adding a relative time from the start time of the broadcast program to the start portion of the line break of the caption text included in the caption information. Also, the caption decoding means 40 decodes the caption signal encoded in the NAB format or ARIB format, and outputs the generated caption text and caption time information to the caption text morpheme analyzing means 50. Note that the caption decoding means 40 may not generate the caption text and the caption time information when the caption information is not output from the broadcast program receiving means 10.

字幕テキスト形態素解析手段50は、字幕復号手段40が生成した字幕テキストに行開始時間が付与された行単位字幕テキストを形態素に分割するものである。ここでは、字幕テキスト形態素解析手段50は、行単位字幕テキストをHMM等の統計学的手法によって形態素解析して複数の形態素に分割する。また、字幕テキスト形態素解析手段50は、生成した行単位字幕テキストをテキスト比較手段60に出力する。   The subtitle text morpheme analyzing unit 50 divides the line unit subtitle text in which the line start time is added to the subtitle text generated by the subtitle decoding unit 40 into morphemes. Here, the caption text morpheme analyzing means 50 divides the line unit caption text into a plurality of morphemes by performing morphological analysis by a statistical method such as HMM. The subtitle text morpheme analyzing unit 50 outputs the generated line unit subtitle text to the text comparing unit 60.

テキスト比較手段60は、放送番組受信手段10が分離させた電子番組表情報に字幕情報が含まれる場合には、行単位で、音声テキスト形態素解析手段30が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段40が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するものである。   When the electronic program guide information separated by the broadcast program receiving means 10 includes subtitle information, the text comparison means 60 morphemes and lines of the line-by-line speech text generated by the speech text morphological analysis means 30 in line units. The match rate is calculated by comparing the start time with the morpheme of the line-by-line subtitle text generated by the caption text morpheme analysis means 40 and the line start time, and the calculated match rate is equal to or less than a preset threshold value. A warning is output when several or more consecutive.

このとき、画面表示の妨げとならないように、放送番組内のアナウンサや俳優の音声を要約した字幕を表示することも多く、1行だけで比較した場合、音声テキストと字幕テキストの内容が全く一致しない場合も考えられる。このため、5行以上連続して上記の一致率が0となった場合に、警告を出力しても良い。さらに、テキスト比較手段60は、報道番組、スポーツ番組、バラエティー番組等の放送番組のジャンル毎に警告を出力する行数を設定し、算出した一致率が閾値以下で、この行数以上連続したときに警告を出力しても良い。なお、この行数は、5行に限定されず、1行以上であれば良い。   At this time, subtitles that summarize the voices of announcers and actors in broadcast programs are often displayed so that the screen display is not hindered. If only one line is compared, the contents of the audio text and subtitle text are exactly the same. If not, it can be considered. For this reason, a warning may be output when the coincidence rate becomes 0 continuously for five or more lines. Further, the text comparison means 60 sets the number of lines to output a warning for each genre of broadcast programs such as news programs, sports programs, variety programs, etc., and the calculated coincidence rate is equal to or less than a threshold value and when the number of lines continues for this number of lines. A warning may be output. Note that the number of rows is not limited to five, and may be one or more.

また、行単位音声テキストの行開始時間と行単位字幕テキストの行開始時間が完全に一致することは少ないので、テキスト比較手段60は、これら行開始時間が完全に一致する場合に加え、行単位字幕テキストの行開始時間から所定時間範囲以内(例えば、2秒以内)に行単位音声テキストの行開始時間が含まれれば、同一行であると判断しても良い。なお、テキスト比較手段60は、この一致率が閾値以下の場合に限られず、この一致率が閾値以上、閾値未満又は閾値を超える場合に警告を出力しても良い。   In addition, since the line start time of the line unit audio text and the line start time of the line unit subtitle text rarely coincide with each other, the text comparison unit 60 adds the line start time to the line unit time. If the line start time of the line unit audio text is included within a predetermined time range (for example, within 2 seconds) from the line start time of the caption text, it may be determined that the lines are the same. The text comparison unit 60 is not limited to the case where the matching rate is equal to or lower than the threshold value, and may output a warning when the matching rate is equal to or higher than the threshold value, less than the threshold value, or higher than the threshold value.

また、テキスト比較手段60は、警告や比較結果を画面表示するディスプレイ装置、警告音を鳴らすアラーム、又は、警告メールを生成し、予め登録された者にその警告メールを送信する電子メールサーバを備えても良い。ここで、図1のテキスト比較手段60は、上記の警告や比較結果を表示可能なディスプレイ装置を備えることとした。以下、図2を参照して、テキスト比較手段60での形態素の比較や比較結果の表示について説明する(適宜図1参照)。   Further, the text comparison means 60 includes a display device that displays a warning and a comparison result on the screen, an alarm that sounds a warning sound, or an e-mail server that generates a warning mail and transmits the warning mail to a pre-registered person. May be. Here, the text comparison means 60 of FIG. 1 is provided with a display device capable of displaying the warning and the comparison result. Hereinafter, referring to FIG. 2, morpheme comparison and comparison result display in the text comparison unit 60 will be described (see FIG. 1 as appropriate).

図2は、図1の字幕監視装置の比較結果の画面表示例である。図2に示すように、テキスト比較手段60は、放送番組情報表示領域61と、放送番組表示領域62と、データ比較表示領域63と、を分けて表示する。テキスト比較手段60は、電子番組表情報を放送番組受信手段10から取得し、放送番組情報表示領域61に、電子番組表情報に含まれる放送チャネル、番組名、副題、放送開始時間、放送終了時間、イベントID、字幕の有無(字幕情報の有無)及び放送番組のジャンルを表示しても良い。また、テキスト比較手段60は、放送番組信号を放送番組受信手段10から取得し、放送番組表示領域62に放送番組とその字幕を表示しても良い。なお、この放送番組では、ヨットの映像と共に、12時00分25秒に「今日は、いい風が吹いています。」という字幕が表示され(第1行目)、12時00分45秒に「絶好のヨット日よりです。」という字幕が表示される(第2行目)。   FIG. 2 is a screen display example of the comparison result of the caption monitoring device of FIG. As shown in FIG. 2, the text comparison means 60 displays a broadcast program information display area 61, a broadcast program display area 62, and a data comparison display area 63 separately. The text comparison means 60 acquires the electronic program guide information from the broadcast program receiving means 10, and the broadcast program information display area 61 displays the broadcast channel, program name, subtitle, broadcast start time, broadcast end time included in the electronic program guide information. , Event ID, presence / absence of captions (presence / absence of caption information), and broadcast program genre may be displayed. The text comparison means 60 may acquire the broadcast program signal from the broadcast program reception means 10 and display the broadcast program and its subtitles in the broadcast program display area 62. In this broadcast program, along with the yacht video, the subtitle “Today, the wind is blowing” is displayed at 12:00:25 (1st line), and at 12:00:45 The subtitle "It's a great yacht day" is displayed (second line).

また、データ比較表示領域63には、左側から順に、時刻と、字幕データ(行単位字幕テキスト)と、音声認識結果(行単位音声テキスト)と、適合と、を比較結果として表示する。ここで、上記の時刻として、行単位字幕テキストの行開始時間を表示する。また、上記の適合には、前記した一致率が閾値(例えば、0)を越える場合には「OK」を、一致率が閾値以下の場合には「NG」を表示する。さらに、データ比較表示領域63には、複数行の比較結果を時系列順にソートして表示しても良く、この場合、テキスト比較手段60は、放送番組表示領域62で表示する放送番組の時間情報(タイムコード)に、データ比較表示領域63の最上段に表示する比較結果の時刻を同期させても良い。   Further, in the data comparison display area 63, the time, the caption data (line unit caption text), the speech recognition result (line unit speech text), and the match are displayed as comparison results in order from the left side. Here, the line start time of the line-by-line subtitle text is displayed as the above time. For the above-mentioned adaptation, “OK” is displayed when the matching rate exceeds a threshold (for example, 0), and “NG” is displayed when the matching rate is equal to or less than the threshold. Furthermore, in the data comparison display area 63, the comparison results of a plurality of lines may be sorted and displayed in chronological order. In this case, the text comparison means 60 displays the time information of the broadcast program displayed in the broadcast program display area 62. (Time code) may be synchronized with the time of the comparison result displayed at the top of the data comparison display area 63.

例えば、テキスト比較手段60は、行単位音声テキスト又は行単位字幕テキストの全形態素数に対して、一致する形態素数の比を一致率として算出する。まず、テキスト比較手段60は、第1行目の「今日は、|いい風が|ふいています。」という行単位字幕テキストと、「京都|いい風|拭いています。」という行単位音声テキストについて、各形態素が一致するか否かを比較する(なお、「|」は形態素の区切りを示す)。ここで、行単位字幕テキストと行単位音声テキストの行開始時間は略等しいものとする。上記のように、「今日は」と「京都」は一致せず、「いい風が」と「いい風」は一致せず、「ふいています。」と「拭いています。」も一致しない。このように、全形態素が一致しないことから、テキスト比較手段60は、これらの一致率を0として算出し、この一致率が閾値(例えば、0)以下であることから、これらが一致しないと判断して「NG」を表示する。もし、ここで、この一致率が閾値以下で警告を出力する行数(例えば、5行)以上連続した場合、テキスト比較手段60は、警告を出力する。なお、テキスト比較手段60は、比較する各行の形態素が所定数(例えば、2個)以上一致する場合、これらの行が一致すると判断しても良い。   For example, the text comparison unit 60 calculates the ratio of the number of matching morphemes as the matching rate with respect to the total number of morphemes of the line unit speech text or the line unit caption text. First, the text comparison means 60 uses a line-by-line subtitle text “Today is a good wind | I am blowing” on the first line and a line-by-line speech text “Kyoto | Are compared with each other (“|” indicates a morpheme break). Here, it is assumed that the line start times of the line unit subtitle text and the line unit audio text are substantially equal. As mentioned above, “Today” and “Kyoto” do not match, “Good wind” and “Good wind” do not match, and “Wow” and “Wipe” do not match. As described above, since all morphemes do not match, the text comparison unit 60 calculates these matching rates as 0, and determines that they do not match because the matching rate is equal to or less than a threshold value (for example, 0). To display “NG”. If the matching rate is equal to or lower than the threshold value and the number of lines (for example, 5 lines) for which a warning is output continues for a number of times, the text comparison unit 60 outputs a warning. Note that the text comparison unit 60 may determine that these lines match if the morphemes of each line to be compared match a predetermined number (for example, two) or more.

次に、テキスト比較手段60は、第2行目の「絶好の|ヨット|日よりです。」という行単位字幕テキストと、「絶好の|ヨット|美より」という行単位音声テキストについて、各形態素が一致するか否かを比較する。ここで、「絶好の」及び「ヨット」という形態素が一致し、「日よりです。」と「美より」という形態素が一致しない。従って、3形態素中、2形態素が一致するので、テキスト比較手段60は、これらの一致率を2/3として算出し、一致率が閾値(例えば、0)を超えていることから、これらが一致すると判断して「OK」を表示する。以上のように、字幕監視装置1は、行単位音声テキスト及び行単位字幕テキストに含まれる内容語及び機能語の一致率を算出して比較し、その一致率に応じて警告を出力することができる。なお、字幕監視装置1は、内容語のみの一致率を算出し、又は、機能語を含めた一致率を算出し、その一致率に応じて警告を出力しても良い。   Next, the text comparing means 60 uses each morpheme for the line-by-line subtitle text “Great | Yacht | From the Day” and the line-by-line speech text “Great | Yacht | Compare whether or not. Here, the morphemes “perfect” and “yacht” match, and the morphemes “from day” and “from beauty” do not match. Therefore, since the two morphemes match among the three morphemes, the text comparison unit 60 calculates the match rate as 2/3, and the match rate exceeds a threshold value (for example, 0). Then, “OK” is displayed. As described above, the caption monitoring device 1 can calculate and compare the match rate between the content word and the function word included in the line unit speech text and the line unit caption text, and output a warning according to the match rate. it can. Note that the caption monitoring device 1 may calculate the matching rate of only the content words, or calculate the matching rate including the functional words, and output a warning according to the matching rate.

なお、放送番組で記号が字幕表示される間、例えば、音楽番組で音符マークが字幕表示される間は、音声認識手段20が音声認識することができない。ここで、字幕監視装置1は、音声認識できない記号を記憶手段の設定ファイルに予め登録しておく。そして、テキスト比較手段60は、比較の際、この設定ファイルに登録された記号を読み出し、この記号が行単位字幕テキストに含まれる場合、その行を比較しない。これによって、字幕監視装置1は、比較結果の精度を向上させることができる。   Note that the voice recognition means 20 cannot perform voice recognition while symbols are displayed as subtitles in a broadcast program, for example, while note marks are displayed as subtitles in a music program. Here, the caption monitoring device 1 registers in advance a symbol that cannot be recognized in the voice in the setting file of the storage means. Then, the text comparing means 60 reads the symbol registered in the setting file at the time of comparison, and if this symbol is included in the line unit subtitle text, the line is not compared. Thereby, the caption monitoring device 1 can improve the accuracy of the comparison result.

[字幕監視装置の動作]
図3を参照して、字幕監視装置の動作について説明する(適宜図1参照)。図3は、図1の字幕監視装置の動作を示すフローチャートである。まず、字幕監視装置1は、放送番組受信手段10によって、放送番組信号を受信すると共に、放送番組信号から音声信号と字幕信号と電子番組表情報とを分離させる(ステップS1)。
[Operation of caption monitoring device]
The operation of the caption monitoring device will be described with reference to FIG. 3 (see FIG. 1 as appropriate). FIG. 3 is a flowchart showing the operation of the caption monitoring device of FIG. First, the caption monitoring device 1 receives the broadcast program signal by the broadcast program receiving means 10 and separates the audio signal, the caption signal, and the electronic program guide information from the broadcast program signal (step S1).

ステップS1に続いて、字幕監視装置1は、音声認識手段20によって、放送番組受信手段10が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する(ステップS2)。また、字幕監視装置1は、音声認識手段20によって、放送番組受信手段10が出力した放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出し、選択した言語モデルを用いた音声認識によって音声テキストを生成する。   Subsequent to step S1, the caption monitoring device 1 uses the voice recognition unit 20 to recognize the voice signal separated by the broadcast program receiving unit 10 to generate voice text, and to generate the voice text from the start time of the broadcast program. Voice time information including the relative start time of the voice and the time length of the voice text is generated (step S2). Also, the caption monitoring device 1 reads the language model corresponding to the genre of the broadcast program output from the broadcast program receiving unit 10 by the voice recognition unit 20 from the plurality of language models stored in the storage unit, and selects the selected language model. Speech text is generated by speech recognition using.

ステップS2に続いて、字幕監視装置1は、音声テキスト形態素解析手段30によって、音声認識手段20が生成した音声テキストに行開始時間が付与された行単位音声テキストを形態素に分割する(ステップS3)。   Subsequent to step S2, the caption monitoring device 1 uses the speech text morphological analysis unit 30 to divide the line-unit speech text in which the line start time is added to the speech text generated by the speech recognition unit 20 into morphemes (step S3). .

ステップS3に続いて、字幕監視装置1は、字幕復号手段40によって、放送番組受信手段10が分離させた字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する(ステップS4)。また、字幕監視装置1は、字幕テキスト形態素解析手段50によって、字幕復号手段40が生成した字幕テキストに行開始時間が付与された行単位字幕テキストを形態素に分割する(ステップS5)。   Subsequent to step S3, the subtitle monitoring apparatus 1 generates subtitle text by decoding the subtitle signal separated by the broadcast program receiving unit 10 using the subtitle decoding unit 40, and relative to each line break of the subtitle text. Subtitle time information indicating the start time is generated (step S4). Further, the caption monitoring device 1 divides the line unit caption text in which the line start time is given to the caption text generated by the caption decoding means 40 by the caption text morpheme analyzing means 50 (step S5).

ステップS5に続いて、字幕監視装置1は、テキスト比較手段60によって、放送番組受信手段10が分離させた電子番組表情報に字幕情報が含まれる場合には、行単位で、音声テキスト形態素解析手段30が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段40が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下のときには警告を出力する(ステップS6)。   Subsequent to step S5, when the subtitle information is included in the electronic program guide information separated by the broadcast program receiving unit 10 by the text comparison unit 60, the subtitle monitoring apparatus 1 performs voice text morphological analysis unit on a line basis. 30 compares the morpheme and line start time of the line unit speech text generated by 30 with the morpheme and line start time of the line unit subtitle text generated by the subtitle text morpheme analysis means 40, and calculates the match rate. When is below a preset threshold value, a warning is output (step S6).

(第2実施形態)
[字幕監視装置の構成]
図4を参照して、字幕監視装置の構成について説明する。図4は、本発明の第2実施形態に係る字幕監視装置のブロック図である。字幕監視装置1Bは、ビデオテープ又はサーバのHDD等の記録媒体に録画された放送番組の内容に字幕が対応していることを、人手をかけずに監視する機能を実現するために、音声信号分離手段70と、音声認識手段20Bと、音声テキスト形態素解析手段30と、字幕復号手段40Bと、字幕テキスト形態素解析手段50と、テキスト比較手段60Bと、を備える。
(Second Embodiment)
[Configuration of caption monitoring device]
The configuration of the caption monitoring device will be described with reference to FIG. FIG. 4 is a block diagram of a caption monitoring device according to the second embodiment of the present invention. The caption monitoring device 1B is an audio signal for realizing a function for monitoring that the caption corresponds to the content of a broadcast program recorded on a recording medium such as a video tape or an HDD of a server without human intervention. Separation means 70, speech recognition means 20B, speech text morpheme analysis means 30, subtitle decoding means 40B, caption text morpheme analysis means 50, and text comparison means 60B are provided.

音声信号分離手段70は、放送番組信号を受信すると共に、放送番組信号から音声信号を分離させるものである。ここで、字幕監視装置1Bは、ビデオデッキやサーバと接続できる図示しないインタフェースを備え、音声信号分離手段70は、上記の記録媒体に録画されている放送番組信号を受信する。また、音声信号分離手段70は、この音声信号を音声認識手段20Bに出力する。   The audio signal separating means 70 receives the broadcast program signal and separates the audio signal from the broadcast program signal. Here, the caption monitoring device 1B includes an interface (not shown) that can be connected to a video deck or a server, and the audio signal separation means 70 receives a broadcast program signal recorded on the recording medium. The audio signal separation means 70 outputs this audio signal to the voice recognition means 20B.

音声認識手段20Bは、音声信号分離手段70が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成するものである。ここで、放送番組送出情報は、放送番組と共に上記の記録媒体に録画され、音声認識手段20Bは、上記の記録媒体に録画されている放送番組送出情報を受信し、図1の音声認識手段20と同様に、音声テキスト及び音声時間情報を生成する。なお、音声認識手段20Bは、放送番組送出情報に字幕情報が含まれない場合、放送番組が字幕を表示しないものと判断し、音声テキストや音声時間情報を生成しなくとも良い。   The voice recognition means 20B recognizes the voice signal separated by the voice signal separation means 70 to generate voice text, and also calculates the relative start time of the voice text from the start time of the broadcast program and the time of the voice text. The voice time information including the length is generated. Here, the broadcast program transmission information is recorded on the recording medium together with the broadcast program, and the voice recognition means 20B receives the broadcast program transmission information recorded on the recording medium, and the voice recognition means 20 of FIG. In the same manner as described above, speech text and speech time information are generated. Note that if the broadcast program transmission information does not include caption information, the speech recognition unit 20B determines that the broadcast program does not display captions and does not have to generate speech text or speech time information.

また、図1の音声認識手段20と同様に、放送番組のジャンル毎に言語モデルを作成し、図示しない記憶手段に予め記憶(登録)させても良い。そして、音声認識手段20Bは、放送番組送出情報に含まれる放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出して選択する。さらに、音声認識手段20Bは、選択した言語モデルを用いた音声認識によって音声テキストを生成する。   Further, similarly to the voice recognition unit 20 in FIG. 1, a language model may be created for each broadcast program genre and stored (registered) in advance in a storage unit (not shown). Then, the voice recognition unit 20B reads and selects a language model corresponding to the genre of the broadcast program included in the broadcast program transmission information from the plurality of language models stored in the storage unit. Further, the speech recognition means 20B generates speech text by speech recognition using the selected language model.

字幕復号手段40Bは、字幕信号を受信し、字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成するものである。ここで、字幕復号手段40Bは、上記の記録媒体に録画されている放送番組送出情報を受信し、図1の字幕復号手段40と同様に、字幕テキスト及び字幕時間情報を生成する。なお、字幕復号手段40Bは、放送番組送出情報に字幕情報が含まれない場合、放送番組が字幕を表示しないものと判断し、音声テキストや音声時間情報を生成しなくとも良い。   The subtitle decoding means 40B receives a subtitle signal, decodes the subtitle signal to generate subtitle text, and generates subtitle time information indicating a relative start time for each line break of the subtitle text. Here, the caption decoding means 40B receives the broadcast program transmission information recorded on the recording medium, and generates the caption text and the caption time information in the same manner as the caption decoding means 40 of FIG. Note that, when the broadcast program transmission information does not include the caption information, the caption decoding unit 40B determines that the broadcast program does not display the caption, and does not need to generate the audio text or the audio time information.

テキスト比較手段60Bは、放送番組送出情報を受信すると共に、放送番組送出情報に字幕情報が含まれる場合には、行単位に、音声テキスト形態素解析手段30が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段50が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下のときには警告を出力するものである。ここで、テキスト比較手段60Bは、図1のテキスト比較手段60と同様に、一致率を算出し、比較結果や警告を出力する。   The text comparison unit 60B receives the broadcast program transmission information and, when the broadcast program transmission information includes subtitle information, the morphemes and lines of the line unit speech text generated by the speech text morpheme analysis unit 30 for each line. The coincidence rate is calculated by comparing the start time with the morpheme and line start time of the line-by-line subtitle text generated by the subtitle text morpheme analysis means 50, and a warning is output when the calculated coincidence rate is equal to or less than a preset threshold value. Is. Here, the text comparison means 60B calculates the match rate and outputs a comparison result and a warning, like the text comparison means 60 of FIG.

[字幕監視装置の動作]
図5を参照して、字幕監視装置の動作について説明する(適宜図4参照)。図5は、図4の字幕監視装置の動作を示すフローチャートである。まず、字幕監視装置1Bは、音声信号分離手段70によって、放送番組信号を受信すると共に、放送番組信号から音声信号を分離させる(ステップS11)。
[Operation of caption monitoring device]
The operation of the caption monitoring device will be described with reference to FIG. 5 (see FIG. 4 as appropriate). FIG. 5 is a flowchart showing the operation of the caption monitoring device of FIG. First, the caption monitoring device 1B receives the broadcast program signal by the audio signal separation means 70 and separates the audio signal from the broadcast program signal (step S11).

ステップS11に続いて、字幕監視装置1Bは、音声認識手段20Bによって、音声信号分離手段70が分離させた音声信号を音声認識して音声テキストを生成すると共に、放送番組の開始時間からの音声テキストの相対的な開始時間と音声テキストの時間長とを含む音声時間情報を生成する(ステップS12)。また、字幕監視装置1は、音声認識手段20Bによって、受信した放送番組送出情報に含まれる放送番組のジャンルに対応した言語モデルを、記憶手段に記憶された複数の言語モデルから読み出し、選択した言語モデルを用いた音声認識によって音声テキストを生成する。   Subsequent to step S11, the caption monitoring device 1B recognizes the voice signal separated by the voice signal separation unit 70 by the voice recognition unit 20B to generate voice text, and also uses the voice text from the start time of the broadcast program. The voice time information including the relative start time and the time length of the voice text is generated (step S12). In addition, the caption monitoring device 1 reads out the language model corresponding to the genre of the broadcast program included in the received broadcast program transmission information from the plurality of language models stored in the storage unit by the voice recognition unit 20B, and selects the selected language. Speech text is generated by speech recognition using the model.

ステップS12に続いて、字幕監視装置1Bは、音声テキスト形態素解析手段30によって、音声認識手段20Bが生成した音声テキストに行開始時間が付与された行単位音声テキストを形態素に分割する(ステップS13)。   Subsequent to step S12, the subtitle monitoring apparatus 1B uses the speech text morphological analysis unit 30 to divide the line unit speech text in which the line start time is added to the speech text generated by the speech recognition unit 20B into morphemes (step S13). .

ステップS13に続いて、字幕監視装置1Bは、字幕復号手段40Bによって、字幕信号を受信し、字幕信号を復号して字幕テキストを生成すると共に、字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する(ステップS14)。また、字幕監視装置1Bは、字幕テキスト形態素解析手段50によって、字幕復号手段40Bが生成した字幕テキストに行開始時間が付与された行単位字幕テキストを形態素に分割する(ステップS15)。   Subsequent to step S13, the caption monitoring device 1B receives the caption signal by the caption decoding unit 40B, decodes the caption signal, generates caption text, and sets a relative start time for each line break of the caption text. The subtitle time information shown is generated (step S14). Moreover, the subtitle monitoring apparatus 1B divides the line unit subtitle text in which the line start time is added to the subtitle text generated by the subtitle decoding means 40B by the subtitle text morpheme analyzing means 50 (step S15).

ステップS15に続いて、字幕監視装置1Bは、テキスト比較手段60Bによって、放送番組送出情報を受信すると共に、放送番組送出情報に字幕情報が含まれる場合には、行単位に、音声テキスト形態素解析手段30が生成した行単位音声テキストの形態素及び行開始時間と、字幕テキスト形態素解析手段50が生成した行単位字幕テキストの形態素及び行開始時間とを比較して一致率を算出し、算出した一致率が予め設定した閾値以下のときには警告を出力する(ステップS16)。   Subsequent to step S15, the caption monitoring device 1B receives the broadcast program transmission information by the text comparison unit 60B. When the broadcast program transmission information includes the caption information, the caption monitoring device 1B performs the speech text morphological analysis unit line by line. 30 compares the morpheme and line start time of the line unit speech text generated by 30 with the morpheme and line start time of the line unit subtitle text generated by the subtitle text morpheme analysis means 50 to calculate the match rate, and calculates the match rate When is below a preset threshold value, a warning is output (step S16).

以上のように、本発明に係る字幕監視装置は、現在放送されている放送番組又は予め録画された放送番組の内容に、字幕が対応していることを、人手をかけずに監視することができる。なお、各実施形態では、本発明に係る字幕監視装置を独立した装置として説明したが、本発明に係る字幕監視装置を放送番組送信装置に組み込んでも良く、一般的なコンピュータを、前記した各手段として機能させるプログラムによって動作させることもできる。このプログラムは、通信回線を介して配布しても良く、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。   As described above, the subtitle monitoring apparatus according to the present invention can monitor that the subtitles correspond to the contents of the currently broadcast program or the pre-recorded broadcast program without manpower. it can. In each embodiment, the caption monitoring device according to the present invention has been described as an independent device. However, the caption monitoring device according to the present invention may be incorporated in a broadcast program transmission device, and a general computer may be configured as the above-described means. It can also be operated by a program that functions as: This program may be distributed via a communication line, or may be distributed by writing in a recording medium such as a CD-ROM or a flash memory.

本発明の第1実施形態に係る字幕監視装置のブロック図である。1 is a block diagram of a caption monitoring device according to a first embodiment of the present invention. 図1の字幕監視装置の比較結果の画面表示例である。It is a screen display example of the comparison result of the caption monitoring device of FIG. 図1の字幕監視装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the caption monitoring apparatus of FIG. 本発明の第2実施形態に係る字幕監視装置のブロック図である。It is a block diagram of the caption monitoring device concerning a 2nd embodiment of the present invention. 図4の字幕監視装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the caption monitoring apparatus of FIG.

符号の説明Explanation of symbols

1,1B 字幕監視装置
10 放送番組受信手段
20,20B 音声認識手段
30 音声テキスト形態素解析手段
40,40B 字幕復号手段
50 字幕テキスト形態素解析手段
60,60B テキスト比較手段
70 音声信号分離手段
1,1B Subtitle monitoring apparatus 10 Broadcast program receiving means 20, 20B Speech recognition means 30 Speech text morpheme analysis means 40, 40B Subtitle decoding means 50 Subtitle text morpheme analysis means 60, 60B Text comparison means 70 Audio signal separation means

Claims (8)

放送されている放送番組の内容に字幕が対応していることを、前記放送番組に対応する電子番組表情報を用いて監視する字幕監視装置であって、
放送番組信号を受信すると共に、当該放送番組信号から音声信号と字幕信号と前記電子番組表情報とを分離させる放送番組受信手段と、
前記放送番組受信手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段と、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段と、
前記放送番組受信手段が分離させた前記字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段と、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段と、
前記放送番組受信手段が分離させた前記電子番組表情報に字幕情報が含まれる場合には、行単位で、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段と、
を備えることを特徴とする字幕監視装置。
A subtitle monitoring apparatus that monitors, using electronic program guide information corresponding to the broadcast program, that the subtitle corresponds to the content of the broadcast program being broadcast,
A broadcast program receiving means for receiving a broadcast program signal and separating the audio signal, the caption signal and the electronic program guide information from the broadcast program signal;
The speech signal separated by the broadcast program receiving means is recognized by speech to generate speech text, and the relative start time of the speech text from the start time of the broadcast program and the time length of the speech text Voice recognition means for generating voice time information including;
A speech text morpheme analysis unit that divides a line unit speech text in which a line start time is given based on the speech time information generated by the speech recognition unit to the text generated by the speech recognition unit;
Subtitle decoding means for decoding the subtitle signal separated by the broadcast program receiving means to generate subtitle text and generating subtitle time information indicating a relative start time for each line break of the subtitle text;
Subtitle text morpheme analyzing means for dividing the subtitle text generated by the subtitle decoding means into morphemes, the line unit subtitle text provided with the line start time based on the subtitle time information generated by the subtitle decoding means;
When subtitle information is included in the electronic program guide information separated by the broadcast program receiving means, the morpheme and the line start time of the line-by-line speech text generated by the speech text morpheme analyzing means in line units And the morpheme of the line unit subtitle text generated by the subtitle text morpheme analyzing means and the line start time are calculated to calculate a match rate, and the calculated match rate is preset below a preset threshold value. Text comparison means that outputs a warning when the number of consecutive lines exceeds,
A subtitle monitoring apparatus comprising:
前記放送番組受信手段は、前記電子番組表情報から前記放送番組のジャンルを取得し、
前記音声認識手段は、予め登録された複数の言語モデルから、前記放送番組受信手段が取得した前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いて、前記音声信号を音声認識して前記音声テキストを生成することを特徴とする請求項1に記載の字幕監視装置。
The broadcast program receiving means acquires a genre of the broadcast program from the electronic program guide information,
The voice recognition means selects a language model corresponding to the genre of the broadcast program acquired by the broadcast program reception means from a plurality of language models registered in advance, and uses the selected language model to select the voice model. The caption monitoring apparatus according to claim 1, wherein the speech text is generated by recognizing a signal.
前記テキスト比較手段は、前記電子番組表情報に含まれる前記放送番組のジャンル毎に前記行数を設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする請求項2に記載の字幕監視装置。   The text comparison means sets the number of lines for each genre of the broadcast program included in the electronic program guide information, and sets the line number set for each genre of the broadcast program with the calculated matching rate being equal to or less than the threshold. The subtitle monitoring apparatus according to claim 2, wherein a warning is output when the number continues for a number of times. 録画された放送番組の内容に字幕が対応していることを、前記放送番組に対応する放送番組送出情報を用いて監視する字幕監視装置であって、
放送番組信号を受信すると共に、当該放送番組信号から音声信号を分離させる音声信号分離手段と、
前記音声信号分離手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段と、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段と、
字幕信号を受信し、当該字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段と、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段と、
前記放送番組送出情報を受信すると共に、当該放送番組送出情報に字幕情報が含まれる場合には、行単位に、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段と、
を備えることを特徴とする字幕監視装置。
A subtitle monitoring device that monitors, using broadcast program transmission information corresponding to the broadcast program, that the subtitle corresponds to the content of the recorded broadcast program,
Audio signal separating means for receiving a broadcast program signal and separating an audio signal from the broadcast program signal;
The speech signal separated by the speech signal separation means is recognized by speech to generate speech text, and the relative start time of the speech text from the start time of the broadcast program and the time length of the speech text Voice recognition means for generating voice time information including;
A speech text morpheme analysis unit that divides a line unit speech text in which a line start time is given based on the speech time information generated by the speech recognition unit to the text generated by the speech recognition unit;
Subtitle decoding means for receiving a subtitle signal, decoding the subtitle signal to generate subtitle text, and generating subtitle time information indicating a relative start time for each line break of the subtitle text;
Subtitle text morpheme analyzing means for dividing the subtitle text generated by the subtitle decoding means into morphemes, the line unit subtitle text provided with the line start time based on the subtitle time information generated by the subtitle decoding means;
When the broadcast program transmission information is received and subtitle information is included in the broadcast program transmission information, the morpheme and the line start of the line unit speech text generated by the speech text morpheme analysis unit are generated in units of lines. The matching rate is calculated by comparing the time with the morpheme and the line start time of the line-by-line subtitle text generated by the caption text morpheme analysis means, and the calculated matching rate is preset below a preset threshold value A text comparison means for outputting a warning when the number of consecutive lines is exceeded,
A subtitle monitoring apparatus comprising:
前記音声認識手段は、予め登録された複数の言語モデルから、前記放送番組送出情報に含まれる前記放送番組のジャンルに対応した言語モデルを選択すると共に、選択した前記言語モデルを用いて、前記音声信号を音声認識して前記音声テキストを生成することを特徴とする請求項4に記載の字幕監視装置。   The voice recognition means selects a language model corresponding to a genre of the broadcast program included in the broadcast program transmission information from a plurality of language models registered in advance, and uses the selected language model to select the voice model. The caption monitoring device according to claim 4, wherein the speech text is generated by recognizing a signal. 前記テキスト比較手段は、前記放送番組送出情報に含まれる前記放送番組のジャンル毎に前記行数を設定すると共に、前記算出した一致率が前記閾値以下で、前記放送番組のジャンル毎に設定した行数以上連続したときに警告を出力することを特徴とする請求項5に記載の字幕監視装置。   The text comparison means sets the number of lines for each genre of the broadcast program included in the broadcast program transmission information, and sets the line number set for each genre of the broadcast program with the calculated matching rate equal to or less than the threshold. The subtitle monitoring apparatus according to claim 5, wherein a warning is output when the number continues for a number of times. 放送されている放送番組の内容に字幕が対応していることを、前記放送番組に対応する電子番組表情報を用いて監視するために、コンピュータを、
放送番組信号を受信すると共に、当該放送番組信号から音声信号と字幕信号と前記電子番組表情報とを分離させる放送番組受信手段、
前記放送番組受信手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段、
前記放送番組受信手段が分離させた前記字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段、
前記放送番組受信手段が分離させた前記電子番組表情報に字幕情報が含まれる場合には、行単位で、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段、
として機能させることを特徴とする字幕監視プログラム。
In order to monitor that the subtitles correspond to the content of the broadcast program being broadcast using the electronic program guide information corresponding to the broadcast program,
A broadcast program receiving means for receiving the broadcast program signal and separating the audio signal, the subtitle signal and the electronic program guide information from the broadcast program signal;
The speech signal separated by the broadcast program receiving means is recognized by speech to generate speech text, and the relative start time of the speech text from the start time of the broadcast program and the time length of the speech text Voice recognition means for generating voice time information including,
A speech text morpheme analysis unit that divides a line unit speech text in which a line start time is given based on the speech time information generated by the speech recognition unit into the text generated by the speech recognition unit;
Subtitle decoding means for generating subtitle text by decoding the subtitle signal separated by the broadcast program receiving means, and generating subtitle time information indicating a relative start time for each line break of the subtitle text;
Subtitle text morpheme analysis means for dividing the line-by-line subtitle text in which the line start time is given based on the subtitle time information generated by the subtitle decoding means to the subtitle text generated by the subtitle decoding means;
When subtitle information is included in the electronic program guide information separated by the broadcast program receiving means, the morpheme and the line start time of the line-by-line speech text generated by the speech text morpheme analyzing means in line units And the morpheme of the line unit subtitle text generated by the subtitle text morpheme analyzing means and the line start time are calculated to calculate a match rate, and the calculated match rate is preset below a preset threshold value. Text comparison means to output a warning when the number of consecutive lines exceeds
A subtitle monitoring program characterized by functioning as
録画された放送番組の内容に字幕が対応していることを、前記放送番組に対応する放送番組送出情報を用いて監視するために、コンピュータを、
放送番組信号を受信すると共に、当該放送番組信号から音声信号を分離させる音声信号分離手段、
前記音声信号分離手段が分離させた前記音声信号を音声認識して音声テキストを生成すると共に、前記放送番組の開始時間からの前記音声テキストの相対的な開始時間と前記音声テキストの時間長とを含む音声時間情報を生成する音声認識手段、
前記音声認識手段が生成した前記テキストに前記音声認識手段が生成した前記音声時間情報に基づいた行開始時間が付与された行単位音声テキストを、形態素に分割する音声テキスト形態素解析手段、
字幕信号を受信し、当該字幕信号を復号して字幕テキストを生成すると共に、前記字幕テキストの行区切り毎の相対的な開始時間を示す字幕時間情報を生成する字幕復号手段、
前記字幕復号手段が生成した前記字幕テキストに前記字幕復号手段が生成した前記字幕時間情報に基づいた行開始時間が付与された行単位字幕テキストを、形態素に分割する字幕テキスト形態素解析手段、
前記放送番組送出情報を受信すると共に、当該放送番組送出情報に字幕情報が含まれる場合には、行単位に、前記音声テキスト形態素解析手段が生成した前記行単位音声テキストの前記形態素及び前記行開始時間と、前記字幕テキスト形態素解析手段が生成した前記行単位字幕テキストの前記形態素及び前記行開始時間とを比較して一致率を算出し、算出した前記一致率が予め設定した閾値以下で予め設定された行数以上連続したときに警告を出力するテキスト比較手段、
として機能させることを特徴とする字幕監視プログラム。
In order to monitor that the subtitles correspond to the contents of the recorded broadcast program using the broadcast program transmission information corresponding to the broadcast program,
An audio signal separating means for receiving the broadcast program signal and separating the audio signal from the broadcast program signal;
The speech signal separated by the speech signal separation means is recognized by speech to generate speech text, and the relative start time of the speech text from the start time of the broadcast program and the time length of the speech text Voice recognition means for generating voice time information including,
A speech text morpheme analysis unit that divides a line unit speech text in which a line start time is given based on the speech time information generated by the speech recognition unit into the text generated by the speech recognition unit;
Subtitle decoding means for receiving a subtitle signal, decoding the subtitle signal to generate subtitle text, and generating subtitle time information indicating a relative start time for each line break of the subtitle text;
Subtitle text morpheme analysis means for dividing the line-by-line subtitle text in which the line start time is given based on the subtitle time information generated by the subtitle decoding means to the subtitle text generated by the subtitle decoding means;
When the broadcast program transmission information is received and subtitle information is included in the broadcast program transmission information, the morpheme and the line start of the line unit speech text generated by the speech text morpheme analysis unit are generated in units of lines. The matching rate is calculated by comparing the time with the morpheme and the line start time of the line-by-line subtitle text generated by the caption text morpheme analysis means, and the calculated matching rate is preset below a preset threshold value Text comparison means that outputs a warning when the specified number of lines continues
A subtitle monitoring program characterized by functioning as
JP2007300103A 2007-11-20 2007-11-20 Subtitle monitoring apparatus and subtitle monitoring program Expired - Fee Related JP5022193B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007300103A JP5022193B2 (en) 2007-11-20 2007-11-20 Subtitle monitoring apparatus and subtitle monitoring program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007300103A JP5022193B2 (en) 2007-11-20 2007-11-20 Subtitle monitoring apparatus and subtitle monitoring program

Publications (2)

Publication Number Publication Date
JP2009130411A JP2009130411A (en) 2009-06-11
JP5022193B2 true JP5022193B2 (en) 2012-09-12

Family

ID=40820945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007300103A Expired - Fee Related JP5022193B2 (en) 2007-11-20 2007-11-20 Subtitle monitoring apparatus and subtitle monitoring program

Country Status (1)

Country Link
JP (1) JP5022193B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5442373B2 (en) * 2009-09-25 2014-03-12 シャープ株式会社 Display control device, display control device control method, control program, and recording medium
KR102435750B1 (en) * 2017-12-14 2022-08-25 현대자동차주식회사 Multimedia apparatus and vehicle comprising the same, broadcasting method of the multimedia apparatus
WO2021157192A1 (en) * 2020-02-04 2021-08-12 ソニーグループ株式会社 Control device, control method, computer program, and content playback system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11285032A (en) * 1998-03-31 1999-10-15 Toshiba Corp Teletext monitoring system, teletext material production device used for the system and teletext monitoring device
JP4113059B2 (en) * 2003-07-28 2008-07-02 株式会社東芝 Subtitle signal processing apparatus, subtitle signal processing method, and subtitle signal processing program

Also Published As

Publication number Publication date
JP2009130411A (en) 2009-06-11

Similar Documents

Publication Publication Date Title
US7013273B2 (en) Speech recognition based captioning system
US9762963B2 (en) Method and apparatus for controlling play of an audio signal
US6505153B1 (en) Efficient method for producing off-line closed captions
US7676373B2 (en) Displaying text of speech in synchronization with the speech
CN105516651B (en) Method and apparatus for providing a composite digest in an image forming apparatus
US8732783B2 (en) Apparatus and method for providing additional information using extension subtitles file
JP4635891B2 (en) Information processing apparatus and method, and program
JP5022193B2 (en) Subtitle monitoring apparatus and subtitle monitoring program
JP4712812B2 (en) Recording / playback device
JP2008252322A (en) Apparatus and method for summary presentation
JP3998187B2 (en) Content commentary data generation device, method and program thereof, and content commentary data presentation device, method and program thereof
JP4538618B2 (en) Automatic generation method of display unit caption text in caption program production system
JP5132504B2 (en) Information recording / reproducing apparatus and information recording / reproducing method
JP4359069B2 (en) Summary generating apparatus and program thereof
JP5074941B2 (en) Subtitle output apparatus, subtitle output method, and program
KR102160117B1 (en) a real-time broadcast content generating system for disabled
JP4500957B2 (en) Subtitle production system
EP2642408A1 (en) Information processing apparatus and information processing method
JP4854030B2 (en) Video classification device and receiving device
KR20150055921A (en) Method and apparatus for controlling playing video
US20230028897A1 (en) System and method for caption validation and sync error correction
JP2005341138A (en) Video summarizing method and program, and storage medium with the program stored therein
WO2004100164A1 (en) Voice script system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120516

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

R150 Certificate of patent or registration of utility model

Ref document number: 5022193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees