JP2004334133A

JP2004334133A - 字幕番組データ制作システム

Info

Publication number: JP2004334133A
Application number: JP2003133642A
Authority: JP
Inventors: Eiji Sawamura; 英治沢村; Takao Monma; 隆雄門馬; Toru Tsugi; 徹都木; Katsuhiko Shirai; 克彦白井
Original assignee: NEC Corp; Nippon Hoso Kyokai NHK; National Institute of Information and Communications Technology; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: NEC Corp; National Institute of Information and Communications Technology; Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2003-05-12
Filing date: 2003-05-12
Publication date: 2004-11-25

Abstract

【課題】台本電子テキストを活用するとともに、リスピーク手法を用いることにより音声認識率を大幅に向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供する。
【解決手段】文字認識ソフトウェアにより台本６０上の文字を文字認識して電子化テキストを生成し、これを台本電子テキストとして出力する台本電子テキスト生成部１０と、台本６０をベースとした原稿を基に発せられた番組音声８０をなぞるようにして発せられたリスピーク音声８５を台本テキスト情報を登録した音声認識ソフトウェアで認識して音声テキスト９０を生成する音声テキスト生成部２０と、この音声テキスト生成部２０により得られた音声テキスト９０と、台本電子テキスト生成部１０により得られた台本電子テキスト７０との相違点を検出して相違データを生成する相違検出部３０とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文字認識技術と音声認識技術を組み合わせて字幕用テキストを制作するシステムに関わり、特にリスピーク手法を用いることにより音声認識率を向上させた字幕番組データ制作システムに関する。
【０００２】
［発明の概要］
本発明は、リスピーク手法の導入によって、先に出願済の「電子化テキスト作成作成システム（特開２００１−２８２７７９）や「電子化テキスト作成支援システム」（特願２００１−２８０６３４、未公開）に内在する番組音声を音声認識することによって字幕用テキストを制作する際の音声認識率の問題を解決するとともに、その音声認識過程で得られる高精度なタイミングデータの活用と自動字幕整形手法の適用によって、試写可能な字幕番組データ化まで一挙に行なえるようにした字幕番組制作の効率化に寄与できる。
【０００３】
印刷台本、リスピーク者を必要とするシステムではあるが、この条件下では非常に高速な字幕番組データ制作が可能となり、字幕番組分野の拡大や字幕データ制作時間の短縮など字幕番組制作の効率化に寄与できる。
【０００４】
【従来の技術】
字幕番組の拡大や字幕制作時間の短縮などが求められる状況下、広い分野の種々の番組に対する高速な字幕番組データ制作システムが求められている。字幕番組制作では字幕用テキストの作成や番組音声に関するタイミング情報の取得が最も重要な課題である。
【０００５】
図８は現在一般的に行われている字幕番組制作の流れを示している。
【０００６】
文字化処理では、字幕用として番組のスピーチを文字化する。要約処理で早いスピーチ部分や冗長部分などの要約を適宜行った後、字幕画面整形処理では、行数や文字数など字幕放送規格に適合するよう改行・改ページをする字幕画面整形を行う。同期処理ではこの整形した字幕画面に対しその開始・終了タイミングを付与する。以上の処理によって一応の字幕番組データが制作され、この字幕番組データを字幕専門家が試写し、不具合箇所を修正して完成した字幕番組データになる。
【０００７】
本発明の目的は、図８に示す文字化処理、要約処理、字幕画面整形処理、および同期処理を含む字幕データ制作業務、特に文字化処理を含め一括して処理し、効率的な字幕番組データを作成することにある。
【０００８】
【特許文献１】
特開２００１−２８２７７９
【０００９】
【発明が解決しようとする課題】
しかしながら、文字化処理は、番組のスピーチ部分を字幕用として文字化するものであるが、この文字化処理作業は番組素材の種類、内容、品質などによって業務内容に大きく影響される。
【００１０】
代表的な番組素材は、番組音声・映像から成るＶＴＲテープである。
【００１１】
通常の番組素材は、文字化すべきスピーチ部分に効果音や背景音、雑音などが混在された状態である。また、スピーチ部分の話者はアナウンサ、レポータ、一般の人など多岐であり、その話し方も、音質、音量、速度、なまり、など様々のバリエーションがあり、通常の音声認識で正しく文字化するのは一般的には困難である。
【００１２】
しかし、番組のスピーチ部分の文字化を音声認識によって行う試みもされている。例えば、ＮＨＫニュースにおけるリアルタイム字幕で既に実現されている。ところが、上記のようなスピーチと他の音が混合された通常の番組音声認識をしてみると、正解率は平均的には５０％に満たない状況であり、その修正のために要する時間も考慮すると音声認識を使用するメリットはほとんどなく、一般の番組に対する有効な手法の開発が望まれていた。
【００１３】
本発明は上記事情に鑑み、番組台本の存在を前提とし、それを活用するリスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供することを目的としている。
【００１４】
【課題を解決するための手段】
上記の目的を達成するために請求項１の発明は、文字認識ソフトウェアにより台本上の文字を文字認識して電子化テキストを生成し、これを台本電子テキストとして出力する台本電子テキスト生成部と、前記番組音声をなぞるようにして発せられたリスピーク音声を音声認識して音声テキストを生成する音声テキスト生成部と、この音声テキスト生成部により得られた音声テキストと、前記台本電子テキスト生成部により得られた台本電子テキストとの相違点を検出して相違データを生成する相違点検出部とを備えたことを特徴としている。
【００１５】
請求項２の発明は、請求項１に記載の字幕番組データ制作システムにおいて、前記台本電子テキスト生成部は、複数の文字認識ソフトウェアを備え、各文字認識ソフトウェアにより前記台本を文字認識して各別の電子化テキストを生成する文字認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを台本電子テキストとして出力する多数決処理手段とを有することを特徴としている。
【００１６】
請求項３の発明は、請求項１または２に記載の字幕番組データ制作システムにおいて、前記音声テキスト生成部は、複数の音声認識ソフトウェアを備え、各音声認識ソフトウェアにより前記リスピーク音声を音声認識して各別の電子化テキストを生成する音声認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを音声テキストとして出力する多数決処理手段とを有することを特徴としている。
【００１７】
請求項４では、請求項１または３に記載の字幕番組データ制作システムにおいて、前記リスピーク音声を認識する前記音声認識ソフトウェアに事前に前記台本電子テキストの情報が登録されていることを特徴としている。
【００１８】
上記構成によれば、番組台本情報に加えてリスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供できる。
【００１９】
【発明の実施の形態】
＜発明の背景＞
実施の形態の説明に先立って本発明の背景を説明する。
【００２０】
前述したように、文字化処理は、番組のスピーチを字幕用として文字化するものであるが、この文字化処理に利用できる番組素材の種類、内容、品質などによって業務内容に大きく影響する。
【００２１】
代表的な番組素材は、番組音声・映像から成るＶＴＲテープである。
【００２２】
通常の番組素材は、文字化すべきスピーチ部分に効果音や背景音、雑音などが混在された状態である。また、スピーチ部分の話者はアナウンサ、レポータ、一般の人など多岐であり、その話し方も、音質、音量、速度、なまり、など様々のバリエーションがある。番組のスピーチ部分の文字化では、音声認識による方法を使ったらどうかとの意見もあり、ＮＨＫニュースで行われているリアルタイム字幕で既に実現されているが、上記のようなスピーチと他の音が混合された通常の番組音声認識をしてみると、正解率は平均的には５０％に満たない状況であり、その修正のために要する時間も考慮すると音声認識を使用するメリットはほとんどないと言える。
【００２３】
しかし、番組素材の音声・映像の他に以下に示す番組台本やクリーン音声などが字幕制作に利用できる場合には、それを有効に活用し効率的に字幕番組データを作成するシステムの構成が可能になる。ただし、番組台本、クリーン音声は、一応以下の条件のものとする。
【００２４】
（１）「番組台本」は、印刷物の台本や、場合によっては電子化された台本であり、実際の放送内容との差異が２０％程度以下のもの。
【００２５】
（２）「クリーン音声」は、番組音声のシャドウスピーチによる音声とするが、文字化すべき番組音声のスピーチ部分のみが、低背景音環境下で作成されたクリーン音声を備える番組の場合は、そのクリーン音声を使用する。
【００２６】
番組台本からはその文字認識により文字化でき、しかも文字認識の精度がカタログによると９９％以上とあり、簡単な実験でも非常に高精度であることが確かめられているので、台本に極めて忠実なテキスト化が可能である。また、台本テキストから抽出した番組固有の音声認識辞書を予め準備するとともに、話者の音響特性に合わせた音響モデルを使用してクリーン音声の音声認識を行うことができるので、遙かに高い認識率でより正確なスピーチのテキスト化が可能であり、その認識時の時間情報も有効に活用することができる。
【００２７】
なお、番組のクリーン音声がある場合には、当然これを活用すべきであるが、このクリーン音声がない一般の多くの番組については、特定の話者が番組音声中のスピーチを聴き、そのスピーチをなぞり、自分の声でスピーチする、いわゆるリスピーク（「シャドウスピーチ」ともいう）を行う。そして、リスピーク音声を使用して音声認識を行う。このリスピーク音声認識の利点を活用することによって、字幕番組データ制作（字幕用テキストの生成、字幕整形・タイミング付与など）を効率化することができる。
【００２８】
本発明システムでは、台本テキストから抽出した番組固有の音声認識辞書と、番組音声のクリーンスピーチという条件下で音声認識精度をより高めることにより、台本テキストと音声テキストとを活用する電子化原稿作成支援システムを高性能化し、さらに時間情報を活用して効率的に字幕番組データを作成する。
【００２９】
クリーンスピーチは、特定話者かつ低背景音を条件として、番組音声のシャドウスピーチによる音声とするが、クリーン音声を備える番組の場合はそのクリーン音声を使用する。
【００３０】
本発明者が開発した「電子化原稿作成支援システム」（特願２００１−２８０６３４、未公開）のクリーン音声の条件下での機能実験は良好である。しかし、クリーン音声を備える番組は非常に少なく、また一般番組音声の認識は実用レベルに満たないのが実状である。
【００３１】
本発明では、リスピーク手法の導入によってこれらの問題点を解決するとともに、その音声認識過程で得られる高精度なタイミングデータなどの活用によって、試写可能な字幕番組データ化まで一挙に行うようにしたものである。
【００３２】
印刷台本、リスピーク者が必要なシステムであるが、この条件下では非常に高速な字幕番組制作が期待できる。
【００３３】
従って、字幕番組の拡大が求められる状況下、広い分野の種々の番組に対する高速な本発明の字幕番組データ制作システムは、今後字幕番組制作に大きく寄与すると考えられる。
【００３４】
＜実施形態１＞
図１は本発明による字幕番組データ制作システムの実施形態１を示すブロック図である。
【００３５】
実施形態１の字幕番組データ制作システムは、台本電子テキスト生成部１０と、音声テキスト生成部２０と、相違検出部３０と、字幕整形タイミング付与部３５と、形態素・構文解析部４０と、指定形態素抽出部５０とを備えている。
【００３６】
台本電子テキスト生成部１０は、１つの文字認識ソフトウェアを有し印刷台本６０上の文字を文字認識して電子化テキストを生成する文字認識手段１１を備えている。
【００３７】
音声テキスト生成部２０は、１つの音声認識ソフトウェアを有し番組音声８０をなぞるようにして発せられたリスピーク音声８５を音声認識して音声テキスト９０を生成する音声認識手段２１を備えている。この音声認識ソフトウェアは単語登録部２３を備え、この単語登録部２３には事前に台本電子テキストから抽出した固有名詞や人名などを単語登録しておく。さらに、リスピーク音声８５を発する話者として発声音の音声認識率の高いアナウンサ等を適切に設定するとともに、その話者音声の特徴を音声認識ソフトウェアに事前登録しておくのが望ましい。
【００３８】
相違検出部３０は、音声テキスト生成部２０により得られた音声テキスト９０と、台本電子テキスト生成部１０で得られた台本電子テキスト７０との相違点を音声テキスト生成部２０で得られる時間情報も活用して検出するとともに、その誤りをチェックして相違データを生成する。生成された相違データはパソコン画面上に表示され、この画面上に表示された相違点に基づいてオペレータの手動操作により台本電子テキスト７０が修正され、字幕用テキストが生成される。
【００３９】
字幕整形タイミング付与部３５は、生成された字幕用テキストを表示用に整形するとともに、開始タイミング、終了タイミングを付して字幕番組データを生成する。
【００４０】
形態素・構文解析部４０では、台本電子テキスト７０の形態素・構文解析が行われ、また指定形態素抽出部５０では指定形態素が抽出される。指定形態素としては、固有名詞や番組特有の表現や用語があり、これの指定形態素によって音声認識手段２１を構成する単語登録部２３の単語登録が更新されるようになっている。なお、この実施形態では、形態素解析のみならず構文解析も行うことで精度を高めるようにしているが、形態素解析のみでも初期の目的は達成できる。
【００４１】
次に、実施形態１の作用を説明する。
【００４２】
台本電子テキスト生成部１０では、印刷台本６０に記載された文字列がスキャナで読み込まれ、文字認識手段１１の文字認識ソフトウェアで文字認識され、台本電子化テキスト７０が生成される。生成された台本電子テキスト７０は音声テキスト生成部２０と、形態素・構文解析部４０と、相違検出部３０とに出力される。
【００４３】
一方、番組音声８０をなぞるようにしてアナウンサなどが発声したリスピーク音声８５は、音声認識ソフトウェアを備えた音声認識手段２１によって音声認識され、音声テキスト９０として出力される。この場合、音声認識ソフトウェアの単語登録部２３には、台本電子テキスト生成部１０で生成された台本電子テキスト７０から形態素・構文解析部４０および指定形態素抽出部５０を経て抽出された固有名詞や番組特有の用語等を予め登録しておく。このため、専門分野の用語や難解な言い回し等であっても、この番組用として登録した単語データにより、正しい音声認識をすることが可能である。
【００４４】
また、音声認識手段２１の機能として、例えば一文の音声認識の初めと終わり、一定の区切りの初めと終わりが時間情報１００として得られており、この時間情報１００は音声テキスト９０とともに相違検出部３０に供給される。
【００４５】
相違検出部３０では、台本電子テキスト７０と、音声テキスト９０と、時間情報１００とにより台本電子テキスト７０に対する音声テキスト９０の相違点が検出され、その誤りがチェックされ、その結果、相違データが生成される。相違データとしては、例えば、挿入・削除および変更すべき文字列と台本電子テキスト７０における位置等である。生成された相違データはパソコンなどのディスプレイ上に表示される。例えば、相違データにより、挿入・削除および変更すべき文字列と台本電子テキスト７０における位置を表示する。オペレータはこの画面表示された相違データに基づいて台本電子テキスト７０を修正して電子化テキストを生成する。
【００４６】
なお、スピーチを忠実に文字化した音声テキスト９０と台本電子化テキスト７０との相違として考えられる事項は、台本６０と異なるアナウンサなどによる「えー」、「あー」などの挿入、「言い間違いの言い直し」の前の言い間違い、言い間違い、原稿の読み飛ばしなどである。
【００４７】
印刷台本６０の文字認識による台本電子テキスト７０に対して、音声テキスト９０のみに存在する部分は、台本電子テキスト７０からみると追加分である。また、台本電子テキスト７０のみにあり音声テキスト９０に存在しない部分は、台本電子テキスト７０からみると読み飛ばし分または削除分といえる。
【００４８】
音声テキスト９０での「えー」、「あー」などの追加分や言い間違い部分は、台本電子テキスト７０を修正する際には無視するのが良い。
【００４９】
また、音声テキスト９０における「言い間違いの言い直し」の前の言い間違いは、先ず、追加分として把握する。そして、その直後の「言い直し」が台本電子テキスト７０にあることを前提に、「言い直し」部分に対する「言い直し」の前の言い間違い部分の近似度を求め、それが近い場合は、スピーチの間違いとしてこの部分は台本電子テキスト７０を修正する際は無視する。
【００５０】
こうして相違検出部３０で相違データが生成され表示されると、オペレータの最終判断により、相違データを実際に挿入すべき、あるいは削除すべきかあるいは変更して挿入すべきか等を判定し、これを修正し電子化テキストが完成するのである。
【００５１】
字幕整形タイミング付与部３５では、音声認識段階で得られた一区切りの台本電子テキスト７０と、その開始・終了タイミングデータを入力として、適切な字幕表示形式となるよう自動改行・改頁をして表示単位字幕文とする自動字幕整形を行い、さらに新しく改頁した字幕のタイミングを算出して付加することによって、試写可能な字幕番組データ１１０を作成する。
【００５２】
図２は、音声認識ソフトによるクリーン音声の認識結果出力を示している。各行のデータは、それぞれ認識開始時間、認識終了時間、および認識結果を示す認識変換テキストデータである。
【００５３】
このように音声認識ソフトウェアの認識過程での時間情報を活用することにより、音声テキスト９０のみならずその開始・終了に相当する時間情報も得ることができる。図３は音声認識ソフトウェアによるクリーン音声の認識結果を発音記号列で示している。
【００５４】
また、字幕整形タイミング付与部３５では、音声認識段階で得られた一区切りの台本電子テキスト７０と、その開始・終了タイミングデータを入力として、適切な字幕表示形式となるよう自動改行・改頁をして表示単位字幕文とする自動字幕整形を行い、さらに新しく改頁した字幕のタイミングを算出して付加することによって、試写可能な字幕番組データを作成することができる。図４、５はその説明図である。なお、図４，５において太枠で囲まれた数値は計算値を示す。
【００５５】
図４に示す字幕用テキストと開始・終了時間は、先に説明した音声認識段階で得られたものである。字幕用テキストはそのままでは適切な字幕表示形式になっていないので、自動字幕整形による改行・改頁を行って、図５に示す表示単位字幕文とする。
【００５６】
これら表示単位字幕文の開始・終了タイミングについて考察すると、多くの表示単位字幕文における開始・終了は、上段の字幕用テキストの開始・終了と一致しており、従って、そのタイミングをそのまま適用できる。しかし、新しく改頁してできた表示単位字幕文の「体育館・・・」は終了タイミング、「司法書士・・・」は開始タイミングがそれぞれ不明であり、そのタイミングデータを補完しなければならない。このため、簡易なタイミング補完手法について説明する。なお、このタイミング補完手法の詳細は、特開２０００−３５０１１７に開示されているので、ポイントのみを説明する。
【００５７】
ここでは、図４の最下段に示す「法務局内に忘れてきました。」の終了タイミングを求めることを例にする。このテキストの文字構成は、かな７文字、漢字５文字であり、漢字はかなの約１．８６倍の読み数となるので、その統計的な読み数は１６．３（＝７＋５×１．８６）と計算される。また、一読み数の平均時間は０．１１６なので、この文の所要時間は１．８９となり、従って文末である終了タイミングは、文頭タイミング２７．１５にこの文の所要時間１．８９を加えた２９．０４となる。
【００５８】
不明であった自動字幕整形による新たな改頁によってできた表示単位字幕文のタイミングを、このようにして補完し、すべての表示単位字幕文の開始・終了タイミングが定まり試写可能な字幕番組データが一応完成する。
【００５９】
なお、上記では、かな文字数、漢字文字数から、その統計的な読み数を計算したが、音声認識処理過程で、図３に示した発音記号列が得られる場合には、これから音素を求め、図６に示すような音素時間表を利用して終了タイミングを算出する方法によって、より正しい結果を得ることができる。
【００６０】
このように、実施形態１では、文字認識ソフトウェアから得られた台本電子テキスト７０と、音声認識ソフトウェアで得られた音声テキスト９０との相違データを求め、この相違データに基づいて台本電子テキスト７０を修正して電子化テキストを生成するようにしたので、簡易な構成によってより正確な電子化テキストを人手や時間を極力費やすことなく得ることが可能となる。また、この場合、リスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することが可能となる。
【００６１】
＜実施形態２＞
図７は本発明による字幕番組データ制作システムの実施形態２を示すブロック図である。なお、図１と同一構成部分には同一符号を付してその説明は省略し、相違点のみを説明することとする。
【００６２】
図７に示す実施形態２の字幕番組データ制作システムが、図１に示した実施形態１における字幕番組データ制作システムと異なる点は、文字認識手段１１として３つの異なった特性の文字認識ソフトウェアＡ，Ｂ，Ｃを備えるとともに、音声認識手段２１として３つの異なった特性の音声認識ソフトウェアＡ，Ｂ，Ｃを備え、これら３つの文字認識ソフトウェアＡ〜Ｃの出力の多数決によって台本電子テキスト７０を生成するとともに、これら３つの音声認識ソフトウェアＡ〜Ｃの出力の多数決によって音声テキスト９０を生成するようにしたことである。このため、台本電子テキスト生成部１０には、文字認識手段１１の他に、多数決処理手段１２が設けられるとともに、音声テキスト生成部２０には、音声認識手段２１の他に、多数決処理手段２２が設けられている。
【００６３】
次に実施形態２の作用を説明する。
【００６４】
台本電子テキスト生成部１０では、印刷台本６０に記載された文字列がスキャナで読み込まれ、文字認識手段１１の各文字認識ソフトウェアＡ，Ｂ，Ｃにおいて各別に文字認識され、３つの電子化テキストが生成される。これら３つの電子化テキストＡ，Ｂ，Ｃは種類もしくは設定状態の異なるものであり、その認識特性に基づく差が含まれたものとする。これらの文字認識ソフトウェアＡ，Ｂ、Ｃは多数決処理手段１２において修正テーブル１３の誤り情報を参照しつつ多数決処理される。すなわち、多数決処理手段１２では、３つの電子化テキストを比較照合した結果、２対１となれば、２の結果を採用する。仮に１対１対１と三者三様の場合には、予め決めておいた文字認識ソフトウェア（例えば、文字認識ソフトウェアＡ）の結果を採用する。こうして１つの電子化テキストが採用され、台本電子テキスト７０として音声テキスト生成部２０と、形態素・構文解析部４０と、相違検出部３０とに出力される。
【００６５】
一方、音声認識手段２１の各音声認識ソフトウェアＡ，Ｂ，Ｃにおいては各別に番組音声８０をなぞるようにして発せられたリスピーク音声８５が音声認識され、３つの電子化テキストが生成される。その際、時間情報もそれぞれ出力される。これら３つの電子化テキストおよび時間情報は多数決処理手段２２において台本電子テキスト７０を参照しつつ多数決処理される。すなわち、多数決処理手段２２では、３つの電子化テキストなどを比較照合した結果、２対１となれば、２の結果を採用する。仮に１対１対１と三者三様の場合には、予め決めておいた音声認識ソフトウェア（例えば、音声認識ソフトウェアＡ）の結果を採用する。こうして１つの電子化テキストと時間情報が採用され、音声テキスト９０および時間情報１００として出力される。以下の処理は実施形態１と同様である。
【００６６】
このように、実施形態２によれば、３つの文字認識ソフトウェアの多数決処理によって得られた台本電子テキスト７０と、３つの音声認識ソフトウェアの多数決処理によって得られた音声テキスト９０および時間情報１００を活用して相違データを求め、この相違データに基づいて台本電子テキスト７０を手動修正して電子化テキストを生成するようにしたので、より一層正確な電子化テキストを人手や時間を極力費やすことなく得ることが可能となる。また、この場合、リスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することが可能となる。
【００６７】
【発明の効果】
以上説明したように本発明によれば、台本電子テキストを活用するとともに、リスピーク手法により大幅に音声認識率を向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供することができる。
【図面の簡単な説明】
【図１】本発明による字幕番組データ制作システムに実施形態１の構成を示すブロック図である。
【図２】音声認識ソフトウェアによるクリーン音声の認識結果を示す説明図である。
【図３】音声認識ソフトウェアによるクリーン音声の認識結果を発音記号列で示す説明図である。
【図４】改頁字幕のタイミング算出例を示す説明図である。
【図５】改頁字幕のタイミング算出例を示す説明図である。
【図６】タイミング情報付与に利用される音素時間表の一例を示す説明図である。
【図７】本発明による字幕番組データ制作システムに実施形態１の構成を示すブロック図である。
【図８】字幕番組データ制作の処理手順を示す説明図である。
【符号の説明】
１０台本電子テキスト生成部
１１文字認識手段
１２多数決処理手段
１３修正テーブル
２０音声テキスト生成部
２１音声認識手段
２２多数決処理手段
２３，２３Ａ，２３Ｂ，２３Ｃ単語登録部
３０相違検出部
３１処理ルール部
３５字幕整形タイミング付与部
４０形態素・構文解析部
５０指定形態素抽出部
６０印刷台本
７０台本電子テキスト
８０番組音声
８５リスピーク音声
９０音声テキスト
１００時間情報
１１０字幕番組データ

Claims

文字認識ソフトウェアにより台本上の文字を文字認識して電子化テキストを生成し、これを台本電子テキストとして出力する台本電子テキスト生成部と、
音声認識ソフトウェアにより、前記台本上の文字に基づいて発せられた番組音声をなぞるようにして発せられたリスピーク音声を音声認識して音声テキストを生成する音声テキスト生成部と、
この音声テキスト生成部により得られた音声テキストと、前記台本電子テキスト生成部により得られた台本電子テキストとの相違点を検出して相違データを生成する相違点検出部と、
を備えたことを特徴とする字幕番組データ制作システム。
請求項１に記載の字幕番組データ制作システムにおいて、
前記台本電子テキスト生成部は、複数の文字認識ソフトウェアを備え、各文字認識ソフトウェアにより前記台本を文字認識して各別の電子化テキストを生成する文字認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを台本電子テキストとして出力する多数決処理手段とを有する、
ことを特徴とする字幕番組データ制作システム。
請求項１または２に記載の字幕番組データ制作システムにおいて、
前記音声テキスト生成部は、複数の音声認識ソフトウェアを備え、各音声認識ソフトウェアにより前記リスピーク音声を音声認識して各別の電子化テキストを生成する音声認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを音声テキストとして出力する多数決処理手段とを有する、
ことを特徴とする字幕番組データ制作システム。
請求項１または３に記載の字幕番組データ制作システムにおいて、
前記リスピーク音声を認識する前記音声認識ソフトウェアに事前に前記台本電子テキストの情報が登録されていることを特徴とする字幕番組データ制作システム。