JP2004334133A - 字幕番組データ制作システム - Google Patents

字幕番組データ制作システム Download PDF

Info

Publication number
JP2004334133A
JP2004334133A JP2003133642A JP2003133642A JP2004334133A JP 2004334133 A JP2004334133 A JP 2004334133A JP 2003133642 A JP2003133642 A JP 2003133642A JP 2003133642 A JP2003133642 A JP 2003133642A JP 2004334133 A JP2004334133 A JP 2004334133A
Authority
JP
Japan
Prior art keywords
text
speech
script
subtitle
program data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003133642A
Other languages
English (en)
Inventor
Eiji Sawamura
英治 沢村
Takao Monma
隆雄 門馬
Toru Tsugi
徹 都木
Katsuhiko Shirai
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
National Institute of Information and Communications Technology
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
NEC Corp
Nippon Hoso Kyokai NHK
National Institute of Information and Communications Technology
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Hoso Kyokai NHK, National Institute of Information and Communications Technology, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical NEC Corp
Priority to JP2003133642A priority Critical patent/JP2004334133A/ja
Publication of JP2004334133A publication Critical patent/JP2004334133A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】台本電子テキストを活用するとともに、リスピーク手法を用いることにより音声認識率を大幅に向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供する。
【解決手段】文字認識ソフトウェアにより台本60上の文字を文字認識して電子化テキストを生成し、これを台本電子テキストとして出力する台本電子テキスト生成部10と、台本60をベースとした原稿を基に発せられた番組音声80をなぞるようにして発せられたリスピーク音声85を台本テキスト情報を登録した音声認識ソフトウェアで認識して音声テキスト90を生成する音声テキスト生成部20と、この音声テキスト生成部20により得られた音声テキスト90と、台本電子テキスト生成部10により得られた台本電子テキスト70との相違点を検出して相違データを生成する相違検出部30とを備える。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、文字認識技術と音声認識技術を組み合わせて字幕用テキストを制作するシステムに関わり、特にリスピーク手法を用いることにより音声認識率を向上させた字幕番組データ制作システムに関する。
【0002】
[発明の概要]
本発明は、リスピーク手法の導入によって、先に出願済の「電子化テキスト作成作成システム(特開2001−282779)や「電子化テキスト作成支援システム」(特願2001−280634、未公開)に内在する番組音声を音声認識することによって字幕用テキストを制作する際の音声認識率の問題を解決するとともに、その音声認識過程で得られる高精度なタイミングデータの活用と自動字幕整形手法の適用によって、試写可能な字幕番組データ化まで一挙に行なえるようにした字幕番組制作の効率化に寄与できる。
【0003】
印刷台本、リスピーク者を必要とするシステムではあるが、この条件下では非常に高速な字幕番組データ制作が可能となり、字幕番組分野の拡大や字幕データ制作時間の短縮など字幕番組制作の効率化に寄与できる。
【0004】
【従来の技術】
字幕番組の拡大や字幕制作時間の短縮などが求められる状況下、広い分野の種々の番組に対する高速な字幕番組データ制作システムが求められている。字幕番組制作では字幕用テキストの作成や番組音声に関するタイミング情報の取得が最も重要な課題である。
【0005】
図8は現在一般的に行われている字幕番組制作の流れを示している。
【0006】
文字化処理では、字幕用として番組のスピーチを文字化する。要約処理で早いスピーチ部分や冗長部分などの要約を適宜行った後、字幕画面整形処理では、行数や文字数など字幕放送規格に適合するよう改行・改ページをする字幕画面整形を行う。同期処理ではこの整形した字幕画面に対しその開始・終了タイミングを付与する。以上の処理によって一応の字幕番組データが制作され、この字幕番組データを字幕専門家が試写し、不具合箇所を修正して完成した字幕番組データになる。
【0007】
本発明の目的は、図8に示す文字化処理、要約処理、字幕画面整形処理、および同期処理を含む字幕データ制作業務、特に文字化処理を含め一括して処理し、効率的な字幕番組データを作成することにある。
【0008】
【特許文献1】
特開2001−282779
【0009】
【発明が解決しようとする課題】
しかしながら、文字化処理は、番組のスピーチ部分を字幕用として文字化するものであるが、この文字化処理作業は番組素材の種類、内容、品質などによって業務内容に大きく影響される。
【0010】
代表的な番組素材は、番組音声・映像から成るVTRテープである。
【0011】
通常の番組素材は、文字化すべきスピーチ部分に効果音や背景音、雑音などが混在された状態である。また、スピーチ部分の話者はアナウンサ、レポータ、一般の人など多岐であり、その話し方も、音質、音量、速度、なまり、など様々のバリエーションがあり、通常の音声認識で正しく文字化するのは一般的には困難である。
【0012】
しかし、番組のスピーチ部分の文字化を音声認識によって行う試みもされている。例えば、NHKニュースにおけるリアルタイム字幕で既に実現されている。ところが、上記のようなスピーチと他の音が混合された通常の番組音声認識をしてみると、正解率は平均的には50%に満たない状況であり、その修正のために要する時間も考慮すると音声認識を使用するメリットはほとんどなく、一般の番組に対する有効な手法の開発が望まれていた。
【0013】
本発明は上記事情に鑑み、番組台本の存在を前提とし、それを活用するリスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供することを目的としている。
【0014】
【課題を解決するための手段】
上記の目的を達成するために請求項1の発明は、文字認識ソフトウェアにより台本上の文字を文字認識して電子化テキストを生成し、これを台本電子テキストとして出力する台本電子テキスト生成部と、前記番組音声をなぞるようにして発せられたリスピーク音声を音声認識して音声テキストを生成する音声テキスト生成部と、この音声テキスト生成部により得られた音声テキストと、前記台本電子テキスト生成部により得られた台本電子テキストとの相違点を検出して相違データを生成する相違点検出部とを備えたことを特徴としている。
【0015】
請求項2の発明は、請求項1に記載の字幕番組データ制作システムにおいて、前記台本電子テキスト生成部は、複数の文字認識ソフトウェアを備え、各文字認識ソフトウェアにより前記台本を文字認識して各別の電子化テキストを生成する文字認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを台本電子テキストとして出力する多数決処理手段とを有することを特徴としている。
【0016】
請求項3の発明は、請求項1または2に記載の字幕番組データ制作システムにおいて、前記音声テキスト生成部は、複数の音声認識ソフトウェアを備え、各音声認識ソフトウェアにより前記リスピーク音声を音声認識して各別の電子化テキストを生成する音声認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを音声テキストとして出力する多数決処理手段とを有することを特徴としている。
【0017】
請求項4では、請求項1または3に記載の字幕番組データ制作システムにおいて、前記リスピーク音声を認識する前記音声認識ソフトウェアに事前に前記台本電子テキストの情報が登録されていることを特徴としている。
【0018】
上記構成によれば、番組台本情報に加えてリスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供できる。
【0019】
【発明の実施の形態】
<発明の背景>
実施の形態の説明に先立って本発明の背景を説明する。
【0020】
前述したように、文字化処理は、番組のスピーチを字幕用として文字化するものであるが、この文字化処理に利用できる番組素材の種類、内容、品質などによって業務内容に大きく影響する。
【0021】
代表的な番組素材は、番組音声・映像から成るVTRテープである。
【0022】
通常の番組素材は、文字化すべきスピーチ部分に効果音や背景音、雑音などが混在された状態である。また、スピーチ部分の話者はアナウンサ、レポータ、一般の人など多岐であり、その話し方も、音質、音量、速度、なまり、など様々のバリエーションがある。番組のスピーチ部分の文字化では、音声認識による方法を使ったらどうかとの意見もあり、NHKニュースで行われているリアルタイム字幕で既に実現されているが、上記のようなスピーチと他の音が混合された通常の番組音声認識をしてみると、正解率は平均的には50%に満たない状況であり、その修正のために要する時間も考慮すると音声認識を使用するメリットはほとんどないと言える。
【0023】
しかし、番組素材の音声・映像の他に以下に示す番組台本やクリーン音声などが字幕制作に利用できる場合には、それを有効に活用し効率的に字幕番組データを作成するシステムの構成が可能になる。ただし、番組台本、クリーン音声は、一応以下の条件のものとする。
【0024】
(1) 「番組台本」は、印刷物の台本や、場合によっては電子化された台本であり、実際の放送内容との差異が20%程度以下のもの。
【0025】
(2) 「クリーン音声」は、番組音声のシャドウスピーチによる音声とするが、文字化すべき番組音声のスピーチ部分のみが、低背景音環境下で作成されたクリーン音声を備える番組の場合は、そのクリーン音声を使用する。
【0026】
番組台本からはその文字認識により文字化でき、しかも文字認識の精度がカタログによると99%以上とあり、簡単な実験でも非常に高精度であることが確かめられているので、台本に極めて忠実なテキスト化が可能である。また、台本テキストから抽出した番組固有の音声認識辞書を予め準備するとともに、話者の音響特性に合わせた音響モデルを使用してクリーン音声の音声認識を行うことができるので、遙かに高い認識率でより正確なスピーチのテキスト化が可能であり、その認識時の時間情報も有効に活用することができる。
【0027】
なお、番組のクリーン音声がある場合には、当然これを活用すべきであるが、このクリーン音声がない一般の多くの番組については、特定の話者が番組音声中のスピーチを聴き、そのスピーチをなぞり、自分の声でスピーチする、いわゆるリスピーク(「シャドウスピーチ」ともいう)を行う。そして、リスピーク音声を使用して音声認識を行う。このリスピーク音声認識の利点を活用することによって、字幕番組データ制作(字幕用テキストの生成、字幕整形・タイミング付与など)を効率化することができる。
【0028】
本発明システムでは、台本テキストから抽出した番組固有の音声認識辞書と、番組音声のクリーンスピーチという条件下で音声認識精度をより高めることにより、台本テキストと音声テキストとを活用する電子化原稿作成支援システムを高性能化し、さらに時間情報を活用して効率的に字幕番組データを作成する。
【0029】
クリーンスピーチは、特定話者かつ低背景音を条件として、番組音声のシャドウスピーチによる音声とするが、クリーン音声を備える番組の場合はそのクリーン音声を使用する。
【0030】
本発明者が開発した「電子化原稿作成支援システム」(特願2001−280634、未公開)のクリーン音声の条件下での機能実験は良好である。しかし、クリーン音声を備える番組は非常に少なく、また一般番組音声の認識は実用レベルに満たないのが実状である。
【0031】
本発明では、リスピーク手法の導入によってこれらの問題点を解決するとともに、その音声認識過程で得られる高精度なタイミングデータなどの活用によって、試写可能な字幕番組データ化まで一挙に行うようにしたものである。
【0032】
印刷台本、リスピーク者が必要なシステムであるが、この条件下では非常に高速な字幕番組制作が期待できる。
【0033】
従って、字幕番組の拡大が求められる状況下、広い分野の種々の番組に対する高速な本発明の字幕番組データ制作システムは、今後字幕番組制作に大きく寄与すると考えられる。
【0034】
<実施形態1>
図1は本発明による字幕番組データ制作システムの実施形態1を示すブロック図である。
【0035】
実施形態1の字幕番組データ制作システムは、台本電子テキスト生成部10と、音声テキスト生成部20と、相違検出部30と、字幕整形タイミング付与部35と、形態素・構文解析部40と、指定形態素抽出部50とを備えている。
【0036】
台本電子テキスト生成部10は、1つの文字認識ソフトウェアを有し印刷台本60上の文字を文字認識して電子化テキストを生成する文字認識手段11を備えている。
【0037】
音声テキスト生成部20は、1つの音声認識ソフトウェアを有し番組音声80をなぞるようにして発せられたリスピーク音声85を音声認識して音声テキスト90を生成する音声認識手段21を備えている。この音声認識ソフトウェアは単語登録部23を備え、この単語登録部23には事前に台本電子テキストから抽出した固有名詞や人名などを単語登録しておく。さらに、リスピーク音声85を発する話者として発声音の音声認識率の高いアナウンサ等を適切に設定するとともに、その話者音声の特徴を音声認識ソフトウェアに事前登録しておくのが望ましい。
【0038】
相違検出部30は、音声テキスト生成部20により得られた音声テキスト90と、台本電子テキスト生成部10で得られた台本電子テキスト70との相違点を音声テキスト生成部20で得られる時間情報も活用して検出するとともに、その誤りをチェックして相違データを生成する。生成された相違データはパソコン画面上に表示され、この画面上に表示された相違点に基づいてオペレータの手動操作により台本電子テキスト70が修正され、字幕用テキストが生成される。
【0039】
字幕整形タイミング付与部35は、生成された字幕用テキストを表示用に整形するとともに、開始タイミング、終了タイミングを付して字幕番組データを生成する。
【0040】
形態素・構文解析部40では、台本電子テキスト70の形態素・構文解析が行われ、また指定形態素抽出部50では指定形態素が抽出される。指定形態素としては、固有名詞や番組特有の表現や用語があり、これの指定形態素によって音声認識手段21を構成する単語登録部23の単語登録が更新されるようになっている。なお、この実施形態では、形態素解析のみならず構文解析も行うことで精度を高めるようにしているが、形態素解析のみでも初期の目的は達成できる。
【0041】
次に、実施形態1の作用を説明する。
【0042】
台本電子テキスト生成部10では、印刷台本60に記載された文字列がスキャナで読み込まれ、文字認識手段11の文字認識ソフトウェアで文字認識され、台本電子化テキスト70が生成される。生成された台本電子テキスト70は音声テキスト生成部20と、形態素・構文解析部40と、相違検出部30とに出力される。
【0043】
一方、番組音声80をなぞるようにしてアナウンサなどが発声したリスピーク音声85は、音声認識ソフトウェアを備えた音声認識手段21によって音声認識され、音声テキスト90として出力される。この場合、音声認識ソフトウェアの単語登録部23には、台本電子テキスト生成部10で生成された台本電子テキスト70から形態素・構文解析部40および指定形態素抽出部50を経て抽出された固有名詞や番組特有の用語等を予め登録しておく。このため、専門分野の用語や難解な言い回し等であっても、この番組用として登録した単語データにより、正しい音声認識をすることが可能である。
【0044】
また、音声認識手段21の機能として、例えば一文の音声認識の初めと終わり、一定の区切りの初めと終わりが時間情報100として得られており、この時間情報100は音声テキスト90とともに相違検出部30に供給される。
【0045】
相違検出部30では、台本電子テキスト70と、音声テキスト90と、時間情報100とにより台本電子テキスト70に対する音声テキスト90の相違点が検出され、その誤りがチェックされ、その結果、相違データが生成される。相違データとしては、例えば、挿入・削除および変更すべき文字列と台本電子テキスト70における位置等である。生成された相違データはパソコンなどのディスプレイ上に表示される。例えば、相違データにより、挿入・削除および変更すべき文字列と台本電子テキスト70における位置を表示する。オペレータはこの画面表示された相違データに基づいて台本電子テキスト70を修正して電子化テキストを生成する。
【0046】
なお、スピーチを忠実に文字化した音声テキスト90と台本電子化テキスト70との相違として考えられる事項は、台本60と異なるアナウンサなどによる「えー」、「あー」などの挿入、「言い間違いの言い直し」の前の言い間違い、言い間違い、原稿の読み飛ばしなどである。
【0047】
印刷台本60の文字認識による台本電子テキスト70に対して、音声テキスト90のみに存在する部分は、台本電子テキスト70からみると追加分である。また、台本電子テキスト70のみにあり音声テキスト90に存在しない部分は、台本電子テキスト70からみると読み飛ばし分または削除分といえる。
【0048】
音声テキスト90での「えー」、「あー」などの追加分や言い間違い部分は、台本電子テキスト70を修正する際には無視するのが良い。
【0049】
また、音声テキスト90における「言い間違いの言い直し」の前の言い間違いは、先ず、追加分として把握する。そして、その直後の「言い直し」が台本電子テキスト70にあることを前提に、「言い直し」部分に対する「言い直し」の前の言い間違い部分の近似度を求め、それが近い場合は、スピーチの間違いとしてこの部分は台本電子テキスト70を修正する際は無視する。
【0050】
こうして相違検出部30で相違データが生成され表示されると、オペレータの最終判断により、相違データを実際に挿入すべき、あるいは削除すべきかあるいは変更して挿入すべきか等を判定し、これを修正し電子化テキストが完成するのである。
【0051】
字幕整形タイミング付与部35では、音声認識段階で得られた一区切りの台本電子テキスト70と、その開始・終了タイミングデータを入力として、適切な字幕表示形式となるよう自動改行・改頁をして表示単位字幕文とする自動字幕整形を行い、さらに新しく改頁した字幕のタイミングを算出して付加することによって、試写可能な字幕番組データ110を作成する。
【0052】
図2は、音声認識ソフトによるクリーン音声の認識結果出力を示している。各行のデータは、それぞれ認識開始時間、認識終了時間、および認識結果を示す認識変換テキストデータである。
【0053】
このように音声認識ソフトウェアの認識過程での時間情報を活用することにより、音声テキスト90のみならずその開始・終了に相当する時間情報も得ることができる。図3は音声認識ソフトウェアによるクリーン音声の認識結果を発音記号列で示している。
【0054】
また、字幕整形タイミング付与部35では、音声認識段階で得られた一区切りの台本電子テキスト70と、その開始・終了タイミングデータを入力として、適切な字幕表示形式となるよう自動改行・改頁をして表示単位字幕文とする自動字幕整形を行い、さらに新しく改頁した字幕のタイミングを算出して付加することによって、試写可能な字幕番組データを作成することができる。図4、5はその説明図である。なお、図4,5において太枠で囲まれた数値は計算値を示す。
【0055】
図4に示す字幕用テキストと開始・終了時間は、先に説明した音声認識段階で得られたものである。字幕用テキストはそのままでは適切な字幕表示形式になっていないので、自動字幕整形による改行・改頁を行って、図5に示す表示単位字幕文とする。
【0056】
これら表示単位字幕文の開始・終了タイミングについて考察すると、多くの表示単位字幕文における開始・終了は、上段の字幕用テキストの開始・終了と一致しており、従って、そのタイミングをそのまま適用できる。しかし、新しく改頁してできた表示単位字幕文の「体育館・・・」は終了タイミング、「司法書士・・・」は開始タイミングがそれぞれ不明であり、そのタイミングデータを補完しなければならない。このため、簡易なタイミング補完手法について説明する。なお、このタイミング補完手法の詳細は、特開2000−350117に開示されているので、ポイントのみを説明する。
【0057】
ここでは、図4の最下段に示す「法務局内に忘れてきました。」の終了タイミングを求めることを例にする。このテキストの文字構成は、かな7文字、漢字5文字であり、漢字はかなの約1.86倍の読み数となるので、その統計的な読み数は16.3(=7+5×1.86)と計算される。また、一読み数の平均時間は0.116なので、この文の所要時間は1.89となり、従って文末である終了タイミングは、文頭タイミング27.15にこの文の所要時間1.89を加えた29.04となる。
【0058】
不明であった自動字幕整形による新たな改頁によってできた表示単位字幕文のタイミングを、このようにして補完し、すべての表示単位字幕文の開始・終了タイミングが定まり試写可能な字幕番組データが一応完成する。
【0059】
なお、上記では、かな文字数、漢字文字数から、その統計的な読み数を計算したが、音声認識処理過程で、図3に示した発音記号列が得られる場合には、これから音素を求め、図6に示すような音素時間表を利用して終了タイミングを算出する方法によって、より正しい結果を得ることができる。
【0060】
このように、実施形態1では、文字認識ソフトウェアから得られた台本電子テキスト70と、音声認識ソフトウェアで得られた音声テキスト90との相違データを求め、この相違データに基づいて台本電子テキスト70を修正して電子化テキストを生成するようにしたので、簡易な構成によってより正確な電子化テキストを人手や時間を極力費やすことなく得ることが可能となる。また、この場合、リスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することが可能となる。
【0061】
<実施形態2>
図7は本発明による字幕番組データ制作システムの実施形態2を示すブロック図である。なお、図1と同一構成部分には同一符号を付してその説明は省略し、相違点のみを説明することとする。
【0062】
図7に示す実施形態2の字幕番組データ制作システムが、図1に示した実施形態1における字幕番組データ制作システムと異なる点は、文字認識手段11として3つの異なった特性の文字認識ソフトウェアA,B,Cを備えるとともに、音声認識手段21として3つの異なった特性の音声認識ソフトウェアA,B,Cを備え、これら3つの文字認識ソフトウェアA〜Cの出力の多数決によって台本電子テキスト70を生成するとともに、これら3つの音声認識ソフトウェアA〜Cの出力の多数決によって音声テキスト90を生成するようにしたことである。このため、台本電子テキスト生成部10には、文字認識手段11の他に、多数決処理手段12が設けられるとともに、音声テキスト生成部20には、音声認識手段21の他に、多数決処理手段22が設けられている。
【0063】
次に実施形態2の作用を説明する。
【0064】
台本電子テキスト生成部10では、印刷台本60に記載された文字列がスキャナで読み込まれ、文字認識手段11の各文字認識ソフトウェアA,B,Cにおいて各別に文字認識され、3つの電子化テキストが生成される。これら3つの電子化テキストA,B,Cは種類もしくは設定状態の異なるものであり、その認識特性に基づく差が含まれたものとする。これらの文字認識ソフトウェアA,B、Cは多数決処理手段12において修正テーブル13の誤り情報を参照しつつ多数決処理される。すなわち、多数決処理手段12では、3つの電子化テキストを比較照合した結果、2対1となれば、2の結果を採用する。仮に1対1対1と三者三様の場合には、予め決めておいた文字認識ソフトウェア(例えば、文字認識ソフトウェアA)の結果を採用する。こうして1つの電子化テキストが採用され、台本電子テキスト70として音声テキスト生成部20と、形態素・構文解析部40と、相違検出部30とに出力される。
【0065】
一方、音声認識手段21の各音声認識ソフトウェアA,B,Cにおいては各別に番組音声80をなぞるようにして発せられたリスピーク音声85が音声認識され、3つの電子化テキストが生成される。その際、時間情報もそれぞれ出力される。これら3つの電子化テキストおよび時間情報は多数決処理手段22において台本電子テキスト70を参照しつつ多数決処理される。すなわち、多数決処理手段22では、3つの電子化テキストなどを比較照合した結果、2対1となれば、2の結果を採用する。仮に1対1対1と三者三様の場合には、予め決めておいた音声認識ソフトウェア(例えば、音声認識ソフトウェアA)の結果を採用する。こうして1つの電子化テキストと時間情報が採用され、音声テキスト90および時間情報100として出力される。以下の処理は実施形態1と同様である。
【0066】
このように、実施形態2によれば、3つの文字認識ソフトウェアの多数決処理によって得られた台本電子テキスト70と、3つの音声認識ソフトウェアの多数決処理によって得られた音声テキスト90および時間情報100を活用して相違データを求め、この相違データに基づいて台本電子テキスト70を手動修正して電子化テキストを生成するようにしたので、より一層正確な電子化テキストを人手や時間を極力費やすことなく得ることが可能となる。また、この場合、リスピーク手法を用いることにより音声認識率を向上させて効率的な字幕番組データを作成することが可能となる。
【0067】
【発明の効果】
以上説明したように本発明によれば、台本電子テキストを活用するとともに、リスピーク手法により大幅に音声認識率を向上させて効率的な字幕番組データを作成することのできる字幕番組データ制作システムを提供することができる。
【図面の簡単な説明】
【図1】本発明による字幕番組データ制作システムに実施形態1の構成を示すブロック図である。
【図2】音声認識ソフトウェアによるクリーン音声の認識結果を示す説明図である。
【図3】音声認識ソフトウェアによるクリーン音声の認識結果を発音記号列で示す説明図である。
【図4】改頁字幕のタイミング算出例を示す説明図である。
【図5】改頁字幕のタイミング算出例を示す説明図である。
【図6】タイミング情報付与に利用される音素時間表の一例を示す説明図である。
【図7】本発明による字幕番組データ制作システムに実施形態1の構成を示すブロック図である。
【図8】字幕番組データ制作の処理手順を示す説明図である。
【符号の説明】
10 台本電子テキスト生成部
11 文字認識手段
12 多数決処理手段
13 修正テーブル
20 音声テキスト生成部
21 音声認識手段
22 多数決処理手段
23,23A,23B,23C 単語登録部
30 相違検出部
31 処理ルール部
35 字幕整形タイミング付与部
40 形態素・構文解析部
50 指定形態素抽出部
60 印刷台本
70 台本電子テキスト
80 番組音声
85 リスピーク音声
90 音声テキスト
100 時間情報
110 字幕番組データ

Claims (4)

  1. 文字認識ソフトウェアにより台本上の文字を文字認識して電子化テキストを生成し、これを台本電子テキストとして出力する台本電子テキスト生成部と、
    音声認識ソフトウェアにより、前記台本上の文字に基づいて発せられた番組音声をなぞるようにして発せられたリスピーク音声を音声認識して音声テキストを生成する音声テキスト生成部と、
    この音声テキスト生成部により得られた音声テキストと、前記台本電子テキスト生成部により得られた台本電子テキストとの相違点を検出して相違データを生成する相違点検出部と、
    を備えたことを特徴とする字幕番組データ制作システム。
  2. 請求項1に記載の字幕番組データ制作システムにおいて、
    前記台本電子テキスト生成部は、複数の文字認識ソフトウェアを備え、各文字認識ソフトウェアにより前記台本を文字認識して各別の電子化テキストを生成する文字認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを台本電子テキストとして出力する多数決処理手段とを有する、
    ことを特徴とする字幕番組データ制作システム。
  3. 請求項1または2に記載の字幕番組データ制作システムにおいて、
    前記音声テキスト生成部は、複数の音声認識ソフトウェアを備え、各音声認識ソフトウェアにより前記リスピーク音声を音声認識して各別の電子化テキストを生成する音声認識手段と、生成された各電子化テキストを多数決処理して一つの電子化テキストを生成し、これを音声テキストとして出力する多数決処理手段とを有する、
    ことを特徴とする字幕番組データ制作システム。
  4. 請求項1または3に記載の字幕番組データ制作システムにおいて、
    前記リスピーク音声を認識する前記音声認識ソフトウェアに事前に前記台本電子テキストの情報が登録されていることを特徴とする字幕番組データ制作システム。
JP2003133642A 2003-05-12 2003-05-12 字幕番組データ制作システム Withdrawn JP2004334133A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003133642A JP2004334133A (ja) 2003-05-12 2003-05-12 字幕番組データ制作システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003133642A JP2004334133A (ja) 2003-05-12 2003-05-12 字幕番組データ制作システム

Publications (1)

Publication Number Publication Date
JP2004334133A true JP2004334133A (ja) 2004-11-25

Family

ID=33508115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003133642A Withdrawn JP2004334133A (ja) 2003-05-12 2003-05-12 字幕番組データ制作システム

Country Status (1)

Country Link
JP (1) JP2004334133A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10276150B2 (en) 2016-09-12 2019-04-30 Kabushiki Kaisha Toshiba Correction system, method of correction, and computer program product
US10609455B2 (en) 2017-03-21 2020-03-31 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product
US10614265B2 (en) 2016-03-16 2020-04-07 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for correcting speech recognition error

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614265B2 (en) 2016-03-16 2020-04-07 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for correcting speech recognition error
US10276150B2 (en) 2016-09-12 2019-04-30 Kabushiki Kaisha Toshiba Correction system, method of correction, and computer program product
US10609455B2 (en) 2017-03-21 2020-03-31 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product

Similar Documents

Publication Publication Date Title
Furui et al. Speech-to-text and speech-to-speech summarization of spontaneous speech
CA2833656C (en) System and method for enhancing comprehension and readability of text
Furui et al. Toward the realization of spontaneous speech recognition
US6442518B1 (en) Method for refining time alignments of closed captions
US20070011012A1 (en) Method, system, and apparatus for facilitating captioning of multi-media content
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
CN113035199A (zh) 音频处理方法、装置、设备及可读存储介质
CN110781649A (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
CN110740275A (zh) 一种非线性编辑系统
WO2004093078A1 (en) Process for adding subtitles to video content
JP2000324395A (ja) 字幕へのタイミング情報付与方法
Batista et al. Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation
JP4210723B2 (ja) 自動字幕番組制作システム
JP2004334133A (ja) 字幕番組データ制作システム
JP2003186491A (ja) 電子化テキスト作成支援システム
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质
CN112233661B (zh) 基于语音识别的影视内容字幕生成方法、系统及设备
JP2001282779A (ja) 電子化テキスト作成システム
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质
JP2002132282A (ja) 電子テキスト読み上げ装置
Campbell On the structure of spoken language
Wald Concurrent collaborative captioning
Eizmendi Automatic speech recognition for live TV subtitling for hearing-impaired people
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP2002091967A (ja) 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040903

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801