JP2002351490A - 字幕へのタイミング情報付与方法 - Google Patents

字幕へのタイミング情報付与方法

Info

Publication number
JP2002351490A
JP2002351490A JP2001160984A JP2001160984A JP2002351490A JP 2002351490 A JP2002351490 A JP 2002351490A JP 2001160984 A JP2001160984 A JP 2001160984A JP 2001160984 A JP2001160984 A JP 2001160984A JP 2002351490 A JP2002351490 A JP 2002351490A
Authority
JP
Japan
Prior art keywords
subtitle
sentence
timing
subtitles
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001160984A
Other languages
English (en)
Inventor
Eiji Sawamura
英治 沢村
Takao Monma
隆雄 門馬
Takahiro Fukushima
孝博 福島
Ichiro Maruyama
一郎 丸山
Terumasa Ebara
暉将 江原
Katsuhiko Shirai
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
NEC Corp
Telecommunications Advancement Organization
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Mitsubishi Electric Corp
NEC Corp
Nippon Hoso Kyokai NHK
Telecommunications Advancement Organization
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, NEC Corp, Nippon Hoso Kyokai NHK, Telecommunications Advancement Organization, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001160984A priority Critical patent/JP2002351490A/ja
Publication of JP2002351490A publication Critical patent/JP2002351490A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Studio Circuits (AREA)

Abstract

(57)【要約】 【課題】 音声認識のみによらず、音声レベルなどの特
徴を用いて、例えば文単位でのアナウンス音声の開始、
終了のタイミングを検出することにより、タイミング情
報の自動付与を高速化する。 【解決手段】 入力された音声の指定区間において、文
単位でのアナウンス音声の開始、終了のタイミングを音
声のレベルの特徴を用いて検出し、検出されたタイミン
グを表示単位字幕文の開始、終了のタイミングの少なく
とも一部として適用する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識技術のみ
を適用することなく、簡単かつ高速でに字幕へのタイミ
ング情報を自動付与する方法に関する。
【0002】[発明の概要]本発明は、字幕番組を自動
的に制作するシステムに適用する字幕へのタイミング情
報付与方法の改良に関するもので、特に、音声認識のみ
によらず、ブロック・ケプストラム・フラックス法など
による音声レベルなどの特徴をも用いて、例えば文単位
でのアナウンス音声の開始、終了のタイミングを検出も
しくは、アナウンサが話していないポーズ区間を検出
し、そのタイミングを表示単位字幕文の開始、終了のタ
イミングの少なくとも一部として適用することによっ
て、自動的なタイミングの付与を高速化しようとするも
のである。
【0003】従来、表示単位字幕文の開始、終了タイミ
ングの付与は、人手によるかまたはその各タイミングを
比較的時間を要する音声と字幕文テキストとの照合によ
っていたため、多くの時間を必要としていた。このタイ
ミング付与を自動化・高速化することによって、今後、
適用分野・番組数などの拡大が見込まれる字幕放送の字
幕番組制作上に大きな効果が期待される。
【0004】
【従来の技術】字幕つきテレビ放送を受信者が利用する
際、字幕が読みやすく、理解しやすいものであることが
重要である。したがって、字幕番組制作における字幕原
稿作成には、熟練した人手を使い、多大の労力と時間を
かけており、それにより読み易く、理解し易い、字幕と
なるよう制作している。
【0005】しかし、今後、適用分野や番組数などの拡
大が見込まれる字幕放送において、この熟練した人手、
多大の労力や時間を要するこのような形態の字幕番組制
作システムでは、字幕番組制作上に大きなネックとなる
ものと考えられる。
【0006】現在、最も多く行われている字幕番組制作
形態では、タイムコードを映像にスーパーした番組テー
プとタイムコードを音声チャンネルに記録した番組テー
プおよび番組台本を素材とし、これを放送関係経験のあ
るOBなど専門知識のある人によって、(1)番組アナ
ウンスの要約書き起こしと、(2)字幕表示イメージ化
(別途定めのある字幕原稿作成要領による)および
(3)その開始、終了タイムコード記入を行い、字幕原
稿を作成している。この字幕原稿をもとに、オペレータ
が電子化字幕を作成し、担当の字幕制作責任者、原稿作
成者、電子化してオペレータ立ち会いのもとで、試写、
校正を行って字幕完成としている。
【0007】
【発明が解決しようとする課題】しかしながら、現在放
送中の字幕番組のなかで、予めアナウンス原稿が作成さ
れ、その原稿がほとんど修正されることなく実際の放送
字幕となっていると推測される番組がいくつかある。例
えば、「生きもの地球紀行」という字幕付き情報番組を
実際に調べて見ると、アナウンス音声と字幕内容はほと
んど共通であり、共通の原稿をアナウンス用と字幕用の
双方に利用しているものと推測出来る。
【0008】このようにアナウンス音声と字幕内容が極
めて類似し、アナウンス用と字幕用の双方にほぼ共通の
原稿を利用しており、その原稿が電子化されている番組
を想定した場合、(1)の番組アナウンスの要約書き起
こし作業はほとんど必要ないことになる。この場合、残
る作業は、(2)の字幕表示イメージ化、及び(3)の
開始・終了タイムコード記入、の各作業工程である。そ
こで、本発明者らは、これら各作業工程の簡略化を企図
して鋭意研究を進めた結果、(3)の開始・終了タイム
コード記入の工程を、人手を介することなく自動化でき
る新規な技術を想到するに至ったのである。
【0009】本発明は、上述した実情に鑑みてなされた
ものであり、音声認識のみによらず、音声レベルの特徴
をも用いて、例えば文単位でのアナウンス音声の開始、
終了のタイミングを検出もしくは、アナウンサが話して
いないポーズ区間を検出し、そのタイミングを表示単位
字幕文の開始、終了のタイミングの少なくとも一部とし
て適用することによって、自動的なタイミングの付与を
高速化することのできる字幕へのタイミング情報付与方
法を提供することを目的とする。
【0010】
【課題を解決するための手段】上記の目的を達成するた
めに本発明は、請求項1では、入力された音声の指定区
間において、文単位でのアナウンス音声の開始、終了の
タイミングを音声のレベルの特徴を用いて検出し、検出
されたタイミングを表示単位字幕文の開始、終了のタイ
ミングの少なくとも一部として適用することを特徴とし
ている。
【0011】請求項2では、請求項1に記載の字幕作成
装置において、前記音声のレベルの特徴を用いたタイミ
ングの検出は、ブロック・ケプストラム・フラックス法
によって行われることを特徴としている。
【0012】
【発明の実施の形態】<本発明の原理>実施の形態の説
明に先立って、本発明の原理的な説明をする。
【0013】前述したように、現在放送中の字幕番組の
なかで、予めアナウンス原稿が作成され、その原稿がほ
とんど修正されることなく実際の放送字幕となっている
と推測される番組がいくつかある。例えば、「生きもの
地球紀行」という字幕付き情報番組を実際に調べて見る
と、アナウンス音声と字幕内容はほぼ共通であり、ほぼ
共通の原稿をアナウンス用と字幕用の両方に利用してい
ると推測できる。
【0014】そこで、本発明者らは、このようにアナウ
ンス音声と字幕の内容が極めて類似し、アナウンス用と
字幕用の両方に共通の原稿を利用しており、その原稿が
電子化されている番組を想定したとき、字幕用テキスト
を所定の表示形式に従う適切箇所で分割後の表示単位字
幕の各々に対し、その分割箇所に対応した高精度のタイ
ミング情報を自動的に付与し得る字幕へのタイミング情
報付与方法を想到するに至った。
【0015】ここで、本発明を想到するに至った背景に
ついて述べると、より読みやすく、理解しやすい字幕の
観点から字幕文テキストの分割問題を考える場合、当然
ながら読みやすく、理解しやすい字幕とはどのようなも
のかが問題となる。この問題に対する定量的に明確な回
答は未だ見出せていないが、しかし、実験字幕番組の制
作や字幕評価実験などの貴重な経験を通して、定性的な
がら考慮すべき要素が明らかになりつつある。
【0016】字幕の読み易さ、理解し易さの観点から
は、一般にある程度以上の文字数が同時的に表示され、
この表示が所要時間継続しているのが良いといわれる
が、文字数や表示継続時間は、表示する字幕がどのよう
に読まれるかと大きく関わる。
【0017】例えば聴覚障害者が字幕付テレビ番組を見
る場合を想定すると、視覚を介して、映像情報と音声情
報とを交互に見ることになるので、本来字幕は間欠的に
しか見ることが出来ない。そのため、音声情報をより読
みやすく、理解しやすい字幕として表示することで、字
幕を見ている割合を出来るだけ少なくして、その分だけ
映像を多く見られるようにするのが望ましい。
【0018】この場合の字幕の見方は、字幕の表示形式
にも依存するが、例えば2行の表示単位字幕を一括入れ
換えする表示形式を例示し、表示される全字幕の捕捉を
試みた場合、一般的には、基準となる字幕文字(例え
ば、音声アナウンスの進行に対応する文字)を中心とし
て、先読み、後読みもしくはその両方を行うことにな
る。
【0019】先読み、後読みもしくはその両方を行うこ
とになる要因としては、映像の注視又はまばたきや脇見
などを含む字幕から目を離している見逃し動作時間が存
在するからであり、1回当たりの見逃し動作時間の長さ
は、経験的には0.5〜2秒間程度であると思われる。
【0020】ここで、字幕の表示速度を200字/分と
想定すると、その最大時間である2秒間は約7文字に相
当し、このことから、1回の見逃し動作で7文字分の字
幕文字を見逃すおそれがあることがわかる。
【0021】このことから、基準となる字幕文字を中心
に連続した14文字が最低限の表示単位として必要であ
り、再び字幕に注視点が戻って字幕を読み取り、認識す
る分を前後各5〜7文字とすると、内容の連続した24
〜29文字程度の字幕を同時に画面表示するのが望まし
いことがわかる。ちなみに現行の字幕放送では一行15
文字で二行表示が多く、最大30文字程度まで表示され
ている。
【0022】また、上記の分析結果に従い、字幕が表示
されてから実際に読まれるまで最悪2秒間程度必要なも
のと仮定すると、文字数が7文字以下の字幕を文字数相
当の時間のみ表示した場合には、この表示字幕が全く読
まれないおそれがある。例えば日本語の特質上、否定文
では否定語が文末におかれるので、この否定語部分が上
記の状態に該当するような分割はきわめて悪い影響をも
たらす可能性があり、このような分割は可及的に回避す
る必要がある。
【0023】その対策として、少ない文字数への分割を
しない、又は少ない文字数では表示時間を長くする、な
どの手法を適用するのが望ましい。
【0024】次の問題は、アナウンサのナレーションの
隙間(テキスト上では文間に相当)である非スピーチ区
間、つまりポーズの取り扱いである。字幕文中に長いポ
ーズが存在する場合には、このポーズの前後は相互に異
なる内容に関わる字幕文である可能性が高いことから、
そのポーズにまたがるような字幕表示は好ましくない。
逆に極めて短いポーズが存在する場合には、このポーズ
の前後は相互に共通の内容に関わる字幕文である可能性
が高いことから、むしろ連続した字幕文として取り扱う
方が好ましい。このことから、ポーズ時間の長さを考慮
した字幕文の分割手法を適用するのが望ましい。
【0025】さらに、ひとかたまりの文字群は可能な限
り分割せず、同一行に表示するのが望ましい。この例と
して、通常の単語のみならず、連続する漢字、カタカ
ナ、アラビア数字、英字などがあり、(xxx)や「xxx」
などと表わさるルビ、略称に対する正式呼称、注釈など
もこの範疇として取り扱う。
【0026】このように、より読みやすく、理解しやす
い字幕を得ることを目的として字幕文テキストを分割す
るにあたっては、上述した要素を充分考慮する必要があ
る。ところが、この字幕文テキストの分割に伴い、適切
箇所で分割後の表示単位字幕の各々に対し、その開始お
よび終了に対応したタイミング情報を付与しなければな
らないが、分割前の各文の文頭、文末箇所数に比較して
遙かに多い箇所のタイミング情報が必要となるといった
新たな課題を生ずる。
【0027】そこで、本発明は、本発明で提案するアナ
ウンス音声と字幕文テキストの同期検出技術、及び日本
語の読み及びその発音に関する統計的特徴解析手法等を
も適用することにより、所定の表示形式に従って適切箇
所で分割された表示単位字幕の各々に対し、その開始お
よび終了に対応した高精度のタイミング情報の自動付与
を高速で実現するようにしている。
【0028】なお従来は、字幕文テキストとそれに対応
するアナウンスなどの音声とを音声処理技術のみを利用
して照合し、音声に対する字幕文テキストのタイミング
を検出して付与しているが、この処理だけでも番組音声
時間の数倍以上の時間を必要とする欠点があった。
【0029】一方、字幕文テキストを字幕表示に適した
行数、文字数の各表示単位字幕文に分割する際、アナウ
ンスの長いポーズ(ナレーションの隙間)にまたがる字
幕分割は好ましくない。しかし、極めて短いポーズの場
合は、むしろ連続した文として扱う方が好ましいので、
字幕分割にはアナウンスのポーズ時間を考慮する必要が
ある。この点に関しては、例えば、ブロック・ケプスト
ラム・フラックス法などを適用して、音声レベルやその
継続時間などの特徴を巧みに処理することにより、例え
ば字幕文テキストへの文単位でのアナウンス音声の開
始、終了タイミングやこれに伴う文間ポーズ時間をポー
ズデータとして検出することが可能である。しかも、こ
れらの処理は、番組音声時間の数分の一以下の時間で高
速処理することができる。
【0030】ただし、この方法は音声にアナウンス音声
以外の音声が混じっている場合など、正しいタイミング
検出を阻害する要因もあるので、その検出結果を検証
し、確度の高いタイミングのみを使用しなければならな
い。ただし、適切な手法を適用すれば、各字幕文テキス
トにおける開始、終了のタイミングのかなりの部分は、
前記の音声レベルなどを用いて検出した前記のタイミン
グを適用することができる。なお、音声レベルなどを用
いるタイミング検出で必要な結果が得られない部分は、
従来の字幕文テキストとアナウンス音声との音声処理技
術を活用した照合法を適用する。
【0031】このように本発明では、ブロック・ケプス
トラム・フラックス法に代表される音声レベルなどの特
徴を用いるタイミング検出、および後述する内挿演算に
よるタイミングの付与は、いずれもかなり高速で行うこ
とが可能なので、この手法のみでタイミング付与が完了
するような番組の場合は、その番組音声時間の数分の一
以下の時間で高速処理することが可能となる。その結
果、従来、このタイミング付与に多くの時間を要してい
たが、今後適用分野・番組数などの拡大が見込まれる字
幕放送において、特に字幕番組制作上の大きな効果が期
待される。
【0032】さて、本実施形態の説明に先立って、以下
の説明で使用する用語の定義付けを行うと、本実施形態
の説明において、表示対象となる字幕文の全体集合を
「字幕文テキスト」と言い、字幕文テキストのうち、適
宜の句点で区切られたひとかたまりの字幕文の部分集合
を「単位字幕文」と言い、ディスプレイの表示画面上に
おいて表示単位となる字幕を「表示単位字幕」と言い、
表示単位字幕に含まれる各行の個々の字幕を表現すると
き、これを「表示単位字幕行」と言い、表示単位字幕行
のうちの任意の文字を表現するとき、これを「字幕文
字」と言うことにする。なお、表示画面上に単独行の表
示単位字幕を表示するとき、「表示単位字幕」と「表示
単位字幕行」とは同義となる。
【0033】図1は本発明に係る字幕へのタイミング情
報付与方法が適用された自動字幕番組制作システムの構
成を示すブロック図である。
【0034】同図に示すように、自動字幕番組制作シス
テム11は、電子化原稿記録媒体13と、同期検出装置
15と、統合化装置17と、形態素解析部19と、分割
ルール記憶部21と、番組素材VTR例えばディジタル
・ビデオ・テープ・レコーダ(以下、「D−VTR」と
言う)23と、を含んで構成されている。
【0035】電子化原稿記録媒体13は、例えばハード
ディスク記憶装置やフロッピー(登録商標)ディスク装
置等より構成され、表示対象となる字幕の全体集合を表
す字幕文テキストを記憶している。なお、本実施形態で
は、ほぼ共通の電子化原稿をアナウンス用と字幕用の双
方に利用する形態を想定しているので、電子化原稿記録
媒体13に記憶される字幕文テキストの内容は、表示対
象字幕と一致するばかりでなく、素材VTRに収録され
たアナウンス音声とも一致しているものとする。
【0036】同期検出装置15は、同期検出点付字幕文
と、これを読み上げたアナウンス音声との間における時
間同期を検出する機能等を有している。この場合の同期
検出点は、通常字幕文テキストの各文の文頭、文末を指
定する。さらに詳しく述べると、同期検出装置15に
は、統合化装置17で付与した同期検出点付字幕文と、
番組素材VTRから取り込んだこの字幕文に対応するア
ナウンス音声及びそのタイムコードが入力されており、
このアナウンス音声に含まれるポーズ点の検出と確度検
証機能、および検証されなかった指定同期検出点のタイ
ミング情報、すなわちタイムコードを音声認識処理手法
で検出する機能があり、これら機能で検出したタイムコ
ードやポーズ区間データを統合化装置17宛に送出する
機能を有している。
【0037】なお、アナウンス音声を対象とした音声認
識処理を含むアナウンス音声と字幕文テキスト間の同期
検出は、本発明者らがすでに研究開発した技術を適用す
ることで低速ながら高精度に実現可能である。
【0038】すなわち、アナウンス音声に対する字幕送
出タイミング検出の流れは、図2に示すように、まず、
かな漢字交じり文で表記されている字幕文テキストを、
音声合成などで用いられている読付け技術を用いて発音
記号列に変換する。この変換には、「日本語読付けシス
テム」を用いる。次に、あらかじめ学習しておいた音響
モデル(HMM:隠れマルコフモデル)を参照し、「音
声モデル合成システム」によりこれらの発音記号列をワ
ード列ペアモデルと呼ぶ音声モデル(HMM)に変換す
る。そして、「最尤照合システム」を用いてワード列ペ
アモデルにアナウンス音声を通して比較照合を行うこと
により、字幕送出タイミングの検出を行う。
【0039】字幕送出タイミング検出の用途に用いるア
ルゴリズム(ワード列ペアモデル)は、キーワードスポッ
ティングの手法を採用している。キーワードスポッティ
ングの手法として、フォワード・バックワードアルゴリ
ズムにより単語の事後確率を求め、その単語尤度のロー
カルピークを検出する方法が提案されている。ワード列
ペアモデルは、図3に示すように、これを応用して字幕
文と音声を同期させたい点、すなわち同期点の前後でワ
ード列1 (Keywords1)とワード列2 (Keywords2)とを連
結したモデルになっており、ワード列の中点(B)で尤
度を観測してそのローカルピークを検出し、ワード列2
の発話開始時間を高精度に求めることを目的としてい
る。ワード列は、音素HMMの連結により構成され、ガ
ーベジ (Garbage)部分は全音素HMMの並列な枝として
構成されている。また、アナウンサが原稿を読む場合、
内容が理解しやすいように息継ぎの位置を任意に定める
ことから、ワード列1,2間にポーズ (Pause)を挿入し
ている。
【0040】本発明におけるポーズ時間の検出機能は、
前記のような音声認識処理をすることなく、素材VTR
から供給される音声のレベルや継続時間、およびそのタ
イムコードから、例えばそのレベルが指定レベル以下で
連続する開始、終了タイムコードを検出するものであ
り、後述するブロック・ケプストラム・フラックス法な
どの方法によって実行される。
【0041】統合化装置17は、電子化原稿記録媒体1
3から読み出した字幕文テキストのうち、文頭を起点と
した所要文字数範囲を目安とした単位字幕文を順次抽出
する単位字幕文抽出機能と、単位字幕文抽出機能を発揮
することで抽出した単位字幕文を、所望の表示形式に従
う表示単位字幕に変換する表示単位字幕化機能と、表示
単位字幕化機能を発揮することで変換された表示単位字
幕に対し、同期検出装置15から送出されてきたタイム
コード及びポーズ点を利用してタイミング情報を付与す
るタイミング情報付与機能と、を有している。
【0042】形態素解析部19は、漢字かな交じり文で
表記されている単位字幕文を対象として、形態素毎に分
割する分割機能と、分割機能を発揮することで分割され
た各形態素毎に、表現形、品詞、読み、標準表現などの
付加情報を付与する付加情報付与機能と、各形態素を文
節や節単位にグループ化し、いくつかの情報素列を得る
情報素列取得機能と、を有している。これにより、単位
字幕文は、表面素列、記号素列(品詞列)、標準素列、
及び情報素列として表現される。
【0043】分割ルール記憶部21は、単位字幕文を対
象とした改行・改頁箇所の最適化を行う際に参照される
分割ルールを記憶する機能を有している。
【0044】D−VTR23は、番組素材が収録されて
いる番組素材VTRテープから、映像、音声、及びそれ
らのタイムコードを再生出力する機能を有している。
【0045】次に、自動字幕番組制作システム11にお
いて主要な役割を果たす統合化装置17の内部構成につ
いて説明していく。
【0046】統合化装置17は、単位字幕文抽出部33
と、表示単位字幕化部35と、タイミング情報付与部3
7と、を含んで構成されている。
【0047】単位字幕文抽出部33は、電子化原稿記録
媒体13から読み出した、単位字幕文が表示時間順に配
列された字幕文テキストのなかから、例えば70〜90
字幕文字程度を目安とし、付加した区切り可能箇所情報
等を活用するなどして処理単位とするテキスト文を順次
抽出する機能を有している。なお、区切り可能箇所情報
としては、形態素解析部19で得られた文節データ付き
形態素解析データ、及び分割ルール記憶部21に記憶さ
れている分割ルール(改行・改頁データ)を利用するこ
ともできる。ここで、上述した分割ルール(改行・改頁
データ)について述べると、分割ルール(改行・改頁デ
ータ)で定義される改行・改頁推奨箇所は、第1に句点
の後ろ、第2に読点の後ろ、第3に文節と文節の間、第
4に形態素品詞の間、を含んでおり、分割ルール(改行
・改頁データ)を適用するにあたっては、上述した記述
順の先頭から優先的に適用するのが好ましい。
【0048】表示単位字幕化部35は、単位字幕文抽出
部33で抽出した単位字幕文、単位字幕文に付加した区
切り可能箇所情報、及び同期検出装置15からの情報等
に基づいて、単位字幕文抽出部33で抽出した単位字幕
文を、所望の表示形式に従う少なくとも1以上の表示単
位字幕に変換する表示単位字幕化機能を有している。
【0049】タイミング情報付与部37は、表示単位字
幕化部35で変換された表示単位字幕に対し、同期検出
装置15から送出されてきた字幕文テキストの各文単位
のポーズ情報や同期検出点情報としてのタイムコードを
利用して、タイミング内挿手法を用いてタイミング情報
を付与するタイミング情報付与機能を有している。
【0050】次に、本発明に係る字幕へのタイミング情
報付与方法について、図4乃至図9を参照しつつ説明す
る。
【0051】既述したように、アナウンス音声に対応す
る字幕に関するタイミング情報の同期検出は、本発明者
らがすでに研究開発したアナウンス音声を対象とした音
声認識処理を含むアナウンス音声と字幕文テキスト間の
同期検出技術を適用することで高精度に実現可能である
が、この同期検出処理は前記のようにかなり複雑であ
り、多くの処理時間を要するために、各表示単位字幕の
全ての始点/終点を対象として同期検出技術を適用した
のでは、同期検出点が過多となることも含め、字幕番組
の制作に非常に長い時間を必要とする欠点がある。
【0052】本発明では、音声のポーズ区間の検出に、
音声レベルの特徴を利用する例えばブロック・ケプスト
ラム・フラックス法を用いている。ブロック・ケプスト
ラム・フラックス法は、音響データ内の複数のLPCケ
プストラムベクトルを基準フレームから相互に比較する
ことで、音響データ内容の切り替わり点をより安定に検
出する手法である。
【0053】次に本発明におけるタイミング情報付与処
理を字幕文テキストを要約しない場合と、要約する場合
に分けて説明する。
【0054】<表示単位字幕文として字幕文テキストを
要約しない場合>初めに、表示単位字幕文として字幕文
テキストを要約せずにそのまま用いる場合について図4
のフローチャートを参照して説明する。
【0055】先ず、音声データからポーズ開始タイミン
グ、継続時間を求める。その適否を検証し必要な修正を
する(ステップST1)。
【0056】次に、比較的長いポーズ(例えば2秒以
上)で字幕用テキストをブロックに分割し、ブロックテ
キスト文としてその開始、終了タイミングを付与する
(ステップST2、3)。
【0057】次いで、ブロックテキスト文の継続時間を
その総読み数(計算推定)で割り、当該範囲の平均読み
速度を求める(ステップST4)。
【0058】次いで、各ブロックテキスト文を、中の長
さのポーズ箇所を改行点とする表示単位字幕文に分割す
る。この場合、分割ルールを適用する(ステップST
5)。
【0059】次いで、各分割字幕文の文頭、文末に対応
するタイミングを、ブロックテキスト文の開始、終了タ
イミングやポーズのタイミング、平均読み速度を基に計
算し、付与する。この場合、文字数、文字種法、または
発音数法を適用する(ステップST6)
【0060】そして、各表示単位字幕の表示時間をチェ
ックし、必要ならば終了タイミングを修正する(ステッ
プST7)。
【0061】次に、上述した図4に示す要約処理をしな
い場合のタイミング情報の付与の処理手順について図5
乃至図7に示す具体例を用いて説明する。
【0062】図5は、音声のポーズ検出によるポーズ情
報を活用した、表示単位字幕へのタイミング付与例にお
ける字幕用原文テキスト、図6は、図5に示した各字幕
用原文テキストのかな数、漢字数、読み、時間、ポー
ズ、テキストのスタート時間、テキストのストップ時
間、次のテキスト文のスタート時間、および読速度をそ
れぞれ示している。また、図7は図5に示した字幕用原
文テキストから作成された表示単位字幕文(/の左側が
一行目、/の右側が二行目)とそのタイミング情報を示
している。
【0063】図5のNo.1「今日の舞台は東アフリカケ
ニアの大草原です。」とある字幕原文テキストでは、図
6から理解できるように、かな数は“12”、漢字数は
“8”、読み数(yomi)は、“25.02”、読み
の時間は“3850mS”、ポーズの時間は、“101
0mS”、スタート時間は、49150mS(49.1
50S)、ストップ時間は、“53000mS(=5
3.000S)、次のスタート時間は“54010mS
(54.010S)”、話速は、15.39mS(=3
85/25.02)となる。ここで、“yomi”は、
漢字部分(および数字部分)がかなの約1.86倍の読
み時間で表わすことができることから、12+7×1.
86=25.02と計算したものである。
【0064】このようにして求められたポーズ情報中
の、比較的長いポーズ(例えば2秒以上)で字幕用テキ
ストをブロックに分割し、ブロックテキスト文としてそ
の開始、終了タイミングを付与して作成(図4のステッ
プST1〜ST5の処理で作成)された表示単位字幕文
が図7に示されている。図7中、太い実線で囲んだ数字
が計算で求められた時間であり、長い処理時間を必要と
する同期検出点としての指定を大幅に低減した。また、
右端に「ブロック」として示す区切りは、このブロック
間に2秒程度以上のポーズがあり、それを根拠として字
幕処理単位を設定したものである。つまり字幕用の改
行、改頁、タイミング処理はそれぞれの処理単位内で完
結させることができ、またそのタイミング付与処理が、
そのブロックの時間以内に完了(本発明による高速化
で)できるようになれば、字幕データ作成はブロック時
間経過後には終了し、この部分については直ちに試写可
能な、逐次字幕制作・試写手法が適用可能となる。この
手法の所要時間は、ほぼ番組時間と同じであり、全字幕
データ作成後に試写する場合は2倍以上の時間となるの
で、大幅に時間短縮を可能とする大きな効果がある。
【0065】<ブロック・ケプストラム・フラックス法
などによる音声のポーズ区間の検出>本発明では、音声
のポーズ区間を検出する方法として、音声のレベル情報
を利用した例えばブロック・ケプストラム・フラックス
法などを用いて行った。
【0066】図8は、実際のテレビ番組(ハンドウイル
カ)の音声をブロック・ケプストラム・フラックス法を
用いて分析した結果を示している。なお、実際には、左
右両チャンネルの音声があるが、図8では、右チャンネ
ルの結果のみが示されている。また、図8において、棒
グラフは実際に調べた音声(スピーチ)区間を示してい
る。解析波形を適当なレベル(例えば、図8では0.0
55)でスライスして、上の範囲を音声(スピーチ)区
間として比較すると、所定の継続時間以上では棒グラフ
で示す音声(スピーチ)区間とかなり一致しているのが
分かる。“↑”で示す部分がポーズ区間を示している。
【0067】<表示単位字幕文として字幕文テキストを
要約する場合>次に、字幕文テキストを要約する場合の
処理について図9に示すフローチャートを用いて説明す
る。
【0068】先ず、音声データからポーズ開示タイミン
グ及び継続時間を求める(ステップST11)。これ
は、
【0069】次に、字幕用原文テキストの総読み数(計
算推定)で、ポーズを除く実音声時間を割り、当該範囲
の平均読み速度を以下のようにして求める(ステップS
T12)。
【0070】
【数1】 平均読み速度=字幕用原文テキストの総読み数/実音声時間(ポーズ時間を 除く)・・・(1)
【0071】次に、読み速度と文字並びを利用して、ポ
ーズ開始タイミングに対応する字幕用テキスト上の位置
を計算し、その近傍に位置するポーズ候補文字種(句
点、読点等)を求める。そこにポーズ情報を挿入する手
法を繰り返し適用して、ポーズ情報挿入原文テキストを
作成する(ステップST13)。
【0072】次いで、字幕用原文から要約文を作成する
(ステップST14)。
【0073】次に、作成された要約文を長いポーズ箇所
で改頁、やや長いポーズ箇所で改行を原則とする表示単
位字幕文に分割する。この分割には分割ルールを適用す
る(ステップST15)。
【0074】次に、分割字幕文の文頭、文末に対応する
原文のポーズ情報挿入原文テキスト位置を検出する(ス
テップST16)。
【0075】次いで、ポーズ情報挿入原文テキストにお
ける検出点のタイミングを、挿入したポーズ情報を基に
読み速度や文字並びを考慮して計算し、表示単位字幕文
の第一次の開始、終了タイミングとする。この場合、文
字数、文字種法の他に発音数法も有効である(ステップ
ST17)。
【0076】また、一文が長文(例えば60文字以上)
の場合、この間のポーズが一度も検出されていない場合
には、30文字を目途に同期検出点を設定して同期検出
を行い、前項の計算によるタイミングを、検出した同期
タイミングを利用して修正する。この修正計算値を表示
単位字幕文の第二次の開始、終了タイミングとする(ス
テップST18)。
【0077】また、文頭、文末で文字数低減処理がなさ
れている場合は、その低減分のタイミング補正を行っ
て、第三次のタイミング設定をする(ステップST1
9)。
【0078】補正後の開始、終了タイミングにおける時
間差が所定値以下である短い表示時間の場合には、指定
値となるように終了タイミングをシフトして第四次のタ
イミング設定を行う(ステップST20)。
【0079】また、長い削除文がある場合は、その文長
などを考慮して、第四次の開始、終了タイミングをシフ
トするが、削除文の前の文については、その文末タイミ
ングを遅くなるようシフトし、削除文の後の文ついて
は、その文頭タイミングを早くなるようシフトして削除
文部分の一部をその前後の文でカバーする(ステップS
T21、22)。
【0080】<ポーズ検出法の改良と検出したポーズの
検証法>ポーズの検出法の改良と検出したポーズの検証
法として、以下ような手法を適用する。
【0081】例えば、他の背景音に対する前記のアナウ
ンス音声の主な特徴を活用する、ポーズ検出の方法とし
ては、先ず、入力音声から、帯域制限音声を形成し、次
に、指定区間の音声レベルを規準化する(指定区間内の
高レベル音声で規準化)。次いで、音声のパワー値を求
め、その積分処理を行う(窓関数は、帯域制限と関
連)。
【0082】また、ポーズの検証方法としては、先ず、
音声パワーのスレッシュホールドを設定する(ex.最
高レベルに対して、1/4,1/9,1/16)。次い
で、設定した各スレッシュホールドでのポーズをそれぞ
れ求める(順にP1,P2,P3)。次に、ポーズの確
度をそれぞれ求める。次に、継続時間によるポーズのチ
ェック(一定時間以上の場合有効)をし、また、字幕文
テキストの句点、読点とのタイミング相関をチェックす
る。このチェックでは、一定時間以内の場合有効として
取り扱う。
【0083】このようにして、検出されたポーズに対し
てポーズの検出法の改良と検出したポーズの検証法を行
うことにより、より正確なタイミング付与が可能とな
る。
【0084】
【発明の効果】以上説明したように本発明によれば、音
声認識のみによらず、音声レベルなどの特徴を用いて、
例えば文単位でのアナウンス音声の開始、終了のタイミ
ングを検出することにより、アナウンサが話していない
ポーズ区間を検出し、そのタイミングを表示単位字幕文
の開始、終了のタイミングの少なくとも一部として適用
することによって、音声認識手法への依存度を低減し、
タイミング情報の自動付与を高速化することが可能とな
る。
【図面の簡単な説明】
【図1】本発明に係る字幕へのタイミング情報付与方法
が適用された自動字幕番組制作システムの構成を示すブ
ロック図である。
【図2】アナウンス音声に対する字幕送出タイミングの
同期検出技術に係る説明図である。
【図3】アナウンス音声に対する字幕送出タイミングの
同期検出技術に係る説明図である。
【図4】要約処理を行わない場合の表示字幕文へのタイ
ミング付与の処理手順を示すフローチャートである。
【図5】要約処理を行わない場合におけるタイミング付
与の処理の際の字幕用原文テキストを示す説明図であ
る。
【図6】図5に示した字幕用原文テキストに対する処理
結果を示す説明図である。
【図7】図5に示した字幕用原文テキストから作成され
た表示単位字幕文を示す説明図である。
【図8】ブロック・ケプストラム・フラックス法を用い
て音声(スピーチ)区間(見方を変えればポーズ区間)
を検出した結果を示す説明図である。
【図9】要約処理を行う場合の表示字幕文へのタイミン
グ付与の処理手順を示すフローチャートである。
【符号の説明】
11 自動字幕番組制作システム 13 電子化原稿記録媒体 15 同期検出装置 17 統合化装置 19 形態素解析部 21 分割ルール記憶部 23 ディジタル・ビデオ・テープ・レコーダ(D−V
TR) 33 単位字幕文抽出部 35 表示単位字幕化部 37 タイミング情報付与部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/278 G10L 9/14 301A 3/00 551G (71)出願人 000004237 日本電気株式会社 東京都港区芝五丁目7番1号 (71)出願人 000006013 三菱電機株式会社 東京都千代田区丸の内二丁目2番3号 (72)発明者 沢村 英治 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 門馬 隆雄 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 福島 孝博 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 丸山 一郎 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 江原 暉将 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 白井 克彦 東京都港区芝2−31−19 通信・放送機構 内 Fターム(参考) 5C023 AA18 AA38 BA01 BA11 CA01 CA05 5D015 AA01 CC11 CC14 DD01 DD03 FF06

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声の指定区間において、文
    単位でのアナウンス音声の開始、終了のタイミングを音
    声のレベルの特徴を用いて検出し、 検出されたタイミングを表示単位字幕文の開始、終了の
    タイミングの少なくとも一部として適用すること、 を特徴とする字幕へのタイミング情報付与方法。
  2. 【請求項2】 請求項1に記載の字幕作成装置におい
    て、 前記音声のレベルの特徴を用いたタイミングの検出は、
    ブロック・ケプストラム・フラックス法によって行われ
    ることを特徴とする字幕へのタイミング情報付与方法。
JP2001160984A 2001-05-29 2001-05-29 字幕へのタイミング情報付与方法 Pending JP2002351490A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001160984A JP2002351490A (ja) 2001-05-29 2001-05-29 字幕へのタイミング情報付与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001160984A JP2002351490A (ja) 2001-05-29 2001-05-29 字幕へのタイミング情報付与方法

Publications (1)

Publication Number Publication Date
JP2002351490A true JP2002351490A (ja) 2002-12-06

Family

ID=19004326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001160984A Pending JP2002351490A (ja) 2001-05-29 2001-05-29 字幕へのタイミング情報付与方法

Country Status (1)

Country Link
JP (1) JP2002351490A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115391A (ja) * 2003-10-08 2005-04-28 Agfa Inc テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法
US7299183B2 (en) 2003-07-28 2007-11-20 Kabushiki Kaisha Toshiba Closed caption signal processing apparatus and method
JP2010085581A (ja) * 2008-09-30 2010-04-15 Victor Co Of Japan Ltd 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58211793A (ja) * 1982-06-03 1983-12-09 松下電器産業株式会社 音声区間検出装置
JPH05244505A (ja) * 1992-02-29 1993-09-21 F T Shoji Kk 字幕映出装置
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH10254478A (ja) * 1997-03-10 1998-09-25 Nippon Hoso Kyokai <Nhk> 音声原稿最適照合装置および方法
JP2000270263A (ja) * 1999-03-17 2000-09-29 Telecommunication Advancement Organization Of Japan 自動字幕番組制作システム
JP2000324394A (ja) * 1999-05-07 2000-11-24 Telecommunication Advancement Organization Of Japan 字幕文テキストの自動分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58211793A (ja) * 1982-06-03 1983-12-09 松下電器産業株式会社 音声区間検出装置
JPH05244505A (ja) * 1992-02-29 1993-09-21 F T Shoji Kk 字幕映出装置
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH10254478A (ja) * 1997-03-10 1998-09-25 Nippon Hoso Kyokai <Nhk> 音声原稿最適照合装置および方法
JP2000270263A (ja) * 1999-03-17 2000-09-29 Telecommunication Advancement Organization Of Japan 自動字幕番組制作システム
JP2000324394A (ja) * 1999-05-07 2000-11-24 Telecommunication Advancement Organization Of Japan 字幕文テキストの自動分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299183B2 (en) 2003-07-28 2007-11-20 Kabushiki Kaisha Toshiba Closed caption signal processing apparatus and method
JP2005115391A (ja) * 2003-10-08 2005-04-28 Agfa Inc テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法
JP4725948B2 (ja) * 2003-10-08 2011-07-13 アグフア・ヘルスケア・インコーポレーテツド テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法
JP2010085581A (ja) * 2008-09-30 2010-04-15 Victor Co Of Japan Ltd 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム

Similar Documents

Publication Publication Date Title
US7676373B2 (en) Displaying text of speech in synchronization with the speech
US6442518B1 (en) Method for refining time alignments of closed captions
EP1295482B1 (en) Generation of subtitles or captions for moving pictures
US5649060A (en) Automatic indexing and aligning of audio and text using speech recognition
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
US20070011012A1 (en) Method, system, and apparatus for facilitating captioning of multi-media content
US20060136226A1 (en) System and method for creating artificial TV news programs
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JP4140745B2 (ja) 字幕へのタイミング情報付与方法
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
CN109376145B (zh) 影视对白数据库的建立方法、建立装置及存储介质
JP4210723B2 (ja) 自動字幕番組制作システム
WO2004093078A1 (en) Process for adding subtitles to video content
JP4538618B2 (ja) 字幕番組制作システムにおける表示単位字幕文の自動生成方法
JP4140744B2 (ja) 字幕文テキストの自動分割方法
JP2002344805A (ja) オープンキャプションに対する字幕表示制御方法
JP2002351490A (ja) 字幕へのタイミング情報付与方法
JP3969570B2 (ja) 逐次自動字幕制作処理システム
JP7481894B2 (ja) 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法
US11763099B1 (en) Providing translated subtitle for video content
KR102385779B1 (ko) 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법
JP2004336606A (ja) 字幕制作システム
JP2009182859A (ja) 字幕出力装置、字幕出力方法、及びプログラム
WO2004100164A1 (en) Voice script system

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040903

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110322