JP2002351490A

JP2002351490A - 字幕へのタイミング情報付与方法

Info

Publication number: JP2002351490A
Application number: JP2001160984A
Authority: JP
Inventors: Eiji Sawamura; 英治沢村; Takao Monma; 隆雄門馬; Takahiro Fukushima; 孝博福島; Ichiro Maruyama; 一郎丸山; Terumasa Ebara; 暉将江原; Katsuhiko Shirai; 克彦白井
Original assignee: Mitsubishi Electric Corp; NEC Corp; Nippon Hoso Kyokai NHK; Telecommunications Advancement Organization; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: Mitsubishi Electric Corp; NEC Corp; Telecommunications Advancement Organization; Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2001-05-29
Filing date: 2001-05-29
Publication date: 2002-12-06

Abstract

(57)【要約】【課題】音声認識のみによらず、音声レベルなどの特
徴を用いて、例えば文単位でのアナウンス音声の開始、
終了のタイミングを検出することにより、タイミング情
報の自動付与を高速化する。【解決手段】入力された音声の指定区間において、文
単位でのアナウンス音声の開始、終了のタイミングを音
声のレベルの特徴を用いて検出し、検出されたタイミン
グを表示単位字幕文の開始、終了のタイミングの少なく
とも一部として適用する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識技術のみ
を適用することなく、簡単かつ高速でに字幕へのタイミ
ング情報を自動付与する方法に関する。

【０００２】［発明の概要］本発明は、字幕番組を自動
的に制作するシステムに適用する字幕へのタイミング情
報付与方法の改良に関するもので、特に、音声認識のみ
によらず、ブロック・ケプストラム・フラックス法など
による音声レベルなどの特徴をも用いて、例えば文単位
でのアナウンス音声の開始、終了のタイミングを検出も
しくは、アナウンサが話していないポーズ区間を検出
し、そのタイミングを表示単位字幕文の開始、終了のタ
イミングの少なくとも一部として適用することによっ
て、自動的なタイミングの付与を高速化しようとするも
のである。

【０００３】従来、表示単位字幕文の開始、終了タイミ
ングの付与は、人手によるかまたはその各タイミングを
比較的時間を要する音声と字幕文テキストとの照合によ
っていたため、多くの時間を必要としていた。このタイ
ミング付与を自動化・高速化することによって、今後、
適用分野・番組数などの拡大が見込まれる字幕放送の字
幕番組制作上に大きな効果が期待される。

【０００４】

【従来の技術】字幕つきテレビ放送を受信者が利用する
際、字幕が読みやすく、理解しやすいものであることが
重要である。したがって、字幕番組制作における字幕原
稿作成には、熟練した人手を使い、多大の労力と時間を
かけており、それにより読み易く、理解し易い、字幕と
なるよう制作している。

【０００５】しかし、今後、適用分野や番組数などの拡
大が見込まれる字幕放送において、この熟練した人手、
多大の労力や時間を要するこのような形態の字幕番組制
作システムでは、字幕番組制作上に大きなネックとなる
ものと考えられる。

【０００６】現在、最も多く行われている字幕番組制作
形態では、タイムコードを映像にスーパーした番組テー
プとタイムコードを音声チャンネルに記録した番組テー
プおよび番組台本を素材とし、これを放送関係経験のあ
るＯＢなど専門知識のある人によって、（１）番組アナ
ウンスの要約書き起こしと、（２）字幕表示イメージ化
（別途定めのある字幕原稿作成要領による）および
（３）その開始、終了タイムコード記入を行い、字幕原
稿を作成している。この字幕原稿をもとに、オペレータ
が電子化字幕を作成し、担当の字幕制作責任者、原稿作
成者、電子化してオペレータ立ち会いのもとで、試写、
校正を行って字幕完成としている。

【０００７】

【発明が解決しようとする課題】しかしながら、現在放
送中の字幕番組のなかで、予めアナウンス原稿が作成さ
れ、その原稿がほとんど修正されることなく実際の放送
字幕となっていると推測される番組がいくつかある。例
えば、「生きもの地球紀行」という字幕付き情報番組を
実際に調べて見ると、アナウンス音声と字幕内容はほと
んど共通であり、共通の原稿をアナウンス用と字幕用の
双方に利用しているものと推測出来る。

【０００８】このようにアナウンス音声と字幕内容が極
めて類似し、アナウンス用と字幕用の双方にほぼ共通の
原稿を利用しており、その原稿が電子化されている番組
を想定した場合、（１）の番組アナウンスの要約書き起
こし作業はほとんど必要ないことになる。この場合、残
る作業は、（２）の字幕表示イメージ化、及び（３）の
開始・終了タイムコード記入、の各作業工程である。そ
こで、本発明者らは、これら各作業工程の簡略化を企図
して鋭意研究を進めた結果、（３）の開始・終了タイム
コード記入の工程を、人手を介することなく自動化でき
る新規な技術を想到するに至ったのである。

【０００９】本発明は、上述した実情に鑑みてなされた
ものであり、音声認識のみによらず、音声レベルの特徴
をも用いて、例えば文単位でのアナウンス音声の開始、
終了のタイミングを検出もしくは、アナウンサが話して
いないポーズ区間を検出し、そのタイミングを表示単位
字幕文の開始、終了のタイミングの少なくとも一部とし
て適用することによって、自動的なタイミングの付与を
高速化することのできる字幕へのタイミング情報付与方
法を提供することを目的とする。

【００１０】

【課題を解決するための手段】上記の目的を達成するた
めに本発明は、請求項１では、入力された音声の指定区
間において、文単位でのアナウンス音声の開始、終了の
タイミングを音声のレベルの特徴を用いて検出し、検出
されたタイミングを表示単位字幕文の開始、終了のタイ
ミングの少なくとも一部として適用することを特徴とし
ている。

【００１１】請求項２では、請求項１に記載の字幕作成
装置において、前記音声のレベルの特徴を用いたタイミ
ングの検出は、ブロック・ケプストラム・フラックス法
によって行われることを特徴としている。

【００１２】

【発明の実施の形態】＜本発明の原理＞実施の形態の説
明に先立って、本発明の原理的な説明をする。

【００１３】前述したように、現在放送中の字幕番組の
なかで、予めアナウンス原稿が作成され、その原稿がほ
とんど修正されることなく実際の放送字幕となっている
と推測される番組がいくつかある。例えば、「生きもの
地球紀行」という字幕付き情報番組を実際に調べて見る
と、アナウンス音声と字幕内容はほぼ共通であり、ほぼ
共通の原稿をアナウンス用と字幕用の両方に利用してい
ると推測できる。

【００１４】そこで、本発明者らは、このようにアナウ
ンス音声と字幕の内容が極めて類似し、アナウンス用と
字幕用の両方に共通の原稿を利用しており、その原稿が
電子化されている番組を想定したとき、字幕用テキスト
を所定の表示形式に従う適切箇所で分割後の表示単位字
幕の各々に対し、その分割箇所に対応した高精度のタイ
ミング情報を自動的に付与し得る字幕へのタイミング情
報付与方法を想到するに至った。

【００１５】ここで、本発明を想到するに至った背景に
ついて述べると、より読みやすく、理解しやすい字幕の
観点から字幕文テキストの分割問題を考える場合、当然
ながら読みやすく、理解しやすい字幕とはどのようなも
のかが問題となる。この問題に対する定量的に明確な回
答は未だ見出せていないが、しかし、実験字幕番組の制
作や字幕評価実験などの貴重な経験を通して、定性的な
がら考慮すべき要素が明らかになりつつある。

【００１６】字幕の読み易さ、理解し易さの観点から
は、一般にある程度以上の文字数が同時的に表示され、
この表示が所要時間継続しているのが良いといわれる
が、文字数や表示継続時間は、表示する字幕がどのよう
に読まれるかと大きく関わる。

【００１７】例えば聴覚障害者が字幕付テレビ番組を見
る場合を想定すると、視覚を介して、映像情報と音声情
報とを交互に見ることになるので、本来字幕は間欠的に
しか見ることが出来ない。そのため、音声情報をより読
みやすく、理解しやすい字幕として表示することで、字
幕を見ている割合を出来るだけ少なくして、その分だけ
映像を多く見られるようにするのが望ましい。

【００１８】この場合の字幕の見方は、字幕の表示形式
にも依存するが、例えば２行の表示単位字幕を一括入れ
換えする表示形式を例示し、表示される全字幕の捕捉を
試みた場合、一般的には、基準となる字幕文字（例え
ば、音声アナウンスの進行に対応する文字）を中心とし
て、先読み、後読みもしくはその両方を行うことにな
る。

【００１９】先読み、後読みもしくはその両方を行うこ
とになる要因としては、映像の注視又はまばたきや脇見
などを含む字幕から目を離している見逃し動作時間が存
在するからであり、１回当たりの見逃し動作時間の長さ
は、経験的には０．５〜２秒間程度であると思われる。

【００２０】ここで、字幕の表示速度を２００字／分と
想定すると、その最大時間である２秒間は約７文字に相
当し、このことから、１回の見逃し動作で７文字分の字
幕文字を見逃すおそれがあることがわかる。

【００２１】このことから、基準となる字幕文字を中心
に連続した１４文字が最低限の表示単位として必要であ
り、再び字幕に注視点が戻って字幕を読み取り、認識す
る分を前後各５〜７文字とすると、内容の連続した２４
〜２９文字程度の字幕を同時に画面表示するのが望まし
いことがわかる。ちなみに現行の字幕放送では一行１５
文字で二行表示が多く、最大３０文字程度まで表示され
ている。

【００２２】また、上記の分析結果に従い、字幕が表示
されてから実際に読まれるまで最悪２秒間程度必要なも
のと仮定すると、文字数が７文字以下の字幕を文字数相
当の時間のみ表示した場合には、この表示字幕が全く読
まれないおそれがある。例えば日本語の特質上、否定文
では否定語が文末におかれるので、この否定語部分が上
記の状態に該当するような分割はきわめて悪い影響をも
たらす可能性があり、このような分割は可及的に回避す
る必要がある。

【００２３】その対策として、少ない文字数への分割を
しない、又は少ない文字数では表示時間を長くする、な
どの手法を適用するのが望ましい。

【００２４】次の問題は、アナウンサのナレーションの
隙間（テキスト上では文間に相当）である非スピーチ区
間、つまりポーズの取り扱いである。字幕文中に長いポ
ーズが存在する場合には、このポーズの前後は相互に異
なる内容に関わる字幕文である可能性が高いことから、
そのポーズにまたがるような字幕表示は好ましくない。
逆に極めて短いポーズが存在する場合には、このポーズ
の前後は相互に共通の内容に関わる字幕文である可能性
が高いことから、むしろ連続した字幕文として取り扱う
方が好ましい。このことから、ポーズ時間の長さを考慮
した字幕文の分割手法を適用するのが望ましい。

【００２５】さらに、ひとかたまりの文字群は可能な限
り分割せず、同一行に表示するのが望ましい。この例と
して、通常の単語のみならず、連続する漢字、カタカ
ナ、アラビア数字、英字などがあり、（xxx）や「xxx」
などと表わさるルビ、略称に対する正式呼称、注釈など
もこの範疇として取り扱う。

【００２６】このように、より読みやすく、理解しやす
い字幕を得ることを目的として字幕文テキストを分割す
るにあたっては、上述した要素を充分考慮する必要があ
る。ところが、この字幕文テキストの分割に伴い、適切
箇所で分割後の表示単位字幕の各々に対し、その開始お
よび終了に対応したタイミング情報を付与しなければな
らないが、分割前の各文の文頭、文末箇所数に比較して
遙かに多い箇所のタイミング情報が必要となるといった
新たな課題を生ずる。

【００２７】そこで、本発明は、本発明で提案するアナ
ウンス音声と字幕文テキストの同期検出技術、及び日本
語の読み及びその発音に関する統計的特徴解析手法等を
も適用することにより、所定の表示形式に従って適切箇
所で分割された表示単位字幕の各々に対し、その開始お
よび終了に対応した高精度のタイミング情報の自動付与
を高速で実現するようにしている。

【００２８】なお従来は、字幕文テキストとそれに対応
するアナウンスなどの音声とを音声処理技術のみを利用
して照合し、音声に対する字幕文テキストのタイミング
を検出して付与しているが、この処理だけでも番組音声
時間の数倍以上の時間を必要とする欠点があった。

【００２９】一方、字幕文テキストを字幕表示に適した
行数、文字数の各表示単位字幕文に分割する際、アナウ
ンスの長いポーズ（ナレーションの隙間）にまたがる字
幕分割は好ましくない。しかし、極めて短いポーズの場
合は、むしろ連続した文として扱う方が好ましいので、
字幕分割にはアナウンスのポーズ時間を考慮する必要が
ある。この点に関しては、例えば、ブロック・ケプスト
ラム・フラックス法などを適用して、音声レベルやその
継続時間などの特徴を巧みに処理することにより、例え
ば字幕文テキストへの文単位でのアナウンス音声の開
始、終了タイミングやこれに伴う文間ポーズ時間をポー
ズデータとして検出することが可能である。しかも、こ
れらの処理は、番組音声時間の数分の一以下の時間で高
速処理することができる。

【００３０】ただし、この方法は音声にアナウンス音声
以外の音声が混じっている場合など、正しいタイミング
検出を阻害する要因もあるので、その検出結果を検証
し、確度の高いタイミングのみを使用しなければならな
い。ただし、適切な手法を適用すれば、各字幕文テキス
トにおける開始、終了のタイミングのかなりの部分は、
前記の音声レベルなどを用いて検出した前記のタイミン
グを適用することができる。なお、音声レベルなどを用
いるタイミング検出で必要な結果が得られない部分は、
従来の字幕文テキストとアナウンス音声との音声処理技
術を活用した照合法を適用する。

【００３１】このように本発明では、ブロック・ケプス
トラム・フラックス法に代表される音声レベルなどの特
徴を用いるタイミング検出、および後述する内挿演算に
よるタイミングの付与は、いずれもかなり高速で行うこ
とが可能なので、この手法のみでタイミング付与が完了
するような番組の場合は、その番組音声時間の数分の一
以下の時間で高速処理することが可能となる。その結
果、従来、このタイミング付与に多くの時間を要してい
たが、今後適用分野・番組数などの拡大が見込まれる字
幕放送において、特に字幕番組制作上の大きな効果が期
待される。

【００３２】さて、本実施形態の説明に先立って、以下
の説明で使用する用語の定義付けを行うと、本実施形態
の説明において、表示対象となる字幕文の全体集合を
「字幕文テキスト」と言い、字幕文テキストのうち、適
宜の句点で区切られたひとかたまりの字幕文の部分集合
を「単位字幕文」と言い、ディスプレイの表示画面上に
おいて表示単位となる字幕を「表示単位字幕」と言い、
表示単位字幕に含まれる各行の個々の字幕を表現すると
き、これを「表示単位字幕行」と言い、表示単位字幕行
のうちの任意の文字を表現するとき、これを「字幕文
字」と言うことにする。なお、表示画面上に単独行の表
示単位字幕を表示するとき、「表示単位字幕」と「表示
単位字幕行」とは同義となる。

【００３３】図１は本発明に係る字幕へのタイミング情
報付与方法が適用された自動字幕番組制作システムの構
成を示すブロック図である。

【００３４】同図に示すように、自動字幕番組制作シス
テム１１は、電子化原稿記録媒体１３と、同期検出装置
１５と、統合化装置１７と、形態素解析部１９と、分割
ルール記憶部２１と、番組素材ＶＴＲ例えばディジタル
・ビデオ・テープ・レコーダ（以下、「Ｄ−ＶＴＲ」と
言う）２３と、を含んで構成されている。

【００３５】電子化原稿記録媒体１３は、例えばハード
ディスク記憶装置やフロッピー（登録商標）ディスク装
置等より構成され、表示対象となる字幕の全体集合を表
す字幕文テキストを記憶している。なお、本実施形態で
は、ほぼ共通の電子化原稿をアナウンス用と字幕用の双
方に利用する形態を想定しているので、電子化原稿記録
媒体１３に記憶される字幕文テキストの内容は、表示対
象字幕と一致するばかりでなく、素材ＶＴＲに収録され
たアナウンス音声とも一致しているものとする。

【００３６】同期検出装置１５は、同期検出点付字幕文
と、これを読み上げたアナウンス音声との間における時
間同期を検出する機能等を有している。この場合の同期
検出点は、通常字幕文テキストの各文の文頭、文末を指
定する。さらに詳しく述べると、同期検出装置１５に
は、統合化装置１７で付与した同期検出点付字幕文と、
番組素材ＶＴＲから取り込んだこの字幕文に対応するア
ナウンス音声及びそのタイムコードが入力されており、
このアナウンス音声に含まれるポーズ点の検出と確度検
証機能、および検証されなかった指定同期検出点のタイ
ミング情報、すなわちタイムコードを音声認識処理手法
で検出する機能があり、これら機能で検出したタイムコ
ードやポーズ区間データを統合化装置１７宛に送出する
機能を有している。

【００３７】なお、アナウンス音声を対象とした音声認
識処理を含むアナウンス音声と字幕文テキスト間の同期
検出は、本発明者らがすでに研究開発した技術を適用す
ることで低速ながら高精度に実現可能である。

【００３８】すなわち、アナウンス音声に対する字幕送
出タイミング検出の流れは、図２に示すように、まず、
かな漢字交じり文で表記されている字幕文テキストを、
音声合成などで用いられている読付け技術を用いて発音
記号列に変換する。この変換には、「日本語読付けシス
テム」を用いる。次に、あらかじめ学習しておいた音響
モデル（ＨＭＭ：隠れマルコフモデル）を参照し、「音
声モデル合成システム」によりこれらの発音記号列をワ
ード列ペアモデルと呼ぶ音声モデル（ＨＭＭ）に変換す
る。そして、「最尤照合システム」を用いてワード列ペ
アモデルにアナウンス音声を通して比較照合を行うこと
により、字幕送出タイミングの検出を行う。

【００３９】字幕送出タイミング検出の用途に用いるア
ルゴリズム(ワード列ペアモデル)は、キーワードスポッ
ティングの手法を採用している。キーワードスポッティ
ングの手法として、フォワード・バックワードアルゴリ
ズムにより単語の事後確率を求め、その単語尤度のロー
カルピークを検出する方法が提案されている。ワード列
ペアモデルは、図３に示すように、これを応用して字幕
文と音声を同期させたい点、すなわち同期点の前後でワ
ード列１ (Keywords1)とワード列２ (Keywords2)とを連
結したモデルになっており、ワード列の中点（Ｂ）で尤
度を観測してそのローカルピークを検出し、ワード列２
の発話開始時間を高精度に求めることを目的としてい
る。ワード列は、音素ＨＭＭの連結により構成され、ガ
ーベジ (Garbage)部分は全音素ＨＭＭの並列な枝として
構成されている。また、アナウンサが原稿を読む場合、
内容が理解しやすいように息継ぎの位置を任意に定める
ことから、ワード列１，２間にポーズ (Pause)を挿入し
ている。

【００４０】本発明におけるポーズ時間の検出機能は、
前記のような音声認識処理をすることなく、素材ＶＴＲ
から供給される音声のレベルや継続時間、およびそのタ
イムコードから、例えばそのレベルが指定レベル以下で
連続する開始、終了タイムコードを検出するものであ
り、後述するブロック・ケプストラム・フラックス法な
どの方法によって実行される。

【００４１】統合化装置１７は、電子化原稿記録媒体１
３から読み出した字幕文テキストのうち、文頭を起点と
した所要文字数範囲を目安とした単位字幕文を順次抽出
する単位字幕文抽出機能と、単位字幕文抽出機能を発揮
することで抽出した単位字幕文を、所望の表示形式に従
う表示単位字幕に変換する表示単位字幕化機能と、表示
単位字幕化機能を発揮することで変換された表示単位字
幕に対し、同期検出装置１５から送出されてきたタイム
コード及びポーズ点を利用してタイミング情報を付与す
るタイミング情報付与機能と、を有している。

【００４２】形態素解析部１９は、漢字かな交じり文で
表記されている単位字幕文を対象として、形態素毎に分
割する分割機能と、分割機能を発揮することで分割され
た各形態素毎に、表現形、品詞、読み、標準表現などの
付加情報を付与する付加情報付与機能と、各形態素を文
節や節単位にグループ化し、いくつかの情報素列を得る
情報素列取得機能と、を有している。これにより、単位
字幕文は、表面素列、記号素列（品詞列）、標準素列、
及び情報素列として表現される。

【００４３】分割ルール記憶部２１は、単位字幕文を対
象とした改行・改頁箇所の最適化を行う際に参照される
分割ルールを記憶する機能を有している。

【００４４】Ｄ−ＶＴＲ２３は、番組素材が収録されて
いる番組素材ＶＴＲテープから、映像、音声、及びそれ
らのタイムコードを再生出力する機能を有している。

【００４５】次に、自動字幕番組制作システム１１にお
いて主要な役割を果たす統合化装置１７の内部構成につ
いて説明していく。

【００４６】統合化装置１７は、単位字幕文抽出部３３
と、表示単位字幕化部３５と、タイミング情報付与部３
７と、を含んで構成されている。

【００４７】単位字幕文抽出部３３は、電子化原稿記録
媒体１３から読み出した、単位字幕文が表示時間順に配
列された字幕文テキストのなかから、例えば７０〜９０
字幕文字程度を目安とし、付加した区切り可能箇所情報
等を活用するなどして処理単位とするテキスト文を順次
抽出する機能を有している。なお、区切り可能箇所情報
としては、形態素解析部１９で得られた文節データ付き
形態素解析データ、及び分割ルール記憶部２１に記憶さ
れている分割ルール（改行・改頁データ）を利用するこ
ともできる。ここで、上述した分割ルール（改行・改頁
データ）について述べると、分割ルール（改行・改頁デ
ータ）で定義される改行・改頁推奨箇所は、第１に句点
の後ろ、第２に読点の後ろ、第３に文節と文節の間、第
４に形態素品詞の間、を含んでおり、分割ルール（改行
・改頁データ）を適用するにあたっては、上述した記述
順の先頭から優先的に適用するのが好ましい。

【００４８】表示単位字幕化部３５は、単位字幕文抽出
部３３で抽出した単位字幕文、単位字幕文に付加した区
切り可能箇所情報、及び同期検出装置１５からの情報等
に基づいて、単位字幕文抽出部３３で抽出した単位字幕
文を、所望の表示形式に従う少なくとも１以上の表示単
位字幕に変換する表示単位字幕化機能を有している。

【００４９】タイミング情報付与部３７は、表示単位字
幕化部３５で変換された表示単位字幕に対し、同期検出
装置１５から送出されてきた字幕文テキストの各文単位
のポーズ情報や同期検出点情報としてのタイムコードを
利用して、タイミング内挿手法を用いてタイミング情報
を付与するタイミング情報付与機能を有している。

【００５０】次に、本発明に係る字幕へのタイミング情
報付与方法について、図４乃至図９を参照しつつ説明す
る。

【００５１】既述したように、アナウンス音声に対応す
る字幕に関するタイミング情報の同期検出は、本発明者
らがすでに研究開発したアナウンス音声を対象とした音
声認識処理を含むアナウンス音声と字幕文テキスト間の
同期検出技術を適用することで高精度に実現可能である
が、この同期検出処理は前記のようにかなり複雑であ
り、多くの処理時間を要するために、各表示単位字幕の
全ての始点／終点を対象として同期検出技術を適用した
のでは、同期検出点が過多となることも含め、字幕番組
の制作に非常に長い時間を必要とする欠点がある。

【００５２】本発明では、音声のポーズ区間の検出に、
音声レベルの特徴を利用する例えばブロック・ケプスト
ラム・フラックス法を用いている。ブロック・ケプスト
ラム・フラックス法は、音響データ内の複数のＬＰＣケ
プストラムベクトルを基準フレームから相互に比較する
ことで、音響データ内容の切り替わり点をより安定に検
出する手法である。

【００５３】次に本発明におけるタイミング情報付与処
理を字幕文テキストを要約しない場合と、要約する場合
に分けて説明する。

【００５４】＜表示単位字幕文として字幕文テキストを
要約しない場合＞初めに、表示単位字幕文として字幕文
テキストを要約せずにそのまま用いる場合について図４
のフローチャートを参照して説明する。

【００５５】先ず、音声データからポーズ開始タイミン
グ、継続時間を求める。その適否を検証し必要な修正を
する（ステップＳＴ１）。

【００５６】次に、比較的長いポーズ（例えば２秒以
上）で字幕用テキストをブロックに分割し、ブロックテ
キスト文としてその開始、終了タイミングを付与する
（ステップＳＴ２、３）。

【００５７】次いで、ブロックテキスト文の継続時間を
その総読み数（計算推定）で割り、当該範囲の平均読み
速度を求める（ステップＳＴ４）。

【００５８】次いで、各ブロックテキスト文を、中の長
さのポーズ箇所を改行点とする表示単位字幕文に分割す
る。この場合、分割ルールを適用する（ステップＳＴ
５）。

【００５９】次いで、各分割字幕文の文頭、文末に対応
するタイミングを、ブロックテキスト文の開始、終了タ
イミングやポーズのタイミング、平均読み速度を基に計
算し、付与する。この場合、文字数、文字種法、または
発音数法を適用する（ステップＳＴ６）

【００６０】そして、各表示単位字幕の表示時間をチェ
ックし、必要ならば終了タイミングを修正する（ステッ
プＳＴ７）。

【００６１】次に、上述した図４に示す要約処理をしな
い場合のタイミング情報の付与の処理手順について図５
乃至図７に示す具体例を用いて説明する。

【００６２】図５は、音声のポーズ検出によるポーズ情
報を活用した、表示単位字幕へのタイミング付与例にお
ける字幕用原文テキスト、図６は、図５に示した各字幕
用原文テキストのかな数、漢字数、読み、時間、ポー
ズ、テキストのスタート時間、テキストのストップ時
間、次のテキスト文のスタート時間、および読速度をそ
れぞれ示している。また、図７は図５に示した字幕用原
文テキストから作成された表示単位字幕文（／の左側が
一行目、／の右側が二行目）とそのタイミング情報を示
している。

【００６３】図５のNo.１「今日の舞台は東アフリカケ
ニアの大草原です。」とある字幕原文テキストでは、図
６から理解できるように、かな数は“１２”、漢字数は
“８”、読み数（ｙｏｍｉ）は、“２５．０２”、読み
の時間は“３８５０ｍＳ”、ポーズの時間は、“１０１
０ｍＳ”、スタート時間は、４９１５０ｍＳ（４９．１
５０Ｓ）、ストップ時間は、“５３０００ｍＳ（＝５
３．０００Ｓ）、次のスタート時間は“５４０１０ｍＳ
（５４．０１０Ｓ）”、話速は、１５．３９ｍＳ（＝３
８５／２５．０２）となる。ここで、“ｙｏｍｉ”は、
漢字部分（および数字部分）がかなの約１．８６倍の読
み時間で表わすことができることから、１２＋７×１．
８６＝２５．０２と計算したものである。

【００６４】このようにして求められたポーズ情報中
の、比較的長いポーズ（例えば２秒以上）で字幕用テキ
ストをブロックに分割し、ブロックテキスト文としてそ
の開始、終了タイミングを付与して作成（図４のステッ
プＳＴ１〜ＳＴ５の処理で作成）された表示単位字幕文
が図７に示されている。図７中、太い実線で囲んだ数字
が計算で求められた時間であり、長い処理時間を必要と
する同期検出点としての指定を大幅に低減した。また、
右端に「ブロック」として示す区切りは、このブロック
間に２秒程度以上のポーズがあり、それを根拠として字
幕処理単位を設定したものである。つまり字幕用の改
行、改頁、タイミング処理はそれぞれの処理単位内で完
結させることができ、またそのタイミング付与処理が、
そのブロックの時間以内に完了（本発明による高速化
で）できるようになれば、字幕データ作成はブロック時
間経過後には終了し、この部分については直ちに試写可
能な、逐次字幕制作・試写手法が適用可能となる。この
手法の所要時間は、ほぼ番組時間と同じであり、全字幕
データ作成後に試写する場合は２倍以上の時間となるの
で、大幅に時間短縮を可能とする大きな効果がある。

【００６５】＜ブロック・ケプストラム・フラックス法
などによる音声のポーズ区間の検出＞本発明では、音声
のポーズ区間を検出する方法として、音声のレベル情報
を利用した例えばブロック・ケプストラム・フラックス
法などを用いて行った。

【００６６】図８は、実際のテレビ番組（ハンドウイル
カ）の音声をブロック・ケプストラム・フラックス法を
用いて分析した結果を示している。なお、実際には、左
右両チャンネルの音声があるが、図８では、右チャンネ
ルの結果のみが示されている。また、図８において、棒
グラフは実際に調べた音声（スピーチ）区間を示してい
る。解析波形を適当なレベル（例えば、図８では０．０
５５）でスライスして、上の範囲を音声（スピーチ）区
間として比較すると、所定の継続時間以上では棒グラフ
で示す音声（スピーチ）区間とかなり一致しているのが
分かる。“↑”で示す部分がポーズ区間を示している。

【００６７】＜表示単位字幕文として字幕文テキストを
要約する場合＞次に、字幕文テキストを要約する場合の
処理について図９に示すフローチャートを用いて説明す
る。

【００６８】先ず、音声データからポーズ開示タイミン
グ及び継続時間を求める（ステップＳＴ１１）。これ
は、

【００６９】次に、字幕用原文テキストの総読み数（計
算推定）で、ポーズを除く実音声時間を割り、当該範囲
の平均読み速度を以下のようにして求める（ステップＳ
Ｔ１２）。

【００７０】

【数１】平均読み速度＝字幕用原文テキストの総読み数／実音声時間（ポーズ時間を除く）・・・（１）

【００７１】次に、読み速度と文字並びを利用して、ポ
ーズ開始タイミングに対応する字幕用テキスト上の位置
を計算し、その近傍に位置するポーズ候補文字種（句
点、読点等）を求める。そこにポーズ情報を挿入する手
法を繰り返し適用して、ポーズ情報挿入原文テキストを
作成する（ステップＳＴ１３）。

【００７２】次いで、字幕用原文から要約文を作成する
（ステップＳＴ１４）。

【００７３】次に、作成された要約文を長いポーズ箇所
で改頁、やや長いポーズ箇所で改行を原則とする表示単
位字幕文に分割する。この分割には分割ルールを適用す
る（ステップＳＴ１５）。

【００７４】次に、分割字幕文の文頭、文末に対応する
原文のポーズ情報挿入原文テキスト位置を検出する（ス
テップＳＴ１６）。

【００７５】次いで、ポーズ情報挿入原文テキストにお
ける検出点のタイミングを、挿入したポーズ情報を基に
読み速度や文字並びを考慮して計算し、表示単位字幕文
の第一次の開始、終了タイミングとする。この場合、文
字数、文字種法の他に発音数法も有効である（ステップ
ＳＴ１７）。

【００７６】また、一文が長文（例えば６０文字以上）
の場合、この間のポーズが一度も検出されていない場合
には、３０文字を目途に同期検出点を設定して同期検出
を行い、前項の計算によるタイミングを、検出した同期
タイミングを利用して修正する。この修正計算値を表示
単位字幕文の第二次の開始、終了タイミングとする（ス
テップＳＴ１８）。

【００７７】また、文頭、文末で文字数低減処理がなさ
れている場合は、その低減分のタイミング補正を行っ
て、第三次のタイミング設定をする（ステップＳＴ１
９）。

【００７８】補正後の開始、終了タイミングにおける時
間差が所定値以下である短い表示時間の場合には、指定
値となるように終了タイミングをシフトして第四次のタ
イミング設定を行う（ステップＳＴ２０）。

【００７９】また、長い削除文がある場合は、その文長
などを考慮して、第四次の開始、終了タイミングをシフ
トするが、削除文の前の文については、その文末タイミ
ングを遅くなるようシフトし、削除文の後の文ついて
は、その文頭タイミングを早くなるようシフトして削除
文部分の一部をその前後の文でカバーする（ステップＳ
Ｔ２１、２２）。

【００８０】＜ポーズ検出法の改良と検出したポーズの
検証法＞ポーズの検出法の改良と検出したポーズの検証
法として、以下ような手法を適用する。

【００８１】例えば、他の背景音に対する前記のアナウ
ンス音声の主な特徴を活用する、ポーズ検出の方法とし
ては、先ず、入力音声から、帯域制限音声を形成し、次
に、指定区間の音声レベルを規準化する（指定区間内の
高レベル音声で規準化）。次いで、音声のパワー値を求
め、その積分処理を行う（窓関数は、帯域制限と関
連）。

【００８２】また、ポーズの検証方法としては、先ず、
音声パワーのスレッシュホールドを設定する（ｅｘ．最
高レベルに対して、１／４，１／９，１／１６）。次い
で、設定した各スレッシュホールドでのポーズをそれぞ
れ求める（順にＰ１，Ｐ２，Ｐ３）。次に、ポーズの確
度をそれぞれ求める。次に、継続時間によるポーズのチ
ェック（一定時間以上の場合有効）をし、また、字幕文
テキストの句点、読点とのタイミング相関をチェックす
る。このチェックでは、一定時間以内の場合有効として
取り扱う。

【００８３】このようにして、検出されたポーズに対し
てポーズの検出法の改良と検出したポーズの検証法を行
うことにより、より正確なタイミング付与が可能とな
る。

【００８４】

【発明の効果】以上説明したように本発明によれば、音
声認識のみによらず、音声レベルなどの特徴を用いて、
例えば文単位でのアナウンス音声の開始、終了のタイミ
ングを検出することにより、アナウンサが話していない
ポーズ区間を検出し、そのタイミングを表示単位字幕文
の開始、終了のタイミングの少なくとも一部として適用
することによって、音声認識手法への依存度を低減し、
タイミング情報の自動付与を高速化することが可能とな
る。

【図面の簡単な説明】

【図１】本発明に係る字幕へのタイミング情報付与方法
が適用された自動字幕番組制作システムの構成を示すブ
ロック図である。

【図２】アナウンス音声に対する字幕送出タイミングの
同期検出技術に係る説明図である。

【図３】アナウンス音声に対する字幕送出タイミングの
同期検出技術に係る説明図である。

【図４】要約処理を行わない場合の表示字幕文へのタイ
ミング付与の処理手順を示すフローチャートである。

【図５】要約処理を行わない場合におけるタイミング付
与の処理の際の字幕用原文テキストを示す説明図であ
る。

【図６】図５に示した字幕用原文テキストに対する処理
結果を示す説明図である。

【図７】図５に示した字幕用原文テキストから作成され
た表示単位字幕文を示す説明図である。

【図８】ブロック・ケプストラム・フラックス法を用い
て音声（スピーチ）区間（見方を変えればポーズ区間）
を検出した結果を示す説明図である。

【図９】要約処理を行う場合の表示字幕文へのタイミン
グ付与の処理手順を示すフローチャートである。

【符号の説明】

１１自動字幕番組制作システム１３電子化原稿記録媒体１５同期検出装置１７統合化装置１９形態素解析部２１分割ルール記憶部２３ディジタル・ビデオ・テープ・レコーダ（Ｄ−Ｖ
ＴＲ）３３単位字幕文抽出部３５表示単位字幕化部３７タイミング情報付与部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/278 Ｇ１０Ｌ 9/14 ３０１Ａ 3/00 ５５１Ｇ (71)出願人 000004237 日本電気株式会社東京都港区芝五丁目７番１号 (71)出願人 000006013 三菱電機株式会社東京都千代田区丸の内二丁目２番３号 (72)発明者沢村英治東京都港区芝２−31−19 通信・放送機構内 (72)発明者門馬隆雄東京都港区芝２−31−19 通信・放送機構内 (72)発明者福島孝博東京都港区芝２−31−19 通信・放送機構内 (72)発明者丸山一郎東京都港区芝２−31−19 通信・放送機構内 (72)発明者江原暉将東京都港区芝２−31−19 通信・放送機構内 (72)発明者白井克彦東京都港区芝２−31−19 通信・放送機構内Ｆターム(参考） 5C023 AA18 AA38 BA01 BA11 CA01 CA05 5D015 AA01 CC11 CC14 DD01 DD03 FF06

Claims

【特許請求の範囲】

【請求項１】入力された音声の指定区間において、文
単位でのアナウンス音声の開始、終了のタイミングを音
声のレベルの特徴を用いて検出し、検出されたタイミングを表示単位字幕文の開始、終了の
タイミングの少なくとも一部として適用すること、を特徴とする字幕へのタイミング情報付与方法。
【請求項２】請求項１に記載の字幕作成装置におい
て、前記音声のレベルの特徴を用いたタイミングの検出は、
ブロック・ケプストラム・フラックス法によって行われ
ることを特徴とする字幕へのタイミング情報付与方法。