JP2003216200A

JP2003216200A - 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Info

Publication number: JP2003216200A
Application number: JP2002019136A
Authority: JP
Inventors: Eiji Sawamura; 英治沢村; Takao Monma; 隆雄門馬; Terumasa Ebara; 暉将江原; Noriyoshi Uratani; 則好浦谷; Takayuki Imamura; 崇之今村; Katsuhiko Shirai; 克彦白井
Original assignee: NEC Corp; Nippon Hoso Kyokai NHK; Telecommunications Advancement Organization; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: NEC Corp; Telecommunications Advancement Organization; Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2002-01-28
Filing date: 2002-01-28
Publication date: 2003-07-30

Abstract

(57)【要約】【課題】スピーチ音声を聴き取ってその内容を字幕文
テキストとして書き起こす際に特殊再生操作によってス
ピーチ音声を聴き易くして書き起こし作業に専念できる
ように支援する字幕用書き起こしテキストの作成支援シ
ステムを提供する。【解決手段】音声の内のスピーチ音声の区間である有
声区間を標準再生速度よりも低速な第１再生速度で再生
するための再生操作を行うスピーチ再生速度キー３３
と、音声の内の所定長以上の無音区間であるポーズ区間
を標準再生速度よりも高速な第２再生速度で再生するた
めの再生操作を行うポーズ再生速度キー３４と、スピー
チ再生速度キー３３の再生操作に応じて第１再生速度に
対応した第１再生速度情報を出力し、ポーズ再生速度キ
ー３４の再生操作に応じて第２再生速度に対応した第２
再生速度情報を出力する可変速再生制御部３２と、第１
再生速度情報に応じて有声区間を第１再生速度で再生
し、第２再生速度情報に応じてポーズ区間を第２再生速
度で再生する可変速再生装置３１とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、字幕用書き起こし
テキストの作成支援システム及びこの作成支援システム
を用い、且つ、人手による制作機能と自動による制作機
能とを効果的に組み合わせた半自動型字幕番組制作シス
テムに関する。

【０００２】[発明の概要] 本発明は、スピーチ音声を
聴き取ってその内容を字幕文テキストとして書き起こす
際に、特殊再生操作によってスピーチ音声を聴き易くし
て書き起こし作業に専念できるように支援する字幕用書
き起こしテキストの作成支援システムに関する。特にス
ピーチ区間は指定された低速で再生し、ポーズ区間では
指定された高速で再生する、特殊再生操作によって、ス
ピーチ内容の理解及びテキスト化への専念を可能とし、
電子化原稿のない番組や背景音レベルの大きい番組など
多様な番組に対しても、より簡単且つ効果的に字幕文テ
キストの作成が可能となり、字幕番組制作の効率化に大
きく寄与可能である。また、本発明は、この字幕用書き
起こしテキストの作成支援システムで得られた字幕文テ
キストや付加情報データにより制作した字幕画面を編集
し、試写を行う半自動型字幕番組制作システムに関す
る。

【０００３】

【従来の技術】情報化社会といわれる中で、多くの情報
が種々の形態で利用されており、音声の形態で利用され
るものもある。特に放送分野では、ＡＭラジオ、ＦＭ放
送は全て音声であり、テレビでも多くの情報が音声で伝
送されている。通常、これらの放送では、予め原稿が作
成され、その原稿をアナウンサーなどが読み上げる形態
で伝えられるものが非常に多い。

【０００４】そこで、これら音声情報の内、アナウンス
音声などの情報だけでも簡易・確実にテキスト化できれ
ば、情報の保存・編集・活字化など多様な活用が可能と
なるので、アナウンス音声の、簡易・確実なテキスト化
は極めて重要なテーマである。その一つの手法として、
音声認識技術を用いてアナウンス音声をテキスト化する
方法があるが、現状の技術では、得られたテキストに誤
りが生じるため、その修正に手間をとることが課題とな
っている。

【０００５】「書き起こし作業」は人間の高度な音声認
識能力、言語判断力によるため、高い能力や多くの時間
を必要とする反面、確実性が高いなどの理由から、スピ
ーチ音声のテキスト化に最も多く適用されている。

【０００６】この確実性な観点から、字幕文テキストの
作成でもほとんど「書き起こし作業」によるスピーチ音声
のテキスト化によっているが、より効率的な「書き起こ
し作業」を行うために、適切な支援システムにより、必
要とする能力や時間、緊張の程度を低減することが要望
されている。

【０００７】また、スピーチ内容の理解上、スピーチ音
声の速度や明瞭度の影響が大きいことが知られており、
一般的なスピーチ音声を理解しやすいスピーチ音声に変
換するスピーチ速度変換技術が必要とされる。この技術
の一例は、テープに録音したスピーチ音声を聴き取って
テキストを書き起こす際に、テープの再生速度を遅くし
て、スピーチ音声を聴き易くすることにより、書き起こ
しを容易にするものである。

【０００８】

【発明が解決しようとする課題】しかしながら、ドキュ
メンタリーテレビ番組などでは、スピーチが連続してい
る場合よりも比較的長い非スピーチ（ポーズ）区間が介
在している場合が多い。この場合、テープの再生速度を
遅くしてスピーチ区間の書き起こしを行い、ポーズ区間
を送った後、次のスピーチ区間にテープを低速再生して
書き起こしを行う。即ち、テープの再生操作と書き起こ
し作業とを行わなければならず、スピーチ区間やポーズ
区間の個々の区間では、その区間の頭出し操作も場合に
よっては必要となる。このため、煩雑な作業が作業者に
強いられていた。また、テープの再生速度を遅くすると
これに伴って、スピーチ音声のピッチ（音の高さ）も低
くなり、スピーチ音声が聞き取りにくくなるという欠点
がある。

【０００９】ところで、本出願人の発明者らは、電子化
原稿が存在する場合のオフラインで字幕番組を自動制作
する技術として、「自動要約」「自動同期」「自動字幕
画像作成技術」などをテーマに研究を進め、これまでの
研究成果を集約した「自動字幕番組制作システム」を構
築した。本出願人はこの自動字幕番組制作システムを特
願平１１−７２６７１号（平成１１年３月１７日出願）
等で既に出願済みである。

【００１０】このシステムを字幕番組制作者や聴覚障害
者などに評価していただいた結果、一定の性能・機能が
あることが確認されたが、実用化のためには、まだ多く
の課題が残されている。

【００１１】特に要望が高いものは、対象番組範囲の拡
大であり、電子化原稿が存在しない番組、ドラマやバラ
エティなどの番組分野への拡大である。しかし、現状の
自動字幕番組制作システムの機能・性能から見た字幕番
組制作可能なテレビ番組分野は、電子化原稿が存在しか
つニュースやナレーション主体のドキュメンタリー番組
などに限られたものである。

【００１２】実際の字幕番組制作現場では、高度な専門
技術、知識をもった多くの専門家が携わっており、字幕
番組制作はこのような人間の能力に負っている部分が多
くある。このうち、自動機能の限界以上の部分は、手動
による字幕番組制作や試写・修正の範囲でカバーさせざ
るを得ないのが実情である。

【００１３】したがって、これまでの自動処理を前提と
した字幕番組制作システムのみならず、手作業を含む字
幕番組用電子化テキストの作成や字幕番組画面の試写・
編集などの作業も含めたトータルシステムとして、字幕
番組制作の効率化を考えることが重要である。

【００１４】そこで、本発明者らは、人手による制作機
能と自動による制作機能とを効果的に組み合わせた、半
自動型字幕番組制作システムを想到するに至ったのであ
る。また、本発明者らは、スピーチ区間を指定された低
速で再生し、ポーズ区間を指定された高速で再生して、
スピーチ音声を大幅に聴き易くして、書き起こしを容易
にした字幕用書き起こしテキストの作成支援システムを
想到するに至り、この字幕用書き起こしテキストの作成
支援システムを半自動型字幕番組制作システムに適用し
たものである。

【００１５】本発明は、スピーチ音声を聴き取ってその
内容を字幕文テキストとして書き起こす際に、特殊再生
操作によってスピーチ音声を聴き易くして書き起こし作
業に専念できるように支援する字幕用書き起こしテキス
トの作成支援システムを提供することにある。また、本
発明は、スピーチ区間及びポーズ区間の頭出しを含め煩
雑なテープの再生操作を一部自動化して、書き起こし作
業に専念できるように支援する字幕用書き起こしテキス
トの作成支援システムを提供することにある。また、人
手による制作機能と自動による制作機能とを効果的に組
み合わせて、字幕番組制作を効率良く行うことができる
半自動型字幕番組制作システムを提供することにある。

【００１６】

【課題を解決するための手段】上記目的を達成するた
め、請求項１の発明は、映像及び音声並びにこれらの提
示タイミング情報を含んだ番組素材の前記音声を聴き取
って前記音声に対する字幕文テキストの書き起こし作業
を支援するための字幕用書き起こしテキストの作成支援
システムであって、前記音声の内のスピーチ音声の区間
である有声区間を標準再生速度よりも低速な第１再生速
度で再生するための再生操作を行う有声再生操作手段
と、前記音声の内の所定長以上の無音区間であるポーズ
区間を前記標準再生速度よりも高速な第２再生速度で再
生するための再生操作を行うポーズ再生操作手段と、前
記有声再生操作手段の再生操作に応じて前記第１再生速
度に対応した第１再生速度情報を出力し、前記ポーズ再
生操作手段の再生操作に応じて前記第２再生速度に対応
した第２再生速度情報を出力する速度情報出力手段と、
この速度情報出力手段からの前記第１再生速度情報に応
じて前記有声区間を前記第１再生速度で再生し、前記第
２再生速度情報に応じて前記ポーズ区間を前記第２再生
速度で再生する可変速再生手段とを備えることを特徴と
する。

【００１７】請求項１の発明の字幕用書き起こしテキス
トの作成支援システムによれば、速度情報出力手段は、
有声再生操作手段の再生操作に応じて第１再生速度情報
を出力し、可変速再生手段は、第１再生速度情報に応じ
て有声区間を第１再生速度で低速再生し、速度情報出力
手段は、ポーズ再生操作手段の再生操作に応じて第２再
生速度情報を出力し、可変速再生手段は、第２再生速度
情報に応じてポーズ区間を第２再生速度で高速再生す
る。即ち、特殊再生操作によって、スピーチ音声が聴き
取り易くなり、字幕文テキストの書き起こしが容易にな
り、書き起こし作業に専念できる。

【００１８】請求項２の発明は、映像及び音声並びにこ
れらの提示タイミング情報を含んだ番組素材の前記音声
を聴き取って前記音声に対する字幕文テキストの書き起
こし作業を支援するための字幕用書き起こしテキストの
作成支援システムであって、前記提示タイミング情報に
基づき、前記音声の内のスピーチ音声の区間である有声
区間の開始点に対応する有声開始タイミング情報と前記
音声の内の所定長以上の無音区間であるポーズ区間の開
始点に対応するポーズ開始タイミング情報を検出する検
出手段と、前記有声開始タイミング情報が示す時刻に、
前記有声区間を標準再生速度よりも低速な第１再生速度
で再生するための第１再生速度情報を出力し、前記ポー
ズ開始タイミング情報が示す時刻に、前記ポーズ区間を
前記第２再生速度で再生するための第２再生速度情報を
出力する速度情報出力手段と、この速度情報出力手段か
らの前記第１再生速度情報に応じて前記有声区間を前記
第１再生速度で再生し、前記第２再生速度情報に応じて
前記ポーズ区間を前記第２再生速度で再生する可変速再
生手段とを備えることを特徴とする。

【００１９】請求項２の発明の字幕用書き起こしテキス
トの作成支援システムによれば、速度情報出力手段は、
検出手段で検出された有声開始タイミング情報が示す時
刻に第１再生速度情報を出力し、可変速再生手段は、第
１再生速度情報に応じて有声区間を第１再生速度で再生
し、速度情報出力手段は、ポーズ開始タイミング情報が
示す時刻に第２再生速度情報を出力し、可変速再生手段
は、第２再生速度情報に応じてポーズ区間を第２再生速
度で再生する。即ち、特殊再生操作によって、スピーチ
音声が聴き取り易くなり、また、スピーチ区間及びポー
ズ区間の頭出しを含め煩雑なテープの再生操作を一部自
動化することができ、字幕文テキストの書き起こしが容
易になり、書き起こし作業に専念できる。

【００２０】請求項３の発明は、請求項１又は請求項２
記載の字幕用書き起こしテキストの作成支援システムに
おいて、前記音声を一定長のフレームに分割し、各フレ
ーム毎に、前記有声区間、前記ポーズ区間の判定を行な
い、前記有声区間を抽出する区間抽出手段と、この区間
抽出手段で抽出された有声区間から各ピッチ毎にピッチ
周期を抽出し、ピッチ周期毎に前記有声区間の音声波形
を分割するピッチ区間分割手段と、前記可変速再生手段
で低速再生されて伸張された伸張ピッチ周期を持つ伸張
有声区間と前記区間抽出手段で抽出された有声区間とを
入力し、前記標準再生速度に対する前記第１再生速度の
比を表す再生速度倍率と前記各ピッチ毎のピッチ周期と
ピッチ周期毎の音声波形とに基づき、前記伸張有声区間
を、該伸張有声区間の長さを変えずに前記ピッチ周期毎
の音声波形を用いた区間に変換する有声区間ピッチ変換
手段とを備えることを特徴とする。

【００２１】請求項３の発明の字幕用書き起こしテキス
トの作成支援システムによれば、有声区間ピッチ変換手
段は、可変速再生手段で低速再生されて伸張された伸張
ピッチ周期を持つ伸張有声区間と区間抽出手段で抽出さ
れた有声区間とを入力し、標準再生速度に対する第１再
生速度の比を表す再生速度倍率と各ピッチ毎のピッチ周
期とピッチ周期毎の音声波形とに基づき、伸張有声区間
を、該伸張有声区間の長さを変えずにピッチ周期毎の音
声波形を用いた区間に変換する。即ち、有声区間のみが
低速で再生され、また、低速再生における有声区間の伸
張ピッチ周期を再生速度に応じて元のピッチ周期に自動
補正するので、スピーチ音声が聴き取り易くなり、字幕
文テキストの書き起こしが容易になる。

【００２２】請求項４の発明は、請求項１乃至請求項３
のいずれか１項記載の字幕用書き起こしテキストの作成
支援システムにおいて、低速再生された音声を聴き取っ
て書き起こされ且つ単位字幕文を表示時間順に配列し
た、前記字幕文テキストを画面上の第１表示領域に表示
する表示手段を備え、前記単位字幕文は、前記スピーチ
音声に対応する字幕本文と、この字幕本文の開始点及び
終了点を表す開始及び終了タイミング情報と、話者情報
とからなり、前記表示手段は、前記提示タイミング情報
を表したタイムラインとこのタイムライン上に前記表示
時間順に配置した複数の映像とこの複数の映像に１対１
に対応させて前記タイムライン上に前記表示時間順に配
置した複数の字幕本文と前記タイムライン上に配置した
前記音声の波形とを、第２表示領域に表示したことを特
徴とする。

【００２３】請求項４の発明の字幕用書き起こしテキス
トの作成支援システムによれば、単位字幕文を表示時間
順に配列した字幕文テキストを画面上の第１表示領域に
表示し、提示タイミング情報を表したタイムラインとこ
のタイムライン上に表示時間順に配置した複数の映像と
この複数の映像に１対１に対応させてタイムライン上に
表示時間順に配置した複数の字幕本文とタイムライン上
に配置した音声の波形とを、第２表示領域に表示したの
で、字幕文テキストの編集が容易になる。

【００２４】請求項５の発明は、映像及び音声並びにこ
れらの提示タイミング情報を含んだ番組素材の前記音声
を聴き取って前記音声に対する字幕文テキストの書き起
こし作業を支援するための字幕用書き起こしテキストの
作成支援システムと、この字幕用書き起こしテキストの
作成支援システムを用いて得られた前記字幕文テキスト
に基づき、字幕番組データを自動制作する自動字幕番組
データ制作部と、この自動字幕番組データ制作部で制作
された字幕番組データを編集・試写する字幕番組編集・
試写部と、を備えた半自動型字幕番組制作システムであ
って、前記字幕用書き起こしテキストの作成支援システ
ムは、前記音声の内のスピーチ音声の区間である有声区
間を標準再生速度よりも低速な第１再生速度で再生する
ための再生操作を行う有声再生操作手段と、前記音声の
内の所定長以上の無音区間であるポーズ区間を前記標準
再生速度よりも高速な第２再生速度で再生するための再
生操作を行うポーズ再生操作手段と、前記有声再生操作
手段の再生操作に応じて前記第１再生速度に対応した第
１再生速度情報を出力し、前記ポーズ再生操作手段の再
生操作に応じて前記第２再生速度に対応した第２再生速
度情報を出力する速度情報出力手段と、この速度情報出
力手段からの前記第１再生速度情報に応じて前記有声区
間を前記第１再生速度で再生し、前記第２再生速度情報
に応じて前記ポーズ区間を前記第２再生速度で再生する
可変速再生手段とを備えることを特徴とする。

【００２５】請求項５の発明の半自動型字幕番組制作シ
ステムによれば、字幕用書き起こしテキストの作成支援
システムを用いて字幕文テキストを人手によって書き起
こし、自動字幕番組データ制作部は、字幕用書き起こし
テキストの作成支援システムを用いて得られた字幕文テ
キストに基づき、字幕番組データを自動制作し、字幕番
組編集・試写部は、自動字幕番組データ制作部で制作さ
れた字幕番組データを編集・試写する。即ち、人手に
よる制作機能と自動による制作機能とを効果的に組み合
わせたことで、字幕番組制作を効率良く行うことができ
る。

【００２６】請求項６の発明は、映像及び音声並びにこ
れらの提示タイミング情報を含んだ番組素材の前記音声
を聴き取って前記音声に対する字幕文テキストの書き起
こし作業を支援するための字幕用書き起こしテキストの
作成支援システムと、この字幕用書き起こしテキストの
作成支援システムを用いて得られた前記字幕文テキスト
に基づき、字幕番組データを自動制作する自動字幕番組
データ制作部と、この自動字幕番組データ制作部で制作
された字幕番組データを編集・試写する字幕番組編集・
試写部と、を備えた半自動型字幕番組制作システムであ
って、前記字幕用書き起こしテキストの作成支援システ
ムは、前記提示タイミング情報に基づき、前記音声の内
のスピーチ音声の区間である有声区間の開始点に対応す
る有声開始タイミング情報と前記音声の内の所定長以上
の無音区間であるポーズ区間の開始点に対応するポーズ
開始タイミング情報を検出する検出手段と、前記有声開
始タイミング情報が示す時刻に、前記有声区間を標準再
生速度よりも低速な第１再生速度で再生するための第１
再生速度情報を出力し、前記ポーズ開始タイミング情報
が示す時刻に、前記ポーズ区間を前記第２再生速度で再
生するための第２再生速度情報を出力する速度情報出力
手段と、この速度情報出力手段からの前記第１再生速度
情報に応じて前記有声区間を前記第１再生速度で再生
し、前記第２再生速度情報に応じて前記ポーズ区間を前
記第２再生速度で再生する可変速再生手段とを備えるこ
とを特徴とする。請求項６の発明の半自動型字幕番組制
作システムによれば、請求項２の効果と同様な効果が得
られる。

【００２７】請求項７の発明は、請求項５又は請求項６
記載の半自動型字幕番組制作システムにおいて、前記字
幕用書き起こしテキストの作成支援システムは、前記音
声を一定長のフレームに分割し、各フレーム毎に、前記
有声区間、前記ポーズ区間の判定を行ない、前記有声区
間を抽出する区間抽出手段と、この区間抽出手段で抽出
された有声区間から各ピッチ毎にピッチ周期を抽出し、
ピッチ周期毎に前記有声区間の音声波形を分割するピッ
チ区間分割手段と、前記可変速再生手段で低速再生され
て伸張された伸張ピッチ周期を持つ伸張有声区間と前記
区間抽出手段で抽出された有声区間とを入力し、前記標
準再生速度に対する前記第１再生速度の比を表す再生速
度倍率と前記各ピッチ毎のピッチ周期とピッチ周期毎の
音声波形とに基づき、前記伸張有声区間を、該伸張有声
区間の長さを変えずに前記ピッチ周期毎の音声波形を用
いた区間に変換する有声区間ピッチ変換手段とを備える
ことを特徴とする。請求項７の発明の半自動型字幕番組
制作システムによれば、請求項３の効果と同様な効果が
得られる。

【００２８】請求項８の発明は、請求項５乃至請求項７
のいずれか１項記載の半自動型字幕番組制作システムに
おいて、前記字幕用書き起こしテキストの作成支援シス
テムは、低速再生された音声を聴き取って書き起こされ
且つ単位字幕文を表示時間順に配列した、前記字幕文テ
キストを画面上の第１表示領域に表示する表示手段を備
え、前記単位字幕文は、前記スピーチ音声に対応する字
幕本文と、この字幕本文の開始点及び終了点を表す開始
及び終了タイミング情報と、話者情報とからなり、前記
表示手段は、前記提示タイミング情報を表したタイムラ
インとこのタイムライン上に前記表示時間順に配置した
複数の映像とこの複数の映像に１対１に対応させて前記
タイムライン上に前記表示時間順に配置した複数の字幕
本文と前記タイムライン上に配置した前記音声の波形と
を、第２表示領域に表示したことを特徴とする。請求項
８の発明の半自動型字幕番組制作システムによれば、請
求項４の効果と同様な効果が得られる。

【００２９】

【発明の実施の形態】以下、本発明に係る字幕用書き起
こしテキストの作成支援システムの実施形態について説
明する。実施の形態に係る字幕用書き起こしテキストの
作成支援システムは、人手による制作機能と自動による
制作機能とを効果的に組み合わせた、半自動型字幕番組
制作システムに適用される。そこで、字幕用書き起こし
テキストの作成支援システムに先立って、まず、半自動
型字幕番組制作システムについて説明する。

【００３０】（半自動型字幕番組制作システム）図１は
本発明の字幕用書き起こしテキストの作成支援システム
を備えた半自動型字幕番組制作システムの構成図であ
る。この半自動型字幕番組制作システムは、ディスク記
録再生装置に収録してあるテレビ素材番組の映像、音
声、タイムコード（提示タイミング情報）を効果的に操
作し、スピーチ音声に対する字幕用テキストの書き起こ
し及び背景音などの付加情報データを効率的に入力する
機能と、これらテキストやデータを利用し、自動で字幕
画面作成及びタイミング付与を行う自動字幕番組データ
制作機能、及び字幕番組データ（以下、字幕データと略
称する。）の編集及び試写を行う編集・試写機能とを備
える。

【００３１】半自動字型字幕番組制作システムは、図１
に示すように、字幕用テキストや付加情報データを入力
するための字幕文テキスト書き起こし部３と、入力した
字幕文テキストや付加情報データに基づいて字幕データ
を自動的に制作する自動字幕番組データ制作部４と、作
成した字幕画面の編集や試写を行う字幕番組編集・試写
部５と、前記各部を統括制御する基本グラフィックユー
ザインターフェイスシステム部（以下、基本ＧＵＩシス
テム部と略称する。）６と、テレビ素材番組の映像、音
声などを指定規格で記録再生するディスク記録再生部
（以下、ＤＳＫＶＴＲと略称する。）２と、字幕文テキ
ストの書き起こしの編集を行う際に用いる表示部７と、
を備えて構成されている。

【００３２】自動字幕番組データ制作部４は、入力した
字幕文テキストや付加情報データから字幕画面を自動制
作する自動字幕画面作成システム部４１と、字幕画面の
開始終了タイミング用の自動同期システム部４２と、必
要ならば字幕文テキストを指定の文字数に低減する自動
要約システム部４３とを有している。

【００３３】字幕文テキスト書き起こし部３は、素材番
組の音声を聞き取って、字幕文テキストの書き起こしや
付加情報データを入力する機能を備え、さらに素材番組
の映像・音声の活用による、効果的な手動作業支援のた
めの機能を備え、本発明の字幕用書き起こしテキストの
作成支援システムに対応する。字幕文テキスト書き起こ
し部３は、ディスク記録再生制御機能と、情報表示機能
と、データ作成制御機能と、データ作成画面機能と、主
映像機能とを備える。

【００３４】ディスク記録再生制御機能は、素材番組の
映像・音声、タイムコードなどを、パーソナルコンピュ
ータのディスクに記録するとともに、記録された映像音
声などの再生及び特殊再生操作のための操作キー３ａを
備え、特にスピーチ区間では任意の低速再生を行うとと
もに、変速率（再生速度倍率）に応じたピッチコントロ
ールを行い、書き起こしに適した速度でかつ音程がほぼ
不変とする機能をも備えている。情報表示機能は、書き
起こし及び付加情報データ入力の手動作業を支援するた
め、素材番組の映像・音声、書き起こしテキストなどに
関する各種の情報を、タイムライン上にビジュアルに表
示する。データ作成制御機能は、書き起こしたテキスト
やスピーチ／ポーズの時間データ入力操作のための操作
キーを備え、該操作キーの操作に対応した動作をする。
データ作成画面機能は、作成したテキストや入力したデ
ータの表示・編集などのための画面を表示する。主映像
機能は、プレビュー画面として、現在作業位置の画像を
表示する。

【００３５】自動字幕番組データ制作部４は、表示時間
順に配列された字幕文テキストの中から、表示対象とな
る単位字幕文を表示時間順に順次抽出し、抽出された単
位字幕文を、所望の字幕提示形式に従う少なくとも１以
上の表示単位字幕文に変換する一方、この変換で得られ
た表示単位字幕文毎に、該当する開始・終了タイミング
情報を同期点として検出するが、この同期点検出にあた
り、当該表示単位字幕文に対応するスピーチ音声と表示
単位字幕文間の音声認識処理を含む同期検出技術を適用
することにより、該当する開始・終了タイミング情報を
同期点として検出し、この検出した開始・終了タイミン
グ情報を、前記変換で得られた表示単位字幕文毎に付与
するものである。

【００３６】字幕番組編集・試写部５は、自動字幕番組
データ制作部４で自動制作された字幕データを人手で編
集・試写するものであり、さらに、素材番組の映像・音
声、字幕データなどの高度活用による効果的な手動作業
支援のための特別の機能を備えている。字幕番組編集・
試写部５は、ディスク記録再生及び字幕データ制御機能
と、情報表示・字幕タイミング制御機能と、字幕データ
ページ編集操作機能と、字幕データ・映像表示機能と、
試写機能とを備える。

【００３７】ディスク記録再生及び字幕データ制御機能
は、自動制作した字幕データ及び記録された映像・音声
などに関して、指定時間、字幕ページ、字幕ブロックな
ど編集・試写作業支援用特殊表示操作のための専用操作
キーを備え、該専用操作キーの操作に対応した動作をす
る。情報表示・字幕タイミング制御機能は、字幕データ
編集の手動作業を支援するため、素材番組の映像、音
声、字幕データなどに関する各種の情報を、タイムライ
ン上にビジュアル表示する機能であり、特に、字幕デー
タについては、タイミング変更支援画面を表示し、タイ
ミング変更支援画面に対応した動作をする。字幕データ
ページ編集操作機能は、字幕データのページ単位編集の
ための専用操作キーを備え、該専用操作キーの操作に対
応した動作をする。字幕データ・映像表示機能は、映像
に重畳した指定字幕データ表示のための、操作キーを備
え、該操作キーの操作に対応した動作をする。試写機能
は、部分試写、通し試写など、試写形式の選択に必要な
操作キーを備え、該操作キーの操作に対応した動作をす
る。

【００３８】基本ＧＵＩシステム部６は、半自動型字幕
番組制作システムの一構成品として、ヒューマンインタ
ーフェース、内部の各システムのインターフェース・制
御、及び外部とのデータ入出力制御を行うとともに、自
動字幕番組データ作成機能のインターフェース・制御機
能も備えており、多様な番組の効率的な字幕番組制作を
行う字幕番組制作システムを統括するものである。

【００３９】次に、半自動型字幕番組制作システムの機
能構成の詳細について、図２のフローチャートを参照し
ながら説明する。

【００４０】まず、字幕番組制作のためのプロジェクト
を作成し（ステップＳ１）、映像、音声データなどから
なる映像ファイルを作成し（ステップＳ２）、次いで、
スピーチ者（話者）を登録する（ステップＳ３）。そし
て、映像、音声データの情報に基づいて、字幕文テキス
トの編集を行う（ステップＳ４）。字幕文テキストの編
集は、字幕文テキスト書き起こし部３による字幕文テキ
スト書起し機能によって行われる。この字幕文テキスト
書き起こし機能の詳細については、後述する。

【００４１】次に、自動字幕番組データ制作機能によ
り、自動要約・自動同期などを行い（ステップＳ５）、
編集された字幕文テキストを所定形式の字幕データに変
換する（ステップＳ６）。

【００４２】次いで、字幕番組データ編集・試写機能に
より、変換された字幕データの字幕素材を編集する（ス
テップＳ７）。このとき、字幕データページ一覧を表示
したり（ステップＳ８）、字幕データをページ単位編集
に利用した後（ステップＳ９）、編集された字幕素材を
デジタル変換する（ステップＳ１０）。字幕番組データ
編集・試写機能は、一応出来上がった字幕データを専門
知識を有する作業者が試写し、必要ならば修正するもの
であり、作業者がチェックし易い試写形態、字幕内容、
改行・改頁、タイミングなどに関する修正編集が行い易
いよう支援する機能を盛り込んである。送出／消去時
間、字幕本文、管理情報より構成された字幕データを字
幕素材と仮称する。『字幕素材編集』では、これを効率
的に編集する為の機能である。また、編集の補助とし
て、編集・試写画面を使用して、タイムライン上での字
幕タイミングの調整や、字幕を多重した画面上での字幕
ポジションの調整を行うことができる。字幕素材編集の
入出力は、文字放送のＮＡＢ形式のファイルで行う。こ
のファイルは、他の『ページ一覧』、『ページ利用』、
『デジタル形式変換』の入出力形式になる。

【００４３】（字幕文テキスト書き起こし機能の詳細）
次に、字幕文テキスト書き起こし機能の詳細について説
明する。この機能における主要な作業は、番組のスピー
チ音声を聞き取り、その内容を書起すとともに、その一
区切り（文に相当）に対してその開始・終了タイミング
と話者をデータ化するものである。したがって、字幕文
テキストを書起しし易くする支援機能として、作業者が
正しく番組のスピーチ音声を聞き取り、自分のペースで
書起しできるようにすることが基本であり、スピーチ音
声を聞き取り易く書き起し易いこと、話者・タイミング
を把握しやすいこと、書起しデータを簡単に修正できる
ことなどが重要である。

【００４４】このため、本システムの字幕文テキスト書
起し機能にはこのような手作業支援機能を盛り込んであ
る。この機能では字幕文テキストファイル（ＸＭＬ）の
編集を行う。字幕文テキストとは、範囲時間（ＩＮＴ
ＩＭＥ（開始タイミングに対応），ＯＵＴＴＩＭＥ
（終了タイミングに対応））と話者、字幕文から構成さ
れたデータである。字幕文テキスト編集の補助として、
ＭＰＥＧ／ＡＶＩ映像ファイルを使用して、音声の聞き
取り、タイミングの調整、話者情報の修正などを行うこ
とができる。

【００４５】字幕文テキストの編集や各補助機能の操作
は、図３に示すメインWindowを使用して行われる。この
メインWindowは表示部７の画面上にある。Windowのサイ
ズは、例えば１２８０×１０２４である。メインWindow
は大きく分けて、四つのセクションに分かれている。一
つ目は、各種機能の呼び出しを行うメニュー領域Ｅ１で
あり、メニューバーとツールバーに用意された項目を実
行することにより、各種機能の呼び出しを行う。このメ
ニュー領域Ｅ１を使用しないと、呼び出せない機能が多
くある。二つ目は、ＭＰＥＧ／ＡＶＩ映像の制御領域Ｅ
２であり、ＭＰＥＧ／ＡＶＩ映像の表示領域や、時間枠
の取り出しボタン、ＭＰＥＧ／ＡＶＩ再生の開始ボタン
Ｂ２、停止ボタンＢ１などが用意されている。三つ目
は、字幕文テキストの編集領域Ｅ３であり、時間枠、話
者、字幕本文の入力を行う。四つ目は、画像と字幕文テ
キストなどの一覧領域Ｅ４であり、入力された字幕文テ
キストの内容や、ＭＰＥＧ／ＡＶＩ映像ファイルよりカ
ット変わりなどの画像一覧、及び音声関連波形などが表
示され、入力の補助を行う。また、ＭＰＥＧ／ＡＶＩ映
像ファイルの再生位置トラックバーが表示されており、
この位置を変えることにより、再生位置の変更が可能に
なる。

【００４６】映像制御セクションでは、映像ファイルの
再生に関するインターフェースが用意されている。映像
のサイズは、６４０×４８０である。タイムコードは、
プロジェクト新規作成の際に入力されたイニシャルタイ
ムを基準として、映像ファイルの再生位置を足した時間
である。なお、映像ファイルの再生位置は、２９．９７
フレームを１秒として扱う。

【００４７】再生ボタンＢ２は映像の再生スタートを行
い、停止ボタンＢ１は、映像の再生ストップを行う。停
止ボタンＢ１が実行されても、映像は消えない。再生位
置トラックバーは、現在映像ファイルのどの部分を再生
しているかを示す。また、トラックバーを動かすことに
より、再生位置を変更することも可能である。

【００４８】ＭＡＲＫＩＮボタンＢ３は、編集領域の
ＩＮＴＩＭＥの欄へ、現在の映像の時間をコピーす
る。ＭＡＲＫＯＵＴボタンＢ４は、編集領域のＯＵＴ
ＴＩＭＥの欄へ、映像の現在の時間をコピーする。繰り
返し再生ボタンＢ５は、指定期間の画像を繰り返し再生
する。停止ボタンＢ１又はＭＡＲＫＩＮボタンＢ３の
操作により、終了する。

【００４９】話速変換操作部Ｂ６は、映像を再生し、書
き起こしをする際におけるスピーチ音声のスピードを調
節するもので、この操作部を調整することで、有声区間
（スピーチ区間）の伸張倍率を変化させることができ
る。＜＜５秒ボタンＢ７は、映像の再生位置を前に５秒
移動し、５秒＞＞ボタンＢ８は、映像の再生位置を後ろ
に５秒移動する。

【００５０】図４に示す編集セクションは、字幕用デー
タの入力や、入力後の編集を行う領域Ｅ３であり、入力
一覧領域Ｅ３１には、入力された内容が一覧表示され
る。この領域Ｅ３１を利用して、一単位（話者で認識）
を指定し、各作業を行う。領域Ｅ３２はページのＩＮ
ＴＩＭＥの設定を行い、領域Ｅ３３はページのＯＵＴ
ＴＩＭＥの設定を行う。前のページで設定した時間内に
含める場合には、前のページの時間と同じ値のままで、
確定する。領域Ｅ３４への話者設定は、ツール(T)メニ
ューの話者登録で登録した内容より、選択を行う。Ｅ３
０は書き起こしによるテキスト入力部分であり、必要な
らばＢ１２、Ｂ１３、Ｂ１４で編集できる。切り取りボ
タンＢ１２、コピーボタンＢ１３は、選択された内容を
切り取り／コピーする。貼り付けボタンＢ１４は、切り
取り／コピー機能で記録された内容を指定の箇所の次へ
貼り付ける。

【００５１】追加ボタンＢ１０は、書き起こし編集され
た内容を入力一覧の最後に追加する。挿入ボタンＢ１１
は、入力された内容を入力一覧で選択された一単位の次
へ挿入する。

【００５２】一覧領域セクションＥ４は、図５に示すよ
うに、映像ファイルと編集データの内容を一覧表示す
る。一画面で表示する幅は、ツール(T)のオプションで
選択された１２０秒、６０秒、３０秒のいずれかとな
る。画像は、映像ファイルより、一定間隔もしくはカッ
ト変わりなどの画像を抜き出して、表示する。画像のサ
イズは１６０×１２０、画像の間隔は全体幅が１２０秒
の時は２０秒、６０秒の時は１０秒、３０秒の時は５秒
となる。字幕本文は、編集領域セクションによって入力
された字幕本文の内容が表示される。枠の幅は時間幅を
表している。幅が狭く、字幕本文が表示しきれない場合
には省略される。話者の部分の枠をマウス等によるドラ
ッグで変更した場合には、対象字幕１ページの幅（時間
幅）の変更を、字幕本文の部分の枠をドラッグで変更し
た場合には、境界線の時間の変更を行う。枠内がダブル
クリックされた際、編集領域セクションが編集途中でな
ければ、入力一覧で指定した内容を表示できる位置に移
動する。図５に示す波形については、映像ファイルに記
録されている音声（音楽、効果音を含む）信号を処理し
波形化して、表示する。スピーチやポーズの位置を視覚
的に判断できるようにした支援機能である。

【００５３】このように、字幕文テキストを画面上の領
域Ｅ３に表示し、タイムコードに対応したタイムライン
ＴＬとこのタイムラインＴＬ上に配置した複数の画像と
この複数の画像に対応させてタイムラインＴＬ上に配置
した複数の字幕本文とタイムラインＴＬ上に配置した音
声の波形とを、領域Ｅ４に表示したので、字幕文テキス
トの編集が容易になる。

【００５４】次に、支援機能を活用した字幕文テキスト
書き起しと付加情報データ入力の、具体的処理手順の一
例を図６のフローチャートを参照しながら説明する。ま
ず、［ＰＬＡＹ］を押し、映像の再生を開始して、発話
タイミング（スピーチ音声の開始タイミング）を探す
（ステップＳ２１）。次いで、発話の確認点で、「書起
開始」ボタンを押す（ステップＳ２２）。このとき、ス
ピーチ区間の開始点をその時点におけるタイムコードに
よりメモリに記憶する。即ち、タイムコードによりスピ
ーチ音声の開始タイミング情報が得られる。

【００５５】次に、発話タイミングから一定時間だけテ
ープを巻き戻し、スロー再生を開始する（ステップＳ２
３）。スロー再生されたスピーチ音声を聞きながら、作
業者がスピーチ音声に対する字幕文テキストの書き起こ
し作業を行う（ステップＳ２４）。即ち、作業者は、キ
ーボード等を用いてスロー再生されたスピーチ音声を聞
きながら、スピーチ音声に対応する文字、記号、数字等
を入力して字幕文テキストを作成し、その字幕文テキス
トを画面上に表示させる。

【００５６】そして、スピーチ音声が終了と認識した
ら、適宜、テープを巻き戻して発話終了点（スピーチ音
声の終了タイミング）を探す（ステップＳ２５）。発話
終了点で「書起終了」ボタンを押す（ステップＳ２
６）。このとき、スピーチ区間の終了点をその時点にお
けるタイムコードによりメモリに記憶する。即ち、タイ
ムコードによりスピーチ音声の終了タイミング情報が得
られる。そして、スロー再生モードから通常再生モード
へ移行する。

【００５７】次いで、書き起こしが終了したかどうかを
判定し（ステップＳ２７）、書き起こしが終了した後
に、そのテキスト全体に対して用字、用語チェック、要
約支援を実行して必要なテキストの修正を行い（ステッ
プＳ２８）、その後背景音情報などをチェックし情報を
登録する（ステップＳ２９）。さらに、テキスト作成関
係の作業を終了し、自動字幕番組データ制作へ進む（ス
テップＳ３０）。

【００５８】このように、本システムにおける字幕文テ
キスト書き起し機能によれば、テレビ素材番組の映像、
音声、タイムコードをノンリニア操作が容易なディスク
記録・再生部２に収録するとともに、テレビ素材番組の
スピーチ区間のみをスロー再生し、スピーチ区間以外の
区間では通常スピードで再生することによって、作業者
はスピーチ音声が聴き取り易くなり、これによって、ス
ピーチ音声に対する字幕文テキストの書き起しやその開
始・終了タイミング情報及び背景音などの付加情報デー
タを効率的に入力することができる。

【００５９】また、実施の形態の半自動型字幕番組制作
システムによれば、字幕文書き起こし部３を用いて字幕
文テキストを人手によって書き起こし、自動字幕番組デ
ータ制作部４は、得られた字幕文テキストに基づき、字
幕番組データを自動制作し、字幕番組編集・試写部５
は、自動字幕番組データ制作部４で制作された字幕番組
データを編集・試写する。即ち、人手による制作機能
と自動による制作機能とを効果的に組み合わせたこと
で、字幕番組制作を効率良く行うことができる。

【００６０】（字幕用書き起こしテキストの作成支援シ
ステム）次に、図６に示すフローチャートによる字幕文
テキスト書き起こし機能よりも書き起こしを容易にし
た、字幕用書き起こしテキストの作成支援システムにつ
いて説明する。本発明の字幕用書き起こしテキストの作
成支援システムは、字幕文テキスト書き起こし部３に対
応し、字幕文テキスト書き起こし部３の一実施形態であ
る。

【００６１】図７は本発明の字幕用書き起こしテキスト
の作成支援システムの一例を示すブロック図である。こ
の書き起こし作成支援システムは、可変速再生装置３１
と、可変速再生制御部３２、スピーチ再生速度キー３
３、ポーズ再生速度キー３４、フレーム分割部５１と、
区間判定部５２と、有声区間処理部５３と、無声区間処
理部５４と、無音区間短縮部５５と、有声区間抽出部５
６と、ピッチ抽出部５７と、ピッチ区間分割部５８と、
有声区間ピッチ変換部５９と、合成部６０とを備え、図
１２に示すように、有声区間を標準再生速度（通常再
生）に対して例えば１／３倍程度の低速で再生し、ポー
ズ区間を標準再生速度に対して例えば３倍程度の高速で
再生し（特殊再生）、しかも低速再生における有声区間
の伸張されたピッチ周期を再生速度に応じて元のピッチ
周期に自動補正することにより、スピーチ音声を聴き取
り易く、字幕文テキストの書き起こしを容易にして、書
き起こし作業に専念できるようにしたものである。

【００６２】スピーチ再生速度キー３３は、記録媒体４
１に記録された音声の内のスピーチ音声の区間である有
声区間を標準再生速度よりも低速な第１再生速度で再生
するための再生操作を行う。ポーズ再生速度キー３４
は、記録媒体４１に記録された音声の内の所定長以上の
無音区間であるポーズ区間を標準再生速度よりも高速な
第２再生速度で再生するための再生操作を行う。ここ
で、標準再生速度とは、記録媒体４１に音声を記録した
ときの速度である。第１再生速度は、標準再生速度を１
倍とした場合に、作業者の書き起こし能力に合わせた例
えば１／３倍程度である。第２再生速度は、標準再生速
度を１倍とした場合に、次のスピーチ開始が認識できる
程度の例えば３倍程度である。

【００６３】可変速再生制御部３２は、本発明の速度情
報出力手段に対応し、スピーチ再生速度キー３３の再生
操作に応じて第１再生速度に対応した第１再生速度情報
Ｖ_１を可変速再生装置３１に出力し、ポーズ再生速度キ
ー３４の再生操作に応じて第２再生速度に対応した第２
再生速度情報Ｖ_２を可変速再生装置３１に出力する。

【００６４】可変速再生装置３１は、図１のディスク記
録・再生部２に対応するものであり、テレビ素材番組の
映像、音声、タイムコード（提示タイミング情報）を記
録した記録媒体４１と、可変速再生制御部３２からの第
１再生速度情報Ｖ_１に応じて、記録媒体４１に記録され
た音声の内の有声区間を第１再生速度で再生する低速再
生部４３と、可変速再生制御部３２からの第２再生速度
情報Ｖ_２に応じて、記録媒体４１に記録された音声の内
のポーズ区間を第２再生速度で再生する高速再生部４４
と、可変速再生制御部３２からの切替信号により、低速
再生部４３の作動時に接片４２ａを端子ｂに切り替え、
高速再生部４４の作動時に接片４２ａを端子ｃに切り替
えるスイッチ４２と、を備える。

【００６５】低速再生部４３は、所定の再生速度倍率で
有声区間を低速再生して有声区間を伸張させ、伸張され
た伸張ピッチ周期を持つ音声区間及び再生速度倍率情報
を有声区間ピッチ変換部５９に供給する。ここで、再生
速度倍率ｒは、標準再生速度Ｖ_０に対する低速再生にお
ける第１再生速度Ｖ_１の比（Ｖ_１／Ｖ_０）である。

【００６６】フレーム分割部５１は、記録媒体４１から
音声信号及びタイムコードを取り込み、音声信号を一定
長のフレームに分割する。区間判定部５２は、各フレー
ム毎に有声区間、無声区間、無音区間の判定を行ない、
有声区間、無声区間、無音区間のそれぞれを抽出する。

【００６７】有声区間抽出部５６は、区間判定部５２で
判定された有声区間を抽出する。ピッチ抽出部５７は、
有声区間抽出部５６で抽出された有声区間から１ピッチ
毎にピッチ周期を抽出する。なお、これらの処理で必要
ならば、再生速度倍率ｒを適用する。このピッチ周期の
抽出は、例えば特許第3219868号に記載された技術を用
いる。

【００６８】ピッチ区間分割部５８は、ピッチ抽出部５
７で抽出されたピッチ周期毎に有声区間の音声波形を分
割する。有声区間ピッチ変換部５９は、低速再生部４３
からの低速再生されて伸張された伸張ピッチ周期を持つ
有声信号と有声区間抽出部５６で抽出された有声区間と
を入力し、再生速度倍率と各ピッチ毎のピッチ周期とピ
ッチ周期毎の音声波形とに基づき、伸張有声区間を、該
伸張有声区間の長さを変えずにピッチ周期毎の音声波形
を用いた区間に変換して、低速再生された元のピッチ周
期の有声区間を出力する。

【００６９】合成部６０は、低速再生部４３からの低速
再生された元のピッチ周期の有声区間と、高速再生部４
４からの高速再生されたポーズ区間とを接続合成して音
声出力として図示しない音声出力回路に供給する。この
音声出力回路は、スピーカ等を備えており、合成部６０
からの音声出力を取り込んで音声に変換しながら、外部
に出力する。スピーチ再生速度キー３３の再生操作時に
おける提示タイミング情報が示す開始タイミング情報
（書き起こし開始時刻に対応）と、ポーズ再生速度キー
３４の再生操作時における提示タイミング情報が示す終
了タイミング情報（書き起こし終了時刻に対応）は、可
変速再生装置３１、有声区間ピッチ変換部５９及び合成
部６０を介して、表示部７に出力される。

【００７０】次に、図７に示すブロック図及び図８、図
９、図１０に示すフローチャート、図１１、図１２、図
１３に示すタイミング図を参照しながら、この実施例の
動作を説明する。なお、図８のステップＳＴ３ａ，ＳＴ
５ａ，ＳＴ７ａまでの処理に続き、図９のステップＳＴ
３ｂ，ＳＴ４ｂ，ＳＴ５ｂ，ＳＴ６ｂ，ＳＴ７ｂまでの
処理であるＳＴ１０が行われる。

【００７１】まず、記録媒体４１を標準再生部４１ａで
再生してその音声信号を取り込み（ステップＳＴ１）、
有声区間の開始を書き起こし作業者が聴取して確認す
る。次いで、スピーチ再生速度キー３３が操作されたか
どうかが判定される（ステップＳＴ３ａ）。スピーチ再
生速度キー３３が操作されると、可変速再生制御部３２
は、スピーチ操作時刻情報と第１再生速度情報とを低速
再生部４３に出力するとともに、接片４２ａを端子ｂに
切り替える切替信号をスイッチ４２に出力する。

【００７２】そして、スイッチ４２が低速再生部側に切
り替えられると（ステップＳＴ５ａ）、低速再生部４３
は、スピーチ操作時刻情報に基づきスピーチ操作時刻情
報が示す時刻の所定時間前から第１再生速度情報Ｖ_１に
対応した第１再生速度で有声区間を低速再生する（ステ
ップＳＴ７ａ）。低速再生部４３は、低速再生されて伸
張された伸張ピッチ周期を持つ有声信号を有声区間ピッ
チ変換部５９に出力する。

【００７３】一方、フレーム分割部５１は、標準再生部
４１ａから入力された音声信号をフレームと呼ばれる一
定長、例えば３．３ｍｓを単位とし再生速度倍率ｒの値
に応じた値毎に切出し、各フレームを区間判定部５２に
転送させる（図９のステップＳＴ３ｂ）。この後、区間
判定部５２はフレーム分割部５１から出力されくる音声
信号を各フレーム毎に自己相関法や零クロス法などの方
法で処理して各フレーム毎に有声、無声、無音（ポー
ズ）の判定を行なう。但し、この場合、人が発する有声
及び無声以外の入力音（例えば、低レベルの雑音や背景
音など）については、原則として無音として処理する
（ステップＳＴ４ｂ）。

【００７４】区間判定部５２は、処理バッファ回路に格
納されている各音声信号のうち、無音区間と判定された
区間の中で、その区間長が２５０ｍｓを単位とする再生
速度倍率ｒ以上の無音区間がポーズ区間（息継ぎ部分）
と判定するとともに、各ポーズ区間の間にある区間をフ
レーズ区間（一息で発声される区間）とする。

【００７５】次いで、有声区間抽出部５６が、図１１
（ａ）に示すような原音声の有声区間Ｓを抽出する（ス
テップＳＴ５ｂ）。この原音声の有声区間Ｓは、各音声
波形が順番に配列されたもので、図１１（ｂ）に示すよ
うに、各音声波形が異なるピッチ周期Ｔ_１，Ｔ_２，Ｔ_３
…を持つ。この後、ピッチ抽出部５７は、有声区間抽出
部５６で抽出された原音声の有声区間Ｓから１ピッチ毎
にピッチ周期Ｔｎ（ｎ≧１で、Ｔ_１，Ｔ_２，Ｔ_３…）を
抽出する（ステップＳＴ６ｂ）。そして、ピッチ区間分
割部５８は、ピッチ抽出部５７で抽出された各ピッチ周
期Ｔｎ毎に、有声区間Ｓの音声波形を分割し、図８のス
テップＳＴ１１に進む（ステップＳＴ７ｂ）。

【００７６】次いで、有声区間ピッチ変換部５９には、
低速再生部４３からの伸張された伸張ピッチ周期を持つ
伸張有声区間及び再生速度倍率ｒが入力される。そし
て、有声区間ピッチ変換部５９は、低速再生部４３から
の伸張された伸張ピッチ周期を持つ伸張有声区間Ｓ´
と、有声区間抽出部５６で抽出された有声区間Ｓとを入
力する。この伸張有声区間Ｓ´の伸張ピッチ周期Ｔｎ´
（ｎ≧１で、Ｔ_１´，Ｔ_２´，Ｔ_３´…）は、図１１
（ｃ）に示すように、再生速度倍率ｒ、即ち、通常の再
生速度Ｖ_０に対する低速再生における再生速度Ｖ_１の比
（Ｖ_１／Ｖ_０）に応じて、ピッチ周期Ｔｎを伸張したも
のである。そして、有声区間ピッチ変換部５９は、再生
速度倍率ｒとピッチ周期Ｔｎとから再生後の伸張ピッチ
周期Ｔｎ´を求める（ステップＳＴ１８）。即ち、ｒ＝
Ｔｎ／Ｔｎ´であるから、Ｔｎ´＝Ｔｎ／ｒとなる。

【００７７】次いで、有声区間ピッチ変換部５９は、再
生速度倍率ｒと各ピッチ毎のピッチ周期Ｔｎとピッチ周
期Ｔｎ毎の音声波形とに基づき、伸張有声区間Ｓ´を、
該伸張有声区間Ｓ´の長さを変えずにピッチ周期Ｔｎ毎
の音声波形を用いた区間に変換して、低速再生された元
のピッチ周期Ｔｎを持つ有声区間Ｓ″を出力する。この
有声区間Ｓ″の各音声波形は、次のようにして決定され
る。まず、有声区間Ｓ″の最初の波形Ｃ_１としてピッチ
周期Ｔ_１を持つ波形を選択する（ステップＳＴ１９）。
次の周期の波形Ｃ_２には、ピッチ周期Ｔ_１を持つ波形か
ピッチ周期Ｔ_２を持つ波形の何れかを選択する。このた
め、再生後のピッチ周期Ｔｎ´と再生前のピッチ周期Ｔ
ｎとの差Ｔｎ″を求める（ステップＳＴ２０）。そし
て、重複率ｘ＝Ｔｎ″／Ｔｎ´（最初はｎ＝１）を求め
（ステップＳＴ２１）、重複率ｙ＝Ｔ_ｎ＋１″／Ｔ
_ｎ＋１´を求める（ステップＳＴ２２）。この例では、
Ｔ_２″＝（Ｔ_１＋Ｔ_２）−Ｔ_１´となる。

【００７８】次いで、重複率ｘが重複率ｙ以上かどうか
を判定し（ステップＳＴ２３）、重複率ｘが重複率ｙ以
上である場合には、波形Ｃ_２としてピッチ周期Ｔｎを持
つ波形を選択し（ステップＳＴ２４）、重複率ｘが重複
率ｙ未満である場合には、波形Ｃ_２としてピッチ周期Ｔ
_ｎ＋１を持つ波形を選択する（ステップＳＴ２５）。こ
の例では、ｘ＜ｙであるから、波形Ｃ_２として、ピッチ
周期Ｔ_２を持つ波形を採用する。

【００７９】このようにして、伸張された伸張有声区間
について、全ての波形が決定したかどうかを判定し（ス
テップＳＴ２６）、全ての波形が決定していない場合に
は、ｎを１つずつインクリメントしながら、上述した処
理と同様な処理を行い、波形Ｃ_３としてピッチ周期Ｔ_２
を持つ波形を採用し、波形Ｃ_４としてピッチ周期Ｔ_３を
持つ波形を採用していく。全ての波形が決定した場合に
は、処理を終了し、処理データをファイルに格納する。
そして、有声区間ピッチ変換部５９は、ファイルから読
み出した処理データ、即ち、低速再生された元のピッチ
周期を持つ音声信号を合成部６０に供給する。合成部６
０は、入力された音声信号を音声出力回路に出力する。
このため、作業者は、低速再生された元のピッチ周期を
持つスピーチ音声を聴取して、字幕文テキストの書き起
こしを開始することができる。

【００８０】次に、有声区間が終了し、且つこの区間の
書き起こしが終了した時点で、ポーズ再生速度キー３４
を操作すると（ステップＳＴ１２のＹＥＳ）、可変速再
生制御部３２は、ポーズ操作時刻情報と第２再生速度情
報Ｖ_２とを高速再生部４４に出力するとともに、接片４
２ａを端子ｃに切り替える切替信号をスイッチ４２に出
力する。

【００８１】そして、スイッチ４２が高速再生部側に切
り替えられると（ステップＳＴ１３）、高速再生部４４
は、ポーズ操作時刻情報に基づきポーズ操作時刻情報が
示す時刻から第２再生速度情報Ｖ_２に対応した第２再生
速度でポーズ区間を高速再生する（ステップＳＴ１
４）。さらに、合成部６０は、高速再生部４４からの高
速再生されたポーズ区間の音声信号を音声出力として図
示しない音声出力回路に供給する。以下、処理対象とな
る音声信号が無くなるまで（ステップＳＴ１６）、上述
した処理を繰り返し行なう。

【００８２】また、書き起こした字幕文テキストは表示
部７の画面上に表示される。この画面上における字幕文
テキストの編集は、図３から図５に示すものと同様であ
る。そして、書き起こしが終了した後に、そのテキスト
の用字、用語チェック、必要な場合は要約支援を実行し
て必要なテキストの修正を行い、その後背景音情報など
をチェックし情報を登録する。さらに、テキスト作成関
係の作業を終了し、自動字幕番組データ制作へ進む。

【００８３】このように、字幕用書き起こしテキストの
作成支援システムによれば、可変速再生制御部３２が、
スピーチ再生速度キー３３の再生操作に応じて第１再生
速度情報を出力し、可変速再生装置３１が、第１再生速
度情報に応じて有声区間を第１再生速度で低速再生し、
可変速再生制御部３２が、ポーズ再生速度キー３４の再
生操作に応じて第２再生速度情報を出力し、可変速再生
装置３１が、第２再生速度情報に応じてポーズ区間を第
２再生速度で高速再生する。即ち、特殊再生操作によっ
て、スピーチ音声が聴き取り易くなり、字幕文テキスト
の書き起こしやタイミング情報の取得が容易になり、書
き起こし作業に専念できる。

【００８４】また、有声区間のみが低速で再生され、低
速再生における有声区間の伸張ピッチ周期を再生速度に
応じて元のピッチ周期に自動補正する。即ち、図１１及
び図１２に示すように、低速再生時には、第１有声区
間、第２有声区間、第３有声区間等の有声区間のみが元
のピッチ周期で低速化するので、スピーチ音声が聴き取
り易くなり、字幕文テキストの書き起こしが容易にな
る。これにより、電子化原稿のない番組や背景音レベル
の大きい番組などでも、字幕文テキストを制作する必要
がある場合には、これを効率的に作成することができ
る。また、聴き取りやすさを考慮した最低速化の場合、
スピーチ部分が平均して３０％程度までスピードダウン
が可能であり、高速のスピーチ音声などを大幅に聴きや
すいものとすることができる。

【００８５】また、作業者がスピーチ音声を聴取してス
ピーチ再生速度キー３３を操作する場合、キー操作遅れ
のために有声区間の開始部分が高速再生となり、書き起
こし不能となる可能性があるが、実施の形態では、スピ
ーチ操作時刻情報が示す時刻の所定時間前から第１再生
速度で有声区間を低速再生しているので、書き起こし不
能となる可能性はない。

【００８６】（第２の実施の形態）次に、図１４を参照
して、本発明の字幕用書き起こしテキストの作成支援シ
ステムの第２の実施の形態を説明する。第２の実施の形
態では、スピーチ再生速度キー３３及びポーズ再生速度
キー３４に代えて、スピーチ・ポーズ開始タイミング検
出部６１を設け、スピーチ開始タイミング情報及びポー
ズ開始タイミング情報を自動的に得て、スピーチ開始タ
イミング情報に基づき有声区間を第１再生速度で低速再
生し、ポーズ開始タイミング情報に基づきポーズ区間を
第２再生速度で高速再生したことを特徴とする。

【００８７】スピーチ・ポーズ開始タイミング検出部６
１は、有声区間抽出部５６で抽出された有声区間とタイ
ムコードとに基づき、フレーズ区間内の最初の有声区間
の開始点に対応するスピーチ開始タイミング情報とフレ
ーズ区間内の最後の有声区間の終了点に対応するスピー
チ終了タイミング情報（即ち、ポーズ開始タイミング情
報に対応）とを検出し、スピーチ開始タイミング情報と
ポーズ開始タイミング情報とを可変速再生制御部３２ａ
に出力する。なお、タイムコードは、フレーム分割部５
１から区間判定部５２を介して有声区間抽出部５６に入
力されるものとする。

【００８８】可変速再生制御部３２ａは、スピーチ開始
タイミング情報が示す時刻の所定時間前に、有声区間を
標準再生速度よりも低速な第１再生速度で再生するため
の第１再生速度情報を低速再生部４３に出力し、ポーズ
開始タイミング情報が示す時刻に、ポーズ区間を第２再
生速度で再生するための第２再生速度情報を高速再生部
４４に出力する。低速再生部４３は、スピーチ開始タイ
ミング情報が示す時刻の所定時間前の時刻から、可変速
再生制御部３２ａからの第１再生速度情報に応じて有声
区間を第１再生速度で再生する。高速再生部４４は、ポ
ーズ開始タイミング情報が示す時刻から、第２再生速度
情報に応じてポーズ区間を第２再生速度で再生する。

【００８９】このような第２の実施の形態の字幕用書き
起こしテキストの作成支援システムによれば、スピーチ
・ポーズ開始タイミング検出部６１が、最初、処理対象
となっている有声区間がポーズ区間直後の有声区間かど
うかを判定し、ポーズ区間直後の有声区間であれば、図
１３に示すように、第１有声区間の立ち上がりエッジか
ら第１有声区間の開始点Ｖ＿ｓｔを検出して、この開始
点に対応するタイムコードｔ１（スピーチ開始タイミン
グ情報に対応）を検出する。また、そのフレーズ区間内
の最後の有声区間の立ち下りエッジから最後の有声区間
終了点を検出してこの終了点に対応するタイムコードｔ
ｅ（ポーズ開始タイミング情報に対応）を検出する。そ
して、検出されたスピーチ開始タイミング情報及びポー
ズ開始タイミング情報を可変速再生制御部３２ａに出力
する。

【００９０】可変速再生制御部３２ａは、スピーチ開始
タイミング情報が示す時刻の所定時間前に、第１再生速
度情報を低速再生部４３に出力し、低速再生部４３は、
スピーチ開始タイミング情報が示す時刻の所定時間前の
時刻から、可変速再生制御部３２ａからの第１再生速度
情報に応じて有声区間を第１再生速度で再生する。ま
た、可変速再生制御部３２ａは、ポーズ開始タイミング
情報が示す時刻に、第２再生速度情報を高速再生部４４
に出力し、高速再生部４４は、ポーズ開始タイミング情
報が示す時刻から、第２再生速度情報に応じてポーズ区
間を第２再生速度で再生する。即ち、特殊再生操作によ
って、スピーチ音声が聴き取り易くなり、また、スピー
チ区間及びポーズ区間の頭出しを含め煩雑なテープの再
生操作を一部自動化することができ、字幕文テキストの
書き起こしが容易になり、書き起こし作業に専念でき
る。また、図３、図５に示す音声に関する波形は、ディ
スクＶＴＲ（ＤＳＫＶＴＲ）に収録されている番組音声
からスピーチ部分を強調するなどの処理を行ったもので
あり、この矩形波の上の部分はスピーチに基本的に対応
する。従って、第２の実施形態を示す図１４のスピーチ
・ポーズ開始タイミング検出部６１の機能に対応するも
のであるから、この波形による情報をスピーチ・ポーズ
情報として可変速再生制御部３２ａに加え、可変速再生
を行うことも可能である。

【００９１】また、スピーチ開始タイミング情報は、字
幕文書き起こし開始のための開始タイミング情報に対応
し、ポーズ開始タイミング情報は、字幕文書き起こし終
了のための終了タイミング情報に対応しているので、自
動字幕番組制作システムにおいて、このスピーチ開始タ
イミング情報及びポーズ開始タイミング情報を、該当す
る書き起こし単位文に付与する際に活用することができ
る。

【００９２】

【発明の効果】以上説明したように、請求項１の発明の
字幕用書き起こしテキストの作成支援システムによれ
ば、速度情報出力手段は、有声再生操作手段の再生操作
に応じて第１再生速度情報を出力し、可変速再生手段
は、第１再生速度情報に応じて有声区間を第１再生速度
で低速再生し、速度情報出力手段は、ポーズ再生操作手
段の再生操作に応じて第２再生速度情報を出力し、可変
速再生手段は、第２再生速度情報に応じてポーズ区間を
第２再生速度で高速再生する。即ち、特殊再生操作によ
って、スピーチ音声が聴き取り易くなり、字幕文テキス
トの書き起こしが容易になり、書き起こし作業に専念で
きる。

【００９３】請求項２の発明の字幕用書き起こしテキス
トの作成支援システムによれば、速度情報出力手段は、
検出手段で検出された有声開始タイミング情報が示す時
刻に第１再生速度情報を出力し、可変速再生手段は、第
１再生速度情報に応じて有声区間を第１再生速度で再生
し、速度情報出力手段は、ポーズ開始タイミング情報が
示す時刻に第２再生速度情報を出力し、可変速再生手段
は、第２再生速度情報に応じてポーズ区間を第２再生速
度で再生する。即ち、特殊再生操作によって、スピーチ
音声が聴き取り易くなり、また、スピーチ区間及びポー
ズ区間の頭出しを含め煩雑なテープの再生操作を一部自
動化することができ、字幕文テキストの書き起こしが容
易になり、書き起こし作業に専念できる。

【００９４】請求項３の発明の字幕用書き起こしテキス
トの作成支援システムによれば、有声区間ピッチ変換手
段は、可変速再生手段で低速再生されて伸張された伸張
ピッチ周期を持つ伸張有声区間と区間抽出手段で抽出さ
れた有声区間とを入力し、標準再生速度に対する第１再
生速度の比を表す再生速度倍率と各ピッチ毎のピッチ周
期とピッチ周期毎の音声波形とに基づき、伸張有声区間
を、該伸張有声区間の長さを変えずにピッチ周期毎の音
声波形を用いた区間に変換する。即ち、有声区間のみが
低速で再生され、また、低速再生における有声区間の伸
張ピッチ周期を再生速度に応じて元のピッチ周期に自動
補正するので、スピーチ音声が聴き取り易くなり、字幕
文テキストの書き起こしが容易になる。

【００９５】請求項４の発明の字幕用書き起こしテキス
トの作成支援システムによれば、単位字幕文を表示時間
順に配列した字幕文テキストを画面上の第１表示領域に
表示し、提示タイミング情報を表したタイムラインとこ
のタイムライン上に表示時間順に配置した複数の映像と
この複数の映像に１対１に対応させてタイムライン上に
表示時間順に配置した複数の字幕本文とタイムライン上
に配置した音声の波形とを、第２表示領域に表示したの
で、字幕文テキストの編集が容易になる。

【００９６】請求項５の発明の半自動型字幕番組制作シ
ステムによれば、字幕用書き起こしテキストの作成支援
システムを用いて字幕文テキストを人手によって書き起
こし、自動字幕番組データ制作部は、字幕用書き起こし
テキストの作成支援システムを用いて得られた字幕文テ
キストに基づき、字幕番組データを自動制作し、字幕番
組編集・試写部は、自動字幕番組データ制作部で制作さ
れた字幕番組データを編集・試写する。即ち、人手に
よる制作機能と自動による制作機能とを効果的に組み合
わせたことで、字幕番組制作を効率良く行うことができ
る。

【００９７】請求項６の発明の半自動型字幕番組制作シ
ステムによれば、請求項２の効果と同様な効果が得られ
る。請求項７の発明の半自動型字幕番組制作システムに
よれば、請求項３の効果と同様な効果が得られる。請求
項８の発明の半自動型字幕番組制作システムによれば、
請求項４の効果と同様な効果が得られる。

【図面の簡単な説明】

【図１】本発明の字幕用書き起こしテキストの作成支援
システムを備えた半自動型字幕番組制作システムの構成
図である。

【図２】半自動型字幕番組制作システムの全体の処理を
示すフローチャートである。

【図３】書起し・編集のメイン画面の一例を示す図であ
る。

【図４】図３に示す書起し・編集のメイン画面内の編集
領域セクションの一例を示す図である。

【図５】図３に示す書起し・編集のメイン画面内の音声
関連信号の波形化表示の一例を示す図である。

【図６】半自動型字幕番組制作システムにおける書起し
処理手順の一例を示すフローチャートである。

【図７】本発明の字幕用書き起こしテキストの作成支援
システムの第１の実施の形態を示すブロック図である。

【図８】図７に示す字幕用書き起こしテキストの作成支
援システムの動作例を示すメインフローチャートであ
る。

【図９】図７に示す字幕用書き起こしテキストの作成支
援システムの動作例を示すサブフローチャートである。

【図１０】図７に示す字幕用書き起こしテキストの作成
支援システムの動作例を示す有声区間ピッチ変換処理ル
ーチンの一例を示すフローチャートである。

【図１１】図７に示す字幕用書き起こしテキストの作成
支援システムに設けられた有声区間ピッチ変換部の動作
例を示すタイミング図である。

【図１２】図７に示す字幕用書き起こしテキストの作成
支援システムの動作例を示す複数フレーズ区間のタイミ
ング図である。

【図１３】図７に示す字幕用書き起こしテキストの作成
支援システムの動作例を示す１フレーズ区間のタイミン
グ図である。

【図１４】本発明の字幕用書き起こしテキストの作成支
援システムの第２の実施の形態を示すブロック図であ
る。

【符号の説明】

１半自動型字幕制作システム２ディスク記録・再生部３字幕文テキスト書き起こし部４自動字幕番組データ制作部５字幕番組編集・試写部６基本ＧＵＩシステム部３１可変速再生装置３２可変速再生制御部３３スピーチ再生速度キー３４ポーズ再生速度キー４１記録媒体４２スイッチ４３低速再生部４４高速再生部５１フレーム分割部５２区間判定部５６有声区間抽出部５７ピッチ抽出部５８ピッチ区間分割部５９有声区間ピッチ変換部６０合成部６１スピーチ・ポーズ開始タイミング検出部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１１Ｂ 20/10 ３０１Ｇ１０Ｌ 3/00 Ｓ３２１ＨＨ０４Ｎ 5/222 (71)出願人 000004352 日本放送協会東京都渋谷区神南２丁目２番１号 (72)発明者沢村英治東京都港区芝２−31−19 通信・放送機構内 (72)発明者門馬隆雄東京都港区芝２−31−19 通信・放送機構内 (72)発明者江原暉将東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (72)発明者浦谷則好東京都港区芝２−31−19 通信・放送機構内 (72)発明者今村崇之東京都渋谷区宇田川町37番18号財団法人エヌエイチケイエンジニアリングサービス内 (72)発明者白井克彦東京都港区芝２−31−19 通信・放送機構内Ｆターム(参考） 5C022 CA06 5D044 AB05 CC04 FG09 FG23 GK02 HL11 5D045 AA08 BA02

Claims

【特許請求の範囲】

【請求項１】映像及び音声並びにこれらの提示タイミ
ング情報を含んだ番組素材の前記音声を聴き取って前記
音声に対する字幕文テキストの書き起こし作業を支援す
るための字幕用書き起こしテキストの作成支援システム
であって、前記音声の内のスピーチ音声の区間である有声区間を標
準再生速度よりも低速な第１再生速度で再生するための
再生操作を行う有声再生操作手段と、前記音声の内の所定長以上の無音区間であるポーズ区間
を前記標準再生速度よりも高速な第２再生速度で再生す
るための再生操作を行うポーズ再生操作手段と、前記有声再生操作手段の再生操作に応じて前記第１再生
速度に対応した第１再生速度情報を出力し、前記ポーズ
再生操作手段の再生操作に応じて前記第２再生速度に対
応した第２再生速度情報を出力する速度情報出力手段
と、この速度情報出力手段からの前記第１再生速度情報に応
じて前記有声区間を前記第１再生速度で再生し、前記第
２再生速度情報に応じて前記ポーズ区間を前記第２再生
速度で再生する可変速再生手段と、を備えることを特徴
とする字幕用書き起こしテキストの作成支援システム。
【請求項２】映像及び音声並びにこれらの提示タイミ
ング情報を含んだ番組素材の前記音声を聴き取って前記
音声に対する字幕文テキストの書き起こし作業を支援す
るための字幕用書き起こしテキストの作成支援システム
であって、前記提示タイミング情報に基づき、前記音声の内のスピ
ーチ音声の区間である有声区間の開始点に対応する有声
開始タイミング情報と前記音声の内の所定長以上の無音
区間であるポーズ区間の開始点に対応するポーズ開始タ
イミング情報を検出する検出手段と、前記有声開始タイミング情報が示す時刻に、前記有声区
間を標準再生速度よりも低速な第１再生速度で再生する
ための第１再生速度情報を出力し、前記ポーズ開始タイ
ミング情報が示す時刻に、前記ポーズ区間を前記第２再
生速度で再生するための第２再生速度情報を出力する速
度情報出力手段と、この速度情報出力手段からの前記第１再生速度情報に応
じて前記有声区間を前記第１再生速度で再生し、前記第
２再生速度情報に応じて前記ポーズ区間を前記第２再生
速度で再生する可変速再生手段と、を備えることを特徴
とする字幕用書き起こしテキストの作成支援システム。
【請求項３】請求項１又は請求項２記載の字幕用書き
起こしテキストの作成支援システムにおいて、前記音声を一定長のフレームに分割し、各フレーム毎
に、前記有声区間、前記ポーズ区間の判定を行ない、前
記有声区間を抽出する区間抽出手段と、この区間抽出手段で抽出された有声区間から各ピッチ毎
にピッチ周期を抽出し、ピッチ周期毎に前記有声区間の
音声波形を分割するピッチ区間分割手段と、前記可変速再生手段で低速再生されて伸張された伸張ピ
ッチ周期を持つ伸張有声区間と前記区間抽出手段で抽出
された有声区間とを入力し、前記標準再生速度に対する
前記第１再生速度の比を表す再生速度倍率と前記各ピッ
チ毎のピッチ周期とピッチ周期毎の音声波形とに基づ
き、前記伸張有声区間を、該伸張有声区間の長さを変え
ずに前記ピッチ周期毎の音声波形を用いた区間に変換す
る有声区間ピッチ変換手段と、を備えることを特徴とす
る字幕用書き起こしテキストの作成支援システム。
【請求項４】請求項１乃至請求項３のいずれか１項記
載の字幕用書き起こしテキストの作成支援システムにお
いて、低速再生された音声を聴き取って書き起こされ且つ単位
字幕文を表示時間順に配列した、前記字幕文テキストを
画面上の第１表示領域に表示する表示手段を備え、前記単位字幕文は、前記スピーチ音声に対応する字幕本
文と、この字幕本文の開始点及び終了点を表す開始及び
終了タイミング情報と、話者情報とからなり、前記表示手段は、前記提示タイミング情報を表したタイ
ムラインとこのタイムライン上に前記表示時間順に配置
した複数の映像とこの複数の映像に１対１に対応させて
前記タイムライン上に前記表示時間順に配置した複数の
字幕本文と前記タイムライン上に配置した前記音声の波
形とを、第２表示領域に表示したことを特徴とする字幕
用書き起こしテキストの作成支援システム。
【請求項５】映像及び音声並びにこれらの提示タイミ
ング情報を含んだ番組素材の前記音声を聴き取って前記
音声に対する字幕文テキストの書き起こし作業を支援す
るための字幕用書き起こしテキストの作成支援システム
と、この字幕用書き起こしテキストの作成支援システムを用
いて得られた前記字幕文テキストに基づき、字幕番組デ
ータを自動制作する自動字幕番組データ制作部と、この自動字幕番組データ制作部で制作された字幕番組デ
ータを編集・試写する字幕番組編集・試写部と、を備え
た半自動型字幕番組制作システムであって、前記字幕用書き起こしテキストの作成支援システムは、
前記音声の内のスピーチ音声の区間である有声区間を標
準再生速度よりも低速な第１再生速度で再生するための
再生操作を行う有声再生操作手段と、前記音声の内の所定長以上の無音区間であるポーズ区間
を前記標準再生速度よりも高速な第２再生速度で再生す
るための再生操作を行うポーズ再生操作手段と、前記有声再生操作手段の再生操作に応じて前記第１再生
速度に対応した第１再生速度情報を出力し、前記ポーズ
再生操作手段の再生操作に応じて前記第２再生速度に対
応した第２再生速度情報を出力する速度情報出力手段
と、この速度情報出力手段からの前記第１再生速度情報に応
じて前記有声区間を前記第１再生速度で再生し、前記第
２再生速度情報に応じて前記ポーズ区間を前記第２再生
速度で再生する可変速再生手段と、を備えることを特徴
とする半自動型字幕番組制作システム。
【請求項６】映像及び音声並びにこれらの提示タイミ
ング情報を含んだ番組素材の前記音声を聴き取って前記
音声に対する字幕文テキストの書き起こし作業を支援す
るための字幕用書き起こしテキストの作成支援システム
と、この字幕用書き起こしテキストの作成支援システムを用
いて得られた前記字幕文テキストに基づき、字幕番組デ
ータを自動制作する自動字幕番組データ制作部と、この自動字幕番組データ制作部で制作された字幕番組デ
ータを編集・試写する字幕番組編集・試写部と、を備え
た半自動型字幕番組制作システムであって、前記字幕用書き起こしテキストの作成支援システムは、
前記提示タイミング情報に基づき、前記音声の内のスピ
ーチ音声の区間である有声区間の開始点に対応する有声
開始タイミング情報と前記音声の内の所定長以上の無音
区間であるポーズ区間の開始点に対応するポーズ開始タ
イミング情報を検出する検出手段と、前記有声開始タイミング情報が示す時刻に、前記有声区
間を標準再生速度よりも低速な第１再生速度で再生する
ための第１再生速度情報を出力し、前記ポーズ開始タイ
ミング情報が示す時刻に、前記ポーズ区間を前記第２再
生速度で再生するための第２再生速度情報を出力する速
度情報出力手段と、この速度情報出力手段からの前記第１再生速度情報に応
じて前記有声区間を前記第１再生速度で再生し、前記第
２再生速度情報に応じて前記ポーズ区間を前記第２再生
速度で再生する可変速再生手段と、を備えることを特徴
とする半自動型字幕番組制作システム。
【請求項７】請求項５又は請求項６記載の半自動型字
幕番組制作システムにおいて、前記字幕用書き起こしテキストの作成支援システムは、
前記音声を一定長のフレームに分割し、各フレーム毎
に、前記有声区間、前記ポーズ区間の判定を行ない、前
記有声区間を抽出する区間抽出手段と、この区間抽出手段で抽出された有声区間から各ピッチ毎
にピッチ周期を抽出し、ピッチ周期毎に前記有声区間の
音声波形を分割するピッチ区間分割手段と、前記可変速再生手段で低速再生されて伸張された伸張ピ
ッチ周期を持つ伸張有声区間と前記区間抽出手段で抽出
された有声区間とを入力し、前記標準再生速度に対する
前記第１再生速度の比を表す再生速度倍率と前記各ピッ
チ毎のピッチ周期とピッチ周期毎の音声波形とに基づ
き、前記伸張有声区間を、該伸張有声区間の長さを変え
ずに前記ピッチ周期毎の音声波形を用いた区間に変換す
る有声区間ピッチ変換手段と、を備えることを特徴とす
る半自動型字幕番組制作システム。
【請求項８】請求項５乃至請求項７のいずれか１項記
載の半自動型字幕番組制作システムにおいて、前記字幕用書き起こしテキストの作成支援システムは、
低速再生された音声を聴き取って書き起こされ且つ単位
字幕文を表示時間順に配列した、前記字幕文テキストを
画面上の第１表示領域に表示する表示手段を備え、前記単位字幕文は、前記スピーチ音声に対応する字幕本
文と、この字幕本文の開始点及び終了点を表す開始及び
終了タイミング情報と、話者情報とからなり、前記表示手段は、前記提示タイミング情報を表したタイ
ムラインとこのタイムライン上に前記表示時間順に配置
した複数の映像とこの複数の映像に１対１に対応させて
前記タイムライン上に前記表示時間順に配置した複数の
字幕本文と前記タイムライン上に配置した前記音声の波
形とを、第２表示領域に表示したことを特徴とする半自
動型字幕番組制作システム。