JP2003216200A - 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム - Google Patents

字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Info

Publication number
JP2003216200A
JP2003216200A JP2002019136A JP2002019136A JP2003216200A JP 2003216200 A JP2003216200 A JP 2003216200A JP 2002019136 A JP2002019136 A JP 2002019136A JP 2002019136 A JP2002019136 A JP 2002019136A JP 2003216200 A JP2003216200 A JP 2003216200A
Authority
JP
Japan
Prior art keywords
subtitle
section
reproduction
speed
reproduction speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002019136A
Other languages
English (en)
Inventor
Eiji Sawamura
英治 沢村
Takao Monma
隆雄 門馬
Terumasa Ebara
暉将 江原
Noriyoshi Uratani
則好 浦谷
Takayuki Imamura
崇之 今村
Katsuhiko Shirai
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Telecommunications Advancement Organization
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
NEC Corp
Nippon Hoso Kyokai NHK
Telecommunications Advancement Organization
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Hoso Kyokai NHK, Telecommunications Advancement Organization, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical NEC Corp
Priority to JP2002019136A priority Critical patent/JP2003216200A/ja
Publication of JP2003216200A publication Critical patent/JP2003216200A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Studio Devices (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

(57)【要約】 【課題】 スピーチ音声を聴き取ってその内容を字幕文
テキストとして書き起こす際に特殊再生操作によってス
ピーチ音声を聴き易くして書き起こし作業に専念できる
ように支援する字幕用書き起こしテキストの作成支援シ
ステムを提供する。 【解決手段】 音声の内のスピーチ音声の区間である有
声区間を標準再生速度よりも低速な第1再生速度で再生
するための再生操作を行うスピーチ再生速度キー33
と、音声の内の所定長以上の無音区間であるポーズ区間
を標準再生速度よりも高速な第2再生速度で再生するた
めの再生操作を行うポーズ再生速度キー34と、スピー
チ再生速度キー33の再生操作に応じて第1再生速度に
対応した第1再生速度情報を出力し、ポーズ再生速度キ
ー34の再生操作に応じて第2再生速度に対応した第2
再生速度情報を出力する可変速再生制御部32と、第1
再生速度情報に応じて有声区間を第1再生速度で再生
し、第2再生速度情報に応じてポーズ区間を第2再生速
度で再生する可変速再生装置31とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、字幕用書き起こし
テキストの作成支援システム及びこの作成支援システム
を用い、且つ、人手による制作機能と自動による制作機
能とを効果的に組み合わせた半自動型字幕番組制作シス
テムに関する。
【0002】[発明の概要] 本発明は、スピーチ音声を
聴き取ってその内容を字幕文テキストとして書き起こす
際に、特殊再生操作によってスピーチ音声を聴き易くし
て書き起こし作業に専念できるように支援する字幕用書
き起こしテキストの作成支援システムに関する。特にス
ピーチ区間は指定された低速で再生し、ポーズ区間では
指定された高速で再生する、特殊再生操作によって、ス
ピーチ内容の理解及びテキスト化への専念を可能とし、
電子化原稿のない番組や背景音レベルの大きい番組など
多様な番組に対しても、より簡単且つ効果的に字幕文テ
キストの作成が可能となり、字幕番組制作の効率化に大
きく寄与可能である。また、本発明は、この字幕用書き
起こしテキストの作成支援システムで得られた字幕文テ
キストや付加情報データにより制作した字幕画面を編集
し、試写を行う半自動型字幕番組制作システムに関す
る。
【0003】
【従来の技術】情報化社会といわれる中で、多くの情報
が種々の形態で利用されており、音声の形態で利用され
るものもある。特に放送分野では、AMラジオ、FM放
送は全て音声であり、テレビでも多くの情報が音声で伝
送されている。通常、これらの放送では、予め原稿が作
成され、その原稿をアナウンサーなどが読み上げる形態
で伝えられるものが非常に多い。
【0004】そこで、これら音声情報の内、アナウンス
音声などの情報だけでも簡易・確実にテキスト化できれ
ば、情報の保存・編集・活字化など多様な活用が可能と
なるので、アナウンス音声の、簡易・確実なテキスト化
は極めて重要なテーマである。その一つの手法として、
音声認識技術を用いてアナウンス音声をテキスト化する
方法があるが、現状の技術では、得られたテキストに誤
りが生じるため、その修正に手間をとることが課題とな
っている。
【0005】「書き起こし作業」は人間の高度な音声認
識能力、言語判断力によるため、高い能力や多くの時間
を必要とする反面、確実性が高いなどの理由から、スピ
ーチ音声のテキスト化に最も多く適用されている。
【0006】この確実性な観点から、字幕文テキストの
作成でもほとんど「書き起こし作業」によるスピーチ音声
のテキスト化によっているが、より効率的な「書き起こ
し作業」を行うために、適切な支援システムにより、必
要とする能力や時間、緊張の程度を低減することが要望
されている。
【0007】また、スピーチ内容の理解上、スピーチ音
声の速度や明瞭度の影響が大きいことが知られており、
一般的なスピーチ音声を理解しやすいスピーチ音声に変
換するスピーチ速度変換技術が必要とされる。この技術
の一例は、テープに録音したスピーチ音声を聴き取って
テキストを書き起こす際に、テープの再生速度を遅くし
て、スピーチ音声を聴き易くすることにより、書き起こ
しを容易にするものである。
【0008】
【発明が解決しようとする課題】しかしながら、ドキュ
メンタリーテレビ番組などでは、スピーチが連続してい
る場合よりも比較的長い非スピーチ(ポーズ)区間が介
在している場合が多い。この場合、テープの再生速度を
遅くしてスピーチ区間の書き起こしを行い、ポーズ区間
を送った後、次のスピーチ区間にテープを低速再生して
書き起こしを行う。即ち、テープの再生操作と書き起こ
し作業とを行わなければならず、スピーチ区間やポーズ
区間の個々の区間では、その区間の頭出し操作も場合に
よっては必要となる。このため、煩雑な作業が作業者に
強いられていた。また、テープの再生速度を遅くすると
これに伴って、スピーチ音声のピッチ(音の高さ)も低
くなり、スピーチ音声が聞き取りにくくなるという欠点
がある。
【0009】ところで、本出願人の発明者らは、電子化
原稿が存在する場合のオフラインで字幕番組を自動制作
する技術として、「自動要約」「自動同期」「自動字幕
画像作成技術」などをテーマに研究を進め、これまでの
研究成果を集約した「自動字幕番組制作システム」を構
築した。本出願人はこの自動字幕番組制作システムを特
願平11−72671号(平成11年3月17日出願)
等で既に出願済みである。
【0010】このシステムを字幕番組制作者や聴覚障害
者などに評価していただいた結果、一定の性能・機能が
あることが確認されたが、実用化のためには、まだ多く
の課題が残されている。
【0011】特に要望が高いものは、対象番組範囲の拡
大であり、電子化原稿が存在しない番組、ドラマやバラ
エティなどの番組分野への拡大である。しかし、現状の
自動字幕番組制作システムの機能・性能から見た字幕番
組制作可能なテレビ番組分野は、電子化原稿が存在しか
つニュースやナレーション主体のドキュメンタリー番組
などに限られたものである。
【0012】実際の字幕番組制作現場では、高度な専門
技術、知識をもった多くの専門家が携わっており、字幕
番組制作はこのような人間の能力に負っている部分が多
くある。このうち、自動機能の限界以上の部分は、手動
による字幕番組制作や試写・修正の範囲でカバーさせざ
るを得ないのが実情である。
【0013】したがって、これまでの自動処理を前提と
した字幕番組制作システムのみならず、手作業を含む字
幕番組用電子化テキストの作成や字幕番組画面の試写・
編集などの作業も含めたトータルシステムとして、字幕
番組制作の効率化を考えることが重要である。
【0014】そこで、本発明者らは、人手による制作機
能と自動による制作機能とを効果的に組み合わせた、半
自動型字幕番組制作システムを想到するに至ったのであ
る。また、本発明者らは、スピーチ区間を指定された低
速で再生し、ポーズ区間を指定された高速で再生して、
スピーチ音声を大幅に聴き易くして、書き起こしを容易
にした字幕用書き起こしテキストの作成支援システムを
想到するに至り、この字幕用書き起こしテキストの作成
支援システムを半自動型字幕番組制作システムに適用し
たものである。
【0015】本発明は、スピーチ音声を聴き取ってその
内容を字幕文テキストとして書き起こす際に、特殊再生
操作によってスピーチ音声を聴き易くして書き起こし作
業に専念できるように支援する字幕用書き起こしテキス
トの作成支援システムを提供することにある。また、本
発明は、スピーチ区間及びポーズ区間の頭出しを含め煩
雑なテープの再生操作を一部自動化して、書き起こし作
業に専念できるように支援する字幕用書き起こしテキス
トの作成支援システムを提供することにある。また、人
手による制作機能と自動による制作機能とを効果的に組
み合わせて、字幕番組制作を効率良く行うことができる
半自動型字幕番組制作システムを提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するた
め、請求項1の発明は、映像及び音声並びにこれらの提
示タイミング情報を含んだ番組素材の前記音声を聴き取
って前記音声に対する字幕文テキストの書き起こし作業
を支援するための字幕用書き起こしテキストの作成支援
システムであって、前記音声の内のスピーチ音声の区間
である有声区間を標準再生速度よりも低速な第1再生速
度で再生するための再生操作を行う有声再生操作手段
と、前記音声の内の所定長以上の無音区間であるポーズ
区間を前記標準再生速度よりも高速な第2再生速度で再
生するための再生操作を行うポーズ再生操作手段と、前
記有声再生操作手段の再生操作に応じて前記第1再生速
度に対応した第1再生速度情報を出力し、前記ポーズ再
生操作手段の再生操作に応じて前記第2再生速度に対応
した第2再生速度情報を出力する速度情報出力手段と、
この速度情報出力手段からの前記第1再生速度情報に応
じて前記有声区間を前記第1再生速度で再生し、前記第
2再生速度情報に応じて前記ポーズ区間を前記第2再生
速度で再生する可変速再生手段とを備えることを特徴と
する。
【0017】請求項1の発明の字幕用書き起こしテキス
トの作成支援システムによれば、速度情報出力手段は、
有声再生操作手段の再生操作に応じて第1再生速度情報
を出力し、可変速再生手段は、第1再生速度情報に応じ
て有声区間を第1再生速度で低速再生し、速度情報出力
手段は、ポーズ再生操作手段の再生操作に応じて第2再
生速度情報を出力し、可変速再生手段は、第2再生速度
情報に応じてポーズ区間を第2再生速度で高速再生す
る。即ち、特殊再生操作によって、スピーチ音声が聴き
取り易くなり、字幕文テキストの書き起こしが容易にな
り、書き起こし作業に専念できる。
【0018】請求項2の発明は、映像及び音声並びにこ
れらの提示タイミング情報を含んだ番組素材の前記音声
を聴き取って前記音声に対する字幕文テキストの書き起
こし作業を支援するための字幕用書き起こしテキストの
作成支援システムであって、前記提示タイミング情報に
基づき、前記音声の内のスピーチ音声の区間である有声
区間の開始点に対応する有声開始タイミング情報と前記
音声の内の所定長以上の無音区間であるポーズ区間の開
始点に対応するポーズ開始タイミング情報を検出する検
出手段と、前記有声開始タイミング情報が示す時刻に、
前記有声区間を標準再生速度よりも低速な第1再生速度
で再生するための第1再生速度情報を出力し、前記ポー
ズ開始タイミング情報が示す時刻に、前記ポーズ区間を
前記第2再生速度で再生するための第2再生速度情報を
出力する速度情報出力手段と、この速度情報出力手段か
らの前記第1再生速度情報に応じて前記有声区間を前記
第1再生速度で再生し、前記第2再生速度情報に応じて
前記ポーズ区間を前記第2再生速度で再生する可変速再
生手段とを備えることを特徴とする。
【0019】請求項2の発明の字幕用書き起こしテキス
トの作成支援システムによれば、速度情報出力手段は、
検出手段で検出された有声開始タイミング情報が示す時
刻に第1再生速度情報を出力し、可変速再生手段は、第
1再生速度情報に応じて有声区間を第1再生速度で再生
し、速度情報出力手段は、ポーズ開始タイミング情報が
示す時刻に第2再生速度情報を出力し、可変速再生手段
は、第2再生速度情報に応じてポーズ区間を第2再生速
度で再生する。即ち、特殊再生操作によって、スピーチ
音声が聴き取り易くなり、また、スピーチ区間及びポー
ズ区間の頭出しを含め煩雑なテープの再生操作を一部自
動化することができ、字幕文テキストの書き起こしが容
易になり、書き起こし作業に専念できる。
【0020】請求項3の発明は、請求項1又は請求項2
記載の字幕用書き起こしテキストの作成支援システムに
おいて、前記音声を一定長のフレームに分割し、各フレ
ーム毎に、前記有声区間、前記ポーズ区間の判定を行な
い、前記有声区間を抽出する区間抽出手段と、この区間
抽出手段で抽出された有声区間から各ピッチ毎にピッチ
周期を抽出し、ピッチ周期毎に前記有声区間の音声波形
を分割するピッチ区間分割手段と、前記可変速再生手段
で低速再生されて伸張された伸張ピッチ周期を持つ伸張
有声区間と前記区間抽出手段で抽出された有声区間とを
入力し、前記標準再生速度に対する前記第1再生速度の
比を表す再生速度倍率と前記各ピッチ毎のピッチ周期と
ピッチ周期毎の音声波形とに基づき、前記伸張有声区間
を、該伸張有声区間の長さを変えずに前記ピッチ周期毎
の音声波形を用いた区間に変換する有声区間ピッチ変換
手段とを備えることを特徴とする。
【0021】請求項3の発明の字幕用書き起こしテキス
トの作成支援システムによれば、有声区間ピッチ変換手
段は、可変速再生手段で低速再生されて伸張された伸張
ピッチ周期を持つ伸張有声区間と区間抽出手段で抽出さ
れた有声区間とを入力し、標準再生速度に対する第1再
生速度の比を表す再生速度倍率と各ピッチ毎のピッチ周
期とピッチ周期毎の音声波形とに基づき、伸張有声区間
を、該伸張有声区間の長さを変えずにピッチ周期毎の音
声波形を用いた区間に変換する。即ち、有声区間のみが
低速で再生され、また、低速再生における有声区間の伸
張ピッチ周期を再生速度に応じて元のピッチ周期に自動
補正するので、スピーチ音声が聴き取り易くなり、字幕
文テキストの書き起こしが容易になる。
【0022】請求項4の発明は、請求項1乃至請求項3
のいずれか1項記載の字幕用書き起こしテキストの作成
支援システムにおいて、低速再生された音声を聴き取っ
て書き起こされ且つ単位字幕文を表示時間順に配列し
た、前記字幕文テキストを画面上の第1表示領域に表示
する表示手段を備え、前記単位字幕文は、前記スピーチ
音声に対応する字幕本文と、この字幕本文の開始点及び
終了点を表す開始及び終了タイミング情報と、話者情報
とからなり、前記表示手段は、前記提示タイミング情報
を表したタイムラインとこのタイムライン上に前記表示
時間順に配置した複数の映像とこの複数の映像に1対1
に対応させて前記タイムライン上に前記表示時間順に配
置した複数の字幕本文と前記タイムライン上に配置した
前記音声の波形とを、第2表示領域に表示したことを特
徴とする。
【0023】請求項4の発明の字幕用書き起こしテキス
トの作成支援システムによれば、単位字幕文を表示時間
順に配列した字幕文テキストを画面上の第1表示領域に
表示し、提示タイミング情報を表したタイムラインとこ
のタイムライン上に表示時間順に配置した複数の映像と
この複数の映像に1対1に対応させてタイムライン上に
表示時間順に配置した複数の字幕本文とタイムライン上
に配置した音声の波形とを、第2表示領域に表示したの
で、字幕文テキストの編集が容易になる。
【0024】請求項5の発明は、映像及び音声並びにこ
れらの提示タイミング情報を含んだ番組素材の前記音声
を聴き取って前記音声に対する字幕文テキストの書き起
こし作業を支援するための字幕用書き起こしテキストの
作成支援システムと、この字幕用書き起こしテキストの
作成支援システムを用いて得られた前記字幕文テキスト
に基づき、字幕番組データを自動制作する自動字幕番組
データ制作部と、この自動字幕番組データ制作部で制作
された字幕番組データを編集・試写する字幕番組編集・
試写部と、を備えた半自動型字幕番組制作システムであ
って、前記字幕用書き起こしテキストの作成支援システ
ムは、前記音声の内のスピーチ音声の区間である有声区
間を標準再生速度よりも低速な第1再生速度で再生する
ための再生操作を行う有声再生操作手段と、前記音声の
内の所定長以上の無音区間であるポーズ区間を前記標準
再生速度よりも高速な第2再生速度で再生するための再
生操作を行うポーズ再生操作手段と、前記有声再生操作
手段の再生操作に応じて前記第1再生速度に対応した第
1再生速度情報を出力し、前記ポーズ再生操作手段の再
生操作に応じて前記第2再生速度に対応した第2再生速
度情報を出力する速度情報出力手段と、この速度情報出
力手段からの前記第1再生速度情報に応じて前記有声区
間を前記第1再生速度で再生し、前記第2再生速度情報
に応じて前記ポーズ区間を前記第2再生速度で再生する
可変速再生手段とを備えることを特徴とする。
【0025】請求項5の発明の半自動型字幕番組制作シ
ステムによれば、字幕用書き起こしテキストの作成支援
システムを用いて字幕文テキストを人手によって書き起
こし、自動字幕番組データ制作部は、字幕用書き起こし
テキストの作成支援システムを用いて得られた字幕文テ
キストに基づき、字幕番組データを自動制作し、字幕番
組編集・試写部は、自動字幕番組データ制作部で制作さ
れた字幕番組データを編集・試写する。即ち、 人手に
よる制作機能と自動による制作機能とを効果的に組み合
わせたことで、字幕番組制作を効率良く行うことができ
る。
【0026】請求項6の発明は、映像及び音声並びにこ
れらの提示タイミング情報を含んだ番組素材の前記音声
を聴き取って前記音声に対する字幕文テキストの書き起
こし作業を支援するための字幕用書き起こしテキストの
作成支援システムと、この字幕用書き起こしテキストの
作成支援システムを用いて得られた前記字幕文テキスト
に基づき、字幕番組データを自動制作する自動字幕番組
データ制作部と、この自動字幕番組データ制作部で制作
された字幕番組データを編集・試写する字幕番組編集・
試写部と、を備えた半自動型字幕番組制作システムであ
って、前記字幕用書き起こしテキストの作成支援システ
ムは、前記提示タイミング情報に基づき、前記音声の内
のスピーチ音声の区間である有声区間の開始点に対応す
る有声開始タイミング情報と前記音声の内の所定長以上
の無音区間であるポーズ区間の開始点に対応するポーズ
開始タイミング情報を検出する検出手段と、前記有声開
始タイミング情報が示す時刻に、前記有声区間を標準再
生速度よりも低速な第1再生速度で再生するための第1
再生速度情報を出力し、前記ポーズ開始タイミング情報
が示す時刻に、前記ポーズ区間を前記第2再生速度で再
生するための第2再生速度情報を出力する速度情報出力
手段と、この速度情報出力手段からの前記第1再生速度
情報に応じて前記有声区間を前記第1再生速度で再生
し、前記第2再生速度情報に応じて前記ポーズ区間を前
記第2再生速度で再生する可変速再生手段とを備えるこ
とを特徴とする。請求項6の発明の半自動型字幕番組制
作システムによれば、請求項2の効果と同様な効果が得
られる。
【0027】請求項7の発明は、請求項5又は請求項6
記載の半自動型字幕番組制作システムにおいて、前記字
幕用書き起こしテキストの作成支援システムは、前記音
声を一定長のフレームに分割し、各フレーム毎に、前記
有声区間、前記ポーズ区間の判定を行ない、前記有声区
間を抽出する区間抽出手段と、この区間抽出手段で抽出
された有声区間から各ピッチ毎にピッチ周期を抽出し、
ピッチ周期毎に前記有声区間の音声波形を分割するピッ
チ区間分割手段と、前記可変速再生手段で低速再生され
て伸張された伸張ピッチ周期を持つ伸張有声区間と前記
区間抽出手段で抽出された有声区間とを入力し、前記標
準再生速度に対する前記第1再生速度の比を表す再生速
度倍率と前記各ピッチ毎のピッチ周期とピッチ周期毎の
音声波形とに基づき、前記伸張有声区間を、該伸張有声
区間の長さを変えずに前記ピッチ周期毎の音声波形を用
いた区間に変換する有声区間ピッチ変換手段とを備える
ことを特徴とする。請求項7の発明の半自動型字幕番組
制作システムによれば、請求項3の効果と同様な効果が
得られる。
【0028】請求項8の発明は、請求項5乃至請求項7
のいずれか1項記載の半自動型字幕番組制作システムに
おいて、前記字幕用書き起こしテキストの作成支援シス
テムは、低速再生された音声を聴き取って書き起こされ
且つ単位字幕文を表示時間順に配列した、前記字幕文テ
キストを画面上の第1表示領域に表示する表示手段を備
え、前記単位字幕文は、前記スピーチ音声に対応する字
幕本文と、この字幕本文の開始点及び終了点を表す開始
及び終了タイミング情報と、話者情報とからなり、前記
表示手段は、前記提示タイミング情報を表したタイムラ
インとこのタイムライン上に前記表示時間順に配置した
複数の映像とこの複数の映像に1対1に対応させて前記
タイムライン上に前記表示時間順に配置した複数の字幕
本文と前記タイムライン上に配置した前記音声の波形と
を、第2表示領域に表示したことを特徴とする。請求項
8の発明の半自動型字幕番組制作システムによれば、請
求項4の効果と同様な効果が得られる。
【0029】
【発明の実施の形態】以下、本発明に係る字幕用書き起
こしテキストの作成支援システムの実施形態について説
明する。実施の形態に係る字幕用書き起こしテキストの
作成支援システムは、人手による制作機能と自動による
制作機能とを効果的に組み合わせた、半自動型字幕番組
制作システムに適用される。そこで、字幕用書き起こし
テキストの作成支援システムに先立って、まず、半自動
型字幕番組制作システムについて説明する。
【0030】(半自動型字幕番組制作システム)図1は
本発明の字幕用書き起こしテキストの作成支援システム
を備えた半自動型字幕番組制作システムの構成図であ
る。この半自動型字幕番組制作システムは、ディスク記
録再生装置に収録してあるテレビ素材番組の映像、音
声、タイムコード(提示タイミング情報)を効果的に操
作し、スピーチ音声に対する字幕用テキストの書き起こ
し及び背景音などの付加情報データを効率的に入力する
機能と、これらテキストやデータを利用し、自動で字幕
画面作成及びタイミング付与を行う自動字幕番組データ
制作機能、及び字幕番組データ(以下、字幕データと略
称する。)の編集及び試写を行う編集・試写機能とを備
える。
【0031】半自動字型字幕番組制作システムは、図1
に示すように、字幕用テキストや付加情報データを入力
するための字幕文テキスト書き起こし部3と、入力した
字幕文テキストや付加情報データに基づいて字幕データ
を自動的に制作する自動字幕番組データ制作部4と、作
成した字幕画面の編集や試写を行う字幕番組編集・試写
部5と、前記各部を統括制御する基本グラフィックユー
ザインターフェイスシステム部(以下、基本GUIシス
テム部と略称する。)6と、テレビ素材番組の映像、音
声などを指定規格で記録再生するディスク記録再生部
(以下、DSKVTRと略称する。)2と、字幕文テキ
ストの書き起こしの編集を行う際に用いる表示部7と、
を備えて構成されている。
【0032】自動字幕番組データ制作部4は、入力した
字幕文テキストや付加情報データから字幕画面を自動制
作する自動字幕画面作成システム部41と、字幕画面の
開始終了タイミング用の自動同期システム部42と、必
要ならば字幕文テキストを指定の文字数に低減する自動
要約システム部43とを有している。
【0033】字幕文テキスト書き起こし部3は、素材番
組の音声を聞き取って、字幕文テキストの書き起こしや
付加情報データを入力する機能を備え、さらに素材番組
の映像・音声の活用による、効果的な手動作業支援のた
めの機能を備え、本発明の字幕用書き起こしテキストの
作成支援システムに対応する。字幕文テキスト書き起こ
し部3は、ディスク記録再生制御機能と、情報表示機能
と、データ作成制御機能と、データ作成画面機能と、主
映像機能とを備える。
【0034】ディスク記録再生制御機能は、素材番組の
映像・音声、タイムコードなどを、パーソナルコンピュ
ータのディスクに記録するとともに、記録された映像音
声などの再生及び特殊再生操作のための操作キー3aを
備え、特にスピーチ区間では任意の低速再生を行うとと
もに、変速率(再生速度倍率)に応じたピッチコントロ
ールを行い、書き起こしに適した速度でかつ音程がほぼ
不変とする機能をも備えている。情報表示機能は、書き
起こし及び付加情報データ入力の手動作業を支援するた
め、素材番組の映像・音声、書き起こしテキストなどに
関する各種の情報を、タイムライン上にビジュアルに表
示する。データ作成制御機能は、書き起こしたテキスト
やスピーチ/ポーズの時間データ入力操作のための操作
キーを備え、該操作キーの操作に対応した動作をする。
データ作成画面機能は、作成したテキストや入力したデ
ータの表示・編集などのための画面を表示する。主映像
機能は、プレビュー画面として、現在作業位置の画像を
表示する。
【0035】自動字幕番組データ制作部4は、表示時間
順に配列された字幕文テキストの中から、表示対象とな
る単位字幕文を表示時間順に順次抽出し、抽出された単
位字幕文を、所望の字幕提示形式に従う少なくとも1以
上の表示単位字幕文に変換する一方、この変換で得られ
た表示単位字幕文毎に、該当する開始・終了タイミング
情報を同期点として検出するが、この同期点検出にあた
り、当該表示単位字幕文に対応するスピーチ音声と表示
単位字幕文間の音声認識処理を含む同期検出技術を適用
することにより、該当する開始・終了タイミング情報を
同期点として検出し、この検出した開始・終了タイミン
グ情報を、前記変換で得られた表示単位字幕文毎に付与
するものである。
【0036】字幕番組編集・試写部5は、自動字幕番組
データ制作部4で自動制作された字幕データを人手で編
集・試写するものであり、さらに、素材番組の映像・音
声、字幕データなどの高度活用による効果的な手動作業
支援のための特別の機能を備えている。字幕番組編集・
試写部5は、ディスク記録再生及び字幕データ制御機能
と、情報表示・字幕タイミング制御機能と、字幕データ
ページ編集操作機能と、字幕データ・映像表示機能と、
試写機能とを備える。
【0037】ディスク記録再生及び字幕データ制御機能
は、自動制作した字幕データ及び記録された映像・音声
などに関して、指定時間、字幕ページ、字幕ブロックな
ど編集・試写作業支援用特殊表示操作のための専用操作
キーを備え、該専用操作キーの操作に対応した動作をす
る。情報表示・字幕タイミング制御機能は、字幕データ
編集の手動作業を支援するため、素材番組の映像、音
声、字幕データなどに関する各種の情報を、タイムライ
ン上にビジュアル表示する機能であり、特に、字幕デー
タについては、タイミング変更支援画面を表示し、タイ
ミング変更支援画面に対応した動作をする。字幕データ
ページ編集操作機能は、字幕データのページ単位編集の
ための専用操作キーを備え、該専用操作キーの操作に対
応した動作をする。字幕データ・映像表示機能は、映像
に重畳した指定字幕データ表示のための、操作キーを備
え、該操作キーの操作に対応した動作をする。試写機能
は、部分試写、通し試写など、試写形式の選択に必要な
操作キーを備え、該操作キーの操作に対応した動作をす
る。
【0038】基本GUIシステム部6は、半自動型字幕
番組制作システムの一構成品として、ヒューマンインタ
ーフェース、内部の各システムのインターフェース・制
御、及び外部とのデータ入出力制御を行うとともに、自
動字幕番組データ作成機能のインターフェース・制御機
能も備えており、多様な番組の効率的な字幕番組制作を
行う字幕番組制作システムを統括するものである。
【0039】次に、半自動型字幕番組制作システムの機
能構成の詳細について、図2のフローチャートを参照し
ながら説明する。
【0040】まず、字幕番組制作のためのプロジェクト
を作成し(ステップS1)、映像、音声データなどから
なる映像ファイルを作成し(ステップS2)、次いで、
スピーチ者(話者)を登録する(ステップS3)。そし
て、映像、音声データの情報に基づいて、字幕文テキス
トの編集を行う(ステップS4)。字幕文テキストの編
集は、字幕文テキスト書き起こし部3による字幕文テキ
スト書起し機能によって行われる。この字幕文テキスト
書き起こし機能の詳細については、後述する。
【0041】次に、自動字幕番組データ制作機能によ
り、自動要約・自動同期などを行い(ステップS5)、
編集された字幕文テキストを所定形式の字幕データに変
換する(ステップS6)。
【0042】次いで、字幕番組データ編集・試写機能に
より、変換された字幕データの字幕素材を編集する(ス
テップS7)。このとき、字幕データページ一覧を表示
したり(ステップS8)、字幕データをページ単位編集
に利用した後(ステップS9)、編集された字幕素材を
デジタル変換する(ステップS10)。字幕番組データ
編集・試写機能は、一応出来上がった字幕データを専門
知識を有する作業者が試写し、必要ならば修正するもの
であり、作業者がチェックし易い試写形態、字幕内容、
改行・改頁、タイミングなどに関する修正編集が行い易
いよう支援する機能を盛り込んである。送出/消去時
間、字幕本文、管理情報より構成された字幕データを字
幕素材と仮称する。『字幕素材編集』では、これを効率
的に編集する為の機能である。また、編集の補助とし
て、編集・試写画面を使用して、タイムライン上での字
幕タイミングの調整や、字幕を多重した画面上での字幕
ポジションの調整を行うことができる。字幕素材編集の
入出力は、文字放送のNAB形式のファイルで行う。こ
のファイルは、他の『ページ一覧』、『ページ利用』、
『デジタル形式変換』の入出力形式になる。
【0043】(字幕文テキスト書き起こし機能の詳細)
次に、字幕文テキスト書き起こし機能の詳細について説
明する。この機能における主要な作業は、番組のスピー
チ音声を聞き取り、その内容を書起すとともに、その一
区切り(文に相当)に対してその開始・終了タイミング
と話者をデータ化するものである。したがって、字幕文
テキストを書起しし易くする支援機能として、作業者が
正しく番組のスピーチ音声を聞き取り、自分のペースで
書起しできるようにすることが基本であり、スピーチ音
声を聞き取り易く書き起し易いこと、話者・タイミング
を把握しやすいこと、書起しデータを簡単に修正できる
ことなどが重要である。
【0044】このため、本システムの字幕文テキスト書
起し機能にはこのような手作業支援機能を盛り込んであ
る。この機能では字幕文テキストファイル(XML)の
編集を行う。字幕文テキストとは、範囲時間(IN T
IME(開始タイミングに対応),OUT TIME
(終了タイミングに対応))と話者、字幕文から構成さ
れたデータである。字幕文テキスト編集の補助として、
MPEG/AVI映像ファイルを使用して、音声の聞き
取り、タイミングの調整、話者情報の修正などを行うこ
とができる。
【0045】字幕文テキストの編集や各補助機能の操作
は、図3に示すメインWindowを使用して行われる。この
メインWindowは表示部7の画面上にある。Windowのサイ
ズは、例えば1280×1024である。メインWindow
は大きく分けて、四つのセクションに分かれている。一
つ目は、各種機能の呼び出しを行うメニュー領域E1で
あり、メニューバーとツールバーに用意された項目を実
行することにより、各種機能の呼び出しを行う。このメ
ニュー領域E1を使用しないと、呼び出せない機能が多
くある。二つ目は、MPEG/AVI映像の制御領域E
2であり、MPEG/AVI映像の表示領域や、時間枠
の取り出しボタン、MPEG/AVI再生の開始ボタン
B2、停止ボタンB1などが用意されている。三つ目
は、字幕文テキストの編集領域E3であり、時間枠、話
者、字幕本文の入力を行う。四つ目は、画像と字幕文テ
キストなどの一覧領域E4であり、入力された字幕文テ
キストの内容や、MPEG/AVI映像ファイルよりカ
ット変わりなどの画像一覧、及び音声関連波形などが表
示され、入力の補助を行う。また、MPEG/AVI映
像ファイルの再生位置トラックバーが表示されており、
この位置を変えることにより、再生位置の変更が可能に
なる。
【0046】映像制御セクションでは、映像ファイルの
再生に関するインターフェースが用意されている。映像
のサイズは、640×480である。タイムコードは、
プロジェクト新規作成の際に入力されたイニシャルタイ
ムを基準として、映像ファイルの再生位置を足した時間
である。なお、映像ファイルの再生位置は、29.97
フレームを1秒として扱う。
【0047】再生ボタンB2は映像の再生スタートを行
い、停止ボタンB1は、映像の再生ストップを行う。停
止ボタンB1が実行されても、映像は消えない。再生位
置トラックバーは、現在映像ファイルのどの部分を再生
しているかを示す。また、トラックバーを動かすことに
より、再生位置を変更することも可能である。
【0048】MARK INボタンB3は、編集領域の
IN TIMEの欄へ、現在の映像の時間をコピーす
る。MARK OUTボタンB4は、編集領域のOUT
TIMEの欄へ、映像の現在の時間をコピーする。繰り
返し再生ボタンB5は、指定期間の画像を繰り返し再生
する。停止ボタンB1又はMARK INボタンB3の
操作により、終了する。
【0049】話速変換操作部B6は、映像を再生し、書
き起こしをする際におけるスピーチ音声のスピードを調
節するもので、この操作部を調整することで、有声区間
(スピーチ区間)の伸張倍率を変化させることができ
る。<<5秒ボタンB7は、映像の再生位置を前に5秒
移動し、5秒>>ボタンB8は、映像の再生位置を後ろ
に5秒移動する。
【0050】図4に示す編集セクションは、字幕用デー
タの入力や、入力後の編集を行う領域E3であり、入力
一覧領域E31には、入力された内容が一覧表示され
る。この領域E31を利用して、一単位(話者で認識)
を指定し、各作業を行う。領域E32はページのIN
TIMEの設定を行い、領域E33はページのOUT
TIMEの設定を行う。前のページで設定した時間内に
含める場合には、前のページの時間と同じ値のままで、
確定する。領域E34への話者設定は、ツール(T)メニ
ューの話者登録で登録した内容より、選択を行う。E3
0は書き起こしによるテキスト入力部分であり、必要な
らばB12、B13、B14で編集できる。切り取りボ
タンB12、コピーボタンB13は、選択された内容を
切り取り/コピーする。貼り付けボタンB14は、切り
取り/コピー機能で記録された内容を指定の箇所の次へ
貼り付ける。
【0051】追加ボタンB10は、書き起こし編集され
た内容を入力一覧の最後に追加する。挿入ボタンB11
は、入力された内容を入力一覧で選択された一単位の次
へ挿入する。
【0052】一覧領域セクションE4は、図5に示すよ
うに、映像ファイルと編集データの内容を一覧表示す
る。一画面で表示する幅は、ツール(T)のオプションで
選択された120秒、60秒、30秒のいずれかとな
る。画像は、映像ファイルより、一定間隔もしくはカッ
ト変わりなどの画像を抜き出して、表示する。画像のサ
イズは160×120、画像の間隔は全体幅が120秒
の時は20秒、60秒の時は10秒、30秒の時は5秒
となる。字幕本文は、編集領域セクションによって入力
された字幕本文の内容が表示される。枠の幅は時間幅を
表している。幅が狭く、字幕本文が表示しきれない場合
には省略される。話者の部分の枠をマウス等によるドラ
ッグで変更した場合には、対象字幕1ページの幅(時間
幅)の変更を、字幕本文の部分の枠をドラッグで変更し
た場合には、境界線の時間の変更を行う。枠内がダブル
クリックされた際、編集領域セクションが編集途中でな
ければ、入力一覧で指定した内容を表示できる位置に移
動する。図5に示す波形については、映像ファイルに記
録されている音声(音楽、効果音を含む)信号を処理し
波形化して、表示する。スピーチやポーズの位置を視覚
的に判断できるようにした支援機能である。
【0053】このように、字幕文テキストを画面上の領
域E3に表示し、タイムコードに対応したタイムライン
TLとこのタイムラインTL上に配置した複数の画像と
この複数の画像に対応させてタイムラインTL上に配置
した複数の字幕本文とタイムラインTL上に配置した音
声の波形とを、領域E4に表示したので、字幕文テキス
トの編集が容易になる。
【0054】次に、支援機能を活用した字幕文テキスト
書き起しと付加情報データ入力の、具体的処理手順の一
例を図6のフローチャートを参照しながら説明する。ま
ず、[PLAY]を押し、映像の再生を開始して、発話
タイミング(スピーチ音声の開始タイミング)を探す
(ステップS21)。次いで、発話の確認点で、「書起
開始」ボタンを押す(ステップS22)。このとき、ス
ピーチ区間の開始点をその時点におけるタイムコードに
よりメモリに記憶する。即ち、タイムコードによりスピ
ーチ音声の開始タイミング情報が得られる。
【0055】次に、発話タイミングから一定時間だけテ
ープを巻き戻し、スロー再生を開始する(ステップS2
3)。スロー再生されたスピーチ音声を聞きながら、作
業者がスピーチ音声に対する字幕文テキストの書き起こ
し作業を行う(ステップS24)。即ち、作業者は、キ
ーボード等を用いてスロー再生されたスピーチ音声を聞
きながら、スピーチ音声に対応する文字、記号、数字等
を入力して字幕文テキストを作成し、その字幕文テキス
トを画面上に表示させる。
【0056】そして、スピーチ音声が終了と認識した
ら、適宜、テープを巻き戻して発話終了点(スピーチ音
声の終了タイミング)を探す(ステップS25)。発話
終了点で「書起終了」ボタンを押す(ステップS2
6)。このとき、スピーチ区間の終了点をその時点にお
けるタイムコードによりメモリに記憶する。即ち、タイ
ムコードによりスピーチ音声の終了タイミング情報が得
られる。そして、スロー再生モードから通常再生モード
へ移行する。
【0057】次いで、書き起こしが終了したかどうかを
判定し(ステップS27)、書き起こしが終了した後
に、そのテキスト全体に対して用字、用語チェック、要
約支援を実行して必要なテキストの修正を行い(ステッ
プS28)、その後背景音情報などをチェックし情報を
登録する(ステップS29)。さらに、テキスト作成関
係の作業を終了し、自動字幕番組データ制作へ進む(ス
テップS30)。
【0058】このように、本システムにおける字幕文テ
キスト書き起し機能によれば、テレビ素材番組の映像、
音声、タイムコードをノンリニア操作が容易なディスク
記録・再生部2に収録するとともに、テレビ素材番組の
スピーチ区間のみをスロー再生し、スピーチ区間以外の
区間では通常スピードで再生することによって、作業者
はスピーチ音声が聴き取り易くなり、これによって、ス
ピーチ音声に対する字幕文テキストの書き起しやその開
始・終了タイミング情報及び背景音などの付加情報デー
タを効率的に入力することができる。
【0059】また、実施の形態の半自動型字幕番組制作
システムによれば、字幕文書き起こし部3を用いて字幕
文テキストを人手によって書き起こし、自動字幕番組デ
ータ制作部4は、得られた字幕文テキストに基づき、字
幕番組データを自動制作し、字幕番組編集・試写部5
は、自動字幕番組データ制作部4で制作された字幕番組
データを編集・試写する。即ち、 人手による制作機能
と自動による制作機能とを効果的に組み合わせたこと
で、字幕番組制作を効率良く行うことができる。
【0060】(字幕用書き起こしテキストの作成支援シ
ステム)次に、図6に示すフローチャートによる字幕文
テキスト書き起こし機能よりも書き起こしを容易にし
た、字幕用書き起こしテキストの作成支援システムにつ
いて説明する。本発明の字幕用書き起こしテキストの作
成支援システムは、字幕文テキスト書き起こし部3に対
応し、字幕文テキスト書き起こし部3の一実施形態であ
る。
【0061】図7は本発明の字幕用書き起こしテキスト
の作成支援システムの一例を示すブロック図である。こ
の書き起こし作成支援システムは、可変速再生装置31
と、可変速再生制御部32、スピーチ再生速度キー3
3、ポーズ再生速度キー34、フレーム分割部51と、
区間判定部52と、有声区間処理部53と、無声区間処
理部54と、無音区間短縮部55と、有声区間抽出部5
6と、ピッチ抽出部57と、ピッチ区間分割部58と、
有声区間ピッチ変換部59と、合成部60とを備え、図
12に示すように、有声区間を標準再生速度(通常再
生)に対して例えば1/3倍程度の低速で再生し、ポー
ズ区間を標準再生速度に対して例えば3倍程度の高速で
再生し(特殊再生)、しかも低速再生における有声区間
の伸張されたピッチ周期を再生速度に応じて元のピッチ
周期に自動補正することにより、スピーチ音声を聴き取
り易く、字幕文テキストの書き起こしを容易にして、書
き起こし作業に専念できるようにしたものである。
【0062】スピーチ再生速度キー33は、記録媒体4
1に記録された音声の内のスピーチ音声の区間である有
声区間を標準再生速度よりも低速な第1再生速度で再生
するための再生操作を行う。ポーズ再生速度キー34
は、記録媒体41に記録された音声の内の所定長以上の
無音区間であるポーズ区間を標準再生速度よりも高速な
第2再生速度で再生するための再生操作を行う。ここ
で、標準再生速度とは、記録媒体41に音声を記録した
ときの速度である。第1再生速度は、標準再生速度を1
倍とした場合に、作業者の書き起こし能力に合わせた例
えば1/3倍程度である。第2再生速度は、標準再生速
度を1倍とした場合に、次のスピーチ開始が認識できる
程度の例えば3倍程度である。
【0063】可変速再生制御部32は、本発明の速度情
報出力手段に対応し、スピーチ再生速度キー33の再生
操作に応じて第1再生速度に対応した第1再生速度情報
を可変速再生装置31に出力し、ポーズ再生速度キ
ー34の再生操作に応じて第2再生速度に対応した第2
再生速度情報Vを可変速再生装置31に出力する。
【0064】可変速再生装置31は、図1のディスク記
録・再生部2に対応するものであり、テレビ素材番組の
映像、音声、タイムコード(提示タイミング情報)を記
録した記録媒体41と、可変速再生制御部32からの第
1再生速度情報Vに応じて、記録媒体41に記録され
た音声の内の有声区間を第1再生速度で再生する低速再
生部43と、可変速再生制御部32からの第2再生速度
情報Vに応じて、記録媒体41に記録された音声の内
のポーズ区間を第2再生速度で再生する高速再生部44
と、可変速再生制御部32からの切替信号により、低速
再生部43の作動時に接片42aを端子bに切り替え、
高速再生部44の作動時に接片42aを端子cに切り替
えるスイッチ42と、を備える。
【0065】低速再生部43は、所定の再生速度倍率で
有声区間を低速再生して有声区間を伸張させ、伸張され
た伸張ピッチ周期を持つ音声区間及び再生速度倍率情報
を有声区間ピッチ変換部59に供給する。ここで、再生
速度倍率rは、標準再生速度Vに対する低速再生にお
ける第1再生速度Vの比(V/V)である。
【0066】フレーム分割部51は、記録媒体41から
音声信号及びタイムコードを取り込み、音声信号を一定
長のフレームに分割する。区間判定部52は、各フレー
ム毎に有声区間、無声区間、無音区間の判定を行ない、
有声区間、無声区間、無音区間のそれぞれを抽出する。
【0067】有声区間抽出部56は、区間判定部52で
判定された有声区間を抽出する。ピッチ抽出部57は、
有声区間抽出部56で抽出された有声区間から1ピッチ
毎にピッチ周期を抽出する。なお、これらの処理で必要
ならば、再生速度倍率rを適用する。このピッチ周期の
抽出は、例えば特許第3219868号に記載された技術を用
いる。
【0068】ピッチ区間分割部58は、ピッチ抽出部5
7で抽出されたピッチ周期毎に有声区間の音声波形を分
割する。有声区間ピッチ変換部59は、低速再生部43
からの低速再生されて伸張された伸張ピッチ周期を持つ
有声信号と有声区間抽出部56で抽出された有声区間と
を入力し、再生速度倍率と各ピッチ毎のピッチ周期とピ
ッチ周期毎の音声波形とに基づき、伸張有声区間を、該
伸張有声区間の長さを変えずにピッチ周期毎の音声波形
を用いた区間に変換して、低速再生された元のピッチ周
期の有声区間を出力する。
【0069】合成部60は、低速再生部43からの低速
再生された元のピッチ周期の有声区間と、高速再生部4
4からの高速再生されたポーズ区間とを接続合成して音
声出力として図示しない音声出力回路に供給する。この
音声出力回路は、スピーカ等を備えており、合成部60
からの音声出力を取り込んで音声に変換しながら、外部
に出力する。スピーチ再生速度キー33の再生操作時に
おける提示タイミング情報が示す開始タイミング情報
(書き起こし開始時刻に対応)と、ポーズ再生速度キー
34の再生操作時における提示タイミング情報が示す終
了タイミング情報(書き起こし終了時刻に対応)は、可
変速再生装置31、有声区間ピッチ変換部59及び合成
部60を介して、表示部7に出力される。
【0070】次に、図7に示すブロック図及び図8、図
9、図10に示すフローチャート、図11、図12、図
13に示すタイミング図を参照しながら、この実施例の
動作を説明する。なお、図8のステップST3a,ST
5a,ST7aまでの処理に続き、図9のステップST
3b,ST4b,ST5b,ST6b,ST7bまでの
処理であるST10が行われる。
【0071】まず、記録媒体41を標準再生部41aで
再生してその音声信号を取り込み(ステップST1)、
有声区間の開始を書き起こし作業者が聴取して確認す
る。次いで、スピーチ再生速度キー33が操作されたか
どうかが判定される(ステップST3a)。スピーチ再
生速度キー33が操作されると、可変速再生制御部32
は、スピーチ操作時刻情報と第1再生速度情報とを低速
再生部43に出力するとともに、接片42aを端子bに
切り替える切替信号をスイッチ42に出力する。
【0072】そして、スイッチ42が低速再生部側に切
り替えられると(ステップST5a)、低速再生部43
は、スピーチ操作時刻情報に基づきスピーチ操作時刻情
報が示す時刻の所定時間前から第1再生速度情報V
対応した第1再生速度で有声区間を低速再生する(ステ
ップST7a)。低速再生部43は、低速再生されて伸
張された伸張ピッチ周期を持つ有声信号を有声区間ピッ
チ変換部59に出力する。
【0073】一方、フレーム分割部51は、標準再生部
41aから入力された音声信号をフレームと呼ばれる一
定長、例えば3.3msを単位とし再生速度倍率rの値
に応じた値毎に切出し、各フレームを区間判定部52に
転送させる(図9のステップST3b)。この後、区間
判定部52はフレーム分割部51から出力されくる音声
信号を各フレーム毎に自己相関法や零クロス法などの方
法で処理して各フレーム毎に有声、無声、無音(ポー
ズ)の判定を行なう。但し、この場合、人が発する有声
及び無声以外の入力音(例えば、低レベルの雑音や背景
音など)については、原則として無音として処理する
(ステップST4b)。
【0074】区間判定部52は、処理バッファ回路に格
納されている各音声信号のうち、無音区間と判定された
区間の中で、その区間長が250msを単位とする再生
速度倍率r以上の無音区間がポーズ区間(息継ぎ部分)
と判定するとともに、各ポーズ区間の間にある区間をフ
レーズ区間(一息で発声される区間)とする。
【0075】次いで、有声区間抽出部56が、図11
(a)に示すような原音声の有声区間Sを抽出する(ス
テップST5b)。この原音声の有声区間Sは、各音声
波形が順番に配列されたもので、図11(b)に示すよ
うに、各音声波形が異なるピッチ周期T,T,T
…を持つ。この後、ピッチ抽出部57は、有声区間抽出
部56で抽出された原音声の有声区間Sから1ピッチ毎
にピッチ周期Tn(n≧1で、T,T,T…)を
抽出する(ステップST6b)。そして、ピッチ区間分
割部58は、ピッチ抽出部57で抽出された各ピッチ周
期Tn毎に、有声区間Sの音声波形を分割し、図8のス
テップST11に進む(ステップST7b)。
【0076】次いで、有声区間ピッチ変換部59には、
低速再生部43からの伸張された伸張ピッチ周期を持つ
伸張有声区間及び再生速度倍率rが入力される。そし
て、有声区間ピッチ変換部59は、低速再生部43から
の伸張された伸張ピッチ周期を持つ伸張有声区間S´
と、有声区間抽出部56で抽出された有声区間Sとを入
力する。この伸張有声区間S´の伸張ピッチ周期Tn´
(n≧1で、T´,T´,T´…)は、図11
(c)に示すように、再生速度倍率r、即ち、通常の再
生速度Vに対する低速再生における再生速度Vの比
(V/V)に応じて、ピッチ周期Tnを伸張したも
のである。そして、有声区間ピッチ変換部59は、再生
速度倍率rとピッチ周期Tnとから再生後の伸張ピッチ
周期Tn´を求める(ステップST18)。即ち、r=
Tn/Tn´であるから、Tn´=Tn/rとなる。
【0077】次いで、有声区間ピッチ変換部59は、再
生速度倍率rと各ピッチ毎のピッチ周期Tnとピッチ周
期Tn毎の音声波形とに基づき、伸張有声区間S´を、
該伸張有声区間S´の長さを変えずにピッチ周期Tn毎
の音声波形を用いた区間に変換して、低速再生された元
のピッチ周期Tnを持つ有声区間S″を出力する。この
有声区間S″の各音声波形は、次のようにして決定され
る。まず、有声区間S″の最初の波形Cとしてピッチ
周期Tを持つ波形を選択する(ステップST19)。
次の周期の波形Cには、ピッチ周期Tを持つ波形か
ピッチ周期Tを持つ波形の何れかを選択する。このた
め、再生後のピッチ周期Tn´と再生前のピッチ周期T
nとの差Tn″を求める(ステップST20)。そし
て、重複率x=Tn″/Tn´(最初はn=1)を求め
(ステップST21)、重複率y=Tn+1″/T
n+1´を求める(ステップST22)。この例では、
″=(T+T)−T´となる。
【0078】次いで、重複率xが重複率y以上かどうか
を判定し(ステップST23)、重複率xが重複率y以
上である場合には、波形Cとしてピッチ周期Tnを持
つ波形を選択し(ステップST24)、重複率xが重複
率y未満である場合には、波形Cとしてピッチ周期T
n+1を持つ波形を選択する(ステップST25)。こ
の例では、x<yであるから、波形Cとして、ピッチ
周期Tを持つ波形を採用する。
【0079】このようにして、伸張された伸張有声区間
について、全ての波形が決定したかどうかを判定し(ス
テップST26)、全ての波形が決定していない場合に
は、nを1つずつインクリメントしながら、上述した処
理と同様な処理を行い、波形Cとしてピッチ周期T
を持つ波形を採用し、波形Cとしてピッチ周期T
持つ波形を採用していく。全ての波形が決定した場合に
は、処理を終了し、処理データをファイルに格納する。
そして、有声区間ピッチ変換部59は、ファイルから読
み出した処理データ、即ち、低速再生された元のピッチ
周期を持つ音声信号を合成部60に供給する。合成部6
0は、入力された音声信号を音声出力回路に出力する。
このため、作業者は、低速再生された元のピッチ周期を
持つスピーチ音声を聴取して、字幕文テキストの書き起
こしを開始することができる。
【0080】次に、有声区間が終了し、且つこの区間の
書き起こしが終了した時点で、ポーズ再生速度キー34
を操作すると(ステップST12のYES)、可変速再
生制御部32は、ポーズ操作時刻情報と第2再生速度情
報Vとを高速再生部44に出力するとともに、接片4
2aを端子cに切り替える切替信号をスイッチ42に出
力する。
【0081】そして、スイッチ42が高速再生部側に切
り替えられると(ステップST13)、高速再生部44
は、ポーズ操作時刻情報に基づきポーズ操作時刻情報が
示す時刻から第2再生速度情報Vに対応した第2再生
速度でポーズ区間を高速再生する(ステップST1
4)。さらに、合成部60は、高速再生部44からの高
速再生されたポーズ区間の音声信号を音声出力として図
示しない音声出力回路に供給する。以下、処理対象とな
る音声信号が無くなるまで(ステップST16)、上述
した処理を繰り返し行なう。
【0082】また、書き起こした字幕文テキストは表示
部7の画面上に表示される。この画面上における字幕文
テキストの編集は、図3から図5に示すものと同様であ
る。そして、書き起こしが終了した後に、そのテキスト
の用字、用語チェック、必要な場合は要約支援を実行し
て必要なテキストの修正を行い、その後背景音情報など
をチェックし情報を登録する。さらに、テキスト作成関
係の作業を終了し、自動字幕番組データ制作へ進む。
【0083】このように、字幕用書き起こしテキストの
作成支援システムによれば、可変速再生制御部32が、
スピーチ再生速度キー33の再生操作に応じて第1再生
速度情報を出力し、可変速再生装置31が、第1再生速
度情報に応じて有声区間を第1再生速度で低速再生し、
可変速再生制御部32が、ポーズ再生速度キー34の再
生操作に応じて第2再生速度情報を出力し、可変速再生
装置31が、第2再生速度情報に応じてポーズ区間を第
2再生速度で高速再生する。即ち、特殊再生操作によっ
て、スピーチ音声が聴き取り易くなり、字幕文テキスト
の書き起こしやタイミング情報の取得が容易になり、書
き起こし作業に専念できる。
【0084】また、有声区間のみが低速で再生され、低
速再生における有声区間の伸張ピッチ周期を再生速度に
応じて元のピッチ周期に自動補正する。即ち、図11及
び図12に示すように、低速再生時には、第1有声区
間、第2有声区間、第3有声区間等の有声区間のみが元
のピッチ周期で低速化するので、スピーチ音声が聴き取
り易くなり、字幕文テキストの書き起こしが容易にな
る。これにより、電子化原稿のない番組や背景音レベル
の大きい番組などでも、字幕文テキストを制作する必要
がある場合には、これを効率的に作成することができ
る。また、聴き取りやすさを考慮した最低速化の場合、
スピーチ部分が平均して30%程度までスピードダウン
が可能であり、高速のスピーチ音声などを大幅に聴きや
すいものとすることができる。
【0085】また、作業者がスピーチ音声を聴取してス
ピーチ再生速度キー33を操作する場合、キー操作遅れ
のために有声区間の開始部分が高速再生となり、書き起
こし不能となる可能性があるが、実施の形態では、スピ
ーチ操作時刻情報が示す時刻の所定時間前から第1再生
速度で有声区間を低速再生しているので、書き起こし不
能となる可能性はない。
【0086】(第2の実施の形態)次に、図14を参照
して、本発明の字幕用書き起こしテキストの作成支援シ
ステムの第2の実施の形態を説明する。第2の実施の形
態では、スピーチ再生速度キー33及びポーズ再生速度
キー34に代えて、スピーチ・ポーズ開始タイミング検
出部61を設け、スピーチ開始タイミング情報及びポー
ズ開始タイミング情報を自動的に得て、スピーチ開始タ
イミング情報に基づき有声区間を第1再生速度で低速再
生し、ポーズ開始タイミング情報に基づきポーズ区間を
第2再生速度で高速再生したことを特徴とする。
【0087】スピーチ・ポーズ開始タイミング検出部6
1は、有声区間抽出部56で抽出された有声区間とタイ
ムコードとに基づき、フレーズ区間内の最初の有声区間
の開始点に対応するスピーチ開始タイミング情報とフレ
ーズ区間内の最後の有声区間の終了点に対応するスピー
チ終了タイミング情報(即ち、ポーズ開始タイミング情
報に対応)とを検出し、スピーチ開始タイミング情報と
ポーズ開始タイミング情報とを可変速再生制御部32a
に出力する。なお、タイムコードは、フレーム分割部5
1から区間判定部52を介して有声区間抽出部56に入
力されるものとする。
【0088】可変速再生制御部32aは、スピーチ開始
タイミング情報が示す時刻の所定時間前に、有声区間を
標準再生速度よりも低速な第1再生速度で再生するため
の第1再生速度情報を低速再生部43に出力し、ポーズ
開始タイミング情報が示す時刻に、ポーズ区間を第2再
生速度で再生するための第2再生速度情報を高速再生部
44に出力する。低速再生部43は、スピーチ開始タイ
ミング情報が示す時刻の所定時間前の時刻から、可変速
再生制御部32aからの第1再生速度情報に応じて有声
区間を第1再生速度で再生する。高速再生部44は、ポ
ーズ開始タイミング情報が示す時刻から、第2再生速度
情報に応じてポーズ区間を第2再生速度で再生する。
【0089】このような第2の実施の形態の字幕用書き
起こしテキストの作成支援システムによれば、スピーチ
・ポーズ開始タイミング検出部61が、最初、処理対象
となっている有声区間がポーズ区間直後の有声区間かど
うかを判定し、ポーズ区間直後の有声区間であれば、図
13に示すように、第1有声区間の立ち上がりエッジか
ら第1有声区間の開始点V_stを検出して、この開始
点に対応するタイムコードt1(スピーチ開始タイミン
グ情報に対応)を検出する。また、そのフレーズ区間内
の最後の有声区間の立ち下りエッジから最後の有声区間
終了点を検出してこの終了点に対応するタイムコードt
e(ポーズ開始タイミング情報に対応)を検出する。そ
して、検出されたスピーチ開始タイミング情報及びポー
ズ開始タイミング情報を可変速再生制御部32aに出力
する。
【0090】可変速再生制御部32aは、スピーチ開始
タイミング情報が示す時刻の所定時間前に、第1再生速
度情報を低速再生部43に出力し、低速再生部43は、
スピーチ開始タイミング情報が示す時刻の所定時間前の
時刻から、可変速再生制御部32aからの第1再生速度
情報に応じて有声区間を第1再生速度で再生する。ま
た、可変速再生制御部32aは、ポーズ開始タイミング
情報が示す時刻に、第2再生速度情報を高速再生部44
に出力し、高速再生部44は、ポーズ開始タイミング情
報が示す時刻から、第2再生速度情報に応じてポーズ区
間を第2再生速度で再生する。即ち、特殊再生操作によ
って、スピーチ音声が聴き取り易くなり、また、スピー
チ区間及びポーズ区間の頭出しを含め煩雑なテープの再
生操作を一部自動化することができ、字幕文テキストの
書き起こしが容易になり、書き起こし作業に専念でき
る。また、図3、図5に示す音声に関する波形は、ディ
スクVTR(DSKVTR)に収録されている番組音声
からスピーチ部分を強調するなどの処理を行ったもので
あり、この矩形波の上の部分はスピーチに基本的に対応
する。従って、第2の実施形態を示す図14のスピーチ
・ポーズ開始タイミング検出部61の機能に対応するも
のであるから、この波形による情報をスピーチ・ポーズ
情報として可変速再生制御部32aに加え、可変速再生
を行うことも可能である。
【0091】また、スピーチ開始タイミング情報は、字
幕文書き起こし開始のための開始タイミング情報に対応
し、ポーズ開始タイミング情報は、字幕文書き起こし終
了のための終了タイミング情報に対応しているので、自
動字幕番組制作システムにおいて、このスピーチ開始タ
イミング情報及びポーズ開始タイミング情報を、該当す
る書き起こし単位文に付与する際に活用することができ
る。
【0092】
【発明の効果】以上説明したように、請求項1の発明の
字幕用書き起こしテキストの作成支援システムによれ
ば、速度情報出力手段は、有声再生操作手段の再生操作
に応じて第1再生速度情報を出力し、可変速再生手段
は、第1再生速度情報に応じて有声区間を第1再生速度
で低速再生し、速度情報出力手段は、ポーズ再生操作手
段の再生操作に応じて第2再生速度情報を出力し、可変
速再生手段は、第2再生速度情報に応じてポーズ区間を
第2再生速度で高速再生する。即ち、特殊再生操作によ
って、スピーチ音声が聴き取り易くなり、字幕文テキス
トの書き起こしが容易になり、書き起こし作業に専念で
きる。
【0093】請求項2の発明の字幕用書き起こしテキス
トの作成支援システムによれば、速度情報出力手段は、
検出手段で検出された有声開始タイミング情報が示す時
刻に第1再生速度情報を出力し、可変速再生手段は、第
1再生速度情報に応じて有声区間を第1再生速度で再生
し、速度情報出力手段は、ポーズ開始タイミング情報が
示す時刻に第2再生速度情報を出力し、可変速再生手段
は、第2再生速度情報に応じてポーズ区間を第2再生速
度で再生する。即ち、特殊再生操作によって、スピーチ
音声が聴き取り易くなり、また、スピーチ区間及びポー
ズ区間の頭出しを含め煩雑なテープの再生操作を一部自
動化することができ、字幕文テキストの書き起こしが容
易になり、書き起こし作業に専念できる。
【0094】請求項3の発明の字幕用書き起こしテキス
トの作成支援システムによれば、有声区間ピッチ変換手
段は、可変速再生手段で低速再生されて伸張された伸張
ピッチ周期を持つ伸張有声区間と区間抽出手段で抽出さ
れた有声区間とを入力し、標準再生速度に対する第1再
生速度の比を表す再生速度倍率と各ピッチ毎のピッチ周
期とピッチ周期毎の音声波形とに基づき、伸張有声区間
を、該伸張有声区間の長さを変えずにピッチ周期毎の音
声波形を用いた区間に変換する。即ち、有声区間のみが
低速で再生され、また、低速再生における有声区間の伸
張ピッチ周期を再生速度に応じて元のピッチ周期に自動
補正するので、スピーチ音声が聴き取り易くなり、字幕
文テキストの書き起こしが容易になる。
【0095】請求項4の発明の字幕用書き起こしテキス
トの作成支援システムによれば、単位字幕文を表示時間
順に配列した字幕文テキストを画面上の第1表示領域に
表示し、提示タイミング情報を表したタイムラインとこ
のタイムライン上に表示時間順に配置した複数の映像と
この複数の映像に1対1に対応させてタイムライン上に
表示時間順に配置した複数の字幕本文とタイムライン上
に配置した音声の波形とを、第2表示領域に表示したの
で、字幕文テキストの編集が容易になる。
【0096】請求項5の発明の半自動型字幕番組制作シ
ステムによれば、字幕用書き起こしテキストの作成支援
システムを用いて字幕文テキストを人手によって書き起
こし、自動字幕番組データ制作部は、字幕用書き起こし
テキストの作成支援システムを用いて得られた字幕文テ
キストに基づき、字幕番組データを自動制作し、字幕番
組編集・試写部は、自動字幕番組データ制作部で制作さ
れた字幕番組データを編集・試写する。即ち、 人手に
よる制作機能と自動による制作機能とを効果的に組み合
わせたことで、字幕番組制作を効率良く行うことができ
る。
【0097】請求項6の発明の半自動型字幕番組制作シ
ステムによれば、請求項2の効果と同様な効果が得られ
る。請求項7の発明の半自動型字幕番組制作システムに
よれば、請求項3の効果と同様な効果が得られる。請求
項8の発明の半自動型字幕番組制作システムによれば、
請求項4の効果と同様な効果が得られる。
【図面の簡単な説明】
【図1】本発明の字幕用書き起こしテキストの作成支援
システムを備えた半自動型字幕番組制作システムの構成
図である。
【図2】半自動型字幕番組制作システムの全体の処理を
示すフローチャートである。
【図3】書起し・編集のメイン画面の一例を示す図であ
る。
【図4】図3に示す書起し・編集のメイン画面内の編集
領域セクションの一例を示す図である。
【図5】図3に示す書起し・編集のメイン画面内の音声
関連信号の波形化表示の一例を示す図である。
【図6】半自動型字幕番組制作システムにおける書起し
処理手順の一例を示すフローチャートである。
【図7】本発明の字幕用書き起こしテキストの作成支援
システムの第1の実施の形態を示すブロック図である。
【図8】図7に示す字幕用書き起こしテキストの作成支
援システムの動作例を示すメインフローチャートであ
る。
【図9】図7に示す字幕用書き起こしテキストの作成支
援システムの動作例を示すサブフローチャートである。
【図10】図7に示す字幕用書き起こしテキストの作成
支援システムの動作例を示す有声区間ピッチ変換処理ル
ーチンの一例を示すフローチャートである。
【図11】図7に示す字幕用書き起こしテキストの作成
支援システムに設けられた有声区間ピッチ変換部の動作
例を示すタイミング図である。
【図12】図7に示す字幕用書き起こしテキストの作成
支援システムの動作例を示す複数フレーズ区間のタイミ
ング図である。
【図13】図7に示す字幕用書き起こしテキストの作成
支援システムの動作例を示す1フレーズ区間のタイミン
グ図である。
【図14】本発明の字幕用書き起こしテキストの作成支
援システムの第2の実施の形態を示すブロック図であ
る。
【符号の説明】
1 半自動型字幕制作システム 2 ディスク記録・再生部 3 字幕文テキスト書き起こし部 4 自動字幕番組データ制作部 5 字幕番組編集・試写部 6 基本GUIシステム部 31 可変速再生装置 32 可変速再生制御部 33 スピーチ再生速度キー 34 ポーズ再生速度キー 41 記録媒体 42 スイッチ 43 低速再生部 44 高速再生部 51 フレーム分割部 52 区間判定部 56 有声区間抽出部 57 ピッチ抽出部 58 ピッチ区間分割部 59 有声区間ピッチ変換部 60 合成部 61 スピーチ・ポーズ開始タイミング検出部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G11B 20/10 301 G10L 3/00 S 321 H H04N 5/222 (71)出願人 000004352 日本放送協会 東京都渋谷区神南2丁目2番1号 (72)発明者 沢村 英治 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 門馬 隆雄 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 江原 暉将 東京都世田谷区砧一丁目10番11号 日本放 送協会放送技術研究所内 (72)発明者 浦谷 則好 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 今村 崇之 東京都渋谷区宇田川町37番18号 財団法人 エヌエイチケイエンジニアリングサービ ス内 (72)発明者 白井 克彦 東京都港区芝2−31−19 通信・放送機構 内 Fターム(参考) 5C022 CA06 5D044 AB05 CC04 FG09 FG23 GK02 HL11 5D045 AA08 BA02

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 映像及び音声並びにこれらの提示タイミ
    ング情報を含んだ番組素材の前記音声を聴き取って前記
    音声に対する字幕文テキストの書き起こし作業を支援す
    るための字幕用書き起こしテキストの作成支援システム
    であって、 前記音声の内のスピーチ音声の区間である有声区間を標
    準再生速度よりも低速な第1再生速度で再生するための
    再生操作を行う有声再生操作手段と、 前記音声の内の所定長以上の無音区間であるポーズ区間
    を前記標準再生速度よりも高速な第2再生速度で再生す
    るための再生操作を行うポーズ再生操作手段と、 前記有声再生操作手段の再生操作に応じて前記第1再生
    速度に対応した第1再生速度情報を出力し、前記ポーズ
    再生操作手段の再生操作に応じて前記第2再生速度に対
    応した第2再生速度情報を出力する速度情報出力手段
    と、 この速度情報出力手段からの前記第1再生速度情報に応
    じて前記有声区間を前記第1再生速度で再生し、前記第
    2再生速度情報に応じて前記ポーズ区間を前記第2再生
    速度で再生する可変速再生手段と、を備えることを特徴
    とする字幕用書き起こしテキストの作成支援システム。
  2. 【請求項2】 映像及び音声並びにこれらの提示タイミ
    ング情報を含んだ番組素材の前記音声を聴き取って前記
    音声に対する字幕文テキストの書き起こし作業を支援す
    るための字幕用書き起こしテキストの作成支援システム
    であって、 前記提示タイミング情報に基づき、前記音声の内のスピ
    ーチ音声の区間である有声区間の開始点に対応する有声
    開始タイミング情報と前記音声の内の所定長以上の無音
    区間であるポーズ区間の開始点に対応するポーズ開始タ
    イミング情報を検出する検出手段と、 前記有声開始タイミング情報が示す時刻に、前記有声区
    間を標準再生速度よりも低速な第1再生速度で再生する
    ための第1再生速度情報を出力し、前記ポーズ開始タイ
    ミング情報が示す時刻に、前記ポーズ区間を前記第2再
    生速度で再生するための第2再生速度情報を出力する速
    度情報出力手段と、 この速度情報出力手段からの前記第1再生速度情報に応
    じて前記有声区間を前記第1再生速度で再生し、前記第
    2再生速度情報に応じて前記ポーズ区間を前記第2再生
    速度で再生する可変速再生手段と、を備えることを特徴
    とする字幕用書き起こしテキストの作成支援システム。
  3. 【請求項3】 請求項1又は請求項2記載の字幕用書き
    起こしテキストの作成支援システムにおいて、 前記音声を一定長のフレームに分割し、各フレーム毎
    に、前記有声区間、前記ポーズ区間の判定を行ない、前
    記有声区間を抽出する区間抽出手段と、 この区間抽出手段で抽出された有声区間から各ピッチ毎
    にピッチ周期を抽出し、ピッチ周期毎に前記有声区間の
    音声波形を分割するピッチ区間分割手段と、 前記可変速再生手段で低速再生されて伸張された伸張ピ
    ッチ周期を持つ伸張有声区間と前記区間抽出手段で抽出
    された有声区間とを入力し、前記標準再生速度に対する
    前記第1再生速度の比を表す再生速度倍率と前記各ピッ
    チ毎のピッチ周期とピッチ周期毎の音声波形とに基づ
    き、前記伸張有声区間を、該伸張有声区間の長さを変え
    ずに前記ピッチ周期毎の音声波形を用いた区間に変換す
    る有声区間ピッチ変換手段と、を備えることを特徴とす
    る字幕用書き起こしテキストの作成支援システム。
  4. 【請求項4】 請求項1乃至請求項3のいずれか1項記
    載の字幕用書き起こしテキストの作成支援システムにお
    いて、 低速再生された音声を聴き取って書き起こされ且つ単位
    字幕文を表示時間順に配列した、前記字幕文テキストを
    画面上の第1表示領域に表示する表示手段を備え、 前記単位字幕文は、前記スピーチ音声に対応する字幕本
    文と、この字幕本文の開始点及び終了点を表す開始及び
    終了タイミング情報と、話者情報とからなり、 前記表示手段は、前記提示タイミング情報を表したタイ
    ムラインとこのタイムライン上に前記表示時間順に配置
    した複数の映像とこの複数の映像に1対1に対応させて
    前記タイムライン上に前記表示時間順に配置した複数の
    字幕本文と前記タイムライン上に配置した前記音声の波
    形とを、第2表示領域に表示したことを特徴とする字幕
    用書き起こしテキストの作成支援システム。
  5. 【請求項5】 映像及び音声並びにこれらの提示タイミ
    ング情報を含んだ番組素材の前記音声を聴き取って前記
    音声に対する字幕文テキストの書き起こし作業を支援す
    るための字幕用書き起こしテキストの作成支援システム
    と、 この字幕用書き起こしテキストの作成支援システムを用
    いて得られた前記字幕文テキストに基づき、字幕番組デ
    ータを自動制作する自動字幕番組データ制作部と、 この自動字幕番組データ制作部で制作された字幕番組デ
    ータを編集・試写する字幕番組編集・試写部と、を備え
    た半自動型字幕番組制作システムであって、 前記字幕用書き起こしテキストの作成支援システムは、
    前記音声の内のスピーチ音声の区間である有声区間を標
    準再生速度よりも低速な第1再生速度で再生するための
    再生操作を行う有声再生操作手段と、 前記音声の内の所定長以上の無音区間であるポーズ区間
    を前記標準再生速度よりも高速な第2再生速度で再生す
    るための再生操作を行うポーズ再生操作手段と、 前記有声再生操作手段の再生操作に応じて前記第1再生
    速度に対応した第1再生速度情報を出力し、前記ポーズ
    再生操作手段の再生操作に応じて前記第2再生速度に対
    応した第2再生速度情報を出力する速度情報出力手段
    と、 この速度情報出力手段からの前記第1再生速度情報に応
    じて前記有声区間を前記第1再生速度で再生し、前記第
    2再生速度情報に応じて前記ポーズ区間を前記第2再生
    速度で再生する可変速再生手段と、を備えることを特徴
    とする半自動型字幕番組制作システム。
  6. 【請求項6】 映像及び音声並びにこれらの提示タイミ
    ング情報を含んだ番組素材の前記音声を聴き取って前記
    音声に対する字幕文テキストの書き起こし作業を支援す
    るための字幕用書き起こしテキストの作成支援システム
    と、 この字幕用書き起こしテキストの作成支援システムを用
    いて得られた前記字幕文テキストに基づき、字幕番組デ
    ータを自動制作する自動字幕番組データ制作部と、 この自動字幕番組データ制作部で制作された字幕番組デ
    ータを編集・試写する字幕番組編集・試写部と、を備え
    た半自動型字幕番組制作システムであって、 前記字幕用書き起こしテキストの作成支援システムは、
    前記提示タイミング情報に基づき、前記音声の内のスピ
    ーチ音声の区間である有声区間の開始点に対応する有声
    開始タイミング情報と前記音声の内の所定長以上の無音
    区間であるポーズ区間の開始点に対応するポーズ開始タ
    イミング情報を検出する検出手段と、 前記有声開始タイミング情報が示す時刻に、前記有声区
    間を標準再生速度よりも低速な第1再生速度で再生する
    ための第1再生速度情報を出力し、前記ポーズ開始タイ
    ミング情報が示す時刻に、前記ポーズ区間を前記第2再
    生速度で再生するための第2再生速度情報を出力する速
    度情報出力手段と、 この速度情報出力手段からの前記第1再生速度情報に応
    じて前記有声区間を前記第1再生速度で再生し、前記第
    2再生速度情報に応じて前記ポーズ区間を前記第2再生
    速度で再生する可変速再生手段と、を備えることを特徴
    とする半自動型字幕番組制作システム。
  7. 【請求項7】 請求項5又は請求項6記載の半自動型字
    幕番組制作システムにおいて、 前記字幕用書き起こしテキストの作成支援システムは、
    前記音声を一定長のフレームに分割し、各フレーム毎
    に、前記有声区間、前記ポーズ区間の判定を行ない、前
    記有声区間を抽出する区間抽出手段と、 この区間抽出手段で抽出された有声区間から各ピッチ毎
    にピッチ周期を抽出し、ピッチ周期毎に前記有声区間の
    音声波形を分割するピッチ区間分割手段と、 前記可変速再生手段で低速再生されて伸張された伸張ピ
    ッチ周期を持つ伸張有声区間と前記区間抽出手段で抽出
    された有声区間とを入力し、前記標準再生速度に対する
    前記第1再生速度の比を表す再生速度倍率と前記各ピッ
    チ毎のピッチ周期とピッチ周期毎の音声波形とに基づ
    き、前記伸張有声区間を、該伸張有声区間の長さを変え
    ずに前記ピッチ周期毎の音声波形を用いた区間に変換す
    る有声区間ピッチ変換手段と、を備えることを特徴とす
    る半自動型字幕番組制作システム。
  8. 【請求項8】 請求項5乃至請求項7のいずれか1項記
    載の半自動型字幕番組制作システムにおいて、 前記字幕用書き起こしテキストの作成支援システムは、
    低速再生された音声を聴き取って書き起こされ且つ単位
    字幕文を表示時間順に配列した、前記字幕文テキストを
    画面上の第1表示領域に表示する表示手段を備え、 前記単位字幕文は、前記スピーチ音声に対応する字幕本
    文と、この字幕本文の開始点及び終了点を表す開始及び
    終了タイミング情報と、話者情報とからなり、 前記表示手段は、前記提示タイミング情報を表したタイ
    ムラインとこのタイムライン上に前記表示時間順に配置
    した複数の映像とこの複数の映像に1対1に対応させて
    前記タイムライン上に前記表示時間順に配置した複数の
    字幕本文と前記タイムライン上に配置した前記音声の波
    形とを、第2表示領域に表示したことを特徴とする半自
    動型字幕番組制作システム。
JP2002019136A 2002-01-28 2002-01-28 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム Pending JP2003216200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002019136A JP2003216200A (ja) 2002-01-28 2002-01-28 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002019136A JP2003216200A (ja) 2002-01-28 2002-01-28 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Publications (1)

Publication Number Publication Date
JP2003216200A true JP2003216200A (ja) 2003-07-30

Family

ID=27654152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002019136A Pending JP2003216200A (ja) 2002-01-28 2002-01-28 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Country Status (1)

Country Link
JP (1) JP2003216200A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084692A (ja) * 2003-09-10 2005-03-31 Microsoft Corp デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法
JP2007093925A (ja) * 2005-09-28 2007-04-12 Univ Of Electro-Communications 再生装置、再生方法、及び記憶媒体
US7672840B2 (en) 2004-07-21 2010-03-02 Fujitsu Limited Voice speed control apparatus
JP2010210947A (ja) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd 話速変換装置
JP2011014021A (ja) * 2009-07-03 2011-01-20 Nippon Hoso Kyokai <Nhk> 文字情報提示制御装置及びプログラム
JP2018170035A (ja) * 2018-06-29 2018-11-01 株式会社東芝 監視情報再生装置、監視情報再生方法及びコンピュータプログラム
CN113938758A (zh) * 2021-12-08 2022-01-14 沈阳开放大学 一种视频编辑器中快速添加字幕的方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084692A (ja) * 2003-09-10 2005-03-31 Microsoft Corp デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法
US7672840B2 (en) 2004-07-21 2010-03-02 Fujitsu Limited Voice speed control apparatus
JP2007093925A (ja) * 2005-09-28 2007-04-12 Univ Of Electro-Communications 再生装置、再生方法、及び記憶媒体
JP4543261B2 (ja) * 2005-09-28 2010-09-15 国立大学法人電気通信大学 再生装置
US8744244B2 (en) 2005-09-28 2014-06-03 The University Of Electro-Communications Reproducing apparatus, reproducing method, and storage medium
JP2010210947A (ja) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd 話速変換装置
JP2011014021A (ja) * 2009-07-03 2011-01-20 Nippon Hoso Kyokai <Nhk> 文字情報提示制御装置及びプログラム
JP2018170035A (ja) * 2018-06-29 2018-11-01 株式会社東芝 監視情報再生装置、監視情報再生方法及びコンピュータプログラム
CN113938758A (zh) * 2021-12-08 2022-01-14 沈阳开放大学 一种视频编辑器中快速添加字幕的方法

Similar Documents

Publication Publication Date Title
CN108259965B (zh) 一种视频剪辑方法和剪辑系统
US6161087A (en) Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
EP1425736B1 (en) Method for processing audiovisual data using speech recognition
US5151998A (en) sound editing system using control line for altering specified characteristic of adjacent segment of the stored waveform
CN108449629B (zh) 一种音频的语音与文字同步方法及剪辑方法和剪辑系统
CN105679120B (zh) 基于tts技术制作标准普通话语音微课件的方法
JPWO2009025155A1 (ja) 音声再生方法、音声再生装置およびコンピュータ・プログラム
JPH11162107A (ja) デジタルビデオ情報及びオーディオ情報を編集するためのシステム
US20230345086A1 (en) System and method for providing descriptive video
JP2003216200A (ja) 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
JP4140745B2 (ja) 字幕へのタイミング情報付与方法
JP2003223199A (ja) 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
JP4210723B2 (ja) 自動字幕番組制作システム
JP2005129971A (ja) 半自動型字幕番組制作システム
JP4124416B2 (ja) 半自動型字幕番組制作システム
JP2002344805A (ja) オープンキャプションに対する字幕表示制御方法
JP2003223200A (ja) 話速変換による書き起こし支援システム及び半自動型字幕番組制作システム
JP2003224807A (ja) 字幕番組編集支援システムおよび半自動型字幕番組制作システム
JP3944830B2 (ja) スピーチ近似データによる字幕用データ作成・編集支援システム
JP2004212799A (ja) 書起し支援装置
JP4500957B2 (ja) 字幕制作システム
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体
JP2006227363A (ja) 放送音声用辞書作成装置および放送音声用辞書作成プログラム
JPH07272447A (ja) 音声データ編集システム
JP4381108B2 (ja) 話速変換装置における時報処理装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040903

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070605