JPH06141240A - 字幕スーパー画面作成方法 - Google Patents
字幕スーパー画面作成方法Info
- Publication number
- JPH06141240A JPH06141240A JP4289973A JP28997392A JPH06141240A JP H06141240 A JPH06141240 A JP H06141240A JP 4289973 A JP4289973 A JP 4289973A JP 28997392 A JP28997392 A JP 28997392A JP H06141240 A JPH06141240 A JP H06141240A
- Authority
- JP
- Japan
- Prior art keywords
- screen
- subtitle
- title
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
- Studio Circuits (AREA)
Abstract
した者でなくとも、従来のキーボード等による入力より
も容易にしかも迅速に、テレビジョン番組制作時に字幕
スーパー画面を作成する。 【構成】 テレビジョン番組制作時に特定の複数の話者
が発声した生の音声を、母音系列から仮説を求めるとと
もに、子音の尤度に基づいて最適な仮説を決定するなど
の方法により音声認識処理し、この音声認識処理によっ
て得られる文字列に基づいて、テレビジョン信号として
字幕画面を生成し、この字幕画面と任意の外部映像とを
合成して字幕スーパー画面を作成する。
Description
用される字幕スーパー画面を作成する字幕スーパー画面
作成方法に関する。
制作時の字幕スーパー画面作成方法に関するもので、音
声認識および字幕スーパーされることを前提として、ア
ナウンサー、出演者、ディレクターなど特定された複数
の話者が発声した生の音声を自動認識し、この認識結果
に基づいて得られる文字列からテレビジョン信号として
字幕画面を生成し、外部映像と合成して字幕スーパー画
面を作成することにより、従来のキーボード等による入
力よりも容易にかつ迅速に字幕スーパー画面を作成でき
るようにするものである。
ーパー画面は、次の3つの方法で作成されている。
あり、この方法では、写植機で文字を紙の上に印刷し、
それをカメラで撮影した後、この撮影処理によって得ら
れた字幕画面を任意の外部映像と合成して字幕スーパー
画面を作成する。
あり、この方法では、電子文字発生装置と呼ばれるワー
ドプロセッサと同様な装置を用い、この装置に設けられ
たキーボードから文字を入力して内蔵の文字フォントを
呼び出し、この文字フォントを使用して字幕画面用のテ
レビジョン信号を生成し、このテレビジョン信号を任意
の外部映像と合成して字幕スーパー画面を作成する。
方法であり、この方法では、パーソナルコンピュータに
予め字幕スーパーしたい文字や図形を表示するプログラ
ムを組んでおき、キーボードのテンキーやタッチパネル
などで字幕画面を呼び出し、この字幕画面を任意の外部
映像と合成して字幕スーパー画面を作成する。
各字幕スーパー画面作成方法においては、次に述べるよ
うな問題があった。
技術を使用する方法では、文字を入力するとき、写植機
やワードプロセッサを使用しなければならないので、熟
練したオペレータを養成しなければならず、人員の確保
やコストという点で字幕スーパー画面の作成方法として
適したものではなかった。
子技術を使用する方法では、文字の入力にある程度の時
間を必要とするため、放送に字幕スーパー画面を利用す
る場合、放送番組の収録前に字幕画面の作成を終えてい
なければならない。
子技術を使用する方法では、字幕スーパー画面を作成し
た後で、入力した文字を容易に修正することができない
ので、急な変更等に対処し難いという問題があった。
は、放送中でも好みの字幕画面を即座に呼び出せる利点
があるものの、あらかじめ決められた字幕画面しか作成
することができないため、スポーツ番組における選手名
の字幕スーパー等に利用することができるだけで、任意
の文字を組み込んだ字幕スーパー画面の作成に適さない
という問題があった。
受像機側でテレビジョン番組中の音声を自動認識し、そ
の認識結果に基づいて字幕スーパー画面を作成する方法
が提案されている。
ば、特願昭60−106779号に示されている「不特
定話者の音声入力装置を用いたTV・及びモニターディ
スプレイにおける字幕スーパー文字表示システムに関す
る方法」や実願昭63−131212号に示されている
音声認識装置を内蔵した「テレビジョン受像機」などが
ある。
視聴者を対象として、受像機側で、放送局から送られて
きたテレビジョン番組中の音声を自動認識し、その認識
結果を受像機上の映像に字幕スーパーする方法であるた
め、次に述べる点から実現が極めて困難であると思われ
る。
局から送られてきたテレビジョン番組中の音声にはBG
Mなどの背景音や他の話者の音声が混入しており、特定
の話者の音声を抽出するのは困難である。
特定多数であることから、このような不特定話者の音声
を確実に認識することは困難である。
葉の語彙数は膨大であり、番組内容、あるいは字幕スー
パーすべき言葉を特定しておかないと、認識すべき語彙
が多すぎて認識辞書が膨大になってしまう。
ード等による入力よりも容易にかつ迅速に、放送局側で
テレビジョン番組の字幕スーパー画面を作成することが
でき、これによって受像機側で字幕スーパーを作成する
ときに発生する種々の困難をなくすことができる字幕ス
ーパー画面作成方法を提供することを目的としている。
めに本発明による字幕スーパー画面作成方法は、テレビ
ジョン番組制作時において字幕スーパー画面を作成する
とき、音声認識または字幕スーパーされることを前提と
して、特定の複数の話者が発声した生の音声を音声認識
処理し、この音声認識処理によって得られる文字列に基
づいて、テレビジョン信号として字幕画面を生成するこ
とを特徴としている。
パーされることを前提として、特定の複数の話者が発声
した生の音声を音声認識処理し、この音声認識処理によ
って得られる文字列に基づいて字幕画面を作成してテレ
ビジョン信号を生成することにより、操作に熟練した者
でなくとも、従来のキーボード等による入力よりも容易
にしかも迅速に、テレビジョン番組制作時に字幕スーパ
ー画面を作成する。
法の一実施例を適用した字幕スーパー画面作成システム
の一例を示すブロック図である。
ムは、入力された特定話者の音声信号を認識して文字列
データを生成する音声認識部1と、この音声認識部1に
よって生成された文字列データに基づいて字幕画面を作
成するとともに、この字幕画面と外部映像とを合成して
字幕スーパー画面を作成する字幕画面生成部2とを備え
ており、特定話者の音声信号が入力されたとき、この音
声信号を取り込んで音声認識した後、この音声認識処理
によって得られる文字列データに基づいて字幕画面を作
成するとともに、この字幕画面と外部映像と合成して字
幕スーパー画面を作成する。
換器3と、音響分析部4と、母音認識部5と、子音認識
部6と、認識辞書7と、言語処理部8とを備えており、
音声信号が入力されたとき、この音声信号を取り込んで
デジタル化した後、このデジタル化処理によって得られ
た音声データに基づいて音響特徴量を抽出するととも
に、この音響特徴量に基づいて母音の認識を行い、さら
にこの認識結果に基づいて仮説を生成して各仮説毎に子
音の尤度を求めた後、これらの各尤度に基づいて最適な
仮説を決定し、これを認識結果としてその文字列データ
を字幕画面生成部2に供給する。
て収音された音声信号、例えば特定の操作者によって字
幕スーパーしたい単語や文節、あるいは文が読み上げら
れたときの音声信号が供給されたとき、これを取り込ん
で予め設定されているサンプリング周波数、例えば音響
特徴量を抽出するのに十分な15kHzのサンプリング
周波数でディジタル化して音声データを生成し、これを
音響分析部4に供給する。
出力される音声データを取り込むとともに、長さ20m
sのハミング窓を用いて5msの周期で前記音声データ
をフレームに分割し、この後各フレームの音声データに
対して線形予測分析と零交差波分析とを行って18次元
のLPCケプストラム係数、零交差数、パワーなどの音
響パラメータを求め、この音響パラメータを母音認識部
5と、子音認識部6とに供給する。
力される音響パラメータを取り込むとともに、この音響
パラメータと予め学習した母音標準パターン、すなわち
認識させたい人の声をあらかじめ集めて学習して得られ
た母音標準パターンや既に学習済みの他の話者の母音標
準パターンを利用して新しい話者に適応化させた母音標
準パターンとを比較し、この比較結果に基づいて前記音
声データ中の母音を検出して入力音声の母音系列データ
を作成し、これを言語処理部8に供給する。
出力される音響パラメータを取り込むとともに、あらか
じめ学習済みのHMM(隠れマルコフモデル)、すなわ
ち認識させたい人の声を予め集めて学習させたり、既に
学習済みの他の話者のHMMを利用し、新しい話者に適
応化させたりして作成されたHMMを用いて、言語処理
部8から出力される各仮説を採用した時の、入力音声を
構成する子音部分の尤度を求め、これを前記言語処理部
8に供給する。
語がテキスト形式で記述されており、これにより言語処
理部8は汎用性の高い文節文法を用いて、各自立語から
構成可能な文節データを全て自動生成することが可能と
なる。
れる母音系列データを取り込むとともに、この母音系列
データをキーとして認識辞書7を検索して前記母音系列
データを含む単語データあるいは文節データを読み出
し、これら単語データあるいは文節データに基づいて前
記母音系列データ中の不確かな母音を他の母音と入れ替
えたり、削除したり、新たな母音を挿入するなどして、
いくつかの候補を仮説として生成し、これを子音認識部
6に供給する。そして、この子音認識部6から各仮説の
尤度データ(確からしさを示すデータ)が出力されたと
き、この尤度データと、前記母音認識部5から出力され
た母音系列データとを統合し、各仮説と入力音声の近さ
を求め、最も近い仮説を認識結果としてその文字列デー
タを字幕画面生成部2に供給する。
フォントファイル10と、文字列/字幕画面変換部11
と、ビデオRAM12と、スキャンコンバータ13と、
合成部14とを備えており、前記音声認識部1から出力
される文字列データを取り込むとともに、この文字列デ
ータに基づいて文字フォントファイル10をアクセスし
て文字フォント情報を取り込んで字幕画面を作成した
後、これをテレビジョン映像信号に変換して外部からの
映像(外部映像)と合成して字幕スーパー画面を作成す
る。
使用される各文字のフォント情報が格納されており、前
記文字列/字幕画面変換部11からの読出し指令に応じ
て指定された文字のフォント情報を読み出しこれを文字
列/字幕画面変換部11に供給する。
認識部1から出力される文字列データを取り込むととも
に、この文字列データを構成する各文字コードに基づい
て前記各文字フォントファイル10をアクセスして前記
各文字コードに対応する文字フォント情報を読み出して
これを画面上の最適な位置に並べて字幕画面データを作
成し、これをビデオRAM12に供給する。
面変換部11から出力される字幕画面データを取り込ん
で、これを記憶し、前記スキャンコンバータ13から読
出し指令が出力されたとき、記憶している字幕画面デー
タを読出してスキャンコンバータ13に供給する。
AM12から出力される字幕画面データを取り込むとと
もに、この字幕画面データを指定された規格、例えばN
TSC、PAL、SECAM、HDTVなどの規格のテ
レビジョン映像信号に変換してこれを合成部14に供給
する。
3から出力されるテレビジョン映像信号と外部から供給
される映像信号(外部映像信号)とを合成して字幕スー
パー画面を作成して出力する。
るため、上述した音声認識部1を実現する実際のハード
ウェアとして図4に示す構成の回路を作成した。
A/D変換器3と、並列処理用プロセッサによって構成
される9個のトランスピュータ20〜28と、制御用の
トランスピュータ20の記憶装置として使用されるディ
スク装置29とによって構成されている。
は、前記母音認識部5の処理および全トランスピュータ
21〜28の制御、字幕画面生成部2とのデータの受け
渡しを行い、また各トランスピュータ21〜24は前記
音響分析部4の処理を行う。
〜24のうち、トランスピュータ21は入力された音声
データの偶数フレームの音響分析を行い、トランスピュ
ータ22はトランスピュータ21で得られたLPCケプ
ストラム係数のベクトル量子化を行う。トランスピュー
タ23は入力された音声データの奇数フレームの音響分
析を行い、トランスピュータ24はトランスピュータ2
3で得られたLPCケプストラム係数のベクトル量子化
を行う。
れぞれが異なる仮説生成の方法により、前記言語処理部
8および前記子音認識部6の処理を行う。
7で使用される自立語をテキスト形式で格納する記憶エ
リアとして使用される。
号に対し、その音声認識率を実験したところ、次に述べ
るような顕著な結果を得ることができた。
組を対象として、取り組み力士名や決まり手に関する文
をアナウンサーに発声させ、このとき得られた音声信号
に基づいて字幕スーパー画面を作成させた。
「貴花田と、小錦の、取り組み」、「ただ今の取り組み
は、貴花田が、寄り切りで勝ちました」のようにほぼ文
節単位で区切られた文であるとき、98%の文節認識率
を得ることができ、また100%の文認識率を得ること
ができた。
実時間と一致し、実用上何ら問題なく使用できることが
確認できた。
ジョン番組制作時に発声される特定の複数の話者の音声
を認識対象としており、音声認識処理方法として母音系
列を使用して各仮説を求め、これらの各仮説に対する子
音の尤度を用いて音声信号の文字列を求める方法を使用
するようにしているので、入力された音声を確実に認識
することができ、これによって従来のキーボード等によ
る入力よりも容易にかつ迅速に、放送局側でテレビジョ
ン番組の字幕スーパー画面を作成することができ、この
結果受像機側で字幕スーパーを作成するときに発生する
種々の困難をなくすことができる。
識部1を構成する音響分析部4は、長さ20msのハミ
ング窓を用いて5msの周期で前記音声データをフレー
ムに分割した後、各フレームの音声データに対して線形
予測分析と零交差波分析とを行って18次元のLPCケ
プストラム係数、零交差数、パワーなどの音響パラメー
タを求める音響分析手法を使用しているが、このような
音響分析手法以外にも、例えばFFT分析などの周波数
スペクトラム分析や他の手法を使用するようにしても良
い。
識部1を構成する母音認識部5および、子音認識部6の
音声認識処理方法として母音標準パターンおよびHMM
(隠れマルコフモデル)を使用するようにしているが、
このような音声認識方法のみならず、例えばDPマッチ
ングやニューラルネットなどを利用した音声認識方法を
使用するようにしても良い。
声認識を利用することにより、操作に熟練した者でなく
とも、従来のキーボード等による入力よりも容易にしか
も迅速に、テレビジョン番組制作時に字幕スーパー画面
を作成することができる。
施例を適用した字幕スーパー画面作成システムの一例を
示すブロック図である。
すブロック図である。
を示すブロック図である。
構成例を示すブロック図である。
Claims (1)
- 【請求項1】 テレビジョン番組制作時に字幕スーパー
画面を作成する方法であって、 音声認識または字幕スーパーされることを前提として、
特定の複数の話者が発声した生の音声を音声認識処理
し、 この音声認識処理によって得られる文字列に基づいて、
テレビジョン信号として字幕画面を生成する、 ことを特徴とする字幕スーパー画面作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28997392A JP3162832B2 (ja) | 1992-10-28 | 1992-10-28 | 字幕スーパー画面作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28997392A JP3162832B2 (ja) | 1992-10-28 | 1992-10-28 | 字幕スーパー画面作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06141240A true JPH06141240A (ja) | 1994-05-20 |
JP3162832B2 JP3162832B2 (ja) | 2001-05-08 |
Family
ID=17750130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28997392A Expired - Lifetime JP3162832B2 (ja) | 1992-10-28 | 1992-10-28 | 字幕スーパー画面作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3162832B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7729917B2 (en) | 2006-03-24 | 2010-06-01 | Nuance Communications, Inc. | Correction of a caption produced by speech recognition |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
-
1992
- 1992-10-28 JP JP28997392A patent/JP3162832B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7729917B2 (en) | 2006-03-24 | 2010-06-01 | Nuance Communications, Inc. | Correction of a caption produced by speech recognition |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP3162832B2 (ja) | 2001-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1246166B1 (en) | Speech recognition based captioning system | |
JP3248981B2 (ja) | 計算機 | |
US6460056B1 (en) | Method and apparatus for displaying sign language images corresponding to input information | |
US4769845A (en) | Method of recognizing speech using a lip image | |
CN1559042A (zh) | 多语言转录系统 | |
JP3384646B2 (ja) | 音声合成装置及び読み上げ時間演算装置 | |
JP4100243B2 (ja) | 映像情報を用いた音声認識装置及び方法 | |
KR100636386B1 (ko) | 실시간 비디오 음성 더빙 장치 및 그 방법 | |
JPH09274428A (ja) | 手話アニメーション生成装置 | |
JP3110215B2 (ja) | 発音訓練装置 | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
KR20180042058A (ko) | 하이브리드 자막 효과 구현 단말 및 방법 | |
JP3162832B2 (ja) | 字幕スーパー画面作成装置 | |
JP3059022B2 (ja) | 動画像表示装置 | |
KR100686085B1 (ko) | 학습기능을 갖는 영상기기 및 그 제어방법 | |
JP3222283B2 (ja) | 案内装置 | |
CN115171645A (zh) | 一种配音方法、装置、电子设备以及存储介质 | |
CN112992116A (zh) | 一种视频内容自动生成方法和系统 | |
JP3830588B2 (ja) | 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 | |
JP4052561B2 (ja) | 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム | |
JP2005309173A (ja) | 音声合成制御装置、その方法、そのプログラムおよび音声合成用データ生成装置 | |
Weiss | A Framework for Data-driven Video-realistic Audio-visual Speech-synthesis. | |
JPH09244682A (ja) | 音声認識・音声合成装置 | |
JP2000358202A (ja) | 映像音声記録再生装置および同装置の副音声データ生成記録方法 | |
JP3292218B2 (ja) | 音声メッセージ作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090223 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100223 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110223 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120223 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130223 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130223 Year of fee payment: 12 |