JPH06141240A

JPH06141240A - 字幕スーパー画面作成方法

Info

Publication number: JPH06141240A
Application number: JP4289973A
Authority: JP
Inventors: Toru Imai; 亨今井; Akio Ando; 彰男安藤; Toshiaki Haraga; 俊朗原賀; Eiichi Miyasaka; 栄一宮坂
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1992-10-28
Filing date: 1992-10-28
Publication date: 1994-05-20
Anticipated expiration: 2016-05-08
Also published as: JP3162832B2

Abstract

(57)【要約】【目的】音声認識を利用することにより、操作に熟練
した者でなくとも、従来のキーボード等による入力より
も容易にしかも迅速に、テレビジョン番組制作時に字幕
スーパー画面を作成する。【構成】テレビジョン番組制作時に特定の複数の話者
が発声した生の音声を、母音系列から仮説を求めるとと
もに、子音の尤度に基づいて最適な仮説を決定するなど
の方法により音声認識処理し、この音声認識処理によっ
て得られる文字列に基づいて、テレビジョン信号として
字幕画面を生成し、この字幕画面と任意の外部映像とを
合成して字幕スーパー画面を作成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テレビジョン番組で使
用される字幕スーパー画面を作成する字幕スーパー画面
作成方法に関する。

【０００２】［発明の概要］本発明はテレビジョン番組
制作時の字幕スーパー画面作成方法に関するもので、音
声認識および字幕スーパーされることを前提として、ア
ナウンサー、出演者、ディレクターなど特定された複数
の話者が発声した生の音声を自動認識し、この認識結果
に基づいて得られる文字列からテレビジョン信号として
字幕画面を生成し、外部映像と合成して字幕スーパー画
面を作成することにより、従来のキーボード等による入
力よりも容易にかつ迅速に字幕スーパー画面を作成でき
るようにするものである。

【０００３】

【従来の技術】従来、テレビジョン番組制作時の字幕ス
ーパー画面は、次の３つの方法で作成されている。

【０００４】１番目の方法は写真技術を使用する方法で
あり、この方法では、写植機で文字を紙の上に印刷し、
それをカメラで撮影した後、この撮影処理によって得ら
れた字幕画面を任意の外部映像と合成して字幕スーパー
画面を作成する。

【０００５】２番目の方法は電子技術を使用する方法で
あり、この方法では、電子文字発生装置と呼ばれるワー
ドプロセッサと同様な装置を用い、この装置に設けられ
たキーボードから文字を入力して内蔵の文字フォントを
呼び出し、この文字フォントを使用して字幕画面用のテ
レビジョン信号を生成し、このテレビジョン信号を任意
の外部映像と合成して字幕スーパー画面を作成する。

【０００６】３番目の方法はプログラム技術を使用する
方法であり、この方法では、パーソナルコンピュータに
予め字幕スーパーしたい文字や図形を表示するプログラ
ムを組んでおき、キーボードのテンキーやタッチパネル
などで字幕画面を呼び出し、この字幕画面を任意の外部
映像と合成して字幕スーパー画面を作成する。

【０００７】

【発明が解決しようとする課題】しかしながら、従来の
各字幕スーパー画面作成方法においては、次に述べるよ
うな問題があった。

【０００８】すなわち、写真技術を使用する方法や電子
技術を使用する方法では、文字を入力するとき、写植機
やワードプロセッサを使用しなければならないので、熟
練したオペレータを養成しなければならず、人員の確保
やコストという点で字幕スーパー画面の作成方法として
適したものではなかった。

【０００９】また、これら写真技術を使用する方法や電
子技術を使用する方法では、文字の入力にある程度の時
間を必要とするため、放送に字幕スーパー画面を利用す
る場合、放送番組の収録前に字幕画面の作成を終えてい
なければならない。

【００１０】また、これら写真技術を使用する方法や電
子技術を使用する方法では、字幕スーパー画面を作成し
た後で、入力した文字を容易に修正することができない
ので、急な変更等に対処し難いという問題があった。

【００１１】また、プログラム技術を使用する方法で
は、放送中でも好みの字幕画面を即座に呼び出せる利点
があるものの、あらかじめ決められた字幕画面しか作成
することができないため、スポーツ番組における選手名
の字幕スーパー等に利用することができるだけで、任意
の文字を組み込んだ字幕スーパー画面の作成に適さない
という問題があった。

【００１２】そこで、このような問題を解決するため、
受像機側でテレビジョン番組中の音声を自動認識し、そ
の認識結果に基づいて字幕スーパー画面を作成する方法
が提案されている。

【００１３】この技術に関連する技術としては、例え
ば、特願昭６０−１０６７７９号に示されている「不特
定話者の音声入力装置を用いたＴＶ・及びモニターディ
スプレイにおける字幕スーパー文字表示システムに関す
る方法」や実願昭６３−１３１２１２号に示されている
音声認識装置を内蔵した「テレビジョン受像機」などが
ある。

【００１４】しかしながら、これらの技術は主に難聴の
視聴者を対象として、受像機側で、放送局から送られて
きたテレビジョン番組中の音声を自動認識し、その認識
結果を受像機上の映像に字幕スーパーする方法であるた
め、次に述べる点から実現が極めて困難であると思われ
る。

【００１５】第１の問題として、ほとんどの場合、放送
局から送られてきたテレビジョン番組中の音声にはＢＧ
Ｍなどの背景音や他の話者の音声が混入しており、特定
の話者の音声を抽出するのは困難である。

【００１６】第２の問題として、放送番組での話者は不
特定多数であることから、このような不特定話者の音声
を確実に認識することは困難である。

【００１７】第３の問題として、放送番組で話される言
葉の語彙数は膨大であり、番組内容、あるいは字幕スー
パーすべき言葉を特定しておかないと、認識すべき語彙
が多すぎて認識辞書が膨大になってしまう。

【００１８】本発明は上記の事情に鑑み、従来のキーボ
ード等による入力よりも容易にかつ迅速に、放送局側で
テレビジョン番組の字幕スーパー画面を作成することが
でき、これによって受像機側で字幕スーパーを作成する
ときに発生する種々の困難をなくすことができる字幕ス
ーパー画面作成方法を提供することを目的としている。

【００１９】

【課題を解決するための手段】上記の目的を達成するた
めに本発明による字幕スーパー画面作成方法は、テレビ
ジョン番組制作時において字幕スーパー画面を作成する
とき、音声認識または字幕スーパーされることを前提と
して、特定の複数の話者が発声した生の音声を音声認識
処理し、この音声認識処理によって得られる文字列に基
づいて、テレビジョン信号として字幕画面を生成するこ
とを特徴としている。

【００２０】

【作用】上記の構成において、音声認識または字幕スー
パーされることを前提として、特定の複数の話者が発声
した生の音声を音声認識処理し、この音声認識処理によ
って得られる文字列に基づいて字幕画面を作成してテレ
ビジョン信号を生成することにより、操作に熟練した者
でなくとも、従来のキーボード等による入力よりも容易
にしかも迅速に、テレビジョン番組制作時に字幕スーパ
ー画面を作成する。

【００２１】

【実施例】図１は本発明による字幕スーパー画面作成方
法の一実施例を適用した字幕スーパー画面作成システム
の一例を示すブロック図である。

【００２２】この図に示す字幕スーパー画面作成システ
ムは、入力された特定話者の音声信号を認識して文字列
データを生成する音声認識部１と、この音声認識部１に
よって生成された文字列データに基づいて字幕画面を作
成するとともに、この字幕画面と外部映像とを合成して
字幕スーパー画面を作成する字幕画面生成部２とを備え
ており、特定話者の音声信号が入力されたとき、この音
声信号を取り込んで音声認識した後、この音声認識処理
によって得られる文字列データに基づいて字幕画面を作
成するとともに、この字幕画面と外部映像と合成して字
幕スーパー画面を作成する。

【００２３】音声認識部１は、図２に示す如くＡ／Ｄ変
換器３と、音響分析部４と、母音認識部５と、子音認識
部６と、認識辞書７と、言語処理部８とを備えており、
音声信号が入力されたとき、この音声信号を取り込んで
デジタル化した後、このデジタル化処理によって得られ
た音声データに基づいて音響特徴量を抽出するととも
に、この音響特徴量に基づいて母音の認識を行い、さら
にこの認識結果に基づいて仮説を生成して各仮説毎に子
音の尤度を求めた後、これらの各尤度に基づいて最適な
仮説を決定し、これを認識結果としてその文字列データ
を字幕画面生成部２に供給する。

【００２４】Ａ／Ｄ変換器３は、マイクロフォンによっ
て収音された音声信号、例えば特定の操作者によって字
幕スーパーしたい単語や文節、あるいは文が読み上げら
れたときの音声信号が供給されたとき、これを取り込ん
で予め設定されているサンプリング周波数、例えば音響
特徴量を抽出するのに十分な１５ｋＨｚのサンプリング
周波数でディジタル化して音声データを生成し、これを
音響分析部４に供給する。

【００２５】音響分析部４は、前記Ａ／Ｄ変換器３から
出力される音声データを取り込むとともに、長さ２０ｍ
ｓのハミング窓を用いて５ｍｓの周期で前記音声データ
をフレームに分割し、この後各フレームの音声データに
対して線形予測分析と零交差波分析とを行って１８次元
のＬＰＣケプストラム係数、零交差数、パワーなどの音
響パラメータを求め、この音響パラメータを母音認識部
５と、子音認識部６とに供給する。

【００２６】母音認識部５は、前記音響分析部４から出
力される音響パラメータを取り込むとともに、この音響
パラメータと予め学習した母音標準パターン、すなわち
認識させたい人の声をあらかじめ集めて学習して得られ
た母音標準パターンや既に学習済みの他の話者の母音標
準パターンを利用して新しい話者に適応化させた母音標
準パターンとを比較し、この比較結果に基づいて前記音
声データ中の母音を検出して入力音声の母音系列データ
を作成し、これを言語処理部８に供給する。

【００２７】また、子音認識部６は、音響分析部４から
出力される音響パラメータを取り込むとともに、あらか
じめ学習済みのＨＭＭ（隠れマルコフモデル）、すなわ
ち認識させたい人の声を予め集めて学習させたり、既に
学習済みの他の話者のＨＭＭを利用し、新しい話者に適
応化させたりして作成されたＨＭＭを用いて、言語処理
部８から出力される各仮説を採用した時の、入力音声を
構成する子音部分の尤度を求め、これを前記言語処理部
８に供給する。

【００２８】また、認識辞書７は、認識対象となる自立
語がテキスト形式で記述されており、これにより言語処
理部８は汎用性の高い文節文法を用いて、各自立語から
構成可能な文節データを全て自動生成することが可能と
なる。

【００２９】言語処理部８は、母音認識部５から出力さ
れる母音系列データを取り込むとともに、この母音系列
データをキーとして認識辞書７を検索して前記母音系列
データを含む単語データあるいは文節データを読み出
し、これら単語データあるいは文節データに基づいて前
記母音系列データ中の不確かな母音を他の母音と入れ替
えたり、削除したり、新たな母音を挿入するなどして、
いくつかの候補を仮説として生成し、これを子音認識部
６に供給する。そして、この子音認識部６から各仮説の
尤度データ（確からしさを示すデータ）が出力されたと
き、この尤度データと、前記母音認識部５から出力され
た母音系列データとを統合し、各仮説と入力音声の近さ
を求め、最も近い仮説を認識結果としてその文字列デー
タを字幕画面生成部２に供給する。

【００３０】字幕画面生成部２は、図３に示す如く文字
フォントファイル１０と、文字列／字幕画面変換部１１
と、ビデオＲＡＭ１２と、スキャンコンバータ１３と、
合成部１４とを備えており、前記音声認識部１から出力
される文字列データを取り込むとともに、この文字列デ
ータに基づいて文字フォントファイル１０をアクセスし
て文字フォント情報を取り込んで字幕画面を作成した
後、これをテレビジョン映像信号に変換して外部からの
映像（外部映像）と合成して字幕スーパー画面を作成す
る。

【００３１】文字フォントファイル１０は、字幕画面で
使用される各文字のフォント情報が格納されており、前
記文字列／字幕画面変換部１１からの読出し指令に応じ
て指定された文字のフォント情報を読み出しこれを文字
列／字幕画面変換部１１に供給する。

【００３２】文字列／字幕画面変換部１１は、前記音声
認識部１から出力される文字列データを取り込むととも
に、この文字列データを構成する各文字コードに基づい
て前記各文字フォントファイル１０をアクセスして前記
各文字コードに対応する文字フォント情報を読み出して
これを画面上の最適な位置に並べて字幕画面データを作
成し、これをビデオＲＡＭ１２に供給する。

【００３３】ビデオＲＡＭ１２は、前記文字列／字幕画
面変換部１１から出力される字幕画面データを取り込ん
で、これを記憶し、前記スキャンコンバータ１３から読
出し指令が出力されたとき、記憶している字幕画面デー
タを読出してスキャンコンバータ１３に供給する。

【００３４】スキャンコンバータ１３は、前記ビデオＲ
ＡＭ１２から出力される字幕画面データを取り込むとと
もに、この字幕画面データを指定された規格、例えばＮ
ＴＳＣ、ＰＡＬ、ＳＥＣＡＭ、ＨＤＴＶなどの規格のテ
レビジョン映像信号に変換してこれを合成部１４に供給
する。

【００３５】合成部１４は、前記スキャンコンバータ１
３から出力されるテレビジョン映像信号と外部から供給
される映像信号（外部映像信号）とを合成して字幕スー
パー画面を作成して出力する。

【００３６】そして、この実施例の音声認識率を測定す
るため、上述した音声認識部１を実現する実際のハード
ウェアとして図４に示す構成の回路を作成した。

【００３７】この図に示す回路は、Ａ／Ｄ変換を行なう
Ａ／Ｄ変換器３と、並列処理用プロセッサによって構成
される９個のトランスピュータ２０〜２８と、制御用の
トランスピュータ２０の記憶装置として使用されるディ
スク装置２９とによって構成されている。

【００３８】そして、制御用のトランスピュータ２０
は、前記母音認識部５の処理および全トランスピュータ
２１〜２８の制御、字幕画面生成部２とのデータの受け
渡しを行い、また各トランスピュータ２１〜２４は前記
音響分析部４の処理を行う。

【００３９】この場合、これら各トランスピュータ２１
〜２４のうち、トランスピュータ２１は入力された音声
データの偶数フレームの音響分析を行い、トランスピュ
ータ２２はトランスピュータ２１で得られたＬＰＣケプ
ストラム係数のベクトル量子化を行う。トランスピュー
タ２３は入力された音声データの奇数フレームの音響分
析を行い、トランスピュータ２４はトランスピュータ２
３で得られたＬＰＣケプストラム係数のベクトル量子化
を行う。

【００４０】また、トランスピュータ２５〜２８は、そ
れぞれが異なる仮説生成の方法により、前記言語処理部
８および前記子音認識部６の処理を行う。

【００４１】また、ディスク装置２９は、前記認識辞書
７で使用される自立語をテキスト形式で格納する記憶エ
リアとして使用される。

【００４２】そして、この回路を使用して実際の音声信
号に対し、その音声認識率を実験したところ、次に述べ
るような顕著な結果を得ることができた。

【００４３】すなわち、テレビジョン番組中の大相撲番
組を対象として、取り組み力士名や決まり手に関する文
をアナウンサーに発声させ、このとき得られた音声信号
に基づいて字幕スーパー画面を作成させた。

【００４４】その結果、アナウンサーが発声した文が
「貴花田と、小錦の、取り組み」、「ただ今の取り組み
は、貴花田が、寄り切りで勝ちました」のようにほぼ文
節単位で区切られた文であるとき、９８％の文節認識率
を得ることができ、また１００％の文認識率を得ること
ができた。

【００４５】また、このとき、処理に要した時間もほぼ
実時間と一致し、実用上何ら問題なく使用できることが
確認できた。

【００４６】このようにこの実施例においては、テレビ
ジョン番組制作時に発声される特定の複数の話者の音声
を認識対象としており、音声認識処理方法として母音系
列を使用して各仮説を求め、これらの各仮説に対する子
音の尤度を用いて音声信号の文字列を求める方法を使用
するようにしているので、入力された音声を確実に認識
することができ、これによって従来のキーボード等によ
る入力よりも容易にかつ迅速に、放送局側でテレビジョ
ン番組の字幕スーパー画面を作成することができ、この
結果受像機側で字幕スーパーを作成するときに発生する
種々の困難をなくすことができる。

【００４７】また、上述した実施例においては、音声認
識部１を構成する音響分析部４は、長さ２０ｍｓのハミ
ング窓を用いて５ｍｓの周期で前記音声データをフレー
ムに分割した後、各フレームの音声データに対して線形
予測分析と零交差波分析とを行って１８次元のＬＰＣケ
プストラム係数、零交差数、パワーなどの音響パラメー
タを求める音響分析手法を使用しているが、このような
音響分析手法以外にも、例えばＦＦＴ分析などの周波数
スペクトラム分析や他の手法を使用するようにしても良
い。

【００４８】また、上述した実施例においては、音声認
識部１を構成する母音認識部５および、子音認識部６の
音声認識処理方法として母音標準パターンおよびＨＭＭ
（隠れマルコフモデル）を使用するようにしているが、
このような音声認識方法のみならず、例えばＤＰマッチ
ングやニューラルネットなどを利用した音声認識方法を
使用するようにしても良い。

【００４９】

【発明の効果】以上説明したように本発明によれば、音
声認識を利用することにより、操作に熟練した者でなく
とも、従来のキーボード等による入力よりも容易にしか
も迅速に、テレビジョン番組制作時に字幕スーパー画面
を作成することができる。

【図面の簡単な説明】

【図１】本発明による字幕スーパー画面作成方法の一実
施例を適用した字幕スーパー画面作成システムの一例を
示すブロック図である。

【図２】図１に示す音声認識部の詳細な回路構成例を示
すブロック図である。

【図３】図１に示す字幕画面生成部の詳細な回路構成例
を示すブロック図である。

【図４】図２に示す音声認識部の具体的なハードウェア
構成例を示すブロック図である。

【符号の説明】

１音声認識部２字幕画面生成部３Ａ／Ｄ変換器４音響分析部５母音認識部６子音認識部７認識辞書８言語処理部１０文字フォントファイル１１文字列／字幕画面変換部１２ビデオＲＡＭ１３スキャンコンバータ１４合成部２０〜２８トランスピュータ２９ディスク装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者宮坂栄一東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内

Claims

【特許請求の範囲】

【請求項１】テレビジョン番組制作時に字幕スーパー
画面を作成する方法であって、音声認識または字幕スーパーされることを前提として、
特定の複数の話者が発声した生の音声を音声認識処理
し、この音声認識処理によって得られる文字列に基づいて、
テレビジョン信号として字幕画面を生成する、ことを特徴とする字幕スーパー画面作成方法。