JP6268131B2

JP6268131B2 - 字幕制作装置および字幕制作方法

Info

Publication number: JP6268131B2
Application number: JP2015162801A
Authority: JP
Inventors: 和利渕上; 弘幸勝見; 進一渡辺
Original assignee: Faith Inc
Current assignee: Faith Inc
Priority date: 2015-08-20
Filing date: 2015-08-20
Publication date: 2018-01-24
Anticipated expiration: 2035-08-20
Also published as: JP2017040806A

Description

この発明は、音声から字幕を制作する技術に関する。

近年、地上波放送、ＢＳ放送、ＣＳ放送などのテレビ放送において難聴者用字幕放送が実施されている。特にニュースやスポーツ中継など生放送に付与するリアルタイム字幕においては、現在の字幕制作手法では熟練者がキーボードを用いて即時入力する方法が主流となっている。これは、放送またはスタジオの音声を聴きながら、話している内容をオペレータが即座にキーボードで入力し、文字にしていく作業である。このような字幕制作には熟練した専門オペレータが複数人必要であり、字幕制作にかかる費用の低減が課題となっている。

特開２００１−１４２４８２号公報特開２００６−１１９５３４号公報

即時入力手法では、数人のオペレータが、流れてくる音声を時系列で複数人で手分けして順番にキーボード入力していく。しかし、キーボードによる即時入力（速記）には熟練したスキルが求められるため、オペレータを長期間にわたって訓練する必要があり、投資が必要になる。また、複数人で順番に入力するため、オペレータ同士で阿吽の呼吸が必要であることも長期間の訓練を要する要因であり、オペレータのスキルに対する対価が要求される。

キーボード入力以外の方法として音声認識を用いたテキスト化技術もあるが、音声認識の認識率が１００％ではなく、音声認識結果の修正にスピードが要求される。

即時入力手法であれ、音声認識を用いたテキスト化手法であれ、特殊技術であるためにオペレータの人手不足の問題があり、また、新たにオペレータを訓練するためにも人材育成費用がかかるため、字幕制作にはコスト高が避けられないのが現状である。

本発明はこうした課題に鑑みてなされたものであり、その目的は、字幕を効率的に制作する技術を提供することにある。

上記課題を解決するために、本発明のある態様の字幕制作装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延部と、字幕テキストの修正者からの指示により、前記遅延部により出力される複数の遅延音声を切り替えて前記修正部に提供する切替部とを備える。

本発明の別の態様もまた、字幕制作装置である。この装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延部と、音声認識された音声を記録した音声ファイルを再生する音声再生部と、字幕テキストの修正者からの指示により、前記遅延部により出力される遅延音声または前記音声再生部により出力される音声ファイルの再生音声のいずれかを切り替えて前記修正部に提供する切替部とを備える。

本発明のさらに別の態様は、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される複数の遅延音声を切り替えて前記修正ステップに提供する切替ステップとを備える。

本発明のさらに別の態様もまた、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延ステップと、音声認識された音声を記録した音声ファイルを再生する音声再生ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される遅延音声または前記音声再生ステップにより出力される音声ファイルの再生音声のいずれかを切り替えて前記修正ステップに提供する切替ステップとを備える。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、字幕を効率的に制作することができる。

第１の実施の形態に係る字幕制作装置の構成図である。第２の実施の形態に係る字幕制作装置の構成図である。第３の実施の形態に係る字幕制作装置の構成図である。図２の遅延部および遅延切替スイッチによって複数の遅延音声が切り替えて出力される様子を模式的に説明する図である。図２の遅延切替スイッチの構成図である。図３の字幕制作装置における音声ファイルの同期再生の様子を模式的に説明する図である。

図１は、第１の実施の形態に係る字幕制作装置１００の構成図である。

対象音声１０は、一般にテレビ放送などの映像を伴う音声である。対象音声１０はリスピーク部２０に入力されるか、または、そのまま生音声として音声認識部３０に入力される。リスピーク部２０の構成を設けるかどうかは、リスピーカによるリスピークの必要性に依存する。たとえば、ニュース放送の場合、アナウンサが正確な発声をしている場合は、リスピーク部２０の構成を省略して、アナウンサの生音声を音声認識部３０に直接入力してもよい。また、予算の関係等でリスピーカをつけられない場合も生音声を音声認識部３０に直接入力する。

リスピーク部２０では、リスピーカが対象音声１０をヘッドホンなどで聴きながら同一内容を適宜区切りながら一定の発話速度で明瞭に復唱する。復唱された音声はマイクに入力される。リスピーク部２０は、マイクに入力されたリスピーカの音声を出力し、音声認識部３０に供給する。

音声認識部３０は、リスピーク音声または生音声を音声認識してテキスト化する。音声認識部３０は、パーソナルコンピュータ（ＰＣ）上の一般的な音声認識ソフトウェアで構成される（このＰＣを「ＰＣ１」と呼ぶ）。音声認識結果は後段で字幕修正処理にかけられるため、音声認識ソフトウェアは認識率が高くない比較的安価なものであってもよい。音声認識後のテキストはテキスト分割・結合処理部４０に入力される。

テキスト分割・結合処理部４０では、音声認識後のテキストを字幕の所定の文字数内に収まるように分割したり、結合する処理を行う。また、テキスト分割・結合処理部４０において話者によってテキストを色分けする処理を行ってもよい。たとえばメインキャスタとサブキャスタによってテキストの色を異ならせる。

テキストの分割、結合、着色処理は、２台目のＰＣ（「ＰＣ２」と呼ぶ）において、音声認識後のテキストをタッチパネルディスプレイなどに表示し、分割担当者がタッチパネル上で分割・結合位置を指示することで行われる。テキスト分割・結合処理部４０による分割・結合・着色処理後のテキスト（「字幕テキスト」）は字幕時系列管理部５０に入力される。

リスピーク部２０におけるリスピーカと、テキスト分割・結合処理部４０における分割担当者は、同一人物であってもよい。熟練したリスピーカであれば、リスピークしながら、音声認識後のテキストの分割・結合処理を行うことができるからである。

リスピーク部２０、音声認識部３０、およびテキスト分割・結合処理部４０による前処理にかかる時間の合計をＰ１秒とする。前処理時間Ｐ１はあらかじめ計測しておく。

字幕時系列管理部５０は、適正な長さに調整された字幕テキストを時系列管理し、複数のキーボード修正部６０に順次分配する。

複数のキーボード修正部６０は、複数の修正者のそれぞれが利用する端末（「ＰＣ３」〜「ＰＣｎ」と呼ぶ）である。遅延部８０は、対象音声１０を所定の時間だけ遅延させて出力する。遅延部８０は、一般的なアナログ音声遅延装置であり、入力された音声を指定した時間だけ遅延させて出力することができる。ここでは、遅延部８０は、前述の前処理時間Ｐ１よりも少し長めの時間だけ対象音声１０を遅延させて出力する。キーボード修正部６０またはヘッドホンには、遅延部８０から出力された遅延音声が入力される。

キーボード修正部６０において、修正者は音声認識結果の間違いを修正する作業を行う。さらに、修正者は、遅延部８０から出力された遅延音声をヘッドホンなどで聞き直しながら字幕テキストを修正する。修正者は自分が担当する字幕テキストの修正が完了次第、修正された字幕テキストを出力する。複数のキーボード修正部６０により出力される修正後の字幕テキストは非同期で送出順序制御部７０に入力される。

送出順序制御部７０は、複数のキーボード修正部６０から非同期で供給される字幕テキストの順序を正しく入れ替えて最終的な字幕を放送局に送出する。

字幕時系列管理部５０と送出順序制御部７０は同一のサーバ（「サーバ１」と呼ぶ）で実行することができる。

本実施の形態の字幕制作装置１００では、音声認識ソフトウェアの認識精度が低くても、修正者が遅延された生音声を聞きながら字幕を修正することができる。また、リスピーカは熟練者である必要があるが、修正者は熟練者である必要はない。そのため、字幕制作にかかる総費用を安く抑えることができる。

図２は、第２の実施の形態に係る字幕制作装置１１０の構成図である。第１の実施の形態の字幕制作装置１００と共通する構成については同一符号を付して説明を省略する。図２の字幕制作装置１１０は、遅延部８２および遅延切替スイッチ８４の構成が図１の字幕制作装置１００とは異なる。

遅延部８２は、複数の異なる遅延時間だけ対象音声１０を遅延させて複数の遅延音声を出力する。出力された複数の遅延音声は遅延切替スイッチ８４に入力される。遅延切替スイッチ８４は、複数の遅延音声のいずれかを選択して出力する。選択された遅延音声はキーボード修正部６０またはヘッドホンに入力される。

図４は、遅延部８２および遅延切替スイッチ８４によって複数の遅延音声が切り替えて出力される様子を模式的に説明する図である。

符号２００は対象音声１０の一区分を示し、ここではＡ秒の長さである。これはリスピーカが復唱の際に適宜区切る文節である。符号２５０は、リスピーク部２０、音声認識部３０、およびテキスト分割・結合処理部４０による「前処理」にかかる時間を示し、ここではＢ秒である。

遅延部８２は、ここでは、３つの遅延時間Ｄ１、Ｄ２、Ｄ３で生音声を遅延させて出力する。第１の遅延時間Ｄ１は、前処理時間Ｂよりも少し長い時間である。第２の遅延時間Ｄ２は第１の遅延時間Ｄ１に対象音声１０の一区分の時間Ａを加算した時間である。第３の遅延時間Ｄ３は第２の遅延時間Ｄ２に対象音声１０の一区分の時間Ａを加算した時間である。

遅延切替スイッチ８４の第１のスイッチを押し下げすると、生音声を第１の遅延時間Ｄ１だけ遅延された遅延音声がＡ秒間出力される（符号２１０）。同様に、遅延切替スイッチ８４の第２のスイッチ、第３のスイッチを押し下げすると、生音声をそれぞれ第２の遅延時間Ｄ２、第３の遅延時間Ｄ３だけ遅延させた遅延音声がＡ秒間出力される（符号２２０、２３０）。ただし、遅延切替スイッチ８４の第１のスイッチを省略し、第１の遅延時間Ｄ１の経過後に１回目の遅延音声がスイッチの押し下げなしに自動的に出力されるようにしてもよい。その場合、修正者がその後、第２のスイッチ、第３のスイッチを押し下げた場合、２回目、３回目の遅延音声が出力される。

図５は、遅延切替スイッチ８４の構成図である。遅延切替スイッチ８４は遅延音声１〜ｎの入力を受けて、いずれかの遅延音声を出力する。内部スイッチＳＷ１〜ＳＷｎ−１が設けられ、すべての内部スイッチＳＷ１〜ＳＷｎ−１がオフであるなら、遅延音声１が出力され、ＳＷ１のみがオンになると遅延音声２が出力され、ＳＷ２のみがオンになると遅延音声３が出力され、ＳＷｎ−１のみがオンになると遅延音声ｎが出力される。

遅延切替スイッチ８４は修正者毎に用意される。修正者はスイッチを操作することによって２回目、３回目の遅延音声を聞き直すことができる。これは、１回目の遅延音声を聞いただけでは字幕の修正が完了しない場合に、聞き漏らした箇所を数回聞き直せるようにしたものである。

遅延切替スイッチ８４は、キーボードの特定のキーの押し下げで実現してもよく、キーボードとは別に手元スイッチを設けることで実現してもよい。あるいは、修正者がキーボードから手を離さず、修正速度を確保できるように、フットスイッチやペダルによって実現してもよい。

一例として遅延音声が最大３回まで出力可能な構成を説明したが、一般に遅延音声がｎ回まで出力可能な構成とすることができる。字幕に修正箇所が少ない場合は、遅延音声を１回聞くだけで修正作業が完了することもある。その場合は、第１の遅延時間Ｄ１の遅延音声だけが用いられ、字幕を早く出すことができる。一方、字幕に修正箇所が多い場合、最大ｎ回まで生音声を繰り返し聞くことで字幕の精度を上げることができる。したがって、字幕のスピードと精度をバランス良く高めることができる。

音声認識ソフトウェアの認識率が低い場合や、リスピーカによるリスピーク音声の品質が低い場合、最大ｎ回、生音声を聞くことで字幕の精度を高めることができる。これは言い換えれば、高価な音声認識ソフトウェアを利用したり、熟練したリスピーカを採用しなくても、後処理において字幕の精度を高めることができることを意味し、字幕制作にかかる費用を安く抑えることができる。

図３は、第３の実施の形態に係る字幕制作装置１２０の構成図である。第１の実施の形態の字幕制作装置１００と共通する構成については同一符号を付して説明を省略する。図３の字幕制作装置１２０は、キーボード修正／音声再生制御部６０が音声認識部３０により保存された音声ファイル３２を再生する構成、音声ミキサ９０が音声ファイル３２からの再生音声と遅延部８０からの遅延生音声を選択して出力する構成が図１の字幕制作装置１００とは異なる。

図１の実施の形態１の字幕制作装置１００および図２の実施の形態２の字幕制作装置１２０では、修正者が遅延された生音声を聞いても、生音声は字幕テキストと同期していないため、担当している字幕の前後の不要な音声が入っており、担当字幕の音声位置を探すことになる。これは、字幕テキストの対象となる音声箇所が始まるまで待ったり、再生すると既に対象の音声箇所が始まっているなど不安定さをもたらす要因であり、修正者に時間のロスが発生し、字幕を出すスピードが遅くなる結果となる。そこで、第３の実施の形態の字幕制作装置１２０では、音声認識部３０が音声認識される音声をファイルに保存し、修正者の指示にしたがってキーボード修正／音声再生制御部６０が音声ファイルを再生できるようにする。

音声ファイル３２は、リスピーカにより復唱された音声を記録したものである（ただし、リスピーカをつけない場合は生音声を記録したものを用いる）。音声認識ソフトウェアが音声認識処理する際に音声を一時的に保存するため、その保存ファイルを音声ファイル３２として用いることができる。音声ファイル３２の再生を修正者が担当する字幕テキストに同期させるために、音声認識された単語ごとに音声ファイル３２においてその単語が発声される位置（開始位置と終了位置）をミリ秒の単位で記録した「音声再生情報」を用いる。この音声再生情報により、字幕の文字列と音声ファイルの再生とを完全に同期させることができる。

音声ファイルの再生を字幕テキストと同期させることができるため、修正者が担当している字幕テキストとは関係のない音声が前後に入ることがない。また音声ファイルであることから容易に何度でも再生することができ、また、再生速度をたとえば１．５倍などに早めて聞くこともできる。

音声ミキサ９０は、遅延部８０により所定時間だけ遅延された生音声または字幕テキストに同期した音声ファイル３２からの再生音声のどちらかに切り替えてキーボード修正部６０またはヘッドホンに入力し、修正者のヘッドフォンから出力されるようにする。ここでは、音声ミキサ９０はキーボード修正／音声再生制御部６０の外部にあるが、音声ミキサ９０をキーボード修正／音声再生制御部６０内に設けてもよい。

図６は、音声ファイル３２の同期再生の様子を模式的に説明する図である。符号２００は対象音声１０の一区分を示し、ここではＡ秒の長さである。符号２５０は、リスピーク部２０、音声認識部３０、およびテキスト分割・結合処理部４０による前処理にかかる時間を示し、ここではＢ秒である。音声ミキサ９０により音声ファイル３２の再生音声を選択すると、時間Ｐ２だけ遅延されて音声ファイル３２が再生される（符号２４１）ここで、Ｐ２＝Ａ＋Ｂでり、編集中のテキストと完全に同期した音が再生される。音声ファイル３２はその後、繰り返し再生可能である（符号２４２、２４３）。

音声ミキサ９０はスイッチやペダルによる切替部であり、１回目は遅延部８０により遅延された生音声が出力されるが、修正者が指示すれば、２回目以降は音声ファイルの再生音声が出力される。修正箇所の少ない簡単な字幕であれば、１回目の遅延音声を聞くだけで修正作業が終わるが、修正箇所の多い複雑な字幕の場合、何回でも音声ファイルを再生して聞くことができる。１回目の遅延音声は、生音声であるのに対して、２回目以降の再生音声は、リスピーカのリスピーク音声であるから、生音声で聞き取りにくい箇所は、リスピーク音声によって正確な内容を把握することができる。

上記の説明では、音声ファイル３２はリスピーカにより復唱された音声を記録したものであったが、リスピーク音声ファイルに代えてあるいはリスピーク音声ファイルとともに、リスピーカを通さない生音声を記録した生音声ファイルを生成し、キーボード修正／音声再生制御部６０が生音声ファイルを再生して音声ミキサ９０に提供する構成にしてもよい。生音声ファイルは、リスピーク音声ファイルと違って字幕テキストと同期はしないが、リスピーク音声の品質が良くない場合は、修正者は、リスピーク音声からテキスト化された字幕を編集しながら、生音声ファイルを再生して生音声を聞き直すことで字幕の精度を高めることができる。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

送出順序制御部７０により送出された字幕テキストを結合して文章を生成し、その文章を自動翻訳ソフトウェアにより別の言語に自動翻訳することにより、リアルタイムで多言語の字幕放送を実現することもできる。

上記の実施の形態の字幕制作装置は、放送された番組の音声をもとにリアルタイムで字幕を生成したが、録画された番組をもとに字幕を生成する場合にも上記の実施の形態の字幕制作装置を用いることができる。

１０対象音声、２０リスピーク部、３０音声認識部、４０テキスト分割・結合処理部、５０字幕時系列管理部、６０キーボード修正部、７０送出順序制御部、８０遅延部、８２遅延部、８４遅延切替スイッチ、９０音声ミキサ、１００、１１０、１２０字幕制作装置。

Claims

対象音声または対象音声を復唱したリスピーク音声を音声認識してテキストに変換するとともに音声認識された前記対象音声または音声認識された前記リスピーク音声を音声ファイルとして記録し、音声認識単位ごとに前記音声ファイルにおいて当該音声認識単位が発声される開始位置と終了位置を音声再生情報として記録する音声認識部と、
音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、
分割処理された字幕テキストを時系列管理し、複数の修正者に順次分配するために複数の修正者の各々が担当する担当字幕テキストを決定する字幕時系列管理部と、
前記字幕時系列管理部から分配される複数の修正者の各々が担当する担当字幕テキストを受け取り、複数の修正者の各々により修正された担当字幕テキストを非同期で出力する複数の修正部と、
前記複数の修正部から非同期で供給される修正後の担当字幕テキストの順序を入れ替えて最終的な字幕を送出する送出順序制御部と、
対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延部と、
前記音声再生情報にもとづいて前記複数の修正者の各々が担当する前記担当字幕テキストの文字列と同期させて、前記対象音声／前記リスピーク音声を記録した音声ファイルを再生する音声再生部と、
前記担当字幕テキストの修正を担当する前記複数の修正者の各々からの指示により、前記遅延部により出力される遅延音声または前記音声再生部により出力される音声ファイルを再生した前記担当字幕テキストの文字列と同期した対象音声／リスピーク音声のいずれかを切り替えて前記複数の修正者の各々が着用するヘッドホンに提供する切替部とを備え、
前記切替部は、１回目は前記遅延音声を前記ヘッドホンに出力し、２回目以降は音声ファイルを再生した前記担当字幕テキストの文字列と同期した前記対象音声／前記リスピーク音声を前記ヘッドホンに出力することを特徴とする字幕制作装置。
前記切替部は、対象音声から字幕テキストが生成されるまでにかかる時間に応じた所定の時間だけ対象音声を遅延させた最初の遅延音声を、字幕テキストの修正者からの指示によらずに自動的に出力することを特徴とする請求項１に記載の字幕制作装置。
対象音声または対象音声を復唱したリスピーク音声を音声認識してテキストに変換するとともに音声認識された前記対象音声または音声認識された前記リスピーク音声を音声ファイルとして記録し、音声認識単位ごとに前記音声ファイルにおいて当該音声認識単位が発声される開始位置と終了位置を音声再生情報として記録する音声認識ステップと、
音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、
分割処理された字幕テキストを時系列管理し、複数の修正者に順次分配するために複数の修正者の各々が担当する担当字幕テキストを決定する字幕時系列管理ステップと、
前記字幕時系列管理ステップから分配される複数の修正者の各々が担当する担当字幕テキストを受け取り、複数の修正者の各々により修正された担当字幕テキストを非同期で出力する複数の修正ステップと、
前記複数の修正ステップから非同期で供給される修正後の担当字幕テキストの順序を入れ替えて最終的な字幕を送出する送出順序制御ステップと、
対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延ステップと、
前記音声再生情報にもとづいて前記複数の修正者の各々が担当する前記担当字幕テキストの文字列と同期させて、前記対象音声／前記リスピーク音声を記録した音声ファイルを再生する音声再生ステップと、
前記担当字幕テキストの修正を担当する前記複数の修正者の各々からの指示により、前記遅延ステップにより出力される遅延音声または前記音声再生ステップにより出力される音声ファイルを再生した前記担当字幕テキストの文字列と同期した対象音声／リスピーク音声のいずれかを切り替えて前記複数の修正者の各々が着用するヘッドホンに提供する切替ステップとを備え、
前記切替ステップは、１回目は前記遅延音声を前記ヘッドホンに出力し、２回目以降は音声ファイルを再生した前記担当字幕テキストの文字列と同期した前記対象音声／前記リスピーク音声を前記ヘッドホンに出力することを特徴とする字幕制作装置によって実行される字幕制作方法。