JP6268131B2 - 字幕制作装置および字幕制作方法 - Google Patents

字幕制作装置および字幕制作方法 Download PDF

Info

Publication number
JP6268131B2
JP6268131B2 JP2015162801A JP2015162801A JP6268131B2 JP 6268131 B2 JP6268131 B2 JP 6268131B2 JP 2015162801 A JP2015162801 A JP 2015162801A JP 2015162801 A JP2015162801 A JP 2015162801A JP 6268131 B2 JP6268131 B2 JP 6268131B2
Authority
JP
Japan
Prior art keywords
voice
subtitle
text
audio
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015162801A
Other languages
English (en)
Other versions
JP2017040806A (ja
Inventor
和利 渕上
和利 渕上
弘幸 勝見
弘幸 勝見
進一 渡辺
進一 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faith Inc
Original Assignee
Faith Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Faith Inc filed Critical Faith Inc
Priority to JP2015162801A priority Critical patent/JP6268131B2/ja
Publication of JP2017040806A publication Critical patent/JP2017040806A/ja
Application granted granted Critical
Publication of JP6268131B2 publication Critical patent/JP6268131B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声から字幕を制作する技術に関する。
近年、地上波放送、BS放送、CS放送などのテレビ放送において難聴者用字幕放送が実施されている。特にニュースやスポーツ中継など生放送に付与するリアルタイム字幕においては、現在の字幕制作手法では熟練者がキーボードを用いて即時入力する方法が主流となっている。これは、放送またはスタジオの音声を聴きながら、話している内容をオペレータが即座にキーボードで入力し、文字にしていく作業である。このような字幕制作には熟練した専門オペレータが複数人必要であり、字幕制作にかかる費用の低減が課題となっている。
特開2001−142482号公報 特開2006−119534号公報
即時入力手法では、数人のオペレータが、流れてくる音声を時系列で複数人で手分けして順番にキーボード入力していく。しかし、キーボードによる即時入力(速記)には熟練したスキルが求められるため、オペレータを長期間にわたって訓練する必要があり、投資が必要になる。また、複数人で順番に入力するため、オペレータ同士で阿吽の呼吸が必要であることも長期間の訓練を要する要因であり、オペレータのスキルに対する対価が要求される。
キーボード入力以外の方法として音声認識を用いたテキスト化技術もあるが、音声認識の認識率が100%ではなく、音声認識結果の修正にスピードが要求される。
即時入力手法であれ、音声認識を用いたテキスト化手法であれ、特殊技術であるためにオペレータの人手不足の問題があり、また、新たにオペレータを訓練するためにも人材育成費用がかかるため、字幕制作にはコスト高が避けられないのが現状である。
本発明はこうした課題に鑑みてなされたものであり、その目的は、字幕を効率的に制作する技術を提供することにある。
上記課題を解決するために、本発明のある態様の字幕制作装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延部と、字幕テキストの修正者からの指示により、前記遅延部により出力される複数の遅延音声を切り替えて前記修正部に提供する切替部とを備える。
本発明の別の態様もまた、字幕制作装置である。この装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延部と、音声認識された音声を記録した音声ファイルを再生する音声再生部と、字幕テキストの修正者からの指示により、前記遅延部により出力される遅延音声または前記音声再生部により出力される音声ファイルの再生音声のいずれかを切り替えて前記修正部に提供する切替部とを備える。
本発明のさらに別の態様は、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される複数の遅延音声を切り替えて前記修正ステップに提供する切替ステップとを備える。
本発明のさらに別の態様もまた、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延ステップと、音声認識された音声を記録した音声ファイルを再生する音声再生ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される遅延音声または前記音声再生ステップにより出力される音声ファイルの再生音声のいずれかを切り替えて前記修正ステップに提供する切替ステップとを備える。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、字幕を効率的に制作することができる。
第1の実施の形態に係る字幕制作装置の構成図である。 第2の実施の形態に係る字幕制作装置の構成図である。 第3の実施の形態に係る字幕制作装置の構成図である。 図2の遅延部および遅延切替スイッチによって複数の遅延音声が切り替えて出力される様子を模式的に説明する図である。 図2の遅延切替スイッチの構成図である。 図3の字幕制作装置における音声ファイルの同期再生の様子を模式的に説明する図である。
図1は、第1の実施の形態に係る字幕制作装置100の構成図である。
対象音声10は、一般にテレビ放送などの映像を伴う音声である。対象音声10はリスピーク部20に入力されるか、または、そのまま生音声として音声認識部30に入力される。リスピーク部20の構成を設けるかどうかは、リスピーカによるリスピークの必要性に依存する。たとえば、ニュース放送の場合、アナウンサが正確な発声をしている場合は、リスピーク部20の構成を省略して、アナウンサの生音声を音声認識部30に直接入力してもよい。また、予算の関係等でリスピーカをつけられない場合も生音声を音声認識部30に直接入力する。
リスピーク部20では、リスピーカが対象音声10をヘッドホンなどで聴きながら同一内容を適宜区切りながら一定の発話速度で明瞭に復唱する。復唱された音声はマイクに入力される。リスピーク部20は、マイクに入力されたリスピーカの音声を出力し、音声認識部30に供給する。
音声認識部30は、リスピーク音声または生音声を音声認識してテキスト化する。音声認識部30は、パーソナルコンピュータ(PC)上の一般的な音声認識ソフトウェアで構成される(このPCを「PC1」と呼ぶ)。音声認識結果は後段で字幕修正処理にかけられるため、音声認識ソフトウェアは認識率が高くない比較的安価なものであってもよい。音声認識後のテキストはテキスト分割・結合処理部40に入力される。
テキスト分割・結合処理部40では、音声認識後のテキストを字幕の所定の文字数内に収まるように分割したり、結合する処理を行う。また、テキスト分割・結合処理部40において話者によってテキストを色分けする処理を行ってもよい。たとえばメインキャスタとサブキャスタによってテキストの色を異ならせる。
テキストの分割、結合、着色処理は、2台目のPC(「PC2」と呼ぶ)において、音声認識後のテキストをタッチパネルディスプレイなどに表示し、分割担当者がタッチパネル上で分割・結合位置を指示することで行われる。テキスト分割・結合処理部40による分割・結合・着色処理後のテキスト(「字幕テキスト」)は字幕時系列管理部50に入力される。
リスピーク部20におけるリスピーカと、テキスト分割・結合処理部40における分割担当者は、同一人物であってもよい。熟練したリスピーカであれば、リスピークしながら、音声認識後のテキストの分割・結合処理を行うことができるからである。
リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による前処理にかかる時間の合計をP1秒とする。前処理時間P1はあらかじめ計測しておく。
字幕時系列管理部50は、適正な長さに調整された字幕テキストを時系列管理し、複数のキーボード修正部60に順次分配する。
複数のキーボード修正部60は、複数の修正者のそれぞれが利用する端末(「PC3」〜「PCn」と呼ぶ)である。遅延部80は、対象音声10を所定の時間だけ遅延させて出力する。遅延部80は、一般的なアナログ音声遅延装置であり、入力された音声を指定した時間だけ遅延させて出力することができる。ここでは、遅延部80は、前述の前処理時間P1よりも少し長めの時間だけ対象音声10を遅延させて出力する。キーボード修正部60またはヘッドホンには、遅延部80から出力された遅延音声が入力される。
キーボード修正部60において、修正者は音声認識結果の間違いを修正する作業を行う。さらに、修正者は、遅延部80から出力された遅延音声をヘッドホンなどで聞き直しながら字幕テキストを修正する。修正者は自分が担当する字幕テキストの修正が完了次第、修正された字幕テキストを出力する。複数のキーボード修正部60により出力される修正後の字幕テキストは非同期で送出順序制御部70に入力される。
送出順序制御部70は、複数のキーボード修正部60から非同期で供給される字幕テキストの順序を正しく入れ替えて最終的な字幕を放送局に送出する。
字幕時系列管理部50と送出順序制御部70は同一のサーバ(「サーバ1」と呼ぶ)で実行することができる。
本実施の形態の字幕制作装置100では、音声認識ソフトウェアの認識精度が低くても、修正者が遅延された生音声を聞きながら字幕を修正することができる。また、リスピーカは熟練者である必要があるが、修正者は熟練者である必要はない。そのため、字幕制作にかかる総費用を安く抑えることができる。
図2は、第2の実施の形態に係る字幕制作装置110の構成図である。第1の実施の形態の字幕制作装置100と共通する構成については同一符号を付して説明を省略する。図2の字幕制作装置110は、遅延部82および遅延切替スイッチ84の構成が図1の字幕制作装置100とは異なる。
遅延部82は、複数の異なる遅延時間だけ対象音声10を遅延させて複数の遅延音声を出力する。出力された複数の遅延音声は遅延切替スイッチ84に入力される。遅延切替スイッチ84は、複数の遅延音声のいずれかを選択して出力する。選択された遅延音声はキーボード修正部60またはヘッドホンに入力される。
図4は、遅延部82および遅延切替スイッチ84によって複数の遅延音声が切り替えて出力される様子を模式的に説明する図である。
符号200は対象音声10の一区分を示し、ここではA秒の長さである。これはリスピーカが復唱の際に適宜区切る文節である。符号250は、リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による「前処理」にかかる時間を示し、ここではB秒である。
遅延部82は、ここでは、3つの遅延時間D1、D2、D3で生音声を遅延させて出力する。第1の遅延時間D1は、前処理時間Bよりも少し長い時間である。第2の遅延時間D2は第1の遅延時間D1に対象音声10の一区分の時間Aを加算した時間である。第3の遅延時間D3は第2の遅延時間D2に対象音声10の一区分の時間Aを加算した時間である。
遅延切替スイッチ84の第1のスイッチを押し下げすると、生音声を第1の遅延時間D1だけ遅延された遅延音声がA秒間出力される(符号210)。同様に、遅延切替スイッチ84の第2のスイッチ、第3のスイッチを押し下げすると、生音声をそれぞれ第2の遅延時間D2、第3の遅延時間D3だけ遅延させた遅延音声がA秒間出力される(符号220、230)。ただし、遅延切替スイッチ84の第1のスイッチを省略し、第1の遅延時間D1の経過後に1回目の遅延音声がスイッチの押し下げなしに自動的に出力されるようにしてもよい。その場合、修正者がその後、第2のスイッチ、第3のスイッチを押し下げた場合、2回目、3回目の遅延音声が出力される。
図5は、遅延切替スイッチ84の構成図である。遅延切替スイッチ84は遅延音声1〜nの入力を受けて、いずれかの遅延音声を出力する。内部スイッチSW1〜SWn−1が設けられ、すべての内部スイッチSW1〜SWn−1がオフであるなら、遅延音声1が出力され、SW1のみがオンになると遅延音声2が出力され、SW2のみがオンになると遅延音声3が出力され、SWn−1のみがオンになると遅延音声nが出力される。
遅延切替スイッチ84は修正者毎に用意される。修正者はスイッチを操作することによって2回目、3回目の遅延音声を聞き直すことができる。これは、1回目の遅延音声を聞いただけでは字幕の修正が完了しない場合に、聞き漏らした箇所を数回聞き直せるようにしたものである。
遅延切替スイッチ84は、キーボードの特定のキーの押し下げで実現してもよく、キーボードとは別に手元スイッチを設けることで実現してもよい。あるいは、修正者がキーボードから手を離さず、修正速度を確保できるように、フットスイッチやペダルによって実現してもよい。
一例として遅延音声が最大3回まで出力可能な構成を説明したが、一般に遅延音声がn回まで出力可能な構成とすることができる。字幕に修正箇所が少ない場合は、遅延音声を1回聞くだけで修正作業が完了することもある。その場合は、第1の遅延時間D1の遅延音声だけが用いられ、字幕を早く出すことができる。一方、字幕に修正箇所が多い場合、最大n回まで生音声を繰り返し聞くことで字幕の精度を上げることができる。したがって、字幕のスピードと精度をバランス良く高めることができる。
音声認識ソフトウェアの認識率が低い場合や、リスピーカによるリスピーク音声の品質が低い場合、最大n回、生音声を聞くことで字幕の精度を高めることができる。これは言い換えれば、高価な音声認識ソフトウェアを利用したり、熟練したリスピーカを採用しなくても、後処理において字幕の精度を高めることができることを意味し、字幕制作にかかる費用を安く抑えることができる。
図3は、第3の実施の形態に係る字幕制作装置120の構成図である。第1の実施の形態の字幕制作装置100と共通する構成については同一符号を付して説明を省略する。図3の字幕制作装置120は、キーボード修正/音声再生制御部60が音声認識部30により保存された音声ファイル32を再生する構成、音声ミキサ90が音声ファイル32からの再生音声と遅延部80からの遅延生音声を選択して出力する構成が図1の字幕制作装置100とは異なる。
図1の実施の形態1の字幕制作装置100および図2の実施の形態2の字幕制作装置120では、修正者が遅延された生音声を聞いても、生音声は字幕テキストと同期していないため、担当している字幕の前後の不要な音声が入っており、担当字幕の音声位置を探すことになる。これは、字幕テキストの対象となる音声箇所が始まるまで待ったり、再生すると既に対象の音声箇所が始まっているなど不安定さをもたらす要因であり、修正者に時間のロスが発生し、字幕を出すスピードが遅くなる結果となる。そこで、第3の実施の形態の字幕制作装置120では、音声認識部30が音声認識される音声をファイルに保存し、修正者の指示にしたがってキーボード修正/音声再生制御部60が音声ファイルを再生できるようにする。
音声ファイル32は、リスピーカにより復唱された音声を記録したものである(ただし、リスピーカをつけない場合は生音声を記録したものを用いる)。音声認識ソフトウェアが音声認識処理する際に音声を一時的に保存するため、その保存ファイルを音声ファイル32として用いることができる。音声ファイル32の再生を修正者が担当する字幕テキストに同期させるために、音声認識された単語ごとに音声ファイル32においてその単語が発声される位置(開始位置と終了位置)をミリ秒の単位で記録した「音声再生情報」を用いる。この音声再生情報により、字幕の文字列と音声ファイルの再生とを完全に同期させることができる。
音声ファイルの再生を字幕テキストと同期させることができるため、修正者が担当している字幕テキストとは関係のない音声が前後に入ることがない。また音声ファイルであることから容易に何度でも再生することができ、また、再生速度をたとえば1.5倍などに早めて聞くこともできる。
音声ミキサ90は、遅延部80により所定時間だけ遅延された生音声または字幕テキストに同期した音声ファイル32からの再生音声のどちらかに切り替えてキーボード修正部60またはヘッドホンに入力し、修正者のヘッドフォンから出力されるようにする。ここでは、音声ミキサ90はキーボード修正/音声再生制御部60の外部にあるが、音声ミキサ90をキーボード修正/音声再生制御部60内に設けてもよい。
図6は、音声ファイル32の同期再生の様子を模式的に説明する図である。符号200は対象音声10の一区分を示し、ここではA秒の長さである。符号250は、リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による前処理にかかる時間を示し、ここではB秒である。音声ミキサ90により音声ファイル32の再生音声を選択すると、時間P2だけ遅延されて音声ファイル32が再生される(符号241)ここで、P2=A+Bでり、編集中のテキストと完全に同期した音が再生される。音声ファイル32はその後、繰り返し再生可能である(符号242、243)。
音声ミキサ90はスイッチやペダルによる切替部であり、1回目は遅延部80により遅延された生音声が出力されるが、修正者が指示すれば、2回目以降は音声ファイルの再生音声が出力される。修正箇所の少ない簡単な字幕であれば、1回目の遅延音声を聞くだけで修正作業が終わるが、修正箇所の多い複雑な字幕の場合、何回でも音声ファイルを再生して聞くことができる。1回目の遅延音声は、生音声であるのに対して、2回目以降の再生音声は、リスピーカのリスピーク音声であるから、生音声で聞き取りにくい箇所は、リスピーク音声によって正確な内容を把握することができる。
上記の説明では、音声ファイル32はリスピーカにより復唱された音声を記録したものであったが、リスピーク音声ファイルに代えてあるいはリスピーク音声ファイルとともに、リスピーカを通さない生音声を記録した生音声ファイルを生成し、キーボード修正/音声再生制御部60が生音声ファイルを再生して音声ミキサ90に提供する構成にしてもよい。生音声ファイルは、リスピーク音声ファイルと違って字幕テキストと同期はしないが、リスピーク音声の品質が良くない場合は、修正者は、リスピーク音声からテキスト化された字幕を編集しながら、生音声ファイルを再生して生音声を聞き直すことで字幕の精度を高めることができる。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
送出順序制御部70により送出された字幕テキストを結合して文章を生成し、その文章を自動翻訳ソフトウェアにより別の言語に自動翻訳することにより、リアルタイムで多言語の字幕放送を実現することもできる。
上記の実施の形態の字幕制作装置は、放送された番組の音声をもとにリアルタイムで字幕を生成したが、録画された番組をもとに字幕を生成する場合にも上記の実施の形態の字幕制作装置を用いることができる。
10 対象音声、 20 リスピーク部、 30 音声認識部、 40 テキスト分割・結合処理部、 50 字幕時系列管理部、 60 キーボード修正部、 70 送出順序制御部、 80 遅延部、 82 遅延部、 84 遅延切替スイッチ、 90 音声ミキサ、 100、110、120 字幕制作装置。

Claims (3)

  1. 対象音声または対象音声を復唱したリスピーク音声を音声認識してテキストに変換するとともに音声認識された前記対象音声または音声認識された前記リスピーク音声を音声ファイルとして記録し、音声認識単位ごとに前記音声ファイルにおいて当該音声認識単位が発声される開始位置と終了位置を音声再生情報として記録する音声認識部と、
    音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、
    分割処理された字幕テキストを時系列管理し、複数の修正者に順次分配するために複数の修正者の各々が担当する担当字幕テキストを決定する字幕時系列管理部と、
    前記字幕時系列管理部から分配される複数の修正者の各々が担当する担当字幕テキストを受け取り、複数の修正者の各々により修正された担当字幕テキストを非同期で出力する複数の修正部と、
    前記複数の修正部から非同期で供給される修正後の担当字幕テキストの順序を入れ替えて最終的な字幕を送出する送出順序制御部と、
    対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延部と、
    前記音声再生情報にもとづいて前記複数の修正者の各々が担当する前記担当字幕テキストの文字列と同期させて、前記対象音声/前記リスピーク音声を記録した音声ファイルを再生する音声再生部と、
    前記担当字幕テキストの修正を担当する前記複数の修正者の各々からの指示により、前記遅延部により出力される遅延音声または前記音声再生部により出力される音声ファイルを再生した前記担当字幕テキストの文字列と同期した対象音声/リスピーク音声のいずれかを切り替えて前記複数の修正者の各々が着用するヘッドホンに提供する切替部とを備え、
    前記切替部は、1回目は前記遅延音声を前記ヘッドホンに出力し、2回目以降は音声ファイルを再生した前記担当字幕テキストの文字列と同期した前記対象音声/前記リスピーク音声を前記ヘッドホンに出力することを特徴とする字幕制作装置。
  2. 前記切替部は、対象音声から字幕テキストが生成されるまでにかかる時間に応じた所定の時間だけ対象音声を遅延させた最初の遅延音声を、字幕テキストの修正者からの指示によらずに自動的に出力することを特徴とする請求項1に記載の字幕制作装置。
  3. 対象音声または対象音声を復唱したリスピーク音声を音声認識してテキストに変換するとともに音声認識された前記対象音声または音声認識された前記リスピーク音声を音声ファイルとして記録し、音声認識単位ごとに前記音声ファイルにおいて当該音声認識単位が発声される開始位置と終了位置を音声再生情報として記録する音声認識ステップと、
    音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、
    分割処理された字幕テキストを時系列管理し、複数の修正者に順次分配するために複数の修正者の各々が担当する担当字幕テキストを決定する字幕時系列管理ステップと、
    前記字幕時系列管理ステップから分配される複数の修正者の各々が担当する担当字幕テキストを受け取り、複数の修正者の各々により修正された担当字幕テキストを非同期で出力する複数の修正ステップと、
    前記複数の修正ステップから非同期で供給される修正後の担当字幕テキストの順序を入れ替えて最終的な字幕を送出する送出順序制御ステップと、
    対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延ステップと、
    前記音声再生情報にもとづいて前記複数の修正者の各々が担当する前記担当字幕テキストの文字列と同期させて、前記対象音声/前記リスピーク音声を記録した音声ファイルを再生する音声再生ステップと、
    前記担当字幕テキストの修正を担当する前記複数の修正者の各々からの指示により、前記遅延ステップにより出力される遅延音声または前記音声再生ステップにより出力される音声ファイルを再生した前記担当字幕テキストの文字列と同期した対象音声/リスピーク音声のいずれかを切り替えて前記複数の修正者の各々が着用するヘッドホンに提供する切替ステップとを備え、
    前記切替ステップは、1回目は前記遅延音声を前記ヘッドホンに出力し、2回目以降は音声ファイルを再生した前記担当字幕テキストの文字列と同期した前記対象音声/前記リスピーク音声を前記ヘッドホンに出力することを特徴とする字幕制作装置によって実行される字幕制作方法。
JP2015162801A 2015-08-20 2015-08-20 字幕制作装置および字幕制作方法 Active JP6268131B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015162801A JP6268131B2 (ja) 2015-08-20 2015-08-20 字幕制作装置および字幕制作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015162801A JP6268131B2 (ja) 2015-08-20 2015-08-20 字幕制作装置および字幕制作方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017247280A Division JP6485977B2 (ja) 2017-12-25 2017-12-25 字幕制作装置および字幕制作方法

Publications (2)

Publication Number Publication Date
JP2017040806A JP2017040806A (ja) 2017-02-23
JP6268131B2 true JP6268131B2 (ja) 2018-01-24

Family

ID=58202908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015162801A Active JP6268131B2 (ja) 2015-08-20 2015-08-20 字幕制作装置および字幕制作方法

Country Status (1)

Country Link
JP (1) JP6268131B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109495792A (zh) * 2018-11-30 2019-03-19 北京字节跳动网络技术有限公司 一种视频的字幕添加方法、装置、电子设备及可读介质
KR102185183B1 (ko) * 2019-04-24 2020-12-01 주식회사 한국스테노 방송 자막 제작 시스템
KR102135643B1 (ko) * 2019-09-04 2020-07-20 (주) 소프트기획 음성인식 엔진을 이용한 실시간 지능형 자막화 서비스 제공 시스템
CN113066498B (zh) * 2021-03-23 2022-12-30 上海掌门科技有限公司 信息处理方法、设备和介质
JP7288530B1 (ja) 2022-03-09 2023-06-07 陸 荒川 システムおよびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3969570B2 (ja) * 2002-02-18 2007-09-05 独立行政法人情報通信研究機構 逐次自動字幕制作処理システム
JP3986015B2 (ja) * 2003-01-27 2007-10-03 日本放送協会 音声認識誤り修正装置、音声認識誤り修正方法および音声認識誤り修正プログラム
JP3859612B2 (ja) * 2003-04-10 2006-12-20 株式会社アドバンスト・メディア 会議録音・書き起こしシステム

Also Published As

Publication number Publication date
JP2017040806A (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
JP6268131B2 (ja) 字幕制作装置および字幕制作方法
US10930300B2 (en) Automated transcript generation from multi-channel audio
US20060285654A1 (en) System and method for performing automatic dubbing on an audio-visual stream
US6500006B2 (en) Learning and entertainment device, method and system and storage media thereof
CA2477697C (en) Methods and apparatus for use in sound replacement with automatic synchronization to images
TWI470588B (zh) 用於對失聰者將口語轉譯成手語的系統
JP6485977B2 (ja) 字幕制作装置および字幕制作方法
KR100240637B1 (ko) 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US20120105719A1 (en) Speech substitution of a real-time multimedia presentation
CA3065364C (en) System and method for providing descriptive video
WO2018216729A1 (ja) 音声ガイド生成装置、音声ガイド生成方法及び放送システム
JP2008546016A (ja) マルチメディア信号で自動的なダビングを実行する方法及び装置
US20150098018A1 (en) Techniques for live-writing and editing closed captions
EP3224834B1 (en) Apparatus and method for generating visual content from an audio signal
JP4594908B2 (ja) 解説付加音声生成装置及び解説付加音声生成プログラム
Huwiler A Narratology of Audio Art: Telling Stories by Sound¹
KR101944365B1 (ko) 콘텐츠 싱크 생성 방법, 그 장치 및 이를 위한 인터페이스 모듈
JP5727777B2 (ja) 会議支援装置および会議支援方法
Simon et al. MPEG-H Audio for Improving Accessibility in Broadcasting and Streaming
Trmal et al. Online TV captioning of Czech parliamentary sessions
KR102463283B1 (ko) 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템
JP2008154258A (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JPH11212438A (ja) 学習装置、発音練習装置、その方法および記録媒体
JP2004240920A (ja) 校正システム
Faria et al. An Overview of Audio Technologies, Immersion and Personalization Features envisaged for the TV3. 0

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

R150 Certificate of patent or registration of utility model

Ref document number: 6268131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250