JP2018045256A - Subtitle production device and subtitle production method - Google Patents
Subtitle production device and subtitle production method Download PDFInfo
- Publication number
- JP2018045256A JP2018045256A JP2017247280A JP2017247280A JP2018045256A JP 2018045256 A JP2018045256 A JP 2018045256A JP 2017247280 A JP2017247280 A JP 2017247280A JP 2017247280 A JP2017247280 A JP 2017247280A JP 2018045256 A JP2018045256 A JP 2018045256A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- audio
- target
- text
- subtitle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Studio Circuits (AREA)
Abstract
Description
この発明は、音声から字幕を制作する技術に関する。 The present invention relates to a technique for producing subtitles from audio.
近年、地上波放送、BS放送、CS放送などのテレビ放送において難聴者用字幕放送が実施されている。特にニュースやスポーツ中継など生放送に付与するリアルタイム字幕においては、現在の字幕制作手法では熟練者がキーボードを用いて即時入力する方法が主流となっている。これは、放送またはスタジオの音声を聴きながら、話している内容をオペレータが即座にキーボードで入力し、文字にしていく作業である。このような字幕制作には熟練した専門オペレータが複数人必要であり、字幕制作にかかる費用の低減が課題となっている。 In recent years, subtitle broadcasting for hearing-impaired people has been implemented in television broadcasting such as terrestrial broadcasting, BS broadcasting, and CS broadcasting. Especially for real-time subtitles to be given to live broadcasts such as news and sports broadcasts, current methods for producing subtitles are mainly methods in which an expert inputs immediately using a keyboard. In this process, while listening to broadcast or studio sound, the operator immediately inputs what is being spoken using the keyboard and converts it into text. Such subtitle production requires a plurality of skilled specialized operators, and there is a problem of reducing the cost of subtitle production.
即時入力手法では、数人のオペレータが、流れてくる音声を時系列で複数人で手分けして順番にキーボード入力していく。しかし、キーボードによる即時入力(速記)には熟練したスキルが求められるため、オペレータを長期間にわたって訓練する必要があり、投資が必要になる。また、複数人で順番に入力するため、オペレータ同士で阿吽の呼吸が必要であることも長期間の訓練を要する要因であり、オペレータのスキルに対する対価が要求される。 In the immediate input method, several operators divide the flowing voice by a plurality of people in time series and input the keyboard in order. However, skilled input is required for immediate input (shorthand writing) using a keyboard, so it is necessary to train the operator over a long period of time, and investment is required. In addition, since a plurality of persons input in order, it is necessary for the operators to take a breath of Aki, which is a factor that requires long-term training, and a price for the operator's skill is required.
キーボード入力以外の方法として音声認識を用いたテキスト化技術もあるが、音声認識の認識率が100%ではなく、音声認識結果の修正にスピードが要求される。 Although there is a text conversion technique using speech recognition as a method other than keyboard input, the recognition rate of speech recognition is not 100%, and speed is required for correcting speech recognition results.
即時入力手法であれ、音声認識を用いたテキスト化手法であれ、特殊技術であるためにオペレータの人手不足の問題があり、また、新たにオペレータを訓練するためにも人材育成費用がかかるため、字幕制作にはコスト高が避けられないのが現状である。 Whether it is an immediate input method or a text-based method using speech recognition, there is a problem of shortage of operators due to the special technology, and it also costs personnel training to newly train operators, The cost is inevitable for subtitle production.
本発明はこうした課題に鑑みてなされたものであり、その目的は、字幕を効率的に制作する技術を提供することにある。 The present invention has been made in view of these problems, and an object thereof is to provide a technique for efficiently producing captions.
上記課題を解決するために、本発明のある態様の字幕制作装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延部と、字幕テキストの修正者からの指示により、前記遅延部により出力される複数の遅延音声を切り替えて前記修正部に提供する切替部とを備える。 In order to solve the above-described problem, a caption production device according to an aspect of the present invention includes a speech recognition unit that recognizes a target speech or a speech that is a repetition of the target speech and converts the speech into text, and a process for dividing the text after speech recognition A subtitle text generation unit, a subtitle text correction unit, a delay unit that outputs a plurality of delayed sounds obtained by delaying the target audio by a predetermined different time, and a subtitle text corrector And a switching unit that switches a plurality of delayed sounds output by the delay unit and provides them to the correction unit according to an instruction.
本発明の別の態様もまた、字幕制作装置である。この装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延部と、音声認識された音声を記録した音声ファイルを再生する音声再生部と、字幕テキストの修正者からの指示により、前記遅延部により出力される遅延音声または前記音声再生部により出力される音声ファイルの再生音声のいずれかを切り替えて前記修正部に提供する切替部とを備える。 Another aspect of the present invention is also a caption production device. This apparatus includes a speech recognition unit that recognizes a target speech or a speech that is a repetition of the target speech and converts the speech into text, a split processing unit that splits the text after speech recognition to generate subtitle text, A correction unit for correcting, a delay unit for outputting a delayed sound obtained by delaying the target sound by a predetermined time, an audio reproducing unit for reproducing an audio file in which the recognized speech is recorded, and a subtitle text corrector A switching unit that switches between the delayed sound output by the delay unit and the reproduced sound of the audio file output by the sound reproducing unit according to an instruction and provides the sound to the correction unit.
本発明のさらに別の態様は、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される複数の遅延音声を切り替えて前記修正ステップに提供する切替ステップとを備える。 Yet another aspect of the present invention is a caption production method. The method includes a speech recognition step of recognizing target speech or speech reiterating the target speech and converting it to text, a split processing step of splitting the text after speech recognition to generate subtitle text, and subtitle text A correction step for correcting, a delay step for outputting a plurality of delayed sounds obtained by delaying the target sound by a predetermined different time, and a plurality of delayed sounds output by the delay step according to an instruction from a subtitle text corrector. A switching step of switching and providing to the correction step.
本発明のさらに別の態様もまた、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延ステップと、音声認識された音声を記録した音声ファイルを再生する音声再生ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される遅延音声または前記音声再生ステップにより出力される音声ファイルの再生音声のいずれかを切り替えて前記修正ステップに提供する切替ステップとを備える。 Yet another embodiment of the present invention is also a caption production method. The method includes a speech recognition step of recognizing target speech or speech reiterating the target speech and converting it to text, a split processing step of splitting the text after speech recognition to generate subtitle text, and subtitle text A correction step for correcting, a delay step for outputting a delayed sound obtained by delaying the target sound by a predetermined time, an audio reproducing step for reproducing an audio file in which the recognized speech is recorded, and a subtitle text modifier A switching step of switching between the delayed sound output by the delay step and the playback sound of the sound file output by the sound playback step according to an instruction and providing the same to the correction step.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and the expression of the present invention converted between a method, an apparatus, a system, a computer program, a data structure, a recording medium, and the like are also effective as an aspect of the present invention.
本発明によれば、字幕を効率的に制作することができる。 According to the present invention, captions can be produced efficiently.
図1は、第1の実施の形態に係る字幕制作装置100の構成図である。
FIG. 1 is a configuration diagram of a
対象音声10は、一般にテレビ放送などの映像を伴う音声である。対象音声10はリスピーク部20に入力されるか、または、そのまま生音声として音声認識部30に入力される。リスピーク部20の構成を設けるかどうかは、リスピーカによるリスピークの必要性に依存する。たとえば、ニュース放送の場合、アナウンサが正確な発声をしている場合は、リスピーク部20の構成を省略して、アナウンサの生音声を音声認識部30に直接入力してもよい。また、予算の関係等でリスピーカをつけられない場合も生音声を音声認識部30に直接入力する。
The
リスピーク部20では、リスピーカが対象音声10をヘッドホンなどで聴きながら同一内容を適宜区切りながら一定の発話速度で明瞭に復唱する。復唱された音声はマイクに入力される。リスピーク部20は、マイクに入力されたリスピーカの音声を出力し、音声認識部30に供給する。
In the
音声認識部30は、リスピーク音声または生音声を音声認識してテキスト化する。音声認識部30は、パーソナルコンピュータ(PC)上の一般的な音声認識ソフトウェアで構成される(このPCを「PC1」と呼ぶ)。音声認識結果は後段で字幕修正処理にかけられるため、音声認識ソフトウェアは認識率が高くない比較的安価なものであってもよい。音声認識後のテキストはテキスト分割・結合処理部40に入力される。
The
テキスト分割・結合処理部40では、音声認識後のテキストを字幕の所定の文字数内に収まるように分割したり、結合する処理を行う。また、テキスト分割・結合処理部40において話者によってテキストを色分けする処理を行ってもよい。たとえばメインキャスタとサブキャスタによってテキストの色を異ならせる。
The text division /
テキストの分割、結合、着色処理は、2台目のPC(「PC2」と呼ぶ)において、音声認識後のテキストをタッチパネルディスプレイなどに表示し、分割担当者がタッチパネル上で分割・結合位置を指示することで行われる。テキスト分割・結合処理部40による分割・結合・着色処理後のテキスト(「字幕テキスト」)は字幕時系列管理部50に入力される。
Text splitting, combining, and coloring are displayed on the touch panel display etc. on the second PC (referred to as “PC2”), and the person in charge of splitting indicates the split / join position on the touch panel. It is done by doing. The text (“subtitle text”) after the division / combination / coloring processing by the text division /
リスピーク部20におけるリスピーカと、テキスト分割・結合処理部40における分割担当者は、同一人物であってもよい。熟練したリスピーカであれば、リスピークしながら、音声認識後のテキストの分割・結合処理を行うことができるからである。
The respeaker in the
リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による前処理にかかる時間の合計をP1秒とする。前処理時間P1はあらかじめ計測しておく。
The total time required for the preprocessing by the
字幕時系列管理部50は、適正な長さに調整された字幕テキストを時系列管理し、複数のキーボード修正部60に順次分配する。
The subtitle time
複数のキーボード修正部60は、複数の修正者のそれぞれが利用する端末(「PC3」〜「PCn」と呼ぶ)である。遅延部80は、対象音声10を所定の時間だけ遅延させて出力する。遅延部80は、一般的なアナログ音声遅延装置であり、入力された音声を指定した時間だけ遅延させて出力することができる。ここでは、遅延部80は、前述の前処理時間P1よりも少し長めの時間だけ対象音声10を遅延させて出力する。キーボード修正部60またはヘッドホンには、遅延部80から出力された遅延音声が入力される。
The plurality of
キーボード修正部60において、修正者は音声認識結果の間違いを修正する作業を行う。さらに、修正者は、遅延部80から出力された遅延音声をヘッドホンなどで聞き直しながら字幕テキストを修正する。修正者は自分が担当する字幕テキストの修正が完了次第、修正された字幕テキストを出力する。複数のキーボード修正部60により出力される修正後の字幕テキストは非同期で送出順序制御部70に入力される。
In the
送出順序制御部70は、複数のキーボード修正部60から非同期で供給される字幕テキストの順序を正しく入れ替えて最終的な字幕を放送局に送出する。
The transmission
字幕時系列管理部50と送出順序制御部70は同一のサーバ(「サーバ1」と呼ぶ)で実行することができる。
The caption time-
本実施の形態の字幕制作装置100では、音声認識ソフトウェアの認識精度が低くても、修正者が遅延された生音声を聞きながら字幕を修正することができる。また、リスピーカは熟練者である必要があるが、修正者は熟練者である必要はない。そのため、字幕制作にかかる総費用を安く抑えることができる。
In the
図2は、第2の実施の形態に係る字幕制作装置110の構成図である。第1の実施の形態の字幕制作装置100と共通する構成については同一符号を付して説明を省略する。図2の字幕制作装置110は、遅延部82および遅延切替スイッチ84の構成が図1の字幕制作装置100とは異なる。
FIG. 2 is a configuration diagram of the
遅延部82は、複数の異なる遅延時間だけ対象音声10を遅延させて複数の遅延音声を出力する。出力された複数の遅延音声は遅延切替スイッチ84に入力される。遅延切替スイッチ84は、複数の遅延音声のいずれかを選択して出力する。選択された遅延音声はキーボード修正部60またはヘッドホンに入力される。
The
図4は、遅延部82および遅延切替スイッチ84によって複数の遅延音声が切り替えて出力される様子を模式的に説明する図である。
FIG. 4 is a diagram schematically illustrating a state in which a plurality of delayed sounds are switched and output by the
符号200は対象音声10の一区分を示し、ここではA秒の長さである。これはリスピーカが復唱の際に適宜区切る文節である。符号250は、リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による「前処理」にかかる時間を示し、ここではB秒である。
遅延部82は、ここでは、3つの遅延時間D1、D2、D3で生音声を遅延させて出力する。第1の遅延時間D1は、前処理時間Bよりも少し長い時間である。第2の遅延時間D2は第1の遅延時間D1に対象音声10の一区分の時間Aを加算した時間である。第3の遅延時間D3は第2の遅延時間D2に対象音声10の一区分の時間Aを加算した時間である。
Here, the
遅延切替スイッチ84の第1のスイッチを押し下げすると、生音声を第1の遅延時間D1だけ遅延された遅延音声がA秒間出力される(符号210)。同様に、遅延切替スイッチ84の第2のスイッチ、第3のスイッチを押し下げすると、生音声をそれぞれ第2の遅延時間D2、第3の遅延時間D3だけ遅延させた遅延音声がA秒間出力される(符号220、230)。ただし、遅延切替スイッチ84の第1のスイッチを省略し、第1の遅延時間D1の経過後に1回目の遅延音声がスイッチの押し下げなしに自動的に出力されるようにしてもよい。その場合、修正者がその後、第2のスイッチ、第3のスイッチを押し下げた場合、2回目、3回目の遅延音声が出力される。
When the first switch of the
図5は、遅延切替スイッチ84の構成図である。遅延切替スイッチ84は遅延音声1〜nの入力を受けて、いずれかの遅延音声を出力する。内部スイッチSW1〜SWn−1が設けられ、すべての内部スイッチSW1〜SWn−1がオフであるなら、遅延音声1が出力され、SW1のみがオンになると遅延音声2が出力され、SW2のみがオンになると遅延音声3が出力され、SWn−1のみがオンになると遅延音声nが出力される。
FIG. 5 is a configuration diagram of the
遅延切替スイッチ84は修正者毎に用意される。修正者はスイッチを操作することによって2回目、3回目の遅延音声を聞き直すことができる。これは、1回目の遅延音声を聞いただけでは字幕の修正が完了しない場合に、聞き漏らした箇所を数回聞き直せるようにしたものである。
The
遅延切替スイッチ84は、キーボードの特定のキーの押し下げで実現してもよく、キーボードとは別に手元スイッチを設けることで実現してもよい。あるいは、修正者がキーボードから手を離さず、修正速度を確保できるように、フットスイッチやペダルによって実現してもよい。
The
一例として遅延音声が最大3回まで出力可能な構成を説明したが、一般に遅延音声がn回まで出力可能な構成とすることができる。字幕に修正箇所が少ない場合は、遅延音声を1回聞くだけで修正作業が完了することもある。その場合は、第1の遅延時間D1の遅延音声だけが用いられ、字幕を早く出すことができる。一方、字幕に修正箇所が多い場合、最大n回まで生音声を繰り返し聞くことで字幕の精度を上げることができる。したがって、字幕のスピードと精度をバランス良く高めることができる。 As an example, a configuration has been described in which delayed speech can be output up to three times, but in general, a configuration in which delayed speech can be output up to n times can be employed. When there are few correction parts in the subtitle, the correction work may be completed by listening to the delayed sound once. In that case, only the delayed sound of the first delay time D1 is used, and the caption can be put out quickly. On the other hand, when there are many correction portions in the subtitle, the accuracy of the subtitle can be improved by repeatedly listening to the live audio up to n times. Therefore, the speed and accuracy of subtitles can be improved with a good balance.
音声認識ソフトウェアの認識率が低い場合や、リスピーカによるリスピーク音声の品質が低い場合、最大n回、生音声を聞くことで字幕の精度を高めることができる。これは言い換えれば、高価な音声認識ソフトウェアを利用したり、熟練したリスピーカを採用しなくても、後処理において字幕の精度を高めることができることを意味し、字幕制作にかかる費用を安く抑えることができる。 When the recognition rate of the voice recognition software is low, or when the quality of the rispeak voice by the re-speaker is low, the accuracy of subtitles can be improved by listening to the live voice up to n times. In other words, this means that the accuracy of subtitles can be improved in post-processing without using expensive speech recognition software or skilled re-speakers, and the cost of subtitle production can be kept low. it can.
図3は、第3の実施の形態に係る字幕制作装置120の構成図である。第1の実施の形態の字幕制作装置100と共通する構成については同一符号を付して説明を省略する。図3の字幕制作装置120は、キーボード修正/音声再生制御部60が音声認識部30により保存された音声ファイル32を再生する構成、音声ミキサ90が音声ファイル32からの再生音声と遅延部80からの遅延生音声を選択して出力する構成が図1の字幕制作装置100とは異なる。
FIG. 3 is a configuration diagram of the
図1の実施の形態1の字幕制作装置100および図2の実施の形態2の字幕制作装置110では、修正者が遅延された生音声を聞いても、生音声は字幕テキストと同期していないため、担当している字幕の前後の不要な音声が入っており、担当字幕の音声位置を探すことになる。これは、字幕テキストの対象となる音声箇所が始まるまで待ったり、再生すると既に対象の音声箇所が始まっているなど不安定さをもたらす要因であり、修正者に時間のロスが発生し、字幕を出すスピードが遅くなる結果となる。そこで、第3の実施の形態の字幕制作装置120では、音声認識部30が音声認識される音声をファイルに保存し、修正者の指示にしたがってキーボード修正/音声再生制御部60が音声ファイルを再生できるようにする。
In the
音声ファイル32は、リスピーカにより復唱された音声を記録したものである(ただし、リスピーカをつけない場合は生音声を記録したものを用いる)。音声認識ソフトウェアが音声認識処理する際に音声を一時的に保存するため、その保存ファイルを音声ファイル32として用いることができる。音声ファイル32の再生を修正者が担当する字幕テキストに同期させるために、音声認識された単語ごとに音声ファイル32においてその単語が発声される位置(開始位置と終了位置)をミリ秒の単位で記録した「音声再生情報」を用いる。この音声再生情報により、字幕の文字列と音声ファイルの再生とを完全に同期させることができる。
The
音声ファイルの再生を字幕テキストと同期させることができるため、修正者が担当している字幕テキストとは関係のない音声が前後に入ることがない。また音声ファイルであることから容易に何度でも再生することができ、また、再生速度をたとえば1.5倍などに早めて聞くこともできる。 Since the reproduction of the audio file can be synchronized with the subtitle text, audio that is not related to the subtitle text handled by the corrector does not enter before and after. Further, since it is an audio file, it can be easily reproduced any number of times, and the reproduction speed can be increased to 1.5 times, for example.
音声ミキサ90は、遅延部80により所定時間だけ遅延された生音声または字幕テキストに同期した音声ファイル32からの再生音声のどちらかに切り替えてキーボード修正部60またはヘッドホンに入力し、修正者のヘッドフォンから出力されるようにする。ここでは、音声ミキサ90はキーボード修正/音声再生制御部60の外部にあるが、音声ミキサ90をキーボード修正/音声再生制御部60内に設けてもよい。
The
図6は、音声ファイル32の同期再生の様子を模式的に説明する図である。符号200は対象音声10の一区分を示し、ここではA秒の長さである。符号250は、リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による前処理にかかる時間を示し、ここではB秒である。音声ミキサ90により音声ファイル32の再生音声を選択すると、時間P2だけ遅延されて音声ファイル32が再生される(符号241)ここで、P2=A+Bでり、編集中のテキストと完全に同期した音が再生される。音声ファイル32はその後、繰り返し再生可能である(符号242、243)。
FIG. 6 is a diagram for schematically explaining the state of synchronous reproduction of the
音声ミキサ90はスイッチやペダルによる切替部であり、1回目は遅延部80により遅延された生音声が出力されるが、修正者が指示すれば、2回目以降は音声ファイルの再生音声が出力される。修正箇所の少ない簡単な字幕であれば、1回目の遅延音声を聞くだけで修正作業が終わるが、修正箇所の多い複雑な字幕の場合、何回でも音声ファイルを再生して聞くことができる。1回目の遅延音声は、生音声であるのに対して、2回目以降の再生音声は、リスピーカのリスピーク音声であるから、生音声で聞き取りにくい箇所は、リスピーク音声によって正確な内容を把握することができる。
The
上記の説明では、音声ファイル32はリスピーカにより復唱された音声を記録したものであったが、リスピーク音声ファイルに代えてあるいはリスピーク音声ファイルとともに、リスピーカを通さない生音声を記録した生音声ファイルを生成し、キーボード修正/音声再生制御部60が生音声ファイルを再生して音声ミキサ90に提供する構成にしてもよい。生音声ファイルは、リスピーク音声ファイルと違って字幕テキストと同期はしないが、リスピーク音声の品質が良くない場合は、修正者は、リスピーク音声からテキスト化された字幕を編集しながら、生音声ファイルを再生して生音声を聞き直すことで字幕の精度を高めることができる。
In the above description, the
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described based on the embodiments. The embodiments are exemplifications, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are within the scope of the present invention. .
送出順序制御部70により送出された字幕テキストを結合して文章を生成し、その文章を自動翻訳ソフトウェアにより別の言語に自動翻訳することにより、リアルタイムで多言語の字幕放送を実現することもできる。
It is also possible to realize multilingual subtitle broadcasting in real time by combining subtitle texts transmitted by the transmission
上記の実施の形態の字幕制作装置は、放送された番組の音声をもとにリアルタイムで字幕を生成したが、録画された番組をもとに字幕を生成する場合にも上記の実施の形態の字幕制作装置を用いることができる。 Although the caption production device of the above embodiment generates the caption in real time based on the sound of the broadcasted program, the caption production apparatus of the above embodiment can also be used when generating the caption based on the recorded program. A caption production device can be used.
10 対象音声、 20 リスピーク部、 30 音声認識部、 40 テキスト分割・結合処理部、 50 字幕時系列管理部、 60 キーボード修正部、 70 送出順序制御部、 80 遅延部、 82 遅延部、 84 遅延切替スイッチ、 90 音声ミキサ、 100、110、120 字幕制作装置。 10 target voices, 20 rispeak parts, 30 voice recognition parts, 40 text division / combination processing parts, 50 subtitle time series management parts, 60 keyboard correction parts, 70 transmission order control parts, 80 delay parts, 82 delay parts, 84 delay switching Switch, 90 audio mixer, 100, 110, 120 caption production device.
Claims (3)
音声認識後の字幕テキストを修正する修正部と、
対象音声を出力する出力部と、
前記字幕テキストの文字列と同期させて、前記対象音声/前記リスピーク音声を記録した音声ファイルを再生する音声再生部と、
前記字幕テキストの修正者からの指示により、前記出力部により出力される対象音声または前記音声再生部により出力される音声ファイルを再生した前記字幕テキストの文字列と同期した対象音声/リスピーク音声のいずれかを切り替えて前記修正者が着用するヘッドホンに提供する切替部とを備えることを特徴とする字幕制作装置。 A voice recognition unit for recognizing and converting the target voice or the squirrel voice obtained by reiterating the target voice into text and recognizing the target voice or the voice-recognized squirrel peak voice as a voice file;
A correction section for correcting subtitle text after speech recognition;
An output unit for outputting the target audio;
An audio reproduction unit that reproduces an audio file in which the target audio / risk peak audio is recorded in synchronization with a character string of the subtitle text;
According to an instruction from the corrector of the subtitle text, either the target audio output by the output unit or the target audio / risk peak audio synchronized with the character string of the subtitle text reproduced from the audio file output by the audio reproduction unit A subtitle production apparatus comprising: a switching unit that switches to provide to headphones worn by the corrector.
音声認識後の字幕テキストを修正する修正ステップと、
対象音声を出力する出力ステップと、
前記字幕テキストの文字列と同期させて、前記対象音声/前記リスピーク音声を記録した音声ファイルを再生する音声再生ステップと、
前記字幕テキストの修正者からの指示により、前記出力ステップにより出力される対象音声または前記音声再生ステップにより出力される音声ファイルを再生した前記字幕テキストの文字列と同期した対象音声/リスピーク音声のいずれかを切り替えて前記修正者が着用するヘッドホンに提供する切替ステップとを備えることを特徴とする字幕制作装置によって実行される字幕制作方法。 A speech recognition step of recognizing and converting the target speech or the squirrel speech reiterating the target speech into text and recognizing the target speech or speech-recognized squirrel peak speech as a speech file;
A correction step for correcting subtitle text after speech recognition;
An output step for outputting the target audio;
An audio reproduction step of reproducing an audio file in which the target audio / risk peak audio is recorded in synchronization with a character string of the subtitle text;
According to an instruction from the corrector of the subtitle text, either the target voice output by the output step or the target voice / risk peak voice synchronized with the character string of the subtitle text reproduced from the voice file output by the voice playback step A subtitle production method executed by a subtitle production apparatus, comprising: a switching step of switching between and providing to headphones worn by the corrector.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017247280A JP6485977B2 (en) | 2017-12-25 | 2017-12-25 | Subtitle production apparatus and subtitle production method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017247280A JP6485977B2 (en) | 2017-12-25 | 2017-12-25 | Subtitle production apparatus and subtitle production method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015162801A Division JP6268131B2 (en) | 2015-08-20 | 2015-08-20 | Subtitle production apparatus and subtitle production method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045256A true JP2018045256A (en) | 2018-03-22 |
JP6485977B2 JP6485977B2 (en) | 2019-03-20 |
Family
ID=61694874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017247280A Active JP6485977B2 (en) | 2017-12-25 | 2017-12-25 | Subtitle production apparatus and subtitle production method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6485977B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200124456A (en) * | 2019-04-24 | 2020-11-03 | 주식회사 한국스테노 | a broadcast closed caption generating system |
JP2021106397A (en) * | 2019-11-25 | 2021-07-26 | 株式会社オープンエイト | Server and data allocation method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111901615A (en) * | 2020-06-28 | 2020-11-06 | 北京百度网讯科技有限公司 | Live video playing method and device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003244539A (en) * | 2002-02-18 | 2003-08-29 | Telecommunication Advancement Organization Of Japan | Sequential automatic caption production processing system |
JP2004151614A (en) * | 2002-11-01 | 2004-05-27 | Nippon Hoso Kyokai <Nhk> | Character data correction device, its method and program, and method of generating subtitles |
JP2004226910A (en) * | 2003-01-27 | 2004-08-12 | Nippon Hoso Kyokai <Nhk> | Speech recognition error correction device, speech recognition error correction method, and speech recognition error correction program |
JP2007256714A (en) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | Caption correction apparatus |
-
2017
- 2017-12-25 JP JP2017247280A patent/JP6485977B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003244539A (en) * | 2002-02-18 | 2003-08-29 | Telecommunication Advancement Organization Of Japan | Sequential automatic caption production processing system |
JP2004151614A (en) * | 2002-11-01 | 2004-05-27 | Nippon Hoso Kyokai <Nhk> | Character data correction device, its method and program, and method of generating subtitles |
JP2004226910A (en) * | 2003-01-27 | 2004-08-12 | Nippon Hoso Kyokai <Nhk> | Speech recognition error correction device, speech recognition error correction method, and speech recognition error correction program |
JP2007256714A (en) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | Caption correction apparatus |
Non-Patent Citations (2)
Title |
---|
佐藤庄衛: "音声認識を用いた生放送番組への字幕付与", メディア教育研究[ONLINE], vol. 第9巻,第1号, JPN7017002866, December 2012 (2012-12-01), pages 9 - 18, ISSN: 0003972560 * |
本間真一他: "ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム", 映像情報メディア学会誌, vol. 63, no. 3, JPN6019003643, March 2009 (2009-03-01), pages 331 - 338, ISSN: 0003972559 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200124456A (en) * | 2019-04-24 | 2020-11-03 | 주식회사 한국스테노 | a broadcast closed caption generating system |
KR102185183B1 (en) | 2019-04-24 | 2020-12-01 | 주식회사 한국스테노 | a broadcast closed caption generating system |
JP2021106397A (en) * | 2019-11-25 | 2021-07-26 | 株式会社オープンエイト | Server and data allocation method |
JP2021119662A (en) * | 2019-11-25 | 2021-08-12 | 株式会社オープンエイト | Server and data allocation method |
Also Published As
Publication number | Publication date |
---|---|
JP6485977B2 (en) | 2019-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10930300B2 (en) | Automated transcript generation from multi-channel audio | |
JP6268131B2 (en) | Subtitle production apparatus and subtitle production method | |
US20060285654A1 (en) | System and method for performing automatic dubbing on an audio-visual stream | |
US6500006B2 (en) | Learning and entertainment device, method and system and storage media thereof | |
TWI470588B (en) | System for translating spoken language into sign language for the deaf | |
WO2018216729A1 (en) | Audio guidance generation device, audio guidance generation method, and broadcasting system | |
CA3065364C (en) | System and method for providing descriptive video | |
US20120105719A1 (en) | Speech substitution of a real-time multimedia presentation | |
JP6485977B2 (en) | Subtitle production apparatus and subtitle production method | |
JP2008546016A (en) | Method and apparatus for performing automatic dubbing on multimedia signals | |
EP3224834B1 (en) | Apparatus and method for generating visual content from an audio signal | |
Huwiler | A Narratology of Audio Art: Telling Stories by Sound¹ | |
JP4594908B2 (en) | Explanation additional voice generation device and explanation additional voice generation program | |
KR20180119101A (en) | System and method for creating broadcast subtitle | |
JP5727777B2 (en) | Conference support apparatus and conference support method | |
de Castro et al. | Real-time subtitle synchronization in live television programs | |
Simon et al. | MPEG-H Audio for Improving Accessibility in Broadcasting and Streaming | |
JP2002010138A (en) | Method for processing information and device therefor | |
Trmal et al. | Online TV captioning of Czech parliamentary sessions | |
KR102463283B1 (en) | automatic translation system of video contents for hearing-impaired and non-disabled | |
JP7593018B2 (en) | Playback control method, control system, and program | |
Katsalis et al. | NLP-Theatre: Employing Speech Recognition Technologies for Improving Accessibility and Augmenting the Theatrical Experience | |
JPH11212438A (en) | Learning device, pronunciation exercise device, their method, and record medium | |
JP4662228B2 (en) | Multimedia recording device and message recording device | |
JP2004240920A (en) | Proofreading system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6485977 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |