JP2020178262A - 生字幕整形処理装置及びプログラム - Google Patents
生字幕整形処理装置及びプログラム Download PDFInfo
- Publication number
- JP2020178262A JP2020178262A JP2019079928A JP2019079928A JP2020178262A JP 2020178262 A JP2020178262 A JP 2020178262A JP 2019079928 A JP2019079928 A JP 2019079928A JP 2019079928 A JP2019079928 A JP 2019079928A JP 2020178262 A JP2020178262 A JP 2020178262A
- Authority
- JP
- Japan
- Prior art keywords
- data
- sentence
- voice recognition
- raw
- raw subtitle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007493 shaping process Methods 0.000 title claims abstract description 104
- 238000012545 processing Methods 0.000 title claims abstract description 75
- 230000005540 biological transmission Effects 0.000 claims description 63
- 239000000284 extract Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Abstract
【課題】生字幕の内容に応じて生字幕を結合または分離することで、一層理解し易い生字幕データを生成する。【解決手段】生字幕整形処理装置1の文章単位判定部21は、音声認識データbの文章境界を単語間の時間関係に基づいて判断し、文章単位のクラスタリング済み音声認識データb’を判定する。整形生字幕データ生成部22は、1つの文章のクラスタリング済み音声認識データb’群に対応する1つの文章を含む生字幕データa群を特定し、生字幕データa群のうち最終の生字幕データaの文章境界を判断する。整形生字幕データ生成部22は、最終の生字幕データaについて最終文字が文章境界である場合、生字幕データa群を結合し、最終文字が文章境界でない場合、最終の生字幕データaにおける文章境界よりも後ろの部分を分離して生字幕データa群を結合することで、1つの文章の整形生字幕データcを生成する。【選択図】図3
Description
本発明は、生放送番組において送出される字幕を整形する装置及びプログラムに関する。
従来、テレビ放送では、聴覚障碍者向け放送サービスとして、放送番組の音声を文字で画面上に表示する字幕放送を提供している。生放送番組において送出される字幕(以下、「生字幕」という。)は、生放送番組の音声から人手により書き起こされる。
放送字幕は、ARIBの放送運用規定により、一画面に表示する字幕文に文字制限を設けている(例えば、非特許文献1を参照)。例えば、字幕文は、1画面あたり2行まで、かつ1行あたり15.5文字まで表示することができる。行終わりの句読点が0.5文字である。
図12は、画面に表示される字幕の従来例を示す図である。(1)の時点において画面には、字幕「東京の天気は晴れです。神奈川の天気」が表示される。そして、(2)の時点((1)の次の時点)において画面には、字幕「は雨です。」が表示される。
図12に示すように、字幕と番組内容が同期していても、文章が途中で分断されてしまうことがあり、視聴者は字幕内容の理解が困難となる。文章が途中で分断されるのは、書き起こした文章が所定時間毎に自動的に区切られるからである。この所定時間の区切りにより、1画面に表示される字幕が決定され、図12(1)及び(2)のような表示形態となる。
このように、1画面に表示する字幕文には文字制限があり、生放送番組においては、話者の内容を書き起こすため、一文毎の長さが送出時に一意に決まらない。このため、1つの文章が長い場合には、字幕の単位が複数に分断されることとなる。
一方、近年の音声認識技術の進歩により、音声を入力信号として音声内容をテキスト化する技術が一般化しつつある(例えば、非特許文献2を参照)。この非特許文献2の音声認識技術を用いることにより、テキスト内容及びテキスト内容に対応する音声入力時刻を、単語単位で出力することができる。
また、テレビ放送の字幕表示方法について、字幕の読み易さ及び字幕内容の理解し易さを実現する技術が提案されている(例えば、特許文献1を参照)。この特許文献1の技術は、字幕の文字数と、次に表示すべき字幕の文字数とを加算し、その加算結果が所定文字数以下である場合に、それぞれの字幕を結合して表示するものである。これにより、字幕内容の理解が困難になるという問題を解決することができる。
一般社団法人電波産業会、"ARIB TR−B14 第三分冊"
"Speech to Text"、[online]、Microsoft Azure,[平成31年3月7日検索]、インターネット<https://azure.microsoft.com/ja-jp/services/cognitive-services/speech-to-text/>
前述の特許文献1の技術は、字幕の文字数に応じて字幕を結合するものである。しかし、この技術は、単に文字数を基準として字幕の結合の有無を判定しており、文章の内容を考慮して字幕を結合するものではない。
このため、字幕内容の理解し易さをさらに実現するためには、その内容に応じて字幕を結合し、または分離することが望ましい。
本発明はかかる課題に鑑みてなされたものであり、その目的は、生字幕の内容に応じて生字幕を結合または分離することで、一層理解し易い生字幕データを生成可能な生字幕整形処理装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の生字幕整形処理装置は、映像、音声及び生字幕データを含む放送用送出信号から前記生字幕データを抽出し、前記生字幕データを整形することで整形生字幕データを生成する生字幕整形処理装置において、前記放送用送出信号から生字幕時刻情報を含む前記生字幕データを抽出する字幕抽出部と、前記放送用送出信号に含まれる前記音声に対して音声認識処理を施し、音声時刻情報を含む音声認識データを生成する音声認識部と、前記字幕抽出部により抽出された前記生字幕データと、前記音声認識部により生成された前記音声認識データとの間のマッチングを行うマッチング部と、前記マッチング部によりマッチングが行われた前記音声認識データの文章境界を判断し、前記音声認識データの前記文章境界に対応する、前記マッチング部によりマッチングが行われた前記生字幕データの前記文章境界を判断し、前記生字幕データを用いて文章単位の前記整形生字幕データを生成する生字幕整形部と、を備えたことを特徴とする。
また、請求項2の生字幕整形処理装置は、請求項1に記載の生字幕整形処理装置において、前記生字幕整形部が、前記音声認識データに含まれる前記音声時刻情報を用いて、連続する前記音声認識データの間の時間差を求め、前記時間差及び前記音声認識データ内の句点の有無に基づいて、前記音声認識データの前記文章境界を判断し、文章単位の前記音声認識データを判定する文章単位判定部と、前記文章単位判定部により判定された文章単位の前記音声認識データに対応する1つの文章を含む生字幕データ群を特定し、前記生字幕データ群に含まれる前記生字幕データ内の前記文章境界を判断し、文章単位の前記整形生字幕データを生成する整形生字幕データ生成部と、を備えたことを特徴とする。
また、請求項3の生字幕整形処理装置は、請求項2に記載の生字幕整形処理装置において、前記文章単位判定部が、第1の前記音声認識データを第1音声認識データとし、当該第1音声認識データに続く前記音声認識データを第2音声認識データとして、前記第1音声認識データに含まれる前記音声時刻情報及び前記第2音声認識データに含まれる前記音声時刻情報を用いて、前記第1音声認識データと前記第2音声認識データとの間の前記時間差を求め、前記時間差が所定の閾値よりも小さく、かつ前記第1音声認識データに前記句点がないと判定した場合、前記第1音声認識データは前記文章境界でなく、前記第1音声認識データ及び前記第2音声認識データが同じ文章内にあると判断し、前記時間差が前記所定の閾値以上であると判定した場合、または前記第1音声認識データに前記句点があると判定した場合、前記第1音声認識データは前記文章境界であり、前記第1音声認識データ及び前記第2音声認識データが異なる文章内にあると判断し、文章単位の前記音声認識データを判定する、ことを特徴とする。
また、請求項4の生字幕整形処理装置は、請求項2または3に記載の生字幕整形処理装置において、前記整形生字幕データ生成部が、前記文章単位判定部により判定された文章単位の前記音声認識データに対応する1つの文章を含む前記生字幕データ群を特定し、前記生字幕データ群のうち最終の前記生字幕データ内の前記文章境界を判断し、前記生字幕データ群を結合することで、または最終の前記生字幕データ内の前記文章境界よりも後ろの部分を分離し、分離後の前記生字幕データ群を結合することで、文章単位の前記整形生字幕データを生成する、ことを特徴とする。
また、請求項5の生字幕整形処理装置は、請求項1から4までのいずれか一項に記載の生字幕整形処理装置において、前記生字幕整形部により生成された文章単位の前記整形生字幕データが、前記放送用送出信号に格納され、前記映像、前記音声及び前記整形生字幕データを含む前記放送用送出信号として放送波により送信される、または、前記映像及び前記音声と共にIPパケットに格納され、インターネットを介して送信される、または、前記IPパケットに格納され、前記インターネットを介して送信される、ことを特徴とする。
さらに、請求項6のプログラムは、コンピュータを、請求項1から4までのいずれか一項に記載の生字幕整形処理装置として機能させることを特徴とする。
以上のように、本発明によれば、生字幕の内容に応じて生字幕を結合または分離するようにしたから、一層理解し易い生字幕データを生成することができる。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、放送用送出信号に含まれる生字幕データと音声認識データとをマッチングし、音声認識データの文章境界を判定し、1つの文章の音声認識データ群に対応する生字幕データ群を特定し、生字幕データを結合または分離することで、1つの文章の整形生字幕データを生成することを特徴とする。
これにより、音声認識データを基準として1つの文章が判断されるから、生字幕データ内において、1つの文章の区切りが明確になる。つまり、生字幕データの内容に応じて生字幕データを結合または分離することができ、一層理解し易い1つの文章の整形生字幕データを生成することができる。
ここで、生字幕とは、生放送番組において、その番組の解説または会話等の情報を、文字を用いて表示する画面またはその文の総称をいう。また、文章とは、まとまった思想または感情を表現したものである。本実施形態では、文章を、句点「。」で区切られた文字列として説明するが、文書には、句点「。」だけでなく、読点「、」で区切られた文字列を含んでもよい。
〔生字幕整形処理装置〕
まず、本発明の実施形態による生字幕整形処理装置について説明する。図1は、本発明の実施形態による生字幕整形処理装置の構成例を示すブロック図である。この生字幕整形処理装置1は、字幕抽出部10、音声認識部11、マッチング部12及び生字幕整形部13を備えている。
まず、本発明の実施形態による生字幕整形処理装置について説明する。図1は、本発明の実施形態による生字幕整形処理装置の構成例を示すブロック図である。この生字幕整形処理装置1は、字幕抽出部10、音声認識部11、マッチング部12及び生字幕整形部13を備えている。
生字幕整形処理装置1は、放送用送出信号を入力し、放送用送出信号を生字幕データ抽出用の信号及び音声認識用の信号に分配し、生字幕データa及び音声認識データbをマッチングする。マッチング処理としては、例えば、生字幕データaのテキストと音声認識データbのテキストとの間でマッチングを行うテキストマッチングが行われる。ここでのマッチング処理は既知であるため、詳細な説明を省略する。
生字幕整形処理装置1は、音声認識データbに基づいて、生字幕データaにおける文章境界を判断し、複数の生字幕データaを結合し、または生字幕データa内の所定部分を分離することで、文章レベルの(文章単位の)整形生字幕データcを生成する。そして、生字幕整形処理装置1は、整形生字幕データcを出力する。
例えば、生字幕整形処理装置1は、音声認識データbに基づいて、画面に複数の生字幕データaを一覧で表示すべきと判断した場合、複数の生字幕データaを結合する。また、生字幕整形処理装置1は、音声認識データbに基づいて、生字幕データa内の箇所に文章の区切りがあると判断した場合、生字幕データa内の区切りよりも後ろの部分を分離する。
放送用送出信号としては、例えばSDI(Serial Digital Interface:シリアルデジタルインターフェース)信号が用いられる。放送用送出信号は、映像、音声及び生字幕データ等から構成され、映像、音声及び生字幕データのそれぞれには、共通の時刻を基準とした時刻情報が含まれる。前述のとおり、生字幕データは、生放送番組の音声から人手による書き起こしにて制作されたデータであるため、映像及び音声の番組内容よりも遅延している。
字幕抽出部10は、放送用送出信号を入力し、放送用送出信号をデコードすることで、放送用送出信号から生字幕データaを抽出し、生字幕データaをマッチング部12に出力する。生字幕データaは、後述する図2に示すように、生字幕、及び当該生字幕が画面表示される時刻(生字幕時刻情報)からなる。
音声認識部11は、放送用送出信号を入力し、放送用送出信号に含まれる音声に対して既知の音声認識処理を施し、例えば単語単位の音声認識データbを生成し、音声認識データbをマッチング部12に出力する。音声認識データbは、後述する図2に示すように、音声認識結果である単語、及び当該単語の音声が発せられる時刻(音声時刻情報)からなる。
マッチング部12は、字幕抽出部10から生字幕データaを入力すると共に、音声認識部11から音声認識データbを入力する。そして、マッチング部12は、生字幕データaと音声認識データbとを、所定データ長内で内容的に(文字レベルで)マッチングし、マッチングしている生字幕データa及び音声認識データbを特定する。
具体的には、マッチング部12は、まず、音声認識データbを入力し、その後、当該音声認識データbに対応する生字幕データaを入力する。マッチング部12は、音声認識データbとこれに対応する生字幕データaとをマッチングすることで、両者は対応していると判定する。
マッチング部12は、マッチングした生字幕データa及び音声認識データbをマッチングデータとして生字幕整形部13に出力する。
生字幕整形部13は、マッチング部12からマッチングデータを入力し、音声認識データbにおける文章境界を判断し、これに対応する生字幕データaにおける文章境界を判断する。そして、生字幕整形部13は、複数の生字幕データaを結合し、または、生字幕データa内の所定部分(文章境界よりも後ろの部分)を分離し、分離後の複数の生字幕データaを結合することで、文章単位の整形生字幕データcを生成し、出力する。生字幕整形部13の詳細については後述する。
これにより、1つの文章の整形生字幕データcが生成されるから、一層理解し易い生字幕を得ることができる。
図2は、生字幕データa、音声認識データb、クラスタリング済み音声認識データb’及び整形生字幕データcの例を説明する図である。
生字幕データaは、それぞれ「8:00:10 東京の天気は」「8:00:13 晴れです。」・・・である。例えば、生字幕データaの「8:00:10 東京の天気は」は、生字幕が表示される時刻が「8:00:10」であり、生字幕が「東京の天気は」であることを示している。
音声認識データbは、単語単位のデータであり、それぞれ単語E0「8:00:00 東京」、単語E1「8:00:01 の」、単語E2「8:00:02 天気」・・・である。例えば、音声認識データbの単語E0「8:00:00 東京」は、単語の音声が発せられる時刻が「8:00:00」であり、単語が「東京」であることを示している。
クラスタリング済み音声認識データb’は、文章単位に区切られた(文章単位に識別可能な)文章毎の音声認識データbである。図2の例では、音声認識データbの単語E0「8:00:00 東京」、単語E1「8:00:01 の」、単語E2「8:00:02 天気」、・・・及び単語E5「8:00:05 です。」により、1つの文章が構成される。
例えば、音声認識データbの単語E0「8:00:00 東京」、単語E1「8:00:01 の」、単語E2「8:00:02 天気」、・・・及び単語E5「8:00:05 です。」に対し、これらの単語により1つの文章が構成されることを示す識別データが付加され、クラスタリング済み音声認識データb’が構成される。
つまり、クラスタリング済み音声認識データb’の単語E0「8:00:00 東京」、単語E1「8:00:01 の」、単語E2「8:00:02 天気」、・・・及び単語E5「8:00:05 です。」には、これらの単語により1つの文章が構成されることを示す識別データが付加されている。
整形生字幕データcは、文章単位のデータであり、例えば生字幕データaの「8:00:10 東京の天気は」と「8:00:13 晴れです。」とが結合されることで生成される。この場合の整形生字幕データcは、「8:00:00 東京の天気は晴れです。」である。
前述のとおり、生字幕データaは人手で付与されることから、番組内容に対して遅延し、音声認識データb及びクラスタリング済み音声認識データb’に対しても遅延する。
そこで、生字幕整形部13(後述する図3の整形生字幕データ生成部22)は、整形生字幕データcを生成する際に、整形生字幕データcの時刻を、1つの文章を構成する複数のクラスタリング済み音声認識データb’の時刻のうち最も早い時刻に補正する。
図2の例に示した整形生字幕データcにおいて、「東京の天気は晴れです。」の時刻は、生字幕データaからすると、生字幕データaの「8:00:10 東京の天気は」における時刻「8:00:10」である。しかし、前述の補正処理により、整形生字幕データcの時刻は、当該生字幕データaとマッチングしたクラスタリング済み音声認識データb’の単語E0「8:00:00 東京」における時刻「8:00:00」に補正される。このようにして、整形生字幕データcの「8:00:00 東京の天気は晴れです。」が生成される。
尚、生字幕整形部13(後述する図3の整形生字幕データ生成部22)は、整形生字幕データcの時刻に、生字幕データaの「8:00:10 東京の天気は」の時刻「8:00:10」をそのまま設定するようにしてもよい。
また、生字幕整形部13は、整形生字幕データcの時刻を、1つの文章を構成する複数のクラスタリング済み音声認識データb’の時刻のうち最も早い時刻に補正してもよいし、いずれかの時刻に補正してもよい。
また、生字幕整形部13は、1つの文章を構成する複数のクラスタリング済み音声認識データb’の長さ(1つの文章を構成する複数のクラスタリング済み音声認識データb’の時刻のうち最も早い時刻から最も遅い時刻までの間の時間長、または文字数)を求め、この長さに基づき、整形生字幕データcの表示時間(当該字幕の終わり時間)を補正するようにしてもよい。例えば、最も早い時刻を基準として、1つの文章の長さに比例する時刻に補正する。
〔生字幕整形部13〕
次に、図1に示した生字幕整形部13について詳細に説明する。図3は、生字幕整形部13の構成例を示すブロック図である。この生字幕整形部13は、入力部20,文章単位判定部21,整形生字幕データ生成部22及び出力部23を備えている。
次に、図1に示した生字幕整形部13について詳細に説明する。図3は、生字幕整形部13の構成例を示すブロック図である。この生字幕整形部13は、入力部20,文章単位判定部21,整形生字幕データ生成部22及び出力部23を備えている。
前述のとおり、生字幕整形部13は、音声認識データbにおける文章の区切りを判断し、これに対応する生字幕データaにおける文章の区切りを判断する。そして、生字幕整形部13は、複数の生字幕データaを結合したり、生字幕データa内の所定部分を分離したりすることで、文章単位の整形生字幕データcを生成する。
入力部20は、生字幕整形部13の入力インターフェース部であり、マッチング部12から生字幕データa及び音声認識データbのマッチングデータを入力し、マッチングデータを文章単位判定部21に出力する。
(文章単位判定部21)
文章単位判定部21は、入力部20からマッチングデータを入力し、所定の処理にて、音声認識データbにおける文章境界を判断し、文章単位のクラスタリング済み音声認識データb’を判定する。文章境界は、1つの文章と次の文章との間の区切りであり、前記1つの文章における最終の部分(単語、文字等)を指す。そして、文章単位判定部21は、生字幕データa及びクラスタリング済み音声認識データb’のマッチングデータを整形生字幕データ生成部22に出力する。
文章単位判定部21は、入力部20からマッチングデータを入力し、所定の処理にて、音声認識データbにおける文章境界を判断し、文章単位のクラスタリング済み音声認識データb’を判定する。文章境界は、1つの文章と次の文章との間の区切りであり、前記1つの文章における最終の部分(単語、文字等)を指す。そして、文章単位判定部21は、生字幕データa及びクラスタリング済み音声認識データb’のマッチングデータを整形生字幕データ生成部22に出力する。
図4は、文章単位判定部21の処理例を示すフローチャートである。文章単位判定部21は、入力部20から、生字幕データa及び音声認識データbのマッチングデータを入力する(ステップS401)。ここで、音声認識データbは単語Eiであるとする。パラメータiは単語Eの番号である。
文章単位判定部21は、パラメータiに0を設定し(ステップS402)、単語Eiが文章境界であるか否かを判定する(ステップS403)。このステップS403の処理により、音声認識データbである単語Eiが、文章の区切りとして適切か否かが判定される。ステップS403による文章境界の判定処理例の詳細については後述する。
文章単位判定部21は、ステップS403において、単語Eiが文章境界でないと判定した場合(ステップS403:N(境界でない))、単語Ei,Ei+1が同じ文章内にあると判断し(ステップS404)、ステップS406へ移行する。
一方、文章単位判定部21は、ステップS403において、単語Eiが文章境界であると判定した場合(ステップS403:Y(境界である))、単語Ei,Ei+1が異なる文章内にあると判断する(ステップS405)。
そして、文章単位判定部21は、単語E0から単語Eiまでの間の単語群、または、前回の処理にて単語Eiが文章境界であると判定した際の単語Ei+1から、今回の処理にて単語Eiが文章境界であると判定した際の単語Eiまでの間の単語群が、1つの文章で構成されているものと判断する。文章単位判定部21は、この単語群を文章単位のクラスタリング済み音声認識データb’として判定し、ステップS406へ移行する。
文章単位判定部21は、ステップS404,S405から移行して、パラメータiが所定の単語数P未満であるか否かを判定する(ステップS406)。
所定の単語数Pは、音声認識部11により生成された音声認識データbの数であり、発話単位の数である。図2の例において、音声認識データbの単語E0「8:00:00 東京」、単語E1「8:00:01 の」、単語E2「8:00:02 天気」、・・・及び単語E5「8:00:05 です。」を発話単位とすると、単語数P=6である。次の単語E6「8:00:10 神奈川」、単語E7「8:00:11 の」等は、次の発話単位に含まれることとなる。
文章単位判定部21は、ステップS406において、パラメータiが単語数P未満であると判定した場合(ステップS406:Y)、パラメータをインクリメントし(ステップS407:i=i+1)、ステップS403へ移行する。
これにより、次の単語Eiについて文書境界が判定される。そして、ステップS403〜S407の処理が繰り返され、単語数Pの音声認識データbについて文章境界が判定される。
一方、文章単位判定部21は、ステップS406において、パラメータiが単語数P未満でないと判定した場合(ステップS406:N)、単語数Pの単語Eiについての処理が完了したと判断する。そして、文章単位判定部21は、生字幕データa及びクラスタリング済み音声認識データb’のマッチングデータを判定し、マッチングデータを整形生字幕データ生成部22に出力する(ステップS408)。
図5は、文章境界の判定処理例(ステップS403)を示すフローチャートである。前述のとおり、ステップS403における文章境界の判定処理は、単語Eiが文章境界、すなわち文章の区切りとなる最終の単語であるか否かを判定するものである。図5の例は、単語Ei及びこれに連続するEi+1の時刻関係により、単語Eiの文章境界を判定する処理を示している。
文章単位判定部21は、単語Ei,Ei+1について、単語Ei+1の時刻から単語Eiの時刻を減算し、単語Eiと単語Ei+1との間の時間差ETを求める(ステップS501)。そして、文章単位判定部21は、時間差ETが予め設定された閾値Tよりも小さいか否かを判定する(ステップS502)。
文章単位判定部21は、ステップS502において、時間差ETが閾値Tよりも小さいと判定した場合(ステップS502:Y)、ステップS503へ移行する。一方、文章単位判定部21は、ステップS502において、時間差ETが閾値Tよりも小さくないと判定した場合(ステップS502:N)、ステップS505へ移行する。
文章単位判定部21は、ステップS502(Y)から移行して、単語Eiに句点(。)がないか否か(単語Eiが句点を含んでいないか否か)を判定する(ステップS503)。
文章単位判定部21は、ステップS503において、単語Eiに句点がないと判定した場合(ステップS503:Y)、「N」(単語Eiが文章境界でない)を判定する(ステップS504)。これにより、図4のステップS403の処理において、単語Eiが文章境界でないと判定され、ステップS404へ移行する。
一方、文章単位判定部21は、ステップS503において、単語Eiに句点があると判定した場合(ステップS503:N)、またはステップS502(N)から移行して、「Y」(単語Eiが文章境界である)を判定する(ステップS505)。これにより、図4のステップS403の処理において、単語Eiが文章境界であると判定され、ステップS405へ移行する。
このように、単語Eiと単語Ei+1との間の時間差ETが閾値Tよりも小さく、かつ単語Eiに句点がない場合、単語Eiは文章境界でなく、単語Ei,Ei+1は同じ文章内にあると判断される。一方、時間差ETが閾値T以上である場合、または単語Eiに句点がある場合、単語Eiは文章境界であり、単語Ei,Ei+1は異なる文章内にあると判断される。
尚、図5の例は、単語Ei,Ei+1の時刻関係により、単語Eiの文章境界を判定する処理を示している。これに対し、文章単位判定部21は、例えば形態素解析手法により一連の単語Eiを解析し、句点を判断する等して、単語Eiの文章境界を判定するようにしてもよい。
(整形生字幕データ生成部22)
図3に戻って、整形生字幕データ生成部22は、文章単位判定部21から生字幕データa及びクラスタリング済み音声認識データb’のマッチングデータを入力する。そして、整形生字幕データ生成部22は、1つの文章を構成するクラスタリング済み音声認識データb’群に対応する1つの文章を含む生字幕データa群を特定し、生字幕データa群のうち最終の生字幕データaにおける文章境界を判断する。これにより、生字幕データaが文章的に分裂しているか否かを認識することができる。
図3に戻って、整形生字幕データ生成部22は、文章単位判定部21から生字幕データa及びクラスタリング済み音声認識データb’のマッチングデータを入力する。そして、整形生字幕データ生成部22は、1つの文章を構成するクラスタリング済み音声認識データb’群に対応する1つの文章を含む生字幕データa群を特定し、生字幕データa群のうち最終の生字幕データaにおける文章境界を判断する。これにより、生字幕データaが文章的に分裂しているか否かを認識することができる。
整形生字幕データ生成部22は、生字幕データa群を結合し、または、最終の生字幕データa内の文章境界よりも後ろの部分を分離し、分離後の生字幕データa群を結合することで、文章単位の整形生字幕データcを生成する。
図6は、整形生字幕データ生成部22の処理例を示すフローチャートである。整形生字幕データ生成部22は、文章単位判定部21から生字幕データa及びクラスタリング済み音声認識データb’のマッチングデータを入力する(ステップS601)。
整形生字幕データ生成部22は、1つの文章を構成するクラスタリング済み音声認識データb’群に対応する1つの文章を含む生字幕データa群を特定する(ステップS602)。
整形生字幕データ生成部22は、ステップS602にて特定した生字幕データa群の最終の生字幕データaについて、その最終文字(末尾の文字)が文章境界であるか否かを判定する(ステップS603)。このステップS603の処理により、生字幕データa群の最終の生字幕データaについて、最終文字が文章の区切りとして適切か否かが判定される。
ステップS603の処理において、最終文字が文章境界であるか否かは、図5と同様に、文字とこれに続く文字との間の時刻関係、及び句点の有無に基づいて判定される。例えば、最終の生字幕データaについて、最終文字が句点である場合、最終文字が文章境界であると判定される。一方、最終の生字幕データaについて、最終文字以外の途中の文字が句点である場合、最終文字が文章境界でないと判定される。
整形生字幕データ生成部22は、ステップS603において、最終の生字幕データaについて最終文字が文章境界であると判定した場合(ステップS603:Y)、生字幕データa群は1つの文章を構成していると判断する。そして、整形生字幕データ生成部22は、生字幕データa群を結合し、整形生字幕データcを生成する(ステップS604)。
これにより、1つの文章を構成するクラスタリング済み音声認識データb’群に対応する1つの文章の整形生字幕データcが生成される。
尚、1つ前の文章のクラスタリング済み音声認識データb’群に対応する整形生字幕データcを生成する処理において、後述するステップS605の処理にて分離された部分がある場合、ステップS604の処理では、当該部分も含めて生字幕データa群を結合する。
図7は、生字幕データa群の結合処理例(ステップS604)を説明する図である。図7には示してないが、図2を参照して、1つの文章を構成するクラスタリング済み音声認識データb’群の文章を、「東京」「の」「天気」「は」「晴れ」「です。」とする。
図7において、この1つの文章を含む生字幕データa群は、生字幕データa0の「8:00:10 東京の天気は」及び生字幕データa1の「8:00:13 晴れです。」である。
生字幕データa群である生字幕データa0,a1のうち最終の生字幕データa1について、最終文字「。」は句点であるため、文章境界であると判定され、生字幕データa0,a1は1つの文章を構成していると判断される。そして、整形生字幕データ生成部22により、生字幕データa0,a1が結合され、「8:00:00 東京の天気は晴れです。」の整形生字幕データcが生成される。
尚、図7に示した整形生字幕データcの「8:00:00 東京の天気は晴れです。」における時刻は、図2に示したクラスタリング済み音声認識データb’の単語E0「8:00:00 東京」の時刻「8:00:00」に補正されている。
図6に戻って、整形生字幕データ生成部22は、ステップS603において、最終の生字幕データaについて最終文字が文章境界でないと判定した場合(ステップS603:N)、生字幕データa群は1つの文章に加え、最終の生字幕データa内に次の文章の最初の部分が含まれると判断する。
そして、整形生字幕データ生成部22は、図5と同様の処理にて、最終の生字幕データa内の一連の文字の中から文章境界を求め、文章境界の次の文字から最終文字までの部分が、次の文章の部分であると判断する。
整形生字幕データ生成部22は、最終の生字幕データa内の一連の文字から、次の文章の部分(文章境界以降の部分)を分離し、当該部分を除いて生字幕データa群を結合し、整形生字幕データcを生成する(ステップS605)。
これにより、1つの文章を構成するクラスタリング済み音声認識データb’群に対応する1つの文章の整形生字幕データcが生成される。また、ステップS605の処理にて分離された部分は、次の文章を構成するクラスタリング済み音声認識データb’群に対応する整形生字幕データcを生成する際に、ステップS604,S605の処理にて結合される。
整形生字幕データ生成部22は、ステップS604またはステップS605から移行して、整形生字幕データcを出力する(ステップS606)。
図8は、生字幕データa内の単語の分離処理例(ステップS605)を説明する図である。図8には示してないが、図7と同様に、1つの文章を構成するクラスタリング済み音声認識データb’群の文章を、「東京」「の」「天気」「は」「晴れ」「です。」とする。
この1つの文章を含む生字幕データa群は、生字幕データa2の「8:00:10 東京の天気は」及び生字幕データa3の「8:00:13 晴れです。神奈川」である。
生字幕データa群である生字幕データa2,a3のうち最終の生字幕データa3について、最終文字「川」は文章境界ではなく、文章境界の句点が最終文字「川」以外の箇所にあると判定される。そして、生字幕データa2,a3は、1つの文章に加え、最終の生字幕データa3内に次の文章の最初の部分が含まれると判断される。
そして、最終の生字幕データa3から、文章境界の句点よりも後ろの部分「神奈川」が分離され、当該部分「神奈川」を除いて生字幕データa2,a3が結合され、「8:00:00 東京の天気は晴れです。」の整形生字幕データcが生成される。
尚、図7と同様に、「8:00:00 東京の天気は晴れです。」の整形生字幕データcにおける時刻は、クラスタリング済み音声認識データb’の単語E0「8:00:00 東京」の時刻「8:00:00」に補正されている。
また、最終の生字幕データa3から分離された部分「神奈川」は、次の文章の冒頭の部分として、図6のステップS604,S605の処理にて結合され、「8:00:13 神奈川・・・」の整形生字幕データcが生成される。
図3に戻って、出力部23は、生字幕整形部13の出力インターフェース部であり、整形生字幕データ生成部22から整形生字幕データcを入力し、整形生字幕データcを出力する。
以上のように、本発明の実施形態の生字幕整形処理装置1によれば、生字幕整形部13の文章単位判定部21は、音声認識データbにおける文章境界を、音声認識データbである単語間の時間関係に基づいて判断し、文章単位のクラスタリング済み音声認識データb’を判定する。
整形生字幕データ生成部22は、1つの文章を構成するクラスタリング済み音声認識データb’群に対応する1つの文章を含む生字幕データa群を特定し、生字幕データa群のうち最終の生字幕データa内の一連の文字について、文章境界を判断する。
整形生字幕データ生成部22は、最終の生字幕データaについて最終文字が文章境界である場合、生字幕データa群を結合し、1つの文章の整形生字幕データcを生成する。一方、整形生字幕データ生成部22は、最終の生字幕データaについて最終文字が文章境界でない場合、最終の生字幕データa内で文章境界を求め、文章境界の次の文字から最終文字までの部分を分離し、分離後の生字幕データa群を結合することで、1つの文章の整形生字幕データcを生成する。
これにより、音声認識データbを基準として1つの文章が判断されるから、生字幕データa内において、1つの文章の区切りが明確になる。つまり、音声認識データbに基づいた生字幕データaの内容に応じて生字幕データを結合または分離し、整形生字幕データcを生成するようにしたから、一層理解し易い整形生字幕データcを生成することができる。
したがって、生字幕データaの単位で分断されている字幕内容を、文章レベルで結合または分離することができ、一層理解し易い生字幕付き番組の提供が可能となる。
〔生字幕整形処理装置1の適用例〕
次に、図1に示した生字幕整形処理装置1の適用例について説明する。図9は、システム構成例Aを説明する図であり、映像、音声及び整形生字幕データcを放送波により送信する例である。このシステムは、生字幕整形処理装置1、番組送出装置2及び送信装置3を備えて構成される。
次に、図1に示した生字幕整形処理装置1の適用例について説明する。図9は、システム構成例Aを説明する図であり、映像、音声及び整形生字幕データcを放送波により送信する例である。このシステムは、生字幕整形処理装置1、番組送出装置2及び送信装置3を備えて構成される。
生字幕整形処理装置1は、番組送出装置2から放送用送出信号を入力し、前述の処理により整形生字幕データcを生成し、整形生字幕データcを番組送出装置2へ出力する。
番組送出装置2は、放送用送出信号を生字幕整形処理装置1へ出力する。そして、番組送出装置2は、生字幕整形処理装置1から整形生字幕データcを入力し、放送用送出信号に含まれる生字幕データを削除し、放送用送出信号に対し、生字幕データの代わりに整形生字幕データcを格納し、整形生字幕データcを含む放送用送出信号を生成する。番組送出装置2は、整形生字幕データcを含む放送用送出信号を送信装置3へ出力する。
送信装置3は、番組送出装置2から放送用送出信号を入力し、放送用放出信号を変調して放送波を送信する。
図示しない受信端末は、例えばスマートフォン、テレビであり、送信装置3から送信された放送波を受信し、放送波から放送用送出信号を復調し、放送用送出信号から映像、音声及び整形生字幕データcを抽出し、映像及び音声を再生しながら、整形生字幕データcを画面表示する。
これにより、図12(1)及び(2)に示したような文章が途中で分断された形態で字幕が表示されることがなく、文章単位の字幕が表示されるから、ユーザは、字幕の内容を容易に理解することができる。
尚、生字幕整形処理装置1は、番組送出装置2から放送用送出信号を入力するようにしたが、生字幕データa及び音声認識データbのマッチングデータを入力するようにしてもよい。
この場合、生字幕整形処理装置1は、図1に示した字幕抽出部10、音声認識部11及びマッチング部12を備えておらず、生字幕整形部13のみを備え、番組送出装置2は、図1に示した字幕抽出部10、音声認識部11及びマッチング部12の機能を実現する。後述する図10及び図11についても同様である。
図10は、システム構成例Bを説明する図であり、映像、音声及び整形生字幕データcを、インターネットを介して送信する例である。このシステムは、生字幕整形処理装置1、番組送出装置2及び送信装置4を備えて構成される。送信装置4と図示しない受信端末とは、インターネット5を介して接続される。
生字幕整形処理装置1及び番組送出装置2は、図9に示した構成と同様である。番組送出装置2は、整形生字幕データcを含む放送用送出信号を送信装置4に出力する。
送信装置4は、番組送出装置2から放送用送出信号を入力し、放送用放出信号をIPパケットに格納し、IPパケットを、インターネット5を介して図示しない受信端末へ送信する。
図示しない受信端末は、送信装置4から送信されたIPパケットを受信し、IPパケットから放送用送出信号を抽出し、放送用送出信号から映像、音声及び整形生字幕データcを抽出し、映像及び音声を再生しながら、整形生字幕データcを画面表示する。
これにより、図9と同様に、画面には文章単位の字幕が表示されるから、ユーザは、字幕の内容を容易に理解することができる。
図11は、システム構成例Cを説明する図であり、映像、音声及び生字幕データを放送波により送信し、整形生字幕データcを、インターネットを介して送信する例である。このシステムは、生字幕整形処理装置1、番組送出装置2及び送信装置3,6を備えて構成される。送信装置6と図示しない受信端末とは、インターネット5を介して接続される。
番組送出装置2は、放送用送出信号を生字幕整形処理装置1及び送信装置3へ出力する。生字幕整形処理装置1は、番組送出装置2から放送用送出信号を入力し、前述の処理により整形生字幕データcを生成し、整形生字幕データcを送信装置6へ出力する。
送信装置3は、番組送出装置2から生字幕データを含む放送用送出信号を入力し、放送用放出信号を変調して放送波を送信する。
送信装置6は、生字幕整形処理装置1から整形生字幕データcを入力し、整形生字幕データcをIPパケットに格納し、IPパケットを、インターネット5を介して図示しない受信端末へ送信する。
図示しない受信端末は、送信装置3から送信された放送波を受信すると共に、送信装置6から送信されたIPパケットを受信する。そして、受信端末は、放送波から放送用送出信号を復調し、放送用送出信号から映像、音声及び生字幕データを抽出する。また、受信端末は、IPパケットから整形生字幕データcを抽出する。
受信端末は、映像及び音声を再生しながら、生字幕データに代えて整形生字幕データcを画面表示する。
これにより、図9と同様に、画面には文章単位の字幕が表示されるから、ユーザは、字幕の内容を容易に理解することができる。
映像、音声、生字幕データ及び整形生字幕データcを送受信する送信装置3,6と受信端末との間の通信は、例えばハイブリッドキャスト、MMT(MPEG Media Transport:MPEGメディアトランスポート)のサービスにより実現される。
尚、受信端末は、ユーザの操作に従い、放送波の放送用送出信号から抽出した生字幕データ、及びIPパケットから抽出した整形生字幕データcのうちのいずれかを選択するようにしてもよい。受信端末は、選択した生字幕データまたは整形生字幕データcを画面表示する。
また、図11に示したシステム構成例Cにおいて、第1の受信端末(例えばテレビ)が、送信装置3から送信された放送波を受信し、第2の受信端末(例えばスマートフォン)が、送信装置6から送信されたIPパケットを受信するようにしてもよい。
この場合、第1の受信端末は、放送波から放送用送出信号を復調し、放送用送出信号から映像、音声及び生字幕データを抽出し、映像及び音声を再生する。または、第1の受信端末は、映像及び音声を再生しながら、生字幕データを画面表示する。一方、第2の受信端末は、IPパケットから整形生字幕データcを抽出し、整形生字幕データcを画面表示する。
これにより、第2の受信端末の画面には文章単位の字幕が表示されるから、ユーザは、第1の受信端末の画面にて映像及び音声を視聴しながら、第2の受信端末の画面にて文章単位の字幕を見ることができ、字幕の内容を容易に理解することができる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば前記実施形態では、生字幕整形部13は、音声認識データbにおける文章境界を判断し、これに対応する生字幕データaにおける文章境界を判断し、複数の生字幕データaを結合する等して、整形生字幕データcを生成するようにした。
これに対し、生字幕整形部13は、音声認識データbを用いることなく、生字幕データaのみを用いて整形生字幕データcを生成するようにしてもよい。例えば、生字幕整形部13は、形態素解析手法により全ての生字幕データaの解析を行い、句点を判断し、生字幕データaにおける文章境界を判断し、複数の生字幕データaを結合する等して、整形生字幕データcを生成する。
また、前記実施形態では、生字幕整形部13は、生字幕データaの文章境界を、句点「。」の有無により判断するようにしたが、本発明はこれに限定されるものではない。例えば読点「、」の有無により判断するようにしてもよい。
また、前記実施形態では、生字幕整形処理装置1は、図9〜図11に示したシステム構成例A,B,Cにおいて、送信側の装置の一部として設置するようにした。これに対し、生字幕整形処理装置1は、受信端末に適用し、受信端末が、生字幕整形処理装置1の機能を実現するようにしてもよい。
尚、本発明の実施形態による生字幕整形処理装置1のハードウェア構成としては、通常のコンピュータを使用することができる。生字幕整形処理装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
生字幕整形処理装置1に備えた字幕抽出部10、音声認識部11、マッチング部12及び生字幕整形部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 生字幕整形処理装置
2 番組送出装置
3,4,6 送信装置
5 インターネット
10 字幕抽出部
11 音声認識部
12 マッチング部
13 生字幕整形部
20 入力部
21 文章単位判定部
22 整形生字幕データ生成部
23 出力部
a 生字幕データ
b 音声認識データ
b’ クラスタリング済み音声認識データ
c 整形生字幕データ
E 単語
P 単語数
ET 時間差
T 閾値
2 番組送出装置
3,4,6 送信装置
5 インターネット
10 字幕抽出部
11 音声認識部
12 マッチング部
13 生字幕整形部
20 入力部
21 文章単位判定部
22 整形生字幕データ生成部
23 出力部
a 生字幕データ
b 音声認識データ
b’ クラスタリング済み音声認識データ
c 整形生字幕データ
E 単語
P 単語数
ET 時間差
T 閾値
Claims (6)
- 映像、音声及び生字幕データを含む放送用送出信号から前記生字幕データを抽出し、前記生字幕データを整形することで整形生字幕データを生成する生字幕整形処理装置において、
前記放送用送出信号から生字幕時刻情報を含む前記生字幕データを抽出する字幕抽出部と、
前記放送用送出信号に含まれる前記音声に対して音声認識処理を施し、音声時刻情報を含む音声認識データを生成する音声認識部と、
前記字幕抽出部により抽出された前記生字幕データと、前記音声認識部により生成された前記音声認識データとの間のマッチングを行うマッチング部と、
前記マッチング部によりマッチングが行われた前記音声認識データの文章境界を判断し、前記音声認識データの前記文章境界に対応する、前記マッチング部によりマッチングが行われた前記生字幕データの前記文章境界を判断し、前記生字幕データを用いて文章単位の前記整形生字幕データを生成する生字幕整形部と、
を備えたことを特徴とする生字幕整形処理装置。 - 請求項1に記載の生字幕整形処理装置において、
前記生字幕整形部は、
前記音声認識データに含まれる前記音声時刻情報を用いて、連続する前記音声認識データの間の時間差を求め、前記時間差及び前記音声認識データ内の句点の有無に基づいて、前記音声認識データの前記文章境界を判断し、文章単位の前記音声認識データを判定する文章単位判定部と、
前記文章単位判定部により判定された文章単位の前記音声認識データに対応する1つの文章を含む生字幕データ群を特定し、前記生字幕データ群に含まれる前記生字幕データ内の前記文章境界を判断し、文章単位の前記整形生字幕データを生成する整形生字幕データ生成部と、
を備えたことを特徴とする生字幕整形処理装置。 - 請求項2に記載の生字幕整形処理装置において、
前記文章単位判定部は、
第1の前記音声認識データを第1音声認識データとし、当該第1音声認識データに続く前記音声認識データを第2音声認識データとして、
前記第1音声認識データに含まれる前記音声時刻情報及び前記第2音声認識データに含まれる前記音声時刻情報を用いて、前記第1音声認識データと前記第2音声認識データとの間の前記時間差を求め、
前記時間差が所定の閾値よりも小さく、かつ前記第1音声認識データに前記句点がないと判定した場合、前記第1音声認識データは前記文章境界でなく、前記第1音声認識データ及び前記第2音声認識データが同じ文章内にあると判断し、
前記時間差が前記所定の閾値以上であると判定した場合、または前記第1音声認識データに前記句点があると判定した場合、前記第1音声認識データは前記文章境界であり、前記第1音声認識データ及び前記第2音声認識データが異なる文章内にあると判断し、文章単位の前記音声認識データを判定する、ことを特徴とする生字幕整形処理装置。 - 請求項2または3に記載の生字幕整形処理装置において、
前記整形生字幕データ生成部は、
前記文章単位判定部により判定された文章単位の前記音声認識データに対応する1つの文章を含む前記生字幕データ群を特定し、前記生字幕データ群のうち最終の前記生字幕データ内の前記文章境界を判断し、前記生字幕データ群を結合することで、または最終の前記生字幕データ内の前記文章境界よりも後ろの部分を分離し、分離後の前記生字幕データ群を結合することで、文章単位の前記整形生字幕データを生成する、ことを特徴とする生字幕整形処理装置。 - 請求項1から4までのいずれか一項に記載の生字幕整形処理装置において、
前記生字幕整形部により生成された文章単位の前記整形生字幕データは、
前記放送用送出信号に格納され、前記映像、前記音声及び前記整形生字幕データを含む前記放送用送出信号として放送波により送信される、
または、前記映像及び前記音声と共にIPパケットに格納され、インターネットを介して送信される、
または、前記IPパケットに格納され、前記インターネットを介して送信される、ことを特徴とする生字幕整形処理装置。 - コンピュータを、請求項1から5までのいずれか一項に記載の生字幕整形処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019079928A JP2020178262A (ja) | 2019-04-19 | 2019-04-19 | 生字幕整形処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019079928A JP2020178262A (ja) | 2019-04-19 | 2019-04-19 | 生字幕整形処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020178262A true JP2020178262A (ja) | 2020-10-29 |
Family
ID=72937333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019079928A Pending JP2020178262A (ja) | 2019-04-19 | 2019-04-19 | 生字幕整形処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020178262A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114554238A (zh) * | 2022-02-23 | 2022-05-27 | 北京有竹居网络技术有限公司 | 直播语音同传方法、装置、介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000350117A (ja) * | 1999-06-08 | 2000-12-15 | Telecommunication Advancement Organization Of Japan | 字幕文テキストの提示形式変換方法、及び字幕へのタイミング情報付与方法 |
JP2009058671A (ja) * | 2007-08-30 | 2009-03-19 | National Institute Of Information & Communication Technology | 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造 |
KR101478918B1 (ko) * | 2013-08-16 | 2014-12-31 | 한국방송공사 | 캡션 자막 보정 장치 및 캡션 자막 보정 방법 |
JP2019062332A (ja) * | 2017-09-26 | 2019-04-18 | 株式会社Jvcケンウッド | 表示態様決定装置、表示装置、表示態様決定方法及びプログラム |
-
2019
- 2019-04-19 JP JP2019079928A patent/JP2020178262A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000350117A (ja) * | 1999-06-08 | 2000-12-15 | Telecommunication Advancement Organization Of Japan | 字幕文テキストの提示形式変換方法、及び字幕へのタイミング情報付与方法 |
JP2009058671A (ja) * | 2007-08-30 | 2009-03-19 | National Institute Of Information & Communication Technology | 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造 |
KR101478918B1 (ko) * | 2013-08-16 | 2014-12-31 | 한국방송공사 | 캡션 자막 보정 장치 및 캡션 자막 보정 방법 |
JP2019062332A (ja) * | 2017-09-26 | 2019-04-18 | 株式会社Jvcケンウッド | 表示態様決定装置、表示装置、表示態様決定方法及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114554238A (zh) * | 2022-02-23 | 2022-05-27 | 北京有竹居网络技术有限公司 | 直播语音同传方法、装置、介质及电子设备 |
CN114554238B (zh) * | 2022-02-23 | 2023-08-11 | 北京有竹居网络技术有限公司 | 直播语音同传方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US10186170B1 (en) | Text caption error correction | |
US20200051582A1 (en) | Generating and/or Displaying Synchronized Captions | |
US8838594B2 (en) | Automatic method to synchronize the time-line of video with audio feature quantity | |
US20130204605A1 (en) | System for translating spoken language into sign language for the deaf | |
US20070011012A1 (en) | Method, system, and apparatus for facilitating captioning of multi-media content | |
CN106340291A (zh) | 一种双语字幕制作方法及系统 | |
CN106878805A (zh) | 一种混合语种字幕文件生成方法及装置 | |
KR102044689B1 (ko) | 방송자막 제작 시스템 및 방법 | |
US11714973B2 (en) | Methods and systems for control of content in an alternate language or accent | |
US20130151251A1 (en) | Automatic dialog replacement by real-time analytic processing | |
JP2020178262A (ja) | 生字幕整形処理装置及びプログラム | |
JP2016091057A (ja) | 電子機器 | |
JP7096732B2 (ja) | コンテンツ配信装置及びプログラム | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
US10504519B1 (en) | Transcription of communications | |
JP6172770B2 (ja) | 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム | |
KR102160117B1 (ko) | 장애인을 위한 실시간 방송 컨텐츠 제작 시스템 | |
US20230107968A1 (en) | Systems and methods for replaying a content item | |
US11416530B1 (en) | Subtitle rendering based on the reading pace | |
JP2004253923A (ja) | 情報受信装置 | |
KR102185183B1 (ko) | 방송 자막 제작 시스템 | |
JP2023105359A (ja) | コンテンツ配信装置、受信装置及びプログラム | |
KR102292552B1 (ko) | 장애인 시청권 향상을 위한 영상 동기화 시스템 | |
US20230362452A1 (en) | Distributor-side generation of captions based on various visual and non-visual elements in content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230828 |