JP2020178262A

JP2020178262A - 生字幕整形処理装置及びプログラム

Info

Publication number: JP2020178262A
Application number: JP2019079928A
Authority: JP
Inventors: 壮田中; So Tanaka; 伊藤　均; Hitoshi Ito; 均伊藤; 佳寿石川; Yoshihisa Ishikawa
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2020-10-29

Abstract

【課題】生字幕の内容に応じて生字幕を結合または分離することで、一層理解し易い生字幕データを生成する。【解決手段】生字幕整形処理装置１の文章単位判定部２１は、音声認識データｂの文章境界を単語間の時間関係に基づいて判断し、文章単位のクラスタリング済み音声認識データｂ’を判定する。整形生字幕データ生成部２２は、１つの文章のクラスタリング済み音声認識データｂ’群に対応する１つの文章を含む生字幕データａ群を特定し、生字幕データａ群のうち最終の生字幕データａの文章境界を判断する。整形生字幕データ生成部２２は、最終の生字幕データａについて最終文字が文章境界である場合、生字幕データａ群を結合し、最終文字が文章境界でない場合、最終の生字幕データａにおける文章境界よりも後ろの部分を分離して生字幕データａ群を結合することで、１つの文章の整形生字幕データｃを生成する。【選択図】図３

Description

本発明は、生放送番組において送出される字幕を整形する装置及びプログラムに関する。

従来、テレビ放送では、聴覚障碍者向け放送サービスとして、放送番組の音声を文字で画面上に表示する字幕放送を提供している。生放送番組において送出される字幕（以下、「生字幕」という。）は、生放送番組の音声から人手により書き起こされる。

放送字幕は、ＡＲＩＢの放送運用規定により、一画面に表示する字幕文に文字制限を設けている（例えば、非特許文献１を参照）。例えば、字幕文は、１画面あたり２行まで、かつ１行あたり１５．５文字まで表示することができる。行終わりの句読点が０．５文字である。

図１２は、画面に表示される字幕の従来例を示す図である。（１）の時点において画面には、字幕「東京の天気は晴れです。神奈川の天気」が表示される。そして、（２）の時点（（１）の次の時点）において画面には、字幕「は雨です。」が表示される。

図１２に示すように、字幕と番組内容が同期していても、文章が途中で分断されてしまうことがあり、視聴者は字幕内容の理解が困難となる。文章が途中で分断されるのは、書き起こした文章が所定時間毎に自動的に区切られるからである。この所定時間の区切りにより、１画面に表示される字幕が決定され、図１２（１）及び（２）のような表示形態となる。

このように、１画面に表示する字幕文には文字制限があり、生放送番組においては、話者の内容を書き起こすため、一文毎の長さが送出時に一意に決まらない。このため、１つの文章が長い場合には、字幕の単位が複数に分断されることとなる。

一方、近年の音声認識技術の進歩により、音声を入力信号として音声内容をテキスト化する技術が一般化しつつある（例えば、非特許文献２を参照）。この非特許文献２の音声認識技術を用いることにより、テキスト内容及びテキスト内容に対応する音声入力時刻を、単語単位で出力することができる。

また、テレビ放送の字幕表示方法について、字幕の読み易さ及び字幕内容の理解し易さを実現する技術が提案されている（例えば、特許文献１を参照）。この特許文献１の技術は、字幕の文字数と、次に表示すべき字幕の文字数とを加算し、その加算結果が所定文字数以下である場合に、それぞれの字幕を結合して表示するものである。これにより、字幕内容の理解が困難になるという問題を解決することができる。

特許第５１９３１２７号公報

一般社団法人電波産業会、"ＡＲＩＢＴＲ−Ｂ１４第三分冊" "Speech to Text"、［online］、Microsoft Azure，［平成３１年３月７日検索］、インターネット＜https://azure.microsoft.com/ja-jp/services/cognitive-services/speech-to-text/＞

前述の特許文献１の技術は、字幕の文字数に応じて字幕を結合するものである。しかし、この技術は、単に文字数を基準として字幕の結合の有無を判定しており、文章の内容を考慮して字幕を結合するものではない。

このため、字幕内容の理解し易さをさらに実現するためには、その内容に応じて字幕を結合し、または分離することが望ましい。

本発明はかかる課題に鑑みてなされたものであり、その目的は、生字幕の内容に応じて生字幕を結合または分離することで、一層理解し易い生字幕データを生成可能な生字幕整形処理装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１の生字幕整形処理装置は、映像、音声及び生字幕データを含む放送用送出信号から前記生字幕データを抽出し、前記生字幕データを整形することで整形生字幕データを生成する生字幕整形処理装置において、前記放送用送出信号から生字幕時刻情報を含む前記生字幕データを抽出する字幕抽出部と、前記放送用送出信号に含まれる前記音声に対して音声認識処理を施し、音声時刻情報を含む音声認識データを生成する音声認識部と、前記字幕抽出部により抽出された前記生字幕データと、前記音声認識部により生成された前記音声認識データとの間のマッチングを行うマッチング部と、前記マッチング部によりマッチングが行われた前記音声認識データの文章境界を判断し、前記音声認識データの前記文章境界に対応する、前記マッチング部によりマッチングが行われた前記生字幕データの前記文章境界を判断し、前記生字幕データを用いて文章単位の前記整形生字幕データを生成する生字幕整形部と、を備えたことを特徴とする。

また、請求項２の生字幕整形処理装置は、請求項１に記載の生字幕整形処理装置において、前記生字幕整形部が、前記音声認識データに含まれる前記音声時刻情報を用いて、連続する前記音声認識データの間の時間差を求め、前記時間差及び前記音声認識データ内の句点の有無に基づいて、前記音声認識データの前記文章境界を判断し、文章単位の前記音声認識データを判定する文章単位判定部と、前記文章単位判定部により判定された文章単位の前記音声認識データに対応する１つの文章を含む生字幕データ群を特定し、前記生字幕データ群に含まれる前記生字幕データ内の前記文章境界を判断し、文章単位の前記整形生字幕データを生成する整形生字幕データ生成部と、を備えたことを特徴とする。

また、請求項３の生字幕整形処理装置は、請求項２に記載の生字幕整形処理装置において、前記文章単位判定部が、第１の前記音声認識データを第１音声認識データとし、当該第１音声認識データに続く前記音声認識データを第２音声認識データとして、前記第１音声認識データに含まれる前記音声時刻情報及び前記第２音声認識データに含まれる前記音声時刻情報を用いて、前記第１音声認識データと前記第２音声認識データとの間の前記時間差を求め、前記時間差が所定の閾値よりも小さく、かつ前記第１音声認識データに前記句点がないと判定した場合、前記第１音声認識データは前記文章境界でなく、前記第１音声認識データ及び前記第２音声認識データが同じ文章内にあると判断し、前記時間差が前記所定の閾値以上であると判定した場合、または前記第１音声認識データに前記句点があると判定した場合、前記第１音声認識データは前記文章境界であり、前記第１音声認識データ及び前記第２音声認識データが異なる文章内にあると判断し、文章単位の前記音声認識データを判定する、ことを特徴とする。

また、請求項４の生字幕整形処理装置は、請求項２または３に記載の生字幕整形処理装置において、前記整形生字幕データ生成部が、前記文章単位判定部により判定された文章単位の前記音声認識データに対応する１つの文章を含む前記生字幕データ群を特定し、前記生字幕データ群のうち最終の前記生字幕データ内の前記文章境界を判断し、前記生字幕データ群を結合することで、または最終の前記生字幕データ内の前記文章境界よりも後ろの部分を分離し、分離後の前記生字幕データ群を結合することで、文章単位の前記整形生字幕データを生成する、ことを特徴とする。

また、請求項５の生字幕整形処理装置は、請求項１から４までのいずれか一項に記載の生字幕整形処理装置において、前記生字幕整形部により生成された文章単位の前記整形生字幕データが、前記放送用送出信号に格納され、前記映像、前記音声及び前記整形生字幕データを含む前記放送用送出信号として放送波により送信される、または、前記映像及び前記音声と共にＩＰパケットに格納され、インターネットを介して送信される、または、前記ＩＰパケットに格納され、前記インターネットを介して送信される、ことを特徴とする。

さらに、請求項６のプログラムは、コンピュータを、請求項１から４までのいずれか一項に記載の生字幕整形処理装置として機能させることを特徴とする。

以上のように、本発明によれば、生字幕の内容に応じて生字幕を結合または分離するようにしたから、一層理解し易い生字幕データを生成することができる。

本発明の実施形態による生字幕整形処理装置の構成例を示すブロック図である。生字幕データａ、音声認識データｂ、クラスタリング済み音声認識データｂ’及び整形生字幕データｃの例を説明する図である。生字幕整形部の構成例を示すブロック図である。文章単位判定部の処理例を示すフローチャートである。文章境界の判定処理例（ステップＳ４０３）を示すフローチャートである。整形生字幕データ生成部の処理例を示すフローチャートである。生字幕データａ群の結合処理例（ステップＳ６０４）を説明する図である。生字幕データａ内の単語の分離処理例（ステップＳ６０５）を説明する図である。システム構成例Ａを説明する図である。システム構成例Ｂを説明する図である。システム構成例Ｃを説明する図である。画面に表示される字幕の従来例を示す図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、放送用送出信号に含まれる生字幕データと音声認識データとをマッチングし、音声認識データの文章境界を判定し、１つの文章の音声認識データ群に対応する生字幕データ群を特定し、生字幕データを結合または分離することで、１つの文章の整形生字幕データを生成することを特徴とする。

これにより、音声認識データを基準として１つの文章が判断されるから、生字幕データ内において、１つの文章の区切りが明確になる。つまり、生字幕データの内容に応じて生字幕データを結合または分離することができ、一層理解し易い１つの文章の整形生字幕データを生成することができる。

ここで、生字幕とは、生放送番組において、その番組の解説または会話等の情報を、文字を用いて表示する画面またはその文の総称をいう。また、文章とは、まとまった思想または感情を表現したものである。本実施形態では、文章を、句点「。」で区切られた文字列として説明するが、文書には、句点「。」だけでなく、読点「、」で区切られた文字列を含んでもよい。

〔生字幕整形処理装置〕
まず、本発明の実施形態による生字幕整形処理装置について説明する。図１は、本発明の実施形態による生字幕整形処理装置の構成例を示すブロック図である。この生字幕整形処理装置１は、字幕抽出部１０、音声認識部１１、マッチング部１２及び生字幕整形部１３を備えている。

生字幕整形処理装置１は、放送用送出信号を入力し、放送用送出信号を生字幕データ抽出用の信号及び音声認識用の信号に分配し、生字幕データａ及び音声認識データｂをマッチングする。マッチング処理としては、例えば、生字幕データａのテキストと音声認識データｂのテキストとの間でマッチングを行うテキストマッチングが行われる。ここでのマッチング処理は既知であるため、詳細な説明を省略する。

生字幕整形処理装置１は、音声認識データｂに基づいて、生字幕データａにおける文章境界を判断し、複数の生字幕データａを結合し、または生字幕データａ内の所定部分を分離することで、文章レベルの（文章単位の）整形生字幕データｃを生成する。そして、生字幕整形処理装置１は、整形生字幕データｃを出力する。

例えば、生字幕整形処理装置１は、音声認識データｂに基づいて、画面に複数の生字幕データａを一覧で表示すべきと判断した場合、複数の生字幕データａを結合する。また、生字幕整形処理装置１は、音声認識データｂに基づいて、生字幕データａ内の箇所に文章の区切りがあると判断した場合、生字幕データａ内の区切りよりも後ろの部分を分離する。

放送用送出信号としては、例えばＳＤＩ（Serial Digital Interface：シリアルデジタルインターフェース）信号が用いられる。放送用送出信号は、映像、音声及び生字幕データ等から構成され、映像、音声及び生字幕データのそれぞれには、共通の時刻を基準とした時刻情報が含まれる。前述のとおり、生字幕データは、生放送番組の音声から人手による書き起こしにて制作されたデータであるため、映像及び音声の番組内容よりも遅延している。

字幕抽出部１０は、放送用送出信号を入力し、放送用送出信号をデコードすることで、放送用送出信号から生字幕データａを抽出し、生字幕データａをマッチング部１２に出力する。生字幕データａは、後述する図２に示すように、生字幕、及び当該生字幕が画面表示される時刻（生字幕時刻情報）からなる。

音声認識部１１は、放送用送出信号を入力し、放送用送出信号に含まれる音声に対して既知の音声認識処理を施し、例えば単語単位の音声認識データｂを生成し、音声認識データｂをマッチング部１２に出力する。音声認識データｂは、後述する図２に示すように、音声認識結果である単語、及び当該単語の音声が発せられる時刻（音声時刻情報）からなる。

マッチング部１２は、字幕抽出部１０から生字幕データａを入力すると共に、音声認識部１１から音声認識データｂを入力する。そして、マッチング部１２は、生字幕データａと音声認識データｂとを、所定データ長内で内容的に（文字レベルで）マッチングし、マッチングしている生字幕データａ及び音声認識データｂを特定する。

具体的には、マッチング部１２は、まず、音声認識データｂを入力し、その後、当該音声認識データｂに対応する生字幕データａを入力する。マッチング部１２は、音声認識データｂとこれに対応する生字幕データａとをマッチングすることで、両者は対応していると判定する。

マッチング部１２は、マッチングした生字幕データａ及び音声認識データｂをマッチングデータとして生字幕整形部１３に出力する。

生字幕整形部１３は、マッチング部１２からマッチングデータを入力し、音声認識データｂにおける文章境界を判断し、これに対応する生字幕データａにおける文章境界を判断する。そして、生字幕整形部１３は、複数の生字幕データａを結合し、または、生字幕データａ内の所定部分（文章境界よりも後ろの部分）を分離し、分離後の複数の生字幕データａを結合することで、文章単位の整形生字幕データｃを生成し、出力する。生字幕整形部１３の詳細については後述する。

これにより、１つの文章の整形生字幕データｃが生成されるから、一層理解し易い生字幕を得ることができる。

図２は、生字幕データａ、音声認識データｂ、クラスタリング済み音声認識データｂ’及び整形生字幕データｃの例を説明する図である。

生字幕データａは、それぞれ「８：００：１０東京の天気は」「８：００：１３晴れです。」・・・である。例えば、生字幕データａの「８：００：１０東京の天気は」は、生字幕が表示される時刻が「８：００：１０」であり、生字幕が「東京の天気は」であることを示している。

音声認識データｂは、単語単位のデータであり、それぞれ単語Ｅ₀「８：００：００東京」、単語Ｅ₁「８：００：０１の」、単語Ｅ₂「８：００：０２天気」・・・である。例えば、音声認識データｂの単語Ｅ₀「８：００：００東京」は、単語の音声が発せられる時刻が「８：００：００」であり、単語が「東京」であることを示している。

クラスタリング済み音声認識データｂ’は、文章単位に区切られた（文章単位に識別可能な）文章毎の音声認識データｂである。図２の例では、音声認識データｂの単語Ｅ₀「８：００：００東京」、単語Ｅ₁「８：００：０１の」、単語Ｅ₂「８：００：０２天気」、・・・及び単語Ｅ₅「８：００：０５です。」により、１つの文章が構成される。

例えば、音声認識データｂの単語Ｅ₀「８：００：００東京」、単語Ｅ₁「８：００：０１の」、単語Ｅ₂「８：００：０２天気」、・・・及び単語Ｅ₅「８：００：０５です。」に対し、これらの単語により１つの文章が構成されることを示す識別データが付加され、クラスタリング済み音声認識データｂ’が構成される。

つまり、クラスタリング済み音声認識データｂ’の単語Ｅ₀「８：００：００東京」、単語Ｅ₁「８：００：０１の」、単語Ｅ₂「８：００：０２天気」、・・・及び単語Ｅ₅「８：００：０５です。」には、これらの単語により１つの文章が構成されることを示す識別データが付加されている。

整形生字幕データｃは、文章単位のデータであり、例えば生字幕データａの「８：００：１０東京の天気は」と「８：００：１３晴れです。」とが結合されることで生成される。この場合の整形生字幕データｃは、「８：００：００東京の天気は晴れです。」である。

前述のとおり、生字幕データａは人手で付与されることから、番組内容に対して遅延し、音声認識データｂ及びクラスタリング済み音声認識データｂ’に対しても遅延する。

そこで、生字幕整形部１３（後述する図３の整形生字幕データ生成部２２）は、整形生字幕データｃを生成する際に、整形生字幕データｃの時刻を、１つの文章を構成する複数のクラスタリング済み音声認識データｂ’の時刻のうち最も早い時刻に補正する。

図２の例に示した整形生字幕データｃにおいて、「東京の天気は晴れです。」の時刻は、生字幕データａからすると、生字幕データａの「８：００：１０東京の天気は」における時刻「８：００：１０」である。しかし、前述の補正処理により、整形生字幕データｃの時刻は、当該生字幕データａとマッチングしたクラスタリング済み音声認識データｂ’の単語Ｅ₀「８：００：００東京」における時刻「８：００：００」に補正される。このようにして、整形生字幕データｃの「８：００：００東京の天気は晴れです。」が生成される。

尚、生字幕整形部１３（後述する図３の整形生字幕データ生成部２２）は、整形生字幕データｃの時刻に、生字幕データａの「８：００：１０東京の天気は」の時刻「８：００：１０」をそのまま設定するようにしてもよい。

また、生字幕整形部１３は、整形生字幕データｃの時刻を、１つの文章を構成する複数のクラスタリング済み音声認識データｂ’の時刻のうち最も早い時刻に補正してもよいし、いずれかの時刻に補正してもよい。

また、生字幕整形部１３は、１つの文章を構成する複数のクラスタリング済み音声認識データｂ’の長さ（１つの文章を構成する複数のクラスタリング済み音声認識データｂ’の時刻のうち最も早い時刻から最も遅い時刻までの間の時間長、または文字数）を求め、この長さに基づき、整形生字幕データｃの表示時間（当該字幕の終わり時間）を補正するようにしてもよい。例えば、最も早い時刻を基準として、１つの文章の長さに比例する時刻に補正する。

〔生字幕整形部１３〕
次に、図１に示した生字幕整形部１３について詳細に説明する。図３は、生字幕整形部１３の構成例を示すブロック図である。この生字幕整形部１３は、入力部２０，文章単位判定部２１，整形生字幕データ生成部２２及び出力部２３を備えている。

前述のとおり、生字幕整形部１３は、音声認識データｂにおける文章の区切りを判断し、これに対応する生字幕データａにおける文章の区切りを判断する。そして、生字幕整形部１３は、複数の生字幕データａを結合したり、生字幕データａ内の所定部分を分離したりすることで、文章単位の整形生字幕データｃを生成する。

入力部２０は、生字幕整形部１３の入力インターフェース部であり、マッチング部１２から生字幕データａ及び音声認識データｂのマッチングデータを入力し、マッチングデータを文章単位判定部２１に出力する。

（文章単位判定部２１）
文章単位判定部２１は、入力部２０からマッチングデータを入力し、所定の処理にて、音声認識データｂにおける文章境界を判断し、文章単位のクラスタリング済み音声認識データｂ’を判定する。文章境界は、１つの文章と次の文章との間の区切りであり、前記１つの文章における最終の部分（単語、文字等）を指す。そして、文章単位判定部２１は、生字幕データａ及びクラスタリング済み音声認識データｂ’のマッチングデータを整形生字幕データ生成部２２に出力する。

図４は、文章単位判定部２１の処理例を示すフローチャートである。文章単位判定部２１は、入力部２０から、生字幕データａ及び音声認識データｂのマッチングデータを入力する（ステップＳ４０１）。ここで、音声認識データｂは単語Ｅ_iであるとする。パラメータｉは単語Ｅの番号である。

文章単位判定部２１は、パラメータｉに０を設定し（ステップＳ４０２）、単語Ｅ_iが文章境界であるか否かを判定する（ステップＳ４０３）。このステップＳ４０３の処理により、音声認識データｂである単語Ｅ_iが、文章の区切りとして適切か否かが判定される。ステップＳ４０３による文章境界の判定処理例の詳細については後述する。

文章単位判定部２１は、ステップＳ４０３において、単語Ｅ_iが文章境界でないと判定した場合（ステップＳ４０３：Ｎ（境界でない））、単語Ｅ_i，Ｅ_i+1が同じ文章内にあると判断し（ステップＳ４０４）、ステップＳ４０６へ移行する。

一方、文章単位判定部２１は、ステップＳ４０３において、単語Ｅ_iが文章境界であると判定した場合（ステップＳ４０３：Ｙ（境界である））、単語Ｅ_i，Ｅ_i+1が異なる文章内にあると判断する（ステップＳ４０５）。

そして、文章単位判定部２１は、単語Ｅ₀から単語Ｅ_iまでの間の単語群、または、前回の処理にて単語Ｅ_iが文章境界であると判定した際の単語Ｅ_i+1から、今回の処理にて単語Ｅ_iが文章境界であると判定した際の単語Ｅ_iまでの間の単語群が、１つの文章で構成されているものと判断する。文章単位判定部２１は、この単語群を文章単位のクラスタリング済み音声認識データｂ’として判定し、ステップＳ４０６へ移行する。

文章単位判定部２１は、ステップＳ４０４，Ｓ４０５から移行して、パラメータｉが所定の単語数Ｐ未満であるか否かを判定する（ステップＳ４０６）。

所定の単語数Ｐは、音声認識部１１により生成された音声認識データｂの数であり、発話単位の数である。図２の例において、音声認識データｂの単語Ｅ₀「８：００：００東京」、単語Ｅ₁「８：００：０１の」、単語Ｅ₂「８：００：０２天気」、・・・及び単語Ｅ₅「８：００：０５です。」を発話単位とすると、単語数Ｐ＝６である。次の単語Ｅ₆「８：００：１０神奈川」、単語Ｅ₇「８：００：１１の」等は、次の発話単位に含まれることとなる。

文章単位判定部２１は、ステップＳ４０６において、パラメータｉが単語数Ｐ未満であると判定した場合（ステップＳ４０６：Ｙ）、パラメータをインクリメントし（ステップＳ４０７：ｉ＝ｉ＋１）、ステップＳ４０３へ移行する。

これにより、次の単語Ｅ_iについて文書境界が判定される。そして、ステップＳ４０３〜Ｓ４０７の処理が繰り返され、単語数Ｐの音声認識データｂについて文章境界が判定される。

一方、文章単位判定部２１は、ステップＳ４０６において、パラメータｉが単語数Ｐ未満でないと判定した場合（ステップＳ４０６：Ｎ）、単語数Ｐの単語Ｅ_iについての処理が完了したと判断する。そして、文章単位判定部２１は、生字幕データａ及びクラスタリング済み音声認識データｂ’のマッチングデータを判定し、マッチングデータを整形生字幕データ生成部２２に出力する（ステップＳ４０８）。

図５は、文章境界の判定処理例（ステップＳ４０３）を示すフローチャートである。前述のとおり、ステップＳ４０３における文章境界の判定処理は、単語Ｅ_iが文章境界、すなわち文章の区切りとなる最終の単語であるか否かを判定するものである。図５の例は、単語Ｅ_i及びこれに連続するＥ_i+1の時刻関係により、単語Ｅ_iの文章境界を判定する処理を示している。

文章単位判定部２１は、単語Ｅ_i，Ｅ_i+1について、単語Ｅ_i+1の時刻から単語Ｅ_iの時刻を減算し、単語Ｅ_iと単語Ｅ_i+1との間の時間差ＥＴを求める（ステップＳ５０１）。そして、文章単位判定部２１は、時間差ＥＴが予め設定された閾値Ｔよりも小さいか否かを判定する（ステップＳ５０２）。

文章単位判定部２１は、ステップＳ５０２において、時間差ＥＴが閾値Ｔよりも小さいと判定した場合（ステップＳ５０２：Ｙ）、ステップＳ５０３へ移行する。一方、文章単位判定部２１は、ステップＳ５０２において、時間差ＥＴが閾値Ｔよりも小さくないと判定した場合（ステップＳ５０２：Ｎ）、ステップＳ５０５へ移行する。

文章単位判定部２１は、ステップＳ５０２（Ｙ）から移行して、単語Ｅ_iに句点（。）がないか否か（単語Ｅ_iが句点を含んでいないか否か）を判定する（ステップＳ５０３）。

文章単位判定部２１は、ステップＳ５０３において、単語Ｅ_iに句点がないと判定した場合（ステップＳ５０３：Ｙ）、「Ｎ」（単語Ｅ_iが文章境界でない）を判定する（ステップＳ５０４）。これにより、図４のステップＳ４０３の処理において、単語Ｅ_iが文章境界でないと判定され、ステップＳ４０４へ移行する。

一方、文章単位判定部２１は、ステップＳ５０３において、単語Ｅ_iに句点があると判定した場合（ステップＳ５０３：Ｎ）、またはステップＳ５０２（Ｎ）から移行して、「Ｙ」（単語Ｅ_iが文章境界である）を判定する（ステップＳ５０５）。これにより、図４のステップＳ４０３の処理において、単語Ｅ_iが文章境界であると判定され、ステップＳ４０５へ移行する。

このように、単語Ｅ_iと単語Ｅ_i+1との間の時間差ＥＴが閾値Ｔよりも小さく、かつ単語Ｅ_iに句点がない場合、単語Ｅ_iは文章境界でなく、単語Ｅ_i，Ｅ_i+1は同じ文章内にあると判断される。一方、時間差ＥＴが閾値Ｔ以上である場合、または単語Ｅ_iに句点がある場合、単語Ｅ_iは文章境界であり、単語Ｅ_i，Ｅ_i+1は異なる文章内にあると判断される。

尚、図５の例は、単語Ｅ_i，Ｅ_i+1の時刻関係により、単語Ｅ_iの文章境界を判定する処理を示している。これに対し、文章単位判定部２１は、例えば形態素解析手法により一連の単語Ｅ_iを解析し、句点を判断する等して、単語Ｅ_iの文章境界を判定するようにしてもよい。

（整形生字幕データ生成部２２）
図３に戻って、整形生字幕データ生成部２２は、文章単位判定部２１から生字幕データａ及びクラスタリング済み音声認識データｂ’のマッチングデータを入力する。そして、整形生字幕データ生成部２２は、１つの文章を構成するクラスタリング済み音声認識データｂ’群に対応する１つの文章を含む生字幕データａ群を特定し、生字幕データａ群のうち最終の生字幕データａにおける文章境界を判断する。これにより、生字幕データａが文章的に分裂しているか否かを認識することができる。

整形生字幕データ生成部２２は、生字幕データａ群を結合し、または、最終の生字幕データａ内の文章境界よりも後ろの部分を分離し、分離後の生字幕データａ群を結合することで、文章単位の整形生字幕データｃを生成する。

図６は、整形生字幕データ生成部２２の処理例を示すフローチャートである。整形生字幕データ生成部２２は、文章単位判定部２１から生字幕データａ及びクラスタリング済み音声認識データｂ’のマッチングデータを入力する（ステップＳ６０１）。

整形生字幕データ生成部２２は、１つの文章を構成するクラスタリング済み音声認識データｂ’群に対応する１つの文章を含む生字幕データａ群を特定する（ステップＳ６０２）。

整形生字幕データ生成部２２は、ステップＳ６０２にて特定した生字幕データａ群の最終の生字幕データａについて、その最終文字（末尾の文字）が文章境界であるか否かを判定する（ステップＳ６０３）。このステップＳ６０３の処理により、生字幕データａ群の最終の生字幕データａについて、最終文字が文章の区切りとして適切か否かが判定される。

ステップＳ６０３の処理において、最終文字が文章境界であるか否かは、図５と同様に、文字とこれに続く文字との間の時刻関係、及び句点の有無に基づいて判定される。例えば、最終の生字幕データａについて、最終文字が句点である場合、最終文字が文章境界であると判定される。一方、最終の生字幕データａについて、最終文字以外の途中の文字が句点である場合、最終文字が文章境界でないと判定される。

整形生字幕データ生成部２２は、ステップＳ６０３において、最終の生字幕データａについて最終文字が文章境界であると判定した場合（ステップＳ６０３：Ｙ）、生字幕データａ群は１つの文章を構成していると判断する。そして、整形生字幕データ生成部２２は、生字幕データａ群を結合し、整形生字幕データｃを生成する（ステップＳ６０４）。

これにより、１つの文章を構成するクラスタリング済み音声認識データｂ’群に対応する１つの文章の整形生字幕データｃが生成される。

尚、１つ前の文章のクラスタリング済み音声認識データｂ’群に対応する整形生字幕データｃを生成する処理において、後述するステップＳ６０５の処理にて分離された部分がある場合、ステップＳ６０４の処理では、当該部分も含めて生字幕データａ群を結合する。

図７は、生字幕データａ群の結合処理例（ステップＳ６０４）を説明する図である。図７には示してないが、図２を参照して、１つの文章を構成するクラスタリング済み音声認識データｂ’群の文章を、「東京」「の」「天気」「は」「晴れ」「です。」とする。

図７において、この１つの文章を含む生字幕データａ群は、生字幕データａ₀の「８：００：１０東京の天気は」及び生字幕データａ₁の「８：００：１３晴れです。」である。

生字幕データａ群である生字幕データａ₀，ａ₁のうち最終の生字幕データａ₁について、最終文字「。」は句点であるため、文章境界であると判定され、生字幕データａ₀，ａ₁は１つの文章を構成していると判断される。そして、整形生字幕データ生成部２２により、生字幕データａ₀，ａ₁が結合され、「８：００：００東京の天気は晴れです。」の整形生字幕データｃが生成される。

尚、図７に示した整形生字幕データｃの「８：００：００東京の天気は晴れです。」における時刻は、図２に示したクラスタリング済み音声認識データｂ’の単語Ｅ₀「８：００：００東京」の時刻「８：００：００」に補正されている。

図６に戻って、整形生字幕データ生成部２２は、ステップＳ６０３において、最終の生字幕データａについて最終文字が文章境界でないと判定した場合（ステップＳ６０３：Ｎ）、生字幕データａ群は１つの文章に加え、最終の生字幕データａ内に次の文章の最初の部分が含まれると判断する。

そして、整形生字幕データ生成部２２は、図５と同様の処理にて、最終の生字幕データａ内の一連の文字の中から文章境界を求め、文章境界の次の文字から最終文字までの部分が、次の文章の部分であると判断する。

整形生字幕データ生成部２２は、最終の生字幕データａ内の一連の文字から、次の文章の部分（文章境界以降の部分）を分離し、当該部分を除いて生字幕データａ群を結合し、整形生字幕データｃを生成する（ステップＳ６０５）。

これにより、１つの文章を構成するクラスタリング済み音声認識データｂ’群に対応する１つの文章の整形生字幕データｃが生成される。また、ステップＳ６０５の処理にて分離された部分は、次の文章を構成するクラスタリング済み音声認識データｂ’群に対応する整形生字幕データｃを生成する際に、ステップＳ６０４，Ｓ６０５の処理にて結合される。

整形生字幕データ生成部２２は、ステップＳ６０４またはステップＳ６０５から移行して、整形生字幕データｃを出力する（ステップＳ６０６）。

図８は、生字幕データａ内の単語の分離処理例（ステップＳ６０５）を説明する図である。図８には示してないが、図７と同様に、１つの文章を構成するクラスタリング済み音声認識データｂ’群の文章を、「東京」「の」「天気」「は」「晴れ」「です。」とする。

この１つの文章を含む生字幕データａ群は、生字幕データａ₂の「８：００：１０東京の天気は」及び生字幕データａ₃の「８：００：１３晴れです。神奈川」である。

生字幕データａ群である生字幕データａ₂，ａ₃のうち最終の生字幕データａ₃について、最終文字「川」は文章境界ではなく、文章境界の句点が最終文字「川」以外の箇所にあると判定される。そして、生字幕データａ₂，ａ₃は、１つの文章に加え、最終の生字幕データａ₃内に次の文章の最初の部分が含まれると判断される。

そして、最終の生字幕データａ₃から、文章境界の句点よりも後ろの部分「神奈川」が分離され、当該部分「神奈川」を除いて生字幕データａ₂，ａ₃が結合され、「８：００：００東京の天気は晴れです。」の整形生字幕データｃが生成される。

尚、図７と同様に、「８：００：００東京の天気は晴れです。」の整形生字幕データｃにおける時刻は、クラスタリング済み音声認識データｂ’の単語Ｅ₀「８：００：００東京」の時刻「８：００：００」に補正されている。

また、最終の生字幕データａ₃から分離された部分「神奈川」は、次の文章の冒頭の部分として、図６のステップＳ６０４，Ｓ６０５の処理にて結合され、「８：００：１３神奈川・・・」の整形生字幕データｃが生成される。

図３に戻って、出力部２３は、生字幕整形部１３の出力インターフェース部であり、整形生字幕データ生成部２２から整形生字幕データｃを入力し、整形生字幕データｃを出力する。

以上のように、本発明の実施形態の生字幕整形処理装置１によれば、生字幕整形部１３の文章単位判定部２１は、音声認識データｂにおける文章境界を、音声認識データｂである単語間の時間関係に基づいて判断し、文章単位のクラスタリング済み音声認識データｂ’を判定する。

整形生字幕データ生成部２２は、１つの文章を構成するクラスタリング済み音声認識データｂ’群に対応する１つの文章を含む生字幕データａ群を特定し、生字幕データａ群のうち最終の生字幕データａ内の一連の文字について、文章境界を判断する。

整形生字幕データ生成部２２は、最終の生字幕データａについて最終文字が文章境界である場合、生字幕データａ群を結合し、１つの文章の整形生字幕データｃを生成する。一方、整形生字幕データ生成部２２は、最終の生字幕データａについて最終文字が文章境界でない場合、最終の生字幕データａ内で文章境界を求め、文章境界の次の文字から最終文字までの部分を分離し、分離後の生字幕データａ群を結合することで、１つの文章の整形生字幕データｃを生成する。

これにより、音声認識データｂを基準として１つの文章が判断されるから、生字幕データａ内において、１つの文章の区切りが明確になる。つまり、音声認識データｂに基づいた生字幕データａの内容に応じて生字幕データを結合または分離し、整形生字幕データｃを生成するようにしたから、一層理解し易い整形生字幕データｃを生成することができる。

したがって、生字幕データａの単位で分断されている字幕内容を、文章レベルで結合または分離することができ、一層理解し易い生字幕付き番組の提供が可能となる。

〔生字幕整形処理装置１の適用例〕
次に、図１に示した生字幕整形処理装置１の適用例について説明する。図９は、システム構成例Ａを説明する図であり、映像、音声及び整形生字幕データｃを放送波により送信する例である。このシステムは、生字幕整形処理装置１、番組送出装置２及び送信装置３を備えて構成される。

生字幕整形処理装置１は、番組送出装置２から放送用送出信号を入力し、前述の処理により整形生字幕データｃを生成し、整形生字幕データｃを番組送出装置２へ出力する。

番組送出装置２は、放送用送出信号を生字幕整形処理装置１へ出力する。そして、番組送出装置２は、生字幕整形処理装置１から整形生字幕データｃを入力し、放送用送出信号に含まれる生字幕データを削除し、放送用送出信号に対し、生字幕データの代わりに整形生字幕データｃを格納し、整形生字幕データｃを含む放送用送出信号を生成する。番組送出装置２は、整形生字幕データｃを含む放送用送出信号を送信装置３へ出力する。

送信装置３は、番組送出装置２から放送用送出信号を入力し、放送用放出信号を変調して放送波を送信する。

図示しない受信端末は、例えばスマートフォン、テレビであり、送信装置３から送信された放送波を受信し、放送波から放送用送出信号を復調し、放送用送出信号から映像、音声及び整形生字幕データｃを抽出し、映像及び音声を再生しながら、整形生字幕データｃを画面表示する。

これにより、図１２（１）及び（２）に示したような文章が途中で分断された形態で字幕が表示されることがなく、文章単位の字幕が表示されるから、ユーザは、字幕の内容を容易に理解することができる。

尚、生字幕整形処理装置１は、番組送出装置２から放送用送出信号を入力するようにしたが、生字幕データａ及び音声認識データｂのマッチングデータを入力するようにしてもよい。

この場合、生字幕整形処理装置１は、図１に示した字幕抽出部１０、音声認識部１１及びマッチング部１２を備えておらず、生字幕整形部１３のみを備え、番組送出装置２は、図１に示した字幕抽出部１０、音声認識部１１及びマッチング部１２の機能を実現する。後述する図１０及び図１１についても同様である。

図１０は、システム構成例Ｂを説明する図であり、映像、音声及び整形生字幕データｃを、インターネットを介して送信する例である。このシステムは、生字幕整形処理装置１、番組送出装置２及び送信装置４を備えて構成される。送信装置４と図示しない受信端末とは、インターネット５を介して接続される。

生字幕整形処理装置１及び番組送出装置２は、図９に示した構成と同様である。番組送出装置２は、整形生字幕データｃを含む放送用送出信号を送信装置４に出力する。

送信装置４は、番組送出装置２から放送用送出信号を入力し、放送用放出信号をＩＰパケットに格納し、ＩＰパケットを、インターネット５を介して図示しない受信端末へ送信する。

図示しない受信端末は、送信装置４から送信されたＩＰパケットを受信し、ＩＰパケットから放送用送出信号を抽出し、放送用送出信号から映像、音声及び整形生字幕データｃを抽出し、映像及び音声を再生しながら、整形生字幕データｃを画面表示する。

これにより、図９と同様に、画面には文章単位の字幕が表示されるから、ユーザは、字幕の内容を容易に理解することができる。

図１１は、システム構成例Ｃを説明する図であり、映像、音声及び生字幕データを放送波により送信し、整形生字幕データｃを、インターネットを介して送信する例である。このシステムは、生字幕整形処理装置１、番組送出装置２及び送信装置３，６を備えて構成される。送信装置６と図示しない受信端末とは、インターネット５を介して接続される。

番組送出装置２は、放送用送出信号を生字幕整形処理装置１及び送信装置３へ出力する。生字幕整形処理装置１は、番組送出装置２から放送用送出信号を入力し、前述の処理により整形生字幕データｃを生成し、整形生字幕データｃを送信装置６へ出力する。

送信装置３は、番組送出装置２から生字幕データを含む放送用送出信号を入力し、放送用放出信号を変調して放送波を送信する。

送信装置６は、生字幕整形処理装置１から整形生字幕データｃを入力し、整形生字幕データｃをＩＰパケットに格納し、ＩＰパケットを、インターネット５を介して図示しない受信端末へ送信する。

図示しない受信端末は、送信装置３から送信された放送波を受信すると共に、送信装置６から送信されたＩＰパケットを受信する。そして、受信端末は、放送波から放送用送出信号を復調し、放送用送出信号から映像、音声及び生字幕データを抽出する。また、受信端末は、ＩＰパケットから整形生字幕データｃを抽出する。

受信端末は、映像及び音声を再生しながら、生字幕データに代えて整形生字幕データｃを画面表示する。

映像、音声、生字幕データ及び整形生字幕データｃを送受信する送信装置３，６と受信端末との間の通信は、例えばハイブリッドキャスト、ＭＭＴ（ＭＰＥＧＭｅｄｉａＴｒａｎｓｐｏｒｔ：ＭＰＥＧメディアトランスポート）のサービスにより実現される。

尚、受信端末は、ユーザの操作に従い、放送波の放送用送出信号から抽出した生字幕データ、及びＩＰパケットから抽出した整形生字幕データｃのうちのいずれかを選択するようにしてもよい。受信端末は、選択した生字幕データまたは整形生字幕データｃを画面表示する。

また、図１１に示したシステム構成例Ｃにおいて、第１の受信端末（例えばテレビ）が、送信装置３から送信された放送波を受信し、第２の受信端末（例えばスマートフォン）が、送信装置６から送信されたＩＰパケットを受信するようにしてもよい。

この場合、第１の受信端末は、放送波から放送用送出信号を復調し、放送用送出信号から映像、音声及び生字幕データを抽出し、映像及び音声を再生する。または、第１の受信端末は、映像及び音声を再生しながら、生字幕データを画面表示する。一方、第２の受信端末は、ＩＰパケットから整形生字幕データｃを抽出し、整形生字幕データｃを画面表示する。

これにより、第２の受信端末の画面には文章単位の字幕が表示されるから、ユーザは、第１の受信端末の画面にて映像及び音声を視聴しながら、第２の受信端末の画面にて文章単位の字幕を見ることができ、字幕の内容を容易に理解することができる。

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば前記実施形態では、生字幕整形部１３は、音声認識データｂにおける文章境界を判断し、これに対応する生字幕データａにおける文章境界を判断し、複数の生字幕データａを結合する等して、整形生字幕データｃを生成するようにした。

これに対し、生字幕整形部１３は、音声認識データｂを用いることなく、生字幕データａのみを用いて整形生字幕データｃを生成するようにしてもよい。例えば、生字幕整形部１３は、形態素解析手法により全ての生字幕データａの解析を行い、句点を判断し、生字幕データａにおける文章境界を判断し、複数の生字幕データａを結合する等して、整形生字幕データｃを生成する。

また、前記実施形態では、生字幕整形部１３は、生字幕データａの文章境界を、句点「。」の有無により判断するようにしたが、本発明はこれに限定されるものではない。例えば読点「、」の有無により判断するようにしてもよい。

また、前記実施形態では、生字幕整形処理装置１は、図９〜図１１に示したシステム構成例Ａ，Ｂ，Ｃにおいて、送信側の装置の一部として設置するようにした。これに対し、生字幕整形処理装置１は、受信端末に適用し、受信端末が、生字幕整形処理装置１の機能を実現するようにしてもよい。

尚、本発明の実施形態による生字幕整形処理装置１のハードウェア構成としては、通常のコンピュータを使用することができる。生字幕整形処理装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

生字幕整形処理装置１に備えた字幕抽出部１０、音声認識部１１、マッチング部１２及び生字幕整形部１３の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１生字幕整形処理装置
２番組送出装置
３，４，６送信装置
５インターネット
１０字幕抽出部
１１音声認識部
１２マッチング部
１３生字幕整形部
２０入力部
２１文章単位判定部
２２整形生字幕データ生成部
２３出力部
ａ生字幕データ
ｂ音声認識データ
ｂ’ クラスタリング済み音声認識データ
ｃ整形生字幕データ
Ｅ単語
Ｐ単語数
ＥＴ時間差
Ｔ閾値

Claims

映像、音声及び生字幕データを含む放送用送出信号から前記生字幕データを抽出し、前記生字幕データを整形することで整形生字幕データを生成する生字幕整形処理装置において、
前記放送用送出信号から生字幕時刻情報を含む前記生字幕データを抽出する字幕抽出部と、
前記放送用送出信号に含まれる前記音声に対して音声認識処理を施し、音声時刻情報を含む音声認識データを生成する音声認識部と、
前記字幕抽出部により抽出された前記生字幕データと、前記音声認識部により生成された前記音声認識データとの間のマッチングを行うマッチング部と、
前記マッチング部によりマッチングが行われた前記音声認識データの文章境界を判断し、前記音声認識データの前記文章境界に対応する、前記マッチング部によりマッチングが行われた前記生字幕データの前記文章境界を判断し、前記生字幕データを用いて文章単位の前記整形生字幕データを生成する生字幕整形部と、
を備えたことを特徴とする生字幕整形処理装置。
請求項１に記載の生字幕整形処理装置において、
前記生字幕整形部は、
前記音声認識データに含まれる前記音声時刻情報を用いて、連続する前記音声認識データの間の時間差を求め、前記時間差及び前記音声認識データ内の句点の有無に基づいて、前記音声認識データの前記文章境界を判断し、文章単位の前記音声認識データを判定する文章単位判定部と、
前記文章単位判定部により判定された文章単位の前記音声認識データに対応する１つの文章を含む生字幕データ群を特定し、前記生字幕データ群に含まれる前記生字幕データ内の前記文章境界を判断し、文章単位の前記整形生字幕データを生成する整形生字幕データ生成部と、
を備えたことを特徴とする生字幕整形処理装置。
請求項２に記載の生字幕整形処理装置において、
前記文章単位判定部は、
第１の前記音声認識データを第１音声認識データとし、当該第１音声認識データに続く前記音声認識データを第２音声認識データとして、
前記第１音声認識データに含まれる前記音声時刻情報及び前記第２音声認識データに含まれる前記音声時刻情報を用いて、前記第１音声認識データと前記第２音声認識データとの間の前記時間差を求め、
前記時間差が所定の閾値よりも小さく、かつ前記第１音声認識データに前記句点がないと判定した場合、前記第１音声認識データは前記文章境界でなく、前記第１音声認識データ及び前記第２音声認識データが同じ文章内にあると判断し、
前記時間差が前記所定の閾値以上であると判定した場合、または前記第１音声認識データに前記句点があると判定した場合、前記第１音声認識データは前記文章境界であり、前記第１音声認識データ及び前記第２音声認識データが異なる文章内にあると判断し、文章単位の前記音声認識データを判定する、ことを特徴とする生字幕整形処理装置。
請求項２または３に記載の生字幕整形処理装置において、
前記整形生字幕データ生成部は、
前記文章単位判定部により判定された文章単位の前記音声認識データに対応する１つの文章を含む前記生字幕データ群を特定し、前記生字幕データ群のうち最終の前記生字幕データ内の前記文章境界を判断し、前記生字幕データ群を結合することで、または最終の前記生字幕データ内の前記文章境界よりも後ろの部分を分離し、分離後の前記生字幕データ群を結合することで、文章単位の前記整形生字幕データを生成する、ことを特徴とする生字幕整形処理装置。
請求項１から４までのいずれか一項に記載の生字幕整形処理装置において、
前記生字幕整形部により生成された文章単位の前記整形生字幕データは、
前記放送用送出信号に格納され、前記映像、前記音声及び前記整形生字幕データを含む前記放送用送出信号として放送波により送信される、
または、前記映像及び前記音声と共にＩＰパケットに格納され、インターネットを介して送信される、
または、前記ＩＰパケットに格納され、前記インターネットを介して送信される、ことを特徴とする生字幕整形処理装置。
コンピュータを、請求項１から５までのいずれか一項に記載の生字幕整形処理装置として機能させるためのプログラム。