JP2019213198A

JP2019213198A - 字幕生成方法および字幕生成装置

Info

Publication number: JP2019213198A
Application number: JP2019103517A
Authority: JP
Inventors: ビョンジュ・キム; Byungju Kim; ソンヒ・ソ; Songhee So; ウィジュン・ソン; Euijoon Son; スンジュン・アン; Seungjoon Ahn; スンヨン・ユン; Sungyoung Yoon
Original assignee: NCSoft Corp
Current assignee: NCSoft Corp
Priority date: 2018-06-04
Filing date: 2019-06-03
Publication date: 2019-12-12
Anticipated expiration: 2039-06-03
Also published as: EP3579570A1; KR102067446B1; JP6912517B2; US11330342B2; JP7269286B2; JP2021170803A; KR20190138109A; US20190373336A1

Abstract

【課題】視聴者の放送への興味を誘発するための試みの一環として放送字幕を制作する。【解決手段】字幕生成方法は、放送データに含まれた話し手の音声に対応する字幕テキストを生成する段階と、放送データに含まれた話し手の音声のうちの一部を用いて音声基準情報を生成する段階と、話し手の音声および音声基準情報に基づいて、字幕テキストについての字幕スタイル情報を生成する段階と、を含む。前記字幕生成方法は、話し手の音声および音声基準情報に基づいて、字幕テキストを変更する段階をさらに含み得る。【選択図】図３

Description

以下の説明は、字幕生成方法および字幕生成装置に関する。より具体的には、音声情報に基づいて字幕を生成する方法および装置に関する。

最近、ニュース、スポーツ、ゲーム、使用者制作コンテンツ（ＵｓｅｒＧｅｎｅｒａｔｅｄＣｏｎｔｅｎｔｓ：ＵＧＣ）、およびテレプレゼンス（Ｔｅｌｅｐｒｅｓｅｎｃｅ）などのように様々な産業分野でストリーミングサービス（ＳｔｒｅａｍｉｎｇＳｅｒｖｉｃｅ）が多く使用されている。

また、スマートフォンを通じて様々な分野の放送を提供する個人放送の制作者によって放送サービスの提供も活性化されている。

個人放送の制作者や放送サービスのプロバイダは、視聴者の放送への興味を誘発するために様々な試みをしており、その一環として放送字幕を制作することもある。

本発明の一態様による字幕生成方法は、放送データに含まれた話し手の音声に対応する字幕テキストを生成する段階と、前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成する段階と、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成する段階と、を含む。

前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転および特殊効果のうち、少なくとも１つを制御するための制御情報を含み得る。

前記字幕生成方法は、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更する段階をさらに含み得る。

前記字幕テキストを変更する段階は、前記字幕テキストに既設定された字を追加するか、前記字幕テキストに特殊文字を追加するか、前記字幕テキストに含まれた１つ以上の単語を連関単語として変更するか、または前記字幕テキストに含まれた１つ以上の単語を繰り返し追加し得る。

前記字幕生成方法は、前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成する段階をさらに含み、前記字幕情報は、前記画面スタイル情報をさらに含み得る。

前記画面スタイル情報は、前記字幕テキストが表示される映像画面のサイズ、色、揺れ、および特殊効果のうち、少なくとも１つを制御するための制御情報を含み得る。

前記字幕スタイル情報を生成する生成段階は、前記字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成し得る。

前記音声基準情報は、前記放送データに含まれた前記話し手の音声のうち、一部の音声状態に関する情報を含み、前記音声状態は、音声の大きさ、音色、および感情のうち、少なくとも１つを含み得る。

前記字幕スタイル情報を生成する段階は、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成し得る。

本発明の一態様による字幕生成装置は、通信インターフェースと、プロセッサーとを含み、前記プロセッサーは、放送データに含まれた話し手の音声に対応する字幕テキストを生成し、前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成し、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成する。

前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転、および特殊効果のうち、少なくとも１つを制御するための制御情報を含み得る。

前記プロセッサーは、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更し得る。

前記プロセッサーは、前記字幕テキストに既設定された字を追加するか、前記字幕テキストに特殊文字を追加するか、前記字幕テキストに含まれた１つ以上の単語を連関単語として変更するか、または前記字幕テキストに含まれた１つ以上の単語を繰り返し追加し得る。

前記プロセッサーは、前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成し得る。

前記プロセッサーは、前記字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成し得る。

前記プロセッサーは、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成し得る。

一実施例による字幕生成のためのシステムの構成を示した図面。一実施例による字幕生成サーバーの構成を示した図面。一実施例による字幕生成方法を示したフローチャート。一実施例による音声基準情報の例示を示した図面。一実施例による字幕スタイル変更の例示を示した図面。一実施例による画面スタイル変更の例示を示した図面。一実施例による字幕テキスト変更方法を示したフローチャート。一実施例による字幕テキスト変更の例示を示した図面。他の一実施例による字幕生成方法を行う使用者端末の構成を示した図面。例示的な実施例で使用されるのに適切なコンピューティング装置を含むコンピューティング環境を例示して説明するためのブロック図。

以下で、添付された図面を参照して実施例を詳細に説明する。各図面に提示された同じ参照符号は、同じ部材を示す。以下で説明する実施例には、様々な変更が加えられ得る。以下で説明する実施例は、実施形態について限定するものではなく、これらについてのすべての変更、均等物ないし代替物を含むものと理解されるべきである。

実施例で使用した用語は、単に特定の実施例を説明するために使用されたものであって、実施例を限定しようとする意図ではない。単数の表現は、文脈上明らかに別の方法で意味しない限り、複数の表現を含む。本明細書における、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定しようとするものであって、１つまたはそれ以上の他の特徴や数字、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加の可能性を予め排除しないものと理解されるべきである。

別の方法で定義されない限り、技術的または科学的な用語を含んでここで使用されるすべての用語は、実施例が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されているような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解釈されるべきであり、本出願で明らかに定義しない限り、理想的または過度に形式的な意味に解釈されない。

また、添付図面を参照して説明することにおいて、図面符号にかかわらず、同じ構成要素は同じ参照符号を付与し、これについての重複する説明は省略する。実施例を説明することにおいて、係る公知技術についての具体的な説明が実施例の要旨を不必要にぼかすことができると判断される場合、その詳細な説明を省略する。

図１は、一実施例による字幕生成システム１０の構成を示した図面である。

図１を参照すると、一実施例による字幕生成システム１０は、サーバー１００、放送端末２００、使用者端末３００を含む。

字幕生成システム１０内に含まれた様々な個体（Ｅｎｔｉｔｉｅｓ）間の通信は、有／無線ネットワーク（図示せず）を介して行われ得る。有／無線ネットワークは、標準通信技術および／またはプロトコルが使用され得る。

放送端末２００は、ゲーム、食べ物、ニュース、教育、コンサルティングなどの独自の制作されたコンテンツを放送するか、またはスポーツ、選挙などの他の放送主体によって事前制作されたコンテンツを中継放送し得る。

使用者端末３００は、放送端末２００によって制作および／または中継される放送を視聴するか、または放送でチャット、後援などを行う視聴者の端末であり得る。

使用者端末３００は、様々な形で実装できるが、一例として、スマートフォンのようなモバイル端末、スマートパッドのようなパッド型端末、ラップトップコンピューターなどの各種形のコンピューター、ウェアラブルデバイス、ＴＶ端末などの形で実装できる。

サーバー１００は、放送プラットフォームのための様々な機能を提供できる。サーバー１００が提供する放送は、リアルタイム放送のほかに事前制作放送、ＶＯＤ（ＶｉｄｅｏＯｎＤｅｍａｎｄ）なども含み得る。

また、放送端末２００および使用者端末３００は、それぞれサーバー１００を介して放送プラットフォームの機能の提供を受けるための視聴者アカウントおよび放送主体アカウントを意味し得る。

一実施例による字幕生成システム１０は、放送字幕を自動的に生成して使用者に提供できる。そして、話し手の音声状態に応じて、放送字幕や放送画面に様々な効果を付加する機能を提供できる。

サーバー１００は、放送端末２００によって制作および／または中継される放送データを放送端末２００から受信する。放送データは、放送のためのビデオファイル、オーディオファイル、各種設定ファイルなどを含み得る。

サーバー１００は、放送端末２００から受信された放送データを使用者端末３００に送信する。このとき、サーバー１００は、放送端末２００から受信された放送データをそのまま使用者端末３００に送信するか、またはリアルタイム放送、事前制作放送、ＶＯＤなどの放送形式に当たるデータに変換して送信できる。また、実施例に応じて、サーバー１００は、使用者端末３００に送信する放送データについて映像編集、画質改善、ビージー追加などの様々な種類の処理を行った後に使用者端末３００に送信できる。

一方、サーバー１００は、放送データから放送音声の字幕を自動的に生成し得る。例えば、サーバー１００は、放送データに含まれたオーディオファイルから音声を抽出し、抽出された音声を認識して当該音声についての字幕テキストを生成し得る。

また、サーバー１００は、抽出された音声についての状態情報に基づいて、字幕テキストのスタイル（例えば、字幕テキストのサイズ、色、フォントなど）および放送画面のスタイル（例えば、放送画面のサイズ、色、動きなど）のうち、少なくとも１つを変更し得る。

使用者端末３００は、サーバー１００から受信された放送データおよび字幕データを画面に出力できる。

一実施例において、使用者端末３００は、サーバー１００から一部支援を受けて字幕を直接生成するか、またはサーバー１００との通信なしに独自に字幕を生成し得る。これについては、以下の図９で具体的に説明する。

図２は、一実施例によるサーバー１００の構成を示した図面である。

図２を参照すると、一実施例によるサーバー１００は、少なくとも１つのプロセッサによって動作し、字幕テキスト生成部１１０、音声状態分析部１３０、音声基準情報生成部１５０、字幕情報生成部１７０を含み得る。

一実施例において、字幕テキスト生成部１１０、音声状態分析部１３０、音声基準情報生成部１５０および字幕情報生成部１７０は、物理的に区分された１つ以上の装置を用いて実装するか、または１つ以上のプロセッサーまたは１つ以上のプロセッサーおよびソフトウェアの結合によって実装でき、図示された例とは異なり、具体的な動作において明確に区分されないこともある。

字幕テキスト生成部１１０は、放送端末２００から受信された放送データに含まれた話し手の音声に対応する字幕テキストを生成する。

具体的に、字幕テキスト生成部１１０は、音声認識技術を用いて放送端末２００から受信された放送データ（映像ファイルまたはオーディオファイル）に含まれた話し手の音声を認識し、認識された音声に対応する字幕テキストを生成し得る。このとき、字幕テキスト生成部１１０は、音声認識の結果が不正確な部分についてはこれを示す表示（例えば、「？？？」または「ｏｏｏ」）を追加して字幕テキストを生成し得る。

一方、字幕テキスト生成部１１０は、生成された字幕テキストを字幕情報生成部１７０に提供する。字幕情報生成部１７０は、字幕テキストを含む字幕情報を生成し、使用者端末３００に送信することになる。

音声状態分析部１３０は、放送データ（映像ファイルまたはオーディオファイル）に含まれた話し手の音声についての音声状態を分析できる。このとき、音声状態は、音声の大きさ、音色の感情のうち、少なくとも１つを含み得る。一方、音声状態分析部１３０は、音声状態を分析するために様々な音声分析技術を活用し得る。

音声基準情報生成部１５０は、放送データに含まれた話し手の音声のうちの一部を用いて音声基準情報を生成する。

一実施例によると、音声基準情報生成部１５０は、放送データに含まれた話し手の音声のうち、一定時間の間に発話した音声についての音声状態に基づいて、音声基準情報を生成し得る。例えば、音声基準情報生成部１５０は、放送開始の時点から既設定された時間の間に発話した話し手の音声状態、または、放送端末２００または使用者端末３００の要請によって設定された時間の間に発話した話し手の音声状態に基づいて、音声基準情報を生成する。

一方、音声基準情報は、話し手の音声状態についての基準となる情報であって、話し手が普段に発話する音声の音声状態に関する情報であり得る。一実施例において、サーバー１００は、音声基準情報に基づいて、音声状態の変化を感知し、字幕のスタイルおよび／または映像画面のスタイルを変更させ得る。

字幕情報生成部１７０は、話し手の音声および音声基準情報に基づいて、字幕テキストについての字幕スタイル情報を生成する。

具体的に、字幕情報生成部１７０は、音声基準情報をもとに現在認識した音声（対象音声）の字幕テキストに適用する字幕スタイルを決定し得る。字幕スタイルは、字幕テキストを飾るための情報であって、字幕テキストのデザイン様式に該当する。

一実施例によると、字幕情報生成部１７０は、話し手の音声および音声基準情報をもとに字幕テキストが表示される映像画面についての画面スタイルを決定し得る。画面スタイルは、字幕テキストが出力される時点の映像画面を飾るための情報である。

また、一実施例によると、字幕情報生成部１７０は、話し手の音声および音声基準情報をもとに音声の字幕テキストを変更し得る。例えば、字幕情報生成部１７０は、話し手の音声についての音声状態に応じて、字幕テキストに特定の文字または特殊文字などを追加させるか、または字幕テキストの特定の文字を他の文字に変更し得る。

一方、字幕情報生成部１７０は、通信部（図示せず）を介して、字幕テキストおよび字幕スタイル情報を含む字幕情報を使用者端末３００に送信できる。このとき、実施例に応じて、字幕情報は、画面スタイル情報をさらに含み得る。

一方、字幕情報を受信した使用者端末３００は、字幕スタイル情報に基づいて、字幕テキストに適用される字幕スタイルを確認し、確認された字幕スタイルを字幕テキストに適用して使用者端末３００の画面に出力する。このために、使用者端末３００には、字幕スタイル情報に基づいて、字幕テキストのサイズ、色、フォントなどを変更し得るデザイン様式を保存できる。

また、一実施例によると、使用者端末３００は、受信された字幕情報に画面スタイル情報が含まれている場合、画面スタイル情報に基づいて、画面スタイルを確認し、確認された画面スタイルに基づいて、字幕テキストが出力される映像画面を制御できる。

一方、実施例に応じて、字幕情報生成部１７０は、字幕テキストに字幕スタイルを適用した後、字幕スタイルで飾られた字幕レイヤー（字幕画面）を使用者端末３００に送信できる。この場合、使用者端末３００は、受信された字幕レイヤー（字幕画面）を字幕が表示される映像にオーバーレイできる。

図３は、一実施例による字幕生成方法を示したフローチャートである。

図３を参照すると、一実施例による字幕生成方法は、サーバー１００で行われる字幕生成方法であって、字幕テキスト抽出動作２０１、音声状態分析動作２０３、音声基準情報生成動作２０５、字幕スタイル情報生成動作２０７、画面スタイル情報生成動作２０９、字幕情報送信動作２１１を含む。

説明に先立って、一実施例では、一人の話し手を基準に説明するが、多数の話し手が存在する場合にサーバー１００は、話し手ごとに字幕生成方法を行って、話し手ごとに字幕情報を生成し得る。

まず、字幕テキスト生成部１１０は、音声認識技術を用いて放送端末２００から受信された放送データ（映像ファイルまたはオーディオファイル）に含まれた話し手の音声に対応する字幕テキストを生成する（２０１）。

このとき、前述したように、字幕テキスト生成部１１０は、音声認識の結果が不正確な部分についてはこれを示す表示（例えば、「？？？」または「ｏｏｏ」）を含む字幕テキストを生成し得る。

字幕テキスト生成部１１０は、生成された字幕テキストを字幕情報生成部１７０に提供し、字幕情報生成部１７０は、字幕テキストを含む字幕情報を生成して使用者端末３００に送信できる。

以後、音声状態分析部１３０は、放送データ（映像ファイルまたはオーディオファイル）に含まれた話し手の音声についての音声状態を分析する（２０３）。このとき、音声状態は、音声の大きさ（例えば、デシベル）、音色（例えば、柔らかさ、粗さ、遅さ、速さ）、話し手の感情（例えば、喜び、驚き、悲しみ、怒り）などを含み得る。一方、音声状態分析部１３０は、音声状態分析のために、様々な音声分析技術を用い得る。

以後、音声基準情報生成部１５０は、放送データに含まれた話し手の音声のうちの一部を用いて音声基準情報を生成する（２０５）。

音声基準情報は、話し手の音声状態を判断するための１つの基準となる情報であって、話し手が普段に発話する音声の音声状態に関する情報であり得る。すなわち、音声基準情報は、例えば、話し手が普段に発話する音声の大きさ、音色、感情などを含む情報であり得る。

一方、音声基準情報生成部１５０は、例えば、放送データに含まれた話し手の音声のうち、放送開始の時点から既設定された時間の間に発話した話し手の音声を音声基準情報を生成するための基準音声として用い得る。他の例として、音声基準情報生成部１５０は、放送データに含まれた話し手の音声のうち、放送端末２００または使用者端末３００の要請によって設定された時間の間に発話した話し手の音声を基準音声として用い得る。また他の例として、音声基準情報生成部１５０は、例えば、放送データに含まれた話し手の音声のうち、放送中の特定イベント（例えば、インターミッション、広告など）が起こる時間に発話した話し手の音声を基準音声として用い得る。このように音声基準情報生成部１５０は、実施例に応じて、様々な時間、条件で発話した話し手の音声を基準音声として用い得る。

図４は、一実施例による音声基準情報の例示を示した図面である。

図４を参照すると、一実施例による音声基準情報は、基準音声の音声状態に関する情報を含み得る。図面で音声基準情報として、基準音声の大きさが「４０デシベル」、音色が「柔らかさ」、感情が「中立」で生成されていることが分かる。

また、図３を参照すると、一実施例におけるサーバー１００は、音声基準情報に基づいて、話し手の音声についての音声状態の変化を感知し、字幕のスタイルおよび映像画面のスタイルのうち、少なくとも１つを変更させ得る。すなわち、サーバー１００は、現在認識した話し手の音声（対象音声）についての音声状態と音声基準情報との間の差を用いて字幕スタイルおよび画面スタイルのうち、少なくとも１つを変更し得る。

具体的に、字幕情報生成部１７０は、放送データに含まれた話し手の音声および音声基準情報をもとに字幕スタイル情報を生成する（２０７）。

字幕スタイル情報は、字幕テキストのサイズ、色、フォント、出力位置、回転、および特殊効果のうち、少なくとも１つを制御するための情報である。

字幕情報生成部１７０は、現在認識した音声（対象音声）についての音声状態と音声基準情報との間の差に基づいて、対象音声のテキスト字幕についての字幕スタイル情報を生成し得る。

例えば、字幕情報生成部１７０は、対象音声の大きさを音声基準情報に含まれた基準音声の大きさと比較して対象音声の大きさが既設定された大きさほど増加するたびに、字幕テキストのサイズを１ポイント大きく設定し得る。逆に、字幕情報生成部１７０は、対象音声の大きさを音声基準情報に含まれた基準音声の大きさと比較して対象音声の大きさが既設定された大きさほど減少するたびに、字幕テキストのサイズを１ポイント小さく設定し得る。

他の例として、字幕情報生成部１７０は、対象音声の感情が音声基準情報に含まれた基準音声の感情と異なる場合には、字幕テキストの色を異にして設定し得る。すなわち、字幕テキストの色を対象音声の感情が「怒り」であれば赤い色、「楽しさ」であれば青い色、「恐れ」であれば黒い色、「悲しみ」であれば灰色で設定し得る。ここで説明する感情についての色は、１つの例示に過ぎず、管理者の設定などに応じていつでも変更し得ることは自明であろう。

また他の例として、字幕情報生成部１７０は、対象音声の音色が音声基準情報に含まれた基準音声の音色と異なる場合、字幕テキストのフォントを異にして設定し得る。すなわち、対象音声の音色が「柔らかさ」であれば明朝体、「粗さ」であればヘッドライン体、「遅さ」であればグンソ体、「速さ」であればゴシック体で設定し得る。ここで説明する音色についてのフォントは、１つの例示に過ぎない。

また他の例として、字幕情報生成部１７０は、対象音声の大きさおよび感情を音声基準情報に含まれた基準音声の大きさおよび感情と比較し、字幕テキストの出力位置、回転、特殊効果のうち、少なくとも１つを設定し得る。このとき、特殊効果は、字幕テキストのサイズの変化、色の変化、揺れ、フェードイン／アウト、動きのような様々な視覚的効果を含み得る。

図５は、一実施例による字幕スタイル変更の例示を示した図面である。

一実施例において、字幕情報生成部１７０は、対象音声についての状態情報の組み合わせで字幕テキストのスタイルを多様に変更するように、字幕スタイル情報を生成し得る。すなわち、対象音声の大きさと音色の差を用いるか、音色と感情の差を用いるか、または大きさと感情の差を用いて字幕テキストのスタイルを多様に変更し得る。

そして、字幕情報生成部１７０は、字幕スタイル情報をスクリプト形式で生成し得、スクリプト形式のほかに様々なプログラミング言語の形式で生成し得る。

また、字幕情報生成部１７０は、字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成し得る。

また、図３を参照すると、字幕情報生成部１７０は、放送データに含まれた話し手の音声および音声基準情報をもとに画面スタイル情報を生成する（２０９）。

画面スタイル情報は、字幕テキストが表示される映像画面のサイズ、色、揺れ、および特殊効果のうち、少なくとも１つを制御するための情報である。

字幕情報生成部１７０は、現在認識した音声（対象音声）についての音声状態と音声基準情報との間の差に基づいて、対象音声に対応する字幕テキストが出力される時点の映像画面のスタイル（デザイン）を制御する画面スタイル情報を生成する。

例えば、字幕情報生成部１７０は、対象音声の大きさが音声基準情報に含まれた基準音声の大きさと比較して既設定された大きさほど増加するたびに、映像画面のサイズを１０ピクセル大きく設定し得る。逆に、字幕情報生成部１７０は、対象音声の大きさを音声基準情報に含まれた基準音声の大きさと比較して対象音声の大きさが既設定された大きさほど減少するたびに、映像画面のサイズを１０ピクセル小さく設定し得る。

他の例として、字幕情報生成部１７０は、対象音声の感情が音声基準情報に含まれた基準音声の感情と異なる場合、映像画面の背景色を異にして設定し得る。すなわち、映像画面の背景色を対象音声の感情が「怒り」であればかば色、「楽しさ」であれば空色、「恐れ」であれば紫色、「悲しみ」であれば灰色で設定し得る。

他の一例として、字幕情報生成部１７０は、対象音声の大きさおよび感情を音声基準情報に含まれた基準音声の大きさおよび感情と比較し、映像画面の揺れおよび特殊効果のうち、少なくとも１つを設定し得る。特殊効果は、映像画面のサイズの変化、色の変化、揺れ、フェードイン／アウト、動きのような様々な視覚的効果を含み得る。

図６は、一実施例による画面スタイル変更の例示を示した図面である。

一実施例によると、字幕情報生成部１７０は、対象音声の状態情報の組み合わせで映像画面のスタイルを多様に変更するように、画面スタイル情報を生成し得る。

一方、字幕情報生成部１７０は、画面スタイル情報をスクリプト形式で生成し得るが、スクリプト形式のほかにも様々なプログラミング言語の形式で生成し得る。

また、図３を参照すると、字幕情報生成部１７０は、字幕テキストおよび字幕スタイル情報を含む字幕情報を生成し、通信部（図示せず）を介して使用者端末３００に送信する（２１１）。

このとき、実施例に応じて、字幕情報は、画面スタイル情報をさらに含み得る。

一方、使用者端末３００は、受信された字幕情報を用いて字幕テキストを字幕スタイル情報に応じて出力できる。

また、使用者端末３００は、受信された字幕情報に画面スタイル情報が含まれている場合、映像画面を画面スタイル情報に応じて出力できる。

一方、一実施例によると、字幕情報生成部１７０は、対象音声の音声状態と音声基準情報を用いて対象音声に対応する字幕テキストのスタイルを変更するか、または映像画面のスタイルを変更させ得る。

また、一実施例によると、字幕情報生成部１７０は、音声基準情報をもとに字幕テキスト自体を変更し得る。

図７は、一実施例による字幕テキスト変更方法を示したフローチャートである。

図７を参照すると、一実施例による字幕テキスト変更方法は、音声基準情報を用いた字幕テキスト変更動作４０１、変更された字幕テキストを含む字幕情報生成動作４０３を含む。

まず、字幕情報生成部１７０は、現在認識した音声（対象音声）についての音声状態と音声基準情報との間の差に基づいて、対象音声に対応するテキスト字幕を変更する。

テキスト字幕変更の一例としては、（ｉ）字幕テキストに既設定された文字を追加するか、（ｉｉ）字幕テキストに特殊文字を追加するか、（ｉｉｉ）字幕テキストに含まれた１つ以上の単語を連関単語として変更するか、または（ｉｖ）字幕テキストに含まれた１つ以上の文字を繰り返し追加することを含み得る。

例えば、字幕情報生成部１７０は、対象音声の感情が音声基準情報に含まれた基準音声の感情と異なる場合、字幕テキストに既設定された特殊文字を追加し得る。すなわち、対象音声の感情が「怒り」であれば感嘆符（！）を、「楽しさ」であればハート

を、「悲しみ」であれば泣きを表すエモティコンや文字

を字幕テキストに追加し得る。

他の例として、字幕情報生成部１７０は、対象音声の音色が音声基準情報に含まれた基準音声の音色と異なる場合、字幕テキストに既設定された文字を追加し得る。すなわち、対象音声の音色が「柔らかさ」であれば「柔らかく」という文字を、「粗さ」であれば「粗く」という文字を追加し得る。

また他の例として、字幕情報生成部１７０は、対象音声の音色が音声基準情報に含まれた基準音声の音色と異なる場合、字幕テキストに含まれた１つ以上の文字を繰り返し追加するか、特殊文字を追加するか、または字幕テキストに含まれた１つ以上の単語を連関単語として変更し得る。具体的な例として、字幕情報生成部１７０は、対象音声（「ｇｏ」）の音色が「速さ」であれば字幕テキストである「ｇｏ」を２回繰り返し追加して「ｇｏｇｏｇｏ」に変更し得る。また、字幕情報生成部１７０は、対象音声（「ｇｏ」）の音色が「遅さ」であれば波文字（〜）を追加して（「ｇｏ〜」）に変更し得る。

図８は、一実施例による字幕テキストの追加方法の例示を示した図面である。

一方、一実施例において、字幕情報生成部１７０が、対象音声についての状態情報の組み合わせで字幕テキストを多様に変更し得ることは自明である。

また、図７を参照すると、字幕情報生成部１７０は、変更された字幕テキストを含む字幕情報を生成する（４０３）。

これによって、使用者端末３００は、変更された字幕テキストを画面に出力し、変更された字幕を使用者に提供する。

以上では、字幕情報生成部１７０が対象音声の音声状態と音声基準情報を用いて、字幕スタイル、画面スタイルおよび字幕テキストの変更を設定し得ることを説明した。単に、字幕情報生成部１７０は、対象音声の音声状態の変化に応じて字幕スタイル、画面スタイル、字幕テキストの変更のうち、１つ以上を設定し得る。

一方、他の実施例において、使用者端末３００は、サーバー１００から一部支援を受けて字幕を直接生成するか、またはサーバー１００との通信なしに独自に字幕を生成し得る。

例えば、サーバー１００は、字幕テキストのみを生成して使用者端末３００に提供し、字幕スタイルの情報、画面スタイルの情報は、使用者端末３００で生成し得る。他の例として、使用者端末３００で字幕スタイルの情報、画面スタイルの情報を生成するだけでなく、字幕テキストも生成し得る。

図９は、他の一実施例による字幕生成方法を行う使用者端末３００の構成を示した図面であって、他の一実施例による使用者端末３００は、字幕テキストを生成し、字幕スタイルの情報および画面スタイルの情報のうち、少なくとも１つを生成する。

図９を参照すると、他の実施例による使用者端末３００は、少なくとも１つの字幕情報生成部によって動作し、字幕テキスト生成部３１０、音声状態分析部３３０、音声基準情報生成部３５０、および字幕情報生成部３７０を含み得る。

一実施例において、字幕テキスト生成部３１０、音声状態分析部３３０、音声基準情報生成部３５０および字幕情報生成部３７０は、物理的に区分された１つ以上の装置を用いて実装するか、または１つ以上のプロセッサーまたは１つ以上のプロセッサーおよびソフトウェアの結合によって実装でき、図示された例とは異なり、具体的な動作において明確に区分されないこともある。

使用者端末３００に含まれた字幕テキスト生成部３１０、音声状態分析部３３０、音声基準情報生成部３５０、字幕情報生成部３７０は、それぞれ前述したサーバー１００に含まれた字幕テキスト生成部１１０、音声状態分析部１３０、音声基準情報生成部１５０および字幕情報生成部１７０と同じ機能を行うことができる。

一方、使用者端末３００は、図３で前述した字幕生成方法を行って字幕テキスト、字幕スタイルの情報、画面スタイルの情報を含む字幕情報を生成し、字幕情報を用いて字幕テキストを画面に出力して使用者に提供する。

図１０は、例示的な実施例で使用されるのに適切なコンピューティング装置を含むコンピューティング環境を例示して説明するためのブロック図である。図示された実施例において、各コンポーネントは、以下に記述されたものに加えて、異なる機能および能力を有することができ、以下に記述されていないものに加えて、追加的なコンポーネントを含み得る。

図示されたコンピューティング環境１０００は、コンピューティング装置１２を含む。一実施例において、コンピューティング装置１２は、図１に図示されたサーバー１００、放送端末２００または使用者端末３００に含まれる１つ以上のコンポーネントであり得る。

コンピューティング装置１２は、少なくとも１つのプロセッサー１４、コンピューター判読可能保存媒体１６および通信バス１８を含む。プロセッサー１４は、コンピューティング装置１２が前述の例示的な実施例に基づいて動作するようにできる。例えば、プロセッサー１４は、コンピューター判読可能保存媒体１６に保存された１つ以上のプログラムを行うことができる。前記１つ以上のプログラムは、１つ以上のコンピューター実行可能命令語を含み得、前記コンピューター実行可能命令語は、プロセッサー１４によって実行される場合、コンピューティング装置１２が例示的な実施例による動作を遂行するように構成できる。

コンピューター判読可能保存媒体１６は、コンピューター実行可能命令語ないしプログラムコード、プログラムデータおよび／または他の適切な形態の情報を保存するように構成される。コンピューター判読可能保存媒体１６に保存されたプログラム２０は、プロセッサー１４によって実行可能な命令語の集合を含む。一実施例において、コンピューター判読可能保存媒体１６は、メモリー（ランダムアクセスメモリーのような揮発性メモリー、非揮発性メモリー、またはこれらの適切な組み合わせ）、１つ以上の磁気ディスク保存デバイス、光学ディスク保存デバイス、フラッシュメモリーデバイス、その他にコンピューティング装置１２によってアクセスされ、必要な情報を保存できる他の形態の保存媒体、またはこれらの適切な組み合わせであり得る。

通信バス１８は、プロセッサー１４、コンピューター判読可能保存媒体１６を含み、コンピューティング装置１２の他の様々なコンポーネントを相互接続する。

コンピューティング装置１２はまた、１つ以上の入出力装置２４のためのインターフェースを提供する１つ以上の入出力インターフェース２２および１つ以上のネットワーク通信インターフェース２６を含み得る。入出力インターフェース２２およびネットワーク通信インターフェース２６は、通信バス１８に接続される。入出力装置２４は、入出力インターフェース２２を介してコンピューティング装置１２の他のコンポーネントに接続できる。例示的な入出力装置２４は、ポインティング装置（マウスまたはトラックパッドなど）、キーボード、タッチ入力装置（タッチパッドまたはタッチスクリーンなど）、音声または音入力装置、様々な種類のセンサー装置および／または撮影装置のような入力装置、および／またはディスプレー装置、プリンター、スピーカーおよび／またはネットワークカードのような出力装置を含み得る。例示的な入出力装置２４は、コンピューティング装置１２を構成する一コンポーネントとして、コンピューティング装置１２の内部に含み得、コンピューティング装置１２とは区別される別の装置として、コンピューティング装置１２と接続できる。

以上で説明された実施例は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素およびソフトウェア構成要素の組み合わせとして実装できる。例えば、実施例で説明された装置、方法および構成要素は、例えば、字幕情報生成部、コントローラー、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）、グラフィックプロセッシングユニット（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＧＰＵ）、ＡＬＵ（ＡｒｉｔｈｍｅｔｉｃＬｏｇｉｃＵｎｉｔ）、デジタル信号字幕情報生成部（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、マイクロコンピューター、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＰＬＵ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＵｎｉｔ）、マイクロ字幕情報生成部、注文型集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ：ＡＳＩＣＳ）、または命令（Ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答できる他の任意の装置のように、１つ以上の汎用コンピューターまたは特殊目的のコンピューターを用いて実装できる。

実施例による方法は、様々なコンピューターの手段を介して実行できるプログラム命令の形で実装してコンピューター判読可能な媒体に記録され得る。前記コンピューター判読可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含み得る。前記媒体に記録されるプログラム命令は、実施例のために特別に設計されて構成されたものであるか、またはコンピューターソフトウェアの当業者に公知の使用可能なものであり得る。コンピューター判読可能な記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体（ＭａｇｎｅｔｉｃＭｅｄｉａ）と、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体（ＯｐｔｉｃａｌＭｅｄｉａ）と、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光媒体（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）と、ロム（ＲＯＭ）、ラム（ＲＡＭ）、フラッシュメモリーのなどようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラーによって作られる機械語コードだけでなく、インタープリターなどを使用してコンピューターによって実行できる高級言語コードを含む。前記ハードウェア装置は、実施例の動作を行うために１つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上のように、たとえ限られた図面によって実施例が説明されたとしても、当該の技術分野で通常の知識を有する者であれば、前記の記載から様々な修正および変形が可能である。例えば、説明された技術が説明された方法とは異なる手順に行われたり、および／または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形で結合または組み合わされたり、他の構成要素または均等物によって代置されたり置換されても適切な結果が達成され得る。したがって、他の実装、他の実施例および特許請求の範囲と均等なものなども後述する特許請求の範囲に属する。

Claims

放送データに含まれた話し手の音声に対応する字幕テキストを生成する段階と、
前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成する段階と、
前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成する段階と、を含む字幕生成方法。
前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転、および特殊効果のうち、少なくとも１つを制御するための制御情報を含む請求項１に記載の字幕生成方法。
前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更する段階をさらに含む請求項１に記載の字幕生成方法。
前記字幕テキストを変更する段階は、
前記字幕テキストに既設定された文字を追加するか、
前記字幕テキストに特殊文字を追加するか、
前記字幕テキストに含まれた１つ以上の単語を連関単語として変更するか、
または前記字幕テキストに含まれた１つ以上の単語を繰り返し追加する請求項３に記載の字幕生成方法。
前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成する段階をさらに含む請求項１に記載の字幕生成方法。
前記画面スタイル情報は、前記字幕テキストが表示される映像画面のサイズ、色、揺れ、および特殊効果のうち、少なくとも１つを制御するための制御情報を含む請求項５に記載の字幕生成方法。
前記字幕スタイル情報を生成する生成段階は、前記字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成する請求項１に記載の字幕生成方法。
前記音声基準情報は、前記放送データに含まれた前記話し手の音声のうち、一部の音声状態に関する情報を含み、
前記音声状態は、音声の大きさ、音色、および感情のうち、少なくとも１つを含む請求項１に記載の字幕生成方法。
前記字幕スタイル情報を生成する段階は、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成する請求項８に記載の字幕生成方法。
通信インターフェースと、プロセッサーとを含み、
前記プロセッサーは、放送データに含まれた話し手の音声に対応する字幕テキストを生成し、前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成し、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成する字幕生成装置。
前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転、および特殊効果のうち、少なくとも１つを制御するための制御情報を含む請求項１０に記載の字幕生成装置。
前記プロセッサーは、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更する請求項１０に記載の字幕生成装置。
前記プロセッサーは、
前記字幕テキストに既設定された文字を追加するか、
前記字幕テキストに特殊文字を追加するか、
前記字幕テキストに含まれた１つ以上の単語を連関単語として変更するか、
または前記字幕テキストに含まれた１つ以上の単語を繰り返し追加する請求項１２に記載の字幕生成装置。
前記プロセッサーは、前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成する請求項１０に記載の字幕生成装置。
前記画面スタイル情報は、前記字幕テキストが表示される映像画面のサイズ、色、揺れ、および特殊効果のうち、少なくとも１つを制御するための制御情報を含む請求項１４に記載の字幕生成装置。
前記プロセッサーは、前記字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成する請求項１０に記載の字幕生成装置。
前記音声基準情報は、前記放送データに含まれた前記話し手の音声のうち、一部の音声状態に関する情報を含み、
前記音声状態は、音声の大きさ、音色、および感情のうち、少なくとも１つを含む請求項１０に記載の字幕生成装置。
前記プロセッサーは、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成する請求項１７に記載の字幕生成装置。