JP2019062332A

JP2019062332A - 表示態様決定装置、表示装置、表示態様決定方法及びプログラム

Info

Publication number: JP2019062332A
Application number: JP2017184414A
Authority: JP
Inventors: 立巳長沼; Tatsumi Naganuma; 英樹竹原; Hideki Takehara; 須山　明昇; Akinori Suyama; 明昇須山; 智廣瀬; Satoshi Hirose
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2019-04-18
Anticipated expiration: 2037-09-26
Also published as: JP6946898B2; US10477136B2; US20190098249A1

Abstract

【課題】字幕の可読性を向上すること。【解決手段】音声を含む映像の映像データを取得する映像データ取得部２２と、単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベース１２を参照するデータベース参照部２４と、映像データ取得部２２が取得した映像データとデータベース参照部２４が参照した使用頻度情報とに基づいて、映像に含まれる音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、使用頻度に応じて単語の表示態様を決定する決定部２５と、を備える。【選択図】図１

Description

本出願は、表示態様決定装置、表示装置、表示態様決定方法及びプログラムに関する。

例えば、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）を含む自然言語処理の技術の進歩により、映像に含まれる音声を高精度でテキストに変換することが可能である。変換されたテキストは、映像の字幕として使用することが可能である。ところが、自然言語処理によって生成されたテキストに基づいた字幕は、人間が生成した字幕に比べて可読性が低く改善の余地がある。

ユーザに与える違和感を軽減する字幕音声を生成することが可能となる字幕音声生成装置に関する技術が知られている（例えば、特許文献１参照）。この技術は、人物の話し方の状態を字幕音声に反映させることで、ユーザに与える違和感を軽減する。

特開２０１５−０１８０７９号公報

映像に含まれる音声には、頻繁に見聞きする単語と、あまり見聞きしない、または、初めて見聞きする単語とがある。頻繁に見聞きする単語を字幕とする場合、可読性は高いと考えられる。あまり見聞きしない、または、初めて見聞きする単語を字幕とする場合、可読性は低いと考えられる。このように、字幕の可読性には改善の余地がある。

本発明は、上記に鑑みてなされたものであって、字幕の可読性を向上することができる表示態様決定装置、表示装置、表示態様決定方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る表示態様決定装置は、音声を含む映像の映像データを取得する映像データ取得部と、単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースを参照するデータベース参照部と、前記映像データ取得部が取得した前記映像データと前記データベース参照部が参照した前記使用頻度情報とに基づいて、前記映像に含まれる前記音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、前記使用頻度に応じて前記単語の表示態様を決定する決定部と、を備えることを特徴とする。

本発明に係る表示装置は、音声を含む表示用映像の表示用映像データと、前記表示用映像に含まれる音声を表すテキストデータとを取得する表示用映像データ取得部と、前記表示用映像データ取得部が取得した前記テキストデータに基づいて、字幕の字幕データを生成する字幕生成部と、前記表示用映像データ取得部が取得した前記表示用映像データと前記字幕生成部が生成した前記字幕データとを表示する表示部と、前記表示用映像データ取得部が取得した前記表示用映像データと前記字幕生成部が生成した前記字幕データとを前記表示部が表示するように制御する表示制御部と、を備え、前記表示制御部は、単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースに基づいて、前記字幕データに含まれる単語ごとの使用頻度に応じて表示態様を変えた字幕を前記表示部が表示するように制御する、ことを特徴とする。

本発明に係る表示態様決定方法は、音声を含む映像の映像データを取得する映像データ取得ステップと、単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースを参照するデータベース参照ステップと、前記映像データ取得ステップによって取得した前記映像データと前記データベース参照ステップによって参照した前記使用頻度情報とに基づいて、前記映像に含まれる前記音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、前記使用頻度に応じて前記単語の表示態様を決定する決定ステップと、を含むことを特徴とする。

本発明に係るプログラムは、音声を含む映像の映像データを取得する映像データ取得ステップと、単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースを参照するデータベース参照ステップと、前記映像データ取得ステップによって取得した前記映像データと前記データベース参照ステップによって参照した前記使用頻度情報とに基づいて、前記映像に含まれる前記音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、前記使用頻度に応じて前記単語の表示態様を決定する決定ステップとをコンピュータに実行させる。

本発明によれば、字幕の可読性を向上することができるという効果を奏する。

図１は、第一実施形態に係る表示態様決定装置を含む表示システムの構成例を示すブロック図である。図２は、第一実施形態に係る単語使用頻度情報データベースの構成例を示す図である。図３は、第一実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。図４は、第一実施形態に係る表示システムが生成・表示する字幕の表示タイミングの他の例を説明する図である。図５は、第一実施形態に係る表示システムの表示態様決定装置によって生成された表示用映像データの一例を示す図である。図６は、第一実施形態に係る表示システムの表示態様決定装置が行う処理の一例を示すフローチャートである。図７は、第一実施形態に係る表示システムの表示態様決定装置によって決定された表示時間の一例を示す図である。図８は、第一実施形態に係る表示システムの表示態様決定装置によって決定された表示時間の他の例を示す図である。図９は、第一実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。図１０は、第二実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。図１１は、第二実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。図１２は、第三実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。図１３は、第三実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。図１４は、表示システムの構成例の他の例を示すブロック図である。図１５は、表示システムの構成例の他の例を示すブロック図である。図１６は、表示システムの構成例の他の例を示すブロック図である。

以下に添付図面を参照して、本発明に係る表示態様決定装置、表示装置、表示態様決定方法及びプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。

［第一実施形態］
図１は、第一実施形態に係る表示システムの構成例を示すブロック図である。表示システム１は、映像に含まれる音声の単語ごとの使用頻度に応じて単語の表示態様を決定する。表示システム１は、データベース管理装置１０と、表示態様決定装置２０と、表示装置３０とを備える。

データベース管理装置１０は、表示システム１の処理に使用するデータベースを管理する。データベース管理装置１０は、例えば、映像コンテンツの配信事業者の設備に設置される。データベース管理装置１０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や映像処理用プロセッサなどで構成された演算処理装置（制御部）である。データベース管理装置１０は、図示しない記憶部に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。データベース管理装置１０は、一または複数の装置で構成されていてもよい。データベース管理装置１０は、通信部１１と、単語使用頻度データベース（以下、単に「データベース」という。）１２と、データベース生成部１３とを有する。データベース管理装置１０は、データベース１２を管理する。

通信部１１は、表示態様決定装置２０と有線または無線により通信する。通信部１１は、表示態様決定装置２０との間でデータを送受信する。

図２を参照して、データベース１２について説明する。図２は、第一実施形態に係る単語使用頻度情報データベースの構成例を示す図である。データベース１２は、単語ごとの使用頻度を示す使用頻度情報を記憶する。単語は、主に、名詞、動詞とし、助詞、接続詞などは含めないものとする。使用頻度情報とは、例えば、新聞、テレビまたはラジオを含む情報媒体、ホームページまたはソーシャルネットワーキングサービス（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ、ＳＮＳ）を含むインターネットを介して公開されている情報における、単語ごとの使用頻度を示す情報である。使用頻度は、「高」と「低」、または、使用されている回数で示される。本実施形態では、使用頻度は、「高」または「低」とする。例えば、一般的によく使用されている単語は、使用頻度が「高」である。例えば、一般的によく使用されていない単語は、使用頻度が「低」である。

データベース生成部１３は、データベース１２を作成する。より詳しくは、データベース生成部１３は、例えば、情報媒体またはインターネット上の情報に基づいて、単語ごとの使用頻度を取得して、データベース１２に記憶する。データベース生成部１３は、例えば、情報媒体またはインターネット上の情報の更新頻度に応じて、データベース１２を更新する。

表示態様決定装置２０は、映像に含まれる音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、使用頻度に応じて単語の表示態様を決定する。表示態様決定装置２０は、例えば、配信事業者の設備に設置される。表示態様決定装置２０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や映像処理用プロセッサなどで構成された演算処理装置（制御部）である。表示態様決定装置２０は、図示しない記憶部に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。表示態様決定装置２０は、一または複数の装置で構成されていてもよい。本実施形態では、表示態様決定装置２０は、通信部２１と、映像データ取得部２２と、音声認識処理部２３と、データベース参照部２４と、決定部２５とを有する。

通信部２１は、データベース管理装置１０及び表示装置３０と有線または無線により通信する。通信部２１は、データベース管理装置１０及び表示装置３０との間でデータを送受信する。

映像データ取得部２２は、音声を含む映像の映像データを取得する。映像データ取得部２２は、取得した映像データを音声認識処理部２３に出力する。

映像データは、映像のデータである。映像データは、録画開始から録画終了までの映像を一つの単位とする。映像データは、例えば、毎秒、数１０フレームの画像から構成される動画像である。

音声データは、映像に含まれる音声のデータである。音声データは、一つの映像データに一つまたは複数が対応する。本実施形態では、音声データと映像データとは、一対一で対応する。音声データは、例えば、話者もしくは被撮影物の変化、または、句読点、語尾もしくは無声部分によって区切ってもよい。

音声認識処理部２３は、映像データ取得部２２が取得した映像に含まれる音声を認識する音声認識処理を実行して、音声を表すテキストデータを生成する。音声認識処理の方法は、公知のいずれの方法でもよく、限定されない。音声認識処理部２３は、生成したテキストデータを映像データに付加して決定部２５に出力する。

テキストデータは、映像に含まれる音声を表すテキストのデータである。言い換えると、テキストデータは、音声に対応した字幕を生成するための文字情報である。テキストデータは、音声をそのまま文字に書き起こしたものと、音声を翻訳して文字に書き起こしたものとを含む。テキストデータは、一つの音声データに一つまたは複数が対応する。本実施形態では、テキストデータは、音声データの区切りごとに生成される。

テキストデータは、映像及び音声に対応して表示を開始するタイミングと終了するタイミングとを含む表示タイミング情報を有する。例えば、表示タイミング情報は、映像及び音声の開始時間をゼロとした経過時間、映像の先頭のフレームを１フレーム目とするフレーム数、または、映像データに設けられたスタンプ位置情報によって示す。

図３、図４を用いて、表示タイミングについて説明する。図３は、第一実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。図４は、第一実施形態に係る表示システムが生成・表示する字幕の表示タイミングの他の例を説明する図である。

図３に示すように、例えば、テレビのいわゆる収録放送のように、撮影済みの映像に対して、後から字幕を生成する場合、表示タイミングは、対応する音声の再生タイミングに合わせることが好ましい。図３に示す例では、１番目の字幕の表示タイミングは時間Ｔ１１から時間Ｔ１２までであり、表示時間はＡ１である。２番目の字幕の表示タイミングは時間Ｔ１２から時間Ｔ１３までであり、表示時間はＡ２である。３番目の字幕の表示タイミングは時間Ｔ１３から時間Ｔ１４までであり、表示時間はＡ３である。

図４に示すように、例えば、テレビのいわゆる生放送のように、撮影した映像に対して、リアルタイムで字幕を生成する場合、表示タイミングは、字幕を生成するのに時間を要するため、対応する音声の再生タイミングから遅延時間ΔＴ１遅延させる。図４に示す例では、１番目の字幕の表示タイミングは時間Ｔ２２から時間Ｔ２３までであり、表示時間はＡ１である。時間Ｔ２２は、映像及び音声の再生を開始する時間Ｔ２１から遅延時間ΔＴ１遅延した時間である。２番目の字幕の表示タイミングは時間Ｔ２３から時間Ｔ２４までであり、表示時間はＡ２である。３番目の字幕の表示タイミングは時間Ｔ２４から時間Ｔ２６までであり、表示時間はＡ３である。時間Ｔ２６は、映像及び音声の再生を終了する時間Ｔ２５から遅延時間ΔＴ１遅延した時間である。

遅延時間ΔＴ１は、映像に含まれる音声からテキストデータを生成する処理に要する時間以上の長さとする。例えば、遅延時間ΔＴ１は、数１０秒程度である。

さらに、本実施形態では、音声認識処理部２３は、音声の区切りを検出してテキストデータに区切位置情報を付加するものとする。例えば、音声認識処理部２３は、話者が変わったことを認識して音声の区切りを検出してもよい。例えば、音声認識処理部２３は、句読点または語尾または無声部分を認識して音声の区切りを検出してもよい。例えば、音声認識処理部２３は、映像解析処理によって、被撮影物の変化を認識することで映像の区切りを認識して音声の区切りを検出してもよい。

区切位置情報は、テキストデータの中で区切ることが可能な位置を示す。言い換えると、区切位置情報は、テキストデータに基づいて字幕を生成する際に、字幕の区切り位置として使用することが可能である。

データベース参照部２４は、データベース管理装置１０のデータベース１２を参照する。より詳しくは、データベース参照部２４がデータベース１２の使用頻度情報を参照して、テキストデータに含まれる単語ごとの使用頻度を取得する。

決定部２５は、映像データ取得部２２が取得した映像データから音声認識処理部２３が生成したテキストデータと、データベース参照部２４が参照した使用頻度情報とに基づいて、映像に含まれる音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、使用頻度に応じて単語ごとの表示態様を決定する。決定部２５は、使用頻度の低い単語の可読性を向上するように表示態様を決定する。使用頻度が低く、耳慣れていない、または、見慣れていない単語は、使用頻度が高く、耳慣れた、または、見慣れた単語に比べて可読性が低いためである。決定部２５は、決定結果である単語ごとの表示態様を示す表示態様情報をテキストデータに付加する。

表示態様とは、単語の表示時間と単語の表示色と単語の表示の大きさと単語の表示速度との少なくともいずれかである。表示態様が単語の表示時間である場合、使用頻度が低い単語の表示時間を、使用頻度が高い単語の表示時間より長くする。表示態様が単語の表示色である場合、使用頻度が低い単語の表示色を、使用頻度が高い単語の表示色より視認性を高くする。表示態様が単語の表示の大きさである場合、使用頻度が低い単語の表示の大きさを、使用頻度が高い単語の表示の大きさより大きくする。表示態様が単語の表示速度である場合、使用頻度が低い単語の表示速度を、使用頻度が高い単語の表示速度より遅くする。なお、単語の表示速度については後述する。

本実施形態では、表示態様は、単語の表示時間である。例えば、表示時間は、秒数でもよい。例えば、表示時間は、当該単語の表示時間をどの程度長くするかを示す情報でもよい。例えば、表示時間は、当該単語の表示時間を長くするか否かの情報でもよい。本実施形態では、表示時間は、秒数とする。本実施形態では、表示時間は、使用頻度が高い単語を「３秒」、使用頻度が低い単語を「５秒」とする。

本実施形態では、決定部２５は、音声認識処理部２３が生成したテキストデータに含まれる単語を抽出する。そして、決定部２５は、テキストデータと使用頻度情報とに基づいて、単語ごとの使用頻度を取得する。そして、決定部２５は、使用頻度に応じて単語の表示時間を決定する。本実施形態では、決定部２５は、使用頻度が低い単語の表示時間が、使用頻度が高い単語の表示時間より長くなるように決定する。決定部２５は、単語ごとの表示時間を表示時間情報としてテキストデータに付加する。

さらに、決定部２５は、テキストデータ全体の表示時間を決定してもよい。本実施形態では、決定部２５は、使用頻度が低い単語を含むテキストデータの表示時間が、使用頻度が高い単語のみで構成されたテキストデータの表示時間より長くなるように決定する。例えば、テキストデータに含まれる単語の中で、最長の表示時間を、テキストデータの表示時間としてもよい。決定部２５は、テキストデータの表示時間を表示時間情報としてテキストデータに付加する。

さらにまた、決定部２５は、テキストデータが区切位置情報を有する場合、区切り位置で区切ったテキストデータの表示時間を決定してもよい。決定部２５は、区切り位置で区切ったテキストデータの表示時間を表示時間情報としてテキストデータに付加する。

表示装置３０は、音声を含む映像と字幕とを表示・再生する。表示装置３０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や映像処理用プロセッサなどで構成された演算処理装置（制御部）である。表示装置３０は、図示しない記憶部に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。表示装置３０は、一または複数の装置で構成されていてもよい。表示装置３０は、通信部３１と、表示部３２と、表示用映像データ取得部３３と、字幕生成部３４と、表示制御部３５とを備える。

通信部３１は、表示態様決定装置２０と有線または無線により通信する。通信部３１は、表示態様決定装置２０から表示用映像データを受信する。

表示部３２は、映像と字幕とを表示可能である。表示部３２は、例えば、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）または有機ＥＬ（ＯｒｇａｎｉｃＥｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを含むディスプレイである。表示部３２は、表示制御部３５から出力された映像信号に基づいて、映像と字幕とを表示する。

表示用映像データ取得部３３は、表示態様決定装置２０から表示用映像データを取得する。表示用映像データ取得部３３は、取得した表示用映像データを字幕生成部３４と表示制御部３５とに出力する。

図５を用いて、表示用映像データについて説明する。図５は、第一実施形態に係る表示システムの表示態様決定装置によって生成された表示用映像データの一例を示す図である。表示用映像データは、例えば、映像データと音声データとテキストデータと表示時間情報とを含む。図５に示す例では、１つの表示用映像データは、テキストデータ＿１ないしテキストデータ＿ｊを含む。さらに、表示用映像データは、表示時間情報として、テキストデータ＿１に含まれる単語＿１１ないし単語＿１ｉとその表示時間＿１１ないし表示時間＿１ｉと、テキストデータ＿ｊに含まれる単語＿ｊ１ないし単語＿ｊｉとその表示時間＿ｊ１ないし表示時間＿ｊｉとを含む。

字幕生成部３４は、表示用映像データ取得部３３が取得した表示用映像データに基づいて字幕データを生成する。本実施形態では、字幕データは、テキストデータを一段で表示するデータである。字幕データは、テキストデータに対応する文字情報と表示時間情報とに加えて、例えば、フォントと表示サイズと表示色と表示速度との少なくともいずれかを含んでもよい。字幕生成部３４は、テキストデータが区切位置情報を含む場合、テキストデータを区切った字幕データを生成してもよい。字幕生成部３４は、表示部３２の画面サイズに応じて、テキストデータを区切ったり、複数段に分けたりして字幕データを生成してもよい。

表示制御部３５は、表示用映像データ取得部３３が取得した表示用映像データと、字幕生成部３４が生成した字幕データとを表示部３２に表示させる制御をする。より詳しくは、表示制御部３５は、表示用映像データに含まれる表示用映像と字幕データに含まれる文字情報とを表示部３２に表示させる。表示制御部３５は、字幕データが区切位置情報を含む場合、区切位置情報に基づいて区切った字幕を表示してもよい。表示制御部３５は、表示部３２のサイズに応じて、テキストデータを区切ったり、複数段に分けたりした字幕を表示してもよい。

次に、データベース管理装置１０が行う処理について説明する。

データベース管理装置１０は、データベース生成部１３によって、データベース１２を生成する。データベース管理装置１０は、データベース生成部１３によって、情報媒体またはインターネットを介して公開されている情報に基づいて、単語ごとの使用頻度を取得してデータベース１２に記憶する。データベース管理装置１０は、データベース生成部１３によって、例えば、情報媒体またはインターネット上の情報の更新頻度に応じて、データベース１２を更新する。

次に、図６を用いて、表示態様決定装置２０が行う処理の方法及び作用について説明する。図６は、第一実施形態に係る表示システムの表示態様決定装置が行う処理の一例を示すフローチャートである。

表示態様決定装置２０は、映像データ取得部２２によって、映像データを取得する（ステップＳ１１）。

表示態様決定装置２０は、音声認識処理部２３によって、映像データに音声認識処理を実行する（ステップＳ１２）。より詳しくは、表示態様決定装置２０は、音声認識処理部２３によって、映像データに音声認識処理を実行して、映像に含まれる音声を表すテキストデータを生成する。本実施形態では、テキストデータは、表示タイミング情報と区切位置情報とを含む。

表示態様決定装置２０は、映像データにテキストデータを付加する（ステップＳ１３）。

表示態様決定装置２０は、単語ごとの表示時間を決定する（ステップＳ１４）。より詳しくは、表示態様決定装置２０は、決定部２５によって、音声認識処理部２３が生成したテキストデータに含まれる単語を抽出する。そして、表示態様決定装置２０は、決定部２５によって、テキストデータと使用頻度情報とに基づいて、単語ごとの使用頻度を取得する。そして、表示態様決定装置２０は、決定部２５によって、使用頻度に応じて単語の表示時間を決定する。そして、本実施形態では、表示態様決定装置２０は、決定部２５によって、区切り位置で区切ったテキストごとの表示時間を決定する。

表示態様決定装置２０は、テキストデータに表示時間情報を付加する（ステップＳ１５）。より詳しくは、表示態様決定装置２０は、決定部２５によって、単語ごとの表示時間を表示時間情報としてテキストデータに付加する。本実施形態では、表示態様決定装置２０は、決定部２５によって、区切り位置で区切ったテキストごとの表示時間を表示時間情報としてテキストデータに付加する。

表示態様決定装置２０は、映像データの終了か否かを判定する（ステップＳ１６）。表示態様決定装置２０は、映像データの終了であると判定した場合（ステップＳ１６でＹｅｓ）、処理を終了する。表示態様決定装置２０は、映像データの終了ではないと判定した場合（ステップＳ１６でＮｏ）、ステップＳ１１の処理を再度実行する。

図７、図８を用いて、表示態様決定装置２０が行う処理について説明する。図７は、第一実施形態に係る表示システムの表示態様決定装置によって決定された表示時間の一例を示す図である。図８は、第一実施形態に係る表示システムの表示態様決定装置によって決定された表示時間の他の例を示す図である。

例えば、映像に「新しく□□道路が開通しました所要時間が大幅に短縮されることになります」という音声が含まれている場合について説明する。ステップＳ１１において、映像データが取得される。ステップＳ１２において、音声認識処理が実行されて、音声を表すテキストデータが生成される。本実施形態では、無声部分が認識されて、「新しく□□道路が開通しました」と「所要時間が大幅に短縮されることになります」とに区切られた２つのテキストデータが生成される。また、２つのテキストデータの表示タイミング情報が生成される。さらに、無音部分を区切り位置とする区切位置情報が生成される。ステップＳ１３において、表示タイミング情報と区切位置情報とを含むテキストデータが映像データに付加される。

ステップＳ１４において、テキストデータ「新しく□□道路が開通しました」について、単語ごとの表示時間が決定される。より詳しくは、まず、図７に示すように、テキストデータから、単語として、「新しく」、「□□道路」、「が」、「開通しました」が抽出される。そして、データベース参照部２４を介して、データベース１２から各単語ごとの使用頻度を取得する。「新しく」と「開通しました」の使用頻度は、「高」と取得される。「□□道路」の使用頻度は、「低」と取得される。そして、使用頻度が高い単語の表示時間を「３秒」とし、使用頻度が低い単語の表示時間を「５秒」と決定する。

テキストデータ「所要時間が大幅に短縮されることになります」についても、同様に、図８に示すように、単語ごとに使用頻度に応じた表示時間が決定される。

さらに、決定された単語ごとの表示時間に基づいて、テキストデータ全体の表示時間を決定して、テキストデータに付加してもよい。本実施形態では、テキストデータに含まれる単語の中で、最長の表示時間をテキストデータの表示時間とする。この場合、図７に示すテキストデータの表示時間は「５秒」と決定され、図８に示すテキストデータの表示時間は「３秒」と決定される。

ステップＳ１５において、テキストデータに決定した表示時間情報を付加して、表示用映像データを生成する。

このように、表示態様決定装置２０は、映像に含まれる音声に対応したテキストデータの単語の使用頻度に応じて表示時間を決定する。

単語の表示時間については、上述の通り説明したが、ここで、単語の表示速度について説明する。単語の表示速度とは、単位時間あたりの、表示部３２に表示する単語を含むテキストの位置の変化量である。例えば、表示部３２にテキストを表示する場合、テキストが右から左へ移動しながら表示する場合が有り得る。そこで、決定部２５は、音声認識処理部２３が生成したテキストデータに含まれる単語を抽出する。そして、決定部２５は、テキストデータと使用頻度情報とに基づいて、単語ごとの使用頻度を取得する。そして、決定部２５は、使用頻度に応じて単語の表示速度を決定する。つまり、決定部２５は、データベース参照部２４を介して、例えば、「新しく」と「開通しました」の使用頻度は、「高」と取得される。「□□道路」の使用頻度は、「低」と取得する。使用頻度が高い単語を含む表示速度を「並」とし、使用頻度が低い単語の表示速度を「遅い」と決定する。そして、テキストデータに含まれる単語の中で、最長の表示速度をテキストデータの表示速度とする。さらに、決定された単語ごとの表示速度に基づいて、テキストデータ全体の表示速度を決定して、テキストデータに付加する。図７の例では、テキストデータの表示速度は「遅い」と決定され、図８の例では、テキストデータの表示速度は「並」と決定される。なお、テキストデータの表示速度の「並」は、例えば、テキストが画面の一端から現れ始めることで表示された時点から、画面の他端へ抜け切ることで表示されなくなった時点までの時間を３秒とし、テキストデータの表示速度の「遅い」は、上述の時間を５秒とする。

次に、図９を用いて、表示装置３０が行う処理の方法及び作用について説明する。図９は、第一実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。

表示装置３０は、表示用映像データ取得部３３によって、表示用映像データを取得する（ステップＳ２１）。

表示装置３０は、字幕生成部３４によって、字幕を生成する（ステップＳ２２）。より詳しくは、表示装置３０は、字幕生成部３４によって、表示用映像データに含まれるテキストデータに基づいて字幕データを生成する。本実施形態では、字幕は、テキストデータをそのまま表示する。表示装置３０は、字幕生成部３４によって、表示用映像データに含まれるテキストデータが区切位置情報を含む場合、区切位置情報に基づいて区切った字幕データを生成してもよい。表示装置３０は、字幕生成部３４によって、例えば、表示部３２のサイズに応じて区切った字幕データを生成してもよい。

表示装置３０は、表示制御部３５によって、字幕付きの映像を表示部３２に表示させる（ステップＳ２３）。より詳しくは、表示装置３０は、表示制御部３５によって、表示用映像データと字幕データとを、表示タイミング情報に従って表示させる。

表示装置３０は、表示用映像データの終了か否かを判定する（ステップＳ２４）。表示装置３０は、表示用映像データの終了であると判定した場合（ステップＳ２４でＹｅｓ）、処理を終了する。表示装置３０は、表示用映像データの終了ではないと判定した場合（ステップＳ２４でＮｏ）、ステップＳ２１の処理を再度実行する。

図３、図４を用いて、表示装置３０が行う処理について説明する。

図３を用いて、例えば、テレビの収録放送の場合の字幕の表示タイミングについて説明する。映像と音声と１番目の字幕との表示・再生を時間Ｔ１１から開始する。時間Ｔ１２において、１番目の字幕の表示を終了して、２番目の字幕の表示を開始する。時間Ｔ１３において、２番目の字幕の表示を終了して、３番目の字幕の表示を開始する。時間Ｔ１４において、映像と音声と３番目の字幕との表示・再生が終了する。このように、収録放送の場合、映像と音声と字幕とは、時間のズレなく表示・再生される。

図４を用いて、例えば、テレビのいわゆる生放送の場合の字幕の表示タイミングについて説明する。映像と音声との表示・再生を時間Ｔ２１から開始する。時間Ｔ２１から遅延時間ΔＴ１遅延した時間Ｔ２２において、１番目の字幕の表示を開始する。時間Ｔ２３において、１番目の字幕の表示を終了して、２番目の字幕の表示を開始する。時間Ｔ２４において、２番目の字幕の表示を終了して、３番目の字幕の表示を開始する。時間Ｔ２５において、映像と音声との表示・再生が終了する。時間Ｔ２５から遅延時間ΔＴ１遅れた時間Ｔ２６において、３番目の字幕の表示・再生が終了する。このように、生放送の場合、映像及び音声と、字幕とが遅延時間ΔＴ１ズレて表示・再生される。

このように、表示装置３０は、表示態様決定装置２０によって、単語の使用頻度に応じて表示時間が決定された字幕を表示する。

このようにして、例えば、映像コンテンツの配信事業者の設備に設置された表示態様決定装置２０によって、映像に含まれる音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、映像を視聴するユーザの表示装置３０に表示用映像データを配信する。表示装置３０は、決定された表示時間に基づいて字幕を生成し、映像とともに表示する。

上述したように、本実施形態は、映像に含まれる音声に対応したテキストデータの単語ごとの使用頻度に応じて、単語ごとの表示時間を決定する。そして、本実施形態は、決定された表示時間に基づいて生成された字幕を表示する。本実施形態によれば、使用頻度が低い単語を含む字幕の表示時間を、使用頻度が高い単語のみで構成された字幕の表示時間より長くすることができる。このように、本実施形態は、使用頻度が低く、耳慣れていない、または、見慣れていない単語を含む字幕の可読性を向上することができる。

［第二実施形態］
図１０、図１１を参照しながら、本実施形態に係る表示システム１について説明する。図１０は、第二実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。図１１は、第二実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。表示システム１は、基本的な構成は第一実施形態の表示システム１と同様である。以下の説明においては、表示システム１と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態の表示システム１は、表示装置３０の字幕生成部３４における処理が、第一実施形態と異なる。

字幕生成部３４は、テキストデータの表示タイミング情報と表示時間情報とに基づいて、字幕に遅延が生じると判定する場合、複数の字幕が表示されるように字幕データを生成する。本実施形態では、字幕に遅延が生じると判定する場合、複数の字幕が複数段で表示されるように字幕データを生成する。

字幕の遅延とは、ある字幕の表示タイミングと、他の字幕の表示タイミングとの少なくとも一部が重複していることをいう。または、字幕の遅延とは、字幕の表示時間が映像及び音声の再生時間に対してあらかじめ設定された字幕の表示可能時間を超過する場合、または、映像及び音声に対する字幕の表示タイミングが閾値以上のズレを生じる場合、をいう。本実施形態では、ある字幕の表示タイミングに、前の字幕の表示タイミングが終了していないことをいう。

図１０を用いて字幕の遅延について説明する。一例として、テレビのいわゆる生放送の場合の字幕の表示タイミングについて説明する。図１０は、２番目の字幕に使用頻度が低い単語が含まれ、表示時間Ｂ２が表示時間Ｂ１、表示時間Ｂ３より長く設定されていることによって、字幕の遅延が発生している例を示す。時間Ｔ３２は、映像及び音声の再生を開始する時間Ｔ３１から遅延時間ΔＴ１遅延した時間である。１番目の字幕の表示タイミングは時間Ｔ３２から時間Ｔ３３までであり、表示時間はＢ１である。２番目の字幕の表示タイミングは時間Ｔ３３から時間Ｔ３５までであり、表示時間はＢ２である。３番目の字幕の表示タイミングは時間Ｔ３５より早い時間Ｔ３４から時間Ｔ３６までであり、表示時間はＢ３である。２番目の字幕と３番目の字幕の表示タイミングの一部が重複している。

図１１に示すフローチャートのステップＳ３１、ステップＳ３５ないしステップＳ３７の処理は、図９に示すフローチャートのステップＳ２１、ステップＳ２２ないしステップＳ２４の処理と同様の処理を行う。

表示装置３０は、字幕の遅延があるか否かを判定する（ステップＳ３２）。表示装置３０は、ある字幕の表示タイミングと他の字幕の表示タイミングとの少なくとも一部が重複しているとき、字幕の遅延があると判定し（ステップＳ３２でＹｅｓ）、ステップＳ３３に進む。表示装置３０は、ある字幕の表示タイミングと他の字幕の表示タイミングとが重複していないとき、字幕の遅延がないと判定し（ステップＳ３２でＮｏ）、ステップＳ３５に進む。

表示装置３０は、字幕の遅延があると判定した場合（ステップＳ３２でＹｅｓ）、字幕生成部３４によって、複数段の字幕を生成する（ステップＳ３３）。より詳しくは、表示装置３０は、字幕生成部３４によって、表示タイミングが重複すると判定した字幕を二段で表示するように字幕データを生成する。図１０に示す例では、３番目の字幕の表示タイミングになると、２番目の字幕と３番目の字幕とを二段で表示する字幕データを生成する。

表示装置３０は、表示制御部３５によって、複数段の字幕付きの映像を表示部３２に表示させる（ステップＳ３４）。より詳しくは、表示装置３０は、表示制御部３５によって、表示用映像データと複数の字幕データとを、表示タイミング情報に従って表示させる。

上述したように、本実施形態は、字幕に遅延が生じたとき、複数の字幕を表示する。これにより、本実施形態は、使用頻度が低い単語の表示時間を使用頻度が高い単語の表示時間より長くすることによる字幕の表示の遅延の発生を抑制することができる。本実施形態は、複数の字幕を表示することで、可読性を保つことができる。本実施形態によれば、各字幕を決定された表示時間の間、映像とともに表示するので、各字幕の可読性を保つことができる。

［第三実施形態］
図１２、図１３を参照しながら、本実施形態に係る表示システム１について説明する。図１２は、第三実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。図１３は、第三実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。表示システム１は、基本的な構成は第一実施形態と第二実施形態の表示システム１と同様である。本実施形態の表示システム１は、表示装置３０の字幕生成部３４における処理が、第一実施形態と第二実施形態と異なる。

字幕生成部３４は、テキストデータの表示タイミング情報と表示時間情報とに基づいて、字幕に遅延が生じると判定する場合、表示可能時間Ｄ内に収まるように調整した字幕データを生成する。字幕生成部３４は、字幕に遅延が生じると判定する場合、一つまたは複数の字幕の表示時間を短縮する。字幕生成部３４は、字幕に遅延が生じると判定する場合、使用頻度の高い単語のみで構成された字幕の表示時間を短縮してもよい。本実施形態では、字幕生成部３４は、字幕に遅延が生じると判定する場合、使用頻度の高い単語のみで構成された字幕の表示時間を短縮する。

本実施形態では、字幕の表示時間が表示可能時間Ｄを超過する場合をいう。表示可能時間Ｄは、映像に対して字幕を表示することが可能な最長の長さである。表示可能時間Ｄは、映像の長さなどに応じて設定される。例えば、表示可能時間Ｄは、映像の長さと同じ時間である。

図１２を用いて字幕の遅延について説明する。一例として、テレビのいわゆる生放送の場合の字幕の表示タイミングについて説明する。図１２は、１番目の字幕と２番目の字幕に使用頻度が低い単語が含まれ、表示時間Ｃ１、表示時間Ｃ２が表示時間Ｃ３より長く設定されていることによって、字幕の遅延が発生している例を示す。時間Ｔ４２は、映像及び音声の再生を開始する時間Ｔ４１から遅延時間ΔＴ１遅延した時間である。１番目の字幕の表示タイミングは時間Ｔ４２から時間Ｔ４３までであり、表示時間はＣ１である。２番目の字幕の表示タイミングは時間Ｔ４３から時間Ｔ４４までであり、表示時間はＣ２である。３番目の字幕の表示タイミングは時間Ｔ４４から時間Ｔ４６までであり、表示時間はＣ３＋Ｃ４である。１番目の字幕から３番目の字幕の表示時間の合計は、表示可能時間Ｄを超過している。

図１３に示すフローチャートのステップＳ４１、ステップＳ４５ないしステップＳ４７の処理は、図９に示すフローチャートのステップＳ２１、ステップＳ２２ないしステップＳ２４の処理と同様の処理を行う。

表示装置３０は、字幕の遅延があるか否かを判定する（ステップＳ４２）。表示装置３０は、字幕の表示時間が表示可能時間Ｄを超過するとき、字幕の遅延があると判定し（ステップＳ４２でＹｅｓ）、ステップＳ４３に進む。表示装置３０は、字幕の表示時間が表示可能時間Ｄを超過していないとき、字幕の遅延がないと判定し（ステップＳ４２でＮｏ）、ステップＳ４５に進む。

表示装置３０は、字幕の遅延があると判定した場合（ステップＳ４２でＹｅｓ）、字幕生成部３４によって、表示可能時間Ｄ内に収まるように調整した字幕を生成する（ステップＳ４３）。より詳しくは、表示装置３０は、字幕生成部３４によって、表示時間を短縮した字幕データを生成する。本実施形態では、表示装置３０は、字幕生成部３４によって、使用頻度の高い単語のみで構成された３番目の字幕の表示時間を短縮する。図１２に示す例では、３番目の字幕の表示タイミングを時間Ｔ４４から時間Ｔ４５までに短縮して、表示時間をＣ３とする。言い換えると、３番目の字幕の表示時間のＣ４に相当する長さを短縮する。

表示装置３０は、表示制御部３５によって、表示可能時間Ｄ内に収まるように調整した字幕付きの映像を表示部３２に表示させる（ステップＳ４４）。より詳しくは、表示装置３０は、表示制御部３５によって、表示用映像データと複数の字幕データとを、表示タイミング情報に従って表示させる。

上述したように、本実施形態は、字幕に遅延が生じたとき、表示可能時間Ｄ内に収まるように調整した字幕を表示する。これにより、本実施形態は、使用頻度が低い単語の表示時間を使用頻度が高い単語の表示時間より長くすることによる字幕の表示の遅延の発生を抑制することができる。本実施形態によれば、字幕に遅延が生じたときでも、表示する字幕が増えないので、映像の視認性及び字幕の可読性を保つことができる。

これまで本発明に係る表示システム１について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。

図示した表示システム１の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。

図１４を用いて、表示システム１の他の構成である表示システム１Ａについて説明する。図１４は、表示システムの構成例の他の例を示すブロック図である。表示システム１Ａは、データベース管理装置１０と、表示装置３０と、音声認識装置４０と、表示態様決定装置５０とを備える。データベース管理装置１０と表示装置３０とは、第一実施形態と同様の構成である。音声認識装置４０は、第一実施形態の表示態様決定装置２０の有する音声認識処理の機能を有する。音声認識装置４０は、通信部４１と、映像データ取得部４２と、音声認識処理部４３とを有する。表示態様決定装置５０は、第一実施形態の表示態様決定装置２０の有する音声認識処理の機能以外の機能を有する。表示態様決定装置５０は、通信部５１と、データベース参照部５２と、決定用映像データ取得部５３と、決定部５４とを有する。表示態様決定装置５０は、音声認識装置４０からテキストデータが付加された映像データを取得して、単語ごとの使用頻度に応じた表示時間の決定を行う。このような構成によれば、例えば、映像コンテンツの配信事業者の設備に設置された音声認識装置４０によって、映像に含まれる音声を認識して、表示態様決定装置５０によって、音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、映像を視聴するユーザの表示装置３０に表示用映像データを配信する。表示装置３０は、決定された表示時間に基づいて字幕を生成して、映像とともに表示する。

図１５を用いて、表示システム１の他の構成である表示システム１Ｂについて説明する。図１５は、表示システムの構成例の他の例を示すブロック図である。表示システム１Ｂは、データベース管理装置１０と、表示装置６０とを備える。データベース管理装置１０は、第一実施形態と同様の構成である。表示装置６０は、第一実施形態の表示態様決定装置２０と表示装置３０との機能を有する。言い換えると、表示装置６０は、第一実施形態の表示装置３０の機能を有する表示態様決定装置２０である。または、言い換えると、表示装置６０は、第一実施形態の表示態様決定装置２０の機能を有する表示装置３０である。表示装置６０は、通信部６１と、映像データ取得部６２と、音声認識処理部６３と、データベース参照部６４と、決定部６５と、表示部６６と、字幕生成部６７と、表示制御部６８とを有する。このような構成によれば、例えば、映像を視聴するユーザの表示装置６０によって、映像に含まれる音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、決定された表示時間に基づいて字幕を生成して、映像とともに表示する。

図１６を用いて、表示システム１の他の構成である表示システム１Ｃについて説明する。図１６は、表示システムの構成例の他の例を示すブロック図である。表示システム１Ｃは、第一実施形態のデータベース管理装置１０と表示態様決定装置２０と表示装置３０との機能を有する表示装置７０である。言い換えると、表示装置７０は、第一実施形態のデータベース管理装置１０と表示装置３０の機能を有する表示態様決定装置２０である。または、言い換えると、表示装置７０は、第一実施形態のデータベース管理装置１０と表示態様決定装置２０の機能を有する表示装置３０である。表示装置７０は、データベース７１と、データベース生成部７２と、映像データ取得部７３と、音声認識処理部７４と、データベース参照部７５と、決定部７６と、表示部７７と、字幕生成部７８と、表示制御部７９とを有する。このようにして、例えば、映像を視聴するユーザの表示装置７０は、単語ごとの使用頻度を記憶しているデータベース７１に基づいて、映像に含まれる音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、決定された表示時間に基づいて字幕を生成して、映像とともに表示する。

表示システム１の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。

データベース１２は、各単語について、例えば、ジャンル、年代、国・地域を含む属性分類ごとの使用頻度を示す使用頻度情報を記憶してもよい。これにより、同じ単語であっても属性分類ごとの使用頻度を記憶することができる。映像に含まれる音声の単語ごとの使用頻度を取得する際に、映像の属性分類に対応する単語の使用頻度を取得することができる。これにより、より適切に字幕の表示時間を決定することができる。

第一実施形態において、決定部２５がテキストごとの表示時間を決定するものとして説明したが、表示装置３０がテキストごとの表示時間を決定してもよい。

上記に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記に記載した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。

１表示システム
１０データベース管理装置
１１通信部
１２単語使用頻度データベース（データベース）
１３データベース生成部
２０表示態様決定装置
２１通信部
２２映像データ取得部
２３音声認識処理部
２４データベース参照部
２５決定部
３０表示装置
３１通信部
３２表示部
３３表示用映像データ取得部
３４字幕生成部
３５表示制御部

Claims

音声を含む映像の映像データを取得する映像データ取得部と、
単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースを参照するデータベース参照部と、
前記映像データ取得部が取得した前記映像データと前記データベース参照部が参照した前記使用頻度情報とに基づいて、前記映像に含まれる前記音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、前記使用頻度に応じて前記単語の表示態様を決定する決定部と、
を備えることを特徴とする表示態様決定装置。
前記映像データ取得部が取得した前記映像に含まれる前記音声を認識して、前記音声を表すテキストデータを生成する音声認識処理部、
を備え、
前記決定部は、前記音声認識処理部が生成した前記テキストデータと前記データベース参照部が参照した前記使用頻度情報とに基づいて、前記テキストデータに含まれる単語ごとの使用頻度を取得し、前記使用頻度に応じて前記単語の表示態様を決定する、
請求項１に記載の表示態様決定装置。
前記表示態様は、前記単語の表示時間と前記単語の表示色と前記単語の表示の大きさと前記単語の表示速度との少なくともいずれかである、
請求項１または２に記載の表示態様決定装置。
前記表示態様は、前記単語の表示時間であり、
前記決定部は、前記使用頻度が低い前記単語の表示時間が、前記使用頻度が高い前記単語の表示時間より長くなるように決定する、
請求項３に記載の表示態様決定装置。
音声を含む表示用映像の表示用映像データと、前記表示用映像に含まれる音声を表すテキストデータとを取得する表示用映像データ取得部と、
前記表示用映像データ取得部が取得した前記テキストデータに基づいて、字幕の字幕データを生成する字幕生成部と、
前記表示用映像データ取得部が取得した前記表示用映像データと前記字幕生成部が生成した前記字幕データとを表示する表示部と、
前記表示用映像データ取得部が取得した前記表示用映像データと前記字幕生成部が生成した前記字幕データとを前記表示部が表示するように制御する表示制御部と、
を備え、
前記表示制御部は、単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースに基づいて、前記字幕データに含まれる単語ごとの使用頻度に応じて表示態様を変えた字幕を前記表示部が表示するように制御する、
ことを特徴とする表示装置。
音声を含む映像の映像データを取得する映像データ取得ステップと、
単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースを参照するデータベース参照ステップと、
前記映像データ取得ステップによって取得した前記映像データと前記データベース参照ステップによって参照した前記使用頻度情報とに基づいて、前記映像に含まれる前記音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、前記使用頻度に応じて前記単語の表示態様を決定する決定ステップと、
を含むことを特徴とする表示態様決定方法。
音声を含む映像の映像データを取得する映像データ取得ステップと、
単語ごとの使用頻度を示す使用頻度情報を記憶した単語使用頻度データベースを参照するデータベース参照ステップと、
前記映像データ取得ステップによって取得した前記映像データと前記データベース参照ステップによって参照した前記使用頻度情報とに基づいて、前記映像に含まれる前記音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、前記使用頻度に応じて前記単語の表示態様を決定する決定ステップと、
をコンピュータに実行させるプログラム。