JP4128916B2 - 字幕制御装置および方法ならびにプログラム - Google Patents

字幕制御装置および方法ならびにプログラム Download PDF

Info

Publication number
JP4128916B2
JP4128916B2 JP2003207621A JP2003207621A JP4128916B2 JP 4128916 B2 JP4128916 B2 JP 4128916B2 JP 2003207621 A JP2003207621 A JP 2003207621A JP 2003207621 A JP2003207621 A JP 2003207621A JP 4128916 B2 JP4128916 B2 JP 4128916B2
Authority
JP
Japan
Prior art keywords
subtitle
caption
voice
sound
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003207621A
Other languages
English (en)
Other versions
JP2005064599A (ja
Inventor
浩平 桃崎
幸一 山本
康之 正井
真人 矢島
一彦 阿部
宗彦 笹島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003207621A priority Critical patent/JP4128916B2/ja
Priority to US10/917,351 priority patent/US7467088B2/en
Priority to CNB2004100574977A priority patent/CN100431342C/zh
Publication of JP2005064599A publication Critical patent/JP2005064599A/ja
Application granted granted Critical
Publication of JP4128916B2 publication Critical patent/JP4128916B2/ja
Priority to US12/272,415 priority patent/US7925509B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums

Description

【0001】
【発明の属する技術分野】
本発明は映像再生装置、音声再生装置、映像記録再生装置または音声記録再生装置に内蔵または接続して用いられ、字幕(クローズドキャプション)その他の文字情報の表示を制御する字幕制御装置および方法ならびにプログラムに関する。
【0002】
【従来の技術】
テレビジョン放送やDVD等の映像コンテンツを再生した際に、映像とともに出力される音声情報を補完するための字幕文字情報(「クローズドキャプション」とも呼ばれる)が提供されることがある。テレビジョン放送の場合、字幕文字情報はビデオ信号に重畳される文字多重信号からなり、垂直ブランキング期間中に挿入される識別信号(VBI信号)を使用して伝送される。DVD等では、多言語の字幕文字情報を映像や音声と共に記録することができる。またデジタルハイビジョン放送では、副映像情報として字幕文字情報を伝送することが可能である。
【0003】
字幕文字情報の利用は、聴覚障害者や難聴者のみならず健聴者にとっても、画像に対応する音声が聞き取りにくい場合に有効と考えられる。例えば、音声と重なった背景雑音や音楽(BGM)が音声内容の聞き取りの妨げとなる場合がある。また、聞き取ろうとする音声の話速が速い場合は言うまでもなく、話速が非常に遅い場合においても音声の正確な聞き取りはたとえ健聴者であっても困難である。
【0004】
そして、このような音声内容の聞き難さに応じて、音声コンテンツに対応する字幕文字情報の表示態様等を制御するといった技術は、従来の映像再生装置や情報表示装置では未だ実現されていない。
【0005】
一方、音声情報を解析する手法が幾つか知られている。例えば、背景雑音の判定に関しては、雑音抑圧を目的とした入力音声のSN比の推定方法(例えば下記特許文献1を参照)が公知である。また、楽音の判定に関しては、音声データの自己相関係数に基づく方法(例えば下記特許文献2を参照)が公知である。さらに、話速の推定に関しては、音声信号の動的特徴量に基づく方法(例えば下記特許文献3を参照)が公知である。
【0006】
【特許文献1】
特開平7−306695号公報
【0007】
【特許文献2】
特開平5−113797号公報
【0008】
【特許文献3】
特開平5−289691号公報
【0009】
【発明が解決しようとする課題】
本発明は、音声出力における声音の聞き取りが困難な状況においても声音の内容を適切かつ確実に視聴者に伝達できるよう補完的な字幕文字情報を表示し、あるいは該字幕文字情報の表示形態を制御する字幕制御装置および方法ならびにプログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明の一観点に係る字幕制御装置は、音声に対応する字幕の表示態様を制御する字幕表示制御装置において、前記音声を分析する分析手段と、前記分析の結果に基づいて声音の聞き難さを検定する検定手段と、前記検定の結果に応じて前記表示態様を決定する手段とを具備する。
【0011】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施形態を説明する。尚、実施形態の説明において「音声信号」および「音声データ」とは、人間の声に限定されない背景音(背景騒音、背景楽音等)を含んだ任意の音を表す信号およびデータの全般をいう。また、特に言語の手段として人間又は音声合成装置から発せられた声(Voice)のことを「声音」と称する。音声信号および音声データは、いずれも、声音と背景音とが合成された音を表現する。なお「音声信号」、「音声データ」をそれぞれ「オーディオ(Audio)信号」、「オーディオデータ」と読み替えてもよい。また、「映像信号」、「映像データ」をそれぞれ「ビデオ(Video)信号」、「ビデオデータ」と読み替えてもよい。
【0012】
また、「字幕文字情報」とは、台詞や歌詞の内容のように、原則的に音声信号や映像信号と同期して再生、表示されることが制作者によって意図されている文字情報をいう。これら音声信号(音声データ)、映像信号(映像データ)、および字幕文字情報は、各々が表現する内容(コンテンツ)に関して不可分の関係がある。原則的にこれら三者は同期して再生されることが制作者により意図されている。これは後述する他の実施形態においても同様である。
【0013】
(第1実施形態) 本発明の第1実施形態に係る字幕制御装置は、放送された映像および音声ならびに字幕文字情報を受信して再生する映像再生装置に接続して用いられる。映像再生装置の具体例として、第1実施形態では例えばこれをテレビジョン受像機とする。字幕文字情報は、映像信号に重畳されて伝送され、あるいは副映像として伝送されてテレビジョン受像機により受信される。
【0014】
図1は、第1実施形態に係る字幕制御装置の概略構成を示すブロック図である。この装置は、音声入力端子11と、映像入力端子21と、文字情報入力端子27とを具備する。これら入力端子11,21,27はそれぞれテレビジョン受像機の対応する音声出力端子、映像出力端子、文字情報出力端子にケーブル等を介して接続される。テレビジョン受像機はアンテナ等を通じて放送波を受信すると、かかる受信波を復調し、上記出力端子からそれぞれ音声信号、映像信号、および字幕文字情報を出力する。
【0015】
本実施形態の字幕制御装置は、その主要部に係わる構成要素として、音声入力端子11に入力された音声信号を分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23と、文字フォントデータを備え、文字情報入力端子27から字幕文字情報を入力するとともに該文字フォントデータを用いて字幕文字の映像信号を生成し、これを映像入力端子21から入力された映像信号と合成して字幕付きの映像信号を生成する字幕映像生成部24とを具備する。本発明に係る字幕制御装置は例えばコンピュータソフトウェアにより実現することができる。この場合、字幕制御プログラムは、コンピュータを字幕制御装置として機能させるための手順を実行する。
【0016】
そして本実施形態の字幕制御装置は、字幕付き映像および音声の出力に係わる構成要素として、音声品質分析部12に入力された音声信号を出力する音声出力端子13と、字幕映像生成部24により生成された字幕付きの映像信号を音声信号に同期して出力する映像出力端子25とを具備する。なお、テレビジョン受像機から音声を再生することができるから音声出力端子13は必須ではないが、同音声出力端子13には例えばモニター用のヘッドフォンを接続したり、他の音声再生機器を接続することができる。また、音声品質分析部12に入力される前の音声入力端子11から分岐して音声出力端子13を設けてもよい。映像出力端子25からの出力は、例えばモニター用の他のディスプレイ装置に接続することができる。また、映像出力端子25からの出力を該テレビジョン受像機の映像入力端子に戻すように入力することもできる。もちろん、音声出力端子13と映像出力端子25からの出力の両方をそれぞれモニター用の他のディスプレイ装置や該テレビジョン受像装置の音声入力端子と映像入力端子に与えてもよい。
【0017】
また、文字情報入力端子27に代えて、映像入力端子21に入力する映像信号に文字情報を重畳しておき、字幕映像生成部24において重畳された文字情報を抽出するとともに字幕付きの映像信号を生成させるようにしてもよい。
【0018】
さらに、字幕映像生成部24に代えて、字幕信号処理部39を具備し、映像出力端子25から出力する映像信号へ文字情報を重畳するようにしておき、字幕表示制御部23からの制御に従って、文字情報の重畳の有無のみを切り替えたり、制御情報を加工した字幕の文字情報を再度映像信号に重畳して出力するようにしてもよい。この場合、映像出力端子25に接続されるディスプレイ装置において、映像信号に重畳された文字情報を抽出して、字幕付きの映像信号を生成させることを意図している(図16)。
【0019】
また、映像出力端子25には文字情報を含まないようにして、文字情報表示部68または文字情報出力端子29を別途設けてもよい(図17)。
【0020】
これらは、本実施形態の字幕制御装置の前後に接続される装置の入出力端子に適合した構成を選択すればよい。
【0021】
音声品質分析部12は、分析において、入力音声信号に含まれる背景音のレベルおよび話速を推定する。背景音は背景雑音および背景楽音を含み、そのレベルは、例えば特開平7−306695号公報や特開平5−113797号公報に記載の方法を用いて推定することができる。また、話速については例えば特開平5−289691号公報に記載の方法を用いて推定することができる。音声品質分析部12は、このように推定した背景音レベルおよび話速を、入力音声信号に含まれる声音の聞き難さの検定に用いられる2つの分析値として出力する。
【0022】
騒音検知部14は、視聴環境に設置されるマイクロホンにより音を取り込んで視聴者の周囲の騒音レベルを検知する。マイクロホンは、テレビジョン受像機のスピーカ(または音声出力端子13に接続された他の音声再生機器のスピーカ)から出力された音声の影響を受けにくい位置に配置することが好ましい。このとき、音声入力端子11から入力された音声信号を参照し、該音声信号に基づいて再生音以外の周囲の音を推定すれば、騒音検知精度を向上できるので好ましい。
【0023】
字幕表示制御部23は、声音の聞き難さの検定に用いられるルールセットを備えており、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベルにこのルールセットを適用して入力音声信号に含まれる声音の聞き難さの検定を行う。この検定の結果から、字幕表示制御部23は字幕文字情報の表示態様を決定し、字幕映像生成部24を制御する。
【0024】
図2に示すように、ルールセットは、本実施形態では声音の聞き難さを背景音、周囲の騒音、発話速度からなる3種類の検定基準値によって表したものであり、ルール1乃至ルール4からなる。検定においては、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベルが、少なくともルール1乃至ルール4のいずれかに該当するかを検定基準値に照らして検査する。ルール1乃至ルール4のいずれにも該当しない場合、声音の聞き難さは否定される。言い替えれば声音の聞き取りは困難ではない、ということであり、字幕制御は行われない。なお、通常は字幕は非表示状態とする。
【0025】
ルールセットに含まれるルール1乃至ルール4の解釈は次の通りである。
ルール1:音声信号に含まれる背景音レベル(背景雑音及び背景楽音を含む)が、ある一定の基準値以上の場合には、字幕を表示状態にする。
ルール2:周囲の騒音レベルに応じて変動する基準値を決定する。音声信号に含まれる背景音レベルがこの変動基準値以上の場合には字幕を表示状態にする。ルール2は、基準値が一定ではなく可変である点でルール1とは異なる。
ルール3:周囲の騒音レベルがある一定の基準値以上の場合には字幕を表示状態にする。
ルール4:音声信号に含まれる声音の発話速度がある一定基準範囲内でない場合には字幕を表示状態にする。
【0026】
ルール1およびルール2によれば音声信号に含まれる背景音の関係で声音が聞き難いとき、ルール3によれば周囲の騒音の関係(例:視聴中に電話の呼出音が鳴り出したとき等)で声音が聞き難いとき、そしてルール4によれば発話速度の関係で声音を聞き難いとき(例:視聴音声における話者の喋る速さ(話速)が速すぎたり、遅すぎる場合等)、それぞれの場合で字幕映像が音声に同期して出力され、表示される。したがって、視聴者(ユーザ)は、字幕表示によって声音の聞き取りが支援され、発話された内容の理解に支障を来すことがない。
【0027】
なお、本実施形態は次のように変形することができる。例えば、ルール2およびルール3を用いない場合、すなわち背景音と発話速度に関するルール1および4のみを用いる場合であっても、字幕表示制御の効果を得ることはできるから、製品コスト等の兼ね合いから騒音検知部14を具備しない構成としてもよい。
【0028】
また、例えば背景音レベル(ルール1)や発話速度(ルール4)のみ用いた場合であっても、字幕表示制御の効果を得ることはできるので、音声品質分析部12を簡易化し、いずれか一方のみの分析を行うようにしてもよい。
【0029】
声音の聞き難さを複数のパラメータ(要因)の関数で表してこれを評価し、その評価結果に応じて字幕制御を行うことも好ましい。例えば、背景音や発話速度のみならず、声の低さ、抑揚の少なさ、国際電話や携帯電話の声、反響の多さ、同時発声話者数、外国語・方言・なまり等のパラメータを考慮することで、検定の質を向上することができる。
【0030】
ルールセット内の各ルールにおける基準値や関数のパラメータは、視聴するユーザが好みの値に設定もしくは調整できるようにするとよい。例えば、熟年ユーザは発話速度の基準範囲を若年ユーザよりも低めに設定するかも知れない。また、聴力に応じて背景音の基準値を低めに設定することも考えられる。健聴者ユーザに比べて字幕による情報補完をより必要とする難聴者ユーザ向けとして、本実施形態は有用である。ヘッドホンやイヤホンを使用して視聴するユーザは、周囲雑音の基準値を高くしたり、周囲雑音による各変動基準値への影響を小さくしたりすることも考えられる。
【0031】
字幕表示制御部23により決定される字幕文字情報の表示形態としては、図3の(a)に示すような非表示又は表示のみに限定されない。例えば、通常時は字幕が表示状態に設定され、その際の字幕文字のサイズは標準よりも小さくしておき、声音の聞き難さの検定結果がルール該当のときに字幕文字を標準サイズに変化させたり(図3(b))、ルール非該当のときは字幕文字を標準サイズとし、ルール該当のときに字幕文字のサイズを拡大したり(図3(c))、ルール該当のときに字幕文字の表示行数を拡大してもよい(図3(d))。
【0032】
さらに、ルールセットを構成する各ルールにおいて声音の聞き難さを表す各レベルに段階を設けて評価し、例えば図4に示すように、声音の聞き難さの段階(声音の品質)に応じて字幕文字の表示態様を異ならせてもよい。この例においては、最も聞き取り難いと評価されたときは、字幕文字が最大サイズで表示される。
【0033】
(第2実施形態) 本発明の第2実施形態に係る字幕制御装置は、映像および音声ならびに字幕文字情報が記録された記録媒体の再生を行う映像再生装置の内部に組み込まれる。映像再生装置の具体例として、第2実施形態では例えばこれをDVDプレイヤーとする。なお、DVDプレーヤーのような映像再生装置に代えて、DVDレコーダやハードディスクビデオレコーダ等の映像記録再生装置としてもよい。
【0034】
図5は、第2実施形態に係る字幕制御装置が組み込まれたDVDプレイヤーの概略構成を示すブロック図である。このDVDプレイヤーは、映像および音声ならびに字幕文字情報のデータが記録された記録媒体31を装着してデータの読み出しを行うドライブ機構部(図示しない)を具備する。
【0035】
また、記録媒体31から音声データを読み出して再生する音声再生部33と、記録媒体31から映像データを読み出して再生する映像再生部34と、記録媒体31から字幕文字情報を読み出して再生する字幕再生部35と、音声データおよび映像データの再生に関してユーザから与えられた指示を表す再生制御信号を操作パネルやリモコン装置等から入力し、該音声データおよび映像データの再生を制御する再生制御部32とを具備する。再生制御信号は、少なくとも再生音量、再生速度といった再生状態を表す。
【0036】
本実施形態のDVDプレイヤーは、字幕表示制御に係わる構成要素として、音声再生部33により再生された音声データを分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23と、文字フォントデータを備え、字幕再生部35が再生した字幕文字情報を入力するとともに該文字フォントデータを用いて字幕文字の映像データを生成し、これを映像再生部34が再生した映像データと合成することにより字幕付きの映像信号を生成する字幕映像生成部24とを具備する。
【0037】
そして、本実施形態のDVDプレイヤーは、字幕付き映像および音声の出力に係わる構成要素として、音声品質分析部12に入力された音声データを出力する音声出力部63と、字幕映像生成部24により生成された字幕付きの映像信号を出力する映像出力部65とを具備する。音声出力部63には例えばスピーカ等の音響機器が接続され、映像出力部65には映像を表示するディスプレイ装置が接続される。なお、DVDプレイヤーの筐体内にこれら音響機器およびディスプレイ装置を備える一体構造としてもよい。
【0038】
音声品質12は、第1実施形態のものと同様の分析を行う。すなわち、入力音声データに含まれる背景音のレベルおよび話速を推定し、これらを入力音声データに含まれる声音の聞き難さの検定に用いられる2つの分析値として出力する。
【0039】
また騒音検知部14についても第1実施形態と同様に、視聴環境に設置されるマイクロホンにより音を取り込んで視聴者の周囲の騒音レベルを検知する。なお、製品コスト等の兼ね合いから騒音検知部14を具備しない構成としてもよい。
【0040】
字幕表示制御部23は、声音の聞き難さの検定に用いられるルールセットを備えており、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに再生制御部32に入力された再生制御信号が表す再生状態にこのルールセットを適用して入力音声データに含まれる声音の聞き難さの検定を行う。この検定の結果から、字幕表示制御部23は字幕文字情報の表示態様を決定し、字幕映像生成部24を制御する。
【0041】
図6に示すように、ルールセットは、本実施形態では声音の聞き難さを背景音、周囲の騒音、再生音量、発話速度、および再生速度からなる5種類の検定基準値によって表したものであり、ルール1乃至ルール15からなる。検定においては、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに再生制御部32に入力された再生制御信号が表す再生状態が少なくともルール1乃至ルール15のいずれかに該当するかを検定基準値に照らして検査する。ルール1乃至ルール15のいずれにも該当しない場合、声音の聞き難さは否定される。言い替えれば声音の聞き取りは困難ではない、ということであり、字幕制御は行われない。なお、通常は字幕は非表示状態とする。
【0042】
ルールセットに含まれるルール1乃至ルール15は次のように解釈される。
ルール1:音声データに含まれる背景音レベル(背景雑音および背景楽音を含む)が、ある一定の基準値以上の場合には、字幕を表示状態にする。
ルール2:周囲の騒音レベルに応じて変動する基準値を決定する。音声データに含まれる背景音レベルが変動基準値以上の場合には字幕を表示状態にする。ルール2は、基準値が一定ではなく可変である点でルール1とは異なる。
ルール3:周囲の騒音レベルがある一定の基準値以上の場合には字幕を表示状態にする。
ルール4:音声データに含まれる声音の発話速度がある一定基準範囲内でない場合には字幕を表示状態にする。
ルール5:音声データを再生している状態における再生音量に応じて変動する基準値を決定する。音声データに含まれる背景音レベルがこの変動基準値以上の場合には字幕を表示状態にする。
ルール6:音声データを再生している状態における再生音量および周囲の騒音レベルに応じて変動する基準値を決定する。音声データに含まれる背景音レベルがこの変動基準値以上の場合には字幕を表示状態にする。
ルール7:音声データに含まれる背景音レベルに応じて変動する基準値を決定する。音声データを再生している状態における再生音量がこの変動基準値以下の場合には字幕を表示状態にする。
ルール8:音声データに含まれる背景音レベルおよび周囲の騒音レベルに応じて変動する基準値を決定する。音声データを再生している状態における再生音量がこの変動基準値以下の場合には字幕を表示状態にする。
ルール9:音声データを再生している状態における再生速度に応じて変動する基準範囲を決定する。音声データに含まれる声音の発話速度がこの変動基準範囲内でない場合には字幕を表示状態にする。
ルール10:音声データに含まれる声音の発話速度に応じて変動する基準範囲を決定する。音声データを再生している状態における再生速度がこの変動基準範囲内でない場合には字幕を表示状態にする。
ルール11:音声データを再生している状態における再生速度が一定基準範囲内でない場合には字幕を表示状態にする。
ルール12:再生状態が逆方向再生(Reverse)の場合には、字幕を表示状態にする。
【0043】
ルール13:再生状態が一時停止(Pause)の場合には、字幕を表示状態にする。
【0044】
ルール14:再生音量がミュート(消音)の場合や、ある一定の基準値以下の場合には、字幕を表示状態にする。
【0045】
ルール15:周囲の騒音レベルに応じて変動する基準値を決定する。再生音量がこの変動基準値以下の場合には字幕を表示状態にする。
【0046】
ルール1、ルール2、ルール5及びルール6によれば音声データに含まれる背景音の関係で声音が聞き難いときに字幕が表示され、ルール3によれば周囲の騒音の関係で声音が聞き難いときに字幕が表示され、ルール7、ルール8、ルール14、ルール15によれば再生音量の関係で声音が聞き難いときに字幕が表示され、ルール4およびルール9によれば発話速度の関係で声音が聞き難いときに字幕が表示され、そしてルール10乃至ルール13によれば再生速度の関係で声音が聞き難いときに字幕が表示される。なお、周囲の騒音レベルを検定基準値とするルール2、ルール3、ルール6、ルール8およびルール15を用いない場合、すなわち背景音、再生速度、発話速度および再生速度を検定基準値とするルール1、ルール4、ルール5、ルール7、ルール9乃至14のみを用いる場合であっても、字幕表示制御の効果を得ることはできるから、製品コスト等の兼ね合いから騒音検知部14を具備しない構成としてもよい。
【0047】
次に、字幕表示制御部23における処理の流れを図7のフローチャートを参照して説明する。
【0048】
まず、音声品質分析部12による分析値として得られた背景音レベルに(ルール1、ルール2、ルール5、ルール6)を適用して検定を行う(ステップS101)。次に、騒音検知部14において検知された周囲の騒音レベルに(ルール3)を適用して検定を行う(ステップS102)。次に、音声品質分析部12による分析値として得られた発話速度に(ルール4、ルール9)を適用して検定行う(ステップS103)。次に、再生制御部32からの再生制御信号が表す再生音量に(ルール7、ルール8、ルール14、ルール15)を適用して検定行う(ステップS104)。次に、再生制御部32からの再生制御信号が表す再生速度に(ルール10乃至ルール13)を適用して検定を行う(ステップS105)。最後に、上記各ステップの検定結果に基づいて字幕の表示態様を決定して字幕映像生成部24を制御する(ステップS106)。
【0049】
ここで、上記ステップS101を一例に挙げてその詳細な処理の流れを図8のフローチャートを参照して説明する。
【0050】
まず、音声データに含まれる背景音のレベルAbが、予め設定された一定基準値Ab0と比較される(ステップS111)。Abが大きい場合にはルール1に従って字幕動作モード1が設定される(ステップS191)。次に、周囲の騒音レベルAnに応じて変動する基準値Fbn(An)が算出される(ステップS120)。この基準値Fbn(An)は背景音のレベルAbと比較され(ステップS121)、Abが大きい場合にはルール2に従って字幕動作モード1が設定される(ステップS191)。次に、再生音量Avに応じて変動する基準値Fbv(Av)が算出される(ステップS150)。この基準値Fbv(Av)は背景音のレベルAbと比較され(ステップS151)、Abが大きい場合にはルール5に従って字幕動作モード1が設定される(ステップS191)。次に、周囲の騒音レベルAnおよび再生音量Avに応じて変動する基準値Fbnv(An,Av)が算出される(ステップS160)。この基準値Fbnv(An,Av)は背景音のレベルAbと比較され(ステップS161)、Abが大きい場合にはルール6に従って字幕動作モード1が設定される(ステップS191)。最後に、いずれの条件にも該当しなかった場合には、字幕動作モード0が設定される(ステップS190)。
【0051】
(第3実施形態) 本発明の第3実施形態に係る字幕制御装置は、映像および音声ならびに字幕文字情報が記録された記録媒体の再生を行う映像再生装置に接続して用いられる。映像再生装置の具体例として、第3実施形態では例えばこれをDVDプレイヤーとする。なお、DVDプレーヤーのような映像再生装置に代えて、DVDレコーダやハードディスクビデオレコーダ等の映像記録再生装置としてもよい。
【0052】
図9は、第3実施形態に係る字幕制御装置の概略構成を示すブロック図である。この装置は、音声入力端子11と、映像入力端子21と、制御情報入力端子26と、文字情報入力端子27とを具備し、これら入力端子は、それぞれDVDプレイヤーの対応する音声出力端子、映像出力端子、制御情報出力端子、ならびに文字情報出力端子にケーブル等を介して接続される。操作パネルやリモコン装置等を通じてユーザによりDVDプレイヤーに対する再生操作が行われると、同プレイヤーに装着された記録媒体から音声データ、映像データ、および字幕文字情報のデータが読み出されて再生される。再生されたデータは、字幕制御装置の音声入力端子11、映像入力端子21、および文字情報入力端子27に入力される。再生の際に操作パネルやリモコン装置等への操作を通じてユーザから与えられる制御情報は、制御情報入力端子26に入力される。この制御情報は、再生音量や再生速度といった再生に係わる種々の制御情報を表すものであり、特定の情報に限定されない。また、制御情報は、ユーザの再生操作を表す情報であってもよく、再生操作に応じたDVDプレイヤーの動作状態を表す情報であってもよい。
【0053】
本実施形態の字幕制御装置は、その主要部に係わる構成要素として、音声入力端子11に入力された音声データを分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23と、文字フォントデータを備え、文字情報入力端子27から字幕文字情報を入力するとともに該文字フォントデータを用いて字幕文字の映像データを生成し、これを映像入力端子21から入力された映像データを合成することにより字幕付きの映像信号を生成する字幕映像生成部24と、を具備する。
【0054】
そして本実施形態の字幕制御装置は、字幕付き映像および音声の出力に係わる構成要素として、音声品質分析部12に入力された音声データを出力する音声出力端子13と、字幕映像生成部24により生成された字幕付きの映像データを出力する映像出力端子25とを具備する。音声出力端子13はスピーカに接続され、映像出力端子25はディスプレイ装置に接続される。なお、文字情報入力端子27に代えて、映像入力端子21に入力する映像データを伝送する映像信号に文字情報を重畳しておき、字幕映像生成部24において重畳された文字情報を抽出するとともに字幕付きの映像信号を生成させるようにしてもよい。
【0055】
さらに、字幕映像生成部24に代えて、字幕信号処理部39を具備し、映像出力端子25から出力する映像信号へ文字情報を重畳するようにしておき、字幕表示制御部23からの制御に従って、文字情報の重畳の有無のみを切り替えたり、制御情報を加工した字幕の文字情報を再度映像信号に重畳して出力するようにしてもよい。この場合、映像出力端子25に接続されるディスプレイ装置において、映像信号に重畳された文字情報を抽出して、字幕付きの映像信号を生成させることを意図している(図18)。
【0056】
また、映像出力端子25には文字情報を含まないようにして、文字情報出力端子29を別途設けてもよい(図19)。
【0057】
これらは、本実施形態の字幕制御装置の前後に接続される装置の入出力端子の仕様に適合した構成を選択すればよい。
【0058】
なお、本実施形態の字幕制御装置をパーソナルコンピュータ(PC)によって構成することもできる。
【0059】
音声品質12は、第1実施形態のものと同様の分析を行う。すなわち、入力音声データに含まれる背景音のレベルおよび話速を推定し、これらを入力音声データに含まれる声音の聞き難さを判断するための2つの分析値として出力する。また騒音検知部14についても第1実施形態と同様に、視聴環境に設置されるマイクロホンにより音を取り込んで視聴者の周囲の騒音レベルを検知する。なお、製品コスト等の兼ね合いから騒音検知部14を具備しない構成としてもよい。
【0060】
字幕表示制御部23は、第2実施形態のものと同じルールセット(図6参照)を備えており、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに制御情報入力端子26に入力された再生制御信号が表す再生状態にこのルールセットを適用して入力音声データに含まれる声音の聞き難さの検定を行う。この検定の結果から、字幕表示制御部23は字幕文字情報の表示態様を決定し、字幕映像生成部24を制御する。検定においては、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに制御情報入力端子26に入力された再生制御信号が表す再生状態が少なくともルール1乃至ルール15のいずれかに該当するかを検定基準値に照らして検査する。
【0061】
(第4実施形態) 本発明の第4実施形態に係る字幕制御装置は、音声および字幕文字情報が記録された記録媒体の再生を行う音声再生装置に接続して用いられる。音声再生装置の具体例として、第4実施形態では例えばこれをMD(Mini Disc)プレイヤーとする。なお、MDプレイヤーに代えてCD(Compact Disc)プレイヤーとしてもよい。また、これら音声再生装置に代えて、MDレコーダやICメモリレコーダ等、記録機能を備えた音声記録再生装置としてもよい。
【0062】
図10は、第4実施形態に係る字幕制御装置の概略構成を示すブロック図である。この装置は、音声入力端子11と、制御情報入力端子26と、文字情報入力端子27とを具備し、これら入力端子は、それぞれMDプレイヤーの対応する音声出力端子、制御情報出力端子、ならびに文字情報出力端子にケーブル等を介して接続される。操作パネルやリモコン装置等を通じてユーザによりMDプレイヤーに対する再生操作が行われると、同プレイヤーに装着された記録媒体から音声データおよび字幕文字情報のデータが読み出されて再生される。再生されたデータは、字幕制御装置の音声入力端子11および文字情報入力端子27に入力される。再生の際に操作パネルやリモコン装置等への操作を通じてユーザから与えられる制御情報は、制御情報入力端子26に入力される。この制御情報は、再生音量や再生速度といった再生に係わる種々の制御情報を表すものであり、特定の情報に限定されない。
【0063】
本実施形態の字幕制御装置は、その主要部に係わる構成要素として、音声入力端子11に入力された音声データを分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23とを具備する。
【0064】
そして本実施形態の字幕制御装置は、音声および字幕の出力に係わる構成要素として、文字情報入力端子27から入力された字幕文字情報を字幕表示制御部23からの制御の下に表示する文字情報表示部68と、音声品質分析部12に入力された音声データを出力する音声出力端子13とを具備する。音声出力端子13はスピーカ等に接続される。文字情報表示部68は、例えば液晶ディスプレイ装置からなる。
【0065】
音声品質12は、第1実施形態のものと同様の分析を行う。すなわち、入力音声データに含まれる背景音のレベルおよび話速を推定し、これらを入力音声データに含まれる声音の聞き難さの検定に用いられる2つの分析値として出力する。また騒音検知部14についても第1実施形態と同様に、視聴環境に設置されるマイクロホンにより音を取り込んで視聴者の周囲の騒音レベルを検知する。なお、製品コスト等の兼ね合いから騒音検知部14を具備しない構成としてもよい。
【0066】
字幕表示制御部23は、第2実施形態のものと同じルールセット(図6参照)を備えており、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに制御情報入力端子26に入力された再生制御信号が表す再生状態にこのルールセットを適用して入力音声データに含まれる声音の聞き難さの検定を行う。この検定の結果から、字幕表示制御部23は字幕文字情報の表示態様を決定し、字幕映像生成部68を制御する。検定においては、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに制御情報入力端子26に入力された再生制御信号が表す再生状態が少なくともルール1乃至ルール15のいずれかに該当するかを検定基準値に照らして検査する。また、本実施形態の字幕制御装置は、放送された音声および字幕文字情報を受信して再生する音声再生装置に接続して用いることもできる。音声再生装置の具体例として、例えばラジオ放送受信機がある。この場合、制御情報入力端子26を具備しない構成としてもよい。
【0067】
(第5実施形態) 本発明の第5実施形態に係る字幕制御装置は、放送された映像および音声ならびに字幕文字情報を含んだ映像コンテンツを受信して再生するコンテンツプレイヤーの内部に組み込まれる。
【0068】
図11は、第5実施形態に係る字幕制御装置が組み込まれたコンテンツプレイヤーの概略構成を示すブロック図である。このコンテンツプレイヤーは、例えばパーソナルコンピュータ(PC)により構成することができ、コンピュータネットワーク等を介して伝送された映像コンテンツを受信するコンテンツ受信部41と、コンテンツ受信部41が受信したコンテンツから音声データを分離して再生する音声再生部43と、コンテンツ受信部41が受信したコンテンツから映像データを分離して再生する映像再生部44と、音声データおよび映像データの再生に関してユーザから与えられた指示を表す信号を操作パネルやリモコン装置等から入力し、該音声データおよび映像データの再生を制御する再生制御部42と、コンテンツ受信部41が受信したコンテンツから字幕文字情報を分離して再生する字幕再生部45とを具備する。
【0069】
また本実施形態のコンテンツプレイヤーは、字幕表示制御に係わる構成要素として、音声再生部43により再生された音声データを分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23と、文字フォントデータを備え、字幕再生部45が再生した字幕文字情報を入力するとともに該文字フォントデータを用いて字幕文字の映像データを生成し、これを映像再生部44が再生した映像データと合成することにより字幕付きの映像信号を生成する字幕映像生成部24と、を具備する。
【0070】
そして本実施形態のコンテンツプレイヤーは、字幕付き映像および音声の出力に係わる構成要素として、例えばスピーカからなり、音声品質分析部12に入力された音声データに基づく音声を出力する音声出力部63と、例えばディスプレイ装置からなり、字幕映像生成部24により生成された字幕付きの映像データに基づく映像を出力する映像出力部65とを具備する。
【0071】
音声品質12は、第1実施形態のものと同様の分析を行う。すなわち、入力音声データに含まれる背景音のレベルおよび話速を推定し、これらを入力音声データに含まれる声音の聞き難さの検定に用いられる2つの分析値として出力する。また騒音検知部14についても第1実施形態と同様に、視聴環境に設置されるマイクロホンにより音を取り込んで視聴者の周囲の騒音レベルを検知する。なお、製品コスト等の兼ね合いから騒音検知部14を具備しない構成としてもよい。
【0072】
字幕表示制御部23は、第2実施形態のものと同じルールセット(図6参照)を備えており、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに再生制御部42から入力された再生制御信号が表す再生状態にこのルールセットを適用して入力音声データに含まれる声音の聞き難さの検定を行う。この検定の結果から、字幕表示制御部23は字幕文字情報の表示態様を決定し、字幕映像生成部24を制御する。検定においては、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベル、ならびに再生制御部42からの再生制御信号が表す再生状態が少なくともルール1乃至ルール15のいずれかに該当するかを検定基準値に照らして検査する。
【0073】
(第6実施形態) 本発明の第6実施形態に係る字幕制御装置は、放送された映像および音声ならびに字幕文字情報を受信して再生する映像再生装置の内部に組み込まれる。映像再生装置の具体例として、第6実施形態では例えばこれをテレビジョン受像機とする。字幕文字情報は、映像信号に重畳されて伝送され、あるいは副映像として伝送されてテレビジョン受像機により受信される。
【0074】
図12は、第6実施形態に係る字幕制御装置が組み込まれたテレビジョン受像機の概略構成を示すブロック図である。このテレビジョン受像機は、電波やケーブル等を介して伝送された放送信号を受信する放送受信部51と、放送受信部51が受信した放送信号から音声信号を復調する音声復調部53と、放送受信部51が受信した放送信号から映像信号を復調する映像復調部54と、放送受信部51が受信した放送信号から字幕文字情報を復調する字幕復調部55とを具備する。
【0075】
本実施形態のテレビジョン受像機は、字幕表示制御に係わる構成要素として、音声復調部53により復調された音声信号を分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23と、文字フォントデータを備え、字幕復調部55が復調した字幕文字情報を入力するとともに該文字フォントデータを用いて字幕文字の映像信号を生成し、これを映像復調部54が復調した映像信号と合成することにより字幕付きの映像信号を生成する字幕映像生成部24と、を具備する。
【0076】
また、本実施形態のテレビジョン受像機は、音声および映像の出力に係わる構成要素として、例えばスピーカからなり、音声品質分析部12に入力された音声信号に基づく音声を出力する音声出力部63を具備する。また、例えば液晶またはCRT型のディスプレイ装置からなり、字幕映像生成部24により生成された字幕付きの映像信号に基づく映像を出力する映像出力部65を具備する。
【0077】
音声品質12は、第1実施形態のものと同様の分析を行う。すなわち、入力音声信号に含まれる背景音のレベルおよび話速を推定し、これらを入力音声信号に含まれる声音の聞き難さの検定に用いられる2つの分析値として出力する。また騒音検知部14についても第1実施形態と同様に、視聴環境に設置されるマイクロホンにより音を取り込んで視聴者の周囲の騒音レベルを検知する。なお、製品コスト等の兼ね合いから騒音検知部14を具備しない構成としてもよい。
【0078】
字幕表示制御部23は、第1実施形態のものと同じルールセット(図2参照)を備えており、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベルにこのルールセットを適用して入力音声信号に含まれる声音の聞き難さの検定を行う。この検定の結果から、字幕表示制御部23は字幕文字情報の表示態様を決定し、字幕映像生成部24を制御する。検定においては、音声品質分析部12により得られた分析値、および騒音検知部14により検知された周囲の騒音レベルが少なくともルール1乃至ルール4のいずれかに該当するかを検定基準値に照らして検査する。
【0079】
(第7実施形態) 本発明の第7実施形態に係る字幕制御装置は、音声および字幕文字情報が記録された記録媒体の再生を行う音声再生装置の内部に組み込まれる。音声再生装置の具体例として、第7実施形態では例えばこれをMD(Mini Disc)プレイヤーとする。なお、MDプレイヤーに代えてCD(Compact Disc)プレイヤーとしてもよい。また、これら音声再生装置に代えて、MDレコーダやICメモリレコーダ等、記録機能を備えた音声記録再生装置としてもよい。
【0080】
図13は、第7実施形態に係る字幕制御装置が組み込まれたMDプレイヤーの概略構成を示すブロック図である。このMDプレイヤーは、音声および字幕文字情報のデータが記録された記録媒体31を装着してデータの読み出しを行うドライブ機構部(図示しない)を具備する。
【0081】
また、記録媒体31から音声データを読み出して再生する音声再生部33と、記録媒体31から字幕文字情報を読み出して再生する字幕再生部35と、音声データの再生に関してユーザから与えられた指示を表す再生制御信号を操作パネルやリモコン装置等から入力し、該音声データの再生を制御する再生制御部32とを具備する。再生制御信号は、少なくとも再生音量、再生速度といった再生状態を表す。
【0082】
本実施形態のMDプレイヤーは、字幕表示制御に係わる構成要素として、音声再生部33により再生された音声データを分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23とを具備する。
【0083】
そして、本実施形態のMDプレイヤーは、音声および字幕の出力に係わる構成要素として、字幕再生部35が再生した字幕文字情報を字幕表示制御部23からの制御の下に表示する文字情報表示部68と、音声品質分析部12に入力された音声データを出力する音声出力部63とを具備する。文字情報表示部68は、例えば液晶ディスプレイ装置からなる。音声出力部63には例えばスピーカ等の音響機器が接続される。なお、MDプレイヤーの筐体内にこの音響機器を備える一体構造としてもよい。
【0084】
(第8実施形態) 本発明の第8実施形態に係る字幕制御装置は、放送された音声および字幕文字情報を含んだ音声コンテンツを受信して再生するコンテンツプレイヤーの内部に組み込まれる。
【0085】
図14は、第8実施形態に係る字幕制御装置が組み込まれたコンテンツプレイヤーの概略構成を示すブロック図である。このコンテンツプレイヤーは、例えばパーソナルコンピュータ(PC)により構成することができ、コンピュータネットワーク等を介して伝送された音声コンテンツを受信するコンテンツ受信部41と、コンテンツ受信部41が受信したコンテンツから音声データを分離して再生する音声再生部43と、音声データの再生に関してユーザから与えられた指示を表す信号を操作パネルやリモコン装置等から入力し、該音声データの再生を制御する再生制御部42と、コンテンツ受信部41が受信したコンテンツから字幕文字情報を分離して再生する字幕再生部45とを具備する。
【0086】
本実施形態のコンテンツプレイヤーは、字幕表示制御に係わる構成要素として、音声再生部43により再生された音声データを分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23とを具備する。
【0087】
そして、本実施形態のコンテンツプレイヤーは、音声および字幕の出力に係わる構成要素として、字幕再生部45が再生した字幕文字情報を字幕表示制御部23からの制御の下に表示する文字情報表示部68と、音声品質分析部12に入力された音声データを出力する音声出力部63とを具備する。文字情報表示部68は、例えば液晶ディスプレイ装置からなる。音声出力部63には例えばスピーカ等の音響機器が接続される。なお、コンテンツプレイヤーの筐体内にこの音響機器を備える一体構造としてもよい。
【0088】
(第9実施形態) 本発明の第9実施形態に係る字幕制御装置は、放送された音声および字幕文字情報を受信して再生する音声再生装置の内部に組み込まれる。音声再生装置の具体例として、第9実施形態では例えばこれをFM文字多重放送に対応したラジオ放送受信機とする。字幕文字情報は、音声信号とともにFM放送電波帯域に重畳されて伝送される。なお、ラジオ受信機に代えて、地上デジタル音声放送受信機としてもよい。字幕文字情報はデータ放送として伝送される。
【0089】
図15は、第9実施形態に係る字幕制御装置が組み込まれたラジオ放送受信機の概略構成を示すブロック図である。このラジオ放送受信機は、電波やケーブル等を介して伝送された放送信号を受信する放送受信部51と、放送受信部51が受信した放送信号から音声信号を復調する音声復調部53と、放送受信部51が受信した放送信号から字幕文字情報を復調する字幕復調部55とを具備する。
【0090】
本実施形態のラジオ放送受信機は、字幕表示制御に係わる構成要素として、音声復調部53により復調された音声信号を分析する音声品質分析部12と、マイクロフォンを有し、周囲の騒音レベルを検知する騒音検知部14と、ルールに従って字幕文字情報の表示を制御する字幕表示制御部23とを具備する。
【0091】
そして、本実施形態のラジオ放送受信機は、音声および字幕の出力に係わる構成要素として、字幕復調部55が復調した字幕文字情報を字幕表示制御部23からの制御の下に表示する文字情報表示部68と、音声品質分析部12に入力された音声信号を出力する音声出力部63とを具備する。文字情報表示部68は、例えば液晶ディスプレイ装置からなる。音声出力部63には例えばスピーカ等の音響機器が接続される。なお、ラジオ放送受信機の筐体内にこの音響機器を備える一体構造としてもよい。
【0092】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0093】
【発明の効果】
以上説明したように本発明によれば、音声出力における声音の聞き取りが困難な状況においても声音の内容を適切かつ確実に視聴者に伝達できるよう補完的な字幕文字情報を表示し、あるいは該字幕文字情報の表示形態を制御する字幕制御装置および方法ならびにプログラムを提供できる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態に係る字幕制御装置の概略構成を示すブロック図
【図2】 第1実施形態の字幕表示制御部が備えるルールセットの一例を示す図
【図3】 第1実施形態における字幕表示の制御例を示す図
【図4】 第1実施形態における字幕表示の別の制御例を示す図
【図5】 本発明の第2実施形態に係る映像再生装置の概略構成を示すブロック図
【図6】 第2実施形態の字幕表示制御部が備えるルールセットの一例を示す図
【図7】 第2実施形態の字幕表示制御部における処理の流れを示すフローチャート
【図8】 図7のステップS101における詳細な処理の流れを示すフローチャート
【図9】 本発明の第3実施形態に係る字幕制御装置の概略構成を示すブロック図
【図10】 本発明の第4実施形態に係る字幕制御装置の概略構成を示すブロック図
【図11】 本発明の第5実施形態に係るコンテンツプレーヤーの概略構成を示すブロック図
【図12】 本発明の第6実施形態に係る映像再生装置の概略構成を示すブロック図
【図13】 本発明の第7実施形態に係る音声再生装置の概略構成を示すブロック図
【図14】 本発明の第8実施形態に係る音声再生装置の概略構成を示すブロック図
【図15】 本発明の第9実施形態に係る音声再生装置の概略構成を示すブロック図
【図16】 本発明の第1実施形態に係る字幕制御装置の別の概略構成を示すブロック図
【図17】 本発明の第1実施形態に係る字幕制御装置の別の概略構成を示すブロック図
【図18】 本発明の第3実施形態に係る字幕制御装置の別の概略構成を示すブロック図
【図19】 本発明の第3実施形態に係る字幕制御装置の別の概略構成を示すブロック図
【符号の説明】
11…音声入力端子、12…音声品質分析部、13…音声出力端子、14…騒音検知部、21…映像入力端子、23…字幕表示制御部、24…字幕映像生成部、25…映像出力端子、27…文字情報入力端子、29…文字情報出力端子、31…記憶媒体、32…再生制御部、33…音声再生部、34…映像再生部、35…字幕再生部、39…字幕信号処理部、41…コンテンツ受信部、42…再生制御部、43…音声再生部、44…映像再生部、45…字幕再生部、51…放送受信部、53…音声復調部、54…映像復調部、55…字幕復調部、63…音声出力部、65…映像出力部、68…文字情報表示部

Claims (9)

  1. 声音と背景音若しくは背景楽音とが合成された音声信号に対応する字幕の表示態様を制御する字幕表示制御装置において、
    前記音声信号を分析して少なくとも前記背景音若しくは背景楽音についての背景音レベルを含む複数の分析値を求める分析手段と、
    前記複数の分析値を、少なくとも背景音レベルの基準値を含む複数の基準値と比較することにより声音の聞き難さを検定する検定手段と、
    前記検定の結果に応じて前記表示態様を決定する手段とを具備する字幕表示制御装置。
  2. 前記検定手段は、声音が聞き難いか否かを判定可能な発話速度の基準値範囲を検定に用いる請求項1に記載の字幕表示制御装置。
  3. 周囲の騒音レベルを検知する騒音検知手段を具備し、前記検定手段は、声音が聞き難いか否かを判定可能な周囲の騒音レベルの基準値を検定に用いる請求項1または2に記載の字幕表示制御装置。
  4. 前記音声信号の再生音量または再生速度を表す再生制御信号を入力する制御信号入力手段を具備し、前記検定手段は、声音が聞き難いか否かを判定可能な再生音量の基準値または再生速度の基準値範囲を検定に用いる請求項1乃至3のいずれかに記載の字幕表示制御装置。
  5. 前記決定手段は、前記音声信号に含まれる声音が聞き難い旨の検定結果を得た場合に、前記字幕の表示態様を非表示から表示に切り替える請求項1乃至4のいずれかに記載の字幕表示制御装置。
  6. 前記決定手段は、前記音声信号に含まれる声音が聞き難い旨の検定結果を得た場合に、前記字幕の文字サイズを拡大する請求項1乃至5のいずれかに記載の字幕表示制御装置。
  7. 前記決定手段は、前記音声信号に含まれる声音が聞き難い旨の検定結果を得た場合に、前記字幕の文字行数を拡大する請求項1乃至6のいずれかに記載の字幕表示制御装置。
  8. 声音と背景音若しくは背景楽音とが合成された音声信号に対応する字幕の表示態様を制御する字幕表示制御方法において、
    前記音声信号を分析して少なくとも前記背景音若しくは背景楽音についての背景音レベルを含む複数の分析値を求めるステップと、
    前記複数の分析値を、少なくとも背景音レベルの基準値を含む複数の基準値と比較することにより声音の聞き難さを検定するステップと、
    前記検定の結果に応じて前記表示態様を決定するステップとを具備する字幕表示制御方法。
  9. 声音と背景音若しくは背景楽音とが合成された音声信号に対応する字幕の表示態様を制御する字幕表示制御プログラムにおいて、
    前記音声信号を分析して少なくとも前記背景音若しくは背景楽音についての背景音レベルを含む複数の分析値を求める分析手順と、
    前記複数の分析値を、少なくとも背景音レベルの基準値を含む複数の基準値と比較することにより声音の聞き難さを検定する手順と、
    前記検定の結果に応じて前記表示態様を決定する手順とをコンピュータに実行させるための字幕表示制御プログラム。
JP2003207621A 2003-08-15 2003-08-15 字幕制御装置および方法ならびにプログラム Expired - Fee Related JP4128916B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003207621A JP4128916B2 (ja) 2003-08-15 2003-08-15 字幕制御装置および方法ならびにプログラム
US10/917,351 US7467088B2 (en) 2003-08-15 2004-08-13 Closed caption control apparatus and method therefor
CNB2004100574977A CN100431342C (zh) 2003-08-15 2004-08-13 隐藏字幕控制装置及其所用的方法
US12/272,415 US7925509B2 (en) 2003-08-15 2008-11-17 Closed caption control apparatus and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003207621A JP4128916B2 (ja) 2003-08-15 2003-08-15 字幕制御装置および方法ならびにプログラム

Publications (2)

Publication Number Publication Date
JP2005064599A JP2005064599A (ja) 2005-03-10
JP4128916B2 true JP4128916B2 (ja) 2008-07-30

Family

ID=34131440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003207621A Expired - Fee Related JP4128916B2 (ja) 2003-08-15 2003-08-15 字幕制御装置および方法ならびにプログラム

Country Status (3)

Country Link
US (2) US7467088B2 (ja)
JP (1) JP4128916B2 (ja)
CN (1) CN100431342C (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7239693B2 (en) 2003-06-30 2007-07-03 Bellsouth Intellectual Property Corporation Network-based timed ring suppression
US7113586B2 (en) * 2003-06-30 2006-09-26 Edward Michael Silver Caller controlled network-based timed ring suppression
US7443967B1 (en) 2003-09-29 2008-10-28 At&T Intellectual Property I, L.P. Second communication during ring suppression
JP2006081061A (ja) * 2004-09-13 2006-03-23 Alpine Electronics Inc 音声出力装置及び音声/映像出力装置
JP4127274B2 (ja) * 2005-03-22 2008-07-30 日本電気株式会社 電話音声認識システム
JP2006279592A (ja) 2005-03-29 2006-10-12 Toshiba Corp 放送受信機
KR100718080B1 (ko) * 2005-07-25 2007-05-16 삼성전자주식회사 클로우즈드 캡션 데이터를 디스플레이하는 방송 수신 장치및 그 방법
JP2007129663A (ja) * 2005-11-07 2007-05-24 Sharp Corp 再生装置
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
EP1816860A1 (en) * 2006-02-03 2007-08-08 Advanced Digital Broadcast S.A. Method and system for controlling of transfer of information contained in signal received by digital television receiver
JP2007300323A (ja) * 2006-04-28 2007-11-15 Sharp Corp 字幕表示制御システム
KR101158436B1 (ko) * 2006-06-21 2012-06-22 엘지전자 주식회사 디지털 방송과 부가 정보의 동기 제어 방법 및 이를구현하기 위한 디지털 방송용 단말기
JP2008005405A (ja) * 2006-06-26 2008-01-10 Funai Electric Co Ltd テレビ受像機および映像表示装置
US8041025B2 (en) * 2006-08-07 2011-10-18 International Business Machines Corporation Systems and arrangements for controlling modes of audio devices based on user selectable parameters
JP4980018B2 (ja) * 2006-09-21 2012-07-18 パナソニック株式会社 字幕生成装置
JP5222543B2 (ja) * 2007-12-10 2013-06-26 株式会社日立製作所 テレビジョン装置
US7487096B1 (en) * 2008-02-20 2009-02-03 International Business Machines Corporation Method to automatically enable closed captioning when a speaker has a heavy accent
KR101513615B1 (ko) * 2008-06-12 2015-04-20 엘지전자 주식회사 이동 단말기 및 그 음성 인식 방법
US9131191B2 (en) * 2008-09-18 2015-09-08 VIZIO Inc. Synchronizing operational states of closed captioning and audio mute
US8359399B2 (en) * 2008-10-16 2013-01-22 Echostar Technologies L.L.C. Method and device for delivering supplemental content associated with audio/visual content to a user
WO2010064853A2 (en) * 2008-12-02 2010-06-10 Lg Electronics Inc. 3d caption display method and 3d display apparatus for implementing the same
US8212924B2 (en) * 2009-05-12 2012-07-03 Himax Technologies Limited System and method for processing multimedia data using an audio-video link
US8325276B2 (en) * 2009-08-26 2012-12-04 Samsung Electronics Co., Ltd. System and method for real-time video content sharing with synchronization via closed-caption metadata
KR20110025123A (ko) * 2009-09-02 2011-03-09 삼성전자주식회사 비디오 영상 배속 재생 방법 및 장치
US8458758B1 (en) * 2009-09-14 2013-06-04 The Directv Group, Inc. Method and system for controlling closed captioning at a content distribution system
JP2012070150A (ja) * 2010-09-22 2012-04-05 Sharp Corp コンテンツ再生装置、方法、及びプログラム
US20130007800A1 (en) * 2011-03-31 2013-01-03 Sony Ericsson Mobile Communications Ab System and method for rendering messaging content while contemporaneously rendering multimedia content
KR101830656B1 (ko) * 2011-12-02 2018-02-21 엘지전자 주식회사 이동 단말기 및 이의 제어방법
CN103796060B (zh) * 2012-11-26 2017-07-28 深圳Tcl新技术有限公司 电视机及其cc模式识别显示方法、装置
US9210360B2 (en) * 2012-12-28 2015-12-08 Echostar Uk Holdings Limited Volume level-based closed-captioning control
US10321204B2 (en) * 2014-07-11 2019-06-11 Lenovo (Singapore) Pte. Ltd. Intelligent closed captioning
KR102187195B1 (ko) * 2014-07-28 2020-12-04 삼성전자주식회사 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말
US10546582B2 (en) * 2014-12-26 2020-01-28 Sony Corporation Information processing device, method of information processing, and program
US9596429B2 (en) * 2015-05-08 2017-03-14 Echostar Technologies L.L.C. Apparatus, systems and methods for providing content when loud background noise is present
US9967631B2 (en) * 2015-11-11 2018-05-08 International Business Machines Corporation Automated audio-based display indicia activation based on viewer preferences
CN105828118A (zh) * 2016-03-22 2016-08-03 乐视网信息技术(北京)股份有限公司 视频推送方法及装置
CN105872431B (zh) * 2016-04-20 2019-03-12 武汉华星光电技术有限公司 显示模组的噪点检测装置及噪点检测方法
US11189289B2 (en) * 2016-12-05 2021-11-30 Sony Corporation Information processing device, information processing method, and information processing system
WO2018112789A1 (en) * 2016-12-21 2018-06-28 Arris Enterprises Llc Automatic activation of closed captioning for low volume periods
WO2019117884A1 (en) * 2017-12-13 2019-06-20 Google Llc Methods, systems, and media for presenting caption information based on volume setting adjustments
US11064264B2 (en) * 2018-09-20 2021-07-13 International Business Machines Corporation Intelligent rewind function when playing media content
CN110324702B (zh) * 2019-07-04 2022-06-07 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
US10965888B1 (en) * 2019-07-08 2021-03-30 Snap Inc. Subtitle presentation based on volume control
US11290786B2 (en) 2019-09-13 2022-03-29 Dish Network L.L.C. Systems and methods for controlling closed captioning
US20230010466A1 (en) * 2019-12-09 2023-01-12 Dolby Laboratories Licensing Corporation Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics
US20220272284A1 (en) * 2021-02-25 2022-08-25 Rovi Guides, Inc. Systems and methods for improved video captions
US20240022682A1 (en) * 2022-07-13 2024-01-18 Sony Interactive Entertainment LLC Systems and methods for communicating audio data

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3074046B2 (ja) 1991-10-21 2000-08-07 沖電気工業株式会社 音声・楽音識別回路
JP2976998B2 (ja) 1992-04-10 1999-11-10 日本電信電話株式会社 発話速度測定装置
CN1062103C (zh) * 1992-10-12 2001-02-14 株式会社金星社 控制字幕显示的设备和方法
US5327176A (en) * 1993-03-01 1994-07-05 Thomson Consumer Electronics, Inc. Automatic display of closed caption information during audio muting
JPH07123376A (ja) 1993-10-20 1995-05-12 Hitachi Ltd 文字多重放送受信装置
JP3256619B2 (ja) * 1993-12-24 2002-02-12 株式会社東芝 文字情報表示装置
JP3196191B2 (ja) * 1994-01-14 2001-08-06 船井電機株式会社 文字多重放送デコーダ内蔵機器
JPH07226907A (ja) 1994-02-15 1995-08-22 Sony Corp 映像信号再生装置及び映像記録媒体
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
JPH096529A (ja) 1995-06-21 1997-01-10 Nec Corp コードレスマウス
US5995709A (en) * 1996-12-27 1999-11-30 Victor Company Of Japan, Ltd. MPEG decoder and optical video disc player using the same
US6785649B1 (en) * 1999-12-29 2004-08-31 International Business Machines Corporation Text formatting from speech
JP2002247498A (ja) * 2001-02-16 2002-08-30 Toshiba Corp 情報再生装置
US20020154246A1 (en) * 2001-04-19 2002-10-24 Hawkins Bret David Method and apparatus for control of auxiliary video information display
JP4209099B2 (ja) 2001-09-05 2009-01-14 アルパイン株式会社 ディスク再生装置
US20060114757A1 (en) * 2002-07-04 2006-06-01 Wolfgang Theimer Method and device for reproducing multi-track data according to predetermined conditions
JP4170808B2 (ja) * 2003-03-31 2008-10-22 株式会社東芝 情報表示装置、情報表示方法及びプログラム
JP2005064592A (ja) 2003-08-14 2005-03-10 Fuji Photo Film Co Ltd 携帯通信端末
KR101041810B1 (ko) * 2004-08-27 2011-06-17 엘지전자 주식회사 영상기기 및 그의 자동 캡션 수행 방법

Also Published As

Publication number Publication date
JP2005064599A (ja) 2005-03-10
CN100431342C (zh) 2008-11-05
US20090074378A1 (en) 2009-03-19
CN1581282A (zh) 2005-02-16
US20050038661A1 (en) 2005-02-17
US7467088B2 (en) 2008-12-16
US7925509B2 (en) 2011-04-12

Similar Documents

Publication Publication Date Title
JP4128916B2 (ja) 字幕制御装置および方法ならびにプログラム
JP4170808B2 (ja) 情報表示装置、情報表示方法及びプログラム
JP5082327B2 (ja) 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8010366B1 (en) Personal hearing suite
JP2008546016A (ja) マルチメディア信号で自動的なダビングを実行する方法及び装置
US9756437B2 (en) System and method for transmitting environmental acoustical information in digital audio signals
US20100142729A1 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program and electronic apparatus
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
JP2006081061A (ja) 音声出力装置及び音声/映像出力装置
JP2007336593A (ja) 情報表示装置、情報表示方法及びプログラム
JP2009094796A (ja) テレビジョン受信機
JP2008160232A (ja) 映像音声再生装置
JP2006254187A (ja) 音場判定方法及び音場判定装置
JP2010230972A (ja) 音信号処理装置、その方法、そのプログラム、および、再生装置
JP2008228005A (ja) 映像音声処理装置、映像音声再生システム、映像音声処理方法、及び、映像音声処理プログラム
JP2008177734A (ja) デジタル放送コンテンツ再生装置
JP2005333191A (ja) 携帯端末型テレビジョン受信装置
JP2002218331A (ja) テレビジョン受信装置及び受信方法
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
EP1538570A2 (en) Method for graphically displaying audio frequency component in digital broadcast receiver
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2006093918A (ja) デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体
JP4543298B2 (ja) 再生装置および方法、記録媒体、並びにプログラム
JP2006079684A (ja) 再生装置および再生方法
JP3970080B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080513

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080515

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140523

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees