JP2010231241A - 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 - Google Patents

音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2010231241A
JP2010231241A JP2010157615A JP2010157615A JP2010231241A JP 2010231241 A JP2010231241 A JP 2010231241A JP 2010157615 A JP2010157615 A JP 2010157615A JP 2010157615 A JP2010157615 A JP 2010157615A JP 2010231241 A JP2010231241 A JP 2010231241A
Authority
JP
Japan
Prior art keywords
speech
determination
sound quality
result
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010157615A
Other languages
English (en)
Inventor
Tomoya Nakamura
智也 中村
Sunao Onishi
直 大西
Osamu Fujii
修 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010157615A priority Critical patent/JP2010231241A/ja
Publication of JP2010231241A publication Critical patent/JP2010231241A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能な音声信号判別装置を提供する。
【解決手段】入力された音声信号がもつミュージック性の度合を検出するミュージック性検出手段11aと、入力された音声信号がもつスピーチ性の度合を検出するスピーチ性検出手段11bと、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定手段12とを有する。スピーチ/非スピーチ判定手段12は、ミュージック性検出手段11aの検出結果及びスピーチ性検出手段11bの検出結果の両方に基づいて、スピーチ/非スピーチの判定を行う。
【選択図】図1

Description

本発明は、音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体に関し、より詳細には、音声信号に対しスピーチ/非スピーチの判定を行う音声信号判定装置、その音声信号判定装置を備えた音質調整装置、その音質調整装置を備えたコンテンツ表示装置、それらのプログラム、及び、そのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
従来から、一般的なオーディオ装置では、低音域の出力周波数特性を調整するバス調整、高音域の出力周波数特性を調整するトレブル調整、低音域及び高音域を強調するラウドネス調整等の各種音質調整装置が設けられている。
このような音質調整装置としては、入力された音声信号の音声情報自体からその周期性の有無を検出することにより、入力された信号が音楽情報かそれ以外の情報かを判断し、その結果に応じて音響パラメータを制御するものも提案されている(例えば、特許文献1を参照)。
特開昭61−93712号公報
しかしながら、特にテレビジョン放送やラジオ放送を受信する機器においては、音声情報だけから音楽情報の是非を判断すると思わぬ誤判定が生じる場合がある。
例えば、音楽番組でアカペラが流れた場合は、その作風のためにリズム感を検出することができずに、音楽情報ではないと判定し、この音楽情報に最適な音響パラメータをイコライザ等で選択しないという誤判定が生じる。その結果、この音楽情報は、イコライザの方で例えばスピーチに最適な音響パラメータ等を選択することも生じ得るので、生の音の響きを重視したいアカペラの音楽情報に対して、言葉の明瞭性を重視した(中音域を比較的強調した)音響特性で出力する結果となり、ユーザが本来聞きたい音響設定にならない。
また、ニュース番組を視聴中には、本来言語の明瞭性を重視したスピーチに最適なパラメータ等を選択するのが好適であるが、ニュースの内容によっては時にはアナウンサのスピーチと並行してニュースの取材現場で集音した音声をそのまま出力する場合もある。このような集音した音声情報に音楽が混在していると、その両者の音量のバランスによってはニュース番組のスピーチより、集音した音声から出力された音楽情報などが優位性を持つことも想定されるので、このような場合も、上述のアカペラの例とは逆の例として十分起こり得る問題点である。
そして、上述のごとき問題を解決し、入力音声信号に対し的確なスピーチ/非スピーチ判定を実行可能とした機器であっても、機器内部で判定並びにその判定に基づく音質調整を実行していることから、ユーザはどのような理由で音質が変更されたのかを理解できないといった問題が生じる。特に、このようなスピーチ/非スピーチ判定に基づく音質調整の結果として出力された音声がユーザ好みでなかった場合、ユーザは、音質調整の原因が分からず設定を変更することもできないので、不快感を抱かざるを得ない。
本発明は、上述のごとき実情に鑑みてなされたものであり、入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能な音声信号判別装置、その音声信号判別装置を備えた音質調整装置、その音質調整装置を備えたコンテンツ表示装置、それらのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することをその目的とする。
また、本発明は、入力された音声信号に対してスピーチ/非スピーチを判定してその判定結果に基づき音質を調整する際に、その判定結果をユーザに視認させることが可能な音質調整装置、その音質調整装置を備えたコンテンツ表示装置、それらのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを他の目的とする。
本発明は、上述のごとき課題を解決するために、以下の各技術手段でそれぞれ構成される。
第1の技術手段は、入力された音声信号がもつミュージック性の度合を検出するミュージック性検出手段と、入力された音声信号がもつスピーチ性の度合を検出するスピーチ性検出手段と、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定手段とを有する音声信号判別装置であって、前記スピーチ/非スピーチ判定手段は、前記ミュージック性検出手段の検出結果及び前記スピーチ性検出手段の検出結果の両方に基づいて、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第2の技術手段は、第1の技術手段において、前記スピーチ/非スピーチ判定手段は、前記スピーチ性検出手段の検出結果から前記ミュージック性検出手段の検出結果を減算した結果を用いて、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第3の技術手段は、第2の技術手段において、前記スピーチ/非スピーチ判定手段は、前記ミュージック性検出手段の検出結果及び前記スピーチ性検出手段の検出結果に基づき、スピーチ性の度合及びミュージック性の度合に応じて異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第4の技術手段は、第3の技術手段において、前記スピーチ/非スピーチ判定手段は、前記ミュージック性検出手段の検出結果を所定数の段階に分類し、且つ前記スピーチ性検出手段の検出結果を前記所定数と同じ又は異なる所定数の段階に分類し、ミュージック性の度合及びスピーチ性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第5の技術手段は、第3又は第4の技術手段において、入力された音声信号がモノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定手段を有し、前記スピーチ/非スピーチ判定手段は、前記モノラル/ステレオ判定手段の判定結果に基づいて、前記計算式の補正成分を調整することを特徴としたものである。
第6の技術手段は、第1乃至第5のいずれか1の技術手段における音声信号判別装置を備えた音質調整装置であって、該音声信号判別装置によってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整する音質調整手段を備えることを特徴としたものである。
第7の技術手段は、第6の技術手段において、前記スピーチ/非スピーチ判定手段における判定結果を表示する判定結果表示手段を備え、該判定結果表示手段は、ユーザに対し、前記判定結果をスピーチ或いは非スピーチの度合に応じて段階的に表示することを特徴としたものである。
第8の技術手段は、第7の技術手段において、前記音質調整手段は、前記スピーチ/非スピーチ判定手段の判定結果に基づく前記音質調整を実行するか否かを設定する調整設定手段を有し、前記判定結果表示手段は、前記調整設定手段によって前記音質調整を実行するよう設定されている場合にのみ、前記判定結果の表示を行うことを特徴としたものである。
第9の技術手段は、第7又は第8の技術手段において、前記判定結果表示手段は、前記判定結果の表示を実行するか否かを設定する表示設定手段を有し、該表示設定手段によって前記判定結果表示を実行するよう設定されている場合にのみ、前記判定結果の表示を行うことを特徴としたものである。
第10の技術手段は、第7乃至第9のいずれか1の技術手段における音質調整装置とコンテンツ入力装置とを備えたコンテンツ表示装置であって、該コンテンツ入力装置で入力されたコンテンツに含まれる音声信号を前記音質調整装置に入力し、音質を調整して音声出力し、且つ、前記コンテンツに含まれる映像信号を表示すると共に、必要に応じて前記判定結果表示手段による判定結果表示を行うことを特徴としたものである。
第11の技術手段は、ミュージック性検出手段が、入力された音声信号がもつミュージック性の度合を検出するミュージック性検出ステップと、スピーチ性検出手段が、入力された音声信号がもつスピーチ性の度合を検出するスピーチ性検出ステップと、スピーチ/非スピーチ判定手段が、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定ステップとを、コンピュータに実行させるためのプログラムであって、前記スピーチ/非スピーチ判定ステップは、前記ミュージック性検出ステップでの検出結果及び前記スピーチ性検出ステップでの検出結果の両方に基づいて、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第12の技術手段は、第11の技術手段において、前記スピーチ/非スピーチ判定ステップは、前記スピーチ性検出ステップの検出結果から前記ミュージック性検出ステップの検出結果を減算した結果を用いて、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第13の技術手段は、第12の技術手段において、前記スピーチ/非スピーチ判定ステップは、前記ミュージック性検出ステップの検出結果及び前記スピーチ性検出ステップの検出結果に基づき、スピーチ性の度合及びミュージック性の度合に応じて異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第14の技術手段は、第13の技術手段において、前記スピーチ/非スピーチ判定ステップは、前記ミュージック性検出ステップの検出結果を所定数の段階に分類し、且つ前記スピーチ性検出ステップの検出結果を前記所定数と同じ又は異なる所定数の段階に分類し、ミュージック性の度合及びスピーチ性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴としたものである。
第15の技術手段は、第11乃至第14のいずれか1の技術手段において、当該プログラムは、音質調整手段が前記スピーチ/非スピーチ判定ステップによりスピーチ/非スピーチに判別された音声信号に対しスピーチと非スピーチとで異なる音質に調整する音質調整ステップを、前記コンピュータに実行させるための調整プログラムを含むことを特徴としたものである。
第16の技術手段は、第11乃至第15のいずれか1の技術手段において、当該プログラムは、判定結果表示手段が前記スピーチ/非スピーチ判定ステップにおける判定結果を表示部に表示する判定結果表示ステップを、前記コンピュータに実行させるための表示プログラムを含み、該判定結果表示ステップは、ユーザに対し、前記判定結果をスピーチ或いは非スピーチの度合に応じて段階的に表示することを特徴としたものである。
第17の技術手段は、第11乃至第16のいずれか1の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能となる。また、本発明によれば、入力された音声信号に対してスピーチ/非スピーチを判定してその判定結果に基づき音質を調整する際に、その判定結果をユーザに視認させることが可能となる。
本発明の一実施形態に係る音質調整装置の一構成例を示すブロック図である。 図1の音質調整装置における音質調整処理並びに判定結果表示処理の一例を説明するためのフロー図である。 図1の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図である。 図2の判定結果表示処理における画面表示例を示す図である。 図1の音質調整装置における適用例の一つであるテレビ受像機の一構成例を示すブロック図である。 図5におけるマイコン内に格納されている計算式テーブルの一例を示す図である。 図5におけるマイコン内に格納されているマーク表示目標テーブルの一例を示す図である。 図5のテレビ受像機におけるスピーチ/非スピーチ判定及び判定結果表示処理を説明するためのフロー図である。 図5のテレビ受像機における判定結果表示処理を説明するためのフロー図である。 図1の音質調整装置における判定結果表示の設定画面の一例を示す図である。 図1の音質調整装置における判定結果表示の設定画面の一例を示す図である。 図1の音質調整装置における判定結果表示の設定画面の一例を示す図である。 一般的な情報処理装置の構成例を示すブロック図である。 本発明の他の実施形態に係る音質調整装置の一構成例を示すブロック図である。 図14の音質調整装置における音質調整処理の一例を説明するためのフロー図である。 図14の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図である。
本発明に係る音声信号判別装置は、ミュージック性検出手段、スピーチ性検出手段、及びスピーチ/非スピーチ判定手段を備えるものとする。以下、このような音声信号判別装置を備え、ここでの判別に基づいた音質調整を行う音質調整手段を備えた音質調整装置について説明するが、本発明に係る音声信号判別装置は、音質調整以外、例えば判別に基づいたコンテンツ(その音声信号を含むコンテンツ)の分別記録(録画)などにも適用可能である。
また、本発明に係る音質調整装置は、このような音声信号判別装置に加え、音質調整手段、及び好ましくは判定結果表示手段を備えるものとする。以下、本発明の説明にあたり、スピーチ/非スピーチ判定に際して、モノラル/ステレオ判定並びにその判定結果に基づきスピーチ/非スピーチ判定における判断基準を最適化するといった好適な例を挙げて説明するが、本発明ではこのようなモノラル/ステレオ判定及び最適化を実行しない形態も当然採用可能である。このような他の実施形態として、モノラル/ステレオ判定及び最適化の代わりに有音/無音判定を行う形態についても説明するが、当然モノラル/ステレオ判定及び最適化と有音/無音判定とを併用する形態を採用してもよい。
図1は、本発明の一実施形態に係る音質調整装置の一構成例を示すブロック図で、図中、1は音質調整装置、10は音声信号入力手段、11aはミュージック性検出手段、11bはスピーチ性検出手段、12はスピーチ/非スピーチ判定手段、13はモノラル/ステレオ判定手段、14は基準最適化手段、14aはスイッチ、14bは閾値(スレッショルド)VSL1への設定手段、14cは閾値VSL2への設定手段、15は音質調整手段、16は音声信号出力手段、17は判定結果表示手段である。
ミュージック性検出手段11aは、入力された音声信号がもつミュージック性の度合を検出する手段で、非スピーチ性判定手段とも言える。スピーチ性検出手段11bは、入力された音声信号がもつスピーチ性の度合を検出する手段で、スピーチ性判定手段とも言える。ミュージック性とは音声信号が音楽の信号である可能性を示し、スピーチ性とは音声信号が会話などを含む信号である可能性を示す。ミュージック性検出手段11a及びスピーチ性検出手段11bは、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。
スピーチ/非スピーチ判定手段12は、音声信号入力手段10で入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行う。音声信号入力手段10では、その入力元や入力方法は問わない。また、スピーチ/非スピーチ判定手段12も、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。
そして、本発明におけるスピーチ/非スピーチ判定手段12は、ミュージック性検出手段11aの検出結果及びスピーチ性検出手段11bの検出結果に基づき、スピーチ性の度合及びミュージック性の度合に応じて異なる計算式を用い、スピーチ/非スピーチの判定を行う。従って、例えば、スピーチ性の度合を0〜100及びミュージック性の度合も0〜100で検出した場合、スピーチ/非スピーチの判定は101×101通りの検出結果を閾値処理などして実行する。
このような判定は煩雑であることから、より好ましくは、スピーチ/非スピーチ判定手段12は、まず、ミュージック性検出手段11aの検出結果を、予め分類した所定数の段階のどの段階に該当するかを判定し、且つスピーチ性検出手段11bの検出結果をその所定数と同じ又は異なる所定数の予め分類した段階のどの段階に該当するかを判定する。そして、スピーチ/非スピーチ判定手段12は、ミュージック性の度合及びスピーチ性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行う。例えば、ミュージック性・スピーチ性共に3つずつの段階に分類していた場合、3×3の9通りの計算式が用いられ、ミュージック性・スピーチ性の検出結果に基づきこれらの計算式が選択され計算がなされる。
また、スピーチ/非スピーチ判定手段12では、「ニュース番組などは一般的にモノラル放送が多く、一方で音楽が流れるCMや音楽番組はステレオ放送に設定されていることが多い」といった経験則を利用し、音声信号に重畳されたモノラル/ステレオ信号を検出することによって、現在放送されている番組がスピーチ/非スピーチ(音楽)のいずれに好適かを判断することが好ましい。このため、ここで説明する音質調整装置は、モノラル/ステレオ判定手段13及び基準最適化手段14を備え、これらの手段によってスピーチ/非スピーチ判定を最適化し、その判定に基づき上述の計算式或いは他の計算式の音響パラメータの制御を行っている。
モノラル/ステレオ判定手段13は、入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定する。モノラル/ステレオ判定手段13も、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよく、また、単に音声信号を入力した際のモノラル/ステレオの切り替えなどの情報によって判定してもよい。さらに、音声信号の元のコンテンツが電子プログラムガイド(EPG)に掲載され予約録画可能なようになっている場合などには、EPGにおけるモノラル/ステレオの情報も共に掲載されているので、その情報を取得することでモノラル/ステレオ判定を行うことも可能である。
基準最適化手段14は、モノラル/ステレオ判定手段13での判定結果に基づいて、スピーチ/非スピーチ判定手段12における判定基準を最適化する。この最適化は、上述の計算式の補正項(補正成分)のパラメータを変更することで行ってもよいし、その他、例えば上述の計算式による計算後の閾値処理などの閾値のパラメータ(例えば後述のVSL1,VSL2)を変更することで行っても、これら双方変更することを行ってもよい。このように、モノラル/ステレオ判定によりスピーチ自動検出機能の判定基準を最適化させることで、検出機能の精度を向上させることができる。従って、入力された音声信号に対して的確にスピーチ/非スピーチを判別すること、すなわち音声信号のモノラル/ステレオの信号に応じて好適なスピーチ/非スピーチ検出が可能となる。
例えば、ニュース等のモノラル信号時はスピーチと判定し易く、またBGMを含めた音楽が多いステレオ信号時は非スピーチと判定し易くなるように最適化制御を行うことができる。また、この例では、音声信号のスピーチ/非スピーチの判定を的確に行うためにその音声信号に対してモノラル/ステレオ判定及び基準最適化が予めなされていることを前提とするが、ディレイなどを用いてもよいし、単に、音声信号が入力される度に、逐次、モノラル/ステレオ判定及び基準最適化を行ってスピーチ/非スピーチ判定を行っていってもよい。
また、ミュージック性検出手段11aやスピーチ性検出手段11bにおける検出は、入力された音声信号に対して複数の信号解析を施すことによって行うようにすることが好ましい。信号解析としては、例えば、信号の対時間エネルギー変化解析,音節の均一解析,周波数対音声強度の解析などである。このような信号解析により、例えば、(I)信号の対時間エネルギー変化,(II)周波数対音声強度,(III)母音と子音の順序,(IV)音節の長さ,(V)子音と母音のエネルギー量などが得られる。そして、ミュージック性検出手段11aとスピーチ性検出手段11bとの差として、これらの信号解析の一部又は全部のパラメータを異ならしめるようにすればよい。
そして、これらの検出結果に基づいて、最終的に例えば次のような点を考慮して、スピーチ/非スピーチが判定されるようにするとよい。(I)スピーチには、音節(音声エネルギーが高い)と音節との間に、音声エネルギーが低い区分が存在し、非スピーチにはこのような区分は存在しないことが多い。(II)スピーチが100Hz〜3kHzの中域の強度が強く、非スピーチが低域及び高域の強度が強い。(III)スピーチは、音節内の順序が子音から母音へと続く場合が多い。(IV)スピーチは、音節の長さが均一の場合が多い。(V)スピーチは、母音のエネルギー量が子音のエネルギー量より大きい場合が多い。さらに、(I)〜(V)に対し、重み付けを行って合算し、統計処理を施すなどして、最終的な信号解析の結果を得、その数値をモノラルの場合にはそれ用の閾値VSL1でステレオの場合はそれ用の閾値VSL2で判定することで、スピーチ/非スピーチの判定(例えばスピーチの可能性等の度合の判定)を行えばよい。他の方法として、基準最適化手段14が、スピーチ/非スピーチの判定基準としての各信号解析に対する閾値のセットを、モノラル/ステレオ判定に基づいて変更するようにしてもよい。
音質調整手段15は、上述のごとき構成によってスピーチ/非スピーチに判別された音声信号に対し、少なくともスピーチと非スピーチとで異なる音質に調整する。ここでの音質設定の方法は任意であり、スピーチ/非スピーチの可能性などの度合により、その設定値や増減の設定値、或いは各周波数帯での設定値などが異なっていればよい。例えば、グラフィックイコライザのごときイコライザの中心周波数とフィルタのQ値(グラフィックイコライザの1つの帯域分のカーブにおける山,谷の鋭さ)が固定されている音質設定や、パラメトリックイコライザのごとくこれらも変更可能な音質設定であってもよい。そして、音声信号出力手段16は、音質調整手段15で調整された音声信号を出力する。
そして、本発明の特徴となる判定結果表示手段17は、ユーザに対し、スピーチ/非スピーチ判定手段12における判定結果を、スピーチ或いは非スピーチの度合(例えば、スピーチ部分の割合やスピーチである可能性)に応じて段階的に表示する。実際、スピーチ/非スピーチ判定手段12においては、上述のごとくスピーチ性及び非スピーチ性(ミュージック性)を検出し、その検出結果に応じて、計算式を選択し、その計算式での計算結果を所定の閾値で閾値処理し、スピーチであるか/非スピーチであるかの判定を下す。判定結果表示手段17では、このようなスピーチ/非スピーチの判定結果を、そのレベル(例えばスピーチの度合)に応じて段階的に表示するようにしてもよい。このような段階的表示を行う際には、併せて複数段階の閾値処理(モノラル/ステレオの度合いに応じて少なくとも2セット以上の閾値群を用意しておくとよい)を行っておくなどして、各段階に応じた音質に調整するようにしておくことで、より段階的表示が効果的となる。
また、判定結果表示手段17では、このようなスピーチ/非スピーチの判定の元となるスピーチ性検出結果或いはミュージック性(ミュージック信号)検出結果を、その検出レベル(例えばスピーチの度合)に応じて段階的に表示するようにしてもよい。また、このような場合には、判定結果の表示のみにスピーチ性検出結果及びミュージック性検出結果の双方を用い、音質調整にはスピーチ性検出結果をそのままスピーチ/非スピーチの判定結果として採用してもよい。但し、この場合、音質調整の元となるデータと判定結果のデータとが例えば音楽番組などで異なることとなってしまうが、その差異が視聴者に分からない程度(例えば放送内容と合う程度)となるような工夫を行う必要がある。
また、音質調整手段15は、スピーチ/非スピーチ判定手段12の判定結果に基づく音質調整手段15による音質調整を実行するか否かを設定する調整設定手段を有するようにしてもよい。なお、スピーチ/非スピーチ判定以外に起因する音質調整については別途設定するなどすればよい。この調整設定手段ではユーザ操作により設定させることとなる。そして、ここでいう設定とは、例えば、(a)音質調整をスピーチ/非スピーチ判定に基づき自動的に行うこと、(b)音質調整を固定すること(所定のスピーチに対して行う音質調整とするなど)、(c)音質調整(あくまでスピーチ/非スピーチ判定に基づく音質調整)を行わないこと、などの選択肢の中からユーザの選択操作によって設定となる。その調整設定手段におけるユーザ設定に基づき、音質調整手段15では(a),(b),(c)のそれぞれに合致した音質調整を行い、判定結果表示手段17では、(a)の場合には判定結果(検出結果)の表示、(b),(c)の場合には非表示とする。このように、判定結果表示手段17では、調整設定手段によって音質調整を実行するよう設定されている場合にのみ、判定結果の表示を行えばよい。例えば、単に上述の(b)のごときスピーチ用の音質調整を行うだけのときには判定結果を表示しないことになる。
さらに、判定結果表示手段17は、判定結果の表示を実行するか否かを設定する表示設定手段を有するようにしてもよい。そして、判定結果表示手段17では、表示設定手段によって判定結果表示を実行するよう設定されている場合にのみ、判定結果の表示を行えばよい。なお、この表示設定手段は上述の調整設定手段の具備の如何は問わず具備すればよいが、調整設定手段と共に具備する形態にあっては、判定結果表示手段17は、調整設定手段で判定結果に基づく音質調整を実行する場合で、且つ判定結果表示を実行する場合でのみ、判定結果の表示を行うこととなる。
図2は、図1の音質調整装置における音質調整処理並びに判定結果表示処理の一例を説明するためのフロー図で、図3は、図1の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図、図4は、図2の判定結果表示処理における画面表示例を示す図である。
簡略化のため、スピーチ/非スピーチにおける判定基準がある1つの閾値処理によってなされるものとして説明するが、複数段階の閾値処理を行う場合には以下の説明で閾値を閾値のセットと読みかえればよい。まず、音声信号が入力されると、モノラル/ステレオ判定手段13によりモノラル/ステレオ判定がなされる(ステップS1)。この判定に際しては、例えば、Lを左入力信号、Rを右入力信号とすると、入力信号に(L−R)/(L+R)の演算を実行し、位相差判定を実施するとよい。
この判定により、モノラル信号であると判定された場合には、基準最適化手段14において、スイッチ14aを閾値VSL1への設定手段14b側へ接続し、スピーチ/非スピーチ判定手段12における判定の閾値をVSL1に設定する(ステップS2)。一方、ステップS1により、ステレオ信号であると判定された場合には、基準最適化手段14において、スイッチ14aを閾値VSL2への設定手段14c側へ接続し、スピーチ/非スピーチ判定手段12における判定の閾値をVSL2に設定する(ステップS3)。このように閾値の設定を最適化することで、ニュース等のモノラル信号時はスピーチと判定し易く、またBGMを含めた音楽が多いステレオ信号時は非スピーチと判定し易くなるように制御することができる。なお、基準最適化手段14の構成は図示したものに限定されるものではない。
次に、ミュージック性検出手段11a及びスピーチ性検出手段11bが、ミュージック性の検出及びスピーチ性の検出をに実行する(ステップS4,S5)。ステップS4,S5の順序は問わない。そして、スピーチ/非スピーチ判定手段12が、まず、ステップS4,S5での検出結果に基づいて計算式を選択して計算を実行し、さらにステップS2/S3のいずれかで設定された閾値VSL1/VSL2に基づいて、スピーチ/非スピーチの判定を行う(ステップS6)。そして、スピーチであると判定された場合には、音質設定Aを選択して音質を調整する(ステップS7)。一方、ステップS6で非スピーチと判定された場合、音質設定Bを選択して音質を調整する(ステップS8)。
ここで、音質設定Aと音質設定Bとの違いの例について、図3を参照して説明する。音質設定A(スピーチ)の場合、イコライザの周波数特性をグラフ21で示すように設定し、音質設定B(非スピーチ)の場合、イコライザの周波数特性をグラフ22で示すように設定する。グラフ21とグラフ22との違いは、非スピーチのときはスピーチのときに比べて、所定の低周波数22aの付近及び所定の高周波数22bの付近を強調している点にある。
ステップS7/S8の処理の前後(少なくともステップS6におけるスピーチ/非スピーチ判定の後)に、その判定結果を表示する(ステップS9)。この表示の方法としては音質調整装置にLED表示するようにしてもよいし、音声信号が映像信号と共に入力されている場合には、例えば図4で例示するように、その映像信号を表示する画面31上にOSD(On Screen Display)表示を行うようにしてもよい。
また、ステップS9における判定結果表示に際しては、スピーチ/非スピーチ判定によるスピーチ度合(或いは非スピーチ度合)が視認できるように、段階的に表示する。なお、ここでのスピーチ度合或いは非スピーチ度合は、ミュージック性検出手段11a及びスピーチ性検出手段11bが検出したミュージック性の度合及びスピーチ性の度合とは通常異なるものとする。なお、ここでの最低の段階表示処理としては、結果的に1つの閾値でスピーチ/非スピーチ判定の処理をして音質調整を実行する場合に対応させ、少なくともスピーチか非スピーチかの2段階で表示する。
以下、スピーチ度合をユーザに視認させるような例で説明すると、図4で例示したように、例えば、画面31上に「スピーチ度合」を表す文字32等を表示させると共に、スピーチ度合(スピーチ検出レベル)に応じた数のマーク33を表示させるとよい。このマーク33の数は、スピーチ度合に応じた数であってスピーチセンサマークとも呼べ、結果的に音質調整がどの位スピーチ寄りになされているかを示すものであり、マーク33の例としてはグリーンの色で口を開けた人の顔をイメージしたスピーチマークを表示するなどすればよい。その他、例えばユーザ設定によって、色の選択や(例えば日本語はグリーン、英文字はオレンジ等)、形状の選択(スピーカマーク,サイン,コサインマーク,フラッシング点滅等)も可能としておいてもよい。なお、図4の例では、「スピーチ度合」を表す文字32として、スピーチ/非スピーチ判定に基づく音質調整の名称(ここでは「いきいきボイス」と命名)を示している。また、このスピーチセンサマークの近隣にスピーチ/非スピーチの判定結果の確実性などをパーセンテージで表示するようにしてもよい。この確実性は、ミュージック性の検出結果とスピーチ性の検出結果があまりにも相反するものであった場合に低いものとすればよい。
また、判定結果表示に際しては、マーク33のごとく画面31の下部に顔イメージを横方向に表示するようにしてもよいし、自動又は手動によって表示位置を任意の位置に移動できるようにすること、さらには縦型表示/横型表示を変更することも可能としておくとよい。また、表示位置を移動する方法として、例えば画面の下部や上部に文字が表示された場合は、それらの文字と重ならない位置に移動できるようにするとよい。より具体的には、例えば、音声多重放送の日本語の吹き替え表示や画面の下部にデータ放送のニュース情報等の文字表示と重ならない位置などに移動すればよい。また、EPGから番組種別情報(例えば歌番組かそれ以外の番組)を取得して、歌番組の場合に表示の大きさを小さく又は大きくするとともに、画面に表示される歌詞の表示と重ならない位置に表示するなどの応用も可能である。
さらに、本発明は、上述のごとき音質調整装置とコンテンツ入力装置とを備えたコンテンツ表示装置(例えば、デジタル/アナログに限らずテレビジョン放送やラジオ放送の放送信号を受信する放送受信装置)にも適用可能である。このコンテンツ表示装置では、コンテンツ入力装置で入力されたコンテンツに含まれる音声信号を音質調整装置に入力し、音質を調整して音声出力し、且つ、コンテンツに含まれる映像信号を表示すると共に、必要に応じて判定結果表示手段17による判定結果表示を行う。本発明に係るコンテンツ表示装置は、例えば、テレビジョン受信機をはじめ、コンテンツ再生プログラム,ビデオカード(ビデオアダプタともいう)等のモジュールを備えた汎用のパーソナルコンピュータ(以下、PCと略す)などにも、後述するように適用可能である。また、本発明においては、コンテンツの配信及び放送形態は基本的に問わない。次に、音質調整装置を組み込んだコンテンツ表示装置の例としてテレビ受信機(テレビ受像機)を挙げて、より具体的に説明する。
図5は、図1の音質調整装置における適用例の一つであるテレビ受像機の一構成例を示すブロック図で、図6は、図5におけるマイコン内に格納されている計算式テーブルの一例を示す図で、図7は、図5におけるマイコン内に格納されているマーク表示目標テーブルの一例を示す図である。図5において、4はテレビ受像機本体、40はチューナ部、41は外部入力部、42は本体操作部、43は映像処理IC(Integrated Circuit)、44は本体のマイクロコンピュータ(以下、マイコン)、45は音声処理IC、46はディスプレイ、47Lは左スピーカ、47Rは右スピーカ、48は受光部、49はリモートコントローラユニット(以下、リモコン)である。また、図6及び図7において、51はマイコン44内のROM(Read Only Memory)等に格納された計算式テーブル、52はマイコン44内のROM等に格納されたスピーチセンサマーク表示目標テーブルである。
また、図8は、図5のテレビ受像機におけるスピーチ/非スピーチ判定及び判定結果表示処理を説明するためのフロー図で、図9は、図5のテレビ受像機における判定結果表示処理を説明するためのフロー図で、図2のフロー図における判定結果表示処理を抜粋して詳細に説明するためのフロー図でもある。さらに、図10乃至図12は、図1の音質調整装置における判定結果表示の設定画面の一例を示す図で、図10は音声調整の設定項目例を、図11は図10の設定項目例のうちの本発明に係る音質調整に対する動作設定の項目例を、図12は図10の設定項目例のうちの本発明に係る音質調整に対する表示設定の項目例を、それぞれ示している。また、図10乃至図12において、6は音声調整の設定画面例、61は設定メニュー一覧、62は音声調整項目一覧、63は動作設定項目、64は表示設定項目である。
ここで例示するテレビ受像機本体4は、主として、制御手段の一例としての本体マイコン44、アンテナ及びチューナ部40や外部入力部41などの映像・音声入力部、入力した映像信号に対し各種映像処理を施す映像処理IC43、入力した音声信号に対し各種音声処理を施す音声処理IC45、ユーザ操作を受け付ける本体操作部42、映像処理した映像信号を映し出すLCD,PDP,有機EL等のディスプレイ(表示デバイス)46、音声処理した音声信号を出力する左右のスピーカ47L,47R、リモコン49からの光を受光する受光部48により構成される。そして、マイコン44内のROM等には、計算式テーブル51及びスピーチセンサマーク表示目標テーブル52が格納されているものとする。なお、マイコン44及び音声処理IC45(及び映像処理IC43)は、システムLSI(Large Scale Integrated Circuit)としても組み込むこともできる。
また、周期処理時間の設定を、テレビ受像機4における調整工程で設定しておく。この周期処理時間の設定は、本発明に係る判定結果表示処理を行うに際し、音声処理IC45でなされるスピーチ/非スピーチの判定結果をマイコン44で読み取る周期を設定する処理であり、例えば100ms単位で読み取る設定しておくとよい。ここでは、例えば100ms〜2000msの間で可変としてもよく、調整工程だけでなくユーザ設定によっても可変としてもよい。このように読み取り時間をある程度固定しないと、判定結果表示の滑らかさに影響してしまう。実際にここで設定された周期で読み取られるデータ、すなわちスピーチ/非スピーチの判定結果のデータとしては、例えばレジスタの可動範囲として−100〜0〜+100(FFFF9C〜000000〜000064)を用意しておき、このレジスタの初期設定値を「000000」としておく。そして、音質調整自体は、このレジスタ値が正方向でスピーチ、負方向で非スピーチの音質設定となるように制御しておく。なお、音質調整を行わないモードの時は、マイコン44内部で強制的にスピーチの音質設定にするなどすればよいが、上述のスピーチ/非スピーチの判定結果のレジスタへの書込みは行わない。
また、音質設定の計算式は、図6で例示した次式などにより予め設定しておく。まず、スピーチ性検出結果を、(I)0≦SP結果≦SPEECH LP、(II)SPEECH LP<SP結果<SPEECH HP、(III)SPEECH HP≦SP結果、の3つの段階に分類分けしておく。ミュージック性検出結果は、(i)0≦MU結果≦MUSIC LP,(ii)MUSIC LP<MU結果<MUSIC HP、(iii)MUSIC HP≦MU結果、の3つの段階に分類分けしておく。なお、例えば、SP結果はスピーチ性検出結果/83886の整数部分を、MU結果はミュージック性検出結果/83886の整数部分を採用すればよい。そして、SP結果及びMU結果は、例えば0〜100の範囲の値(000000h〜7FFFFFh)とすればよい。
そして、(I)且つ(i)の場合、|SP結果−MU結果|+α、(I)且つ(ii)の場合、|SP結果−MU結果|、(I)且つ(iii)の場合、−MU結果、(II)且つ(i)の場合、SP結果−MU結果、(II)且つ(ii)の場合、|SP結果−MU結果|+α、(II)且つ(iii)の場合、SP結果−MU結果、(III)且つ(i)の場合、SP結果、(III)且つ(ii)の場合、SP結果−MU結果+α、(III)且つ(iii)の場合、|SP結果−MU結果|+α、といった計算式を用いる。
ここで、SPEECH LP、SPEECH HP、MUSIC LP、MUSIC HPは0〜100の範囲で、状態の境界線となり、MONO、STEは0〜100の範囲でモノラル/ステレオ判定によるステレオ判定時「STE」、モノラル判定時「MONO」の値を+αとして計算結果に加算している。また、これらの値「SPEECH LP」「SPEECH HP」「MUSIC LP」「MUSIC HP」「MONO」「STE」は、調整工程で用意しておけばよい。「STE」の場合、α=+5、「MONO」の場合、α=+10などと決めておけばよく、αはマイナスの値であってもよい。
音質設定の計算式の他に、表示目標数を下式、並びに下式におけるMIN及びMAXの値の設定などにより、予め設定しておく。ここで、各表示数の設定値は「以上未満」とする。なお、下式をスピーチセンサマーク表示目標テーブル52などとして格納しておけばよい。
MIN+(MAX−MIN)×変数[1〜9]÷9
上式において、MAX及びMINは、上述した例でいうところの−100〜+100の間の値として予め設定される最大値及び最小値であり、例えばMINを−80、MAXを90などと予め設定しておけばよい。さらに下式では、判定結果表示を10段階(つまりMAX)で行うものとして、すなわち表示の個数の一例として図4のマーク33が0〜10個表示できるように予め設定されているものとして例示しているが、これに限ったものではない。
上述のごときテレビ受像機4におけるマイコン44の処理は、図8を参照すると、まず、上述のごとく設定された周期での周期処理(例えば100ms単位)を行う(ステップS11)。ステップS11では、処理周期の到来によって、以下のステップS12〜S16を実行させることになる。まずステップS12では、動作設定が自動か否かを判定する。自動であれば、ステップS13〜S16の処理を実行してスピーチ/非スピーチ判定結果に基づく音質調整を実行することとなるが、自動でない(固定)の場合には以降の処理は実行せず、例えば強制的にスピーチ用の音質設定を行うなどすればよい。
ステップS13では、マイコン44は、音声処理IC45に命令することでスピーチ性及びミュージック性の検出を行わせ、その検出結果を読み込む。次に或いはステップS13の前段で、マイコン44は、音声処理IC45に命令することでモノラル/ステレオの判定を行わせ、その検出結果を読み込む(ステップS14)。そして、マイコン44は、読み取った音声処理IC45における検出結果を、テーブル51と比較することで計算式を選択する(ステップS15)。ステップS15では、スピーチ性検出結果及びミュージック性検出結果と「SPEECH LP」「SPEECH HP」「MUSIC LP」「MUSIC HP」を比較し計算式を決定することとなる。そして、マイコン44は、テーブル51上の該当する計算式を用い、モノラル/ステレオ判定結果を併せて代入して計算結果を算出し、スピーチ/非スピーチの判定結果(音質設定の計算結果)を算出してレジスタに書き込む(ステップS16)。このレジスタの値が、図9のステップS22での表示目標値の設定に使用される。
マイコン44における表示処理は、まず、上述のごとく設定された周期での周期処理(例えば100ms単位)を行う(ステップS21)。ステップS21では、処理周期の到来によって、以下のステップS22〜S32を実行させることになる。まず、ステップS22では、図8で説明した処理の結果得られた判定結果のレジスタ値を上式(テーブル52)に代入すること、すなわち音質設定(音質調整)による計算結果をテーブル52に代入することで、表示目標値を設定、すなわち表示数を決定する。
ここで、同期無し時及び無音時は表示を即時に“0”とする(ステップS23,S24)。ステップS23において、入力信号の同期の有無の判定及び無音状態の判定を行い、入力信号同期が無かった場合或いは無音状態であった場合、ステップS24において「強制的に“0”」とする計算を行って、ステップS30へ進む。無音状態の判定については他の実施形態で後述する。なお、ステップS23の判断及びステップS24における計算は、例えばユーザがニュース番組を視聴していて次に選曲によって砂嵐の画面が表示された場合などに有効である。このような場合、またスピーチ/非スピーチの判定結果としては例えばスピーチであるとの判定結果(例えばレジスタ値が+100)が徐々に0に落ちてはいくがレジスタに残ってしまっており、周期的な表示がそのレジスタ値(その残った値)を読み取って実行するようになっていることから、スピーチ/非スピーチの判定が実行できない砂嵐に対しても実行されているようにユーザが勘違いしてしまう。従って、このような勘違いを防止するために強制的にレジスタ値を0にする必要がある。
一方、ステップS23でNOの場合、前周期の表示数がステップS22で設定された表示目標値であるか否かを判定する(ステップS25)。ステップS25でYESの場合、その表示数を維持し(ステップS26)、ステップS30へ進む。ステップS25でNOの場合、前周期の表示数がステップS22で設定された表示目標値より小さいか否かを判定する(ステップS27)。ステップS27でYESの場合、「前周期の表示数+1」の計算を実行し(ステップS28)、ステップS30へ進む。ステップS27でNOの場合、「前周期の表示数−1」の計算を実行し(ステップS29)、ステップS30へ進む。
そして、ステップS24,S26,S28,S29の後、表示数を前周期の表示数に格納し(ステップS30)、表示するか否かの判定を行って(ステップS31)、表示すると判定された場合には画面に表示を行い(ステップS32)、そうでない場合にはそのままこの周期での処理を終了して次の周期の到来を待つ。このように、マイコン44では、ROM内に格納されたテーブル52を元に、上述のごとき周期処理及び計算がなされる。
次に、ステップS31における判定に関して説明する。この判定は、デフォルト値或いはユーザ設定を読み取ることでなされる。ここで、ユーザ設定は、上述した調整設定手段並びに表示設定手段における設定がそれに相当し、次のような手順でなされる。まず、図10に示すようにユーザメニュー一覧61(映像調整,音声調整,本体設定,機能切替)を表示し、ユーザが音声調整を選択することで、音声調整に関する項目一覧62(高音,低音,バランス,サラウンド,いきいきボイス,リセット)を表示する。ユーザが、その中から本発明に係る音質調整(「いきいきボイス」62a)を選択することで、図11或いは図12のように、動作設定項目(調整設定手段における設定項目)63及び表示設定項目64(表示設定手段における設定項目)を表示する。
動作設定項目63としては、例えば、本発明に係る音質調整を行わない設定に相当する「切」63a、スピーチ/非スピーチの判定無しで或いは判定に依らずにスピーチ(又は非スピーチ)寄りの音質に調整するための設定に相当する「固定」63b、及び自動でスピーチ/非スピーチの判定並びにその判定結果に基づく音質調整を行う設定に相当する「自動」63cを用意しておく。そして、「動作設定」が「自動」63cの時にスピーチセンサマークを表示し、「固定」63b,「切」63aの時にはスピーチセンサマークを表示しない。なお、フローのように、「切」64aに設定されている時でもデータの読み取りを行っておくとよい。一方、表示設定項目64としては、「表示なし」64a及び「表示あり」64bを用意しておき、「表示設定」が「表示あり」64bの時だけ、スピーチセンサマークを表示する。勿論、設定周期(例えば100ms単位)毎にデータを読み取って画面下部にスピーチセンサマークを表示すること自体を、「表示あり」64bに設定されている時のみ実行してもよい。
上述のごとき構成及び処理により、本実施形態では、入力された音声信号に対してスピーチ/非スピーチを判定する際に、その判定結果をユーザに視認させることが可能となる。このような判定結果をユーザに視認させることによって、その判定結果に基づいて処理されている音質調整の正しい要因もユーザに把握させることが可能となる。また、その視認によって、さらなるユーザ設定も可能になる。また、スピーチ/非スピーチを判定する際にモノラル/ステレオ判定を行うことで、音声信号の音声情報だけからではなく番組(その音声信号を含む番組)の主旨に沿った判断(スピーチ/非スピーチの判断)も同時になすことで、入力された音声信号の特性によるイコライザ等の音響パラメータ制御の誤判定を極力低減し、的確な音響パラメータの制御及び的確な音質調整が可能となる。また、例えば、音声信号に音声情報と同時に重畳されたモノラル/ステレオ信号によってその番組の主旨を判定し、その結果に応じて入力された音声信号がスピーチか非スピーチ(音楽)かを判断するための判断基準を最適化することによって、放送された番組の内容、特性に応じたスピーチ/非スピーチ検出の自由な制御、及びその制御に基づく機器の制御(例えば音質調整や分別録画等)も可能になる。
また、本実施形態に係るコンテンツ表示装置では、例えば、スピーチ自動検出機能を使用し、TV番組やビデオ/DVD等がスピーチ音声か非スピーチ音声かを視覚的に認識できる表示機能を備えることで、現在表示しているコンテンツがスピーチ音声か非スピーチ音声かをユーザに視覚的に認識させることが可能となる。すなわち、リアルタイムにTV番組やビデオ/DVD等の音声体系(スピーチ/非スピーチ)が視覚的にわかる。また、上述したスピーチ/非スピーチの判定をコンテンツの記録(再録画も含む)に適用してもよく、その場合には、コンテンツ表示装置に、コンテンツを放送経由,ネットワーク経由,記録媒体経由などで取得するだけでなく取得したコンテンツを記録或いは予約記録する機能を付加しておくとよい。例えば、各種レコーダなどでスピーチ/非スピーチ判定をCM判定やその他の分別録画に利用することもでき、そのときに、併せてそのコンテンツがスピーチに相当するのか、或いは非スピーチに相当するのかをユーザに視認可能なように表示すればよい。
また、図1乃至図12で上述した音質調整装置1やテレビ受像機4等のコンテンツ表示装置、さらにはそれらの構成要素となる各手段は、上述したように、ハードウェアで構成してもよいがその一部をソフトウェアで構成してもよい。例えば、図5のマイコンで示したようなコンピュータやPC等の汎用コンピュータなどにプログラムを組み込むことで構成してもよく、その場合の各種処理について、図13に示す一般的な情報処理装置の構成例を参照して説明する。図13は、一般的な情報処理装置の構成例を示すブロック図で、図中、7は情報処理装置、71はCPU(Central Processing Unit)、72はRAM(Random Access Memory)、73は書き換え可能なROM、74は入力装置、75は表示装置、76は出力装置、77はバスである。
また、コンピュータを本発明に係る装置や各手段として機能させるためのプログラム、或いは各処理ステップをコンピュータに実行させるためのプログラムは、ROM73に蓄積されており、CPU71が読み出すことによって実行される。コンピュータ等に搭載される場合のこのプログラムは、上述の各手段としてコンピュータのCPU71等を制御するプログラム(コンピュータを機能させるプログラム)である。本発明に係る装置や各手段で取り扱われる情報は、その処理時に一時的にRAM72に蓄積され、その後、各種ROM73に格納され、必要に応じて、CPU71によって読み出し、修正・書き込みが行われる。ここで本発明に関連する情報としては、ユーザ選択された項目の情報や、閾値や入力装置74の一つとしての音声信号入力手段によって入力され信号解析される時の音声信号などが挙げられる。また、例えばROM73に記憶された設定選択肢のうち設定された値をRAM72に読み出すことでその設定をその間維持するようにしてもよい。
また、処理の途中経過や結果は、LCD,PDP,有機EL,CRT等の表示装置75を通して装置ユーザに提示され、ユーザ設定が必要な場合には、キーボード,マウス(ポインティングデバイス)等の入力装置74から装置ユーザが処理に必要なパラメータを入力指定或いは選択入力すればよい(例えば入力する音声信号或いはそれを含むコンテンツの指定、各種ユーザ設定項目の選択など)。また、このプログラムは、装置ユーザが使用する際に容易となるように、表示装置75用のグラフィカルユーザインターフェース(GUI)を備えるようにするとよい。GUIの例は、図10乃至図12でも例示している。出力装置76としては、音声信号の出力装置であるスピーカをはじめとして、ネットワークに接続して通信を行うためのネットワークボード等の通信機器や、その他、印刷装置等の出力デバイス用の出力装置がある。なお、CPU71,RAM72,ROM73,入力装置74,表示装置75,出力装置76は、バス77などで接続されていればよい。
また、上述のごときプログラムを記録した記録媒体としては、具体的には、CD−ROM、光磁気ディスク、DVD−ROM、FD、フラッシュメモリ、及びその他各種ROM(書き換え可能なROMも含む)やRAM等が想定でき、上述した本発明の各実施形態の機能をコンピュータに実行させるプログラムを、これら記録媒体に記録して流通させることにより、当機能の実現を容易にする。そして、コンピュータ等の情報処理装置に、上述のごとくの記録媒体を装着して情報処理装置によりプログラムを読み出すか、若しくは情報処理装置が備えている記録媒体に当プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に係わる機能を実行することができる。
図14は、本発明の他の実施形態に係る音質調整装置の一構成例を示すブロック図で、図中、8は音質調整装置、80は音声信号入力手段、81aはミュージック性検出手段、81bはスピーチ性検出手段、82はスピーチ/非スピーチ判定手段、83は有音/無音判定手段、85は音質調整手段、86は音声信号出力手段、87は判定結果表示手段である。
本実施形態に係る音質調整装置8は、ミュージック性検出手段81a、スピーチ性検出手段81b、スピーチ/非スピーチ判定手段82、有音/無音判定手段83、音質調整手段85、音声信号出力手段86、及び判定結果表示手段87を備えるものとする。有音/無音判定手段83は、音声信号入力手段80で入力された音声信号が有音の状態か無音の状態かを判定する。音声信号入力手段80では、その入力元や入力方法は問わない。また、有音/無音判定手段83では、例えば入力音声信号の信号レベルを検出すること(所定レベル以上を有音とするなど)で、有音/無音のいずれの状態であるかを判定すればよい。なお、有音/無音判定手段83は、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。
音質調整手段85は、スピーチ/非スピーチ判定手段82の判定結果(図1等で説明したものと同様)並びに有音/無音判定手段83での判定結果に基づいて、音声信号を有音と無音とで異なる音質に設定し、その設定に基づいて音質を調整する。なお、音質調整手段85は、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。そして、音質調整手段85による無音時の音質設定は、有音/無音判定手段83で無音と判定された直前の有音時の音質設定に基づき、その一部のみの変更により行う。例えば、無音の場合には所定の低域帯及び所定の高域帯の出力レベルを有音の場合に比べ1〜2dB下げるなどすればよい。一部のみの変更により、直前の有音時の設定値に近い設定値で調整することとなり、無音時から再度有音状態に移行した際、この状態が上記直前の有音時と近い信号レベルを持つ状態と想定されることから、設定値の変更が一部で済み、素早い復帰が可能となる。なお、この効果は、音質調整手段85に基づく音質の設定をハードウェアで構成することでより顕著になる。そして、音声信号出力手段86は、音質調整手段85で調整された音声信号を出力する。
また、ミュージック性検出手段81a、スピーチ性検出手段81b、及びスピーチ/非スピーチ判定手段82については、図1で説明した通りであるが、ここではモノラル/ステレオ判定に基づく閾値の最適化を行わない例を示している。なお、モノラル/ステレオ判定によってスピーチ自動検出機能の判定基準を最適化させる方が、検出機能の精度を向上させることができる。また、計算式テーブル51のαに相当するパラメータを有音/無音によって異ならしめるようにしてもよい。また、スピーチ/非スピーチ判定手段82の代わりに、EPG情報によってコンテンツの詳細な時系列の情報を取得するよう構成してもよく、その場合にはその取得した情報を元に判定結果表示も行うこととなる。また、スピーチ/非スピーチ判定手段82の配置は、図14で示したものに限らない。そして、この形態における音質調整手段85は、スピーチ/非スピーチ判定手段82における判定結果に基づいて、スピーチと非スピーチとで、上記一部のみの変更の値を異ならしめればよい。
ここでの音質設定の方法は任意であり、スピーチ/非スピーチにより、その設定値や増減の設定値、或いは各周波数帯での設定値などが異なっていればよい。例えば、グラフィックイコライザのごときイコライザの中心周波数とフィルタのQ値が固定されている音質設定や、パラメトリックイコライザのごとくこれらも変更可能な音質設定であってもよいが、上述したように、基本的に有音から無音に移行した際の音質設定は直前の有音時のそれに一部変更したものとなる。さらに、上記一部のみの変更は、無音の場合には所定の低域帯及び所定の高域帯の出力レベルを有音の場合に比べ1〜2dB下げるなどとして例示したように、一部の周波数帯域で局所的に出力レベルを低減させる変更とすることが好ましい。
また、判定結果表示手段87は、スピーチ/非スピーチ判定の結果をユーザに視認させるための手段であるが、同様に、有音/無音の判定結果をユーザに視認させるようにしてもよい。
図15は、図14の音質調整装置における音質調整処理の一例を説明するためのフロー図で、図16は、図14の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図である。ここで、図16(A)はスピーチ時の例、図16(B)は非スピーチ時の例を示している。
音質が基本音質に初期設定されているものとして説明する。また、音声信号からスピーチ/非スピーチを判定し、スピーチと判定されたときにはAの音質に、非スピーチと判定されたときにはBの音質に設定する例を中心に説明する。
まず、有音/無音判定手段83で入力レベルを確認する(ステップS41)。ここで、有音であればステップS45へ、無音であれば基本音質を修正し(ステップS42)、再度ステップS41で入力レベルを確認する。ステップS42では、ステップS41での無音状態との判定が二度目以降の場合には、基本音質の修正を行わないようにしてもよく、この場合でなく再度修正する場合でもその設定は継続しておく。ステップS41,S42での処理は、音声信号が入力され、最初に音質が音質A/Bのいずれかに設定される前の処理であり、その後はステップS43以降の処理で設定の変更及び保持が遂行されていく。
次に、ミュージック性検出手段11a及びスピーチ性検出手段11bが、ミュージック性の検出及びスピーチ性の検出をに実行する(ステップS43,S44)。ステップS43,S44の順序は問わない。次に、スピーチ/非スピーチを判定する(ステップS45)。なお、スピーチ/非スピーチにおける判定基準は、ある1つの閾値処理によってなされても複数パラメータの閾値処理によってなされてもよい。ステップS45の判定に基づいて、音質の設定・調整を行う(ステップS46,S47)。この音質設定では、スピーチと判定されたときにはAの音質を選択して音質を調整し(ステップS46)、非スピーチと判定されたときにはBの音質を選択して音質を調整する(ステップS47)。
ここで、音質設定Aと音質設定Bとの違いの例について、図16を参照して説明する。音質設定A(スピーチ)の場合、イコライザの周波数特性をグラフ91で示すように設定し、音質設定B(非スピーチ)の場合、イコライザの周波数特性をグラフ93で示すように設定する。グラフ91とグラフ93との違いは、非スピーチのとき、スピーチのときの所定の低周波数91aの付近及び所定の高周波数91bの付近の出力レベルに比べて、所定の低周波数93aの付近及び所定の高周波数93bの付近の出力レベルを強調している点にある。
ステップS46,S47の処理では、この選択した音質を保持しておき、次にステップS48において、その元となったスピーチ/非スピーチの判定結果の表示を行う。そして、有音/無音判定手段83で入力レベルを確認する(ステップS49)。ここで、有音であれば処理を終了し、無音であれば音質の調整を行う。ここで行われる音質の調整は、音質をそれぞれの前の状態に合わせて修正する(ステップS50)。設定保持されている音質(無音になる前の音質)が、音質Aであった場合には図16(A)のグラフ92のごとき音質A′、音質Bであった場合には図16(B)のグラフ94のごとき音質B′に修正する。スピーチ時のグラフ92とグラフ91との違いは、所定の低周波数91aの付近及び所定の高周波数91bの付近を強調している点にある。同様に、非スピーチ時のグラフ94とグラフ93との違いは、所定の低周波数93aの付近及び所定の高周波数93bの付近を強調している点にある。本実施形態では、音質A′,B′のように、スピーチ自動検出機能使用時に、有音時の音質設定A,Bの他に、無音状態用の音質設定、すなわち音声入力信号が無い時、若しくは入力信号が小さい(バックグランドノイズ)時の音質設定を設けておく。
次に、無音状態から有音状態へ復帰したかを判定する(ステップS51)。復帰せず、無音のままであればそのときの設定(音質パラメータなど)は変更せずに継続しておき、有音状態への復帰を待つ。一方、復帰した場合には、音質A′又は音質B′を、有音時の音質設定A又はBに戻し(ステップS52)、処理を終了する。
以上、本実施形態のごとき有音/無音判定を実行することにより、次のような従来技術の課題を解決することができる。すなわち、従来技術では、音声情報だけから音楽情報の是非を判断することによって生ずるこのような誤判定によって的確な音質調整を行うことが困難であるだけでなく、音声信号が無音の信号や入力レベルが小さい信号であった場合には、スピーカから低高域ノイズが出力される。このような事態を解消するために、信号レベルが0或いは小さいときには入力信号をシャットアウトするような音質調整を行うように機器を構成した場合であっても、信号レベルが上がり音声が復帰したときに的確で素早い音質設定ができない。このような現象は、記録媒体のローディング時、外部入力との切り替え時、視聴するコンテンツがスピーチ時から非スピーチ時への切り替え時、受信するチャンネルの切り替え時、さらにはCMからの本編への移行時など、急激に信号レベルの大小が切り替わるような音声信号に対しては、特に問題となる。
すなわち、本実施形態に係る音質調整装置によれば、無音時にスピーカから低高域ノイズが出力されるのを削減すると共に、前の状態に近い状態で音質設定をすることによって、音声復帰時の素早い対応(音質設定)が可能となる。つまり、この音質調整装置では、入力レベルが急激に切り替わるような音声信号に対しても、無音時のノイズ出力を的確に低減し且つ有音状態に素早く復帰するような音質設定を行うことが可能となる。
本実施形態によれば、このような効果に加え、音声信号の音声情報だけからではなく番組(その音声信号を含む番組)の主旨に沿った判断(スピーチ/非スピーチの判断)も同時になすことで、入力された音声信号の特性によるイコライザ等の音響パラメータ制御の誤判定を極力低減し、的確な音響パラメータの制御及び的確な音質調整が可能となり、さらに、本発明の主たる効果として、入力された音声信号に対してスピーチ/非スピーチを判定する際にその判定結果をユーザに視認させることが可能となる。例えば、音声信号に音声情報と同時に重畳されたモノラル/ステレオ信号によってその番組の主旨を判定し、その結果に応じて入力された音声信号がスピーチか非スピーチ(音楽)かを判断するための判断基準を最適化することによって、放送された番組の内容、特性に応じたスピーチ/非スピーチ検出の自由な制御、及びその制御に基づく音質調整、並びにユーザへの検出結果の提示が可能になる。
また、図14乃至図16で上述した音質調整装置8も、図1等で示した音質調整装置と同様に、コンテンツ表示装置に組み込むことも可能である。また、その音質調整装置8又はコンテンツ表示装置における構成要素となる各手段もハードウェアで構成してもよいがその一部をソフトウェアで構成してもよい。PC(パーソナルコンピュータ)等の汎用コンピュータなどにプログラムを組み込むことで構成した例、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体の例も、図13を参照して説明した通りであるが、ROMに格納されているプログラムが異なる。このプログラムは、上述した各手段に対応する処理ステップ、すなわち有音/無音判定ステップ、スピーチ/非スピーチ判定ステップ、音質調整ステップ、及びスピーチ/非スピーチ判定に基づく判定結果表示ステップとを、コンピュータに実行させるためのプログラムである。そして、音質調整ステップにおける無音時の音質設定は、有音/無音判定ステップで無音と判定された直前の有音時の音質設定に基づき、その一部のみの変更により行う。また、音質調整を音質調整器(ハードウェア)によって実行させる場合の音質調整ステップは、音声信号を音質設定に基づき音声信号の音質を音質調整機器に調整させるための制御を行うステップとなる。
1,8…音質調整装置、4…テレビ受像機、7…情報処理装置、10,80…音声信号入力手段、11a,81a…ミュージック性検出手段、11b,81b…スピーチ性検出手段、12,82…スピーチ/非スピーチ判定手段、13…モノラル/ステレオ判定手段、14…基準最適化手段、14a…スイッチ、14b…閾値VSL1への設定手段、14c…閾値VSL2への設定手段、15,85…音質調整手段、16,86…音声信号出力手段、、17,87…判定結果表示手段40…チューナ部、41…外部入力部、42…本体操作部、43…映像処理IC、44…マイコン、45…音声処理IC、46…ディスプレイ、47L,47R…スピーカ、48…受光部、49…リモコン、71…CPU、72…RAM、73…書き換え可能なROM、74…入力装置、75…表示装置、76…出力装置、77…バス、83…有音/無音判定手段。

Claims (17)

  1. 入力された音声信号がもつミュージック性の度合を検出するミュージック性検出手段と、入力された音声信号がもつスピーチ性の度合を検出するスピーチ性検出手段と、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定手段とを有する音声信号判別装置であって、前記スピーチ/非スピーチ判定手段は、前記ミュージック性検出手段の検出結果及び前記スピーチ性検出手段の検出結果の両方に基づいて、スピーチ/非スピーチの判定を行うことを特徴とする音声信号判別装置。
  2. 前記スピーチ/非スピーチ判定手段は、前記スピーチ性検出手段の検出結果から前記ミュージック性検出手段の検出結果を減算した結果を用いて、スピーチ/非スピーチの判定を行うことを特徴とする請求項1に記載の音声信号判別装置。
  3. 前記スピーチ/非スピーチ判定手段は、前記ミュージック性検出手段の検出結果及び前記スピーチ性検出手段の検出結果に基づき、スピーチ性の度合及びミュージック性の度合に応じて異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴とする請求項2に記載の音声信号判別装置。
  4. 前記スピーチ/非スピーチ判定手段は、前記ミュージック性検出手段の検出結果を所定数の段階に分類し、且つ前記スピーチ性検出手段の検出結果を前記所定数と同じ又は異なる所定数の段階に分類し、ミュージック性の度合及びスピーチ性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴とする請求項3に記載の音声信号判別装置。
  5. 入力された音声信号がモノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定手段を有し、前記スピーチ/非スピーチ判定手段は、前記モノラル/ステレオ判定手段の判定結果に基づいて、前記計算式の補正成分を調整することを特徴とする請求項3又は4に記載の音声信号判別装置。
  6. 請求項1乃至5のいずれか1項に記載の音声信号判別装置を備えた音質調整装置であって、該音声信号判別装置によってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整する音質調整手段を備えることを特徴とする音質調整装置。
  7. 前記スピーチ/非スピーチ判定手段における判定結果を表示する判定結果表示手段を備え、該判定結果表示手段は、ユーザに対し、前記判定結果をスピーチ或いは非スピーチの度合に応じて段階的に表示することを特徴とする請求項6に記載の音質調整装置。
  8. 前記音質調整手段は、前記スピーチ/非スピーチ判定手段の判定結果に基づく前記音質調整を実行するか否かを設定する調整設定手段を有し、前記判定結果表示手段は、前記調整設定手段によって前記音質調整を実行するよう設定されている場合にのみ、前記判定結果の表示を行うことを特徴とする請求項7に記載の音質調整装置。
  9. 前記判定結果表示手段は、前記判定結果の表示を実行するか否かを設定する表示設定手段を有し、該表示設定手段によって前記判定結果表示を実行するよう設定されている場合にのみ、前記判定結果の表示を行うことを特徴とする請求項7又は8に記載の音質調整装置。
  10. 請求項7乃至9のいずれか1項に記載の音質調整装置とコンテンツ入力装置とを備えたコンテンツ表示装置であって、該コンテンツ入力装置で入力されたコンテンツに含まれる音声信号を前記音質調整装置に入力し、音質を調整して音声出力し、且つ、前記コンテンツに含まれる映像信号を表示すると共に、必要に応じて前記判定結果表示手段による判定結果表示を行うことを特徴とするコンテンツ表示装置。
  11. ミュージック性検出手段が、入力された音声信号がもつミュージック性の度合を検出するミュージック性検出ステップと、スピーチ性検出手段が、入力された音声信号がもつスピーチ性の度合を検出するスピーチ性検出ステップと、スピーチ/非スピーチ判定手段が、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定ステップとを、コンピュータに実行させるためのプログラムであって、前記スピーチ/非スピーチ判定ステップは、前記ミュージック性検出ステップでの検出結果及び前記スピーチ性検出ステップでの検出結果の両方に基づいて、スピーチ/非スピーチの判定を行うことを特徴とするプログラム。
  12. 前記スピーチ/非スピーチ判定ステップは、前記スピーチ性検出ステップの検出結果から前記ミュージック性検出ステップの検出結果を減算した結果を用いて、スピーチ/非スピーチの判定を行うことを特徴とする請求項11に記載のプログラム。
  13. 前記スピーチ/非スピーチ判定ステップは、前記ミュージック性検出ステップの検出結果及び前記スピーチ性検出ステップの検出結果に基づき、スピーチ性の度合及びミュージック性の度合に応じて異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴とする請求項12に記載のプログラム。
  14. 前記スピーチ/非スピーチ判定ステップは、前記ミュージック性検出ステップの検出結果を所定数の段階に分類し、且つ前記スピーチ性検出ステップの検出結果を前記所定数と同じ又は異なる所定数の段階に分類し、ミュージック性の度合及びスピーチ性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴とする請求項13に記載のプログラム。
  15. 当該プログラムは、音質調整手段が前記スピーチ/非スピーチ判定ステップによりスピーチ/非スピーチに判別された音声信号に対しスピーチと非スピーチとで異なる音質に調整する音質調整ステップを、前記コンピュータに実行させるための調整プログラムを含むことを特徴とする請求項11乃至14のいずれか1項に記載のプログラム。
  16. 当該プログラムは、判定結果表示手段が前記スピーチ/非スピーチ判定ステップにおける判定結果を表示部に表示する判定結果表示ステップを、前記コンピュータに実行させるための表示プログラムを含み、該判定結果表示ステップは、ユーザに対し、前記判定結果をスピーチ或いは非スピーチの度合に応じて段階的に表示することを特徴とする請求項11乃至15のいずれか1項に記載のプログラム。
  17. 請求項11乃至16のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2010157615A 2010-07-12 2010-07-12 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 Pending JP2010231241A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010157615A JP2010231241A (ja) 2010-07-12 2010-07-12 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010157615A JP2010231241A (ja) 2010-07-12 2010-07-12 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005260618A Division JP4587916B2 (ja) 2005-09-08 2005-09-08 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2010231241A true JP2010231241A (ja) 2010-10-14

Family

ID=43047036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010157615A Pending JP2010231241A (ja) 2010-07-12 2010-07-12 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2010231241A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0764598A (ja) * 1993-07-26 1995-03-10 Philips Electron Nv 音声信号弁別装置及びオーディオ装置
JPH1124698A (ja) * 1997-07-09 1999-01-29 Sony Corp 信号識別装置、コードブツク切換装置、信号識別方法及びコードブツク切換方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0764598A (ja) * 1993-07-26 1995-03-10 Philips Electron Nv 音声信号弁別装置及びオーディオ装置
JPH1124698A (ja) * 1997-07-09 1999-01-29 Sony Corp 信号識別装置、コードブツク切換装置、信号識別方法及びコードブツク切換方法

Similar Documents

Publication Publication Date Title
JP6896135B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
KR101249239B1 (ko) 오디오 레벨 제어
KR20060123072A (ko) 오디오 신호의 재생을 제어하는 방법 및 장치
EP2538559B1 (en) Audio controlling apparatus, audio correction apparatus, and audio correction method
JPWO2015097831A1 (ja) 電子機器、制御方法およびプログラム
JP4587916B2 (ja) 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
JP2012032447A (ja) 音質制御装置及び音質制御方法
US20200388284A1 (en) Presentation of audio and visual content at live events based on user accessibility
US8837744B2 (en) Sound quality correcting apparatus and sound quality correcting method
US10885893B2 (en) Textual display of aural information broadcast via frequency modulated signals
JP2006171458A (ja) 音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
JP2010231241A (ja) 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
JP4275055B2 (ja) 音質調整装置、放送受信機、プログラム、及び記録媒体
JP4275054B2 (ja) 音声信号判別装置、音質調整装置、放送受信機、プログラム、及び記録媒体
US20240155192A1 (en) Control device, control method, and recording medium
CN110570875A (zh) 检测环境噪音以改变播放语音频率的方法及声音播放装置
JP2006171663A (ja) 復調音響信号レベル判定方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120821