JP2006254187A - Acoustic field determining method and device - Google Patents
Acoustic field determining method and device Download PDFInfo
- Publication number
- JP2006254187A JP2006254187A JP2005069288A JP2005069288A JP2006254187A JP 2006254187 A JP2006254187 A JP 2006254187A JP 2005069288 A JP2005069288 A JP 2005069288A JP 2005069288 A JP2005069288 A JP 2005069288A JP 2006254187 A JP2006254187 A JP 2006254187A
- Authority
- JP
- Japan
- Prior art keywords
- content
- sound field
- listener
- sound
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
Description
本発明は音場判定方法及び音場判定装置に関し、特に音声、画像等を伝送する放送データ、オーディオビデオデータ等のコンテンツを再生するための音場形成条件を複数の情報に基づいて判定する技術に関する。 The present invention relates to a sound field determination method and a sound field determination device, and in particular, a technique for determining sound field forming conditions for reproducing contents such as broadcast data and audio video data for transmitting sound, images, and the like based on a plurality of information. About.
特許文献1〜8には、コンテンツに設定されている属性情報に基づいてコンテンツを再生するための音場形成条件を判定する技術が開示されている。コンテンツに設定されている属性情報としては、EPG(Electric Program Guide)、RDS(Radio Data System)等で案内されるカテゴリ、ステレオ/モノラル種別等が知られている。上記文献に開示された技術によると、例えばクラシック放送に対しては残響を付与して再生したり、ニュース放送に対しては残響を除去して再生したりできる。しかし、コンテンツに設定されている属性情報は、項目別には1番組に1つであることが一般的である。例えば、クラシック放送番組の属性情報のカテゴリという項目には「クラシック」という1カテゴリのみが設定されていることが一般的である。ところが、コンテンツに最適な音場形成条件はコンテンツの再生進行に伴って変化することが多い。例えばクラシック放送番組には解説音声が挿入されているため、クラシックという属性情報に基づいて番組全体の音場形成条件を設定すると、解説音声にも残響が付与される結果、解説が聞き取りづらくなるといった問題が発生する。
特許文献9には、音響チャネルを解析した結果に基づいて音場形成条件を動的に判定する技術が開示されている。しかし、特許文献9に開示された技術では、音響チャネルの解析精度には限界があり、またリスナによって好みの音場が異なるため、不適切な音場形成条件が設定されるおそれがある。 Patent Document 9 discloses a technique for dynamically determining a sound field forming condition based on a result of analyzing an acoustic channel. However, in the technique disclosed in Patent Document 9, there is a limit to the analysis accuracy of the acoustic channel, and the preferred sound field varies depending on the listener.
本発明は上述の問題に鑑みて創作されたものであって、最適な音場形成条件を高い精度で判定できる音場判定方法及び音場判定装置を提供することを目的とする。 The present invention has been created in view of the above-described problems, and an object thereof is to provide a sound field determination method and a sound field determination apparatus that can determine an optimum sound field forming condition with high accuracy.
(1)上記目的を達成するための音場判定方法は、再生対象のコンテンツを解析して前記コンテンツの特徴量を取得する段階と、リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する段階と、前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する段階と、を含む。
本発明によると、コンテンツの特徴量に加えてリスナの設定履歴情報又はコンテンツの属性情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(1) A sound field determination method for achieving the above object includes a step of analyzing a content to be reproduced to acquire a feature amount of the content, and listener setting history information or the content set in the content And obtaining the sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information.
According to the present invention, since the sound field forming condition is determined based on the setting history information of the listener or the attribute information of the content in addition to the feature amount of the content, the optimum sound field forming condition can be determined with high accuracy.
(2)前記音場形成条件を判定する段階では、前記コンテンツの再生中に前記特徴量の変化に応じて前記音場形成条件を判定してもよい。
本発明によると、コンテンツの再生の進行に伴って動的に音場形成条件が判定されるため、最適な音場形成条件が常に高い精度で判定される。
(2) In the step of determining the sound field forming condition, the sound field forming condition may be determined according to a change in the feature amount during reproduction of the content.
According to the present invention, since the sound field forming condition is dynamically determined as the reproduction of the content proceeds, the optimum sound field forming condition is always determined with high accuracy.
(3)リスナの操作を検出する段階と、
検出された操作に基づいて前記リスナを推定する段階とをさらに含んでもよい。前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得してもよい。
本発明によると、リスナの操作に基づいてリスナが推定され、推定されたリスナに対応する設定履歴情報が取得されるため、リスナが自分自身を毎回認識させるための操作が不要となり、操作性が向上する。尚、リスナの操作を検出する段階では、例えば、いつコンテンツの再生を要求したか、どのコンテンツの再生を要求したか、どこからリモートコントローラを操作しているか、といったリスナの推定に役立つ操作内容を検出する。たとえば再生が要求された時間帯によってリスナを推定することができる場合(例えば平日の昼間であれば平日の昼間に他の放送を視聴したリスナと推定できる。)や、再生が要求されたコンテンツによってリスナを推定できる場合(例えば野球実況放送であれば別の野球実況放送を視聴したリスナと推定できる。)や、再生が要求された場所(例えば音場判定装置の正面で視聴したリスナであればその場所での視聴頻度が高いリスナであると推定できる。)によってユーザが特定できる場合がある。
(3) detecting the operation of the listener;
And estimating the listener based on the detected operation. In the step of acquiring the setting history information, the setting history information corresponding to the estimated listener may be acquired.
According to the present invention, the listener is estimated based on the operation of the listener, and the setting history information corresponding to the estimated listener is acquired. Therefore, the operation for the listener to recognize itself every time becomes unnecessary, and the operability is improved. improves. In addition, at the stage of detecting the listener operation, for example, the operation contents useful for listener estimation such as when the content playback is requested, which content playback is requested, and where the remote controller is operated are detected. To do. For example, if the listener can be estimated based on the time when playback is requested (for example, during the daytime on weekdays, it can be estimated that the listener watched other broadcasts during the daytime on weekdays), or depending on the content requested for playback. If the listener can be estimated (for example, if it is a baseball live broadcast, it can be estimated that the listener listened to another baseball live broadcast), or if the playback is requested (for example, if the listener is viewed in front of the sound field determination device) It can be estimated that the listener has a high viewing frequency at the place.
(4)前記特徴量を取得する段階では、前記コンテンツの音響チャネルを解析して前記音響チャネルの特徴量を取得してもよい。 (4) In the step of acquiring the feature amount, the acoustic channel of the content may be analyzed to acquire the feature amount of the acoustic channel.
(5)前記特徴量を取得する段階では、前記音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得してもよい。
本発明によると、2つ以上の音声特徴量に基づいて音場形成条件を判定するため、コンテンツに適した音が形成条件を高い精度で判定することができる。
(5) In the step of acquiring the feature amount, the correlation coefficient between the L channel and the R channel of the acoustic channel, the volume of sound indicated by the acoustic channel, the pitch of sound indicated by the acoustic channel, the acoustic channel Any two or more characteristic amounts of the sound temporal change characteristic indicated by may be acquired.
According to the present invention, since the sound field forming condition is determined based on two or more audio feature amounts, the sound suitable for the content can be determined with high accuracy.
(6)前記特徴量を取得する段階では、前記コンテンツの画像チャネルを解析して前記画像チャネルの特徴量を取得してもよい。 (6) In the step of acquiring the feature amount, the image channel of the content may be analyzed to acquire the feature amount of the image channel.
(7)上記目的を達成するための音場判定方法は、リスナの設定履歴情報及び再生対象のコンテンツに設定されている前記コンテンツの属性情報を取得する段階と、前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する段階と、を含む。
本発明によると、リスナの設定履歴情報及びコンテンツの属性情報という性質が異なる2つの情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(7) A sound field determination method for achieving the above-described object includes a step of acquiring listener setting history information and attribute information of the content set in the content to be reproduced, and a sound for reproducing the content. Determining a field formation condition based on the setting history information and the attribute information.
According to the present invention, since the sound field forming condition is determined based on two pieces of information having different properties such as listener setting history information and content attribute information, the optimum sound field forming condition can be determined with high accuracy.
(8)前記音場判定方法は、リスナの操作を検出する段階と、検出された操作に基づいて前記リスナを推定する段階とをさらに含んでもよい。前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得してもよい。
本発明によると、リスナの操作に基づいてリスナが推定され、推定されたリスナに対応する設定履歴情報が取得されるため、リスナが自分自身を認識させるための操作が不要となり、操作性が向上する。
(8) The sound field determination method may further include a step of detecting an operation of the listener and a step of estimating the listener based on the detected operation. In the step of acquiring the setting history information, the setting history information corresponding to the estimated listener may be acquired.
According to the present invention, the listener is estimated based on the operation of the listener, and the setting history information corresponding to the estimated listener is acquired, so the operation for the listener to recognize itself is unnecessary, and the operability is improved. To do.
(9)上記目的を達成するための音場判定方法は、再生対象のコンテンツを解析し、前記コンテンツの音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得する段階と、前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する段階と、を含む。
本発明によると、性質が異なる2つ以上の音声特徴量に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(9) In the sound field determination method for achieving the above object, the content to be reproduced is analyzed, the correlation coefficient between the L channel and the R channel of the acoustic channel of the content, and the volume of sound indicated by the acoustic channel Obtaining at least two feature amounts of the pitch of the sound indicated by the acoustic channel and the temporal change characteristic of the sound indicated by the acoustic channel, and a sound field forming condition for reproducing the content. Determining based on the quantity.
According to the present invention, since the sound field forming condition is determined based on two or more sound feature quantities having different properties, the optimum sound field forming condition can be determined with high accuracy.
(10)上記目的を達成するための音場判定装置は、再生対象のコンテンツを解析して前記コンテンツの特徴量を取得する手段と、リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する手段と、前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する手段と、を備える。
本発明によると、コンテンツの特徴量に加えてリスナの設定履歴情報又はコンテンツの属性情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(10) A sound field determination apparatus for achieving the above object includes means for analyzing the content to be reproduced to acquire the feature amount of the content, and listener setting history information or the content set in the content Means for obtaining the attribute information, and means for determining a sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information.
According to the present invention, since the sound field forming condition is determined based on the setting history information of the listener or the attribute information of the content in addition to the feature amount of the content, the optimum sound field forming condition can be determined with high accuracy.
(11)上記目的を達成するための音場判定装置は、リスナの設定履歴情報及び再生対象のコンテンツに設定されている前記コンテンツの属性情報を取得する手段と、前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する手段と、を備える。
本発明によると、リスナの設定履歴情報及びコンテンツの属性情報という性質が異なる2つの情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(11) A sound field determination device for achieving the above object includes means for acquiring listener setting history information and attribute information of the content set in the content to be reproduced, and sound for reproducing the content. Means for determining a field formation condition based on the setting history information and the attribute information.
According to the present invention, since the sound field forming condition is determined based on two pieces of information having different properties such as listener setting history information and content attribute information, the optimum sound field forming condition can be determined with high accuracy.
(12)上記目的を達成するための音場判定装置は、再生対象のコンテンツを解析し、前記コンテンツの音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得する手段と、前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する手段と、を備える。
本発明によると、性質が異なる2つ以上の音声特徴量に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(12) The sound field determination apparatus for achieving the above object analyzes the content to be played back, the correlation coefficient between the L channel and the R channel of the acoustic channel of the content, and the volume of the sound indicated by the acoustic channel , Means for obtaining at least two feature amounts of a sound pitch indicated by the acoustic channel and a time-dependent change characteristic of the sound indicated by the acoustic channel, and a sound field forming condition for reproducing the content. And a means for determining based on the quantity.
According to the present invention, since the sound field forming condition is determined based on two or more sound feature quantities having different properties, the optimum sound field forming condition can be determined with high accuracy.
尚、請求項に記載された方法の各動作の順序は、技術上の阻害要因がない限り、記載順に限定されるものではなく、どのような順番で実行されてもよく、また同時に実行されてもよい。また、本発明に備わる複数の手段の各機能は、構成自体で機能が特定されるハードウェア資源、プログラムにより機能が特定されるハードウェア資源、又はそれらの組み合わせにより実現される。また、これら複数の手段の各機能は、各々が物理的に互いに独立したハードウェア資源で実現されるものに限定されない。また、本発明は方法及び装置の発明として特定できるだけでなく、プログラムの発明としても、そのプログラムを記録した記録媒体の発明としても特定することができる。 It should be noted that the order of each operation of the method described in the claims is not limited to the order of description as long as there is no technical obstruction factor, and may be executed in any order, or may be executed simultaneously. Also good. In addition, each function of the plurality of means provided in the present invention is realized by a hardware resource whose function is specified by the configuration itself, a hardware resource whose function is specified by a program, or a combination thereof. The functions of the plurality of means are not limited to those realized by hardware resources that are physically independent of each other. In addition, the present invention can be specified not only as a method and apparatus invention, but also as a program invention and a recording medium recording the program.
以下、本発明の実施の形態を実施例に基づいて説明する。
図1は、本発明の一実施例による音場判定装置1を示す機能ブロック図である。音場判定装置1は、AVアンプ、DVDプレーヤ、AV再生機能付きパーソナルコンピュータ等に組み込まれる。音場判定装置1は、AVアンプ等に入力されるAVデータ、リスナの設定履歴及びコンテンツの属性情報に基づいて再生対象のAVデータのコンテンツに最適な音場形成条件を判定し、判定結果に基づいて音場処理部20に音場形成条件を設定する。AVデータは画像チャネルの画像データ及び音響チャネルのオーディオ信号からなるコンテンツと、属性情報としての付属データを含みうる。画像データは、MPEG、NTSC等のどのようなフォーマットでもよく、フォーマットに対応したデコーダを備えることにより、ディスプレイコントローラ22及びディスプレイ26で再生することができる。オーディオ信号も、ディジタルでもアナログでもよく、フォーマットに対応したデコーダを備えることで、増幅器24及びスピーカ28、30、32、34で再生することができる。付属データは、コンテンツに設定されている属性情報に相当し、ステレオ/モノラルの種別、一カ国語/二カ国語の種別等を判定可能にするデータである。
Hereinafter, embodiments of the present invention will be described based on examples.
FIG. 1 is a functional block diagram showing a sound
音場判定装置1は、解析部10、操作部14、リスナ推定部16、コンテンツカテゴリ取得部18及び音場形成条件判定部12を備える。解析部10は、図示しないCPU、RAM、ROM、ディスク記憶装置、音声処理用のASIC、画像処理用のASIC等で構成される。リスナ推定部16、コンテンツカテゴリ取得部18及び音場形成条件判定部12は解析部10を構成しているCPU、RAM、ROM及びディスク記憶装置で構成される。
The sound
操作部14は、AVアンプ、DVDプレーヤ等の本体に設けられた操作パネル、パーソナルコンピュータのキーボード等とリモートコントローラとから構成される。操作部14がリモートコントローラと受信機とを備え、受信機に発信位置特定機能を備えることにより、リスナの視聴位置を特定できる。具体的には例えば、リモートコントローラと受信機とに赤外線通信を行わせ、受信機に赤外線の発光源方向の特定機能を備えることにより、本体前面からみて中央、右側、左側のいずれの方向にリスナが存在するかを特定し、中央、右、左のいずれかを視聴位置として出力する。操作部14は、音場判定装置1にコンテンツカテゴリ、音場形成条件、視聴開始要求、視聴終了要求、チャネル、リスナID等を入力するための各種のボタン、十字キー、ジョグダイヤル、LCD等を備えている。
The
コンテンツカテゴリ取得部18は、コンテンツに設定されている属性情報を取得し、属性情報に基づいてコンテンツカテゴリを出力する。コンテンツカテゴリ取得部18がアクセスできる属性情報としては、EPGやRDSで配信される番組カテゴリがある。属性情報は、コンテンツデータに添付されているデータであってもよいし、コンテンツデータの提供者が設定した属性情報を公開しているサーバコンピュータに格納されているデータであってもよい。
The content
図2は、解析部10を示す機能ブロック図である。
画像特徴解析部50は、画像のRGB各チャネルの濃淡ヒストグラム、フレーム間の相関係数等の特徴量を算出する。濃淡ヒストグラムからは各フレームにおいて比較的広い面積を占める色が何かを判定することができる。フレーム間の相関係数からは対象物の動きが大きいか小さいかや、コンテンツが切り替わるタイミングを判定することができる。
FFT部56は、高速フーリエ変換によってオーディオ信号のスペクトルを算出する。
FIG. 2 is a functional block diagram showing the
The image
The
帯域抽出部58は、オーディオ信号の特定周波数成分の振幅の経時変化を検出する。振幅の経時変化を検出する周波数は、話し声、歌声、拍手音、ゴルフボールのカップインの音、伝統楽器音、電子楽器音、テニスボールが弾む音等の特定の音源に固有の周波数に設定される。特定周波数成分の振幅が安定しているか、細かく振動するか、ゆるやかに変動するか、離散的にピークが表れるか等によって、音源種を推定することができる。
The
レベル検出部60は、オーディオ信号に基づいて音の大きさを検出する。具体的には例えば、オーディオ信号の実効値レベルを検出する。音の大きさは音源種を推定するために検出される。
ピッチ検出部62は、オーディオ信号に基づいて音の高さを検出する。具体的には例えば、振幅が最も大きい周波数成分を検出する。音の高さは音源種を推定するために検出される。
The
The
左右相関検出部64は、オーディオ信号に基づいてLチャネルとRチャネルの相関係数(左右相関係数)を検出する。具体的には例えば、加算器66でLチャネルのレベルとRチャネルのレベルを加算し、減算器68でLチャネルのレベルとRチャネルのレベルの差を求め、加算器66と減算器68とでそれぞれ求めた和と差との差を減算器72で求める。減算器72から出力されるレベルが大きいほどLチャネルとRチャネルの相関が高く、小さいほど相関が低いと判定することができる。LチャネルとRチャネルの相関の高低によって、録音環境を特定することができる。すなわち例えば、音源に対してどのようにマイクロホンが配置されているかを特定することができる。
The left / right
音声特徴解析部54は、帯域抽出部58、レベル検出部60、ピッチ検出部62及び左右相関検出部64の出力をコンテンツの特徴量として解析し音源種及び録音環境等を推定する。
音源種は例えば次のように推定できる。話し声、歌声などの人の声は、音の高さと、母音を特徴付ける成分音(ホルマント)の有無とによって判定できる。また、話し声は、人の声の高さに対応する周波数成分の振幅が比較的細かく振動する傾向がある。また、歌声は人の声の高さに対応する周波数成分の振幅が比較的ゆるやかに変化する傾向がある。また歓声は、低い周波数成分の振幅が比較的大きくなる傾向がある。楽器音は、音の高さ、特定の周波数成分の振幅の減衰特性、音の大きさ等によって楽器種まで判定できる。例えば、打楽器は音の高さが特定範囲内に分布し、対応する周波数成分の振幅の減衰が速く、音の大きさが大きい傾向がある。弦楽器は音の高さが特定範囲内に分布し、特定の周波数成分の振幅の減衰が遅い傾向がある。ピアノは音の高さが特定範囲内に分布し、対応する周波数成分の振幅の立ち上がりが速く減衰がやや遅い傾向がある。電子楽器は対応する周波数成分の振幅変化波形に均一なパターンが表れる傾向がある。拍手音は、音の高さが特定範囲内に分布し、対応する周波数成分の振幅が細かく狭い幅で振動する傾向がある。テニスボールが弾む音は、音の高さが特定範囲内に分布し、対応する周波数成分の振幅変化に1秒前後の間隔で特定のパターンが表れる傾向がある。室内楽とオーケストラとを比較すると、オーケストラの音の大きさは広い範囲に分布する傾向がある。
The audio
The sound source type can be estimated as follows, for example. The voice of a person such as a speaking voice or a singing voice can be determined by the pitch of the sound and the presence or absence of a component sound (formant) that characterizes the vowel. In addition, the speaking voice tends to vibrate relatively finely in the amplitude of the frequency component corresponding to the height of the human voice. In addition, the singing voice tends to change the amplitude of the frequency component corresponding to the pitch of the human voice relatively slowly. Also, cheers tend to have relatively large amplitudes of low frequency components. The instrument sound can be determined up to the instrument type based on the pitch, the attenuation characteristic of the amplitude of a specific frequency component, the loudness, and the like. For example, percussion instruments tend to have a pitch that is distributed within a specific range, the amplitude of the corresponding frequency component is rapidly attenuated, and the volume of the sound is large. In stringed instruments, the pitch of sounds is distributed within a specific range, and the attenuation of the amplitude of a specific frequency component tends to be slow. Pianos have pitches distributed within a specific range, and the corresponding frequency components tend to rise quickly and decay somewhat slowly. Electronic musical instruments tend to have a uniform pattern in the amplitude variation waveform of the corresponding frequency component. The applause sound has a tendency that the pitch of the sound is distributed in a specific range and the amplitude of the corresponding frequency component is fine and vibrates with a narrow width. The sound of a tennis ball bouncing has a tendency that the pitch of the sound is distributed within a specific range, and a specific pattern appears at intervals of about 1 second in the amplitude change of the corresponding frequency component. When chamber music and orchestra are compared, the loudness of the orchestra tends to be distributed over a wide range.
録音環境は、LチャネルのレベルとRチャネルのレベルとの相関の高さによって推定される。例えば、ニュース番組の録音環境では左右相関係数が極めて高くなる。また、ロックやポップスといった電子楽器が用いられる音楽の録音環境では、音源毎にマイクロホンがセットされ、それぞれのマイクロホンに対応する音像を分散して定位させるため、左右相関係数が極めて低くなる。また、オーケストラ、室内楽、スポーツ中継等の録音環境では、分散配置された複数の音源から離れた位置にマイクロホンがセットされることが多いため、左右相関係数がやや低くなる傾向にある。 The recording environment is estimated by the high correlation between the L channel level and the R channel level. For example, the left-right correlation coefficient is extremely high in a news program recording environment. Also, in a music recording environment in which electronic musical instruments such as rock and pop are used, microphones are set for each sound source, and sound images corresponding to the respective microphones are distributed and localized, so the left-right correlation coefficient is extremely low. In recording environments such as orchestras, chamber music, and sports broadcasts, microphones are often set at positions distant from a plurality of distributed sound sources, so the left-right correlation coefficient tends to be slightly lower.
推定部52は、画像特徴解析部50及び音声特徴解析部54の出力と属性データとに基づいてコンテンツのカテゴリを推定する。推定部52はコンテンツ推定用データベース11を参照してコンテンツのカテゴリを推定する。
図3はコンテンツ推定用データベース11の初期状態の一例を示す表である。図3に示した画像特徴、付属情報及び音特徴と推定カテゴリとの対応付けはあくまで例示であるが、例えば、画像に黒の頻度が高く、画像の経時変化が少なく、オーディオ信号がステレオ形式であって、伝統楽器音が極めて広いレベルに分布している場合、黒いタキシードを着た多数の楽団員が様々な楽器を座って演奏していると推定することができるため、推定カテゴリとして「オーケストラ」を登録することができる。また例えば、画像の経時変化が少なく、オーディオ信号が二カ国語の音声多重形式であって、話し声が多く、左右相関が極めて高い場合、アナウンサが座って解説を読み上げていると推定することができるため、推定カテゴリとして「解説」を登録することができる。
The
FIG. 3 is a table showing an example of the initial state of the
解析部10は、リスナの設定履歴に基づいてカテゴリの特徴を学習する。具体的には、リスナが操作部14を用いて特定の放送番組について明示的に特定のコンテンツカテゴリを設定すると、設定された番組に固有の画像特徴、付属情報及び音特徴を画像特徴解析部50及び音声特徴解析部54が検出し、解析部10は検出された画像特徴、付属情報及び音特徴と、設定されたコンテンツカテゴリとを対応付けて図4に示すようにコンテンツ推定用データベース11に登録する。例えば、リスナがコンテンツカテゴリとして「相撲」を設定した放送番組について、「肌色が多い」という画像特徴と「拍子の音、話し声、歓声が混じる」という音特徴とが検出されたとする。この場合、推定部52は「相撲」という推定カテゴリと「肌色が多い」という画像特徴と「拍子の音、話し声、歓声が混じる」という音特徴とを対応付けてコンテンツ推定用データベース11に登録する。
The
リスナ推定部16は、操作部14で受け付けられるリスナの操作履歴が登録されるリスナ推定用データベース17を備える。リスナ推定用データベース17は、操作部14が受け付けるユーザの視聴開始要求、視聴終了要求、チャネル選択要求及びリスナIDと、操作部14が出力する視聴位置とを関連付けたレコードを設定履歴情報として蓄積する。図5はリスナ推定用データベース17の一例を示す図である。視聴曜日及び視聴時間帯は操作部14でユーザの視聴開始要求及び視聴終了要求が受け付けられたときにリスナ推定部16がリアルタイムクロックから日時情報を取得することによって登録される。
The
リスナ推定部16は、リスナ推定用データベース17の登録内容に基づいて、現在視聴しているリスナを推定し、推定したリスナに対応するリスナIDを出力する。図6はリスナの操作内容とリスナ推定部16から出力されるリスナIDとの対応関係の一例を示す図である。リスナ推定部16は、操作部14がユーザの視聴開始要求、チャネル選択要求等を新たに受け付けると、要求されたチャネルを視聴開始要求が受け付けられた曜日と時間帯に視聴していたことを示す履歴が所定の期間内にリスナ推定用データベース17に所定回数(例えば1回)以上登録されていれば、過去に当該曜日と当該時間帯に当該チャネルを視聴したリスナから視聴開始要求を新たに受け付けたと推定し、推定したリスナに対応するリスナIDを出力する。例えば図5に示す設定履歴情報がリスナ推定用データベース17に登録されている場合、月曜日から金曜日のいずれかの12時15分に3チャネルの視聴開始要求が受け付けられると、リスナ推定部16はリスナIDとして「100」を出力する。リスナ推定部16は、推定されたリスナについてリスナによって明示的にリスナIDが入力されていればそのリスナIDを出力でき、入力されていなければ推定されたリスナにリスナIDを自動割り当てしてもよい。例えば、月曜日から金曜日の12時15分から12時30分の3チャネルの視聴履歴については明示的にリスナIDが入力されていないため、リスナ推定部16は月曜日から金曜日の12時15分から12時30分の3チャネルの視聴についてリスナID「100」を割り当てて出力する。また水曜日の21時から22時の1チャネルの視聴履歴についても明示的にリスナIDが入力されていないため、リスナ推定部16は水曜日の1チャネルの視聴についてリスナID「101」を出力する。
The
同一時間帯の同一チャネルについて複数のリスナの視聴要求が登録されている場合、リスナ推定部16は視聴位置に基づいてリスナを推定する。例えば日曜日の21時から22時に「右」の視聴位置で3チャネルについて視聴要求が受け付けられると、リスナ推定部16は「右」の視聴位置から過去に同一の視聴要求をしたリスナのリスナID「003」を出力する。同一の視聴要求を「中央」の視聴位置から受け付けた場合、リスナ推定部16はリスナID「001」を出力する。この推定は、視聴位置がリスナによって決まっているという前提に基づいている。尚、リスナの推定に用いる設定履歴情報として、例えばコンテンツカテゴリ、音場形成条件等の他の情報を用いてもよい。
When a plurality of listener viewing requests are registered for the same channel in the same time zone, the
音場形成条件判定部12は(図1参照)、判定用データベース13を備え、操作部14又はコンテンツカテゴリ取得部18から出力されるコンテンツカテゴリと解析部10から出力される推定カテゴリと判定用データベース13とに基づいて推定される最適な音場形成条件を音場処理部20に設定する。音場形成条件判定部12は、視聴開始要求が受け付けられたときと、その後の視聴中の一定時間毎に音場形成条件を設定する。この結果、番組途中でコンテンツの内容が変わったときにでも(例えばクラシック音楽から解説に変わったとき)、視聴中にチャネル変更要求が受け付けられても、コンテンツに最適な音場形成条件が設定されることになる。
The sound field formation condition determination unit 12 (see FIG. 1) includes a determination database 13, a content category output from the
初期状態の判定用データベース13には、例えば図7に示すように、リスナID、カテゴリ及び音場形成条件が対応付けて登録されている。音場形成条件としては、残響設定及び音像定位設定のほか、帯域毎のゲイン設定、音量設定等を含みうる。初期状態の判定用データベースには、コンテンツのカテゴリ毎に一般的に最適な音場形成条件が登録されており、リスナIDに固有の音場形成条件は存在しない。また判定用データベース13には、図8に示すようにコンテンツカテゴリと推定カテゴリとが対応付けて登録されているカテゴリ対応テーブルが記録されている。カテゴリ対応テーブルには、操作部14及びコンテンツカテゴリ取得部18から番組毎にコンテンツカテゴリが出力された場合に、出力されたコンテンツカテゴリに対応する番組にはどのようなカテゴリが含まれる可能性があるかを示すレコードが登録されている。例えば、スポーツ番組には、ゴルフ、野球、テニスといった競技内容のシーンのほか、一般に解説のシーンも含まれる。EPGや操作部14から「スポーツ」というコンテンツカテゴリが取得された場合であっても、解説中には「解説」を聞くのに最適な音場形成条件を設定することが望ましい。一方、EPGや操作部14から取得できるコンテンツカテゴリを全く無視し、コンテンツの解析結果にのみ基づいて音場形成条件を設定すると、コンテンツの解析精度によっては不適切な音場形成条件が設定されるおそれもある。そこで、EPGや操作部14から取得できるコンテンツカテゴリによってコンテンツの推定範囲を絞り込み、絞り込んだ範囲でコンテンツを推定することにより、動的に設定される音場形成条件を最適化することができる。
In the initial state determination database 13, for example, as shown in FIG. 7, a listener ID, a category, and a sound field forming condition are registered in association with each other. The sound field forming conditions may include reverberation setting and sound image localization setting, gain setting for each band, volume setting, and the like. In the initial state determination database, generally optimum sound field forming conditions are registered for each content category, and there is no sound field forming condition unique to the listener ID. The determination database 13 stores a category correspondence table in which content categories and estimated categories are registered in association with each other as shown in FIG. In the category correspondence table, when a content category is output for each program from the
音場形成条件判定部12は、リスナの設定履歴に基づいて最適な音場形成条件を学習する。すなわち、音場形成条件判定部12は、リスナの設定履歴に基づいて判定用データベース13を更新する。例えば、リスナIDが「001」のリスナが「解説」というコンテンツカテゴリについて明示的に残響設定を「ルーム」に設定すると、音場形成条件判定部12は図9に示すように、コンテンツカテゴリ「解説」に対応付けられたリスナID「全員」を「001以外」に変更し、コンテンツカテゴリ「解説」とリスナID「001」と残響設定「ルーム」とからなるレコードを判定用データベース13に新規登録する。また例えばリスナIDが「100」のリスナがコンテンツカテゴリ「ドラマ」について「右」の視聴位置から高頻度で視聴要求を入力すると、コンテンツカテゴリ「ドラマ」に対応付けられたリスナID「全員」を「100以外」に変更し、コンテンツカテゴリ「ドラマ」とリスナID「100」と音像定位設定「右」とからなるレコードを判定用データベース13に新規登録する。音場定位設定が明示的に設定されていない場合であっても、リスナ推定用データベース17にコンテンツカテゴリのフィールドを設けておき、解析部10及びコンテンツカテゴリ取得部18が出力するコンテンツカテゴリをリスナ推定用データベース17に登録することによって、リスナIDと視聴位置とコンテンツカテゴリとから最適な音像定位設定条件を特定できる。
The sound field formation
以上説明したように、音場形成条件判定部12は、コンテンツの特徴量、リスナの設定内容、コンテンツの付属情報のうち、2以上の情報に基づいて音場形成条件を総合的に判定するため、高い精度で最適な音場形成条件を設定することができる。
As described above, the sound field formation
音場処理部20は、音場形成条件判定部12又は操作部14によって設定される音場形成条件に基づいてオーディオ信号を処理し、特定の音場を形成するオーディオ信号を出力する。具体的には音場処理部20は、遅延時間の異なるディレイが施された信号を加算することによって残響を形成したり、高周波成分を付加してボーカル音を引き立たせたり、LチャネルとRチャネルに個別にディレイを設定することにより音像を特定位置に定位させる処理を行う。音場処理部20は、これらの音場形成処理をディジタル信号処理で行ってもよいし、アナログ信号処理で行ってもよい。音場処理部20は最後にDA変換を施してアナログのオーディオ信号を出力する。
The sound
音場処理部20から出力されるオーディオ信号は増幅器24で増幅され、スピーカ28、30、32、34に出力される。オーディオ信号に基づいて音響を放出するスピーカの数は1つであってもよいし、2つであってもよいし、3つ以上であってもよい。
The audio signal output from the sound
以上説明した本発明の一実施例によると、解析部10から出力される推定カテゴリ、EPGから取得されるコンテンツカテゴリ等の付属情報及びリスナの設定履歴を用いて音場形成条件が設定されるため、高い精度で最適な音場形成条件を設定することができる。さらに、解析部10では、画像データとオーディオ信号を解析してカテゴリを推定し、さらにオーディオ信号については音の大きさと、左右相関と、音の高さと、音の経時変化特性とを総合的に解析するため、高い精度でコンテンツのカテゴリを推定することができる。また、リスナ推定部16が視聴履歴から特定の視聴パターンを検出し、それぞれの視聴パターンにリスナIDを割り当てるため、リスナがリスナIDを入力しなくても、音場形成条件判定部12はリスナ毎に最適な音場形成条件を設定することができる。
According to the embodiment of the present invention described above, the sound field forming condition is set using the attached information such as the estimated category output from the
1:音場判定装置、10:解析部、11:コンテンツ推定用データベース、12:音場形成条件判定部、13:判定用データベース、14:操作部、16:リスナ推定部、17:リスナ推定用データベース、18:コンテンツカテゴリ取得部、20:音場処理部、 1: sound field determination device, 10: analysis unit, 11: content estimation database, 12: sound field formation condition determination unit, 13: determination database, 14: operation unit, 16: listener estimation unit, 17: listener estimation Database, 18: content category acquisition unit, 20: sound field processing unit,
Claims (12)
リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する段階と、
前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する段階と、
を含むことを特徴とする音場判定方法。 Analyzing the content to be played back to obtain a feature amount of the content;
Obtaining listener setting history information or attribute information of the content set in the content;
Determining a sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information;
The sound field determination method characterized by including.
検出された操作に基づいて前記リスナを推定する段階とをさらに含み、
前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得することを特徴とする請求項1に記載の音場判定方法。 Detecting the operation of the listener;
Estimating the listener based on the detected operation, and
The sound field determination method according to claim 1, wherein in the step of acquiring the setting history information, the setting history information corresponding to the estimated listener is acquired.
前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する段階と、
を含むことを特徴とする音場判定方法。 Obtaining listener setting history information and attribute information of the content set in the content to be played;
Determining a sound field forming condition for reproducing the content based on the setting history information and the attribute information;
The sound field determination method characterized by including.
検出された操作に基づいて前記リスナを推定する段階とをさらに含み、
前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得することを特徴とする請求項7に記載の音場判定方法。 Detecting the operation of the listener;
Estimating the listener based on the detected operation, and
The sound field determination method according to claim 7, wherein in the step of acquiring the setting history information, the setting history information corresponding to the estimated listener is acquired.
前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する段階と、
を含むことを特徴とする音場判定方法。 Analyzing the content to be played back, the correlation coefficient between the L channel and the R channel of the audio channel of the content, the volume of the sound indicated by the audio channel, the pitch of the sound indicated by the audio channel, and the audio channel Obtaining any two or more features of the time-dependent characteristics of the sound;
Determining a sound field forming condition for reproducing the content based on the feature amount;
The sound field determination method characterized by including.
リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する手段と、
前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する手段と、
を備えることを特徴とする音場判定装置。 Means for analyzing the content to be played back and obtaining the feature amount of the content;
Means for acquiring listener setting history information or attribute information of the content set in the content;
Means for determining a sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information;
A sound field determination apparatus comprising:
前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する手段と、
を備えることを特徴とする音場判定装置。 Means for acquiring listener setting history information and attribute information of the content set in the content to be played;
Means for determining a sound field forming condition for reproducing the content based on the setting history information and the attribute information;
A sound field determination apparatus comprising:
前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する手段と、
を備えることを特徴とする音場判定装置。 Analyzing the content to be played back, the correlation coefficient between the L channel and the R channel of the audio channel of the content, the volume of the sound indicated by the audio channel, the pitch of the sound indicated by the audio channel, and the audio channel Means for acquiring any two or more feature quantities of the time-dependent characteristic of sound;
Means for determining a sound field forming condition for reproducing the content based on the feature amount;
A sound field determination apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069288A JP2006254187A (en) | 2005-03-11 | 2005-03-11 | Acoustic field determining method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069288A JP2006254187A (en) | 2005-03-11 | 2005-03-11 | Acoustic field determining method and device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006254187A true JP2006254187A (en) | 2006-09-21 |
Family
ID=37094179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005069288A Withdrawn JP2006254187A (en) | 2005-03-11 | 2005-03-11 | Acoustic field determining method and device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006254187A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008166976A (en) * | 2006-12-27 | 2008-07-17 | Sharp Corp | Sound voice reproduction device |
JP2008227891A (en) * | 2007-03-13 | 2008-09-25 | Pioneer Electronic Corp | Audio apparatus, delay measurement method, delay measurement program and its recording medium |
JP2010536274A (en) * | 2007-08-27 | 2010-11-25 | ボーズ・コーポレーション | Spatial processing operations in audio systems |
JP2012093519A (en) * | 2010-10-26 | 2012-05-17 | Xing Inc | Karaoke system |
JP2013519253A (en) * | 2010-02-02 | 2013-05-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Spatial audio playback |
-
2005
- 2005-03-11 JP JP2005069288A patent/JP2006254187A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008166976A (en) * | 2006-12-27 | 2008-07-17 | Sharp Corp | Sound voice reproduction device |
JP2008227891A (en) * | 2007-03-13 | 2008-09-25 | Pioneer Electronic Corp | Audio apparatus, delay measurement method, delay measurement program and its recording medium |
JP2010536274A (en) * | 2007-08-27 | 2010-11-25 | ボーズ・コーポレーション | Spatial processing operations in audio systems |
JP2013519253A (en) * | 2010-02-02 | 2013-05-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Spatial audio playback |
JP2012093519A (en) * | 2010-10-26 | 2012-05-17 | Xing Inc | Karaoke system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7467088B2 (en) | Closed caption control apparatus and method therefor | |
JP4913038B2 (en) | Audio level control | |
KR102268933B1 (en) | Automatic multi-channel music mix from multiple audio stems | |
KR101275467B1 (en) | Apparatus and method for controlling automatic equalizer of audio reproducing apparatus | |
US8917972B2 (en) | Modifying audio in an interactive video using RFID tags | |
US8139165B2 (en) | Television receiver | |
US20080130918A1 (en) | Apparatus, method and program for processing audio signal | |
US20100142729A1 (en) | Sound volume correcting device, sound volume correcting method, sound volume correcting program and electronic apparatus | |
WO2007132569A1 (en) | Music section detecting method and its device, data recording method, and its device | |
JP2004191780A (en) | Device and method for sound signal processing, device and method for signal recording, and program | |
JP2006254187A (en) | Acoustic field determining method and device | |
Lokki et al. | Perception of loudness and envelopment for different orchestral dynamics | |
JP4086886B2 (en) | Movie playback apparatus, movie playback method and computer program thereof | |
JP3970080B2 (en) | Movie playback apparatus, movie playback method and computer program thereof | |
WO2022190446A1 (en) | Control device, control method, and program | |
WO2023142363A1 (en) | Display device and audio processing method | |
US20240038207A1 (en) | Live distribution device and live distribution method | |
TW201019738A (en) | Multimedia broadcasting method and multimedia broadcasting device thereof | |
JP2010169878A (en) | Acoustic signal-analyzing apparatus and acoustic signal-analyzing method | |
WO2024004924A1 (en) | Signal processing device, congnitive function improvement system, signal processing method, and program | |
JP2008154258A (en) | Motion picture playback apparatus, motion picture playback method and computer program therefor | |
US20230260490A1 (en) | Selective tone shifting device | |
JP2013121096A (en) | Voice regulator and digital broadcast receiver | |
KR20150119013A (en) | Device and program for processing separating data | |
JP4645609B2 (en) | Broadcast identification device and automatic performance device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060705 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080122 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090128 |