JP2006254187A - Acoustic field determining method and device - Google Patents

Acoustic field determining method and device Download PDF

Info

Publication number
JP2006254187A
JP2006254187A JP2005069288A JP2005069288A JP2006254187A JP 2006254187 A JP2006254187 A JP 2006254187A JP 2005069288 A JP2005069288 A JP 2005069288A JP 2005069288 A JP2005069288 A JP 2005069288A JP 2006254187 A JP2006254187 A JP 2006254187A
Authority
JP
Japan
Prior art keywords
content
sound field
listener
sound
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005069288A
Other languages
Japanese (ja)
Inventor
Yukiya Sasaki
幸弥 佐々木
Takuya Tamaru
卓也 田丸
Takuro Sone
卓朗 曽根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005069288A priority Critical patent/JP2006254187A/en
Publication of JP2006254187A publication Critical patent/JP2006254187A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide au acoustic field determining method and device by which an optimal acoustic field forming conditions can be determined with a high degree of accuracy. <P>SOLUTION: The acoustic field determining method includes steps of; analyzing contents of a reproducing object to obtain an amount of characteristics of the contents, obtaining listener's setting history information and contents attribute information set in the contents, and determining the acoustic field forming conditions for reproducing the contents based on the amount of the characteristics and the setting history information or the attribute information. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は音場判定方法及び音場判定装置に関し、特に音声、画像等を伝送する放送データ、オーディオビデオデータ等のコンテンツを再生するための音場形成条件を複数の情報に基づいて判定する技術に関する。   The present invention relates to a sound field determination method and a sound field determination device, and in particular, a technique for determining sound field forming conditions for reproducing contents such as broadcast data and audio video data for transmitting sound, images, and the like based on a plurality of information. About.

特許文献1〜8には、コンテンツに設定されている属性情報に基づいてコンテンツを再生するための音場形成条件を判定する技術が開示されている。コンテンツに設定されている属性情報としては、EPG(Electric Program Guide)、RDS(Radio Data System)等で案内されるカテゴリ、ステレオ/モノラル種別等が知られている。上記文献に開示された技術によると、例えばクラシック放送に対しては残響を付与して再生したり、ニュース放送に対しては残響を除去して再生したりできる。しかし、コンテンツに設定されている属性情報は、項目別には1番組に1つであることが一般的である。例えば、クラシック放送番組の属性情報のカテゴリという項目には「クラシック」という1カテゴリのみが設定されていることが一般的である。ところが、コンテンツに最適な音場形成条件はコンテンツの再生進行に伴って変化することが多い。例えばクラシック放送番組には解説音声が挿入されているため、クラシックという属性情報に基づいて番組全体の音場形成条件を設定すると、解説音声にも残響が付与される結果、解説が聞き取りづらくなるといった問題が発生する。   Patent Documents 1 to 8 disclose techniques for determining sound field forming conditions for reproducing content based on attribute information set for the content. As attribute information set in content, a category guided by EPG (Electric Program Guide), RDS (Radio Data System), etc., a stereo / monaural type, and the like are known. According to the technique disclosed in the above-mentioned document, for example, replay can be given to a classic broadcast, or reverberation can be removed for a news broadcast. However, the attribute information set in the content is generally one per program for each item. For example, in general, only one category of “classic” is set in the item of the category of attribute information of a classic broadcast program. However, the optimum sound field forming conditions for the content often change as the playback of the content progresses. For example, since a commentary sound is inserted in a classic broadcast program, if the sound field formation conditions for the entire program are set based on the attribute information of classic, reverberation is also added to the commentary sound, making it difficult to hear the commentary. A problem occurs.

特許文献9には、音響チャネルを解析した結果に基づいて音場形成条件を動的に判定する技術が開示されている。しかし、特許文献9に開示された技術では、音響チャネルの解析精度には限界があり、またリスナによって好みの音場が異なるため、不適切な音場形成条件が設定されるおそれがある。   Patent Document 9 discloses a technique for dynamically determining a sound field forming condition based on a result of analyzing an acoustic channel. However, in the technique disclosed in Patent Document 9, there is a limit to the analysis accuracy of the acoustic channel, and the preferred sound field varies depending on the listener.

特開平5−110528号公報Japanese Patent Laid-Open No. 5-110528 特開平6−291692号公報JP-A-6-291692 特開平7−284187号公報JP-A-7-284187 特開2002−9648号公報JP 2002-9648 A 特開2002−27352号公報JP 2002-27352 A 特開2002−33976号公報JP 2002-33976 A 特開2002−159099号公報JP 2002-159099 A 特開2002−314447号公報JP 2002-314447 A 特開平7−66740号公報JP-A-7-66740

本発明は上述の問題に鑑みて創作されたものであって、最適な音場形成条件を高い精度で判定できる音場判定方法及び音場判定装置を提供することを目的とする。   The present invention has been created in view of the above-described problems, and an object thereof is to provide a sound field determination method and a sound field determination apparatus that can determine an optimum sound field forming condition with high accuracy.

(1)上記目的を達成するための音場判定方法は、再生対象のコンテンツを解析して前記コンテンツの特徴量を取得する段階と、リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する段階と、前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する段階と、を含む。
本発明によると、コンテンツの特徴量に加えてリスナの設定履歴情報又はコンテンツの属性情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(1) A sound field determination method for achieving the above object includes a step of analyzing a content to be reproduced to acquire a feature amount of the content, and listener setting history information or the content set in the content And obtaining the sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information.
According to the present invention, since the sound field forming condition is determined based on the setting history information of the listener or the attribute information of the content in addition to the feature amount of the content, the optimum sound field forming condition can be determined with high accuracy.

(2)前記音場形成条件を判定する段階では、前記コンテンツの再生中に前記特徴量の変化に応じて前記音場形成条件を判定してもよい。
本発明によると、コンテンツの再生の進行に伴って動的に音場形成条件が判定されるため、最適な音場形成条件が常に高い精度で判定される。
(2) In the step of determining the sound field forming condition, the sound field forming condition may be determined according to a change in the feature amount during reproduction of the content.
According to the present invention, since the sound field forming condition is dynamically determined as the reproduction of the content proceeds, the optimum sound field forming condition is always determined with high accuracy.

(3)リスナの操作を検出する段階と、
検出された操作に基づいて前記リスナを推定する段階とをさらに含んでもよい。前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得してもよい。
本発明によると、リスナの操作に基づいてリスナが推定され、推定されたリスナに対応する設定履歴情報が取得されるため、リスナが自分自身を毎回認識させるための操作が不要となり、操作性が向上する。尚、リスナの操作を検出する段階では、例えば、いつコンテンツの再生を要求したか、どのコンテンツの再生を要求したか、どこからリモートコントローラを操作しているか、といったリスナの推定に役立つ操作内容を検出する。たとえば再生が要求された時間帯によってリスナを推定することができる場合(例えば平日の昼間であれば平日の昼間に他の放送を視聴したリスナと推定できる。)や、再生が要求されたコンテンツによってリスナを推定できる場合(例えば野球実況放送であれば別の野球実況放送を視聴したリスナと推定できる。)や、再生が要求された場所(例えば音場判定装置の正面で視聴したリスナであればその場所での視聴頻度が高いリスナであると推定できる。)によってユーザが特定できる場合がある。
(3) detecting the operation of the listener;
And estimating the listener based on the detected operation. In the step of acquiring the setting history information, the setting history information corresponding to the estimated listener may be acquired.
According to the present invention, the listener is estimated based on the operation of the listener, and the setting history information corresponding to the estimated listener is acquired. Therefore, the operation for the listener to recognize itself every time becomes unnecessary, and the operability is improved. improves. In addition, at the stage of detecting the listener operation, for example, the operation contents useful for listener estimation such as when the content playback is requested, which content playback is requested, and where the remote controller is operated are detected. To do. For example, if the listener can be estimated based on the time when playback is requested (for example, during the daytime on weekdays, it can be estimated that the listener watched other broadcasts during the daytime on weekdays), or depending on the content requested for playback. If the listener can be estimated (for example, if it is a baseball live broadcast, it can be estimated that the listener listened to another baseball live broadcast), or if the playback is requested (for example, if the listener is viewed in front of the sound field determination device) It can be estimated that the listener has a high viewing frequency at the place.

(4)前記特徴量を取得する段階では、前記コンテンツの音響チャネルを解析して前記音響チャネルの特徴量を取得してもよい。   (4) In the step of acquiring the feature amount, the acoustic channel of the content may be analyzed to acquire the feature amount of the acoustic channel.

(5)前記特徴量を取得する段階では、前記音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得してもよい。
本発明によると、2つ以上の音声特徴量に基づいて音場形成条件を判定するため、コンテンツに適した音が形成条件を高い精度で判定することができる。
(5) In the step of acquiring the feature amount, the correlation coefficient between the L channel and the R channel of the acoustic channel, the volume of sound indicated by the acoustic channel, the pitch of sound indicated by the acoustic channel, the acoustic channel Any two or more characteristic amounts of the sound temporal change characteristic indicated by may be acquired.
According to the present invention, since the sound field forming condition is determined based on two or more audio feature amounts, the sound suitable for the content can be determined with high accuracy.

(6)前記特徴量を取得する段階では、前記コンテンツの画像チャネルを解析して前記画像チャネルの特徴量を取得してもよい。   (6) In the step of acquiring the feature amount, the image channel of the content may be analyzed to acquire the feature amount of the image channel.

(7)上記目的を達成するための音場判定方法は、リスナの設定履歴情報及び再生対象のコンテンツに設定されている前記コンテンツの属性情報を取得する段階と、前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する段階と、を含む。
本発明によると、リスナの設定履歴情報及びコンテンツの属性情報という性質が異なる2つの情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(7) A sound field determination method for achieving the above-described object includes a step of acquiring listener setting history information and attribute information of the content set in the content to be reproduced, and a sound for reproducing the content. Determining a field formation condition based on the setting history information and the attribute information.
According to the present invention, since the sound field forming condition is determined based on two pieces of information having different properties such as listener setting history information and content attribute information, the optimum sound field forming condition can be determined with high accuracy.

(8)前記音場判定方法は、リスナの操作を検出する段階と、検出された操作に基づいて前記リスナを推定する段階とをさらに含んでもよい。前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得してもよい。
本発明によると、リスナの操作に基づいてリスナが推定され、推定されたリスナに対応する設定履歴情報が取得されるため、リスナが自分自身を認識させるための操作が不要となり、操作性が向上する。
(8) The sound field determination method may further include a step of detecting an operation of the listener and a step of estimating the listener based on the detected operation. In the step of acquiring the setting history information, the setting history information corresponding to the estimated listener may be acquired.
According to the present invention, the listener is estimated based on the operation of the listener, and the setting history information corresponding to the estimated listener is acquired, so the operation for the listener to recognize itself is unnecessary, and the operability is improved. To do.

(9)上記目的を達成するための音場判定方法は、再生対象のコンテンツを解析し、前記コンテンツの音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得する段階と、前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する段階と、を含む。
本発明によると、性質が異なる2つ以上の音声特徴量に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(9) In the sound field determination method for achieving the above object, the content to be reproduced is analyzed, the correlation coefficient between the L channel and the R channel of the acoustic channel of the content, and the volume of sound indicated by the acoustic channel Obtaining at least two feature amounts of the pitch of the sound indicated by the acoustic channel and the temporal change characteristic of the sound indicated by the acoustic channel, and a sound field forming condition for reproducing the content. Determining based on the quantity.
According to the present invention, since the sound field forming condition is determined based on two or more sound feature quantities having different properties, the optimum sound field forming condition can be determined with high accuracy.

(10)上記目的を達成するための音場判定装置は、再生対象のコンテンツを解析して前記コンテンツの特徴量を取得する手段と、リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する手段と、前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する手段と、を備える。
本発明によると、コンテンツの特徴量に加えてリスナの設定履歴情報又はコンテンツの属性情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(10) A sound field determination apparatus for achieving the above object includes means for analyzing the content to be reproduced to acquire the feature amount of the content, and listener setting history information or the content set in the content Means for obtaining the attribute information, and means for determining a sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information.
According to the present invention, since the sound field forming condition is determined based on the setting history information of the listener or the attribute information of the content in addition to the feature amount of the content, the optimum sound field forming condition can be determined with high accuracy.

(11)上記目的を達成するための音場判定装置は、リスナの設定履歴情報及び再生対象のコンテンツに設定されている前記コンテンツの属性情報を取得する手段と、前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する手段と、を備える。
本発明によると、リスナの設定履歴情報及びコンテンツの属性情報という性質が異なる2つの情報に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(11) A sound field determination device for achieving the above object includes means for acquiring listener setting history information and attribute information of the content set in the content to be reproduced, and sound for reproducing the content. Means for determining a field formation condition based on the setting history information and the attribute information.
According to the present invention, since the sound field forming condition is determined based on two pieces of information having different properties such as listener setting history information and content attribute information, the optimum sound field forming condition can be determined with high accuracy.

(12)上記目的を達成するための音場判定装置は、再生対象のコンテンツを解析し、前記コンテンツの音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得する手段と、前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する手段と、を備える。
本発明によると、性質が異なる2つ以上の音声特徴量に基づいて音場形成条件を判定するため、最適な音場形成条件を高い精度で判定することができる。
(12) The sound field determination apparatus for achieving the above object analyzes the content to be played back, the correlation coefficient between the L channel and the R channel of the acoustic channel of the content, and the volume of the sound indicated by the acoustic channel , Means for obtaining at least two feature amounts of a sound pitch indicated by the acoustic channel and a time-dependent change characteristic of the sound indicated by the acoustic channel, and a sound field forming condition for reproducing the content. And a means for determining based on the quantity.
According to the present invention, since the sound field forming condition is determined based on two or more sound feature quantities having different properties, the optimum sound field forming condition can be determined with high accuracy.

尚、請求項に記載された方法の各動作の順序は、技術上の阻害要因がない限り、記載順に限定されるものではなく、どのような順番で実行されてもよく、また同時に実行されてもよい。また、本発明に備わる複数の手段の各機能は、構成自体で機能が特定されるハードウェア資源、プログラムにより機能が特定されるハードウェア資源、又はそれらの組み合わせにより実現される。また、これら複数の手段の各機能は、各々が物理的に互いに独立したハードウェア資源で実現されるものに限定されない。また、本発明は方法及び装置の発明として特定できるだけでなく、プログラムの発明としても、そのプログラムを記録した記録媒体の発明としても特定することができる。   It should be noted that the order of each operation of the method described in the claims is not limited to the order of description as long as there is no technical obstruction factor, and may be executed in any order, or may be executed simultaneously. Also good. In addition, each function of the plurality of means provided in the present invention is realized by a hardware resource whose function is specified by the configuration itself, a hardware resource whose function is specified by a program, or a combination thereof. The functions of the plurality of means are not limited to those realized by hardware resources that are physically independent of each other. In addition, the present invention can be specified not only as a method and apparatus invention, but also as a program invention and a recording medium recording the program.

以下、本発明の実施の形態を実施例に基づいて説明する。
図1は、本発明の一実施例による音場判定装置1を示す機能ブロック図である。音場判定装置1は、AVアンプ、DVDプレーヤ、AV再生機能付きパーソナルコンピュータ等に組み込まれる。音場判定装置1は、AVアンプ等に入力されるAVデータ、リスナの設定履歴及びコンテンツの属性情報に基づいて再生対象のAVデータのコンテンツに最適な音場形成条件を判定し、判定結果に基づいて音場処理部20に音場形成条件を設定する。AVデータは画像チャネルの画像データ及び音響チャネルのオーディオ信号からなるコンテンツと、属性情報としての付属データを含みうる。画像データは、MPEG、NTSC等のどのようなフォーマットでもよく、フォーマットに対応したデコーダを備えることにより、ディスプレイコントローラ22及びディスプレイ26で再生することができる。オーディオ信号も、ディジタルでもアナログでもよく、フォーマットに対応したデコーダを備えることで、増幅器24及びスピーカ28、30、32、34で再生することができる。付属データは、コンテンツに設定されている属性情報に相当し、ステレオ/モノラルの種別、一カ国語/二カ国語の種別等を判定可能にするデータである。
Hereinafter, embodiments of the present invention will be described based on examples.
FIG. 1 is a functional block diagram showing a sound field determination apparatus 1 according to an embodiment of the present invention. The sound field determination device 1 is incorporated in an AV amplifier, a DVD player, a personal computer with an AV playback function, or the like. The sound field determination device 1 determines the optimum sound field forming condition for the content of the AV data to be reproduced based on the AV data input to the AV amplifier or the like, the listener setting history, and the content attribute information. Based on this, a sound field forming condition is set in the sound field processing unit 20. The AV data can include content composed of image data of an image channel and an audio signal of an audio channel, and attached data as attribute information. The image data may be in any format such as MPEG or NTSC, and can be reproduced by the display controller 22 and the display 26 by providing a decoder corresponding to the format. The audio signal may be digital or analog, and can be reproduced by the amplifier 24 and the speakers 28, 30, 32, and 34 by providing a decoder corresponding to the format. The attached data corresponds to attribute information set in the content, and is data that makes it possible to determine a stereo / monaural type, a monolingual / bilingual type, and the like.

音場判定装置1は、解析部10、操作部14、リスナ推定部16、コンテンツカテゴリ取得部18及び音場形成条件判定部12を備える。解析部10は、図示しないCPU、RAM、ROM、ディスク記憶装置、音声処理用のASIC、画像処理用のASIC等で構成される。リスナ推定部16、コンテンツカテゴリ取得部18及び音場形成条件判定部12は解析部10を構成しているCPU、RAM、ROM及びディスク記憶装置で構成される。   The sound field determination device 1 includes an analysis unit 10, an operation unit 14, a listener estimation unit 16, a content category acquisition unit 18, and a sound field formation condition determination unit 12. The analysis unit 10 includes a CPU, RAM, ROM, disk storage device, audio processing ASIC, image processing ASIC, and the like (not shown). The listener estimation unit 16, the content category acquisition unit 18, and the sound field formation condition determination unit 12 are configured by a CPU, a RAM, a ROM, and a disk storage device that constitute the analysis unit 10.

操作部14は、AVアンプ、DVDプレーヤ等の本体に設けられた操作パネル、パーソナルコンピュータのキーボード等とリモートコントローラとから構成される。操作部14がリモートコントローラと受信機とを備え、受信機に発信位置特定機能を備えることにより、リスナの視聴位置を特定できる。具体的には例えば、リモートコントローラと受信機とに赤外線通信を行わせ、受信機に赤外線の発光源方向の特定機能を備えることにより、本体前面からみて中央、右側、左側のいずれの方向にリスナが存在するかを特定し、中央、右、左のいずれかを視聴位置として出力する。操作部14は、音場判定装置1にコンテンツカテゴリ、音場形成条件、視聴開始要求、視聴終了要求、チャネル、リスナID等を入力するための各種のボタン、十字キー、ジョグダイヤル、LCD等を備えている。   The operation unit 14 includes an operation panel provided in a main body of an AV amplifier, a DVD player, etc., a keyboard of a personal computer, and a remote controller. When the operation unit 14 includes a remote controller and a receiver, and the receiver has a transmission position specifying function, the listening position of the listener can be specified. Specifically, for example, by making infrared communication between the remote controller and the receiver and providing the receiver with a function for specifying the direction of the infrared light source, the listener can be viewed in the center, right side, or left side as viewed from the front of the main unit. Is output, and the center, right, or left is output as the viewing position. The operation unit 14 includes various buttons, a cross key, a jog dial, an LCD, and the like for inputting a content category, a sound field forming condition, a viewing start request, a viewing end request, a channel, a listener ID, and the like. ing.

コンテンツカテゴリ取得部18は、コンテンツに設定されている属性情報を取得し、属性情報に基づいてコンテンツカテゴリを出力する。コンテンツカテゴリ取得部18がアクセスできる属性情報としては、EPGやRDSで配信される番組カテゴリがある。属性情報は、コンテンツデータに添付されているデータであってもよいし、コンテンツデータの提供者が設定した属性情報を公開しているサーバコンピュータに格納されているデータであってもよい。   The content category acquisition unit 18 acquires attribute information set for the content, and outputs a content category based on the attribute information. The attribute information that can be accessed by the content category acquisition unit 18 includes a program category distributed by EPG or RDS. The attribute information may be data attached to the content data, or data stored in a server computer that publishes the attribute information set by the content data provider.

図2は、解析部10を示す機能ブロック図である。
画像特徴解析部50は、画像のRGB各チャネルの濃淡ヒストグラム、フレーム間の相関係数等の特徴量を算出する。濃淡ヒストグラムからは各フレームにおいて比較的広い面積を占める色が何かを判定することができる。フレーム間の相関係数からは対象物の動きが大きいか小さいかや、コンテンツが切り替わるタイミングを判定することができる。
FFT部56は、高速フーリエ変換によってオーディオ信号のスペクトルを算出する。
FIG. 2 is a functional block diagram showing the analysis unit 10.
The image feature analysis unit 50 calculates feature amounts such as a density histogram of each channel of RGB of an image and a correlation coefficient between frames. From the density histogram, it can be determined what color occupies a relatively large area in each frame. From the correlation coefficient between frames, it is possible to determine whether the movement of the object is large or small and the timing at which the content is switched.
The FFT unit 56 calculates the spectrum of the audio signal by fast Fourier transform.

帯域抽出部58は、オーディオ信号の特定周波数成分の振幅の経時変化を検出する。振幅の経時変化を検出する周波数は、話し声、歌声、拍手音、ゴルフボールのカップインの音、伝統楽器音、電子楽器音、テニスボールが弾む音等の特定の音源に固有の周波数に設定される。特定周波数成分の振幅が安定しているか、細かく振動するか、ゆるやかに変動するか、離散的にピークが表れるか等によって、音源種を推定することができる。   The band extracting unit 58 detects a change over time in the amplitude of the specific frequency component of the audio signal. The frequency for detecting changes in amplitude over time is set to a frequency specific to a specific sound source, such as speaking voice, singing voice, applause sound, golf ball cup-in sound, traditional musical instrument sound, electronic musical instrument sound, and tennis ball bouncing sound. The The sound source type can be estimated depending on whether the amplitude of the specific frequency component is stable, vibrates finely, changes gently, or peaks appear discretely.

レベル検出部60は、オーディオ信号に基づいて音の大きさを検出する。具体的には例えば、オーディオ信号の実効値レベルを検出する。音の大きさは音源種を推定するために検出される。
ピッチ検出部62は、オーディオ信号に基づいて音の高さを検出する。具体的には例えば、振幅が最も大きい周波数成分を検出する。音の高さは音源種を推定するために検出される。
The level detector 60 detects the loudness based on the audio signal. Specifically, for example, the effective value level of the audio signal is detected. The loudness is detected to estimate the sound source type.
The pitch detector 62 detects the pitch of the sound based on the audio signal. Specifically, for example, a frequency component having the largest amplitude is detected. The pitch of the sound is detected in order to estimate the sound source type.

左右相関検出部64は、オーディオ信号に基づいてLチャネルとRチャネルの相関係数(左右相関係数)を検出する。具体的には例えば、加算器66でLチャネルのレベルとRチャネルのレベルを加算し、減算器68でLチャネルのレベルとRチャネルのレベルの差を求め、加算器66と減算器68とでそれぞれ求めた和と差との差を減算器72で求める。減算器72から出力されるレベルが大きいほどLチャネルとRチャネルの相関が高く、小さいほど相関が低いと判定することができる。LチャネルとRチャネルの相関の高低によって、録音環境を特定することができる。すなわち例えば、音源に対してどのようにマイクロホンが配置されているかを特定することができる。   The left / right correlation detection unit 64 detects a correlation coefficient (left / right correlation coefficient) of the L channel and the R channel based on the audio signal. Specifically, for example, the adder 66 adds the L channel level and the R channel level, the subtractor 68 obtains the difference between the L channel level and the R channel level, and the adder 66 and the subtractor 68 The subtracter 72 calculates the difference between the calculated sum and difference. It can be determined that the larger the level output from the subtractor 72, the higher the correlation between the L channel and the R channel, and the lower the correlation, the lower the correlation. The recording environment can be specified by the level of the correlation between the L channel and the R channel. That is, for example, it is possible to specify how the microphone is arranged with respect to the sound source.

音声特徴解析部54は、帯域抽出部58、レベル検出部60、ピッチ検出部62及び左右相関検出部64の出力をコンテンツの特徴量として解析し音源種及び録音環境等を推定する。
音源種は例えば次のように推定できる。話し声、歌声などの人の声は、音の高さと、母音を特徴付ける成分音(ホルマント)の有無とによって判定できる。また、話し声は、人の声の高さに対応する周波数成分の振幅が比較的細かく振動する傾向がある。また、歌声は人の声の高さに対応する周波数成分の振幅が比較的ゆるやかに変化する傾向がある。また歓声は、低い周波数成分の振幅が比較的大きくなる傾向がある。楽器音は、音の高さ、特定の周波数成分の振幅の減衰特性、音の大きさ等によって楽器種まで判定できる。例えば、打楽器は音の高さが特定範囲内に分布し、対応する周波数成分の振幅の減衰が速く、音の大きさが大きい傾向がある。弦楽器は音の高さが特定範囲内に分布し、特定の周波数成分の振幅の減衰が遅い傾向がある。ピアノは音の高さが特定範囲内に分布し、対応する周波数成分の振幅の立ち上がりが速く減衰がやや遅い傾向がある。電子楽器は対応する周波数成分の振幅変化波形に均一なパターンが表れる傾向がある。拍手音は、音の高さが特定範囲内に分布し、対応する周波数成分の振幅が細かく狭い幅で振動する傾向がある。テニスボールが弾む音は、音の高さが特定範囲内に分布し、対応する周波数成分の振幅変化に1秒前後の間隔で特定のパターンが表れる傾向がある。室内楽とオーケストラとを比較すると、オーケストラの音の大きさは広い範囲に分布する傾向がある。
The audio feature analysis unit 54 analyzes the outputs of the band extraction unit 58, the level detection unit 60, the pitch detection unit 62, and the left-right correlation detection unit 64 as content feature amounts, and estimates the sound source type, recording environment, and the like.
The sound source type can be estimated as follows, for example. The voice of a person such as a speaking voice or a singing voice can be determined by the pitch of the sound and the presence or absence of a component sound (formant) that characterizes the vowel. In addition, the speaking voice tends to vibrate relatively finely in the amplitude of the frequency component corresponding to the height of the human voice. In addition, the singing voice tends to change the amplitude of the frequency component corresponding to the pitch of the human voice relatively slowly. Also, cheers tend to have relatively large amplitudes of low frequency components. The instrument sound can be determined up to the instrument type based on the pitch, the attenuation characteristic of the amplitude of a specific frequency component, the loudness, and the like. For example, percussion instruments tend to have a pitch that is distributed within a specific range, the amplitude of the corresponding frequency component is rapidly attenuated, and the volume of the sound is large. In stringed instruments, the pitch of sounds is distributed within a specific range, and the attenuation of the amplitude of a specific frequency component tends to be slow. Pianos have pitches distributed within a specific range, and the corresponding frequency components tend to rise quickly and decay somewhat slowly. Electronic musical instruments tend to have a uniform pattern in the amplitude variation waveform of the corresponding frequency component. The applause sound has a tendency that the pitch of the sound is distributed in a specific range and the amplitude of the corresponding frequency component is fine and vibrates with a narrow width. The sound of a tennis ball bouncing has a tendency that the pitch of the sound is distributed within a specific range, and a specific pattern appears at intervals of about 1 second in the amplitude change of the corresponding frequency component. When chamber music and orchestra are compared, the loudness of the orchestra tends to be distributed over a wide range.

録音環境は、LチャネルのレベルとRチャネルのレベルとの相関の高さによって推定される。例えば、ニュース番組の録音環境では左右相関係数が極めて高くなる。また、ロックやポップスといった電子楽器が用いられる音楽の録音環境では、音源毎にマイクロホンがセットされ、それぞれのマイクロホンに対応する音像を分散して定位させるため、左右相関係数が極めて低くなる。また、オーケストラ、室内楽、スポーツ中継等の録音環境では、分散配置された複数の音源から離れた位置にマイクロホンがセットされることが多いため、左右相関係数がやや低くなる傾向にある。   The recording environment is estimated by the high correlation between the L channel level and the R channel level. For example, the left-right correlation coefficient is extremely high in a news program recording environment. Also, in a music recording environment in which electronic musical instruments such as rock and pop are used, microphones are set for each sound source, and sound images corresponding to the respective microphones are distributed and localized, so the left-right correlation coefficient is extremely low. In recording environments such as orchestras, chamber music, and sports broadcasts, microphones are often set at positions distant from a plurality of distributed sound sources, so the left-right correlation coefficient tends to be slightly lower.

推定部52は、画像特徴解析部50及び音声特徴解析部54の出力と属性データとに基づいてコンテンツのカテゴリを推定する。推定部52はコンテンツ推定用データベース11を参照してコンテンツのカテゴリを推定する。
図3はコンテンツ推定用データベース11の初期状態の一例を示す表である。図3に示した画像特徴、付属情報及び音特徴と推定カテゴリとの対応付けはあくまで例示であるが、例えば、画像に黒の頻度が高く、画像の経時変化が少なく、オーディオ信号がステレオ形式であって、伝統楽器音が極めて広いレベルに分布している場合、黒いタキシードを着た多数の楽団員が様々な楽器を座って演奏していると推定することができるため、推定カテゴリとして「オーケストラ」を登録することができる。また例えば、画像の経時変化が少なく、オーディオ信号が二カ国語の音声多重形式であって、話し声が多く、左右相関が極めて高い場合、アナウンサが座って解説を読み上げていると推定することができるため、推定カテゴリとして「解説」を登録することができる。
The estimation unit 52 estimates the content category based on the output and attribute data of the image feature analysis unit 50 and the audio feature analysis unit 54. The estimation unit 52 estimates the content category with reference to the content estimation database 11.
FIG. 3 is a table showing an example of the initial state of the content estimation database 11. The correspondence between the image feature, the attached information and the sound feature and the estimated category shown in FIG. 3 is merely an example. For example, the frequency of black is high in the image, the change of the image with time is small, and the audio signal is in a stereo format. If traditional musical instrument sounds are distributed over a very wide level, it can be estimated that many orchestras wearing black tuxedos are sitting and playing various instruments. Can be registered. Also, for example, if there is little change over time in the image, the audio signal is in a bilingual audio multiplex format, there are many spoken voices, and the left-right correlation is extremely high, it can be estimated that the announcer is sitting and reading the explanation. Therefore, “commentary” can be registered as an estimated category.

解析部10は、リスナの設定履歴に基づいてカテゴリの特徴を学習する。具体的には、リスナが操作部14を用いて特定の放送番組について明示的に特定のコンテンツカテゴリを設定すると、設定された番組に固有の画像特徴、付属情報及び音特徴を画像特徴解析部50及び音声特徴解析部54が検出し、解析部10は検出された画像特徴、付属情報及び音特徴と、設定されたコンテンツカテゴリとを対応付けて図4に示すようにコンテンツ推定用データベース11に登録する。例えば、リスナがコンテンツカテゴリとして「相撲」を設定した放送番組について、「肌色が多い」という画像特徴と「拍子の音、話し声、歓声が混じる」という音特徴とが検出されたとする。この場合、推定部52は「相撲」という推定カテゴリと「肌色が多い」という画像特徴と「拍子の音、話し声、歓声が混じる」という音特徴とを対応付けてコンテンツ推定用データベース11に登録する。   The analysis unit 10 learns the characteristics of the category based on the listener setting history. Specifically, when the listener uses the operation unit 14 to explicitly set a specific content category for a specific broadcast program, the image feature analysis unit 50 displays image features, attached information, and sound features specific to the set program. And the audio feature analysis unit 54 detect, and the analysis unit 10 associates the detected image feature, attached information and sound feature with the set content category and registers them in the content estimation database 11 as shown in FIG. To do. For example, it is assumed that an image feature of “many skin color” and a sound feature of “mixed beat, speech, and cheer” are detected for a broadcast program in which the listener sets “sumo” as the content category. In this case, the estimation unit 52 associates the estimated category of “sumo” with the image feature of “many skin color” and the sound feature of “mixed beat, speech, and cheer” in the content estimation database 11. .

リスナ推定部16は、操作部14で受け付けられるリスナの操作履歴が登録されるリスナ推定用データベース17を備える。リスナ推定用データベース17は、操作部14が受け付けるユーザの視聴開始要求、視聴終了要求、チャネル選択要求及びリスナIDと、操作部14が出力する視聴位置とを関連付けたレコードを設定履歴情報として蓄積する。図5はリスナ推定用データベース17の一例を示す図である。視聴曜日及び視聴時間帯は操作部14でユーザの視聴開始要求及び視聴終了要求が受け付けられたときにリスナ推定部16がリアルタイムクロックから日時情報を取得することによって登録される。   The listener estimation unit 16 includes a listener estimation database 17 in which a listener operation history accepted by the operation unit 14 is registered. The listener estimation database 17 stores, as setting history information, a record in which the user's viewing start request, viewing end request, channel selection request, and listener ID received by the operation unit 14 are associated with the viewing position output by the operation unit 14. . FIG. 5 is a diagram illustrating an example of the listener estimation database 17. The viewing day of the week and the viewing time zone are registered by the listener estimating unit 16 acquiring date / time information from the real-time clock when the operation unit 14 receives a user's viewing start request and viewing end request.

リスナ推定部16は、リスナ推定用データベース17の登録内容に基づいて、現在視聴しているリスナを推定し、推定したリスナに対応するリスナIDを出力する。図6はリスナの操作内容とリスナ推定部16から出力されるリスナIDとの対応関係の一例を示す図である。リスナ推定部16は、操作部14がユーザの視聴開始要求、チャネル選択要求等を新たに受け付けると、要求されたチャネルを視聴開始要求が受け付けられた曜日と時間帯に視聴していたことを示す履歴が所定の期間内にリスナ推定用データベース17に所定回数(例えば1回)以上登録されていれば、過去に当該曜日と当該時間帯に当該チャネルを視聴したリスナから視聴開始要求を新たに受け付けたと推定し、推定したリスナに対応するリスナIDを出力する。例えば図5に示す設定履歴情報がリスナ推定用データベース17に登録されている場合、月曜日から金曜日のいずれかの12時15分に3チャネルの視聴開始要求が受け付けられると、リスナ推定部16はリスナIDとして「100」を出力する。リスナ推定部16は、推定されたリスナについてリスナによって明示的にリスナIDが入力されていればそのリスナIDを出力でき、入力されていなければ推定されたリスナにリスナIDを自動割り当てしてもよい。例えば、月曜日から金曜日の12時15分から12時30分の3チャネルの視聴履歴については明示的にリスナIDが入力されていないため、リスナ推定部16は月曜日から金曜日の12時15分から12時30分の3チャネルの視聴についてリスナID「100」を割り当てて出力する。また水曜日の21時から22時の1チャネルの視聴履歴についても明示的にリスナIDが入力されていないため、リスナ推定部16は水曜日の1チャネルの視聴についてリスナID「101」を出力する。   The listener estimation unit 16 estimates the listener currently viewing based on the registered contents of the listener estimation database 17 and outputs a listener ID corresponding to the estimated listener. FIG. 6 is a diagram illustrating an example of a correspondence relationship between the operation contents of the listener and the listener ID output from the listener estimation unit 16. When the operation unit 14 newly accepts a user's viewing start request, channel selection request, etc., the listener estimation unit 16 indicates that the requested channel was viewed on the day and time of the day when the viewing start request was accepted. If the history has been registered in the listener estimation database 17 a predetermined number of times (for example, once) or more within a predetermined period, a new viewing start request is received from a listener who has viewed the channel in the past day and time. The listener ID corresponding to the estimated listener is output. For example, in the case where the setting history information shown in FIG. 5 is registered in the listener estimation database 17, if a request to start viewing 3 channels is received at 12:15 from Monday to Friday, the listener estimation unit 16 “100” is output as the ID. The listener estimation unit 16 can output the listener ID if the listener ID is explicitly input by the listener for the estimated listener, and may automatically assign the listener ID to the estimated listener if the listener ID is not input. . For example, since the listener ID is not explicitly input for the viewing history of the three channels from 12:15 to 12:30 from Monday to Friday, the listener estimation unit 16 performs the operation from 12:15 to 12:30 from Monday to Friday. Listener ID “100” is assigned and output for viewing of three channels. Also, since the listener ID is not explicitly input for the viewing history of 1 channel from 21:00 to 22:00 on Wednesday, the listener estimation unit 16 outputs the listener ID “101” for viewing of 1 channel on Wednesday.

同一時間帯の同一チャネルについて複数のリスナの視聴要求が登録されている場合、リスナ推定部16は視聴位置に基づいてリスナを推定する。例えば日曜日の21時から22時に「右」の視聴位置で3チャネルについて視聴要求が受け付けられると、リスナ推定部16は「右」の視聴位置から過去に同一の視聴要求をしたリスナのリスナID「003」を出力する。同一の視聴要求を「中央」の視聴位置から受け付けた場合、リスナ推定部16はリスナID「001」を出力する。この推定は、視聴位置がリスナによって決まっているという前提に基づいている。尚、リスナの推定に用いる設定履歴情報として、例えばコンテンツカテゴリ、音場形成条件等の他の情報を用いてもよい。   When a plurality of listener viewing requests are registered for the same channel in the same time zone, the listener estimation unit 16 estimates the listener based on the viewing position. For example, when a viewing request is received for three channels at a viewing position of “right” from 21:00 to 22:00 on Sunday, the listener estimation unit 16 listens to the listener ID “of the listener who has made the same viewing request in the past from the viewing position of“ right ”. 003 "is output. When the same viewing request is received from the “center” viewing position, the listener estimation unit 16 outputs the listener ID “001”. This estimation is based on the assumption that the viewing position is determined by the listener. In addition, as setting history information used for listener estimation, for example, other information such as a content category and a sound field forming condition may be used.

音場形成条件判定部12は(図1参照)、判定用データベース13を備え、操作部14又はコンテンツカテゴリ取得部18から出力されるコンテンツカテゴリと解析部10から出力される推定カテゴリと判定用データベース13とに基づいて推定される最適な音場形成条件を音場処理部20に設定する。音場形成条件判定部12は、視聴開始要求が受け付けられたときと、その後の視聴中の一定時間毎に音場形成条件を設定する。この結果、番組途中でコンテンツの内容が変わったときにでも(例えばクラシック音楽から解説に変わったとき)、視聴中にチャネル変更要求が受け付けられても、コンテンツに最適な音場形成条件が設定されることになる。   The sound field formation condition determination unit 12 (see FIG. 1) includes a determination database 13, a content category output from the operation unit 14 or the content category acquisition unit 18, an estimated category output from the analysis unit 10, and a determination database. 13 is set in the sound field processing unit 20. The sound field formation condition determination unit 12 sets the sound field formation condition when a viewing start request is received and every certain time during the subsequent viewing. As a result, even when the content changes during the program (for example, when it changes from classical music to commentary), the optimum sound field formation conditions are set for the content even if a channel change request is accepted during viewing. Will be.

初期状態の判定用データベース13には、例えば図7に示すように、リスナID、カテゴリ及び音場形成条件が対応付けて登録されている。音場形成条件としては、残響設定及び音像定位設定のほか、帯域毎のゲイン設定、音量設定等を含みうる。初期状態の判定用データベースには、コンテンツのカテゴリ毎に一般的に最適な音場形成条件が登録されており、リスナIDに固有の音場形成条件は存在しない。また判定用データベース13には、図8に示すようにコンテンツカテゴリと推定カテゴリとが対応付けて登録されているカテゴリ対応テーブルが記録されている。カテゴリ対応テーブルには、操作部14及びコンテンツカテゴリ取得部18から番組毎にコンテンツカテゴリが出力された場合に、出力されたコンテンツカテゴリに対応する番組にはどのようなカテゴリが含まれる可能性があるかを示すレコードが登録されている。例えば、スポーツ番組には、ゴルフ、野球、テニスといった競技内容のシーンのほか、一般に解説のシーンも含まれる。EPGや操作部14から「スポーツ」というコンテンツカテゴリが取得された場合であっても、解説中には「解説」を聞くのに最適な音場形成条件を設定することが望ましい。一方、EPGや操作部14から取得できるコンテンツカテゴリを全く無視し、コンテンツの解析結果にのみ基づいて音場形成条件を設定すると、コンテンツの解析精度によっては不適切な音場形成条件が設定されるおそれもある。そこで、EPGや操作部14から取得できるコンテンツカテゴリによってコンテンツの推定範囲を絞り込み、絞り込んだ範囲でコンテンツを推定することにより、動的に設定される音場形成条件を最適化することができる。   In the initial state determination database 13, for example, as shown in FIG. 7, a listener ID, a category, and a sound field forming condition are registered in association with each other. The sound field forming conditions may include reverberation setting and sound image localization setting, gain setting for each band, volume setting, and the like. In the initial state determination database, generally optimum sound field forming conditions are registered for each content category, and there is no sound field forming condition unique to the listener ID. The determination database 13 stores a category correspondence table in which content categories and estimated categories are registered in association with each other as shown in FIG. In the category correspondence table, when a content category is output for each program from the operation unit 14 and the content category acquisition unit 18, any category may be included in the program corresponding to the output content category. A record indicating that is registered. For example, a sports program generally includes commentary scenes in addition to scenes of competition content such as golf, baseball, and tennis. Even when the content category “sports” is acquired from the EPG or the operation unit 14, it is desirable to set an optimum sound field forming condition for listening to “explanation” during the explanation. On the other hand, if the sound field forming condition is set based only on the content analysis result while ignoring the content category that can be acquired from the EPG or the operation unit 14, an inappropriate sound field forming condition is set depending on the content analysis accuracy. There is also a fear. Therefore, the sound field forming conditions that are dynamically set can be optimized by narrowing down the content estimation range based on the content category that can be acquired from the EPG or the operation unit 14 and estimating the content within the narrowed range.

音場形成条件判定部12は、リスナの設定履歴に基づいて最適な音場形成条件を学習する。すなわち、音場形成条件判定部12は、リスナの設定履歴に基づいて判定用データベース13を更新する。例えば、リスナIDが「001」のリスナが「解説」というコンテンツカテゴリについて明示的に残響設定を「ルーム」に設定すると、音場形成条件判定部12は図9に示すように、コンテンツカテゴリ「解説」に対応付けられたリスナID「全員」を「001以外」に変更し、コンテンツカテゴリ「解説」とリスナID「001」と残響設定「ルーム」とからなるレコードを判定用データベース13に新規登録する。また例えばリスナIDが「100」のリスナがコンテンツカテゴリ「ドラマ」について「右」の視聴位置から高頻度で視聴要求を入力すると、コンテンツカテゴリ「ドラマ」に対応付けられたリスナID「全員」を「100以外」に変更し、コンテンツカテゴリ「ドラマ」とリスナID「100」と音像定位設定「右」とからなるレコードを判定用データベース13に新規登録する。音場定位設定が明示的に設定されていない場合であっても、リスナ推定用データベース17にコンテンツカテゴリのフィールドを設けておき、解析部10及びコンテンツカテゴリ取得部18が出力するコンテンツカテゴリをリスナ推定用データベース17に登録することによって、リスナIDと視聴位置とコンテンツカテゴリとから最適な音像定位設定条件を特定できる。   The sound field formation condition determination unit 12 learns the optimum sound field formation condition based on the listener setting history. That is, the sound field formation condition determination unit 12 updates the determination database 13 based on the listener setting history. For example, if the reverberation setting is explicitly set to “room” for the content category with the listener ID “001” being “commentary”, the sound field forming condition determination unit 12 will display the content category “commentary” as shown in FIG. ”Is changed to“ other than 001 ”, and a record including the content category“ commentary ”, the listener ID“ 001 ”, and the reverberation setting“ room ”is newly registered in the determination database 13. . For example, when a listener with a listener ID “100” frequently inputs a viewing request from the “right” viewing position for the content category “drama”, the listener ID “all” associated with the content category “drama” is set to “ The record is changed to “other than 100”, and a record including the content category “drama”, the listener ID “100”, and the sound image localization setting “right” is newly registered in the determination database 13. Even if the sound field localization setting is not explicitly set, a content category field is provided in the listener estimation database 17 to estimate the content category output by the analysis unit 10 and the content category acquisition unit 18. By registering in the database 17, the optimum sound image localization setting condition can be specified from the listener ID, viewing position, and content category.

以上説明したように、音場形成条件判定部12は、コンテンツの特徴量、リスナの設定内容、コンテンツの付属情報のうち、2以上の情報に基づいて音場形成条件を総合的に判定するため、高い精度で最適な音場形成条件を設定することができる。   As described above, the sound field formation condition determination unit 12 comprehensively determines the sound field formation condition based on two or more pieces of information among the feature amount of the content, the setting contents of the listener, and the attached information of the content. It is possible to set an optimum sound field forming condition with high accuracy.

音場処理部20は、音場形成条件判定部12又は操作部14によって設定される音場形成条件に基づいてオーディオ信号を処理し、特定の音場を形成するオーディオ信号を出力する。具体的には音場処理部20は、遅延時間の異なるディレイが施された信号を加算することによって残響を形成したり、高周波成分を付加してボーカル音を引き立たせたり、LチャネルとRチャネルに個別にディレイを設定することにより音像を特定位置に定位させる処理を行う。音場処理部20は、これらの音場形成処理をディジタル信号処理で行ってもよいし、アナログ信号処理で行ってもよい。音場処理部20は最後にDA変換を施してアナログのオーディオ信号を出力する。   The sound field processing unit 20 processes the audio signal based on the sound field forming conditions set by the sound field forming condition determining unit 12 or the operation unit 14, and outputs an audio signal that forms a specific sound field. Specifically, the sound field processing unit 20 forms reverberation by adding signals subjected to delays having different delay times, adds a high frequency component to enhance vocal sound, and performs L channel and R channel. A process for localizing the sound image to a specific position by individually setting a delay is performed. The sound field processing unit 20 may perform these sound field forming processes by digital signal processing or analog signal processing. The sound field processing unit 20 finally performs DA conversion and outputs an analog audio signal.

音場処理部20から出力されるオーディオ信号は増幅器24で増幅され、スピーカ28、30、32、34に出力される。オーディオ信号に基づいて音響を放出するスピーカの数は1つであってもよいし、2つであってもよいし、3つ以上であってもよい。   The audio signal output from the sound field processing unit 20 is amplified by the amplifier 24 and output to the speakers 28, 30, 32 and 34. The number of speakers that emit sound based on the audio signal may be one, two, or three or more.

以上説明した本発明の一実施例によると、解析部10から出力される推定カテゴリ、EPGから取得されるコンテンツカテゴリ等の付属情報及びリスナの設定履歴を用いて音場形成条件が設定されるため、高い精度で最適な音場形成条件を設定することができる。さらに、解析部10では、画像データとオーディオ信号を解析してカテゴリを推定し、さらにオーディオ信号については音の大きさと、左右相関と、音の高さと、音の経時変化特性とを総合的に解析するため、高い精度でコンテンツのカテゴリを推定することができる。また、リスナ推定部16が視聴履歴から特定の視聴パターンを検出し、それぞれの視聴パターンにリスナIDを割り当てるため、リスナがリスナIDを入力しなくても、音場形成条件判定部12はリスナ毎に最適な音場形成条件を設定することができる。   According to the embodiment of the present invention described above, the sound field forming condition is set using the attached information such as the estimated category output from the analysis unit 10, the content category acquired from the EPG, and the listener setting history. It is possible to set an optimum sound field forming condition with high accuracy. Further, the analysis unit 10 analyzes the image data and the audio signal to estimate the category, and further, for the audio signal, comprehensively determines the sound volume, left-right correlation, sound pitch, and sound aging characteristics. Since the analysis is performed, the content category can be estimated with high accuracy. In addition, since the listener estimation unit 16 detects a specific viewing pattern from the viewing history and assigns a listener ID to each viewing pattern, the sound field formation condition determination unit 12 does not input the listener ID for each listener. It is possible to set the optimum sound field forming conditions.

本発明の一実施例に係る機能ブロック図。The functional block diagram which concerns on one Example of this invention. 本発明の一実施例に係る機能ブロック図。The functional block diagram which concerns on one Example of this invention. 本発明の一実施例に係るデータベースを示す図。The figure which shows the database which concerns on one Example of this invention. 本発明の一実施例に係るデータベースを示す図。The figure which shows the database which concerns on one Example of this invention. 本発明の一実施例に係るデータベースを示す図。The figure which shows the database which concerns on one Example of this invention. 本発明の一実施例に係るリスナ推定方法を説明するための表。The table | surface for demonstrating the listener estimation method which concerns on one Example of this invention. 本発明の一実施例に係るデータベースを示す図。The figure which shows the database which concerns on one Example of this invention. 本発明の一実施例に係るデータベースを示す図。The figure which shows the database which concerns on one Example of this invention. 本発明の一実施例に係るデータベースを示す図。The figure which shows the database which concerns on one Example of this invention.

符号の説明Explanation of symbols

1:音場判定装置、10:解析部、11:コンテンツ推定用データベース、12:音場形成条件判定部、13:判定用データベース、14:操作部、16:リスナ推定部、17:リスナ推定用データベース、18:コンテンツカテゴリ取得部、20:音場処理部、 1: sound field determination device, 10: analysis unit, 11: content estimation database, 12: sound field formation condition determination unit, 13: determination database, 14: operation unit, 16: listener estimation unit, 17: listener estimation Database, 18: content category acquisition unit, 20: sound field processing unit,

Claims (12)

再生対象のコンテンツを解析して前記コンテンツの特徴量を取得する段階と、
リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する段階と、
前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する段階と、
を含むことを特徴とする音場判定方法。
Analyzing the content to be played back to obtain a feature amount of the content;
Obtaining listener setting history information or attribute information of the content set in the content;
Determining a sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information;
The sound field determination method characterized by including.
前記音場形成条件を判定する段階では、前記コンテンツの再生中に前記特徴量の変化に応じて前記音場形成条件を判定することを特徴とする請求項1に記載の音場判定方法。   The sound field determination method according to claim 1, wherein in the step of determining the sound field formation condition, the sound field formation condition is determined according to a change in the feature amount during reproduction of the content. リスナの操作を検出する段階と、
検出された操作に基づいて前記リスナを推定する段階とをさらに含み、
前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得することを特徴とする請求項1に記載の音場判定方法。
Detecting the operation of the listener;
Estimating the listener based on the detected operation, and
The sound field determination method according to claim 1, wherein in the step of acquiring the setting history information, the setting history information corresponding to the estimated listener is acquired.
前記特徴量を取得する段階では、前記コンテンツの音響チャネルを解析して前記音響チャネルの特徴量を取得することを特徴とする請求項1に記載の音場判定方法。   The sound field determination method according to claim 1, wherein in the step of acquiring the feature amount, the acoustic channel of the content is analyzed to acquire the feature amount of the acoustic channel. 前記特徴量を取得する段階では、前記音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得することを特徴とする請求項4に記載の音場判定方法。   In the step of acquiring the feature amount, the correlation coefficient between the L channel and the R channel of the acoustic channel, the volume of the sound indicated by the acoustic channel, the pitch of the sound indicated by the acoustic channel, and the sound indicated by the acoustic channel 5. The sound field determination method according to claim 4, wherein two or more feature amounts of the time-dependent change characteristics of the sound field are acquired. 前記特徴量を取得する段階では、前記コンテンツの画像チャネルを解析して前記画像チャネルの特徴量を取得することを特徴とする請求項1に記載の音場判定方法。   The sound field determination method according to claim 1, wherein in the step of acquiring the feature amount, the feature amount of the image channel is acquired by analyzing an image channel of the content. リスナの設定履歴情報及び再生対象のコンテンツに設定されている前記コンテンツの属性情報を取得する段階と、
前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する段階と、
を含むことを特徴とする音場判定方法。
Obtaining listener setting history information and attribute information of the content set in the content to be played;
Determining a sound field forming condition for reproducing the content based on the setting history information and the attribute information;
The sound field determination method characterized by including.
リスナの操作を検出する段階と、
検出された操作に基づいて前記リスナを推定する段階とをさらに含み、
前記設定履歴情報を取得する段階では、推定された前記リスナに対応する前記設定履歴情報を取得することを特徴とする請求項7に記載の音場判定方法。
Detecting the operation of the listener;
Estimating the listener based on the detected operation, and
The sound field determination method according to claim 7, wherein in the step of acquiring the setting history information, the setting history information corresponding to the estimated listener is acquired.
再生対象のコンテンツを解析し、前記コンテンツの音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得する段階と、
前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する段階と、
を含むことを特徴とする音場判定方法。
Analyzing the content to be played back, the correlation coefficient between the L channel and the R channel of the audio channel of the content, the volume of the sound indicated by the audio channel, the pitch of the sound indicated by the audio channel, and the audio channel Obtaining any two or more features of the time-dependent characteristics of the sound;
Determining a sound field forming condition for reproducing the content based on the feature amount;
The sound field determination method characterized by including.
再生対象のコンテンツを解析して前記コンテンツの特徴量を取得する手段と、
リスナの設定履歴情報又は前記コンテンツに設定されている前記コンテンツの属性情報を取得する手段と、
前記コンテンツを再生するための音場形成条件を前記特徴量と前記設定履歴情報又は前記属性情報とに基づいて判定する手段と、
を備えることを特徴とする音場判定装置。
Means for analyzing the content to be played back and obtaining the feature amount of the content;
Means for acquiring listener setting history information or attribute information of the content set in the content;
Means for determining a sound field forming condition for reproducing the content based on the feature amount and the setting history information or the attribute information;
A sound field determination apparatus comprising:
リスナの設定履歴情報及び再生対象のコンテンツに設定されている前記コンテンツの属性情報を取得する手段と、
前記コンテンツを再生するための音場形成条件を前記設定履歴情報と前記属性情報とに基づいて判定する手段と、
を備えることを特徴とする音場判定装置。
Means for acquiring listener setting history information and attribute information of the content set in the content to be played;
Means for determining a sound field forming condition for reproducing the content based on the setting history information and the attribute information;
A sound field determination apparatus comprising:
再生対象のコンテンツを解析し、前記コンテンツの音響チャネルのLチャネルとRチャネルとの相関係数、前記音響チャネルが示す音の大きさ、前記音響チャネルが示す音の高さ、前記音響チャネルが示す音の経時変化特性のいずれか2つ以上の特徴量を取得する手段と、
前記コンテンツを再生するための音場形成条件を前記特徴量に基づいて判定する手段と、
を備えることを特徴とする音場判定装置。
Analyzing the content to be played back, the correlation coefficient between the L channel and the R channel of the audio channel of the content, the volume of the sound indicated by the audio channel, the pitch of the sound indicated by the audio channel, and the audio channel Means for acquiring any two or more feature quantities of the time-dependent characteristic of sound;
Means for determining a sound field forming condition for reproducing the content based on the feature amount;
A sound field determination apparatus comprising:
JP2005069288A 2005-03-11 2005-03-11 Acoustic field determining method and device Withdrawn JP2006254187A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005069288A JP2006254187A (en) 2005-03-11 2005-03-11 Acoustic field determining method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005069288A JP2006254187A (en) 2005-03-11 2005-03-11 Acoustic field determining method and device

Publications (1)

Publication Number Publication Date
JP2006254187A true JP2006254187A (en) 2006-09-21

Family

ID=37094179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005069288A Withdrawn JP2006254187A (en) 2005-03-11 2005-03-11 Acoustic field determining method and device

Country Status (1)

Country Link
JP (1) JP2006254187A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008166976A (en) * 2006-12-27 2008-07-17 Sharp Corp Sound voice reproduction device
JP2008227891A (en) * 2007-03-13 2008-09-25 Pioneer Electronic Corp Audio apparatus, delay measurement method, delay measurement program and its recording medium
JP2010536274A (en) * 2007-08-27 2010-11-25 ボーズ・コーポレーション Spatial processing operations in audio systems
JP2012093519A (en) * 2010-10-26 2012-05-17 Xing Inc Karaoke system
JP2013519253A (en) * 2010-02-02 2013-05-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Spatial audio playback

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008166976A (en) * 2006-12-27 2008-07-17 Sharp Corp Sound voice reproduction device
JP2008227891A (en) * 2007-03-13 2008-09-25 Pioneer Electronic Corp Audio apparatus, delay measurement method, delay measurement program and its recording medium
JP2010536274A (en) * 2007-08-27 2010-11-25 ボーズ・コーポレーション Spatial processing operations in audio systems
JP2013519253A (en) * 2010-02-02 2013-05-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Spatial audio playback
JP2012093519A (en) * 2010-10-26 2012-05-17 Xing Inc Karaoke system

Similar Documents

Publication Publication Date Title
US7467088B2 (en) Closed caption control apparatus and method therefor
JP4913038B2 (en) Audio level control
KR102268933B1 (en) Automatic multi-channel music mix from multiple audio stems
KR101275467B1 (en) Apparatus and method for controlling automatic equalizer of audio reproducing apparatus
US8917972B2 (en) Modifying audio in an interactive video using RFID tags
US8139165B2 (en) Television receiver
US20080130918A1 (en) Apparatus, method and program for processing audio signal
US20100142729A1 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program and electronic apparatus
WO2007132569A1 (en) Music section detecting method and its device, data recording method, and its device
JP2004191780A (en) Device and method for sound signal processing, device and method for signal recording, and program
JP2006254187A (en) Acoustic field determining method and device
Lokki et al. Perception of loudness and envelopment for different orchestral dynamics
JP4086886B2 (en) Movie playback apparatus, movie playback method and computer program thereof
JP3970080B2 (en) Movie playback apparatus, movie playback method and computer program thereof
WO2022190446A1 (en) Control device, control method, and program
WO2023142363A1 (en) Display device and audio processing method
US20240038207A1 (en) Live distribution device and live distribution method
TW201019738A (en) Multimedia broadcasting method and multimedia broadcasting device thereof
JP2010169878A (en) Acoustic signal-analyzing apparatus and acoustic signal-analyzing method
WO2024004924A1 (en) Signal processing device, congnitive function improvement system, signal processing method, and program
JP2008154258A (en) Motion picture playback apparatus, motion picture playback method and computer program therefor
US20230260490A1 (en) Selective tone shifting device
JP2013121096A (en) Voice regulator and digital broadcast receiver
KR20150119013A (en) Device and program for processing separating data
JP4645609B2 (en) Broadcast identification device and automatic performance device

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060705

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090128