JP2016057570A - Acoustic analysis device - Google Patents
Acoustic analysis device Download PDFInfo
- Publication number
- JP2016057570A JP2016057570A JP2014186191A JP2014186191A JP2016057570A JP 2016057570 A JP2016057570 A JP 2016057570A JP 2014186191 A JP2014186191 A JP 2014186191A JP 2014186191 A JP2014186191 A JP 2014186191A JP 2016057570 A JP2016057570 A JP 2016057570A
- Authority
- JP
- Japan
- Prior art keywords
- impression
- data
- index
- acoustic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims description 96
- 230000014509 gene expression Effects 0.000 claims description 97
- 238000000605 extraction Methods 0.000 claims description 29
- 230000001105 regulatory effect Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 69
- 230000000875 corresponding effect Effects 0.000 description 32
- 238000000034 method Methods 0.000 description 28
- 238000003860 storage Methods 0.000 description 27
- 230000008859 change Effects 0.000 description 24
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000006071 cream Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 235000016623 Fragaria vesca Nutrition 0.000 description 1
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 1
- 241001608711 Melo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000001671 psychotherapy Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000008256 whipped cream Substances 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B15/00—Teaching music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/04—Sound-producing devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音響を解析する技術に関する。 The present invention relates to a technique for analyzing sound.
楽曲の歌唱を評価する技術が従来から提案されている。例えば特許文献1には、歌唱音声の音高に加えてビブラートや抑揚等の歌唱表現を加味して歌唱を評価する技術が開示されている。また、特許文献2には、歌唱音声の音高(基本周波数)や音量に応じて歌唱を評価する技術が開示されている。
Techniques for evaluating song singing have been proposed. For example,
しかし、特許文献1や特許文献2の技術では、模範的な歌唱を示す基準値と評価対象の歌唱音声の特徴量との差異のみに着目した歌唱の客観的な巧拙が評価されるに過ぎず、歌唱音声の受聴者が感取する印象等の主観的な観点は適切に評価されないという問題がある。例えば、個性的または特徴的な歌唱は、実際には熟練した印象を受聴者に付与し得るが、模範的な歌唱からは乖離する結果、特許文献1や特許文献2の技術では低評価となる可能性が高い。なお、以上の説明では歌唱音声の評価を例示したが、楽器の演奏音や音響機器の再生音等の各種の音響を評価する場合にも、受聴者が感取する主観的な印象を適切に評価できないという事情は同様に存在する。以上の事情を考慮して、本発明は、音響の主観的な印象を適切に評価することを目的とする。
However, the techniques of
以上の課題を解決するために、本発明の音響解析装置は、参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して、関係性記述データで規定される対応関係における聴覚印象の印象指標と各音響特徴の特徴指標との関係を表現する関連式を設定する関連式設定手段を具備する。以上の構成では、聴覚印象の印象指標と各音響特徴の特徴指標との関係を表現する関連式が設定される。したがって、関連式設定手段が設定した関連式を利用することで、音響の主観的な印象を適切に評価することが可能である。 In order to solve the above problems, the acoustic analysis device of the present invention includes a plurality of reference data in which an impression index indicating an auditory impression of a reference sound and a feature index indicating an acoustic feature of the reference sound are associated with each other, and Using the relationship description data that defines the correspondence between the auditory impression and multiple types of acoustic features, the impression index of the auditory impression and the feature index of each acoustic feature in the correspondence specified by the relationship description data A relational expression setting unit for setting a relational expression expressing the relationship is provided. In the above configuration, a relational expression that expresses the relationship between the impression index of the auditory impression and the feature index of each acoustic feature is set. Therefore, by using the relational expression set by the relational expression setting means, it is possible to appropriately evaluate the subjective impression of sound.
ところで、参照データの統計的な解析のみで関連式を設定する構成では、疑似相関(特定の特徴指標が実際には特定の聴覚印象に相関しないのに潜在的な要因によって恰も相関するかのように推測される見掛け上の関係)の影響で、実際には聴覚印象に相関しない特徴指標が当該聴覚印象に優勢に影響するような関連式が導出される可能性がある。本発明では、印象指標と特徴指標とを相互に対応させた複数の参照データに加え、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して関連式が設定される。したがって、参照データのみを利用して関連式を設定する構成と比較して、印象指標と複数の特徴指標との実際の相関を適切に反映した関連式(すなわち聴覚印象を適切に評価できる関連式)を設定できるという利点がある。 By the way, in the configuration in which the relational expression is set only by the statistical analysis of the reference data, the pseudo-correlation (as if the specific feature index does not actually correlate with the specific auditory impression but correlates with the wrinkles due to potential factors. There is a possibility that a relational expression in which a feature index that does not actually correlate with the auditory impression has an influence on the auditory impression is derived. In the present invention, in addition to a plurality of reference data in which an impression index and a feature index correspond to each other, a relational expression is set using relationship description data that defines a correspondence relationship between an auditory impression and a plurality of types of acoustic features. Is done. Therefore, compared to a configuration in which a relational expression is set using only reference data, a relational expression that appropriately reflects the actual correlation between the impression index and a plurality of feature indices (that is, a relational expression that can appropriately evaluate an auditory impression) ) Can be set.
本発明の好適な態様において、関係性記述データは、聴覚印象に包含される複数の中間要素を介した当該聴覚印象と複数種の音響特徴との対応関係を規定する。以上の態様では、聴覚印象に包含される複数の中間要素を介した当該聴覚印象と複数種の音響特徴との間の対応関係が関係性記述データで規定されるから、聴覚印象と各音響特徴とを直接的に相関させた場合と比較して、聴覚印象と各音響特徴との実際の相関を適切に反映した関連式を設定できるという前述の効果は格別に顕著である。 In a preferred aspect of the present invention, the relationship description data defines a correspondence relationship between the auditory impression and a plurality of types of acoustic features via a plurality of intermediate elements included in the auditory impression. In the above aspect, since the correspondence relationship between the auditory impression and a plurality of types of acoustic features via a plurality of intermediate elements included in the auditory impression is defined by the relationship description data, the auditory impression and each acoustic feature The above-described effect that the relational expression that appropriately reflects the actual correlation between the auditory impression and each acoustic feature can be set is particularly remarkable as compared with the case where the above is directly correlated.
本発明の好適な態様において、関連式設定手段は、複数種の聴覚印象の各々について関連式を設定する。以上の態様では、複数種の聴覚印象の各々について関連式が設定されるから、多様な観点から聴覚印象を適切に評価できるという利点がある。例えば歌唱音声の聴覚印象を評価するための関連式としては、長幼(大人っぽい/子供っぽい)と明暗(明るい/暗い)と清濁(清らかで透明感がある/嗄れて濁っている)とを含む複数種の聴覚印象の各々について関連式を設定する構成が格別に好適である。 In a preferred aspect of the present invention, the relational expression setting means sets a relational expression for each of a plurality of types of auditory impressions. In the above aspect, since the relational expression is set for each of a plurality of types of auditory impressions, there is an advantage that the auditory impression can be appropriately evaluated from various viewpoints. For example, the relational expressions for evaluating the auditory impression of singing voices are: young (adult / childish), light / dark (bright / dark), and turbidity (clean and transparent / cloudy) A configuration in which a relational expression is set for each of a plurality of types of auditory impressions including is particularly suitable.
本発明の好適な態様において、関連式設定手段は、参照データを取得し、当該参照データを利用して既定の関連式を更新する。以上の態様では、関連式の設定後に取得した参照データを利用して当該関連式が更新されるから、聴覚印象と各音響特徴との実際の相関を適切に反映した関連式を設定できるという前述の効果は格別に顕著である。 In a preferred aspect of the present invention, the relational expression setting unit obtains reference data and updates a predetermined relational expression using the reference data. In the above aspect, since the relational expression is updated using the reference data acquired after setting the relational expression, it is possible to set the relational expression that appropriately reflects the actual correlation between the auditory impression and each acoustic feature. The effect of is particularly remarkable.
本発明の他の態様に係る音響解析装置は、以上の各態様において生成された関連式を利用して解析対象音の聴覚印象を解析する装置であり、解析対象音の特徴指標を抽出する特徴抽出手段と、参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して算定され、関係性記述データで規定される対応関係における聴覚印象の印象指標と複数種の音響特徴の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する印象特定手段とを具備する。以上の態様では、複数の参照データと関係性記述データとを利用することで印象指標と複数の特徴指標との実際の相関を適切に反映した関連式を利用して、解析対象音の聴覚印象を適切に評価することが可能である。 An acoustic analysis apparatus according to another aspect of the present invention is an apparatus that analyzes an auditory impression of a sound to be analyzed using the relational expressions generated in each of the above aspects, and a feature that extracts a feature index of the sound to be analyzed A plurality of reference data in which the extraction means, the impression index indicating the auditory impression of the reference sound and the feature index indicating the acoustic feature of the reference sound are associated with each other, and the correspondence relationship between the auditory impression and the plurality of types of acoustic features A relational expression that calculates the relationship between the impression index of auditory impression and the characteristic index of multiple types of acoustic features in the correspondence relationship defined by the relationship description data. Applying the feature index extracted by the extraction unit includes an impression specifying unit that calculates an impression index of the analysis target sound. In the above aspect, the auditory impression of the analysis target sound is obtained by using the relational expression that appropriately reflects the actual correlation between the impression index and the plurality of feature indices by using the plurality of reference data and the relationship description data. Can be evaluated appropriately.
以上の各態様に係る音響解析装置は、専用の電子回路で実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各態様に係る音響解析装置の動作方法(音響解析方法)としても本発明は特定される。 The acoustic analysis device according to each aspect described above is realized by a dedicated electronic circuit, or by cooperation of a general-purpose arithmetic processing device such as a CPU (Central Processing Unit) and a program. The program of the present invention can be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. For example, the program of the present invention can be provided in the form of distribution via a communication network and installed in a computer. The present invention is also specified as an operation method (acoustic analysis method) of the acoustic analysis device according to each of the above aspects.
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100Aの構成図である。第1実施形態の音響解析装置100Aは、演算処理装置10と記憶装置12と入力装置14と収音装置16と表示装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置100Aとして利用され得る。
<First Embodiment>
FIG. 1 is a configuration diagram of an
収音装置16は、周囲の音響を収音する機器(マイクロホン)である。第1実施形態の収音装置16は、利用者が楽曲を歌唱した歌唱音声Vを収音する。音響解析装置100Aは、楽曲の伴奏音と歌唱音声Vとを混合して再生するカラオケ装置としても利用され得る。なお、収音装置16が収音した歌唱音声Vの信号をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
The
表示装置18(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置14は、音響解析装置100Aに対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置18と一体に構成されたタッチパネルを入力装置14として利用することも可能である。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。
The display device 18 (for example, a liquid crystal display panel) displays an image instructed from the
第1実施形態の音響解析装置100Aは、収音装置16が収音した歌唱音声Vを解析する信号処理装置である。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、歌唱音声Vを解析するための複数の機能(特徴抽出部22,印象特定部24,提示処理部26,関連式設定部40)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、演算処理装置10の機能の一部を専用の電子回路が実現する構成も採用され得る。
The
特徴抽出部22は、収音装置16が収音した歌唱音声Vを解析することで、相異なる種類の音響特徴を示す複数(N個)の特徴指標X1〜XNを抽出する(Nは自然数)。音響特徴は、歌唱音声Vの受聴者が感取する聴感的な印象(以下「聴覚印象」という)に影響する歌唱音声Vの音響的な特徴を意味する。具体的には、音高(ピッチ)の安定度,ビブラートの深度(音高の振幅),周波数特性等の多様な音響特徴の各々を数値化した特徴指標Xn(n=1〜N)が歌唱音声Vから抽出される。第1実施形態の特徴抽出部22が抽出するN個の特徴指標X1〜XNの数値範囲は共通する。以上の説明から理解される通り、聴覚印象は、歌唱音声Vの受聴者が感取する主観的ないし感覚的な特徴(印象)を意味し、音響特徴は、歌唱音声Vの解析で抽出される客観的ないし物理的な特徴(特性)を意味する。
The
印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを利用して歌唱音声Vの聴覚印象を特定する。第1実施形態の印象特定部24は、歌唱音声Vの相異なる聴覚印象を示す複数(M個)の印象指標Y1〜YMを算定する(Mは自然数)。第1実施形態における任意の1個の印象指標Ym(m=1〜M)は、相互に対立する2種類の印象の程度を数値化した指標である。具体的には、長幼(大人っぽい/子供っぽい),明暗(明るい/暗い),清濁(清らかで透明感がある/嗄れて濁っている)等の多様な聴覚印象の各々を数値化した印象指標Ymが特定される。例えば長幼に関する1個の印象指標Ymが正数の範囲で大きいほど大人っぽい音声を意味し、当該印象指標Ymが負数の範囲で小さいほど子供っぽい音声を意味する。
The
N個の特徴指標X1〜XNに応じた印象指標Ym(Y1〜YM)の算定には、印象指標Ym毎に事前に設定された演算式(以下「関連式」という)Fmが利用される。任意の1個の関連式Fmは、印象指標YmとN個の特徴指標X1〜XNとの関係を表現する演算式である。第1実施形態の関連式Fmは、以下に例示される通り、N個の特徴指標X1〜XNの一次式で各印象指標Ymを表現する。
以上に例示した関連式Fmの係数anm(a11〜aNM)は、特徴指標Xnと印象指標Ymとの相関の度合に応じた定数(特徴指標Xnに対する印象指標Ymの勾配)であり、係数bm(b1〜bM)は所定の定数(切片)である。係数anmは、印象指標Ymに対する特徴指標Xnの寄与度(加重値)とも換言され得る。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを関連式F1〜FMの各々に適用することで、相異なる聴覚印象に対応するM個の印象指標Y1〜YMを算定する。第1実施形態の印象特定部24は、各特徴指標Xnから算定したM個の印象指標Y1〜YMに応じた歌唱スタイル情報Sを生成する。具体的には、M個の印象指標Y1〜YMを要素とするM次元のベクトルが歌唱スタイル情報Sとして生成される。以上の説明から理解される通り、歌唱スタイル情報Sは、歌唱音声VのM種類の聴覚印象(受聴者が感取する主観的な歌唱スタイル)を総合的に表現する。なお、第1実施形態では前述の通り線形システムを例示するが、隠れマルコフモデルやニューラルネットワーク(多層パーセプトロン)等の非線形システムを印象指標Ym(Y1〜YM)の算定に利用することも可能である。
The coefficient anm (a11 to aNM) of the relational expression Fm exemplified above is a constant (gradient of the impression index Ym with respect to the feature index Xn) according to the degree of correlation between the feature index Xn and the impression index Ym, and the coefficient bm ( b1 to bM) are predetermined constants (intercepts). The coefficient anm can also be restated as the contribution (weighted value) of the feature index Xn to the impression index Ym. The
図1の提示処理部26は、表示装置18に各種の画像を表示させる。具体的には、第1実施形態の提示処理部26は、印象特定部24が特定した歌唱音声VのM個の印象指標Y1〜YM(歌唱スタイル情報S)を表現する解析結果画像70を表示装置18に表示させる。
The
図2は、M種類の印象指標Y1〜YMのうち長幼(大人っぽい/子供っぽい)に関する1個の印象指標Y1と清濁(清らかで透明感がある/嗄れて濁っている)に関する1個の印象指標Y2とを表象する解析結果画像70の表示例である。図2から理解される通り、解析結果画像70は、印象指標Y1の数値を示す第1軸71と印象指標Y2の数値を示す第2軸72とが設定された座標平面を包含する。第1軸71のうち印象特定部24が算定した印象指標Y1の数値と、第2軸72のうち印象特定部24が算定した印象指標Y2の数値とに対応した座標位置に、歌唱音声Vの聴覚印象を意味する画像(アイコン)74が配置される。以上の説明から理解される通り、解析結果画像70は、歌唱音声Vの聴覚印象を表象する画像(長幼や清濁を含む歌唱スタイルを表象する画像)である。利用者は、表示装置18に表示された解析結果画像70を視認することで、歌唱音声Vの聴覚印象を視覚的および直観的に把握することが可能である。
FIG. 2 shows one impression index Y1 related to a young child (adult / childish) among M kinds of impression indexes Y1 to YM and one related to turbidity (clean and transparent / slowly turbid) This is a display example of an
図3は、歌唱音声Vの聴覚印象を解析する動作のフローチャートである。例えば入力装置14に対する利用者からの操作(解析開始の指示)を契機として図3の処理が開始される。図3の処理を開始すると、特徴抽出部22は、収音装置16が収音した歌唱音声Vを取得し(S1)、歌唱音声Vのうち解析区間の音響特徴を示すN個の特徴指標X1〜XNを抽出する(S2)。解析区間は、歌唱音声Vのうち聴覚印象の解析対象となる区間であり、例えば歌唱音声Vの全区間または一部の区間(例えばサビ区間)である。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを各関連式Fmに適用することでM個の印象指標Y1〜YMを算定する(S3)。提示処理部26は、印象特定部24による解析結果を表現する図2の解析結果画像70を表示装置18に表示させる(S4)。
FIG. 3 is a flowchart of the operation of analyzing the auditory impression of the singing voice V. For example, the processing of FIG. 3 is started when an operation (instruction to start analysis) from the user with respect to the
図1の関連式設定部40は、各聴覚印象の印象指標Ymの算定に利用される関連式Fm(F1〜FM)を設定する。図1に例示される通り、第1実施形態の記憶装置12には、参照データ群DRと関係性記述データDCとが格納される。関連式設定部40は、参照データ群DRと関係性記述データDCとを利用してM個の関連式F1〜FMを設定する。
The relational
参照データ群DRは、複数の参照データrの集合(データベース)である。参照データ群DRに包含される複数の参照データrは、不特定多数の発声者が発音した音声(以下「参照音」という)を利用して事前に生成される。例えば任意の発声者が任意の楽曲を歌唱した音声が参照音として収録されて参照データrの生成に利用される。図1に例示される通り、任意の1個の参照データrは、参照音の各印象指標ym(y1〜yM)と当該参照音の特徴指標xn(x1〜xN)とを相互に対応させたデータである。印象指標ymは、参照音の受聴者が実際に感取した聴覚印象に応じた数値に設定され、特徴指標xnは、特徴抽出部22と同様の処理で参照音から抽出された音響特徴の数値に設定される。すなわち、各参照データrは、印象指標ymと特徴指標xnとの関係を実際に観測した資料(学習データ)に相当する。
The reference data group DR is a set (database) of a plurality of reference data r. The plurality of reference data r included in the reference data group DR is generated in advance by using a sound (hereinafter referred to as “reference sound”) generated by an unspecified number of speakers. For example, the sound of an arbitrary singer singing an arbitrary piece of music is recorded as a reference sound and used to generate reference data r. As illustrated in FIG. 1, any one piece of reference data r corresponds to each impression index ym (y1 to yM) of the reference sound and the feature index xn (x1 to xN) of the reference sound. It is data. The impression index ym is set to a numerical value corresponding to the auditory impression actually sensed by the listener of the reference sound, and the characteristic index xn is a numerical value of the acoustic feature extracted from the reference sound in the same process as the
関係性記述データDCは、聴覚印象と複数の音響特徴との間の対応関係(相関関係)を規定する。図4は、第1実施形態の関係性記述データDCで規定される対応関係を例示する説明図である。図4に例示される通り、第1実施形態の関係性記述データDCは、相異なる印象指標Ymに対応するM種類の聴覚印象EY(EY1〜EYM)の各々について、当該聴覚印象EYmに影響する複数種の音響特徴EXとの対応関係λm(λ1〜λM)を規定する。図4には、長幼と清濁と明暗との3種類の聴覚印象EY1〜EY3の各々について複数種の音響特徴EXとの対応関係λ1〜λ3が例示されている。 The relationship description data DC defines a correspondence relationship (correlation) between an auditory impression and a plurality of acoustic features. FIG. 4 is an explanatory view illustrating the correspondence defined by the relationship description data DC of the first embodiment. As illustrated in FIG. 4, the relationship description data DC of the first embodiment affects the auditory impression EYm for each of M types of auditory impressions EY (EY1 to EYM) corresponding to different impression indices Ym. A correspondence λm (λ1 to λM) with a plurality of types of acoustic features EX is defined. FIG. 4 illustrates correspondence relationships λ1 to λ3 with a plurality of types of acoustic features EX for each of the three types of auditory impressions EY1 to EY3, which are childhood, clearness, and light and dark.
各聴覚印象EYmに相関する音響特徴EXの具体的な内容は以下の通りである。以下に例示する各音響特徴EXの数値が前述の特徴指標Xnに相当する。
・音高の安定度:時間的な音高の微小変化(揺らぎ)の度合
・立上がりの速度:発音直後の音量の増加の度合
・フォール:音高を基準値(音符の音高)から低下させる歌唱表現の度合(例えば回数)
・しゃくり:音高を基準値から経時的に上昇させる歌唱表現の度合(例えば回数)
・ビブラートの深度:ビブラートにおける音高の変化の度合(例えば振幅や回数)
・輪郭:音響の明瞭性の度合。例えば、低域成分に対する高域成分の音量比が好適。
・滑舌:音響特性の時間的な変化の度合。例えば、周波数特性(例えばホルマント周波数や基本周波数)の時間的な変化の度合(典型的には時間変化率)が好適。
・アタック:発音直後の音量
・クレッシェンド:音量の経時的な増加の度合
・周波数特性:周波数スペクトルの形状
・高次倍音:高次側(高域側)の倍音成分の強度
Specific contents of the acoustic feature EX correlated with each auditory impression EYm are as follows. The numerical value of each acoustic feature EX exemplified below corresponds to the above-described feature index Xn.
・ Pitch stability: Degree of minute change (fluctuation) in time ・ Rise speed: Degree of increase in volume immediately after pronunciation ・ Fall: Decrease the pitch from the reference value (note pitch) Degree of singing expression (eg number of times)
・ Scribbling: the degree of singing expression that raises the pitch over time from the reference value (for example, the number of times)
・ Vibrato depth: the degree of pitch change in vibrato (eg amplitude and frequency)
Contour: degree of sound clarity. For example, the volume ratio of the high frequency component to the low frequency component is suitable.
-Tongue: The degree of temporal change in acoustic characteristics. For example, the degree of temporal change (typically the time change rate) of the frequency characteristics (for example, formant frequency or fundamental frequency) is suitable.
・ Attack: Volume immediately after sound generation ・ Crescend: Degree of increase in volume over time ・ Frequency characteristics: Shape of frequency spectrum ・ Higher harmonics: Intensity of higher harmonic components
図4に例示される通り、第1実施形態の関係性記述データDCが任意の1種類の聴覚印象EYmについて規定する対応関係λmは、当該聴覚印象EYmに関連する複数種の中間要素EZを聴覚印象EYmと各音響特徴EXとの間に介在させた階層関係(階層構造)である。1種類の聴覚印象EYmに関連する複数種の中間要素EZは、当該聴覚印象EYmを受聴者に知覚させる要因となる印象や当該聴覚印象EYmを複数に細分化した印象に相当する。任意の1個の中間要素EZには、当該中間要素EZに影響する複数種の音響特徴EXが対応付けられる。 As illustrated in FIG. 4, the correspondence relationship λm that the relationship description data DC of the first embodiment defines for any one type of auditory impression EYm is used to identify multiple types of intermediate elements EZ related to the auditory impression EYm. This is a hierarchical relationship (hierarchical structure) interposed between the impression EYm and each acoustic feature EX. A plurality of types of intermediate elements EZ related to one type of auditory impression EYm correspond to an impression that causes the listener to perceive the auditory impression EYm and an impression obtained by subdividing the auditory impression EYm into a plurality of parts. Any one intermediate element EZ is associated with a plurality of types of acoustic features EX that affect the intermediate element EZ.
関係性記述データDCで規定される各対応関係λmは、例えば、音楽や音声(歌唱)に関する専門的な知識が豊富な識者(例えば音楽の制作者または指導者や歌手等)に対する調査(インタビューやアンケート)により、各聴覚印象EYmと各音響特徴EXとの間の相関(どのような音響特徴EXの音声から受聴者が如何なる聴覚印象EYmを感取する傾向があるのか)を解析することで構築される。対応関係λmの構築には、評価グリッド法等に代表される公知の調査手法が任意に採用され得る。 Each correspondence λm defined in the relationship description data DC is, for example, a survey (interviews, singer, etc.) for experts who have a lot of specialized knowledge about music and voice (singing). Constructed by analyzing the correlation between each acoustic impression EYm and each acoustic feature EX (what kind of acoustic impression EYm the listener tends to perceive from the sound of the acoustic feature EX) by questionnaire) Is done. For the construction of the correspondence relationship λm, a known investigation technique represented by an evaluation grid method or the like can be arbitrarily employed.
以上に説明した関係性記述データDCは、対応関係λmに包含される各要素(音響特徴EX,中間要素EZ,聴覚印象EYm)の相互的な関係(連結)のみを規定し、各要素間の相関の度合については規定されない。以上の観点からすると、関係性記述データDCで規定される各対応関係λmは、現実に不特定多数の発声者から収集した参照音から観測される音響特徴EXと聴覚印象EYmとの実際の相関(すなわち、現実の参照音の傾向が反映された参照データ群DRから統計的に観測される各印象指標ymと各特徴指標xnとの実際の関係)までは反映されていない仮説的な関係であると言える。 The relationship description data DC described above defines only the mutual relationship (connection) of each element (acoustic feature EX, intermediate element EZ, auditory impression EYm) included in the correspondence relationship λm, and between the elements. The degree of correlation is not specified. From the above viewpoint, each correspondence λm defined by the relationship description data DC is an actual correlation between the acoustic feature EX and the auditory impression EYm observed from the reference sounds collected from a large number of unspecified speakers. (I.e., the actual relationship between each impression index ym and each feature index xn statistically observed from the reference data group DR reflecting the tendency of the actual reference sound) It can be said that there is.
以上に説明した参照データ群DRと関係性記述データDCとが事前に作成されて記憶装置12に格納される。図1の関連式設定部40は、記憶装置12に格納された参照データ群DRと関係性記述データDCとを利用してM個の関連式F1〜FMを設定する。すなわち、関連式設定部40は、関係性記述データDCが規定する各対応関係λmのもとで聴覚印象EYmの印象指標Ymと音響特徴EXの各特徴指標Xnとの関係を表現する関連式Fmを、M個の印象指標Y1〜YMの各々について設定する。具体的には、参照データ群DRの複数の参照データrにおける印象指標ymと特徴指標xnとの相関の度合を関係性記述データDCの対応関係λmに反映した関係が関連式Fmで表現されるように、関連式設定部40は、各関連式FmのN個の係数a1m〜aNmと1個の係数bmとを設定する。関連式設定部40による各関連式Fmの設定には、例えば、構造方程式モデリング(SEM:Structural Equation Modeling)や多変量解析(例えば重回帰分析)等の公知の統計処理が任意に採用され得る。なお、図4の例示から理解される通り、関係性記述データDCで表現される対応関係λmのもとで聴覚印象EYmとの相関が規定される音響特徴EXの種類や総数は、実際には聴覚印象EYm毎に相違するが、前掲の各関連式Fmに包含される特徴指標Xnの種類や総数はM個の関連式F1〜FMにわたり共通する。対応関係λmのもとで聴覚印象EYmとの相関が規定されていない音響特徴EXの特徴指標Xnに対応する係数anmは、関連式Fmにてゼロに設定される(すなわち、当該特徴指標Xnは印象指標Ymに影響しない)。
The reference data group DR and the relationship description data DC described above are created in advance and stored in the
以上の手順で関連式設定部40が設定したM個の関連式(例えば構造方程式や重回帰式)F1〜FMは記憶装置12に格納される。具体的には、N個の係数a1m〜aNmと1個の係数bmとがM個の関連式F1〜FMの各々について記憶装置12に格納される。前述の通り、印象特定部24は、関連式設定部40が設定したM個の関連式F1〜FMの各々にN個の特徴指標X1〜XNを適用することでM種類の印象指標Y1〜YMを算定する。
The M relational expressions (for example, structural equations and multiple regression equations) F1 to FM set by the relational
以上に説明した通り、第1実施形態では、歌唱音声Vから抽出される各特徴指標Xnと歌唱音声Vの聴覚印象を示す印象指標Ymとの関係を規定する関連式Fmを利用して、歌唱音声Vの聴覚印象(印象指標Y1〜YM)が特定される。したがって、例えば模範的な歌唱を示す基準値と歌唱音声Vの特徴指標Xnとの差異のみに着目して歌唱の巧拙を評価する特許文献1や特許文献2の技術と比較して、歌唱音声Vの受聴者が実際に感取する主観的な印象を適切に評価することが可能である。
As described above, in the first embodiment, the singing is performed using the relational expression Fm that defines the relationship between each feature index Xn extracted from the singing voice V and the impression index Ym indicating the auditory impression of the singing voice V. Auditory impressions (impression indices Y1 to YM) of the voice V are specified. Therefore, for example, the singing voice V is compared with the techniques of
ところで、参照データ群DRの複数の参照データrのみを解析することで印象指標ymと特徴指標xnとの相関の傾向を統計的に解析して関連式Fmを設定する構成(以下「対比例」という)も想定され得る。すなわち、対比例では関連式Fmの設定に関係性記述データDCが利用されない。しかし、対比例では、実際には聴覚印象EYmに相関しない特定の音響特徴EXが潜在的な要因に起因して恰も聴覚印象EYmに相関するかのように認識される見掛け上の関係(疑似相関)の影響で、実際には印象指標Ymに相関しない特徴指標Xnが当該印象指標Ymに優勢に影響するような関連式Fmが導出される可能性がある。他方、第1実施形態では、各聴覚印象EYmと各音響特徴EXとの仮説的な対応関係λmを規定する関係性記述データDCが参照データ群DRとともに関連式Fmの設定に利用されるから、聴覚印象EYmと音響特徴EXとの疑似相関の影響が低減(理想的には排除)される。したがって、聴覚印象EYmと各音響特徴EXとの実際の相関を適切に表現した関連式Fmを設定できるという利点がある。第1実施形態では、聴覚印象EYmに関連する複数の中間要素EZを介した聴覚印象EYmと各音響特徴EXとの対応関係λmが関係性記述データDCで規定されるから、聴覚印象EYmと各音響特徴EXとを直接的に相関させた構成(対応関係λmが聴覚印象EYmおよび音響特徴EXのみを包含する構成)と比較して、聴覚印象EYmと各音響特徴EXとの実際の相関を関連式Fmで適切に表現できるという前述の効果は格別に顕著である。 By the way, by analyzing only a plurality of reference data r of the reference data group DR, the tendency of the correlation between the impression index ym and the feature index xn is statistically analyzed to set the related expression Fm (hereinafter referred to as “proportional”). Can also be envisaged. That is, in the proportionality, the relationship description data DC is not used for setting the relational expression Fm. In contrast, however, a specific acoustic feature EX that does not actually correlate with the auditory impression EYm is recognized as if it is correlated with the auditory impression EYm due to a potential factor (pseudo-correlation). ), There is a possibility that a relational expression Fm is derived in which the characteristic index Xn that does not actually correlate with the impression index Ym has a dominant influence on the impression index Ym. On the other hand, in the first embodiment, the relationship description data DC defining the hypothetical correspondence λm between each auditory impression EYm and each acoustic feature EX is used together with the reference data group DR for setting the relational expression Fm. The influence of the pseudo correlation between the auditory impression EYm and the acoustic feature EX is reduced (ideally excluded). Therefore, there is an advantage that the relational expression Fm appropriately expressing the actual correlation between the auditory impression EYm and each acoustic feature EX can be set. In the first embodiment, since the correspondence relationship λm between the auditory impression EYm and each acoustic feature EX via a plurality of intermediate elements EZ related to the auditory impression EYm is defined by the relationship description data DC, the auditory impression EYm and each Compared with the configuration in which the acoustic feature EX is directly correlated (the configuration in which the correspondence λm includes only the auditory impression EYm and the acoustic feature EX), the actual correlation between the auditory impression EYm and each acoustic feature EX is related The above-described effect of being able to be appropriately expressed by the formula Fm is particularly remarkable.
<第1実施形態の変形例>
前述の説明では、複数の参照データrが記憶装置12に事前に記憶された場合を例示したが、以下に例示される通り、収音装置16が収音した歌唱音声Vを参照音とした新規な参照データrを利用して各関連式Fmを更新することも可能である。
<Modification of First Embodiment>
In the above description, a case where a plurality of reference data r is stored in advance in the
利用者(歌唱音声Vの発声者や受聴者)は、楽曲の終了後に、入力装置14を適宜に操作することで歌唱音声Vの聴覚印象を指定する。例えば、M種類の聴覚印象の各々について印象指標Ymの複数の選択肢(複数段階の評価)が表示装置18に表示され、利用者は、聴覚印象毎に所望の1個の選択肢を指定する。
A user (speaker or listener of the singing voice V) designates an auditory impression of the singing voice V by appropriately operating the
図1に破線の矢印で図示される通り、関連式設定部40は、利用者が指定した各聴覚印象の印象指標ym(y1〜ym)と歌唱音声Vについて特徴抽出部22が抽出した各特徴指標xn(x1〜xN)とを含む参照データrを取得して記憶装置12に格納する。そして、関連式設定部40は、歌唱音声Vに応じた新規な参照データrを包含する参照データ群DRを利用して、第1実施形態と同様の方法で関連式Fm(F1〜FM)を設定および記憶する。すなわち、収音装置16が収音した歌唱音声Vの聴覚印象(印象指標ym)と音響特徴(特徴指標xn)との関係を反映した内容に既定の関連式Fm(F1〜FM)が更新される。以上の構成によれば、関連式F1〜FMを、実際の歌唱音声Vの聴覚印象と音響特徴との関係を反映した内容に更新できるという利点がある。なお、参照データ群DRを利用した関連式Fmの設定(更新)の時期は任意である。例えば、歌唱音声Vに応じた参照データrの取得毎に関連式Fmを更新する構成や、新規な参照データrが所定数だけ蓄積された場合に関連式Fmを更新する構成が採用され得る。また、以上に例示した変形例は、以降に例示する各実施形態にも同様に適用され得る。
1, the relational
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are the same as that of 1st Embodiment in each form illustrated below, the reference | standard referred by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.
図5は、第2実施形態の音響解析装置100Bの構成図である。図5に例示される通り、第2実施形態の音響解析装置100Bは、第1実施形態と同様の要素(特徴抽出部22,印象特定部24,提示処理部26,関連式設定部40)に情報生成部32を追加した構成である。情報生成部32は、印象特定部24が第1実施形態と同様に特定した聴覚印象(M個の印象指標Y1〜YM)に応じた提示データQAを生成する。すなわち、情報生成部32は、M個の印象指標Y1〜YMを提示データQAに変換する要素とも換言され得る。第2実施形態の提示処理部26は、情報生成部32が生成した提示データQAを利用者に提示する。具体的には、提示処理部26は、提示データQAの内容を表示装置18に表示させる。特徴抽出部22によるN個の特徴指標X1〜XNの抽出や関連式設定部40によるM個の関連式F1〜FMの設定は第1実施形態と同様である。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。
FIG. 5 is a configuration diagram of the
第2実施形態の情報生成部32は、印象特定部24が特定したM個の印象指標Y1〜YM(歌唱スタイル情報S)に応じた楽曲の関連データdAを提示データQAとして生成する。具体的には、情報生成部32は、M個の印象指標Y1〜YMに応じた楽曲を複数の候補から検索し、当該楽曲の関連データdAを取得する。関連データdAは、楽曲に関連する情報である。例えば、楽曲の識別情報(例えば楽曲番号)のほか楽曲名や歌手名やジャンル等の属性情報が関連データdAに包含される。
The
情報生成部32による楽曲の検索(関連データdAの生成)には、記憶装置12に記憶された検索用データWAが利用される。検索用データWAは、歌唱スタイル情報S(M個の印象指標Y1〜YM)と楽曲との関係を規定する。具体的には、第2実施形態の検索用データWAは、相異なる歌唱スタイルに対応する複数のクラスCL(CL1,CL2,……)の各々について楽曲の関連データdA(dA1,dA2,……)を指定する。
The search data WA stored in the
具体的には、任意の楽曲の歌唱音声Vから生成された多数の歌唱スタイル情報Sが複数のクラスCLに分類され、任意の1個のクラスCLに分類された各歌唱スタイル情報Sの歌唱音声Vにて例えば歌唱回数が最多である1個の楽曲の関連データdAが検索用データWAにて当該クラスCLに指定される。すなわち、任意の1種類の歌唱スタイルに対応するクラスCLについては、多数の歌唱者が当該歌唱スタイルで歌唱する傾向がある楽曲の関連データdAが指定される。歌唱スタイル情報Sの分類には公知の統計処理(クラスタリング)が任意に採用され、複数のクラスCLは、例えば、各クラスCLに属する歌唱スタイル情報Sの分布を近似する混合正規分布で表現される。 Specifically, a large number of singing style information S generated from the singing voice V of an arbitrary piece of music is classified into a plurality of classes CL, and the singing voice of each singing style information S classified into an arbitrary one class CL. In V, for example, the related data dA of one piece of music having the highest number of singing is designated as the class CL in the search data WA. That is, for the class CL corresponding to any one kind of singing style, the related data dA of the music that many singers tend to sing in the singing style is designated. For the classification of the singing style information S, known statistical processing (clustering) is arbitrarily adopted, and the plurality of classes CL are expressed by, for example, a mixed normal distribution that approximates the distribution of the singing style information S belonging to each class CL. .
情報生成部32は、検索用データWAに登録された複数のクラスCLのうち印象特定部24が生成した歌唱スタイル情報S(M個の印象指標Y1〜YM)が属する1個のクラスCLを特定し、検索用データWAにて当該クラスCLに指定された楽曲の関連データdAを提示データQAとして選択する。提示処理部26は、情報生成部32が生成した提示データQA(関連データdA)を表示装置18に表示させる。すなわち、楽曲の識別情報や属性情報が表示装置18に表示される。以上の説明から理解される通り、歌唱音声Vと同様の歌唱スタイルで多数の歌唱者が歌唱する傾向がある楽曲(すなわち、歌唱音声Vと同様の歌唱スタイルで歌唱し易い楽曲)が利用者に提示される。
The
また、第2実施形態の情報生成部32は、収音装置16が収音した歌唱音声Vを利用して検索用データWAを更新することが可能である。具体的には、情報生成部32は、任意の1個の楽曲の歌唱音声Vから生成された歌唱スタイル情報Sを当該楽曲の関連データdAとともに記憶装置12に順次に蓄積し、記憶装置12に蓄積された歌唱スタイル情報Sと関連データdAの関係が反映されるように例えば公知の機械学習により検索用データWAを更新する。以上の説明から理解される通り、第2実施形態では、楽曲自体の特性(曲調等)を基準に楽曲が検索されるのではなく、多数の歌唱者が過去に歌唱した歌唱スタイルを基準に楽曲が検索される。例えば、歌唱音声Vの聴覚印象が「情熱的で明るい歌唱」であれば、同様に「情熱的で明るい歌唱」の歌唱スタイルで多数の歌唱者が過去に歌唱した楽曲が検索される。
Further, the
ところで、利用者の要求に適合する楽曲を検索する技術は従来から提案されている。例えば特開2011−197345号公報には、利用者が指定したキーワードに対応する楽曲を検索して利用者に提示する技術が開示されている。しかし、以上の技術では、利用者が指定したキーワードに形式的に関連する楽曲が検索されるに過ぎない。第2実施形態では、印象特定部24が特定した歌唱音声Vの聴覚印象(歌唱スタイル)に応じた楽曲が利用者に提示されるから、歌唱音声Vを発声した利用者が自身の歌唱スタイルに適合する楽曲(自身の歌唱スタイルで歌唱し易い楽曲)を認識できるという利点がある。
By the way, a technique for searching for music that matches a user's request has been proposed. For example, Japanese Patent Application Laid-Open No. 2011-197345 discloses a technique of searching for music corresponding to a keyword designated by the user and presenting it to the user. However, the above technique only searches for music that is formally related to the keyword specified by the user. In the second embodiment, music corresponding to the auditory impression (singing style) of the singing voice V specified by the
<第2実施形態の変形例>
(1)以上の説明では、歌唱スタイル情報Sの複数のクラスCLの各々について検索用データWAが1個の楽曲を指定する構成を例示したが、任意の1個のクラスCLについて、当該クラスCLに分類された歌唱スタイルの各歌唱音声Vにて歌唱された複数の楽曲の関連データdAを指定することも可能である。情報生成部32は、印象特定部24が特定した歌唱スタイル情報Sが属する1個のクラスCLに指定された複数の楽曲の関連データdAを提示データQAとして生成する。すなわち、歌唱音声Vと同様の歌唱スタイルで歌唱される傾向がある複数の楽曲が利用者に提示される。
<Modification of Second Embodiment>
(1) In the above description, the configuration in which the search data WA specifies one piece of music for each of the plurality of classes CL of the singing style information S has been exemplified. However, for any one class CL, the class CL It is also possible to specify related data dA of a plurality of music pieces sung by each singing voice V of the singing style classified as “1”. The
(2)歌唱スタイル情報Sが属する1個のクラスCLに指定された複数の楽曲のうち1個の楽曲の関連データdAを選択的に提示することも可能である。1個のクラスCLに指定された複数の楽曲から1個の楽曲を選択する条件は任意であるが、例えば、当該クラスCLに分類された各歌唱音声Vでの歌唱回数が最多である楽曲を選択する構成や、当該クラスCLに指定された複数の楽曲のうち利用者からの指示(例えば利用者が指定した「90年代」等の選択条件や利用者の年齢等の属性情報)に応じた1個の楽曲を選択する構成が好適である。 (2) It is also possible to selectively present related data dA of one piece of music among a plurality of pieces of music designated in one class CL to which the singing style information S belongs. The condition for selecting one piece of music from a plurality of pieces designated for one class CL is arbitrary. For example, a piece of music having the largest number of times of singing with each singing voice V classified into the class CL is selected. According to the configuration to be selected and instructions from the user (for example, selection conditions such as “90s” specified by the user and attribute information such as the user's age) among the plurality of songs specified in the class CL A configuration in which one piece of music is selected is preferable.
(3)歌唱音声Vの歌唱スタイル情報Sと当該歌唱音声Vの楽曲との関係が反映されるように検索用データWAを随時に更新することも可能である。もっとも、聴覚印象が適切でない歌唱音声Vの歌唱スタイル情報Sが検索用データWAに反映されると、楽曲の適切な検索が阻害される可能性がある。そこで、検索用データWAに反映させる歌唱スタイル情報Sを選別する構成が好適である。例えば、歌唱音声Vの実際の聴覚印象の適否を利用者(発声者や受聴者)が入力装置14の操作で指定し、聴覚印象が適切と判定された歌唱音声Vについては歌唱スタイル情報Sと楽曲との関係が検索用データWAに反映され、聴覚印象が不適切と判定された歌唱音声Vの歌唱スタイル情報Sは検索用データWAに反映されない。以上の構成によれば、多数の歌唱者の歌唱スタイルを反映した検索用データWAを生成できるという利点がある。
(3) The search data WA can be updated at any time so that the relationship between the singing style information S of the singing voice V and the music of the singing voice V is reflected. However, if the singing style information S of the singing voice V whose hearing impression is not appropriate is reflected in the search data WA, an appropriate search for music may be hindered. Therefore, it is preferable to select the singing style information S to be reflected in the search data WA. For example, the user (speaker or listener) specifies whether or not the actual auditory impression of the singing voice V is appropriate by operating the
<第3実施形態>
図6は、第3実施形態の音響解析装置100Cの構成図である。図6に例示される通り、第3実施形態の音響解析装置100Cは、第2実施形態の音響解析装置100B(図5)と同様に、印象特定部24が特定したM個の印象指標Y1〜YMに応じた提示データQAを生成する情報生成部32を第1実施形態に追加した構成である。特徴抽出部22によるN個の特徴指標X1〜XNの抽出や関連式設定部40によるM個の関連式F1〜FMの設定は第1実施形態と同様である。したがって、第3実施形態においても第1実施形態と同様の効果が実現される。
<Third Embodiment>
FIG. 6 is a configuration diagram of an
第3実施形態の記憶装置12は、聴覚印象(M個の印象指標Y1〜YM)を表象する複数の画像データdBを記憶する。各画像データdBは、聴覚印象を比喩的ないし模式的に表象する画像(記号や文字を含む)を表現する。例えば、印象特定部24が特定した聴覚印象に適合したキャラクタ(動物等)や有名人等の画像が画像データdBとして好適である。第2実施形態の情報生成部32は、記憶装置12に記憶された複数の画像データdBのうち印象特定部24が特定した聴覚印象(M個の印象指標Y1〜YM)を表象する画像データdBを提示データQAとして選択する。情報生成部32による画像データdBの選択には、記憶装置12に記憶された変換用データWBが利用される。
The
変換用データWBは、M個の印象指標Y1〜YM(歌唱スタイル情報S)と画像データdBとの関係を規定する。具体的には、変換用データWBは、M個の印象指標Y1〜YMと画像データdBとの相関を規定する構造方程式を表現する。各構造方程式の設定には、第1実施形態で例示したM個の関連式F1〜FMの設定と同様に、例えば構造方程式モデリング(SEM)が好適に利用される。すなわち、例えば、M個の印象指標Y1〜YMと画像データdBとを相互に対応させた複数の学習データ(学習データ)と、M種類の聴覚印象と画像データdBとの対応関係を規定する関係性記述データとを利用した構造方程式モデリングで、M個の印象指標Y1〜YMと画像データdBとの関係を規定する構造方程式が事前に設定され、変換用データWBとして記憶装置12に格納される。例えば、長幼に関する印象指標Ymが子供っぽい歌唱を示す場合には子供っぽいキャラクタの画像を示す画像データdBが生成され、明暗に関する印象指標Ymが明るい歌唱を示す場合には明るい表情のキャラクタの画像を示す画像データdBが生成されるように、変換用データWBが設定および記憶される。
The conversion data WB defines the relationship between the M impression indexes Y1 to YM (singing style information S) and the image data dB. Specifically, the conversion data WB expresses a structural equation that defines the correlation between the M impression indexes Y1 to YM and the image data dB. For the setting of each structural equation, for example, structural equation modeling (SEM) is preferably used as in the setting of M related equations F1 to FM exemplified in the first embodiment. That is, for example, a plurality of learning data (learning data) in which M impression indices Y1 to YM and image data dB are associated with each other, and a relationship that defines a correspondence relationship between M types of auditory impressions and image data dB. In the structural equation modeling using the sex description data, the structural equation defining the relationship between the M impression indexes Y1 to YM and the image data dB is set in advance and stored in the
情報生成部32は、印象特定部24が特定したM個の印象指標Y1〜YMを変換用データWBの構造方程式に適用することで画像データdBを特定し、記憶装置12に記憶された当該画像データdBを提示データQAとして取得する。提示処理部26は、情報生成部32が生成した提示データQAを表示装置18に表示させる。以上の説明から理解される通り、歌唱音声Vの聴覚印象(歌唱スタイル)を比喩的または模式的に表象する画像が表示装置18に表示される。利用者は、表示装置18に表示された画像を視認することで、歌唱音声Vの聴覚印象を視覚的および直観的に把握することが可能である。
The
ところで、例えば特開2002−041063号公報には、楽曲名や歌唱回数や採点結果等の情報に応じたキャラクタの画像を表示する技術が開示されている。しかし、以上の技術では、歌唱音声の聴覚印象とは無関係な画像が表示されるに過ぎない。第3実施形態では、印象特定部24が特定した歌唱音声Vの聴覚印象に応じた画像(歌唱スタイルを表象する画像)が提示されるから、歌唱音声Vの聴覚印象を利用者が直観的に把握できるという利点や利用者に興趣性を提供できるという利点がある。
By the way, for example, Japanese Patent Application Laid-Open No. 2002-041063 discloses a technique for displaying an image of a character according to information such as a song name, the number of singings, and a scoring result. However, the above technique only displays an image unrelated to the auditory impression of the singing voice. In the third embodiment, an image (an image representing the singing style) corresponding to the auditory impression of the singing voice V specified by the
なお、単純に歌唱音声Vの特性に応じた画像データdBを選択するならば、歌唱音声Vの各特徴指標Xnと画像データdBとの間の直接的な関係を事前に決定し、特徴抽出部22が抽出した各特徴指標Xnに応じた画像データdBを選択する構成も想定され得る。しかし、各特徴指標Xnの具体的な数値が何れの聴覚印象に対応するのかを把握することは困難であるから、歌唱音声Vの聴覚印象を表象する画像データdBを特徴指標Xnに適切に対応させることは実際には困難である。第3実施形態では、聴覚印象(M個の印象指標Y1〜YM)と画像データdBとの関係が変換用データWBで規定されるから、各聴覚印象に相応しい画像データdBを変換用データWBにて各印象指標Ymに対応させることが可能である。また、関連式F1〜FMとは独立に、聴覚印象と画像データdBとの関係を変更できるという利点もある。 If the image data dB corresponding to the characteristics of the singing voice V is simply selected, a direct relationship between each feature index Xn of the singing voice V and the image data dB is determined in advance, and a feature extracting unit is selected. A configuration in which image data dB corresponding to each feature index Xn extracted by 22 can be assumed. However, since it is difficult to grasp which auditory impression corresponds to a specific numerical value of each feature index Xn, image data dB representing the auditory impression of the singing voice V is appropriately associated with the feature index Xn. It is actually difficult to do. In the third embodiment, since the relationship between the auditory impression (M impression indices Y1 to YM) and the image data dB is defined by the conversion data WB, the image data dB suitable for each auditory impression is used as the conversion data WB. It is possible to correspond to each impression index Ym. There is also an advantage that the relationship between the auditory impression and the image data dB can be changed independently of the relational expressions F1 to FM.
<第3実施形態の変形例>
(1)歌唱音声Vの聴覚印象に応じた複数の画像データdBを提示データQAとして生成することも可能である。具体的には、記憶装置12に記憶された複数の画像データdBが複数(K個)のグループ(カテゴリ)に分類され、相異なるグループから選択したK個の画像データdBを含む提示データQAを情報生成部32が生成する。図7に例示される通り、各グループは、特定の物品を構成する各要素に対応する。例えば、「トッピング」と「クリーム」と「ベース」とを要素として構成される「ケーキ」を想定すると(K=3)、「トッピング」の各画像を示す複数の画像データdBと、「クリーム」の各画像を示す複数の画像データdBと、「ベース」の各画像を示す複数の画像データdBとが記憶装置12に記憶される。
<Modification of Third Embodiment>
(1) It is also possible to generate a plurality of image data dB corresponding to the auditory impression of the singing voice V as the presentation data QA. Specifically, a plurality of image data dB stored in the
特徴抽出部22によるN個の特徴指標X1〜XNの抽出と印象特定部24によるM個の印象指標Y1〜YMの特定とが、歌唱音声Vを時間軸上で区分したK個の単位区間の各々について順次に実行される。歌唱音声Vを複数の単位区間に区分する方法は任意であるが、例えば図7に例示される通り、楽曲の音楽的な意味に応じて歌唱音声Vを複数の単位区間(A〜Cメロ,サビ1,サビ2)に区分することが可能である。K個の単位区間の各々は画像データdBの1個のグループに対応する。情報生成部32は、歌唱音声VのK個の単位区間の各々について、当該単位区間に対応するグループの複数の画像データdBのうち当該単位区間のM個の印象指標Y1〜YMに応じた1個の画像データdBを選択する。すなわち、歌唱音声Vの単位区間毎に1個の画像データdBが選択され、最終的には、相異なる単位区間に対応するK個の画像データdBを含む提示データQAが生成される。具体的には、歌唱音声Vのうち「A〜Cメロ」の単位区間から特定されたM個の印象指標Y1〜YMに応じて「トッピング」のグループから1個の画像データdB(図7の例示では「イチゴ」の画像)が選択され、「サビ1」の単位区間のM個の印象指標Y1〜YMに応じて「クリーム」のグループから1個の画像データdB(図7の例示では「ホイップクリーム」の画像)が選択され、「サビ2」の単位区間のM個の印象指標Y1〜YMに応じて「ベース」のグループから1個の画像データdB(図7の例示では「円盤状のスポンジ」の画像)が選択される。
The extraction of the N feature indexes X1 to XN by the
提示処理部26は、楽曲の歌唱の終了後に、提示データQAに包含されるK個の画像データdBを組合せた画像を表示装置18に表示させる。具体的には、図7に例示される通り、「トッピング」の画像データdBと「クリーム」の画像データdBと「ベース」の画像データdBとを組合せた「ケーキ」の画像が表示装置18に表示される。各単位区間の画像データdBは当該単位区間の聴覚印象に応じて選択されるから、提示データQAに応じて表示される物品の画像の内容(物品を構成する各要素の態様)は各単位区間の聴覚印象に応じて変化する。したがって、利用者に提示される画像が多様化されて興趣性を提供することが可能である。なお、複数の画像データdBの組合せで表示される画像の内容は以上の例示(ケーキ)に限定されない。例えば、利用者を表象するアバター等のキャラクタを表示する構成では、キャラクタを構成する各要素(例えば衣服または髪型等の各要素や、顔を構成する目や口等の各要素)の画像を示す画像データdBが歌唱音声Vの単位区間毎に選択される。
The
なお、以上の例示では、歌唱音声Vを時間軸上で区分した単位区間毎に画像データdBを選択したが、単位区間以外の要素毎に画像データdBを選択することも可能である。例えば、情報生成部32が、M種類の聴覚印象の各々について(すなわち聴覚印象毎に)当該聴覚印象の印象指標Ymに応じた画像データdBを選択する構成も採用され得る。
In the above example, the image data dB is selected for each unit section obtained by dividing the singing voice V on the time axis. However, it is also possible to select the image data dB for each element other than the unit section. For example, a configuration in which the
(2)事前に用意された複数の画像データdBを複数のグループ(カテゴリ)に分類し、複数のグループのうち所定の条件で選択された1個のグループからM個の印象指標Y1〜YMに応じた画像データdBを情報生成部32が提示データQAとして選択することも可能である。1個のグループを選択する条件は任意であるが、例えば、複数のグループのうち利用者が入力装置14に対する操作で指定したグループから画像データdBを選択する構成や、複数のグループのうち利用者の属性情報(例えば年齢や性別等)に応じて選択したグループから画像データdBを選択する構成が好適である。また、複数の利用者の属性情報に応じて画像データdBのグループを選択することも可能である。
(2) A plurality of image data dB prepared in advance is classified into a plurality of groups (categories), and M impression indexes Y1 to YM are selected from one group selected under a predetermined condition among the plurality of groups. The corresponding image data dB can be selected by the
(3)以上の説明では、各印象指標Ymと画像データdBとの相関を規定する構造方程式を表現する変換用データWBを例示したが、各印象指標Ymと画像データdBとを相互に対応させたデータテーブルを変換用データWBとして利用することも可能である。 (3) In the above description, the conversion data WB that represents the structural equation that defines the correlation between each impression index Ym and the image data dB has been exemplified. However, the impression index Ym and the image data dB are associated with each other. It is also possible to use the data table as the conversion data WB.
<第4実施形態>
図8は、第4実施形態の音響解析装置100Dの構成図である。図8に例示される通り、第4実施形態の音響解析装置100Dは、第2実施形態の音響解析装置100B(図5)と同様に、M個の印象指標Y1〜YMに応じた提示データQAを生成する情報生成部32を第1実施形態に追加した構成である。特徴抽出部22によるN個の特徴指標X1〜XNの抽出や関連式設定部40によるM個の関連式F1〜FMの設定は第1実施形態と同様である。したがって、第4実施形態においても第1実施形態と同様の効果が実現される。
<Fourth embodiment>
FIG. 8 is a configuration diagram of an
第4実施形態では、歌唱音声Vの聴覚印象の履歴を示す履歴データHが利用者毎に記憶装置12に記憶される。図8に例示される通り、履歴データHは、利用者情報hAと印象履歴hBとを含んで構成される。利用者情報hAは、歌唱音声Vを発声した利用者の識別情報や属性情報(例えば年齢や性別)を包含する。印象履歴hBは、利用者の歌唱音声Vから印象特定部24が過去に特定した各印象指標Ymの時系列である。歌唱音声VのM個の印象指標Y1〜YM(歌唱スタイル情報S)を特定すると、印象特定部24は、当該歌唱音声Vを発声した利用者の履歴データHの印象履歴hBに当該印象指標Y1〜YMを追加する。以上の説明から理解される通り、履歴データHは、各利用者の歌唱スタイルの時間的な遷移を表現する時系列データとも換言され得る。
In 4th Embodiment, the log | history data H which shows the log | history of the hearing impression of the singing voice V are memorize | stored in the memory |
第4実施形態の記憶装置12は、利用者の性状を表現する複数の性状データdCを記憶する。具体的には、性状データdCは、利用者の性状を意味する文字列を表現する。利用者の性状とは、利用者の性質(気質,性格)や状態(例えば精神的または肉体的な状況)である。例えば、公知の性格分類(例えばクレッチマー気質分類,ユング分類,エニアグラム分類)で規定される複数の性格が性状データdCで表現される。
The
第4実施形態の情報生成部32は、利用者の歌唱音声Vについて印象特定部24が過去に特定した聴覚印象に応じて当該利用者の性状を推定する。具体的には、情報生成部32は、記憶装置12に記憶された複数の性状データdCのうち利用者の履歴データHが示す聴覚印象の履歴に応じた性状データdCを提示データQAとして選択する。情報生成部32による性状データdCの選択(利用者の性状の推定)には、記憶装置12に記憶された変換用データWCが利用される。
The
変換用データWCは、印象履歴hB(聴覚印象の時系列)と性状データdCとの関係を規定する。具体的には、第4実施形態の変換用データWCは、印象履歴hB(hB1,hB2,……)と性状データdC(dC1,dC2,……)とを相互に対応させたデータテーブルである。例えば、図9に例示される通り、明暗に関する印象指標Ymの時系列において明暗(明るい/暗い)が交互に現れる印象履歴hBには、クレッチマー気質分類における「循環型気質」の性状データdCが対応する。また、図10に例示される通り、活動性(強勢な/静穏な)に関する印象指標Ymの時系列において強勢な(激しい)音声から静穏な音声に変化する印象履歴hBには「今日はお疲れですか」等の状態を示す性状データdCが対応する。 The conversion data WC defines the relationship between the impression history hB (auditory impression time series) and the property data dC. Specifically, the conversion data WC of the fourth embodiment is a data table in which impression history hB (hB1, hB2,...) And property data dC (dC1, dC2,...) Are associated with each other. . For example, as illustrated in FIG. 9, the characteristic data dC of “circular temperament” in the Kretschmer temperament classification corresponds to the impression history hB in which light and dark (bright / dark) appear alternately in the time series of the impression index Ym related to light and dark. To do. In addition, as illustrated in FIG. 10, the impression history hB that changes from a strong (severe) voice to a quiet voice in the time series of the impression index Ym related to activity (strong / quiet) is “I am tired today. Corresponding to property data dC indicating a state such as “?”.
利用者は、入力装置14に対する操作で自身の識別情報を指定したうえで楽曲を歌唱する。情報生成部32は、記憶装置12に記憶された複数の性状データdCのうち、識別情報で特定される利用者の履歴データHの印象履歴hBに変換用データWCにて対応づけられた性状データdCを提示データQAとして特定する。提示処理部26は、情報生成部32が生成した提示データQAを表示装置18に表示させる。以上の説明から理解される通り、第4実施形態では、歌唱音声Vの聴覚印象を参照して利用者の性状を推定した結果(性状データdC)が表示装置18に表示される。利用者は、表示装置18に表示された画像を視認することで、自身の性状の推定結果を確認することが可能である。第4実施形態では特に、歌唱音声Vの各印象指標Ymの時系列(印象履歴hB)を利用して発声者の性状が推定されるから、歌唱音声Vの聴覚印象の時間変化を加味した適切な性状を推定できるという利点がある。
The user sings the music after designating his / her identification information through an operation on the
なお、特許文献1や特許文献2の技術では、模範的な歌唱音声と評価対象の歌唱音声との特徴量の相違のみに着目した歌唱の客観的な巧拙が評価されるに過ぎない。第4実施形態によれば、歌唱音声Vの聴覚印象に応じて利用者の性状が推定および提示されるから、演出的な効果や興趣性を利用者に付与することが可能である。また、第4実施形態にて歌唱音声Vから利用者の性状を推定した結果を、利用者の精神的/肉体的な状態の管理等(例えば心理カウンセリング,健康管理,セラピー,自己啓発)に利用することも可能である。また、表示装置18に提示される自分の性状が目標に近付くように歌唱スタイルを調整することで、所望の印象を他者に付与できるような歌唱スタイルを習得することも可能である。
In addition, in the technique of
<第4実施形態の変形例>
(1)事前に用意された複数の性状データdCを複数のグループ(カテゴリ)に分類し、複数のグループのうち所定の条件で選択された1個のグループから履歴データH(印象履歴hB)に応じた性状データdCを情報生成部32が特定することも可能である。1個のグループを選択する条件は任意であるが、例えば、複数のグループのうち利用者が入力装置14に対する操作で指定したグループから性状データdCを選択する構成や、複数のグループのうち利用者の属性情報(例えば年齢や性別等)に応じて選択したグループから性状データdCを選択する構成が好適である。また、複数の利用者の属性情報に応じて性状データdCのグループを選択することも可能である。
<Modification of Fourth Embodiment>
(1) A plurality of property data dC prepared in advance is classified into a plurality of groups (categories), and history data H (impression history hB) is selected from one group selected under a predetermined condition among the plurality of groups. It is also possible for the
(2)履歴データHの印象履歴hBの内容は以上の例示(印象指標Ymの時系列)に限定されない。例えば、印象指標Ymの数値毎の頻度や変動率(単位時間内の変化量)を印象履歴hBとして利用することも可能である。また、楽曲のうち特定の区間(例えばサビ)の印象指標Ymの時系列を印象履歴hBとして履歴データHを生成する構成や、特定の期間毎(例えば1日毎,1週毎,1月毎)に履歴データHを生成する構成も採用され得る。また、楽曲の曲調に応じて歌唱の仕方が相違し得ることを考慮すると、楽曲毎(または楽曲のジャンル毎)に履歴データHを生成する構成も好適である。 (2) The content of the impression history hB of the history data H is not limited to the above example (time series of impression index Ym). For example, it is also possible to use the frequency and variation rate (change amount within unit time) for each numerical value of the impression index Ym as the impression history hB. In addition, the history data H is generated by using the time series of the impression index Ym of a specific section (for example, rust) in the music as the impression history hB, or for each specific period (for example, every day, every week, every month). Alternatively, a configuration for generating the history data H may be employed. Further, considering that the way of singing may differ depending on the tune of the music, a configuration in which the history data H is generated for each music (or for each genre of music) is also suitable.
(3)以上の説明では、利用者の性状を意味する文字列を示す性状データdCを例示したが、利用者の性状を表象する画像(例えば似顔絵やキャラクタ)の画像データを性状データdCとして利用することも可能である。また、性状データdCが共通する利用者や有名人を提示する構成や、性状データdCが示す性状とは反対の性状を利用者に提案する構成も採用され得る。 (3) In the above description, the property data dC indicating the character string indicating the user's property is illustrated, but image data of an image (for example, a portrait or character) representing the user's property is used as the property data dC. It is also possible to do. In addition, a configuration in which a user or a celebrity who shares the property data dC is presented, or a configuration in which a property opposite to the property indicated by the property data dC is proposed to the user may be employed.
<第5実施形態>
図11は、第5実施形態の音響解析装置100Eの構成図である。図11に例示される通り、第5実施形態の音響解析装置100Eは、第1実施形態と同様の要素(特徴抽出部22,印象特定部24,提示処理部26,関連式設定部40)に目標設定部42と解析処理部44とを追加した構成である。特徴抽出部22によるN個の特徴指標X1〜XNの抽出と、印象特定部24によるM個の印象指標Y1〜YMの特定と、関連式設定部40によるM個の関連式F1〜FMの設定とは第1実施形態と同様である。したがって、第5実施形態においても第1実施形態と同様の効果が実現される。
<Fifth Embodiment>
FIG. 11 is a configuration diagram of an
図11の目標設定部42は、M個の印象指標Y1〜YMの各々について目標値Am(A1〜AM)を設定する。具体的には、目標設定部42は、入力装置14に対する利用者からの指示に応じて各目標値Amを可変に設定する。
The
例えば第5実施形態の提示処理部26は、各印象指標Ymの目標値Amの指示を受付ける図12の操作画面80を表示装置18に表示させる。操作画面80は、M個の印象指標Y1〜YM(図12の例示ではM=3)の各々に対応する操作子画像82を包含する。各操作子画像82は、入力装置14に対する利用者からの指示に応じて移動するスライダ型の操作子の画像であり、利用者による目標値Amの指示を受付ける。目標設定部42は、各操作子画像82の位置に応じて各印象指標Ymの目標値Amを設定する。なお、操作画面80の複数の操作子画像82は各々が個別に移動され得るが、各操作子画像82を相互に連動して移動させることも可能である。
For example, the
図11の解析処理部44は、印象特定部24が歌唱音声Vについて特定した各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を特定する。第5実施形態の解析処理部44は、各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴と当該変化の方向(増加/減少)とを指定する解析データQBを生成する。提示処理部26は、解析処理部44が生成した解析データQBの内容(変化対象の音響特徴と変化方向)を表示装置18に表示させる。したがって、利用者は、自身の歌唱を目標の聴覚印象に近付けるための改善点を把握することが可能である。以上の説明から理解される通り、解析データQBの提示は、目標の聴覚印象を実現するための歌唱指導に相当する。
The
第5実施形態の解析処理部44は、印象指標Ymと目標値Amとの差分の絶対値|Ym−Am|をM個の聴覚印象について合計した数値(以下「合計差分」という)δを最小化するために変化させるべき音響特徴をN種類の音響特徴から特定する。具体的には、解析処理部44は、N種類のうち任意の1種類の音響特徴の特徴指標Xnを所定の変化量pだけ変化させたと仮定した場合の合計差分δを、変化対象の音響特徴を相違させた複数の場合について算定したうえで相互に比較し、合計差分δが最小となる場合の変化対象の音響特徴と当該変化の方向(増加/現象)とを指定する解析データQBを生成する。
The
任意の1個の特徴指標Xnを変化量pだけ変化させた場合の合計差分δは、以下の数式(A)で表現される。
例えば、長幼の印象指標Y1および清濁の印象指標Y2と、ビブラートの深度を示す特徴指標X1および音高の正確性を示す特徴指標X2とに着目し(M=N=2)、関連式F1および関連式F2を以下のように仮定する(a11=0.7,a21=0.3,a12=−0.4,a22=0.7)。
いま、印象指標Y1が5であるのに対して目標値A1が4であり、印象指標Y2が4であるのに対して目標値A2が6である場合を想定する((Y1,Y2)=(5,4),(A1,A2)=(4,6))。すなわち、評価済の歌唱音声Vと比較して「子供っぽく清らかな歌唱」(Y1:5→4,Y2:4→6)を実現するために変化させるべき特徴指標Xnを探索する。 Assume that the target value A1 is 4 for the impression index Y1 being 5 and the target value A2 is 6 for the impression index Y2 being 4 ((Y1, Y2) = (5,4), (A1, A2) = (4,6)). That is, the feature index Xn to be changed is searched in order to realize “child-like and clean singing” (Y1: 5 → 4, Y2: 4 → 6) as compared with the evaluated singing voice V.
[1]p=1(特徴指標Xnの増加を仮定)
・条件1a:特徴指標X1の変化を仮定(ビブラートの深度を増加させる場合)
δ=|A1−Y1−p・a11|+|A2−Y2−p・a12|
=|4−5−1・0.7|+|6−4−1・(−0.4)|
=1.7+2.4=4.1
・条件1b:特徴指標X2の変化を仮定(音高の正確性を増加させる場合)
δ=|A1−Y1−p・a21|+|A2−Y2−p・a22|
=|4−5−1・0.3|+|6−4−1・0.7|
=1.3+1.3=2.6
[2]p=−1(特徴指標Xnの減少を仮定)
・条件2a:特徴指標X1の変化を仮定(ビブラートの深度を減少させる場合)
δ=|A1−Y1−p・a11|+|A2−Y2−p・a12|
=|4−5−(−1)・0.7|+|6−4−(−1)・(−0.4)|
=0.3+1.6=1.9
・条件2b:特徴指標X2の変化を仮定(音高の正確性を減少させる場合)
δ=|A1−Y1−p・a21|+|A2−Y2−p・a22|
=|4−5−(−1)・0.3|+|6−4−(−1)・0.7|
=0.7+2.7=3.4
[1] p = 1 (assuming an increase in the feature index Xn)
・ Condition 1a: Assuming a change in the characteristic index X1 (when increasing the vibrato depth)
δ = | A1-Y1-p.a11 | + | A2-Y2-p.a12 |
= | 4-5-1 · 0.7 | + | 6-4-1 · (−0.4) |
= 1.7 + 2.4 = 4.1
・ Condition 1b: Assuming a change in the characteristic index X2 (when increasing pitch accuracy)
δ = | A1-Y1-p.a21 | + | A2-Y2-p.a22 |
= | 4-5-1 · 0.3 | + | 6-4-1 · 0.7 |
= 1.3 + 1.3 = 2.6
[2] p = −1 (assuming a decrease in the feature index Xn)
・ Condition 2a: Assuming a change in the feature index X1 (when reducing the vibrato depth)
δ = | A1-Y1-p.a11 | + | A2-Y2-p.a12 |
= | 4-5-(-1) · 0.7 | + | 6-4-(-1) · (−0.4) |
= 0.3 + 1.6 = 1.9
・ Condition 2b: Assuming a change in the characteristic index X2 (when reducing pitch accuracy)
δ = | A1-Y1-p.a21 | + | A2-Y2-p.a22 |
= | 4-5-(-1) .0.3 | + | 6-4-(-1) .0.7 |
= 0.7 + 2.7 = 3.4
以上の通り、特徴指標X1を減少させる条件2aのもとで合計差分δは最小値(δ=1.9)となる。したがって、解析処理部44は、歌唱音声Vを目標(A1,A2)に近付けるための条件として「ビブラートの深度の減少」(音響特徴=ビブラートの深度,変化方向=減少)を指定する解析データQBを生成する。以上の説明から理解される通り、目標値Amと相違する印象指標Ymの関連式Fmにおいて係数anmが大きい特徴指標Xn(すなわち印象指標Ymに対する影響が相対的に大きい特徴指標Xn)が、当該印象指標Ymを目標値Amに近付けるために変化させるべき特徴指標Xnとして優先的に選択される。解析処理部44による解析の結果(解析データQB)を表示装置18で確認した利用者は、自身が目指す「子供っぽく清らかな歌唱」を実現するには「ビブラートの深度を減少させる」という方策が最善であると把握できる。
As described above, the total difference δ becomes the minimum value (δ = 1.9) under the condition 2a for reducing the feature index X1. Therefore, the
ところで、例えば特開2008−20798号公報には、模範的な歌唱を示す基準値と評価対象の歌唱音声の特徴量との差異を順次に評価し、「発音は明瞭に」「はっきりと」等の歌唱指導のコメントを評価の結果に応じて表示する技術が開示されている。しかし、以上の技術では、模範的な歌唱に近付くための改善点が利用者に提示されるに過ぎない。すなわち、歌唱指導のコメントに適合するように歌唱しても模範的な歌唱に近付くだけであり、特定の聴覚印象を受聴者に感取させ得る歌唱に近付けることはできない。第5実施形態によれば、前述の例示からも把握される通り、歌唱音声Vを目標の聴覚印象に近付けるための最適な改善点(音響特徴)を利用者が把握できるという利点がある。また、目標に近付くように利用者が自身の歌唱を改善することで、自己実現や健康維持(心理療法やフィットネス)の手法としての応用も期待できる。 By the way, for example, in Japanese Patent Application Laid-Open No. 2008-20798, a difference between a reference value indicating an exemplary singing and a feature amount of a singing voice to be evaluated is sequentially evaluated, and “sounding is clear”, “clearly”, The technique of displaying the comment of singing instruction according to the result of evaluation is disclosed. However, the above technique only presents the user with improvements for approaching an exemplary song. That is, even if it sings so as to match the comment of the singing instruction, it only approaches an exemplary singing, and cannot approach a singing that can make the listener feel a specific auditory impression. According to the fifth embodiment, as can be understood from the above-described examples, there is an advantage that the user can grasp the optimum improvement point (acoustic feature) for bringing the singing voice V close to the target auditory impression. In addition, by improving the user's singing so as to approach the goal, application as a method of self-realization and health maintenance (psychotherapy and fitness) can also be expected.
<第6実施形態>
図13は、第6実施形態の音響解析装置100Fの構成図である。図13に例示される通り、第6実施形態の音響解析装置100Fは、第5実施形態と同様の要素(特徴抽出部22,印象特定部24,提示処理部26,関連式設定部40,目標設定部42,解析処理部44)に音響処理部46を追加した構成である。特徴抽出部22によるN個の特徴指標X1〜XNの抽出と、印象特定部24によるM個の印象指標Y1〜YMの特定と、関連式設定部40によるM個の関連式F1〜FMの設定とは第1実施形態と同様である。したがって、第6実施形態においても第1実施形態と同様の効果が実現される。
<Sixth Embodiment>
FIG. 13 is a configuration diagram of an
第6実施形態の目標設定部42は、第5実施形態と同様に、例えば利用者からの指示に応じて各印象指標Ymの目標値Amを設定する。解析処理部44は、印象特定部24が歌唱音声Vについて特定した各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を指定する解析データQBを第5実施形態と同様の方法で生成する。
Similar to the fifth embodiment, the
図13の音響処理部46は、解析処理部44が特定した音響特徴を変化させる音響処理を歌唱音声Vに対して実行する。具体的には、音響処理部46は、解析処理部44が生成した解析データQBで指定される音響特徴が、当該解析データQBで指定される方向に変化(増加/減少)するように、収音装置16が収音した歌唱音声Vに対して音響処理を実行する。すなわち、歌唱音声VのN個の特徴指標X1〜XNのうち、目標値Amと相違する印象指標Ymの関連式Fmにおいて係数(印象指標Ymに対する寄与度)anmが大きい特徴指標Xn(すなわち印象指標Ymを効率的に目標値Amに近付けることが可能な特徴指標Xn)が、音響処理部46による音響処理で優先的に変更される。
The
歌唱音声Vに対して実行される具体的な音響処理には、変更対象の音響特徴の種類に応じた公知の音響処理技術が任意に採用される。例えば、清濁に関する印象指標Ymを目標値Amに近付けるための特徴指標Xnが「ノイズ感」である場合、音響処理部46は、歌唱音声Vに雑音成分を付与する音響処理(雑音付与処理)を実行する。また、例えば、前述の第5実施形態の例示のように「ビブラートの深度の減少」を解析データQBが指定する場合、音響処理部46は、歌唱音声Vにおける音高の微小な変動を抑制する音響処理を歌唱音声Vに対して実行する。音響処理部46による処理後の歌唱音声Vは例えば放音装置17(スピーカやヘッドホン)から再生される。なお、歌唱音声Vの再生に代えて(または再生とともに)、音響処理部46による処理後の歌唱音声Vのファイルを生成することも可能である。
For specific acoustic processing executed on the singing voice V, a known acoustic processing technique corresponding to the type of acoustic feature to be changed is arbitrarily employed. For example, when the characteristic index Xn for bringing the impression index Ym related to clearness to the target value Am is “sense of noise”, the
以上の説明から理解される通り、第5実施形態によれば、歌唱音声Vの聴覚印象を所望の印象(目標値Amに応じた聴覚印象)に調整することが可能である。第5実施形態の例示では特に、利用者からの指示に応じて各目標値Amが可変に設定されるから、利用者の所望の聴覚印象の歌唱音声Vを生成できるという利点がある。 As understood from the above description, according to the fifth embodiment, it is possible to adjust the auditory impression of the singing voice V to a desired impression (auditory impression according to the target value Am). Particularly in the illustration of the fifth embodiment, since each target value Am is variably set in accordance with an instruction from the user, there is an advantage that the singing voice V having a desired auditory impression can be generated.
なお、解析データQBが指定する特徴指標Xn(以下では便宜的に「優先指標」という)を歌唱音声Vにて充分に(すなわち印象指標Ymが目標値Amに充分に近似する程度に)変動させることができない場合がある。例えば、解析データQBが「ビブラートの深度の増加」を指定しても、ビブラートが付加され得る程度の時間長にわたり音高が維持される区間を歌唱音声Vが包含しない場合には、優先指標である「ビブラートの深度」の増加により印象指標Ymを目標値Amに充分に近付けることはできない。以上の場合、音響処理部46は、歌唱音声VのN個の特徴指標X1〜XNのうち各印象指標YMを目標値Amに近付けるために有効な順番(合計差分δの昇順)で優先指標の次位に位置する特徴指標Xnが変化するように歌唱音声Vに対する音響処理を実行する。以上の構成によれば、歌唱音声Vの特性に関わらず各印象指標Ymを有効に目標値Amに近付けることが可能である。
The characteristic index Xn specified by the analysis data QB (hereinafter referred to as “priority index” for convenience) is sufficiently varied in the singing voice V (that is, the impression index Ym sufficiently approximates the target value Am). It may not be possible. For example, even if the analysis data QB specifies “increase in the depth of vibrato”, if the singing voice V does not include a section in which the pitch is maintained over a length of time that vibrato can be added, the priority index is The impression index Ym cannot be made sufficiently close to the target value Am by increasing a certain “depth of vibrato”. In the above case, the
ところで、例えば特開2011−095397号公報には、音声合成に適用される複数種の制御変数を利用者からの指示に応じて設定する構成が開示されている。しかし、以上の技術では、複数種の制御変数のうちの何れを如何に調整すれば所望の聴覚印象の音声が実現されるのかを、利用者が明確に把握することが困難であるという問題がある。第6実施形態では、各聴覚印象の目標値Amが利用者からの指示に応じて設定されるから、例えば音声合成の制御変数に関する専門的な知識がない利用者でも所望の聴覚印象の歌唱音声Vを有効に生成できる(利用者による指示が容易化される)という利点がある。 Incidentally, for example, Japanese Patent Application Laid-Open No. 2011-09597 discloses a configuration in which a plurality of types of control variables applied to speech synthesis are set according to instructions from a user. However, with the above technique, there is a problem that it is difficult for the user to clearly understand which of the multiple types of control variables should be adjusted to achieve a desired audio impression. is there. In the sixth embodiment, the target value Am of each auditory impression is set in accordance with an instruction from the user. For example, even a user who does not have specialized knowledge about the speech synthesis control variable has a desired auditory impression singing voice. There is an advantage that V can be generated effectively (instruction by the user is facilitated).
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は適宜に併合され得る。
<Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples may be appropriately combined.
(1)前述の各形態では、楽曲の全区間にわたる歌唱音声Vを対象として聴覚印象を特定したが、歌唱音声Vを時間軸上で区分した複数の区間の各々について聴覚印象(M個の印象指標Y1〜YM)を順次に特定することも可能である。歌唱音声Vの区間毎に聴覚印象を順次に特定する場合、第2実施形態から第4実施形態で例示した提示データQAや第5実施形態および第6実施形態で例示した解析データQBを、歌唱音声Vの各区間の聴覚印象に応じて区間毎に順次に(実時間的に)更新する構成も採用され得る。 (1) In each of the above-described forms, the auditory impression is specified for the singing voice V over the entire section of the music, but the auditory impression (M impressions) for each of a plurality of sections obtained by dividing the singing voice V on the time axis. It is also possible to specify the indices Y1 to YM) sequentially. When the auditory impression is sequentially specified for each section of the singing voice V, the presentation data QA exemplified in the second to fourth embodiments and the analysis data QB exemplified in the fifth and sixth embodiments are sung. A configuration may also be adopted in which updating is performed sequentially (in real time) for each section according to the auditory impression of each section of the voice V.
(2)前述の各形態では、収音装置16が収音した歌唱音声Vを解析する要素(特徴抽出部22,印象特定部24,提示処理部26,情報生成部32,目標設定部42,解析処理部44,音響処理部46)と、各関連式Fmを設定する関連式設定部40との双方を具備する音響解析装置100(100A,100B,100C,100D,100E,100F,100G)を例示したが、関連式設定部40を他の要素とは別体の装置に搭載することも可能である。
(2) In each embodiment described above, elements for analyzing the singing voice V picked up by the sound pickup device 16 (
例えば図14に例示される通り、通信網200(例えばインターネット)を介して相互に通信する音響解析装置110と音響解析装置120とに、前述の各形態で例示した機能を分担させることも可能である。音響解析装置(関連式設定装置)110は、参照データ群DRと関係性記述データDCとを利用して第1実施形態と同様の方法でM個の関連式F1〜FMを設定する関連式設定部40を具備する。例えば通信網200に接続されたサーバ装置で音響解析装置110は実現される。図14に例示される通り、音響解析装置110(関連式設定部40)が設定したM個の関連式F1〜FMは、通信網200を介して音響解析装置120に転送される。音響解析装置110から複数の音響解析装置120にM個の関連式F1〜FMを共通に転送することも可能である。音響解析装置120は、特徴抽出部22と印象特定部24とを含んで構成され、音響解析装置110から転送されたM個の関連式F1〜FMを利用して第1実施形態と同様に歌唱音声Vを解析することで歌唱音声Vの聴覚印象(M個の印象指標Y1〜YM)を特定する。音響解析装置120には、第2実施形態から第4実施形態と同様の情報生成部32や、第5実施形態および第6実施形態と同様の目標設定部42および解析処理部44が設置され得る。図14の構成では、参照データ群DRおよび関係性記述データDCの保持や各関連式Fmの設定を音響解析装置120に実行させる必要がないから、音響解析装置120の構成および処理が簡素化されるという利点がある。
For example, as illustrated in FIG. 14, the
(3)第2実施形態から第4実施形態において、各種の機器を制御するための制御データを提示データQAとして歌唱音声Vの聴覚印象に応じて設定することも可能である。制御データは、例えば楽曲の歌唱中に表示装置18に表示される画像(背景画像)の制御や、再生機器(カラオケ装置)が再生する伴奏音の再生、照明機器等の演出効果の制御に適用される。カラオケ店等の店舗内で注文可能な飲食物を提示データQAに応じて変更することも可能である。また、歌唱音声Vの聴覚印象(M個の印象指標Y1〜YM)を歌唱評価(採点)に応用することも可能である。例えば、歌唱評価に適用される変数を提示データQAに応じて調整する構成や、楽曲毎に事前に登録された印象と歌唱音声Vの聴覚印象との類似度(異同)を評価結果に反映させる構成(例えば両者が類似するほど加点を増加させる構成)が好適に採用される。
(3) In the second to fourth embodiments, the control data for controlling various devices can be set as the presentation data QA according to the auditory impression of the singing voice V. The control data is applied to, for example, control of an image (background image) displayed on the
(4)第5実施形態および第6実施形態では、利用者からの指示に応じて各目標値Amを設定したが、目標値Amの設定の方法は以上の例示に限定されない。例えば、楽曲毎に目標値Am(A1〜AM)を事前に選定し、利用者が実際に歌唱する楽曲の目標値Amを目標設定部42が選択する構成も採用され得る。また、利用者が歌唱する楽曲の属性(主旋律,ジャンル,歌手等)に応じて目標設定部42が各目標値Amを可変に設定することも可能である。
(4) In the fifth embodiment and the sixth embodiment, each target value Am is set according to an instruction from the user, but the method of setting the target value Am is not limited to the above examples. For example, a configuration in which the target value Am (A1 to AM) is selected in advance for each piece of music and the
(5)前述の各形態では、利用者が楽曲を歌唱した歌唱音声Vを例示したが、解析対象は歌唱音声Vに限定されない。例えば、会話音等の音声や楽器の演奏音(楽音)、音声合成技術で生成された合成音声(歌唱音声や会話音)について各関連式Fmを利用した解析で聴覚印象(M個の印象指標Y1〜YM)を特定することも可能である。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声(例えば会議での会話音)や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響(解析対象音)の具体的な内容(種類)や発音の原理等は任意である。 (5) In each form mentioned above, although the singing voice V which the user sang the music was illustrated, the analysis object is not limited to the singing voice V. For example, auditory impressions (M impression indicators) are analyzed by using each related expression Fm for voices such as conversation sounds, musical instrument performance sounds (musical sounds), and synthesized voices generated by voice synthesis technology (singing voices and conversational sounds). It is also possible to specify Y1-YM). Moreover, it is emitted from any sound system including sound played back at each point under a remote conference system that sends and receives sound between remote locations (for example, conversation sound at a conference) and sound emitting devices such as speakers. The auditory impression can be specified for the sound to be heard. As understood from the above description, the specific content (type) of the sound (analysis target sound) to be analyzed in the present invention, the principle of pronunciation, and the like are arbitrary.
100(100A,100B,100C,100D,100E,100F,100G),110,120……音響解析装置、10……演算処理装置、12……記憶装置、14……入力装置、16……収音装置、18……表示装置、22……特徴抽出部、24……印象特定部、26……提示処理部、32……情報生成部、40……関連式設定部、42……目標設定部、44……解析処理部、46……音響処理部。
100 (100A, 100B, 100C, 100D, 100E, 100F, 100G), 110, 120 ... acoustic analysis device, 10 ... arithmetic processing device, 12 ... storage device, 14 ... input device, 16 ... sound collecting Device: 18 ... Display device, 22 ... Feature extraction unit, 24 ... Impression identification unit, 26 ... Presentation processing unit, 32 ... Information generation unit, 40 ... Related expression setting unit, 42 ... Target setting
(5)前述の各形態では、利用者が楽曲を歌唱した歌唱音声Vを例示したが、解析対象は歌唱音声Vに限定されない。例えば、会話音等の音声や楽器の演奏音(楽音)、音声合成技術で生成された合成音声(歌唱音声や会話音)について各関連式Fmを利用した解析で聴覚印象(M個の印象指標Y1〜YM)を特定することも可能である。例えば、楽器の演奏音の解析では、前述の各形態と同様に、例えば明暗や清濁等の印象指標Ymが特定され得る。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声(例えば会議での会話音)や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響(解析対象音)の具体的な内容(種類)や発音の原理等は任意である。
(5) In each form mentioned above, although the singing voice V which the user sang the music was illustrated, the analysis object is not limited to the singing voice V. For example, auditory impressions (M impression indicators) are analyzed by using each related expression Fm for voices such as conversation sounds, musical instrument performance sounds (musical sounds), and synthesized voices generated by voice synthesis technology (singing voices and conversational sounds). It is also possible to specify Y1-YM). For example, in the analysis of the performance sound of a musical instrument, an impression index Ym such as light and dark and clearness can be specified as in the above-described embodiments. Moreover, it is emitted from any sound system including sound played back at each point under a remote conference system that sends and receives sound between remote locations (for example, conversation sound at a conference) and sound emitting devices such as speakers. The auditory impression can be specified for the sound to be heard. As understood from the above description, the specific content (type) of the sound (analysis target sound) to be analyzed in the present invention, the principle of pronunciation, and the like are arbitrary.
Claims (5)
を具備する音響解析装置。 A plurality of reference data in which an impression index indicating an auditory impression of a reference sound and a feature index indicating an acoustic feature of the reference sound are associated with each other, and a correspondence relationship between the auditory impression and a plurality of types of acoustic features are defined. Relational expression setting means for setting a relational expression that expresses the relationship between the impression index of the auditory impression and the feature index of each acoustic feature in the correspondence defined by the relational description data using the relation description data An acoustic analysis apparatus comprising:
請求項1の音響解析装置。 The acoustic analysis apparatus according to claim 1, wherein the relationship description data defines a correspondence relationship between the auditory impression and the plurality of types of acoustic features via a plurality of intermediate elements included in the auditory impression.
請求項1または請求項2の音響解析装置。 The acoustic analysis apparatus according to claim 1, wherein the relational expression setting unit sets the relational expression for each of a plurality of types of auditory impressions.
請求項1から請求項3の何れかの音響解析装置。 The acoustic analysis apparatus according to claim 1, wherein the relational expression setting unit acquires the reference data and updates a predetermined relational expression using the reference data.
参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、前記聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して算定され、前記関係性記述データで規定される対応関係における前記聴覚印象の印象指標と前記複数種の音響特徴の特徴指標との関係を表現する関連式に、前記特徴抽出手段が抽出した特徴指標を適用することで、前記解析対象音の印象指標を算定する印象特定手段と
を具備する音響解析装置。
A feature extraction means for extracting a feature index of the sound to be analyzed;
A plurality of reference data in which an impression index indicating an auditory impression of a reference sound and a feature index indicating an acoustic feature of the reference sound are associated with each other, and a correspondence relationship between the auditory impression and a plurality of types of acoustic features are defined. The relational expression calculated using the relationship description data and expressing the relationship between the impression index of the auditory impression and the feature index of the plurality of types of acoustic features in the correspondence defined by the relationship description data, An acoustic analysis apparatus comprising: an impression specifying unit that calculates an impression index of the analysis target sound by applying the feature index extracted by the feature extraction unit.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014186191A JP2016057570A (en) | 2014-09-12 | 2014-09-12 | Acoustic analysis device |
PCT/JP2015/075923 WO2016039463A1 (en) | 2014-09-12 | 2015-09-11 | Acoustic analysis device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014186191A JP2016057570A (en) | 2014-09-12 | 2014-09-12 | Acoustic analysis device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016057570A true JP2016057570A (en) | 2016-04-21 |
JP2016057570A5 JP2016057570A5 (en) | 2017-10-05 |
Family
ID=55459206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014186191A Pending JP2016057570A (en) | 2014-09-12 | 2014-09-12 | Acoustic analysis device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2016057570A (en) |
WO (1) | WO2016039463A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7402396B2 (en) | 2020-01-07 | 2023-12-21 | 株式会社鉄人化計画 | Emotion analysis device, emotion analysis method, and emotion analysis program |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099462A (en) * | 2001-09-21 | 2003-04-04 | Victor Co Of Japan Ltd | Musical composition retrieving device |
JP2005010771A (en) * | 2003-05-26 | 2005-01-13 | Matsushita Electric Ind Co Ltd | Music retrieval device |
JP2006155157A (en) * | 2004-11-29 | 2006-06-15 | Sanyo Electric Co Ltd | Automatic music selecting device |
JP2007114798A (en) * | 2006-11-14 | 2007-05-10 | Matsushita Electric Ind Co Ltd | Music retrieval device, music retrieval method, and program and recording medium thereof |
JP2007122442A (en) * | 2005-10-28 | 2007-05-17 | Victor Co Of Japan Ltd | Musical piece classification apparatus and musical piece classification program |
JP2007205727A (en) * | 2006-01-30 | 2007-08-16 | Ricoh Co Ltd | Sound quality evaluation method of image forming device, and image forming device |
JP2014006692A (en) * | 2012-06-25 | 2014-01-16 | Nippon Hoso Kyokai <Nhk> | Hearing impression amount estimating device and program therefor |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083984A (en) * | 1999-09-09 | 2001-03-30 | Alpine Electronics Inc | Interface device |
-
2014
- 2014-09-12 JP JP2014186191A patent/JP2016057570A/en active Pending
-
2015
- 2015-09-11 WO PCT/JP2015/075923 patent/WO2016039463A1/en active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099462A (en) * | 2001-09-21 | 2003-04-04 | Victor Co Of Japan Ltd | Musical composition retrieving device |
JP2005010771A (en) * | 2003-05-26 | 2005-01-13 | Matsushita Electric Ind Co Ltd | Music retrieval device |
JP2006155157A (en) * | 2004-11-29 | 2006-06-15 | Sanyo Electric Co Ltd | Automatic music selecting device |
JP2007122442A (en) * | 2005-10-28 | 2007-05-17 | Victor Co Of Japan Ltd | Musical piece classification apparatus and musical piece classification program |
JP2007205727A (en) * | 2006-01-30 | 2007-08-16 | Ricoh Co Ltd | Sound quality evaluation method of image forming device, and image forming device |
JP2007114798A (en) * | 2006-11-14 | 2007-05-10 | Matsushita Electric Ind Co Ltd | Music retrieval device, music retrieval method, and program and recording medium thereof |
JP2014006692A (en) * | 2012-06-25 | 2014-01-16 | Nippon Hoso Kyokai <Nhk> | Hearing impression amount estimating device and program therefor |
Non-Patent Citations (1)
Title |
---|
池添 剛,梶川嘉延,野村康雄: "音楽感性空間を用いた感性語による音楽データベース検索システム Music Database Retrieval System with S", 情報処理学会論文誌 第42巻 第12号 IPSJ JOURNAL, vol. 第42巻 第12号, JPN6018025728, 15 December 2001 (2001-12-15), JP, pages 3201 - 3212, ISSN: 0003832853 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7402396B2 (en) | 2020-01-07 | 2023-12-21 | 株式会社鉄人化計画 | Emotion analysis device, emotion analysis method, and emotion analysis program |
Also Published As
Publication number | Publication date |
---|---|
WO2016039463A1 (en) | 2016-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Waddell et al. | Eye of the beholder: Stage entrance behavior and facial expression affect continuous quality ratings in music performance | |
JP4851447B2 (en) | Speech analysis apparatus, speech analysis method, and speech analysis program for detecting pitch frequency | |
Mion et al. | Score-independent audio features for description of music expression | |
CN108806656A (en) | Song automatically generates | |
US20180137425A1 (en) | Real-time analysis of a musical performance using analytics | |
Xu et al. | Predicting the preference for sad music: the role of gender, personality, and audio features | |
Proutskova et al. | Breathy, resonant, pressed–automatic detection of phonation mode from audio recordings of singing | |
CN109920409A (en) | A kind of speech search method, device, system and storage medium | |
Yang et al. | Examining emotion perception agreement in live music performance | |
JP6350325B2 (en) | Speech analysis apparatus and program | |
US10403304B1 (en) | Neural networks for identifying the potential of digitized audio to induce frisson in listeners | |
WO2016039463A1 (en) | Acoustic analysis device | |
Mangelsdorf et al. | Perception of musicality and emotion in signed songs | |
Tulilaulu et al. | Data musicalization | |
Lima et al. | Visualizing the semantics of music | |
WO2016039465A1 (en) | Acoustic analysis device | |
WO2016039464A1 (en) | Acoustic analysis device | |
Liu et al. | Emotion Recognition of Violin Music based on Strings Music Theory for Mascot Robot System. | |
KR102623459B1 (en) | Method, apparatus and system for providing audition event service based on user's vocal evaluation | |
Rao et al. | A study on music based audio and brain signal processing | |
WO2015115666A1 (en) | Musical composition analysis device and singing evaluation device | |
Tiple et al. | An efficient framework for recommendation of Hindustani Art Music | |
Moilanen | Transforming musical audio data into visual art: a study of machine learning methods to simulate Wassily Kandinsky’s process of creating visual art from sounds | |
Mohd Norowi | An artificial intelligence approach to concatenative sound synthesis | |
Franco et al. | Harmonic Change Detection from Musical Audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170823 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190122 |