JP2015172736A - Voice analysis device - Google Patents
Voice analysis device Download PDFInfo
- Publication number
- JP2015172736A JP2015172736A JP2015025055A JP2015025055A JP2015172736A JP 2015172736 A JP2015172736 A JP 2015172736A JP 2015025055 A JP2015025055 A JP 2015025055A JP 2015025055 A JP2015025055 A JP 2015025055A JP 2015172736 A JP2015172736 A JP 2015172736A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- singing
- evaluation
- analysis
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 166
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims description 151
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012854 evaluation process Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000422 nocturnal effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 235000013334 alcoholic beverage Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音声を解析する技術に関する。 The present invention relates to a technique for analyzing speech.
特許文献1には、商品に関する消費者の動向(消費動向)を分析する技術が開示されている。消費動向の分析には複数の消費者の歌唱履歴情報が利用される。特許文献1の技術によれば、購入履歴情報が充分に存在しない場合でも消費動向を高精度に分析できるという利点がある。
特許文献1の技術では、多数の消費者による消費動向の全体的な傾向を分析することは可能であるが、各個人の活動の傾向等の性質を推定することはできない。以上の事情を考慮して、本発明は、歌唱音声を利用して解析対象者の性質を簡便に推定することを目的とする。
With the technology of
以上の課題を解決するために、本発明の音声解析装置は、相異なる複数の属性の各々について、当該属性に対応する歌唱音声の傾向を表す認識モデルを利用して、解析対象者の歌唱音声が当該属性の音声に該当する確度の指標である評価指標を算定する指標算定部と、指標算定部が属性毎に算定した評価指標に応じて解析対象者の性質を推定する推定処理部とを具備する。以上の構成では、複数の属性の各々の音声に該当する確度の指標である評価指標が属性毎の認識モデルにより算定されるから、各評価指標に応じて解析対象の性質を簡便に推定することが可能である。 In order to solve the above problems, the speech analysis apparatus of the present invention uses a recognition model that represents the tendency of the singing speech corresponding to the attribute for each of a plurality of different attributes to analyze the singing speech of the person to be analyzed. An index calculation unit that calculates an evaluation index that is an accuracy index corresponding to the voice of the attribute, and an estimation processing unit that estimates the characteristics of the analysis target person according to the evaluation index calculated for each attribute by the index calculation unit It has. In the above configuration, since the evaluation index, which is an index of accuracy corresponding to each voice of multiple attributes, is calculated by the recognition model for each attribute, the property of the analysis target can be easily estimated according to each evaluation index. Is possible.
本発明の好適な態様において、推定処理部は、複数の属性のうち指標算定部が算定した評価指標に応じて選択した2個以上の属性の組合せに応じて解析対象者の性質を推定する。例えば、複数の属性のうち評価指標の数値順で選択した2個以上の属性の組合せに応じて解析対象者の性質を推定する構成や、複数の属性のうち評価指標が所定値を上回る2個以上の属性の組合せに応じて解析対象者の性質を推定する構成が好適である。以上の態様では、各評価指標に応じて選択した2個以上の属性の組合せに応じて解析対象者の性質が推定されるから、例えば1個の属性のみを評価指標に応じて選択する構成と比較して解析対象者の性質の推定結果が多様化されるという利点がある。 In a preferred aspect of the present invention, the estimation processing unit estimates the property of the analysis target person according to a combination of two or more attributes selected according to the evaluation index calculated by the index calculation unit among a plurality of attributes. For example, a configuration for estimating the characteristics of the person to be analyzed according to a combination of two or more attributes selected in numerical order of evaluation indices from among a plurality of attributes, or two of the plurality of attributes whose evaluation indices exceed a predetermined value A configuration that estimates the characteristics of the person to be analyzed according to the combination of the above attributes is preferable. In the above aspect, since the property of the person to be analyzed is estimated according to the combination of two or more attributes selected according to each evaluation index, for example, only one attribute is selected according to the evaluation index; In comparison, there is an advantage that the estimation results of the properties of the analysis subject are diversified.
本発明の好適な態様において、推定処理部は、相異なる推定結果に対応する複数の加重値系列の各々について、当該加重値系列に含まれる複数の加重値を適用した各評価指標の加重和を算定し、複数の加重値系列のうち当該加重和に応じて選択した加重値系列に対応する推定結果を特定する。以上の態様では、各加重値系列の加重値を適用した各評価指標の加重値に応じて推定結果が特定されるから、推定結果に対する各評価指標の軽重を各加重値に応じて調整できるという利点がある。 In a preferred aspect of the present invention, the estimation processing unit calculates, for each of a plurality of weight value series corresponding to different estimation results, a weighted sum of each evaluation index to which the plurality of weight values included in the weight value series are applied. An estimation result corresponding to a weight value series selected according to the weighted sum among a plurality of weight value series is determined. In the above aspect, since the estimation result is specified according to the weight value of each evaluation index to which the weight value of each weight value series is applied, the weight of each evaluation index with respect to the estimation result can be adjusted according to each weight value. There are advantages.
本発明の好適な態様において、複数の属性の各々の認識モデルは、複数の参照音声を属性毎に分類した複数の集合のうち当該属性に対応した集合の各参照音声を利用した機械学習で生成される。以上の態様では、属性毎に分類された各参照音声を利用した機械学習で認識モデルが生成される。したがって、音声の特徴と発声者の性質との関係の現実的な傾向を反映した高精度な推定が可能であるという利点がある。具体的には、複数の参照音声は、参照音声が発音された時間帯、参照音声が発音された場所、および、参照音声の発声者の性格の少なくともひとつに応じて複数の集合に分類される。また、参照音声の発声者による商品の購入履歴に応じて各参照音声を複数の集合に分類することも可能である。 In a preferred aspect of the present invention, each recognition model of a plurality of attributes is generated by machine learning using each reference voice of a set corresponding to the attribute among a plurality of sets obtained by classifying a plurality of reference voices for each attribute. Is done. In the above aspect, the recognition model is generated by machine learning using each reference speech classified for each attribute. Therefore, there is an advantage that high-accuracy estimation that reflects a realistic tendency of the relationship between the characteristics of the speech and the nature of the speaker is possible. Specifically, the plurality of reference sounds are classified into a plurality of sets according to at least one of a time zone in which the reference sound is generated, a place where the reference sound is generated, and a character of the speaker of the reference sound. . It is also possible to classify each reference sound into a plurality of sets according to the purchase history of the product by the speaker of the reference sound.
本発明の好適な態様に係る音声解析装置は、推定処理部による推定結果に応じた評価方法で解析対象者の歌唱の巧拙を評価する歌唱評価部を具備する。以上の態様では、推定処理部による推定結果に応じた評価方法で解析対象者の歌唱の巧拙が評価されるから、解析対象者の性質に応じた適切な歌唱評価が実現される。なお、「推定結果に応じた評価方法」とは、評価処理の内容のほか、評価結果に寄与する配点(重み),評価基準や評価項目,評価処理に適用される変数など、歌唱評価に関する1種類以上の事項が推定結果に応じて変化することを意味する。 The speech analysis apparatus according to a preferred aspect of the present invention includes a singing evaluation unit that evaluates the skill of the person to be analyzed by an evaluation method according to the estimation result by the estimation processing unit. In the above aspect, since the skill of singing of an analysis object person is evaluated with the evaluation method according to the estimation result by an estimation process part, appropriate singing evaluation according to the property of an analysis object person is implement | achieved. The “evaluation method according to the estimation result” is the one related to the singing evaluation including the contents of the evaluation process, the points (weights) contributing to the evaluation result, the evaluation criteria and the evaluation items, and the variables applied to the evaluation process. It means that more than one kind of matter changes according to the estimation result.
<第1実施形態>
図1は、本発明の第1実施形態に係る音声解析装置100の構成図である。音声解析装置100は、任意の利用者(以下「解析対象者」という)が発音した歌唱音声を解析することで解析対象者の性質(性格,性向,行動パターン等)を推定する情報処理装置であり、演算処理装置12と記憶装置14と収音装置16と表示装置18とを具備するコンピュータシステムで実現される。
<First Embodiment>
FIG. 1 is a configuration diagram of a
収音装置16は、周囲の音響を収音する装置(マイクロホン)である。第1実施形態の収音装置16は、解析対象者が楽曲を歌唱した歌唱音声Vを収音する。表示装置18(例えば液晶表示パネル)は、演算処理装置12から指示された画像を表示する。例えば解析対象者の性質の解析結果が表示装置18に表示される。なお、解析結果を放音装置(スピーカやイヤホン)から音声で出力することも可能である。
The
演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで音声解析装置100の各要素を統括的に制御する。具体的には、演算処理装置12は、図1に例示される通り、解析対象者の性質の解析に利用される認識モデルを生成する学習処理部22と、学習処理部22が生成した認識モデルを利用した歌唱音声Vの解析で解析対象者の性質を推定する音声解析部24とを実現する。なお、演算処理装置12の各機能を複数の装置に分散した構成や、演算処理装置12の機能の一部を専用の電子回路が実現する構成も採用され得る。
The
記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体および磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。第1実施形態の記憶装置14は、学習データ群GLを記憶する。学習データ群GLは、事前に収集された多数の学習データDLの集合(ビッグデータ)である。学習処理部22は、記憶装置14に記憶された学習データ群GLを利用した機械学習で認識モデルを生成する。
The
図2に例示される通り、学習データ群GLの任意の1個の学習データDLは、認識モデルの機械学習に利用される歌唱音声(以下「参照音声」という)に関するサンプルデータであり、音声データDAと特徴データDBと関連データDCとを含んで構成される。音声データDAは、参照音声の時間波形を表す音声ファイルである。他方、特徴データDBおよび関連データDCは、音声データDAが表す参照音声の分類に利用される。 As illustrated in FIG. 2, any one learning data DL in the learning data group GL is sample data relating to a singing voice (hereinafter referred to as “reference voice”) used for machine learning of a recognition model, and voice data. It includes DA, feature data DB, and related data DC. The audio data DA is an audio file representing the time waveform of the reference audio. On the other hand, the feature data DB and the related data DC are used for classification of the reference voice represented by the voice data DA.
特徴データDBは、参照音声の特徴量(特に歌唱に特有の特徴量)を表すデータである。例えば参照音声の音高や音量の推移等の基本的な特徴量のほか、参照音声の声質を特徴づける特徴量(例えばMFCC,シンギングフォルマント)や参照音声の評価結果(得点)等の複数種の特徴量が特徴データDBに包含される。 The feature data DB is data representing the feature amount of the reference voice (particularly a feature amount specific to singing). For example, in addition to basic features such as the pitch and volume of the reference speech, multiple types such as features that characterize the voice quality of the reference speech (for example, MFCC, singing formants) and reference speech evaluation results (scores) The feature amount is included in the feature data DB.
関連データDCは、参照音声の歌唱者または歌唱に関連する情報である。図2に例示される通り、第1実施形態の関連データDCは、個人情報DC1と歌唱情報DC2と傾向情報DC3とを包含する。個人情報DC1は、参照音声の歌唱者個人に関する情報(例えば年齢,性別,住所,職業等)である。歌唱情報DC2は、参照音声の歌唱に関連する情報(歌唱環境,履歴,傾向)である。例えば、歌唱時刻,歌唱場所の種別(例えば高級店/カラオケボックス等の区別),歌唱頻度,歌唱回数(特定のグループ内での歌唱回数),歌唱人数(来店人数),得点(例えば特定のグループ内での得点の順位)等の情報が歌唱情報DC2に包含され得る。 The related data DC is information related to the singer or singing of the reference voice. As illustrated in FIG. 2, the related data DC of the first embodiment includes personal information DC1, song information DC2, and trend information DC3. The personal information DC1 is information (for example, age, sex, address, occupation, etc.) related to the individual singer of the reference voice. The singing information DC2 is information (singing environment, history, tendency) related to the singing of the reference voice. For example, singing time, type of singing place (for example, distinction between high-class stores / karaoke boxes, etc.), singing frequency, number of singing (number of singing in a specific group), number of singing (number of customers in store), score (for example, specific group) The score information DC2 can be included in the singing information DC2.
傾向情報DC3は、参照音声の歌唱者の性格や嗜好等に関する情報である。例えば参照音声の歌唱者の性格や歌唱時の感情等の情報が歌唱者に対するアンケートの結果から抽出されて傾向情報DC3に包含される。また、例えばブログやSNS(Social Networking Service)の利用状況(例えば投稿内容やプロフィールの内容)から推定される歌唱者の嗜好や行動パターンに関する情報も傾向情報DC3に包含され得る。 The trend information DC3 is information relating to the personality and preferences of the reference voice singer. For example, information such as the personality of the reference voice singer and emotions at the time of singing is extracted from the result of the questionnaire for the singer and included in the trend information DC3. Further, for example, information related to the singer's preference and behavior pattern estimated from the use status (for example, the contents of a post or profile) of a blog or SNS (Social Networking Service) may be included in the trend information DC3.
各学習データDLの具体例は以上の通りである。多数の歌唱者について学習データDLを収集することで学習データ群GLが構成される。各学習データDLは、例えばカラオケ店の利用時に歌唱者から採取される。例えば音声データDAと特徴データDBとは歌唱者の歌唱音声から生成され、関連データDCの個人情報DC1と歌唱情報DC2とは、カラオケ店の会員登録時に発行されるサービスカードの会員情報から抽出され得る。なお、参照音声の属性(例えば関連データDC)を取得する方法は以上の例示に限定されない。例えば、歌唱者のカラオケ用のサービスカードの個人情報と各種の店舗で登録された利用者毎の購入履歴とを照合して当該歌唱者の購入履歴等の行動パターンを傾向情報DC3として抽出する構成や、カラオケ店のサービスカードの個人情報とブログやSNS等のプロフィールに登録された個人情報とを照合して歌唱者の嗜好や行動パターンを傾向情報DC3として抽出する構成も採用され得る。 Specific examples of each learning data DL are as described above. A learning data group GL is configured by collecting learning data DL for a large number of singers. Each learning data DL is collected from a singer, for example, when using a karaoke shop. For example, the voice data DA and the characteristic data DB are generated from the singing voice of the singer, and the personal information DC1 and the singing information DC2 of the related data DC are extracted from the membership information of the service card issued at the time of membership registration of the karaoke shop. obtain. Note that the method for acquiring the attribute of the reference voice (for example, related data DC) is not limited to the above example. For example, the personal information of a singer's karaoke service card and the purchase history of each user registered at various stores are collated to extract behavior patterns such as the purchase history of the singer as trend information DC3 Alternatively, a configuration in which personal information of a karaoke shop service card and personal information registered in a profile such as a blog or SNS are collated to extract the singer's preference and behavior pattern as the trend information DC3 may be employed.
<学習処理部22>
第1実施形態の学習処理部22は、図3に例示される通り、記憶装置14に記憶された学習データ群GLを利用した機械学習で複数(K個)の認識モデルM[1]〜M[K]を生成する。任意の1個の認識モデルM[k](k=1〜K)は、各学習データDLの特徴データDBおよび関連データDCを利用して複数の参照音声(音声データDA)を属性毎に分類したK個の集合C[1]〜C[K]のうち第k番目の集合C[k]に属する複数の参照音声を利用した機械学習で生成される。したがって、第1実施形態の認識モデルM[k]は、1個の集合C[k]に分類された複数の参照音声の特徴量の傾向を表す統計モデルである。例えばGMM(Gaussian Mixture Model)等の混合分布を利用した統計モデルやHMM(Hidden Markov Model)等の確率モデルが認識モデルM[k]として好適に利用される。
<
As illustrated in FIG. 3, the
図4は、学習処理部22が学習データ群GLからK個の認識モデルM[1]〜M[K]を生成する学習処理のフローチャートである。図4の学習処理を開始すると、学習処理部22は、図3に例示される通り、各学習データDLの複数の音声データDA(参照音声)をK個の集合C[1]〜C[K]に分類する(SA1)。すなわち、複数の参照音声がK種類の属性に分類される。なお、1個の参照音声が複数の集合C[k]に属する可能性もある。各参照音声の分類には、以下に例示される通り、各学習データDLの特徴データDBや関連データDCが利用される。
FIG. 4 is a flowchart of the learning process in which the
各学習データDLの特徴データDBは、概略的には、参照音声の音響的な特徴に着目した分類に利用される。例えば、特徴データDBで表現される音高が楽曲の所期の音符列に正確に追従する参照音声や、音符内での音量または声質の変動が少ない単調な参照音声、音量が小さく声質の張りが少ない参照音声、しゃくりやビブラート等の歌唱技法が少ない参照音声は、「真面目」の属性の集合C[k]に分類される。 The feature data DB of each learning data DL is generally used for classification focusing on the acoustic features of the reference speech. For example, a reference voice in which the pitch expressed by the feature data DB accurately follows the expected note string of the music, a monotonous reference voice with little fluctuation in the volume or voice quality within the note, a low-volume voice quality A reference voice with a small number of voices and a reference voice with a small number of singing techniques such as shaku and vibrato are classified into a set C [k] of “serious” attributes.
関連データDCは、概略的には、参照音声の歌唱者の嗜好や性向(行動パターン)に着目した分類に利用される。例えば、関連データDCで指定される歌唱時刻が深夜の時間帯に属する参照音声は「夜行性」の属性の集合C[k]に分類され、関連データDCで指定される歌唱店舗の種別が高級店である参照音声は「富裕層」の属性の集合C[k]に分類される。また、関連データDCで指定される歌唱者の性格が「粘着質」である参照音声や、関連データDCで指定される歌唱回数が多い参照音声は、「粘着質」の属性の集合C[k]に分類される。なお、各参照音声の分類(クラスタリング)には公知のデータ解析技術が任意に採用される。例えば、特開2005−222138号公報に開示されたk-means法によるクラスタリングを各参照音声の分類に利用することが可能である。 The related data DC is generally used for classification focusing on the preference and propensity (behavior pattern) of the singer of the reference voice. For example, reference sounds belonging to a time zone in which the singing time specified by the related data DC belongs to midnight are classified into a set C [k] of “nocturnal” attributes, and the type of the singing store specified by the related data DC is high-class. The reference speech that is a store is classified into a set C [k] of attributes of “rich people”. In addition, a reference voice in which the character of the singer designated by the related data DC is “adhesive” or a reference voice having a high number of singing times specified by the related data DC is a set C [k ]are categorized. In addition, a well-known data analysis technique is arbitrarily employ | adopted for the classification | category (clustering) of each reference audio | voice. For example, clustering by the k-means method disclosed in Japanese Patent Laid-Open No. 2005-222138 can be used for classification of each reference speech.
複数の参照音声を分類すると、学習処理部22は、K個の集合C[1]〜C[K]から1個の集合C[k]を選択する(SA2)。そして、学習処理部22は、図3に例示される通り、集合C[k]に属する複数の音声データDAを利用した機械学習で認識モデルM[k]を生成する(SA3)。具体的には、学習処理部22は、1個の集合C[k]に属する複数の参照音声の統計的な傾向が表現されるように認識モデルM[k]を生成する。認識モデルM[k]の機械学習には、例えば決定木学習等の公知の機械学習技術が任意に採用される。例えば、C4.5(J.Rose Quinlan,"C4.5 Programs for machihne learning," Morgan Kaufmann Publishers, 1993)を利用した決定木学習が好適である。
When the plurality of reference voices are classified, the
第1実施形態の認識モデルM[k]は、認識対象の歌唱音声Vについて評価指標(尤度)E[k]を算定するための統計モデルである。認識モデルM[k]で算定される評価指標E[k]は、集合C[k]に属する各参照音声の統計的な傾向に歌唱音声Vが該当する確度(歌唱音声Vが集合C[k]に分類される尤度)の指標である。すなわち、歌唱音声Vの特徴量が、認識モデルM[k]で表現される参照音声の特徴量の傾向に合致する度合が高いほど評価指標E[k]は大きい数値に設定される。学習処理部22が生成した認識モデルM[k]は記憶装置14に格納される。具体的には、認識モデルM[k]を規定する変数が記憶装置14に格納される。
The recognition model M [k] of the first embodiment is a statistical model for calculating an evaluation index (likelihood) E [k] for the singing voice V to be recognized. The evaluation index E [k] calculated by the recognition model M [k] has an accuracy that the singing voice V corresponds to the statistical tendency of each reference voice belonging to the set C [k] (the singing voice V is set to the set C [k]. Is an index of likelihood). That is, the evaluation index E [k] is set to a larger numerical value as the degree to which the feature amount of the singing voice V matches the tendency of the feature amount of the reference speech expressed by the recognition model M [k]. The recognition model M [k] generated by the
学習処理部22は、図3に例示される通り、認識モデルM[k]に属性情報A[k]を付加する(SA4)。属性情報A[k]は、集合C[k]に対応する属性を表現する情報(ラベル)である。例えば、歌唱時刻が深夜の時間帯に属する参照音声の集合C[k]の認識モデルM[k]には「夜遊び」の属性を指定する属性情報A[k]が付加され、歌唱店舗の種別が高級店である参照音声の集合C[k]の認識モデルM[k]には「富裕層」の属性を指定する属性情報A[k]が付加される。
As illustrated in FIG. 3, the
学習処理部22は、K個の集合C[1]〜C[K]について認識モデルM[k]の生成が完了したか否かを判定する(SA5)。判定結果が否定である場合(SA5:NO)、学習処理部22は、認識モデルM[k]の未生成の集合C[k]を新規に選択したうえで(SA2)、認識モデルM[k]の生成(SA3)と属性情報A[k]の付加(SA4)とを実行する。K個の認識モデルM[1]〜M[K]の生成が完了した場合(SA5:YES)、学習処理部22は図4の学習処理を終了する。
The
<音声解析部24>
図1の音声解析部24は、収音装置16が収音した歌唱音声Vの解析で解析対象者の性質を推定する。図5は、音声解析部24の具体的な構成図である。図5に例示される通り、第1実施形態の音声解析部24は、指標算定部32と推定処理部34とを含んで構成される。
<
The
指標算定部32は、学習処理部22が生成したK個の認識モデルM[1]〜M[K]の各々に解析対象者の歌唱音声Vを適用することで、相異なる属性(認識モデルM[k])に対応するK個の評価指標E[1]〜E[K]を算定する。推定処理部34は、指標算定部32が属性毎に算定した評価指標E[k]に応じて解析対象者の性質を推定する。第1実施形態の推定処理部34は、解析対象者の性質の推定結果を示す解析情報Qを生成する。
The
図6は、音声解析部24が解析対象者の歌唱音声Vから解析情報Qを生成する推定処理のフローチャートである。例えば歌唱開始前に解析対象者から付与される指示を契機として図6の推定処理が開始される。
FIG. 6 is a flowchart of an estimation process in which the
推定処理を開始すると、指標算定部32は、記憶装置14に記憶されたK個の認識モデルM[1]〜M[K]から1個の認識モデルM[k]を選択する(SB1)。そして、指標算定部32は、収音装置16から供給される歌唱音声Vを認識モデルM[k]に適用することで評価指標E[k]を算定する(SB2)。具体的には、指標算定部32は、歌唱音声Vから音高や音量や声質等の特徴量を抽出し、認識モデルM[k]で表現される集合C[k]にて当該特徴量が観測される尤度(確度)を評価指標E[k]として算定する。例えば、指標算定部32は、歌唱音声Vから抽出される特徴量の確率密度分布(GMM等の混合分布モデル)を生成し、確率密度分布と認識モデルM[k]との間の尤度(確度)を評価指標E[k]として算定する。各特徴量の確率密度分布は、例えば声質については13次元のMFCCから生成され、音高や音量については単位時間(例えば1秒)内の軌跡の近似曲線から生成される。
When the estimation process is started, the
指標算定部32は、K個の認識モデルM[1]〜M[K]の各々について評価指標E[k](E[1]〜E[K])の算定が完了したか否かを判定する(SB3)。判定結果が否定である場合(SB3:NO)、指標算定部32は、評価指標E[k]の未算定の認識モデルM[k]を新規に選択し(SB1)、当該認識モデルM[k]を利用して評価指標E[k]を算定する(SB2)。他方、相異なる認識モデルM[k]に対応するK個の評価指標E[1]〜E[K]の算定が完了した場合(SB3:YES)、推定処理部34による解析情報Qの生成が実行される(SB4,SB5)。
The
具体的には、推定処理部34は、各認識モデルM[k]に対応するK個の属性のうち評価指標E[1]〜E[K]に応じた2個以上の属性(属性情報A[k])を選択する(SB4)。例えば推定処理部34は、K個の認識モデルM[1]〜M[K]のうち評価指標E[k]の数値順(降順)で上位に位置する所定個の認識モデルM[k]の各々に付加された各属性情報A[k]を選択する。以上の説明から理解される通り、解析対象者の性質に適合する尤度が高い属性が選択される。例えば、音高が楽曲の所期の音符列に正確に追従する歌唱音声Vや、音符内での音量または声質の変動が少ない単調な歌唱音声V、音量が小さく声質の張りが少ない歌唱音声V、しゃくりやビブラート等の歌唱技法が少ない歌唱音声Vについては、「真面目」を指定する属性情報A[k]が選択される。なお、評価指標E[k]に応じて歌唱音声Vの属性(属性情報A[k])を選択する方法は以上の例示に限定されない。例えば、K個の属性のうち評価指標E[k]が所定の閾値(固定値または可変値)を上回る属性を選択する構成や、評価指標E[k]が最大となる1個の属性を選択する構成も採用され得る。
Specifically, the
推定処理部34は、評価指標E[k]を参照して選択した2個以上の属性(属性情報A[k])の組合せに応じて解析情報Qを生成する(SB5)。具体的には、属性情報A[k]で指定される属性の文字列を含む文章が解析情報Qとして生成される。例えば「夜遊び」を指定する属性情報A[k1]と「粘着質」を指定する属性情報A[k2]とが選択された場合には、「あなたの性格は、夜遊び好きな粘着質ですね」といった文章の解析情報Qが生成され、「真面目」を指定する属性情報A[k3]と「富裕層」を指定する属性情報A[k4]とが選択された場合には、「あなたは真面目な富裕層ですね」といった文章の解析情報Qが生成される。推定処理部34は、以上の手順で生成した解析情報Qを表示装置18に表示させる(SB6)。
The
以上に説明した通り、第1実施形態では、K個の属性の各々の音声に該当する確度の指標である評価指標E[k](E[1]〜E[K])が各属性の認識モデルM[k]により算定されるから、各評価指標E[k]に応じて解析対象者の性質(性格,性向,行動パターン)を簡便に推定することが可能である。第1実施形態では特に、K個の属性のうち各評価指標E[k]に応じて選択した2個以上の属性の組合せに応じて解析対象者の性質が推定されるから、例えばK個のうち1個の属性のみを評価指標E[k]に応じて選択する構成と比較して解析対象者の性質を多様に推定できるという利点がある。また、第1実施形態では、参照音声の歌唱時刻や歌唱場所(歌唱店舗の種別)や歌唱者の性格に応じて複数の参照音声がK個の集合C[1]〜C[K]に分類されるから、解析対象者の性質を多様な観点から推定できるという利点もある。 As described above, in the first embodiment, the evaluation index E [k] (E [1] to E [K]), which is an index of accuracy corresponding to the speech of each of the K attributes, is used to recognize each attribute. Since it is calculated by the model M [k], it is possible to easily estimate the properties (personality, propensity, behavior pattern) of the person to be analyzed according to each evaluation index E [k]. In the first embodiment, in particular, since the property of the person to be analyzed is estimated according to a combination of two or more attributes selected according to each evaluation index E [k] among the K attributes, for example, K attributes Compared with a configuration in which only one attribute is selected according to the evaluation index E [k], there is an advantage that various properties of the analysis target person can be estimated. In the first embodiment, a plurality of reference voices are classified into K sets C [1] to C [K] according to the singing time of the reference voice, the singing place (type of singing store), and the character of the singer. Therefore, there is an advantage that the property of the analysis target person can be estimated from various viewpoints.
また、第1実施形態では、事前に収録された複数の参照音声のうち集合C[k]に分類された各参照音声(音声データDA)を利用した機械学習で認識モデルM[k]が生成されるから、例えば実際の参照音声を利用せずに各認識モデルM[k]を人為的に選定した構成と比較すると、音声の特徴と歌唱者の性質との関係の現実的な傾向を反映した高精度な推定が可能であるという利点もある。 In the first embodiment, a recognition model M [k] is generated by machine learning using each reference voice (voice data DA) classified into the set C [k] among a plurality of reference voices recorded in advance. Therefore, for example, when comparing each recognition model M [k] with an artificially selected configuration without using actual reference speech, it reflects a realistic trend of the relationship between the characteristics of speech and the nature of the singer There is also an advantage that high-precision estimation is possible.
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described below. In addition, about the element which an effect | action and function are the same as that of 1st Embodiment in each form illustrated below, the reference | standard referred by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.
第2実施形態の音声解析部24は、相異なる歌唱時刻の時間帯に対応するK個の集合C[1]〜C[K]の各々について学習処理で生成されたK個の認識モデルM[1]〜M[K]を利用して解析対象者の性質を推定する。すなわち、認識モデルM[k]は、K個のうち第k番目の時間帯に発音された参照音声の統計的な傾向を表現する。
The
具体的には、音声解析部24の指標算定部32は、第1実施形態と同様に、K個の認識モデルM[k]の各々に解析対象者の歌唱音声Vを適用することでK個の評価指標E[1]〜E[K]を算定する。評価指標E[k]は、第k番目の時間帯に発音された参照音声の統計的な傾向に歌唱音声Vが合致する度合に相当する。推定処理部34は、指標算定部32が算定したK個の評価指標E[1]〜E[K]に応じて解析情報Qを生成する。第2実施形態では、推定処理部34による解析情報Qの生成(解析対象者の性格の推定)に図7の参照データDRが利用される。
Specifically, the
図7に例示される通り、参照データDRは、相異なる複数(R個)の解析情報Q[1]〜Q[R]について加重値系列W[1]〜W[R]を登録したデータテーブルである。任意の1個の加重値系列W[r](r=1〜R)は、相異なる評価指標E[k](歌唱時刻の時間帯)に対応するK個の加重値w[1]〜w[K](図7の例示ではK=10)の系列である。なお、各加重値w[k]を2値(0/1)に設定した場合を図7では便宜的に例示したが、各加重値w[k]の具体的な数値は任意である。例えば加重値w[k]は整数に限定されず、各加重値w[k]の異同は不問である。 As illustrated in FIG. 7, the reference data DR is a data table in which weight value series W [1] to W [R] are registered for a plurality of (R) pieces of analysis information Q [1] to Q [R]. It is. Any one weight value series W [r] (r = 1 to R) is composed of K weight values w [1] to w [1] to w corresponding to different evaluation indices E [k] (time zone of singing time). [K] (K = 10 in the illustration of FIG. 7). In addition, although the case where each weight value w [k] was set to binary (0/1) was illustrated for convenience in FIG. 7, the specific numerical value of each weight value w [k] is arbitrary. For example, the weight value w [k] is not limited to an integer, and the difference between the weight values w [k] is not questioned.
各解析情報Q[r]は、第1実施形態と同様に、解析対象者の性格の推定結果の文章(コメント)を表現する。特定の時間帯に歌唱する傾向がある歌唱者の性格を表現する解析情報Q[r]の加重値系列W[r]では、当該時間帯に対応する1個以上の加重値w[k]が他の時間帯と比較して大きい数値に設定される。例えば、図7に例示される通り、「夜行性」という解析情報Q[1]の加重値系列W[1]では、夜間の時間帯(20時以降)に対応する加重値w[7]〜w[10]が1に設定され、昼間の時間帯に対応する残余の加重値w[k]は0に設定される。以上に例示した参照データDRが事前に用意されて記憶装置14に格納される。
Each analysis information Q [r] expresses a sentence (comment) of the estimation result of the personality of the person to be analyzed, as in the first embodiment. In the weight value series W [r] of the analysis information Q [r] expressing the character of a singer who tends to sing in a specific time zone, one or more weight values w [k] corresponding to the time zone are obtained. It is set to a large value compared to other time zones. For example, as illustrated in FIG. 7, in the weight value series W [1] of the analysis information Q [1] “nocturnal”, the weight value w [7] to the night time zone (after 20:00) w [10] is set to 1, and the remaining weight w [k] corresponding to the daytime time zone is set to 0. The reference data DR exemplified above is prepared in advance and stored in the
図8は、第2実施形態における推定処理のフローチャートである。第1実施形態(図6)の推定処理部34の動作の一部(SB4−SB6)が、第2実施形態では、参照データDRを利用して解析情報Q[r]を選択および表示する処理(SC4−SC6)に置換される。
FIG. 8 is a flowchart of the estimation process in the second embodiment. A part of the operation (SB4-SB6) of the
解析対象者の歌唱音声Vを各認識モデルM[k]に適用することで指標算定部32がK個の評価指標E[1]〜E[K]を算定すると(SB3:YES)、推定処理部34は、R個の加重値系列W[1]〜W[R]の各々(R個の解析情報Q[1]〜Q[R]の各々)について評価指標X[r]を算定する(SC4)。各評価指標X[r]は、加重値系列W[r]の各加重値w[k]を適用した各評価指標E[k]の加重和(X[r]=w[1]E[1]+w[2]E[2]+……+w[K]E[K])である。したがって、加重値w[k]が大きい時間帯で発音された参照音声に解析対象者の歌唱音声Vが近似するほど評価指標E[k]は大きい数値となる。以上の説明から理解される通り、評価指標E[k]は単一の集合C[k]に属する参照音声の統計的な傾向に歌唱音声Vが該当する確度に相当し、評価指標X[r]は、相異なる複数の集合C[k]の参照音声の総合的な傾向に歌唱音声Vが該当する確度に相当する。
When the
推定処理部34は、参照データDRのR個の解析情報Q[1]〜Q[R]のうち評価指標X[r]に応じた1個の解析情報Q[r]を選択する(SC5)。具体的には、R個の解析情報Q[1]〜Q[R]のうち評価指標X[r]が最大値となる加重値系列W[r]に対応した1個の解析情報Q[r]が選択される。推定処理部34は、参照データDRから選択した解析情報Q[r]を記憶装置14から取得して表示装置18に表示させる(SC6)。
The
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、相異なる時間帯に対応するK個の加重値w[1]〜w[K]を適用した評価指標E[k]の加重和として評価指標X[r]が算定されるから、時間帯毎の音声の統計的な傾向の観点から解析対象者の性質(特に行動パターン)を推定することが可能である。 In the second embodiment, the same effect as in the first embodiment is realized. In the second embodiment, the evaluation index X [r] is calculated as a weighted sum of the evaluation indices E [k] using K weighted values w [1] to w [K] corresponding to different time zones. Therefore, it is possible to estimate the property (particularly the behavior pattern) of the person to be analyzed from the viewpoint of the statistical tendency of the voice for each time zone.
<第3実施形態>
第3実施形態における各学習データDLの関連データDCは、参照音声の歌唱者が特定の商品を購入した履歴(以下「購入履歴」という)を包含する。購入履歴は、例えば商品の購入者が店舗に提示するサービスカード(例えばポイントカード)から抽出される。学習処理部22による各参照音声の分類(SA1)では、関連データDCが指定する購入履歴が参照される。したがって、特定商品を購入する傾向がある購入者が発音した参照音声という属性の認識モデルM[k](当該商品の購入者の参照音声の統計的な傾向を表現する統計モデル)が生成される。
<Third Embodiment>
The related data DC of each learning data DL in the third embodiment includes a history (hereinafter referred to as “purchase history”) in which a singer of the reference voice has purchased a specific product. The purchase history is extracted from, for example, a service card (for example, a point card) presented to the store by the purchaser of the product. In the classification (SA1) of each reference voice by the
音声解析部24(指標算定部32,推定処理部34)の動作は第1実施形態と同様である。特定商品を購入する傾向が推測される解析対象者については、当該傾向の集合C[k]に対応した認識モデルM[k]の評価指標E[k]が大きい数値となる可能性が高い。したがって、第3実施形態によれば、評価指標E[k]を参照することで、特定商品を購入する傾向(消費動向)を含む解析対象者の性質を推定できるという利点がある。また、第3実施形態で生成される解析情報Qを、各解析対象者に対する特定商品の効果的な提案や、商店や企業による市場調査(マーケティング)に利用することも可能である。具体的には、推定処理部34は、K個の評価指標E[1]〜E[K]に応じて生成した解析情報Q(解析対象者の性格の推定結果)をマーケティング用(宣伝広告用)のデータベースに登録する。以上の構成では、マーケティング用のデータベースを利用して効率的な宣伝および広告を実現することが可能である。例えば特定の物品(例えばハンバーガーや栄養ドリンク,酒類,飴等の飲食物)を嗜好する傾向が解析情報Qから推定される解析対象者には、当該物品を宣伝する画像を楽曲間の時間帯に表示装置18に表示させる。マーケティング用のデータベースは、例えば音声解析装置100と通信可能なサーバ装置に構築される。ただし、音声解析装置100の記憶装置14にデータベースを構築することも可能である。
The operations of the voice analysis unit 24 (the
<第4実施形態>
図9は、第4実施形態における音声解析システム200の構成図である。図9に例示される通り、第4実施形態の音声解析システム200は、管理装置52と複数の音声解析装置54とを具備する。複数の音声解析装置54の各々は、例えば通信カラオケ装置等の通信端末で実現され、インターネット等の通信網58を介して管理装置52と通信する。
<Fourth embodiment>
FIG. 9 is a configuration diagram of the
管理装置52は、前述の各形態と同様の学習処理部22を具備する配信サーバ装置(典型的にはウェブサーバ)である。管理装置52の学習処理部22は、前述の各形態と同様の学習処理(図4)でK個の認識モデルM[1]〜M[K]を生成したうえで各音声解析装置54に配信する。管理装置52から配信された認識モデルM[k]は、通信網58を介して各音声解析装置54に送信および保持される。
The
各音声解析装置54は、前述の各形態と同様の音声解析部24を具備する。各音声解析装置54の音声解析部24は、管理装置52から配信されたK個の認識モデルM[1]〜M[K]を利用して、前述の各形態と同様に解析対象者の歌唱音声Vを解析することで、解析対象者の性質を推定および表示する。
Each
第4実施形態においても前述の各形態と同様の効果が実現される。また、第4実施形態では、各音声解析装置54とは別体の管理装置52にて生成された各認識モデルM[k]が複数の音声解析装置54の各々に配信されるから、各音声解析装置54が学習処理部22を具備する必要がない。したがって、音声解析装置54の構成や処理が簡素化されるという利点がある。
In the fourth embodiment, the same effects as those of the above-described embodiments are realized. In the fourth embodiment, since each recognition model M [k] generated by the
<第5実施形態>
図10は、第5実施形態における音声解析装置100の構成図である。図10に例示される通り、第5実施形態の音声解析装置100の演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで、第1実施形態と同様の要素(学習処理部22,音声解析部24)に加えて歌唱評価部26として機能する。
<Fifth Embodiment>
FIG. 10 is a configuration diagram of the
歌唱評価部26は、収音装置16が収音した歌唱音声Vの解析で解析対象者の歌唱の巧拙を評価する。具体的には、第5実施形態の歌唱評価部26は、音声解析部24が解析対象者の性質を推定した結果(すなわち解析情報Q)に応じた評価方法により歌唱音声Vを解析することで歌唱の巧拙を評価し、評価結果を示す指標値(以下「歌唱評価値」という)Sを算定する。歌唱評価部26による歌唱評価の処理自体には公知の技術が任意に採用され得る。なお、以下の説明では、解析対象者の歌唱が上手であるほど歌唱評価値Sが大きい数値に設定される場合を想定する。歌唱評価部26が生成した歌唱評価値Sに応じた画像が表示装置18に表示される。例えば歌唱評価値Sとその数値に応じた評価コメントとが表示装置18に表示される。解析情報Qに応じた歌唱音声Vの評価方法の具体例を以下に列挙する。
The
[評価例1]
K個の認識モデルM[1]〜M[K]は、「男性」の属性の認識モデルMと「女性」の属性の認識モデルMとを包含する。歌唱評価部26は、解析情報Qが「男性」の属性を示す場合には男性用の歌唱評価処理で歌唱音声Vを評価する一方、解析情報Qが「女性」の属性を示す場合には女性用の歌唱評価処理で歌唱音声Vを評価する。
[Evaluation Example 1]
The K recognition models M [1] to M [K] include a recognition model M having a “male” attribute and a recognition model M having a “female” attribute. The
例えば、歌唱評価処理では、音高に関する所定の範囲(以下「基準声域」という)のうち高域側の音高を解析対象者が正確に(すなわち楽曲の各音符の音高に合致または近似するように)歌唱するほど歌唱評価値Sが大きい数値となるように歌唱音声Vが解析される。男性用の歌唱評価処理に適用される基準声域は、女性用の歌唱評価処理に適用される基準声域と比較して低域側に位置する。したがって、解析情報Qが「男性」の属性を示すときに歌唱音声Vの音高が高い場合には、解析情報Qが「女性」の属性を示す場合と比較して歌唱評価値Sが大きい数値となる。 For example, in the singing evaluation process, the person to be analyzed accurately matches (or approximates) the pitch of each musical note of a musical piece in a predetermined range related to the pitch (hereinafter referred to as “reference vocal range”). The singing voice V is analyzed so that the singing evaluation value S becomes larger as the singing is performed. The reference vocal range applied to the singing evaluation process for men is located on the lower side compared to the reference vocal range applied to the singing evaluation process for women. Therefore, when the pitch of the singing voice V is high when the analysis information Q indicates the attribute “male”, the numerical value of the singing evaluation value S is larger than when the analysis information Q indicates the attribute “female”. It becomes.
[評価例2]
評価例1と同様に、K個の認識モデルM[1]〜M[K]は、「男性」の属性の認識モデルMと「女性」の属性の認識モデルMとを包含する。歌唱評価部26は、解析情報Qが「男性」の属性を示す場合と「女性」の属性を示す場合とで声質の評価項目を相違させる。例えば、解析情報Qが「男性」の属性を示す場合、歌唱評価部26は、歌唱音声Vにおいて男性的な声質の度合(例えば非調波成分が調波成分に対して優勢なハスキーな声質の度合)が高いほど歌唱評価値Sが大きい数値となるように歌唱音声Vを評価する。他方、解析結果が「女性」の属性を示す場合、歌唱評価部26は、歌唱音声Vにおいて女性的な声質の度合(例えば調波成分が非調波成分に対して優勢な明瞭な声質の度合)が高いほど歌唱評価値Sが大きい数値となるように歌唱音声Vを評価する。
[Evaluation Example 2]
Similarly to the first evaluation example, the K recognition models M [1] to M [K] include a recognition model M having a “male” attribute and a recognition model M having a “female” attribute. The
また、歌唱評価部26が歌唱音声Vの声質(男声/女声)を解析する構成も想定される。解析情報Qが「男性」の属性を示すときには、歌唱音声Vが男声と解析された場合(すなわち歌唱音声Vから推定される解析対象者の性別と認識モデルMを利用して推定される解析対象者の性別とが合致する場合)に歌唱評価値Sが大きい数値となり、解析情報Qが「女性」の属性を示すときには、歌唱音声Vが女声と解析された場合に歌唱評価値Sが大きい数値となるように、歌唱評価部26が歌唱音声Vを評価する。他方、歌唱音声Vから推定される解析対象者の性別と認識モデルMを利用して推定される解析対象者の性別とが相違する場合には歌唱評価値Sが小さい数値となるように歌唱音声Vが評価される。
A configuration in which the
[評価例3]
K個の認識モデルM[1]〜M[K]は、「大人」の属性の認識モデルMと「子供」の属性の認識モデルMとを包含する。歌唱評価部26は、解析情報Qが「子供」の属性を示す場合に、解析情報Qが「大人」の属性を示す場合と比較して歌唱評価値Sが大きい数値になり易いように歌唱音声Vを評価する。具体的には、解析情報Qが「子供」の属性を示す場合には、解析情報Qが「大人」の属性を示す場合と比較して評価基準を低下させる。
[Evaluation Example 3]
The K recognition models M [1] to M [K] include an “adult” attribute recognition model M and a “children” attribute recognition model M. When the analysis information Q indicates the attribute “child”, the
[評価例4]
K個の認識モデルM[1]〜M[K]は、年齢(「20代」「50代」等)に関する属性の複数の認識モデルMを包含する。歌唱評価部26は、歌唱音声Vの声質(ハスキー度)を解析し、解析情報Qが「20代」の属性を示す場合に、「50代」の属性を示す場合と比較して、歌唱音声Vの声質がハスキーである(具体的には非調波成分が調波成分に対して優勢である)ほど歌唱評価値Sが大きい数値となるように歌唱音声Vを評価する。
[Evaluation Example 4]
The K recognition models M [1] to M [K] include a plurality of recognition models M having attributes related to age (such as “20s” and “50s”). The
[評価例5]
K個の認識モデルM[1]〜M[K]は、「ポップス」の属性の認識モデルMと「演歌」の属性の認識モデルMとを包含する。「ポップス」の属性の認識モデルMは、「ポップス」の楽曲に好適な音声の音声データDAから生成され、「演歌」の属性の認識モデルMは、「演歌」の楽曲に好適な音声の音声データDAから生成される。歌唱評価部26は、歌唱音声Vにおける小節(こぶし)やしゃくりやタメ等の歌唱技法の頻度を評価する。「ポップス」と比較して「演歌」では小節(こぶし)やしゃくり等の歌唱技法が多用される傾向がある。以上の傾向を考慮して、歌唱評価部26は、解析情報Qが「演歌」の属性を示す場合に、解析情報Qが「ポップス」の属性を示す場合と比較して、歌唱評価値Sに対する評価技法の頻度の比重を高く設定する。したがって、解析情報Qが「演歌」の属性を示す場合には、「ポップス」の属性を示す場合と比較して、歌唱技法が多用されるほど歌唱評価値Sが大きい数値に設定される。なお、各種の歌唱技法の検出には公知の技術が任意に採用され得るが、例えば、特開2008−268370号公報(小節),特開2004−102146号公報(ビブラート),特開2012−008596号公報(ロングトーン),特開2007−334364号公報(ビブラート,抑揚,性質,タイミング,しゃくり)に開示された技術が好適に採用され得る。各歌唱技法の意義についても以上の各公報に開示されている。
[Evaluation Example 5]
The K recognition models M [1] to M [K] include a recognition model M having a “pops” attribute and a recognition model M having an “enka” attribute. The “pops” attribute recognition model M is generated from speech audio data DA suitable for “pops” music, and the “enka” attribute recognition model M is speech sound suitable for “enka” music. Generated from data DA. The
[評価例6]
K個の認識モデルM[1]〜M[K]は、「情熱的」の属性の認識モデルMと「冷静」の属性の認識モデルMとを包含する。歌唱評価部26は、解析情報Qが「情熱的」の属性を示す場合には、ノリ(例えば楽曲の拍点に同期した音量の振幅)や明瞭度(例えば非調波成分に対する調波成分の優勢度)が高いほど歌唱評価値Sが大きい数値となり、解析情報Qが「冷静」の属性を示す場合には、歌唱技法の頻度が高く声質が暗い(低音域と比較して高音域で非調波成分が調波成分に対して優勢となる声質)ほど歌唱評価値Sが大きい数値となるように歌唱音声Vを評価する。
[Evaluation Example 6]
The K recognition models M [1] to M [K] include a recognition model M having a “passionate” attribute and a recognition model M having a “cool” attribute. When the analysis information Q indicates an attribute of “passionate”, the
以上に例示した第5実施形態でも第1実施形態と同様の効果が実現される。また、第5実施形態では、音声解析部24(推定処理部34)による解析結果に応じた評価方法で解析対象者の歌唱の巧拙が評価されるから、解析対象者の性質に応じた適切な歌唱評価を実現することが可能である。なお、第2実施形態から第4実施形態の構成は第5実施形態にも適用され得る。例えば第4実施形態で例示した通り、第5実施形態の音声解析装置100から学習処理部22は省略され得る。
The fifth embodiment exemplified above also achieves the same effect as that of the first embodiment. Further, in the fifth embodiment, the skill of singing by the analysis target person is evaluated by an evaluation method according to the analysis result by the voice analysis unit 24 (estimation processing unit 34). Singing evaluation can be realized. The configurations of the second to fourth embodiments can be applied to the fifth embodiment. For example, as illustrated in the fourth embodiment, the
なお、以上の例示では、音声解析部24による推定結果に応じた評価方法で解析対象者の歌唱の巧拙を評価したが、歌唱評価値Sに応じて歌唱評価部26が解析対象者に提示する評価コメントを解析情報Qに応じて変化させる構成も採用され得る。例えば、前述の評価例1のようにK個の認識モデルM[1]〜M[K]が「男性」の属性の認識モデルMと「女性」の属性の認識モデルMとを包含する場合を想定する。解析情報Qが「男性」の属性を示す場合には、図11に例示される通り、男性の歌唱の評価に好適な内容の評価コメントが歌唱評価値Sとともに表示装置18に表示され、解析情報Qが「女性」の属性を示す場合には、図12に例示される通り、女性の歌唱の評価に好適な内容の評価コメントが歌唱評価値Sとともに表示装置18に表示される。すなわち、歌唱評価値Sが同じでも解析情報Qの属性が相違する場合には評価コメントの内容が相違する。
In the above example, the skill of singing of the analysis target person is evaluated by the evaluation method according to the estimation result by the
また、解析情報Q以外の情報を歌唱評価に適用することも可能である。例えば、解析対象者の過去の歌唱履歴(過去に歌唱した楽曲の傾向)や解析対象者の年齢等の属性を歌唱評価に反映させる構成が採用され得る。楽曲を時間軸上で区分した複数の区間の各々について歌唱評価部26が解析対象者の歌唱を評価することも可能である。歌唱評価の単位となる区間は、例えば楽曲のうち所定個の小節または音符に相当する区間である。すなわち、歌唱評価部26による評価結果が、楽曲の歌唱の進行に並行して区間毎(例えば所定個の小節毎または所定個の音符毎)に随時に更新される。
It is also possible to apply information other than the analysis information Q to singing evaluation. For example, the structure which reflects attributes, such as an analysis object person's past song history (the tendency of the music sung in the past) and an analysis object person's age, in song evaluation may be employ | adopted. It is also possible for the
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は適宜に併合され得る。
<Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples may be appropriately combined.
(1)各学習データDLの関連データDCの内容は前述の例示に限定されない。例えば、参照音声の歌唱者が複数人のグループ内で最初に歌唱する傾向があるか否かを例えば歌唱情報DC2に包含させれば、当該傾向が指定された参照音声を「積極的」(あるいは目立ちたがり)という属性の集合C[k]に分類することが可能である。 (1) The content of the related data DC of each learning data DL is not limited to the above example. For example, if the singing information DC2 includes whether or not the singer of the reference voice has a tendency to sing first in a group of a plurality of people, for example, the reference voice in which the tendency is designated is “active” (or It is possible to classify it into a set C [k] of attributes called “conspicuous”.
(2)前述の各形態では、学習処理で事前に生成された各認識モデルM[k]を推定処理に利用する場合を例示したが、解析情報Qを確認した利用者(解析対象者)からの指示に応じて各認識モデルM[k]を事後的に修正することも可能である。 (2) In each of the above-described forms, the case where each recognition model M [k] generated in advance by the learning process is used for the estimation process is exemplified. However, from the user (analysis target person) who confirmed the analysis information Q It is also possible to correct each recognition model M [k] afterwards according to the instruction.
(3)第2実施形態では、相異なる時間帯に対応する複数の加重値w[1]〜w[K](すなわち時系列)を適用した評価指標E[1]〜E[K]の加重和を評価指標X[r]として算定したが、各加重値w[k]に対応する属性は時間帯に限定されない。例えば、相異なる属性の集合C[k]に対応する複数(K個)の加重値w[1]〜w[K]を適用した評価指標E[1]〜E[K]の加重和で評価指標X[r]を算定することも可能である。 (3) In the second embodiment, the weights of the evaluation indexes E [1] to E [K] to which a plurality of weight values w [1] to w [K] (that is, time series) corresponding to different time zones are applied. Although the sum is calculated as the evaluation index X [r], the attribute corresponding to each weight value w [k] is not limited to the time zone. For example, evaluation is performed using a weighted sum of evaluation indexes E [1] to E [K] to which a plurality (K) of weight values w [1] to w [K] corresponding to different attribute sets C [k] are applied. It is also possible to calculate the index X [r].
また、第2実施形態では、評価指標X[r]が最大値となる加重値系列W[r]に対応した解析情報Q[r]を選択したが、指標算定部32が算定したK個の評価指標E[1]〜E[K]の分布の特徴から解析情報Qを特定することも可能である。例えば、K個の評価指標E[1]〜E[K]の典型的な分布(例えば平均値や分散値等の統計量)をR個の解析情報Q[1]〜Q[R]の各々について事前に用意し、R個の解析情報Q[1]〜Q[R]のうちK個の評価指標E[1]〜E[K]の分布に最も近い分布(例えばピークの数値が近似する分布や分散値が近似する分布)に対応する解析情報Q[r]を推定処理部34が選択することも可能である。
In the second embodiment, the analysis information Q [r] corresponding to the weight sequence W [r] having the maximum evaluation index X [r] is selected, but the K pieces of information calculated by the
(4)通信カラオケ装置等の通信端末と通信するサーバ装置により音声解析装置100を実現することも可能である。例えば、音声解析装置100は、通信端末から通信網を介して受信した歌唱音声VをK個の認識モデルM[1]〜M[K]の各々に適用し(推定処理)、解析対象者の性質の解析結果を示す解析情報Qを通信端末に送信する。
(4) The
(5)音声合成技術で合成された合成音声を歌唱音声Vとして解析対象とすることも可能である。すなわち、解析対象者は、現実の歌唱者のほか、音声合成で想定される仮想的な歌唱者も包含する。 (5) The synthesized voice synthesized by the voice synthesis technique can be analyzed as the singing voice V. That is, the analysis target person includes a virtual singer assumed in speech synthesis in addition to a real singer.
(6)前述の各形態に係る音声解析装置は、解析対象者の性質の推定に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明の好適な態様に係るプログラムは、相異なる複数の属性の各々について、当該属性に対応する歌唱音声の傾向を表す認識モデルを利用して、解析対象者の歌唱音声が当該属性の音声に該当する確度の指標である評価指標を算定する指標算定部、および、指標算定部が複数の属性の各々について算定した評価指標に応じて解析対象者の性質を推定する推定処理部としてコンピュータを機能させる。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。 (6) The speech analysis apparatus according to each of the above-described embodiments is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to estimation of the characteristics of a person to be analyzed, and a CPU (Central Processing Unit). ) Etc., and can also be realized by the cooperation of a program. The program which concerns on the suitable aspect of this invention uses the recognition model showing the tendency of the singing voice corresponding to the said attribute about each of a plurality of different attributes, and the analysis subject's singing voice becomes the voice of the said attribute. The computer functions as an index calculation unit that calculates an evaluation index that is an index of the corresponding accuracy, and an estimation processing unit that estimates the characteristics of the person being analyzed according to the evaluation index calculated for each of multiple attributes by the index calculation unit Let The program of the present invention can be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. For example, the program of the present invention can be provided in the form of distribution via a communication network and installed in a computer.
また、以上に説明した各態様に係る音声解析装置の動作方法(音声解析方法)としても本発明は特定される。本発明の好適な態様に係る音声解析方法は、相異なる複数の属性の各々について、当該属性に対応する歌唱音声の傾向を表す認識モデルを利用して、解析対象者の歌唱音声が当該属性の音声に該当する確度の指標である評価指標を算定する指標算定過程と、指標算定過程で複数の属性の各々について算定した評価指標に応じて解析対象者の性質を推定する推定処理過程とを包含する。 The present invention is also specified as an operation method (voice analysis method) of the voice analysis device according to each aspect described above. The speech analysis method according to a preferred aspect of the present invention uses, for each of a plurality of different attributes, a recognition model representing a tendency of singing speech corresponding to the attribute, and the singing speech of the analysis target person is that of the attribute. Includes an index calculation process that calculates an evaluation index, which is an index of accuracy corresponding to speech, and an estimation process that estimates the characteristics of the person being analyzed according to the evaluation index calculated for each of multiple attributes in the index calculation process To do.
100,54……音声解析装置、12……演算処理装置、14……記憶装置、16……収音装置、18……表示装置、22……学習処理部、24……音声解析部、26……歌唱評価部、32……指標算定部、34……推定処理部、52……管理装置。
100, 54... Voice analysis device, 12... Arithmetic processing device, 14... Storage device, 16... Sound collection device, 18. …… Singing evaluation unit, 32 …… Index calculation unit, 34 …… Estimation processing unit, 52 …… Management device.
Claims (8)
前記指標算定部が複数の前記属性の各々について算定した前記評価指標に応じて前記解析対象者の性質を推定する推定処理部と
を具備する音声解析装置。 For each of a plurality of different attributes, a recognition model representing the tendency of the singing voice corresponding to the attribute is used to calculate an evaluation index that is an index of the probability that the singing voice of the analysis target person corresponds to the voice of the attribute. An index calculation unit to
A speech analysis apparatus comprising: an estimation processing unit that estimates a property of the person to be analyzed according to the evaluation index calculated by the index calculation unit for each of the plurality of attributes.
請求項1の音声解析装置。 The estimation processing unit estimates the property of the analysis target person according to a combination of two or more attributes selected according to the evaluation index calculated by the index calculation unit among the plurality of attributes. Voice analysis device.
請求項1の音声解析装置。 The estimation processing unit calculates, for each of a plurality of weight value series corresponding to different estimation results, calculates a weighted sum of the evaluation indexes to which a plurality of weight values included in the weight value series are applied, and The speech analysis apparatus according to claim 1, wherein an estimation result corresponding to a weight value series selected according to the weighted sum among weight value series is specified.
請求項1から請求項3の何れかの音声解析装置。 The recognition model of each of the plurality of attributes is generated by machine learning using each reference voice of a set corresponding to the attribute among a plurality of sets obtained by classifying a plurality of reference voices for each attribute. Item 4. The voice analysis device according to any one of items 3 to 4.
請求項4の音声解析装置。 The plurality of reference voices are classified into the plurality of sets according to at least one of a time zone in which the reference voice is pronounced, a place where the reference voice is pronounced, and a character of a speaker of the reference voice. Voice analysis device.
請求項1から請求項5の何れかの音声解析装置。 The speech analysis apparatus according to any one of claims 1 to 5, wherein the estimation processing unit registers a result of estimating the property of the analysis target person in a marketing database.
を具備する請求項1から請求項5の何れかの音声解析装置。 The speech analysis apparatus according to claim 1, further comprising: a song evaluation unit that evaluates the skill of the person to be analyzed by an evaluation method according to an estimation result by the estimation processing unit.
を具備する請求項1から請求項5の何れかの音声解析装置。 The voice according to any one of claims 1 to 5, further comprising: a singing evaluation unit that presents an evaluation comment according to a result of evaluating the skill of singing by the person to be analyzed and an estimation result by the estimation processing unit. Analysis device.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015025055A JP6350325B2 (en) | 2014-02-19 | 2015-02-12 | Speech analysis apparatus and program |
PCT/JP2015/054688 WO2015125893A1 (en) | 2014-02-19 | 2015-02-19 | Voice analysis device |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014029538 | 2014-02-19 | ||
JP2014029538 | 2014-02-19 | ||
JP2015025055A JP6350325B2 (en) | 2014-02-19 | 2015-02-12 | Speech analysis apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015172736A true JP2015172736A (en) | 2015-10-01 |
JP6350325B2 JP6350325B2 (en) | 2018-07-04 |
Family
ID=53878390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015025055A Expired - Fee Related JP6350325B2 (en) | 2014-02-19 | 2015-02-12 | Speech analysis apparatus and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6350325B2 (en) |
WO (1) | WO2015125893A1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017173655A (en) * | 2016-03-25 | 2017-09-28 | ヤマハ株式会社 | Sound evaluation device and sound evaluation method |
WO2021210552A1 (en) * | 2020-04-17 | 2021-10-21 | 住友電工オプティフロンティア株式会社 | Fusion splicer, fusion splicing system, and method for fusion splicing optical fiber |
WO2021210546A1 (en) * | 2020-04-17 | 2021-10-21 | 住友電工オプティフロンティア株式会社 | Fusion splicing system for optical fibers, fusion splicer, model creation device, and method for fusion splicing optical fibers |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410913B (en) * | 2018-12-13 | 2022-08-05 | 百度在线网络技术(北京)有限公司 | Voice synthesis method, device, equipment and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282982A (en) * | 2000-03-28 | 2001-10-12 | Hisahiro Negi | Web marketing system |
JP2007256618A (en) * | 2006-03-23 | 2007-10-04 | Yamaha Corp | Search device |
JP2008165079A (en) * | 2006-12-29 | 2008-07-17 | Daiichikosho Co Ltd | Singer attribute group-by-group song competition system |
JP2009230038A (en) * | 2008-03-25 | 2009-10-08 | Xing Inc | Karaoke apparatus |
-
2015
- 2015-02-12 JP JP2015025055A patent/JP6350325B2/en not_active Expired - Fee Related
- 2015-02-19 WO PCT/JP2015/054688 patent/WO2015125893A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282982A (en) * | 2000-03-28 | 2001-10-12 | Hisahiro Negi | Web marketing system |
JP2007256618A (en) * | 2006-03-23 | 2007-10-04 | Yamaha Corp | Search device |
JP2008165079A (en) * | 2006-12-29 | 2008-07-17 | Daiichikosho Co Ltd | Singer attribute group-by-group song competition system |
JP2009230038A (en) * | 2008-03-25 | 2009-10-08 | Xing Inc | Karaoke apparatus |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017173655A (en) * | 2016-03-25 | 2017-09-28 | ヤマハ株式会社 | Sound evaluation device and sound evaluation method |
WO2021210552A1 (en) * | 2020-04-17 | 2021-10-21 | 住友電工オプティフロンティア株式会社 | Fusion splicer, fusion splicing system, and method for fusion splicing optical fiber |
WO2021210161A1 (en) * | 2020-04-17 | 2021-10-21 | 住友電工オプティフロンティア株式会社 | Fusion splicing machine, fusion splicing system, and method for fusion splicing fiber |
WO2021210546A1 (en) * | 2020-04-17 | 2021-10-21 | 住友電工オプティフロンティア株式会社 | Fusion splicing system for optical fibers, fusion splicer, model creation device, and method for fusion splicing optical fibers |
WO2021210162A1 (en) * | 2020-04-17 | 2021-10-21 | 住友電工オプティフロンティア株式会社 | Fusion splicing system for optical fiber, fusion splicer, and method for fusion-splicing optical fiber |
Also Published As
Publication number | Publication date |
---|---|
JP6350325B2 (en) | 2018-07-04 |
WO2015125893A1 (en) | 2015-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1901281B1 (en) | Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program | |
CN105575393A (en) | Personalized song recommendation method based on voice timbre | |
JP6350325B2 (en) | Speech analysis apparatus and program | |
Lehner et al. | Online, loudness-invariant vocal detection in mixed music signals | |
TW200925976A (en) | Media player for playing media files by emotion classes and method for the same | |
Samsekai Manjabhat et al. | Raga and tonic identification in carnatic music | |
JP6150237B2 (en) | Multilateral singing voice analysis system and multilateral singing voice analysis method | |
Nakano et al. | Vocal timbre analysis using latent Dirichlet allocation and cross-gender vocal timbre similarity | |
Yang | Computational modelling and analysis of vibrato and portamento in expressive music performance | |
Tsunoo et al. | Music mood classification by rhythm and bass-line unit pattern analysis | |
Panteli et al. | A model for rhythm and timbre similarity in electronic dance music | |
US10403304B1 (en) | Neural networks for identifying the potential of digitized audio to induce frisson in listeners | |
Jha et al. | Assessing vowel quality for singing evaluation | |
Loni et al. | Timbre-vibrato model for singer identification | |
Ebrahimi et al. | Predicting audio advertisement quality | |
Kroher | The flamenco cante: Automatic characterization of flamenco singing by analyzing audio recordings | |
JP5830840B2 (en) | Voice evaluation device | |
Kashyap et al. | Mood based classification of music by analyzing lyrical data using text mining | |
Nakano et al. | Musical similarity and commonness estimation based on probabilistic generative models | |
JP2016057570A (en) | Acoustic analysis device | |
WO2016039464A1 (en) | Acoustic analysis device | |
Liu et al. | Emotion Recognition of Violin Music based on Strings Music Theory for Mascot Robot System. | |
WO2015115666A1 (en) | Musical composition analysis device and singing evaluation device | |
Tiple et al. | An efficient framework for recommendation of Hindustani Art Music | |
Hasan et al. | Analyzing Musical Characteristics of National Anthems in Relation to Global Indices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180521 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6350325 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |