JPH1055195A - Speaker characteristic discrimination method by voice recognition - Google Patents
Speaker characteristic discrimination method by voice recognitionInfo
- Publication number
- JPH1055195A JPH1055195A JP21083396A JP21083396A JPH1055195A JP H1055195 A JPH1055195 A JP H1055195A JP 21083396 A JP21083396 A JP 21083396A JP 21083396 A JP21083396 A JP 21083396A JP H1055195 A JPH1055195 A JP H1055195A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- analysis
- model
- phoneme
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【発明の属する分野】この発明は、音声認識によって話
者の性別、年齢等の話者の特徴を判別する音声認識によ
る話者特徴判別方法に関する。[0001] 1. Field of the Invention [0002] The present invention relates to a speaker characteristic discriminating method by speech recognition for discriminating speaker characteristics such as sex and age of the speaker by speech recognition.
【0002】[0002]
【従来の技術】不特定の話者が発声した音声を認識する
方法は、既に開発されている。また、不特定の話者が発
声した音声に基づいて、話者の性別、年齢またはその両
方を判定する方法の開発も行なわれつつある。2. Description of the Related Art Methods for recognizing voices uttered by unspecified speakers have already been developed. In addition, a method of determining the sex and / or age of a speaker based on a voice uttered by an unspecified speaker is also being developed.
【0003】[0003]
【発明が解決しようとする課題】この発明は、不特定の
話者が発声した音声に基づいて、話者の性別、年齢等の
話者の特徴を判別することができる音声認識による話者
特徴判別方法を提供することを目的とする。SUMMARY OF THE INVENTION According to the present invention, a speaker characteristic based on speech recognition which can determine the speaker characteristics such as the sex and age of the speaker based on the voice uttered by an unspecified speaker. An object of the present invention is to provide a determination method.
【0004】[0004]
【課題を解決するための手段】この発明による第1の音
声認識による話者特徴判別方法は、学習処理と認識処理
とからなり、学習処理は、話者の特徴が異なる多数の話
者の音声をそれぞれ分析するステップ、各分析結果に含
まれている分析パラメータのうち音素の識別情報を多く
含む分析パラメータのみを採用して、全ての分析結果を
統計的に処理することにより、第1の音声認識モデルを
作成するステップ、各分析結果を上記第1の音声認識モ
デルを用いてセグメンテーションし、各分析結果の各フ
レームの分析パラメータと、上記第1の音声認識モデル
のモデルパラメータとの対応関係をそれぞれ求めるステ
ップ、ならびに各分析結果の各フレームの分析パラメー
タと上記第1の音声認識モデルのモデルパラメータとの
対応関係、および対応付けられたフレームの分析パラメ
ータのうち話者の特徴を表現しているパラメータに基づ
いて、話者の特徴ごとの第2の音声認識モデルを作成す
るステップを備え、認識処理は、認識対象音声データを
分析するステップ、分析結果を上記第1の音声認識モデ
ルを用いてセグメンテーションし、分析結果の各フレー
ムの分析パラメータと、上記第1の音声認識モデルのモ
デルパラメータとの対応関係をそれぞれ求めるステッ
プ、ならびに分析結果の各フレームの分析パラメータと
上記第1の音声認識モデルのモデルパラメータとの対応
関係と、話者の特徴ごとの上記第2の音声認識モデルと
に基づいて、上記認識対象音声データに対する分析結果
が、話者の特徴ごとの上記第2の音声認識モデルのう
ち、いずれのモデルに最も適合しているかを判定し、最
も適合しているモデルに対応する話者の特徴を、上記認
識対象音声データに対する話者の特徴とするステップを
備えていることを特徴とする。According to a first aspect of the present invention, a speaker characteristic discriminating method based on speech recognition includes a learning process and a recognition process. The learning process includes a plurality of speaker voices having different speaker characteristics. Analyzing each of the analysis results, and employing only the analysis parameters containing a large amount of phoneme identification information among the analysis parameters included in each analysis result, and statistically processing all the analysis results to obtain the first voice. Creating a recognition model, segmenting each analysis result using the first speech recognition model, and determining a correspondence between an analysis parameter of each frame of each analysis result and a model parameter of the first speech recognition model. A step of obtaining each, a correspondence relationship between an analysis parameter of each frame of each analysis result and a model parameter of the first speech recognition model, and Generating a second speech recognition model for each speaker characteristic based on the analysis parameters of the assigned frame that represent the characteristics of the speaker; Analyzing the data, segmenting the analysis result using the first speech recognition model, and determining a correspondence between an analysis parameter of each frame of the analysis result and a model parameter of the first speech recognition model, respectively. Based on the correspondence between the analysis parameters of each frame of the analysis result and the model parameters of the first speech recognition model, and the second speech recognition model for each speaker characteristic. Of the second speech recognition model for each feature of the speaker best fits any of the models. Was determined, the speaker characteristics corresponding to the model that best fit, characterized in that it comprises the step, wherein the speaker for the recognition target voice data.
【0005】この発明による第2の音声認識による話者
特徴判別方法は、学習処理と認識処理とからなり、学習
処理は、話者の特徴が異なる多数の話者の音声をそれぞ
れFFTケプストラム分析するステップ、各分析結果に
含まれている分析パラメータのうち音素の識別情報を多
く含む低次元の分析パラメータのみを採用して、全ての
分析結果を統計的に処理することにより、第1の音素H
MMセットを作成するステップ、各分析結果を上記第1
の音素HMMセットを用いてセグメンテーションし、各
分析結果の各フレームの分析パラメータと、上記第1の
音素HMMセット内の音素HMMとの対応関係をそれぞ
れ求めるステップ、ならびに各分析結果の各フレームの
分析パラメータと上記第1の音素HMMセット内の音素
HMMとの対応関係、および対応付けられたフレームの
分析パラメータのうち話者の特徴を表現している高次元
のパラメータに基づいて、話者の特徴ごとの第2の音素
HMMセットを作成するステップを備え、認識処理は、
認識対象音声データを分析するステップ、分析結果を上
記第1の音素HMMセットを用いてセグメンテーション
し、分析結果の各フレームの分析パラメータと上記第1
の音素HMMセット内の音素HMMとの対応関係をそれ
ぞれ求めるステップ、ならびに分析結果の各フレームの
分析パラメータと上記第1の音素HMMセット内の音素
HMMとの対応関係と、話者の特徴ごとの上記第2の音
素HMMセットとに基づいて、上記認識対象音声データ
に対する分析結果が、話者の特徴ごとの上記第2の音素
HMMセットのうち、いずれのモデルに最も適合してい
るかを判定し、最も適合しているモデルに対応する話者
の特徴を、上記認識対象音声データに対する話者の特徴
とするステップを備えていることを特徴とする。[0005] A second speaker feature discrimination method based on speech recognition according to the present invention includes a learning process and a recognition process. In the learning process, speeches of a large number of speakers having different speaker characteristics are respectively subjected to FFT cepstrum analysis. Step: The first phoneme H is obtained by statistically processing all the analysis results by adopting only low-dimensional analysis parameters including a large amount of phoneme identification information among the analysis parameters included in each analysis result.
The step of creating an MM set;
Segmentation using the phoneme HMM set of the above, obtaining the correspondence between the analysis parameter of each frame of each analysis result and the phoneme HMM in the first phoneme HMM set, and analyzing each frame of each analysis result. Based on the correspondence between the parameters and the phoneme HMMs in the first phoneme HMM set, and the analysis parameters of the associated frame, based on the high-dimensional parameters expressing the features of the speaker, the characteristics of the speaker Creating a second phoneme HMM set for each
Analyzing the speech data to be recognized, segmenting the analysis result using the first phoneme HMM set, analyzing the analysis parameters of each frame of the analysis result and the first
Determining the correspondence between the analysis parameters of each frame of the analysis result and the phonemes HMM in the first phoneme HMM set, and determining the correspondence between the analysis parameters of each frame of the analysis result and the phoneme HMM in the first phoneme HMM set. Based on the second phoneme HMM set, a determination is made as to which model of the second phoneme HMM set for each speaker characteristic the analysis result for the recognition target speech data best matches. And setting the feature of the speaker corresponding to the most suitable model as the feature of the speaker with respect to the recognition target speech data.
【0006】上記話者の特徴とは、年齢、性別、身長、
体重等をいい話者を特定可能な特徴からなる事項をい
う。[0006] The characteristics of the speaker include age, gender, height,
It refers to items that have characteristics that can identify a speaker with good weight.
【0007】[0007]
【発明の実施の形態】以下、この発明を、話者の性別お
よび年齢判定方法に適用した場合の実施の形態について
説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment in which the present invention is applied to a method for determining the sex and age of a speaker will be described below.
【0008】〔1〕話者の性別および年齢判定方法の概
要説明[1] Outline of method for determining gender and age of speaker
【0009】話者の性別および年齢判定方法は、性別お
よび年齢判定を行なう前に予め行なわれる学習処理と、
学習処理結果に基づいて話者の性別および年齢判定を行
なう認識処理とからなる。[0009] The gender and age determination method of the speaker includes a learning process performed in advance before performing the gender and age determination;
A recognition process for determining the sex and age of the speaker based on the result of the learning process.
【0010】〔1−1〕学習処理[1-1] Learning process
【0011】学習処理は、次のようにして行なわれる。The learning process is performed as follows.
【0012】(1)性別および年齢が異なる多数の話者
の音声を分析する。(1) Analyze the voices of many speakers with different genders and ages.
【0013】(2)各分析結果に含まれている分析パラ
メータのうち音素の識別情報を多く含む分析パラメータ
のみを採用して、全ての分析結果を統計的に処理するこ
とにより、第1の音声認識モデルを作成する。(2) The first speech is obtained by statistically processing all the analysis results by using only the analysis parameters containing a large amount of phoneme identification information among the analysis parameters included in each analysis result. Create a recognition model.
【0014】(3)各分析結果を上記第1の音声認識モ
デルを用いてセグメンテーションし、各分析結果の各フ
レームの分析パラメータと、上記音声認識モデルのモデ
ルパラメータとの対応関係をそれぞれ求める。(3) Each analysis result is segmented using the first speech recognition model, and the correspondence between the analysis parameter of each frame of each analysis result and the model parameter of the speech recognition model is obtained.
【0015】(4)各分析結果の各フレームの分析パラ
メータと上記第1の音声認識モデルのモデルパラメータ
との対応関係、および対応付けられたフレームの分析パ
ラメータのうち性別および年齢を表現しているパラメー
タに基づいて、性別および年齢ごとの第2の音声認識モ
デルを作成する。(4) The correspondence between the analysis parameters of each frame of each analysis result and the model parameters of the first speech recognition model, and the sex and age of the analysis parameters of the associated frames are expressed. A second speech recognition model for each gender and age is created based on the parameters.
【0016】〔1−2〕認識処理[1-2] Recognition processing
【0017】認識処理は、次のようにして行なわれる。The recognition process is performed as follows.
【0018】(1)認識対象音声データを分析する。(1) The speech data to be recognized is analyzed.
【0019】(2)分析結果を上記第1の音声認識モデ
ルを用いてセグメンテーションし、分析結果の各フレー
ムの分析パラメータと、上記第1の音声認識モデルのモ
デルパラメータとの対応関係をそれぞれ求める。(2) The analysis result is segmented using the first speech recognition model, and the correspondence between the analysis parameter of each frame of the analysis result and the model parameter of the first speech recognition model is obtained.
【0020】(3)分析結果の各フレームの分析パラメ
ータと上記第1の音声認識モデルのモデルパラメータと
の対応関係と、性別および年齢ごとの上記第2の音声認
識モデルとに基づいて、上記認識対象音声データに対す
る分析結果が、性別および年齢ごとの上記第2の音声認
識モデルのうち、いずれのモデルに最も適合しているか
を判定し、最も適合しているモデルに対応する性別およ
び年齢を、上記認識対象音声データに対する性別および
年齢とする。(3) The recognition based on the correspondence between the analysis parameters of each frame of the analysis result and the model parameters of the first speech recognition model and the second speech recognition model for each gender and age. The analysis result for the target speech data determines which of the second speech recognition models for each gender and age best fits the model, and determines the gender and age corresponding to the best fitting model, The gender and age for the above-mentioned recognition target voice data are set.
【0021】〔2〕HMMを用いた話者の性別および年
齢判定方法の具体的な説明[2] Specific description of a method for determining the sex and age of a speaker using HMM
【0022】以下、HMM(Hidden Markov Model)を用
いた話者の性別および年齢判定方法について具体的に説
明する。Hereinafter, a method of determining the sex and age of a speaker using an HMM (Hidden Markov Model) will be specifically described.
【0023】HMMとは、音声の統計的特徴をガウス分
布等の分布によって近似的に表現する確率モデルをい
う。HMMでは、フレームとモデルとの対応関係は、フ
レームと各状態との対応関係となる。また、各状態内に
おいては、性別および年齢の特徴は、基底分布で表現さ
れる。さらに、サブワードモデルである場合には、サブ
ワードモデルの連結により、文章等を認識し、認識した
モデル系列に従って、セグメンテーションを行なう。The HMM is a stochastic model that approximates the statistical characteristics of speech by a distribution such as a Gaussian distribution. In the HMM, the correspondence between the frame and the model is the correspondence between the frame and each state. In each state, gender and age characteristics are represented by a basal distribution. Further, in the case of a subword model, a sentence or the like is recognized by connecting the subword models, and segmentation is performed according to the recognized model sequence.
【0024】以下においては、対角共分散行列の混合ガ
ウス分布型HMMを用いた場合について説明する。ま
た、音素HMMの構造は、left-to-right 型4状態3ル
ープ構造であるとする。In the following, a case will be described in which a Gaussian mixture HMM with a diagonal covariance matrix is used. It is also assumed that the structure of the phoneme HMM is a left-to-right type four-state three-loop structure.
【0025】〔2−1〕学習処理 学習処理は、次のようにして行なわれる。[2-1] Learning Process The learning process is performed as follows.
【0026】(1)性別および年齢が異なる多数の話者
の音声をFFTケプストラム分析する。ここでは、12
8次元のパラメータが得られるものとする。(1) FFT cepstrum analysis of voices of many speakers having different genders and ages. Here, 12
It is assumed that eight-dimensional parameters are obtained.
【0027】(2)各分析結果に含まれている分析パラ
メータのうち音素の識別情報を多く含む低次元、たとえ
ば1〜16次元の分析パラメータのみを採用し、周知の
フォワードバックワードアルゴリズム等の学習則によっ
て、第1の音素HMMのセット(第1の音声認識モデ
ル)を作成する。(2) Of the analysis parameters included in each analysis result, only low-dimensional, for example, 1 to 16-dimensional analysis parameters containing a large amount of phoneme identification information are employed, and learning of a well-known forward backward algorithm or the like is performed. According to the rule, a first phoneme HMM set (first speech recognition model) is created.
【0028】作成された不特定話者音素HMMのセット
をA={λ1 ,…,λi …,λI }と定義する。ここ
で、iは音素HMMの番号を示している。また、Iは音
素HMM数を示している。The set of unspecified speaker phoneme HMMs is defined as A = {λ 1 ,..., Λ i , λ I }. Here, i indicates a phoneme HMM number. I indicates the number of phoneme HMMs.
【0029】また、i番目の音素HMM{λi }は、 λi ={wi,s,m ,ai,s,q , μi,s,m , σ2 i,s,m } で表される。The i-th phoneme HMM {λ i } is λ i = {wi , s, m , ai, s, q, μi , s, m, σ 2 i, s, m }. expressed.
【0030】ここで、wi,s,m ,μi,s,m およびσ2
i,s,m は、i番目の音素HMMにおける、第s状態のm
番目のガウス分布の分岐確率、平均ベクトルおよび分散
値のベクトルをそれぞれ表している。また、a
i,s,q は、i番目の音素HMMの第s状態から第q状態
への遷移確率を表している。Here, w i, s, m , μ i, s, m and σ 2
i, s, m is m in the s-th state in the i-th phoneme HMM
A branch probability, a mean vector, and a variance vector of the Gaussian distribution are respectively shown. Also, a
i, s, q represents the transition probability of the i-th phoneme HMM from the s-th state to the q-th state.
【0031】(3)次に、性別および年齢別の各分析結
果(学習用音声資料O)ごとに、各分析結果を第1の音
素HMMのセットを用いてセグメンテーションし、各分
析結果の各フレームの分析パラメータと、上記第1の音
素HMMセット内の音素HMMとの対応関係をそれぞれ
求める。以下、この処理について説明する。(3) Next, for each analysis result (speech data O for learning) by gender and age, each analysis result is segmented using a first phoneme HMM set, and each frame of each analysis result is segmented. And the corresponding relationship between the analysis parameter and the phoneme HMM in the first phoneme HMM set. Hereinafter, this processing will be described.
【0032】学習用音声資料Oを、次の数式1に示すよ
うに定義する。The learning audio material O is defined as shown in the following Expression 1.
【0033】[0033]
【数1】 (Equation 1)
【0034】Oは、学習用単語を表している。ot は、
フレーム番号tにおける特徴ベクトルを表している。T
は、Oのフレーム数を表している。O represents a learning word. o t
This represents the feature vector at the frame number t. T
Represents the number of O frames.
【0035】学習用単語Oに対して、ビタビアルゴリズ
ムを用いてセグメンテーション(以下、ビダビセグメン
テーションという)を行ない、学習用単語Oに対応する
単語HMMを上記第1の音素HMMセット内の音素HM
Mを連結することによって生成する。そして、得られた
単語HMM内の音素HMMと、学習用単語Oの各フレー
ムとの対応関係Θc を求める。対応関係Θc を求める際
の学習用単語Oの特徴ベクトルとしては、音素の識別情
報を多く含む低次元の特徴ベクトルが用いられる。The learning word O is subjected to segmentation (hereinafter referred to as Viterbi segmentation) using the Viterbi algorithm, and the word HMM corresponding to the learning word O is converted to the phoneme HM in the first phoneme HMM set.
Generated by concatenating M. Then, a correspondence Θ c between the phoneme HMM in the obtained word HMM and each frame of the learning word O is obtained. The feature vector of the learning word O for obtaining the correspondence theta c, feature vectors of low dimensional rich phoneme identification information is used.
【0036】対応関係Θc は、次の数式2に示すように
定義される。The correspondence Θ c is defined as shown in the following Expression 2.
【0037】[0037]
【数2】 (Equation 2)
【0038】数式2において、ψc,t およびθc,t は、
フレーム番号tにおける音素HMMの番号および音素H
MMの状態の番号をそれぞれ示している。このような処
理は、性別および年齢別に予め分類されている学習用単
語Oのそれぞれに対して行なわれる。In Equation 2, ψ c, t and θ c, t are
Phoneme HMM number and phoneme H at frame number t
The numbers of the states of the MM are shown. Such processing is performed on each of the learning words O that are classified in advance by gender and age.
【0039】なお、学習用単語Oに対応する音素HMM
系列をξc とすると、学習用単語Oと音素HMM系列ξ
c との間の尤度P(O,Θc |ξc )は数式3、4、5
に示すように定義される。The phoneme HMM corresponding to the learning word O
If the sequence is ξ c , the learning word O and the phoneme HMM sequence MM
likelihood P (O, Θ c | ξ c) between the c The formula 3,4,5
Is defined as shown below.
【0040】[0040]
【数3】 (Equation 3)
【0041】[0041]
【数4】 (Equation 4)
【0042】[0042]
【数5】 (Equation 5)
【0043】数式4において、Mは、各状態における混
合分布数である。In Equation 4, M is the number of mixture distributions in each state.
【0044】数式5において、Dl はot の低次の次数
である。[0044] In Equation 5, D l is a low following the order of the o t.
【0045】数式5において、ot,d 、μi,s,m,d およ
び σ2 i,s,m,d は、ot 、μi,s, m およびσ2 i,s,m
の第d要素の値をそれぞれ示している。In equation (5), o t, d , μ i, s, m, d and σ 2 i, s, m, d is, o t, μ i, s , m and σ 2 i, s, m
Respectively indicate the value of the d-th element.
【0046】また、ot の低次の次数とは、0≦d≦D
l であり、高次の次数とはDl +1≦d≦Dの範囲を表
す。The low-order degree of o t is 0 ≦ d ≦ D
l , and the higher order represents a range of D l + 1 ≦ d ≦ D.
【0047】(4)次に、各性別および年齢ごとの第2
の音素HMMセット(第2の音声認識モデル)を求め
る。つまり、性別および年齢ごとに求められた対応関係
Θc ごとに、以下のような処理を行なう。(4) Next, the second for each gender and age
(A second speech recognition model) is obtained. That is, for each correspondence relationship theta c obtained for each gender and age, performs the following process.
【0048】上記ビダビセグメンテーションにより、θ
c,t =iかつψc,t =sと対応づけられたフレーム番号
tの組をΨc,i,s と定義する。同じΨc,i,s に含まれる
複数のフレームot から最尤推定によって確率密度関数
を求める。ここでは、混合分布として、確率密度関数を
求めてもよい。この様にして、各性別および年齢ごとの
第2の音素HMMのセットを求める。By the above Vidavi segmentation, θ
A set of frame numbers t associated with c, t = i and ψc , t = s is defined as Ψc , i, s . Determining a probability density function by maximum likelihood estimation from the same Ψ c, i, a plurality of frames included in s o t. Here, a probability density function may be obtained as a mixture distribution. In this way, a second phoneme HMM set for each gender and age is determined.
【0049】尚、各状態毎に学習するのではなく、音素
毎のセグメンテーション結果を用いて、斯かるセグメン
テーション区間に対応付けられた分析データに対して、
周知のフォワードバックワードアルゴリズムにより、第
2の音素HMMセットを求めてもよい。It is to be noted that, instead of learning for each state, the analysis data associated with the segmentation section is obtained by using the segmentation result for each phoneme.
The second phoneme HMM set may be determined by a well-known forward backward algorithm.
【0050】各性別および年齢ごとの第2の音素HMM
のセット(Λr )および各音素HMM(λi r )は、そ
れぞれ次の数式6および数式7に示すように定義され
る。Second phoneme HMM for each gender and age
(Λ r ) and each phoneme HMM (λ i r ) are defined as shown in the following Expressions 6 and 7, respectively.
【0051】[0051]
【数6】 (Equation 6)
【0052】[0052]
【数7】 (Equation 7)
【0053】〔2−2〕認識処理[2-2] Recognition processing
【0054】認識処理は、次のようにして行なわれる。The recognition process is performed as follows.
【0055】(1)認識対象音声をFFTケプストラム
分析する。そして、上記数式1と同様に定義されるよう
な認識対象単語Oを生成する。(1) FFT cepstrum analysis is performed on the speech to be recognized. Then, a recognition target word O as defined in the same manner as Expression 1 is generated.
【0056】(2)認識対象単語Oに対して、認識対象
単語Oに対応する単語HMMを第1の音素HMMセット
(第1の音声認識モデル)内の音素HMMを連結するこ
とによって生成する。尚、発声内容が未知の場合、単語
HMMは音素HMMを用いて認識対象単語Oを認識した
結果得られた音素列に対応したものを用いてもよい。そ
して、得られた単語HMM内の音素HMMと学習用単語
Oとの対応関係Θc をビタビセグメンテーションにより
求める。対応関係Θc を求める際の認識対象単語Oの特
徴ベクトルとしては、音素の識別情報を多く含む低次元
の特徴ベクトルが用いられる。(2) For the recognition target word O, a word HMM corresponding to the recognition target word O is generated by connecting the phoneme HMMs in the first phoneme HMM set (first speech recognition model). If the utterance content is unknown, the word HMM may correspond to a phoneme string obtained as a result of recognizing the recognition target word O using the phoneme HMM. Then, the correspondence Θ c between the phoneme HMM in the obtained word HMM and the learning word O is obtained by Viterbi segmentation. The feature vector to be recognized word O for obtaining the correspondence theta c, feature vectors of low dimensional rich phoneme identification information is used.
【0057】(3)得られた対応関係Θc の音素HMM
の状態系列にしたがって、各性別および年齢別の第2の
音素HMMのセット(Λr )に関する尤度P(O,Θc
|ξc)r を、数式8、9および10に基づいて求め
る。そして、尤度が最大となる第2の音素HMMのセッ
トに対応する性別および年齢を認識結果とする。(3) Phoneme HMM of the obtained correspondence Θ c
, The likelihood P (O, Θ c ) for each gender and age-specific second phoneme HMM set (のr )
| Ξ c ) r is determined based on equations 8, 9 and 10. Then, the gender and the age corresponding to the second phoneme HMM set having the maximum likelihood are set as the recognition results.
【0058】[0058]
【数8】 (Equation 8)
【0059】[0059]
【数9】 (Equation 9)
【0060】[0060]
【数10】 (Equation 10)
【0061】数式10から分かるように、各性別および
年齢別の第2の音素HMMのセット(Λr )に関する尤
度P(O,Θc |ξc )r の計算を行なう際には、性別
および年齢を表現している高次元のパラメータが用いら
れている。[0061] As can be seen from Equation 10, the sex and age of the second set of phoneme HMM (lambda r) regarding the likelihood P (O, Θ c | ξ c) in the calculation of r is gender And a high-dimensional parameter expressing age.
【0062】上記実施の形態によれば、不特定の話者が
発声した音声に基づいて、話者の性別、年齢またはその
両方を判定することができるようになる。また、第1の
音素HMMのセットの作成および対応関係Θc の演算
は、各分析結果に含まれている分析パラメータのうち音
素の識別情報を多く含む低次元、たとえば1〜16次元
の分析パラメータのみに基づいて行なわれているので、
演算速度の向上化が図れる。According to the above embodiment, the sex and / or age of the speaker can be determined based on the voice uttered by the unspecified speaker. The creation of the first set of phoneme HMMs and the calculation of the correspondence Θ c are performed in a low-dimensional analysis parameter containing a large amount of phoneme identification information, for example, 1 to 16-dimensional analysis parameters among the analysis parameters included in each analysis result Only on the basis of
The calculation speed can be improved.
【0063】上記実施の形態では、不特定の話者が発声
した音声に基づいて、話者の性別および年齢を同時に判
定する場合について説明したが、話者の性別のみを判定
する場合、話者の年齢のみを判定する場合にも、この発
明を適用できることはいうまでもない。In the above embodiment, the case where the gender and age of the speaker are simultaneously determined based on the voice uttered by the unspecified speaker has been described. However, when only the gender of the speaker is determined, It is needless to say that the present invention can also be applied to the case where only the age is determined.
【0064】また、この発明は、話者の性別、年齢以外
の和種の特徴、たとえば、話者の身長、体重等を判別す
る場合にも適用することができる。The present invention can also be applied to the case of discriminating the characteristics of the Japanese species other than the sex and age of the speaker, for example, the height and weight of the speaker.
【0065】[0065]
【発明の効果】この発明によれば、不特定の話者が発声
した音声に基づいて、話者の性別、年齢等の話者の特徴
を判別することができるようになる。According to the present invention, it is possible to determine the speaker characteristics such as the sex and age of the speaker based on the voice uttered by the unspecified speaker.
Claims (3)
るステップ、 各分析結果に含まれている分析パラメータのうち音素の
識別情報を多く含む分析パラメータのみを採用して、全
ての分析結果を統計的に処理することにより、第1の音
声認識モデルを作成するステップ、 各分析結果を上記第1の音声認識モデルを用いてセグメ
ンテーションし、各分析結果の各フレームの分析パラメ
ータと、上記第1の音声認識モデルのモデルパラメータ
との対応関係をそれぞれ求めるステップ、ならびに各分
析結果の各フレームの分析パラメータと上記第1の音声
認識モデルのモデルパラメータとの対応関係、および対
応付けられたフレームの分析パラメータのうち話者の特
徴を表現しているパラメータに基づいて、話者の特徴ご
との第2の音声認識モデルを作成するステップを備え、 認識処理は、 認識対象音声データを分析するステップ、 分析結果を上記第1の音声認識モデルを用いてセグメン
テーションし、分析結果の各フレームの分析パラメータ
と、上記第1の音声認識モデルのモデルパラメータとの
対応関係をそれぞれ求めるステップ、ならびに分析結果
の各フレームの分析パラメータと上記第1の音声認識モ
デルのモデルパラメータとの対応関係と、話者の特徴ご
との上記第2の音声認識モデルとに基づいて、上記認識
対象音声データに対する分析結果が、話者の特徴ごとの
上記第2の音声認識モデルのうち、いずれのモデルに最
も適合しているかを判定し、最も適合しているモデルに
対応する話者の特徴を、上記認識対象音声データに対す
る話者の特徴とするステップを備えている音声認識によ
る話者特徴判別方法。1. A learning process comprising: a learning process and a recognition process. The learning process includes the steps of analyzing voices of a large number of speakers having different characteristics of the speakers, and a phoneme among analysis parameters included in each analysis result. Creating a first speech recognition model by statistically processing all analysis results by using only analysis parameters containing a large amount of identification information, and analyzing each analysis result by using the first speech recognition model. Calculating the correspondence between the analysis parameter of each frame of each analysis result and the model parameter of the first speech recognition model, and analyzing the analysis parameter of each frame of each analysis result and the first speech. It represents the correspondence between the recognition model and the model parameters, and the speaker characteristics among the analysis parameters of the associated frame. Generating a second speech recognition model for each speaker feature based on the parameters; the recognition processing includes: analyzing the speech data to be recognized; and analyzing the analysis result using the first speech recognition model. Performing a segmentation to determine a corresponding relationship between an analysis parameter of each frame of the analysis result and a model parameter of the first speech recognition model, and an analysis parameter of each frame of the analysis result and the first speech recognition model; Based on the correspondence relationship with the model parameters and the second speech recognition model for each speaker feature, the analysis result for the recognition target speech data is obtained based on the second speech recognition model for each speaker feature. The best fit model is determined, and the characteristics of the speaker corresponding to the best fit model are recognized as described above. A speaker characteristic discriminating method based on voice recognition, comprising a step of characterizing a speaker with respect to target voice data.
ケプストラム分析するステップ、 各分析結果に含まれている分析パラメータのうち音素の
識別情報を多く含む低次元の分析パラメータのみを採用
して、全ての分析結果を統計的に処理することにより、
第1の音素HMMセットを作成するステップ、 各分析結果を上記第1の音素HMMセットを用いてセグ
メンテーションし、各分析結果の各フレームの分析パラ
メータと、上記第1の音素HMMセット内の音素HMM
との対応関係をそれぞれ求めるステップ、ならびに各分
析結果の各フレームの分析パラメータと上記第1の音素
HMMセット内の音素HMMとの対応関係、および対応
付けられたフレームの分析パラメータのうち話者の特徴
を表現している高次元のパラメータに基づいて、話者の
特徴ごとの第2の音素HMMセットを作成するステップ
を備え、 認識処理は、 認識対象音声データを分析するステップ、 分析結果を上記第1の音素HMMセットを用いてセグメ
ンテーションし、分析結果の各フレームの分析パラメー
タと上記第1の音素HMMセット内の音素HMMとの対
応関係をそれぞれ求めるステップ、ならびに分析結果の
各フレームの分析パラメータと上記第1の音素HMMセ
ット内の音素HMMとの対応関係と、話者の特徴ごとの
上記第2の音素HMMセットとに基づいて、上記認識対
象音声データに対する分析結果が、話者の特徴ごとの上
記第2の音素HMMセットのうち、いずれのモデルに最
も適合しているかを判定し、最も適合しているモデルに
対応する話者の特徴を、上記認識対象音声データに対す
る話者の特徴とするステップを備えている音声認識によ
る話者特徴判別方法。2. The learning process includes a learning process and a recognition process.
Cepstrum analysis step, by adopting only low-dimensional analysis parameters including a large amount of phoneme identification information among the analysis parameters included in each analysis result, and statistically processing all analysis results,
Creating a first phoneme HMM set; segmenting each analysis result using said first phoneme HMM set; analyzing parameters of each frame of each analysis result and phoneme HMMs in said first phoneme HMM set;
And the corresponding relationship between the analysis parameter of each frame of each analysis result and the phoneme HMM in the first phoneme HMM set, and the speaker's analysis parameter among the analysis parameters of the associated frame. Generating a second phoneme HMM set for each speaker feature based on the high-dimensional parameters representing the features; and recognizing the speech data to be recognized. Segmenting using the first phoneme HMM set to determine the correspondence between the analysis parameter of each frame of the analysis result and the phoneme HMM in the first phoneme HMM set, respectively, and the analysis parameter of each frame of the analysis result And the correspondence between the phoneme HMMs in the first phoneme HMM set and the phoneme HMM for each speaker feature. Of the second phoneme HMM set for each speaker feature is determined based on the phoneme HMM set of A speaker characteristic discrimination method by voice recognition, comprising the step of setting the characteristics of the speaker corresponding to the model being performed to the characteristics of the speaker with respect to the recognition target voice data.
よび体重のうちから任意に選択された1つまたはそれら
の任意の組み合わせである請求項1および2のいずれか
に記載の音声認識による話者特徴判別方法。3. The speech recognition according to claim 1, wherein the feature of the speaker is one arbitrarily selected from age, gender, height, and weight, or any combination thereof. Speaker characteristic discrimination method by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21083396A JPH1055195A (en) | 1996-08-09 | 1996-08-09 | Speaker characteristic discrimination method by voice recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21083396A JPH1055195A (en) | 1996-08-09 | 1996-08-09 | Speaker characteristic discrimination method by voice recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1055195A true JPH1055195A (en) | 1998-02-24 |
Family
ID=16595875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21083396A Pending JPH1055195A (en) | 1996-08-09 | 1996-08-09 | Speaker characteristic discrimination method by voice recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1055195A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007001758A (en) * | 2005-06-27 | 2007-01-11 | Hitachi Ltd | Elevator control device |
JP2008164965A (en) * | 2006-12-28 | 2008-07-17 | Daiichikosho Co Ltd | Karaoke system with singing voice age evaluation display function |
CN111341318A (en) * | 2020-01-22 | 2020-06-26 | 北京世纪好未来教育科技有限公司 | Speaker role determination method, device, equipment and storage medium |
-
1996
- 1996-08-09 JP JP21083396A patent/JPH1055195A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007001758A (en) * | 2005-06-27 | 2007-01-11 | Hitachi Ltd | Elevator control device |
JP2008164965A (en) * | 2006-12-28 | 2008-07-17 | Daiichikosho Co Ltd | Karaoke system with singing voice age evaluation display function |
CN111341318A (en) * | 2020-01-22 | 2020-06-26 | 北京世纪好未来教育科技有限公司 | Speaker role determination method, device, equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Reynolds et al. | Robust text-independent speaker identification using Gaussian mixture speaker models | |
Stolcke et al. | Speaker recognition with session variability normalization based on MLLR adaptation transforms | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch | |
JP2000081894A (en) | Speech evaluation method | |
EP1701337B1 (en) | Method of speech recognition | |
EP1647970A1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
US6895376B2 (en) | Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification | |
JPH09127972A (en) | Vocalization discrimination and verification for recognitionof linked numeral | |
JPH06274200A (en) | Equipment and method for audio coding | |
JP3298858B2 (en) | Partition-based similarity method for low-complexity speech recognizers | |
JP2007219286A (en) | Style detecting device for speech, its method and its program | |
JP3525082B2 (en) | Statistical model creation method | |
Nakagawa et al. | Text-independent/text-prompted speaker recognition by combining speaker-specific GMM with speaker adapted syllable-based HMM | |
JPH1055195A (en) | Speaker characteristic discrimination method by voice recognition | |
JP2700143B2 (en) | Voice coding apparatus and method | |
JP4391179B2 (en) | Speaker recognition system and method | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
JP2001255887A (en) | Speech recognition device, speech recognition method and medium recorded with the method | |
JP3036509B2 (en) | Method and apparatus for determining threshold in speaker verification | |
Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
JP3289670B2 (en) | Voice recognition method and voice recognition device | |
Nose et al. | A technique for estimating intensity of emotional expressions and speaking styles in speech based on multiple-regression HSMM | |
JP2943473B2 (en) | Voice recognition method | |
JPH0619497A (en) | Speech recognizing method |