JP3003355B2 - Standard pattern making device - Google Patents

Standard pattern making device

Info

Publication number
JP3003355B2
JP3003355B2 JP4031832A JP3183292A JP3003355B2 JP 3003355 B2 JP3003355 B2 JP 3003355B2 JP 4031832 A JP4031832 A JP 4031832A JP 3183292 A JP3183292 A JP 3183292A JP 3003355 B2 JP3003355 B2 JP 3003355B2
Authority
JP
Japan
Prior art keywords
pattern
task
mapping
creating
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4031832A
Other languages
Japanese (ja)
Other versions
JPH05232985A (en
Inventor
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4031832A priority Critical patent/JP3003355B2/en
Publication of JPH05232985A publication Critical patent/JPH05232985A/en
Application granted granted Critical
Publication of JP3003355B2 publication Critical patent/JP3003355B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は音声認識において、学習
データを用いて標準パターンを作成する標準パターン作
成装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a standard pattern creating apparatus for creating a standard pattern using learning data in speech recognition.

【0002】[0002]

【従来の技術】現在、音声認識の分野では、誰の声でも
認識できることを目標とした不特定話者の認識システム
が盛んに研究・開発されている。これらの認識システム
では、隠れマルコフモデル、ニューラルネットワークな
どの認識方式が広く使われている。隠れマルコフモデル
の詳細については、例えば、「確率モデルによる音声認
識」中川聖一著、1988年、電子情報通信学会(以下
文献1とする)に詳しく解説されている。また、ニュー
ラルネットワークによる音声認識に関しては、例えば、
「音声・聴覚と神経回路網モデル」甘利俊一編、199
0年、オーム社(以下文献2とする)に詳しい。これら
の手法では、予め多数の話者により発声された単語、文
などからなる学習データを用いて学習を行ない、より精
度の高い標準パターンを作成することにより、高性能な
認識を実現している。
2. Description of the Related Art At present, in the field of speech recognition, an unspecified speaker recognition system aiming to be able to recognize anyone's voice has been actively researched and developed. In these recognition systems, recognition methods such as a hidden Markov model and a neural network are widely used. The details of the hidden Markov model are described in detail, for example, in "Speech Recognition by Probabilistic Model", written by Seiichi Nakagawa, IPSJ (1988). Also, regarding speech recognition by a neural network, for example,
"Speech / Hearing and Neural Network Model" Shunichi Amari, eds. 199
In 0, he was familiar with Ohmsha (hereinafter referred to as Reference 2). In these methods, learning is performed using learning data composed of words, sentences, and the like uttered in advance by a large number of speakers, and high-performance recognition is realized by creating a more accurate standard pattern. .

【0003】現在のところ、音声認識システムでは、認
識装置のハードウェア的な制約のために、あるいは、認
識性能を高めるために、認識装置の用途に応じて認識対
象語彙を制限している。上限は単語数にして1000単
語程度である。例えば、チケット予約の用途では、アー
ティスト名、コンサート会場名、予約の発話に用いる語
彙、などが対象語彙となり、それらから構成される発話
全体が、認識対象となる。ここでは、特許請求の範囲の
項における「タスク」の例として、この限定された認識
対象を挙げ、以下に説明することとする。この場合、タ
スクが違うということは認識対象語彙、及び、それから
構成される認識対象が異なるという意味である。
At present, in a speech recognition system, the vocabulary to be recognized is limited depending on the use of the recognition device due to hardware limitations of the recognition device or to enhance recognition performance. The upper limit is about 1000 words. For example, in the use of ticket reservation, an artist name, a concert venue name, a vocabulary used for utterance of a reservation, and the like are target vocabularies, and the entire utterance composed of them is a recognition target. Here, as an example of the “task” in the claims, this limited recognition target will be described and described below. In this case, different tasks mean that the recognition target vocabulary and the recognition target formed therefrom are different.

【0004】さて、標準パターンが、単語単位、あるい
は、文単位で作成されている場合、異なるタスクを認識
しようとするときには、もとのタスクには存在しない
が、そのタスクには存在する未知の認識対象語彙を新た
に学習する必要が生じる。しかしながら、不特定話者認
識システムにおける標準パターンの学習には、多くの話
者の発明を必要とするため、タスクの変更の度に新たな
語彙を学習することは、データベースの構築に、多大な
コスト・時間を必要とし、現実的ではない。
When a standard pattern is created in word units or sentence units, when recognizing a different task, it does not exist in the original task but does not exist in the task. It is necessary to learn a new vocabulary to be recognized. However, learning a standard pattern in an unspecified speaker recognition system requires the invention of many speakers. Therefore, learning a new vocabulary every time a task is changed requires a great deal of work in constructing a database. It requires cost and time and is not realistic.

【0005】従って、通常の不特定話者システムでは、
認識単位として単語より小さいサブワード(音素、音節
など)を用い、学習時にはこれら認識単位のモデルを学
習する。違うタスクの新しい語彙のモデルは、これらの
サブワードのモデルを連結することにより、容易に作成
することが可能である。
Accordingly, in a general speaker-independent system,
Sub-words (phonemes, syllables, etc.) smaller than words are used as recognition units, and models of these recognition units are learned during learning. New vocabulary models for different tasks can easily be created by concatenating these subword models.

【0006】不特定話者認識装置では、すべての認識単
位がなるべく均等に表れるような基準となるタスクを選
び、認識単位のモデルを学習している例が多い。
In an unspecified speaker recognition apparatus, there are many examples in which a reference task is selected so that all recognition units appear as evenly as possible, and a model of the recognition unit is learned.

【0007】[0007]

【発明が解決しようとする課題】上述したサブワードを
認識単位として用いた認識システムでは、学習に用いた
もとのタスクとは異なるタスクを認識しようとする場
合、もとのタスクを認識する場合に比べ、認識性能が落
ちることが、最近、報告されている。
In the recognition system using the above-described subword as a recognition unit, when a task different from the original task used for learning is to be recognized, compared with the case where the original task is recognized, It has recently been reported that cognitive performance is degraded.

【0008】これは、新しいタスクにおいては、サブワ
ードに対応する実際の発声が、前後のサブワードが何で
あるかなど、その周囲環境の違いにより変形を被り、学
習時のものとは異なったものとなっていることが原因で
あると考えられる。
In a new task, the actual utterance corresponding to a subword is deformed due to a difference in its surrounding environment, such as what the preceding and following subwords are, and becomes different from that at the time of learning. Is considered to be the cause.

【0009】上述の問題点の対象としては、新しいタス
クの発声を用いて再度学習をし直すということが考えら
れる。しかしながら、タスクが変わる度に、そのタスク
を多数話者が発声したデータベースを用意することは、
大変な労力を必要とする。
As a target of the above-mentioned problem, it is conceivable that learning is performed again using the utterance of a new task. However, preparing a database in which many speakers utter the task every time the task changes,
Requires great effort.

【0010】本発明は、不特定話者認識システムにおい
て、タスクの変更がある場合でも、多数の話者のタスク
の発声データ学習データに加えて、少数の話者のもとの
タスクと新しいタスクの発声データを用いることによ
り、多数の話者の新しいタスクの発声を用いずに、新し
いタスクに対する精度の高い標準パターンを作成し、新
しいタスクに対する認識装置の性能を高めることを目的
とする。
According to the present invention, in an unspecified speaker recognition system, even when a task is changed, in addition to the utterance data learning data of the tasks of many speakers, the original task and the new task of a small number of speakers are provided. The object of the present invention is to create a high-accuracy standard pattern for a new task without using many speakers' new task utterances, and to improve the performance of the recognizer for the new task.

【0011】[0011]

【課題を解決するための手段】第1の発明の標準パター
ン作成装置は、音声認識において、複数の話者の発声し
た学習データを用いて標準パターンを学習する際に、第
1のタスクの基準パターンを作成する基準パターン作成
手段と、第1のタスク及びそれとは異なる第2のタスク
をともに発声した参照話者の第1のタスクの発声データ
を用いて、参照話者に対する標準パターンを学習する参
照第1パターン作成手段と、前記参照話者の第2のタス
クの発声データを用いて、参照話者に対する標準パター
ンを学習する参照第2パターン作成手段と、前記参照第
1パターンから、前記参照第2パターンへの写像を作成
する写像作成手段と、基準パターンから、前記写像作成
手段で作成した写像を用いて、タスク依存パターンを作
成するタスク依存パターン作成手段と、から構成される
ことを特徴とする。
According to a first aspect of the present invention, there is provided a standard pattern creating apparatus for learning a standard pattern using learning data uttered by a plurality of speakers in speech recognition. A standard pattern for a reference speaker is learned using reference pattern creation means for creating a pattern, and utterance data of a first task of a reference speaker who has uttered both the first task and a second task different from the first task. A first reference pattern creating unit, a second reference pattern creating unit that learns a standard pattern for the reference speaker using the utterance data of the second task of the reference speaker, and the reference from the first reference pattern. A task creating means for creating a mapping to the second pattern, and a task dependent pattern creating a task dependent pattern from the reference pattern using the mapping created by the mapping creating means. The turn creating means, in that they are composed of and wherein.

【0012】第2の発明の標準パターン作成装置は、第
1の発明の標準パターン作成方式において、前記基準パ
ターン作成手段と、前記参照第1パターン作成手段と、
前記参照第2パターン作成手段と、前記写像作成手段
と、前記タスク依存パターン作成手段と、前記基準パタ
ーンと前記タスク依存パターンとをある一定の比で混合
することにより、タスク準依存パターンを作成するタス
ク準依存パターン作成手段と、から、構成されることを
特徴とする。
According to a second aspect of the present invention, there is provided the standard pattern creating apparatus according to the first aspect, wherein the reference pattern creating means, the reference first pattern creating means,
A task quasi-dependent pattern is created by mixing the reference second pattern creating means, the mapping creating means, the task dependent pattern creating means, and the reference pattern and the task dependent pattern at a certain ratio. And task quasi-dependent pattern creation means.

【0013】[0013]

【作用】以下に第1の発明の標準パターンに作成装置の
作用について説明する。ここでは、「タスク」の例とし
て、限定された認識対象を挙げ、その場合について以下
に説明することとする。
The operation of the apparatus for producing a standard pattern according to the first invention will be described below. Here, a limited recognition target is given as an example of the “task”, and that case will be described below.

【0014】話者の発声は、AD変換、音声分析などの
過程を経て、ある時間長をもつフレームと呼ばれる単位
ごとの特徴ベクトルの時系列に変換される。特徴ベクト
ルはその時刻における音声スペクトルの特微量を抽出し
たもので、通常10次元から100次元である。この特
徴ベクトルの時系列を、ここでは発声データと呼ぶ。
The utterance of the speaker is converted into a time series of feature vectors for each unit called a frame having a certain time length through processes such as AD conversion and voice analysis. The feature vector is obtained by extracting a very small amount of the voice spectrum at that time, and usually has 10 to 100 dimensions. The time series of the feature vectors is referred to as utterance data here.

【0015】認識方式としては、隠れマルコフモデルに
おいて出力確率分布として連続確率密度分布を用いた場
合を例にとる。連続確率密度分布としては、混合ガウス
分布を用いる。この場合、学習されるパラメータとして
は、混合連続分布の平均ベクトル、及び分散、分岐確
率、遷移確率があるが、ここでは、各分布の平均ベクト
ルを学習する場合を例にとる。すなわち、本発明におけ
る標準パターンとは、各々の認識単位に対応した隠れマ
ルコフモデルにおける各状態の各分布の平均ベクトル
の、全認識単位、全状態、全分布にわたる組である。す
なわち、 {μ(i,j,k)|j=1,…,I,j=1,…,J(i),k=1,…, K(i,j)}. (1) ここで、μは平均ベクトル、I,J(i),K(i,
j)は、それぞれ、全認識単位数、認識単位iにおける
状態数、認識単位iの状態jにおける分布数である。
As a recognition method, a case where a continuous probability density distribution is used as an output probability distribution in a hidden Markov model will be described as an example. A Gaussian mixture distribution is used as the continuous probability density distribution. In this case, the parameters to be learned include the average vector of the mixed continuous distribution, the variance, the branch probability, and the transition probability. Here, the case of learning the average vector of each distribution will be described as an example. That is, the standard pattern in the present invention is a set of the average vector of each distribution of each state in the hidden Markov model corresponding to each recognition unit, covering all recognition units, all states, and all distributions. That is, {μ (i, j, k) | j = 1, ..., I, j = 1, ..., J (i), k = 1, ..., K (i, j)}. (1) where μ is an average vector, I, J (i), K (i,
j) is the total number of recognition units, the number of states in recognition unit i, and the number of distributions in state j of recognition unit i, respectively.

【0016】まず、ある標準的なタスクAに対する標準
パターンを作成する。この標準パターンは、隠れマルコ
フモデルの場合、通常、多数の話者のタスクAの発声デ
ータを用意し、そられを用いて各認識単位のパラメータ
を学習することにより作成される。学習方法について
は、文献1に詳しい。ここで作成されたパターンを基準
パターンと呼ぶ。基準パターン作成に用いる話者には、
以下に述べる参照話者が含まれていてもよいし、含まれ
ていなくてもよい。以上は、第1の発明における基準パ
ターン作成手段に対応する。
First, a standard pattern for a standard task A is created. In the case of the Hidden Markov Model, this standard pattern is usually created by preparing utterance data of task A of many speakers and learning the parameters of each recognition unit using the utterance data. The learning method is described in detail in Reference 1. The pattern created here is called a reference pattern. Speakers used to create reference patterns include:
The reference speaker described below may or may not be included. The above corresponds to the reference pattern creating means in the first invention.

【0017】次に、タスクAと、それとは異なるタスク
Bとを、両方発声した話者の発声データを用意する。こ
の話者を参照話者と呼ぶ。参照話者は、単数でも複数で
もよいが、ここでは、複数の場合を例に挙げる。
Next, utterance data of a speaker who has uttered both the task A and the task B different from the task A are prepared. This speaker is called a reference speaker. The number of reference speakers may be one or more. Here, a plurality of reference speakers will be described as an example.

【0018】これらの参照話者のタスクAの発声を用
い、標準パターンを作成する。作成法は通常の学習によ
ってでもよいし、あるいは、パラメータのうち、平均ベ
クトルのみを学習する方法でもよい。また、基準モデル
を用いて、発声を認識単位ごとにセグメンテーションし
て、隠れマルコフモデルの各状態の各分布に対応する発
声データを同定した上で、その発声データの特徴ベクト
ルを平均することにより、各分布に対する平均ベクトル
を作成する方法も可能である。このこようにしてできた
標準パターンを参照第1パターンと呼ぶ。参照第1パタ
ーンは、参照話者すべてについて1つだけ作成しても良
いし、参照話者各々について1つづつ作成しても良い。
また、参照話者を何人かづつの集合に分けて、それぞれ
の集合について参照第1パターンを作成しても良い。こ
の場合、各々の参照第1パターンに対する参照話者の集
合を参照話者グループとよぶ。例えば、参照話者各々に
ついて参照第1パターンを作る場合は参照話者グループ
は参照話者数だけあり、参照話者全体で1つの参照第1
パターンを作る場合には参照話者グループは1つだけで
ある。以上は第1の発明における参照第1パターン作成
手段に対応する。
A standard pattern is created by using the utterances of task A of these reference speakers. The creation method may be a normal learning method or a method of learning only the average vector among the parameters. Also, using the reference model, the utterance is segmented for each recognition unit, and after identifying the utterance data corresponding to each distribution of each state of the hidden Markov model, by averaging the feature vectors of the utterance data, A method of creating an average vector for each distribution is also possible. The standard pattern thus formed is referred to as a reference first pattern. Only one reference first pattern may be created for all reference speakers, or one reference first pattern may be created for each reference speaker.
Further, the reference speakers may be divided into several groups, and a first reference pattern may be created for each group. In this case, a set of reference speakers for each first reference pattern is called a reference speaker group. For example, when the first reference pattern is created for each of the reference speakers, the number of reference speaker groups is equal to the number of reference speakers, and one reference first pattern is included in the entire reference speakers.
When making a pattern, there is only one reference speaker group. The above corresponds to the reference first pattern creating means in the first invention.

【0019】次に、上述の参照第1パターン作成手段と
同様に、参照話者のタスクBの発声を用い、標準パター
ンを作成する。作成法は参照第1パターン作成手段に用
いた方法と同様の方法を用いる。参照第2パターンは、
先に作成された参照第1パターンと1対1に対応するよ
うに作成される。つまり、対応する参照第1パターンと
参照第2パターンにおいては、作成に用いられた参照話
者グループは同一である。以上は第1の発明における参
照第2パターン作成手段に対応する。
Next, in the same manner as the above-described first reference pattern creating means, a standard pattern is created by using the utterance of the task B of the reference speaker. The creation method is the same as the method used for the first reference pattern creation means. The reference second pattern is
It is created so as to correspond one-to-one with the reference first pattern created earlier. That is, in the corresponding reference first pattern and reference second pattern, the reference speaker group used for the creation is the same. The above corresponds to the reference second pattern creating means in the first invention.

【0020】次に、参照第1パターンから参照第2パタ
ーンへの写像を作成する。今、認識単位、認識単位のモ
デルの状態、状態内の分布などを総称して写像単位と呼
ぶこととする。写像はこの写像単位ごとに作成される。
Next, a mapping from the first reference pattern to the second reference pattern is created. Now, the recognition unit, the state of the model of the recognition unit, the distribution in the state, and the like are collectively referred to as a mapping unit. A mapping is created for each mapping unit.

【0021】写像単位の定め方としては、上に述べた、
3種類以外にも、例えば、ある認識単位と別の認識単位
を同一の写像単位とすること、あるいは、ある認識単位
はそれ全体で写像単位とし別の認識単位では、その中の
状態を写像単位とすること、あるいは、ある認識単位の
ある状態と別の認識単位のある状態とを同じ写像単位と
すること、などが可能である。また、全標準パターンを
1つの写像単位とすることも可能である。つまり、写像
単位の定め方は任意である。例えば、写像単位として、
認識単位の状態内の各分布をとる場合には、同一の認識
単位のモデルにおける対応する状態の対応する分布の平
均ベクトルを1対1に対応させればよい。
The method of defining the mapping unit is as described above.
In addition to the three types, for example, a certain recognition unit and another recognition unit may be the same mapping unit, or a certain recognition unit may be a mapping unit as a whole and another recognition unit may indicate a state therein. Or a certain state of a certain recognition unit and a certain state of another recognition unit can be the same mapping unit. It is also possible to use all the standard patterns as one mapping unit. That is, the method of determining the mapping unit is arbitrary. For example, as a mapping unit,
When each distribution in the state of the recognition unit is taken, the average vector of the corresponding distribution of the corresponding state in the model of the same recognition unit may be made to correspond one-to-one.

【0022】また、写像単位は、参照話者グループごと
に別々に作成してもよいし、全部の参照話者グループで
共通にしてもよい。ただし、各々の参照話者グループご
とに異なる写像単位を定めた場合には、全参照話者グル
ープに共通な写像は作成できない。
The mapping unit may be created separately for each reference speaker group, or may be common to all reference speaker groups. However, if a different mapping unit is defined for each reference speaker group, a mapping common to all reference speaker groups cannot be created.

【0023】また、写像は線形なものでも良いし、ま
た、ニューラルネットワーク等を用いて、非線形写像を
作成しても良い。
The mapping may be linear, or a non-linear mapping may be created using a neural network or the like.

【0024】以上は、第1の発明における写像作成手段
に対応する。
The above corresponds to the mapping creating means in the first invention.

【0025】次に、基準パターンを、上述の写像作成手
段で作成された写像を用いて変換し、タスク依存パター
ンを作成する。タスク依存パターンは基準パターンに1
対1に対応する。例えば、写像単位が分布の場合には、
各々の分布に対する写像を適用し、タスク依存の平均ベ
クトルを求める。すべての分布に共通の写像が定義され
ている場合には、基準パターンのすべての分布の平均ベ
クトルに対し、共通の写像を用いて、タスクに適応した
平均ベクトルを求める。このタスクに適応した平均ベク
トルの集合を、この場合、タスク依存パターンと呼ぶ。
Next, the reference pattern is converted by using the mapping created by the above-described mapping creating means, and a task-dependent pattern is created. Task dependent pattern is 1 for reference pattern
Corresponds to one. For example, if the mapping unit is distribution,
Apply a mapping to each distribution to determine a task-dependent average vector. If a common mapping is defined for all distributions, an average vector suitable for the task is obtained using a common mapping for the average vector of all distributions of the reference pattern. The set of average vectors adapted to this task is in this case called a task-dependent pattern.

【0026】写像が各々の参照話者グループに対して作
成されている場合は、写像後のパターンが複数できる
が、その場合は、それら複数のパターンを何らかの方法
で重みづけすることにより、タスク依存パターンを作成
する。例えば、写像単位が各分布の場合、以下のよう
な、基準パターンの当該分布の平均ベクトルと参照第1
パターンの当該分布の平均ベクトルとの距離を用いて、
重みづけする方法が考えられる。
When a mapping is created for each reference speaker group, a plurality of patterns after the mapping can be formed. In such a case, the plurality of patterns are weighted by some method so that task-dependent patterns are obtained. Create a pattern. For example, when the mapping unit is each distribution, the average vector of the distribution of the reference pattern and the reference first
Using the distance between the pattern and the mean vector of the distribution,
A weighting method is conceivable.

【0027】[0027]

【数1】 (Equation 1)

【0028】ここで、pは参照話者グループを表す添
字、μ1 (p)は参照話者グループpの参照第1パター
ンにおける当該分布の平均ベクトル、μ2 (p)は参照
話者グループpの参照第2パターンにおける当該分布の
平均ベクトル、μは基準パターンにおける当該分布の平
均ベクトル、
Here, p is a subscript representing a reference speaker group, μ 1 (p) is an average vector of the distribution in the reference first pattern of the reference speaker group p, and μ 2 (p) is a reference speaker group p , The average vector of the distribution in the reference second pattern of, μ is the average vector of the distribution in the reference pattern,

【0029】[0029]

【数2】 (Equation 2)

【0030】また、d(p)は、μとμ(p)の距離、
mは適当な実数である。距離は、例えば、平均ベクトル
間のユークリッド距離などが用いられるが、当該分布間
の非類似度を表す量ならば何でも良い。
D (p) is the distance between μ and μ (p),
m is an appropriate real number. As the distance, for example, the Euclidean distance between the average vectors is used, but any distance may be used as long as it represents the degree of dissimilarity between the distributions.

【0031】また、タスク依存パターンの作成法として
は、例えば、
As a method for creating a task-dependent pattern, for example,

【0032】[0032]

【数3】 (Equation 3)

【0033】のようなものも考えられる。記号の定義は
(2)式と同じである。
The following is also conceivable. The definition of the symbol is the same as in the expression (2).

【0034】以上の説明は、写像単位が各分布であり、
参照話者グループ各々に対して写像が作成されている場
合についてであるが、写像単位が各分布以外の場合、あ
るいは参照話者グループすべてに共通な写像が作成され
ている場合についても、容易に、タスク依存パターンを
作成することが可能である。以上は、第1の発明におけ
るタスク依存パターン作成手段に対応する。
In the above description, the mapping unit is each distribution,
This is for the case where a mapping is created for each reference speaker group.However, when the mapping unit is other than each distribution, or when a mapping common to all reference speaker groups is created, , It is possible to create task dependent patterns. The above corresponds to the task dependent pattern creating means in the first invention.

【0035】以上が第1の発明の標準パターン作成装置
の説明である。この装置により、タスクの変更がある場
合、もとのタスクに対する標準パターンである基準パタ
ーンと、少数の参照話者のもとのタスクと新しいタスク
の発声データがあれば、それらを用いて、多数話者の新
しいタスクに対する精度の高い標準パターンを作成する
ことが可能である。
The above is the description of the standard pattern forming apparatus of the first invention. With this device, when there is a task change, if there is a reference pattern that is a standard pattern for the original task and utterance data of the original task and a new task of a small number of reference speakers, they are It is possible to create a highly accurate standard pattern for a new task of the speaker.

【0036】第2の発明の標準パターン作成装置では、
上述の第1の発明の標準パターン作成装置において作成
した、基準パターンとタスク依存パターンを混合し、タ
スク準依存パターンを作成する。混合の方法は任意であ
るが、ここでは、一例として、各分布ごとに平均ベクト
ルの加重平均をとる方法を挙げる。すなわち、
In the standard pattern forming apparatus of the second invention,
The reference pattern and the task dependent pattern created by the standard pattern creating apparatus of the first invention are mixed to create a task semi-dependent pattern. The method of mixing is arbitrary, but here, as an example, a method of taking a weighted average of the average vector for each distribution will be described. That is,

【0037】[0037]

【数4】 (Equation 4)

【0038】ここで、0<k<1であり、Where 0 <k <1 and

【0039】[0039]

【数5】 (Equation 5)

【0040】また、kの値は、分布ごとに定めてもよい
し、状態ごと、あるいは、認識単位ごとに定めてもよ
い。あるいは、全認識単位において共通な値を用いても
よい。つまり、1つのkの値が有効な音声の単位は、写
像単位と同様、任意にとることができる。以上は、タス
ク準依存データ作成手段に対応する。
The value of k may be determined for each distribution, for each state, or for each recognition unit. Alternatively, a common value may be used in all recognition units. In other words, the unit of audio for which one value of k is valid can be arbitrarily set, similarly to the mapping unit. The above corresponds to the task semi-dependent data creating means.

【0041】参照話者数が少ない場合、もしくは、参照
話者のタスクAあるいはタスクBの発声データの量が少
ない場合には、参照第1パターン、あるいは、参照第2
パターンが精度良く作成されず、写像の精度が悪くな
り、従ってタスク依存パターンの精度が落ちる可能性が
ある。そのような場合、この第2の発明の標準パターン
作成装置では、基準パターンの情報もある割合で残して
用いるので、作成されるタスク準依存パターンの精度が
上がる可能性がある。ただし、参照話者のタスクA、あ
るいは、タスクBの発声データの量が十分多い場合は、
第1の発明の標準パターン作成装置のほうが、精度が高
いと推測される。
When the number of reference speakers is small, or when the amount of utterance data of task A or task B of the reference speaker is small, the first reference pattern or the second reference pattern is used.
The pattern is not created with high accuracy, and the accuracy of the mapping deteriorates, so that the accuracy of the task-dependent pattern may decrease. In such a case, in the standard pattern creating apparatus of the second invention, since the information of the reference pattern is also used at a certain ratio, the accuracy of the created task semi-dependent pattern may increase. However, if the amount of the utterance data of the reference speaker task A or task B is sufficiently large,
It is presumed that the standard pattern creation device of the first invention has higher accuracy.

【0042】[0042]

【実施例】以下、本発明による実施例を図面と共に説明
する。実施例は、作用の項の中で説明した例に対応して
おり、変数などの標記はそこで与えられたものと同一の
ものを用いることとする。図1は第1の発明の標準パタ
ーン学習装置の1実施例を示すブロック図である。
Embodiments of the present invention will be described below with reference to the drawings. The embodiment corresponds to the example described in the section of the operation, and the notation such as variables is the same as that given there. FIG. 1 is a block diagram showing one embodiment of the standard pattern learning device of the first invention.

【0043】基準パターン作成手段101では、多数話
者のタスクAの発声が入力され、標準パターンを学習
し、学習された標準パターンを基準パターンとして、出
力している。
The reference pattern creating means 101 receives the utterances of task A of many speakers, learns standard patterns, and outputs the learned standard patterns as reference patterns.

【0044】参照第1パターン作成手段102において
は、タスクAとタスクBの両方を発声した参照話者のタ
スクAの発声データが入力される。それらを用いて、各
々の参照話者に対するタスクAに対する標準パターンが
学習され、それらが、参照第1パターンとして、出力さ
れる。
The first reference pattern creating means 102 receives the utterance data of task A of the reference speaker who uttered both task A and task B. Using them, standard patterns for task A for each reference speaker are learned and they are output as reference first patterns.

【0045】参照第2パターン作成手段103において
は、参照話者のタスクBの発声データが入力される。そ
れらを用いて、各々の標準話者に対するタスクBに対す
る標準パターンが学習され、それらが、参照第2パター
ンとして、出力される。
The reference second pattern creating means 103 receives the utterance data of the task B of the reference speaker. Using them, the standard patterns for task B for each standard speaker are learned and they are output as reference second patterns.

【0046】写像作成手段104においては、参照第1
パターンおよび参照第2パターンが入力され、それらの
間の各分布毎の写像が作成され、出力される。
In the mapping creation means 104, the first reference
The pattern and the reference second pattern are input, and a mapping for each distribution between them is created and output.

【0047】タスク依存パターン作成手段105におい
ては、基準パターン、及び、写像作成手段104で作成
された写像が入力され、作用の項の(2)式を用いてタ
スク依存パターンが作成され、出力される。
The task-dependent pattern creation means 105 receives the reference pattern and the mapping created by the mapping creation means 104, creates a task-dependent pattern by using the equation (2) of the action section, and outputs the task-dependent pattern. You.

【0048】図2は第2の発明の標準パターン学習装置
の1実施例を示すブロック図である。基準パターン作成
手段101では、多数話者のタスクAの発声が入力さ
れ、標準パターンを学習し、学習された標準パターンを
基準パターンとして、出力している。
FIG. 2 is a block diagram showing an embodiment of the standard pattern learning apparatus according to the second invention. The reference pattern creating means 101 receives the utterances of task A of many speakers, learns a standard pattern, and outputs the learned standard pattern as a reference pattern.

【0049】参照第1パターン作成手段102において
は、タスクAとタスクBの両方を発声した参照話者のタ
スクAの発声データが入力される。それらを用いて、各
々の参照話者に対するタスクAに対する標準パターンが
学習され、それらが、参照第1パターンとして、出力さ
れる。
The first reference pattern creating means 102 receives the utterance data of task A of the reference speaker who has uttered both task A and task B. Using them, standard patterns for task A for each reference speaker are learned and they are output as reference first patterns.

【0050】参照第2パターン作成手段103において
は、参照話者のタスクBの発声データが入力される。そ
れらを用いて、各々の標準話者に対するタスクBに対す
る標準パターンが学習され、それらが、参照第2パター
ンとして、出力される。
The second reference pattern creating means 103 receives the utterance data of the task B of the reference speaker. Using them, the standard patterns for task B for each standard speaker are learned and they are output as reference second patterns.

【0051】写像作成手段104においては、参照第1
パターンおよび参照第2パターンが入力され、それらの
間の各分布毎の写像が作成され、出力される。
In the mapping creation means 104, the first reference
The pattern and the reference second pattern are input, and a mapping for each distribution between them is created and output.

【0052】タスク依存パターン作成手段105におい
ては、基準パターン、及び、写像作成手段104で作成
された写像が入力され、作用の項の(2)式を用いてタ
スク依存パターンが作成され、出力される。
The reference pattern and the mapping created by the mapping creation means 104 are input to the task-dependent pattern creation means 105, and a task-dependent pattern is created and output using the equation (2) of the action section. You.

【0053】タスク準依存パターン作成手段106にお
いては、基準パターン、及び、タスク依存パターンが入
力され、作用の項の(6)式に従って、タスク準依存パ
ターンが作成され、出力される。
In the task semi-dependent pattern creating means 106, a reference pattern and a task dependent pattern are input, and a task semi-dependent pattern is created and output according to the equation (6) of the operation section.

【0054】[0054]

【発明の効果】以上述べたように本発明によれば、タス
クの変更がある場合、もとのタスクに対する標準パター
ンである基準パターンと、少数話者のもとのタスクと新
しいタスクとの発声データがあれば、それらを用いて、
多数話者の新しいタスクに対して、より認識性能の高い
標準パターンを作成することが可能である。
As described above, according to the present invention, when a task is changed, a reference pattern which is a standard pattern for the original task and utterances of the original task and the new task by a small number of speakers are provided. If you have data, use them
It is possible to create a standard pattern with higher recognition performance for a new task of many speakers.

【0055】作用の項および実施例の項では、標準パタ
ーンとして隠れマルコフモデルの平均ベクトルを用いた
場合について説明したが、隠れマルコフモデルの分散、
遷移確率などの他の特徴量や、あるいは、複数の種類の
特徴量の組を用いた場合にも、本発明を適用することが
できる。また、隠れマルコフモデルのみでなく、音声認
識手法として、隠れマルコフモデル以外のニューラルネ
ットワークなどの他の手法を用いた場合にも、標準パタ
ーンとして、特徴量の組を抽出すれば、本発明の適用は
容易である。したがって、これらの適用も本発明の範囲
内である。
In the operation section and the embodiment section, the case where the average vector of the Hidden Markov Model is used as the standard pattern has been described.
The present invention can be applied to a case where another feature amount such as a transition probability or a combination of a plurality of types of feature amounts is used. In addition, when using not only the hidden Markov model but also other methods such as a neural network other than the hidden Markov model as a speech recognition method, if a set of feature amounts is extracted as a standard pattern, the present invention can be applied. Is easy. Therefore, these applications are also within the scope of the present invention.

【0056】また、作用の項及び実施例の項において
は、タスクとして、「限定された認識対象」のみを例に
とって説明したが、その他にも、「音声入力に使用する
マイク」、あるいは、「周囲雑音の大きさ」などをタス
クと見なし、それらが違う場合に対しても、「限定され
た認識対象」の違いに対してと同じように、本発明を適
用することは容易である。したがって、これらの適用も
本発明の範囲内である。また、タスクが「限定された認
識対象」以外の場合には、認識単位として、サブワード
以外のもの、例えば、文、単語などをとることも可能で
あり、その場合も本発明の範囲内である。
In the section of the operation and the section of the embodiment, the task has been described by taking only the “limited recognition target” as an example, but in addition, the “microphone used for voice input” or the “ It is easy to consider the magnitude of the ambient noise and the like as tasks, and to apply the present invention to the case where they are different as in the case of the difference of “limited recognition target”. Therefore, these applications are also within the scope of the present invention. Further, when the task is other than “limited recognition target”, it is possible to take a unit other than a subword, for example, a sentence or a word, as a recognition unit, and such a case is also within the scope of the present invention. .

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1の発明の標準パターン作成装置の一実施例
を示すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a standard pattern creation device of the first invention.

【図2】第2の発明の標準パターン作成装置の一実施例
を示すブロック図である。
FIG. 2 is a block diagram showing one embodiment of a standard pattern creation device of the second invention.

【符号の説明】[Explanation of symbols]

101 基準パターン作成手段 102 参照第1パターン作成手段 103 参照第2パターン作成手段 104 写像作成手段 105 タスク依存パターン作成手段 106 タスク準依存パターン作成手段 DESCRIPTION OF SYMBOLS 101 Reference pattern creation means 102 Reference first pattern creation means 103 Reference second pattern creation means 104 Mapping creation means 105 Task dependent pattern creation means 106 Task semi-dependent pattern creation means

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−224691(JP,A) 特開 平5−40496(JP,A) 特開 平3−186899(JP,A) 日本音響学会平成2年度秋季研究発表 会講演論文集▲I▼ 1−8−12「半音 節HMMによる音声認識のための話者適 応」p.23−24(平成2年9月19日発 表) 日本音響学会平成4年度春季研究発表 会講演論文集▲I▼ 1−P−15「音声 認識のためのタスク適応化」p.133− 134(平成4年3月17日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 521 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-5-246991 (JP, A) JP-A-5-40496 (JP, A) JP-A-3-186899 (JP, A) Acoustical Society of Japan Heisei 2 Proceedings of the Fall Meeting of the Japanese Society of Science and Technology ▲ I ▼ 1-8-12 “Speaker Adaptation for Speech Recognition by Hemisyllable HMM” p. 23-24 (published on September 19, 1990) Proceedings of the Acoustical Society of Japan, Spring Meeting 2004, I-P1-P-15 “Task adaptation for speech recognition” p. 133-134 (Issued March 17, 1992) (58) Field surveyed (Int. Cl. 7 , DB name) G10L 3/00 521 JICST file (JOIS)

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声認識において、複数の話者の発声し
た学習データを用いて標準パターンを学習する際に、第
1のタスクの基準パターンを作成する基準パターン作成
手段と、第1のタスク及びそれとは異なる第2のタスク
をともに発声した参照話者の第1のタスクの発声データ
を用いて、標準パターンを学習する参照第1パターン作
成手段と、前記参照話者の第2のタスクの発声データを
用いて、標準パターンを学習する参照第2パターン作成
手段と、前記参照第1パターンから、前記参照第2パタ
ーンへの写像を作成する写像作成手段と、基準パターン
から、前記写像作成手段で作成した写像を用いて、タス
ク依存パターンを作成するタスク依存パターン作成手段
と、から構成されることを特徴とする標準パターン作成
装置。
In the speech recognition, when learning a standard pattern using learning data uttered by a plurality of speakers, a reference pattern creating means for creating a reference pattern of a first task; A reference first pattern creating means for learning a standard pattern using utterance data of a first task of a reference speaker who has uttered a second task different from the second task, and utterance of a second task of the reference speaker A reference second pattern creating means for learning a standard pattern using data; a mapping creating means for creating a mapping from the reference first pattern to the reference second pattern; and a mapping creating means from the reference pattern. And a task dependent pattern creating means for creating a task dependent pattern using the created mapping.
【請求項2】 前記基準パターン作成手段と、前記参照
第1パターン作成手段と、前記参照第2パターン作成手
段と、前記写像作成手段と、前記データ依存パターン作
成手段と、前記基準パターンと前記タスク依存パターン
とある一定の比で混合することにより、タスク準依存パ
ターンを作成するタスク準依存パターン作成手段と、か
ら構成されることを特徴とする請求項1記載の標準パタ
ーン作成装置。
2. The reference pattern creating unit, the reference first pattern creating unit, the reference second pattern creating unit, the mapping creating unit, the data dependent pattern creating unit, the reference pattern and the task. 2. The standard pattern creating apparatus according to claim 1, further comprising: task quasi-dependent pattern creating means for creating a task quasi-dependent pattern by mixing the dependency pattern with a certain fixed ratio.
JP4031832A 1992-02-19 1992-02-19 Standard pattern making device Expired - Fee Related JP3003355B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4031832A JP3003355B2 (en) 1992-02-19 1992-02-19 Standard pattern making device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4031832A JP3003355B2 (en) 1992-02-19 1992-02-19 Standard pattern making device

Publications (2)

Publication Number Publication Date
JPH05232985A JPH05232985A (en) 1993-09-10
JP3003355B2 true JP3003355B2 (en) 2000-01-24

Family

ID=12342045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4031832A Expired - Fee Related JP3003355B2 (en) 1992-02-19 1992-02-19 Standard pattern making device

Country Status (1)

Country Link
JP (1) JP3003355B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5995226B2 (en) * 2014-11-27 2016-09-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model, and computer program therefor

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成2年度秋季研究発表会講演論文集▲I▼ 1−8−12「半音節HMMによる音声認識のための話者適応」p.23−24(平成2年9月19日発表)
日本音響学会平成4年度春季研究発表会講演論文集▲I▼ 1−P−15「音声認識のためのタスク適応化」p.133−134(平成4年3月17日発行)

Also Published As

Publication number Publication date
JPH05232985A (en) 1993-09-10

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
KR100612840B1 (en) Speaker clustering method and speaker adaptation method based on model transformation, and apparatus using the same
JP4109063B2 (en) Speech recognition apparatus and speech recognition method
JP4141495B2 (en) Method and apparatus for speech recognition using optimized partial probability mixture sharing
JP4590692B2 (en) Acoustic model creation apparatus and method
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
JP2871561B2 (en) Unspecified speaker model generation device and speech recognition device
Zhang et al. Language/dialect recognition based on unsupervised deep learning
JPH0555040B2 (en)
JPH06110493A (en) Method for constituting speech model and speech recognition device
Arslan et al. Selective training for hidden Markov models with applications to speech classification
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
JP3003355B2 (en) Standard pattern making device
US5960396A (en) Standard pattern production system employing information criterion
Salvi Accent clustering in Swedish using the Bhattacharyya distance
JPH10254473A (en) Method and device for voice conversion
JP3003353B2 (en) Task adaptive standard pattern learning device
JP3532248B2 (en) Speech recognition device using learning speech pattern model
JP3036509B2 (en) Method and apparatus for determining threshold in speaker verification
JPH08248975A (en) Standard pattern learning device and speech recognizer using the same device
Doss Using auxiliary sources of knowledge for automatic speech recognition
JP2003271185A (en) Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
JPH1097275A (en) Large-vocabulary speech recognition system
Mitrovski et al. Towards a System for Automatic Media Transcription in Macedonian

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991019

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees