JP2001343992A - Method and device for learning voice pattern model, computer readable recording medium with voice pattern model learning program recorded, method and device for voice recognition, and computer readable recording medium with its program recorded - Google Patents

Method and device for learning voice pattern model, computer readable recording medium with voice pattern model learning program recorded, method and device for voice recognition, and computer readable recording medium with its program recorded

Info

Publication number
JP2001343992A
JP2001343992A JP2000162964A JP2000162964A JP2001343992A JP 2001343992 A JP2001343992 A JP 2001343992A JP 2000162964 A JP2000162964 A JP 2000162964A JP 2000162964 A JP2000162964 A JP 2000162964A JP 2001343992 A JP2001343992 A JP 2001343992A
Authority
JP
Japan
Prior art keywords
phoneme
model
sets
learning
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000162964A
Other languages
Japanese (ja)
Other versions
JP4004716B2 (en
Inventor
Toshiyuki Hanazawa
利行 花沢
Original Assignee
Mitsubishi Electric Corp
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, 三菱電機株式会社 filed Critical Mitsubishi Electric Corp
Priority to JP2000162964A priority Critical patent/JP4004716B2/en
Publication of JP2001343992A publication Critical patent/JP2001343992A/en
Application granted granted Critical
Publication of JP4004716B2 publication Critical patent/JP4004716B2/en
Application status is Expired - Fee Related legal-status Critical
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To solve the problem that proper voice pattern models for conversa tional voices cannot be provided. SOLUTION: An m-phoneme set extraction part 10 and a model learning part 3 are provided, and the part 10 uses reading voice m-phoneme set models to recognize 3-phoneme sets held in a conversational voice learning data memory 8 and extracts m-phoneme sets having low recognition rates, and the part 3 uses a time series of feature vectors of tokens held in the memory 8 to learn conversational voice m-phoneme set models with respect to only m-phoneme sets extracted by the part 10.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】この発明は、対話音声のように発話速度がはやくかつ曖昧な音声について適切に音声パターンモデルを学習することが可能な音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。 TECHNICAL FIELD The present invention is, speaking rate quickly and ambiguous voice for proper speech pattern model learning device capable of learning the speech pattern model, the speech pattern model learning method as interactive voice, and and a computer readable recording medium recording a speech pattern model training program. さらに、この発明は、対話音声のように発話速度がはやくかつ曖昧な音声を精度よく認識することが可能な音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。 Furthermore, the present invention is a speech recognition apparatus capable of recognizing accurately and ambiguous voice fast utterance speed like an interactive speech, speech recognition method, and a computer-readable recording medium recording a speech recognition program it is intended.

【0002】 [0002]

【従来の技術】一般に、音声認識は、音声を音響分析して得られる音声の特徴ベクトルの時系列と、その特徴ベクトルの時系列のパターンをモデル化した音声パターンモデルとのパターンマッチングを行うことにより実現される。 In general, speech recognition is to perform a time series of feature vectors of the speech obtained by the speech by acoustic analysis, pattern matching between the speech pattern models when modeling the pattern of series of the feature vectors It is realized by. この音声パターンモデルとしては、HMM(Hi As the voice pattern model, HMM (Hi
dden Markov Model,隠れマルコフモデル)が用いられることが多い。 dden Markov Model, hidden Markov model) is often used.

【0003】音声パターンモデルとしてHMMを用いる場合、モデル化する音声パターンの単位としては、音素を用いることが多い。 [0003] When using the HMM as a voice pattern model, as the unit of speech patterns to model, it is often used phonemes. 音素は子音(/s/,/h/,/ Phoneme is consonant (/ s /, / h /, /
f/,/p/,/t/,/k/,/z/,/b/,/z f /, / p /, / t /, / k /, / z /, / b /, / z
/,/g/,/m/,/n/,/r/)や母音(/a /, / G /, / m /, / n /, / r /) and vowels (/ a
/,/i/,/u/,/e/,/o/)等である。 /, / I /, / u /, / e /, a / o /) and the like. 日本語に現われる全音素をHMMによってモデル化しておけば、音素HMMを接続することにより任意の単語や文章をモデル化することができ、単語音声や連続音声の認識を行うことができる。 Once you have modeled all the phonemes that appear in Japanese by HMM, it is possible to model any of the words and sentences by connecting the phoneme HMM, it is possible to perform the recognition of spoken word and continuous speech.

【0004】音素をHMMでモデル化する場合、以下のように音素を細分化してモデル化する場合が多い。 [0004] If you want to model a phoneme in the HMM, it is often modeled by subdividing the phoneme as follows. 例えば音節/ha/と/hi/の第1番目の音素である/h For example syllable / ha / a / hi / the 1st phonemes in some / h
/は同じ音素であっても後続音素である/a/,/i/ / Can be the same phoneme is a subsequent phoneme / a /, / i /
の影響を受け、/a/に先行する/h/と、/i/に先行する/h/では音響特徴量(以後、特徴ベクトルという)が異なっている。 Receiving the impact, / a / and preceding / h / in, / i / the preceding / h / in acoustic features (hereinafter, referred to as feature vectors) are different. このように同じ音素での特徴ベクトルが異なるものを異音と呼ぶ。 Thus the feature vector of the same phoneme different called an abnormal sound. 異音は主に音素の出現するコンテキスト、すなわち後続音素や先行音素の違いによって生じるものとされている。 Abnormal noise is primarily emerging context phonemes, namely those caused by differences in the subsequent phoneme and the preceding phoneme. そこで、各音素を1 Thus, each phoneme 1
つのモデルで表現するのではなく、コンテキストの違いにより別々のモデルで表現する方法が多く用いられている。 One of the rather than represented in the model is widely used method of expressing in separate models by differences in context. 特に近年、R. Particularly in recent years, R. Schwartz,Y. Schwartz, Y. Chow著「“IMPROVED HIDDEN MARKOV Chow et al., "" IMPROVED HIDDEN MARKOV
MODELING OF PHONEMES OF C MODELING OF PHONEMES OF C
ONTINUOUS SPEECH RECOGNIT ONTINUOUS SPEECH RECOGNIT
ION”,IEEE INTERNATIONAL C ION ", IEEE INTERNATIONAL C
ONFERENCE ONACOUSTICS, SP ONFERENCE ONACOUSTICS, SP
EECH, AND SIGNAL PROCESSI EECH, AND SIGNAL PROCESSI
NG,Vol. NG, Vol. 3,35.6.1−35.6.4」(以後、文献1と呼ぶ)等で提案された先行と後続の両方の音素コンテキストを考慮した3音素組(トライフォン) 3,35.6.1-35.6.4 "(hereinafter, referred to as Document 1) 3 phoneme set in consideration of the proposed prior and subsequent both phoneme context etc. (triphone)
モデルを用いることが多い。 It is often used model. 例えば/aki/の/k/ For example, / aki / Roh / k /
は3音素組では(a)k(i)、/hako/の/k/ It is at 3 phoneme set (a) k (i), / hako / Roh / k /
は3音素組では(a)k(o)である。 It is at 3 phoneme set is (a) k (o). ここで()内は先行または後続の音素を示すものとする。 Here in () denote the leading or trailing phonemes. 上記(a)k The above-mentioned (a) k
(i)と(a)k(o)は、後続の音素が異なるため別の3音素組となる。 (I) and (a) k (o) is a further 3 phoneme sets for subsequent phonemes are different. この3音素組モデルを用いることによって、通常の音素モデルよりも高い認識性能を得ることができる。 By using the 3 phoneme set model, it is possible to obtain high recognition performance than normal phoneme models. なお、上記の(a)k(i)と(a)k The above-mentioned and (a) k (i) (a) k
(o)等の表記法を以後、m音素組表記と呼ぶことにする。 (O) hereinafter notation such, it will be referred to as m phoneme pairs notation.

【0005】次に3音素組モデルの作成方法について説明する。 [0005] The next 3 how to create a phoneme set model will be described. 図23は例えば上記文献1に開示された3音素組モデルを学習する従来の音声パターンモデル学習装置の一例の構成を示すブロック図である。 Figure 23 is a block diagram showing example of an example of a configuration of a conventional speech pattern model learning device that learns the 3 phoneme set model disclosed in the above document 1. なお、文献1では英語の音素で説明しているが、日本語でも全く同じ技術が使用できるので以下では日本語の音素を例にとって説明する。 Although it described in English phonemes in Document 1, illustrating the phonemes of Japanese as an example in the following because exactly the same technique can be used in Japanese. 図23において、100は3音素組モデルの学習データが格納されている学習データメモリ、200 23, 100 3 learning data memory learning data phoneme sets model is stored, 200
は学習データメモリ100に格納されている学習データ中に含まれる音声の特徴ベクトルの時系列、300は3 The time series of feature vectors of the speech contained in the training data stored in the learning data memory 100, 300 3
音素組モデルの学習を行うモデル学習部、400はモデル学習部300により学習された3音素組モデルのパラメータ、500は学習された3音素組モデルのパラメータ400等を格納するための3音素組モデルメモリである。 Model learning unit performing learning of phoneme pairs model, 400 model parameters 3 phonemic sets models learned by the learning unit 300, 500 is 3 phoneme sets model for storing parameters 400 such as the 3 phoneme set models learned it is a memory.

【0006】次に動作について説明する。 [0006] Next, the operation will be described. 学習データメモリ100に格納されている学習データは、多様な3音素組のコンテキストを含んだ単語や文章を多数の話者が読み上げた音声や、人対人の対話音声等を音響分析して得られる、特徴ベクトルの時系列と発話内容を示す音素組表記であって、具体的には、学習データの音声波形を音響分析して得られる特徴ベクトルの時系列を音素区間ごとに切り出したトークンの集合と、学習データ中に存在する3音素組の3音素組表記とを対応づける3音素組テーブルである。 Learning data that is stored in the learning data memory 100, obtained a large number of audio and the speaker was reading a word or sentence that includes a wide variety of 3 phoneme set of context, of person-to-person dialogue sound like by acoustic analysis , a phoneme set notation indicating the time sequence and the speech content of the feature vector, the set of specifically, tokens cut a time series of feature vectors obtained by acoustic analyzing the speech waveform of the training data for each phoneme section When a associates 3 phoneme set table 3 the phoneme sets of 3 phonemes set notation present in the training data. この3音素組テーブルの例を図24に示す。 An example of this 3 phoneme set table shown in FIG. 24.

【0007】音響分析として例えばLPC(Linea [0007] For example LPC as an acoustic analysis (Linea
r Predictive Coding,線形予測分析)が使用され、特徴ベクトルはLPCケプストラムである。 r Predictive Coding, LPC analysis) is used, the feature vector is LPC cepstrum. 音素区間ごとへの切り出しは例えば人間がスペクトログラムを観察して行う。 Cut to each phoneme segment is performed by observing the spectrogram human example. また、各トークンには当該トークンの音素名と先行音素名および後続音素名を記した3音素組表記が付与されているものとする。 Also, the phoneme name and the preceding phoneme name and the subsequent phoneme name 3 phoneme set notation describing the of the token is assumed to be given to each token. 3音素組表記の例を図25に示す。 3 is an example of a phoneme set notation shown in Figure 25.

【0008】また、3音素組モデルは連続分布型のHM [0008] In addition, 3 phoneme set model of continuous distribution type HM
Mであると仮定する。 It assumed to be M. この場合、各3音素組モデルの構造としては図26に示すように5状態のleft−to In this case, each 3 The structure of the phoneme sets Model 5 states as shown in FIG. 26 left--to
−rightモデルを用いる。 Using the -right model. 図26において、状態1 In Figure 26, state 1
が初期状態、状態5が最終状態である。 But initial state, state 5 is the final state. 各3音素組モデルは、状態遷移確率a ijと、ラベル出力確率b Each 3 phoneme set model, and the state transition probability a ij, the label output probability b
ij (x)から構成される。 consisting of ij (x). ここで添字ijは状態iから状態jへの遷移を示すものであり、状態遷移確率a Here the subscript ij are those showing a transition from state i to state j, the state transition probability a
ijは状態iから状態jへの遷移が起きる確率である。 ij is the probability of transition occurs from the state i to state j.
また、ラベル出力確率b ij (x)は、連続分布型のH Also, the label output probability b ij (x) is a continuous distribution type H
MMでは多次元正規分布で表現される。 In MM is represented by multidimensional normal distribution. 状態遷移確率a State transition probability a
ijおよびラベル出力確率b ij (x)をHMMのパラメータという。 ij and label output probabilities b ij (x) is called HMM parameters. HMMのパラメータを求めることをHM HM to seek the parameters of the HMM
Mの学習という。 M of that learning.

【0009】次にモデル学習動作について説明する。 [0009] The next model learning operation will be described. (1)学習手順1:モデル学習部300は、学習データメモリ100が保持する3音素組テーブルを読み込み、 (1) Learning Procedure 1: model learning unit 300 reads the 3 phoneme set table learning data memory 100 is held,
3音素組テーブルの記述内容にしたがって、3音素組を学習対象として選択する。 According to the description contents of 3 phonemes set table, selecting 3 phonemes set as the learning target. 3音素組テーブルが例えば図24のように記述されている場合、モデル学習部300 3 If the phoneme pair table is written as in FIG. 24 for example, the model learning unit 300
はまず先頭の3音素組である(a)a(a)を学習対象として選択する。 Choice is a first first three phonemes of sets of (a) a (a) as a learning object.

【0010】(2)学習手順2:次に、モデル学習部3 [0010] (2) Learning Step 2: Next, the model learning unit 3
00は、学習データメモリ100から上記学習手順1において選択した3音素組と一致する3音素組表記を持つ全てのトークンの特徴ベクトルの時系列200を読み込み、例えばフォワード・バックワードアルゴリズムを用いて選択した3音素組についてモデルを学習する。 00, learning data from the memory 100 reads the time series 200 of feature vectors of all tokens with 3 phonemic set notation consistent with 3 phonemes set selected in the learning step 1, for example using a forward-backward algorithm selection to learn a model for the 3 phoneme set. 学習を終了すると、モデル学習部300は学習を終了したモデルのパラメータである状態遷移確率a およびラベル出力確率b ij (x)、ならびにその3音素組表記を、3音素組モデルメモリ500に送出する。 Upon completion of learning, the state transition probability model learning unit 300 is a parameter of the model ended learning a i j and label output probabilities b ij (x), and the 3 phoneme set notation, the 3 phoneme sets model memory 500 sending to. 3音素組モデルメモリ500は学習を終了したモデルのパラメータおよび3音素組表記を保持する。 3 phoneme sets model memory 500 holds parameter and 3 phonemes sets representation of the model ended learning.

【0011】(3)学習手順3:モデル学習部300 [0011] (3) Learning Step 3: model learning unit 300
は、学習データメモリ100が保持する3音素組テーブルを参照し、学習データ中に存在する全ての3音素組についてモデルの学習が終了するまで、3音素組テーブルに記述されている順番にしたがって次の3音素組を学習対象として選択し、上記学習手順2を繰り返す。 Next in the order refers to the 3 phoneme set table learning data memory 100 holds, for all 3 phonemes sets present in the training data to model learning is finished, described in 3 phoneme set table 3 select phoneme set as the learning target, and repeats the above-described learning procedure 2. このようにして、モデル学習部300は、学習データ中に存在する全ての3音素組についてモデルを学習する。 In this way, the model learning unit 300 learns a model for all three phonemes sets present in the training data.

【0012】 [0012]

【発明が解決しようとする課題】従来の音声パターンモデル学習装置は以上のように構成されているので、先行と後続の両方の音素コンテキストを考慮した3音素組モデルを用いて音素コンテキストの違いによって生じる音素の特徴ベクトルの変形を考慮したモデルを作成し、認識性能の向上を計っていたが、文章発声、朗読調、対話調などの発話様式の違いに対処できないという課題があった。 Since conventional speech pattern model learning device [0005] is constructed as described above, the difference in phoneme context with the preceding three phoneme set model considering subsequent both phoneme contexts create a model that takes into account the deformation of the phoneme feature vector generated, it had the aim to improve the recognition performance, sentence utterance, recitation tone, there is a problem that can not deal with the differences in speech styles such as interactive tone. すなわち、音素の特徴ベクトルの変形は音素コンテキストだけでなく、単語として発声する場合と文章発声、朗読調、対話調などの発話様式の違いによっても生じる。 That is, the deformation of the phoneme feature vector is not only the phoneme context, if uttered as words and sentences uttered recitation tone, also caused by differences in speech styles such as interactive tone. 例えば、「予約」という言葉を単語として単独で発声する場合と、「明日、予約したいんですが」というテキストを読み上げる場合と、このテキストを人に向かって話しかける場合とでは、特徴ベクトルの変形状態が異なってくる。 For example, the case of utterance alone the word "reservation" as a word, "tomorrow, but I'd like to reserve," and if you read the text, in the case where the talk toward this text to people, deformed state of the feature vector It becomes different. したがって、音声パターンモデル学習装置は、従来の学習データとしてテキストを読み上げた音声のみを用いた場合には、対話調の音声に対して適切な音声パターンモデルを提供できないという課題があった。 Therefore, speech pattern model learning device, when using only voice reading a text as conventional training data, there is a problem that can not provide a proper voice pattern models for voice conversation tone.

【0013】また、テキストを読み上げた音声、人との対話音声等の種々の発話様式の音声の学習データを同時に用いて音声パターンモデルを学習する場合には、特徴ベクトルの変形状態が異なる種々の特徴ベクトルを1個のモデルで表現するので、音声パターンモデルの精度が低下するという課題があった。 Further, speech reading text, when learning the speech pattern model using speech training data of various speech styles of interaction such as voice with the person at the same time, the variety of different deformation of feature vectors since representing a feature vector by a single model, the accuracy of speech pattern models there is a problem of a decrease.

【0014】さらに、テキストを読み上げた音声、人との対話音声等の種々の発話様式の音声ごとの学習データを用いて音声パターンモデルを学習する場合には、音声パターンモデルの精度低下を避けることはできるが、音声パターンモデルの数が学習する発話様式の数に比例して増加してしまうという課題があった。 Furthermore, in the case of learning the speech pattern model using the training data for each voice various speech styles of interaction such as voice speech, a person who read the text, to avoid reduction of accuracy speech pattern models is possible, the number of speech pattern models there is a problem that increases in proportion to the number of speech styles to learn.

【0015】また、対話音声のように発話速度がはやくかつ曖昧な音声では、前後の1音素からだけではなく前後の2音素からも影響を受けて、特徴ベクトルの変形が生じることがあり、3音素組モデルでは十分な学習が行えないという課題があった。 [0015] In the speech speed is fast and ambiguous voice like an interactive voice may be affected from 2 phonemes before and after not only 1 phonemes before and after deformation of feature vectors generated, 3 in the phoneme set model there is a problem that sufficient learning can not be performed.

【0016】この発明は上記のような課題を解決するためになされたもので、対話調の音声に対しても、音声パターンモデルの数を大きく増加させることなく効率的に音声パターンモデルを学習する音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体を得ることを目的とする。 [0016] The present invention has been made to solve the above problems, even for the voice conversation tone, effectively learn the speech pattern model without significantly increasing the number of speech pattern models speech pattern model learning device, an object is to obtain speech pattern model learning method, and a computer readable recording medium recording a speech pattern model training program.

【0017】また、この発明は、3音素組モデルでは十分な学習が行えない、対話音声のように発話速度がはやくかつ曖昧な音声について、音声パターンモデルの数を大きく増加させることなく効率的に、より長い音素環境を考慮した音声パターンモデルを学習する音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体を得ることを目的とする。 Further, the present invention is 3 sufficient learning can not be performed in the phoneme set model, the speech rate is fast and ambiguous voice like an interactive voice efficiently without significantly increasing the number of speech pattern models aims longer speech pattern model learning device for learning the voice pattern model considering phoneme environment, obtaining speech pattern model learning method, and a computer readable recording medium recording a speech pattern model training program.

【0018】さらに、この発明は、対話音声のように発話速度がはやくかつ曖昧な音声について精度よく音声認識を行う音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体を得ることを目的とする。 Furthermore, the present invention is a speech recognition apparatus for performing high accuracy speech recognition for fast and ambiguous speech utterance speed like an interactive speech, speech recognition method, and a computer-readable recording medium recording a speech recognition program for the purpose of obtaining.

【0019】 [0019]

【課題を解決するための手段】この発明に係る音声パターンモデル学習装置は、テキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、対話音声学習データから認識率が所定の閾値以下であるm音素組を抽出するm音素組抽出手段と、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習するモデル学習手段とを備えたものである。 SUMMARY OF THE INVENTION The speech pattern model learning device according to the invention, using the speech reading m phoneme sets model was trained with speech reading text, threshold recognition rate from conversation voice learning data is given and m phoneme set extracting means for extracting at which m phoneme sets hereinafter, each m phoneme sets extracted, which was a model learning means for learning a spoken dialogue m phoneme sets model using the interactive voice learning data is there.

【0020】この発明に係る音声パターンモデル学習装置は、m音素組抽出手段が、対話音声学習データ中から同一m音素組表記をもつデータ数が所定数以上であるm The speech pattern model learning device according to the present invention, m phoneme sets extraction means, the number of data having the same m phoneme set notation from interacting speech training data is greater than or equal to the predetermined number m
音素組を選択し、読み上げ音声m音素組モデルを用いて選択した該m音素組を認識し、認識率が所定の閾値以下であるならば選択した上記m音素組を抽出するものである。 Select phoneme set, reading and recognizing the m phoneme sets selected using the voice m phoneme set model, the recognition rate is to extract the m phoneme sets selected if it is below a predetermined threshold.

【0021】この発明に係る音声パターンモデル学習装置は、テキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、対話音声学習データから認識率が第1の所定の閾値以下であるm音素組を抽出するm音素組抽出手段と、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する対話音声m音素組モデル学習手段と、 The speech pattern model learning device according to the invention, using the speech reading m phoneme sets model was trained with speech reading text recognition rate from conversation voice training data is less than a first predetermined threshold and m phoneme sets extraction means for extracting m phonemes sets, for each m phoneme sets extracted, the interactive voice m phoneme sets model learning means for learning an interactive voice m phoneme sets model using the interactive voice learning data,
上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いて、上記対話音声学習データから認識率が第2の所定の閾値以下のn音素組を抽出するn音素組抽出手段と、抽出した各n音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習する対話音声n音素組モデル学習手段とを備えたものである。 The reading by using the voice m phoneme sets model and the spoken dialogue m phoneme set model, and n phoneme sets extraction means recognition rate from the interactive voice learning data to extract a second predetermined threshold below n phoneme sets, for each n phoneme sets extracted, in which a spoken dialogue n phoneme sets model learning means for learning an interactive voice n phoneme sets model using the interactive voice learning data.

【0022】この発明に係る音声パターンモデル学習装置は、n音素組抽出手段が、対話音声学習データ中から同一n音素組表記をもつデータ数が所定数以上であるn The speech pattern model learning device according to the present invention, n phoneme sets extraction means, the number of data having the same n phoneme sets notation from interacting speech training data is equal to or more than a predetermined number n
音素組を選択し、読み上げ音声m音素組モデルと対話音声m音素組モデルとを用いて選択した上記n音素組を認識し、認識率が第2の所定の閾値以下であるならば選択した上記n音素組を抽出するものである。 Select phoneme set, reading and recognizing the n phonemes sets selected by using the interactive voice m phoneme sets model voice m phoneme set model, the recognition rate is selected if it is less than the second predetermined threshold above it is intended to extract the n phoneme sets.

【0023】この発明に係る音声認識装置は、上記音声パターンモデル学習装置によって学習された読み上げ音声m音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデルを作成する認識対象語彙モデル作成手段と、該認識対象語彙モデル作成手段によって作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行う認識手段とを備えたものである。 The recognition by the present invention a speech recognition apparatus according to the connecting of the speech pattern model learning learned reading voice m phonemic sets model by the device, the interactive voice m phoneme sets model and interactive voice n phoneme sets model in parallel a recognition target vocabulary model creation means for creating a speech pattern model for target words, using the voice pattern model for recognition target words created by the recognition target vocabulary model generating means, and a recognition means for recognizing the input speech it is intended.

【0024】この発明に係る音声パターンモデル学習方法は、テキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、対話音声学習データから認識率が所定の閾値以下であるm音素組を抽出し、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習するものである。 The speech pattern model learning method according to the invention, using the speech reading m phoneme sets model was trained with speech reading text, m phoneme sets recognition rate from conversation voice learning data is equal to or less than the predetermined threshold value extracting, extracted for each m phoneme set that is intended to learn the spoken dialogue m phoneme sets model using the interactive voice learning data.

【0025】この発明に係る音声パターンモデル学習方法は、m音素組を抽出する際に、対話音声学習データ中から同一m音素組表記をもつデータ数が所定数以上であるm音素組を選択し、読み上げ音声m音素組モデルを用いて選択した上記m音素組を認識し、認識率が所定の閾値以下であるならば選択した上記m音素組を抽出するものである。 The speech pattern model learning method according to the present invention, there is provided a method for calculating m phonemes sets, the number of data having the same m phoneme set notation from interacting speech training data and select m phoneme sets is equal to or more than a predetermined number recognizes the m phoneme sets selected using the voice m phonemic sets model speech recognition rate is to extract the m phoneme sets selected if it is below a predetermined threshold.

【0026】この発明に係る音声パターンモデル学習方法は、テキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、対話音声学習データから認識率が第1の所定の閾値以下であるm音素組を抽出し、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習し、上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いて、上記対話音声学習データから認識率が第2の所定の閾値以下のn音素組を抽出し、抽出した各n The speech pattern model learning method according to the invention, using the speech reading m phoneme sets model was trained with speech reading text recognition rate from conversation voice training data is less than a first predetermined threshold extracting m phonemes sets, extracted for each m phoneme sets that learns interactive voice m phoneme sets model using the interactive voice learning data, and the voice reading m phoneme sets model and the spoken dialogue m phoneme sets model used, the recognition rate from the interactive voice learning data extracts the second predetermined threshold below n phoneme sets, each extracted n
音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習するものである。 For phoneme sets, in which learning the spoken dialogue n phoneme sets model using the interactive voice learning data.

【0027】この発明に係る音声パターンモデル学習方法は、n音素組を抽出する際に、対話学習音声データ中から同一n音素組表記をもつデータ数が所定数以上であるn音素組を選択し、読み上げ音声m音素組モデルと対話音声m音素組モデルとを用いて選択した上記n音素組を認識し、認識率が第2の所定の閾値以下であるならば選択した上記n音素組を抽出するものである。 The speech pattern model learning method according to the present invention, there is provided a method for calculating n phonemes sets, the number of data having the same n phoneme sets notation from interacting training speech data selects the n phonemes sets is equal to or more than a predetermined number , reading and recognizing the n phonemes sets selected by using the interactive voice m phoneme sets model voice m phoneme sets model, extracting the n phonemes sets selected if the recognition rate is less than a second predetermined threshold it is intended to.

【0028】この発明に係る音声認識方法は、音声パターンモデル学習方法によって学習された読み上げ音声m The speech recognition method according to the present invention, reading voice m learned by the voice pattern model learning method
音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデルを作成し、作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行うものである。 Phoneme set model, to create a voice pattern models for the recognition target vocabulary by connecting an interactive voice m phoneme sets model and interactive voice n phoneme sets model in parallel, using the speech pattern model for recognition target words that created the input speech and performs the recognition.

【0029】この発明に係る音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体は、テキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、対話音声学習データから認識率が所定の閾値以下であるm音素組を抽出するm The computer-readable recording medium recording a speech pattern model learning program according to the present invention, using the speech reading m phoneme sets model was trained with speech reading text, the recognition rate from conversation voice learning data m for extracting m phonemes sets is less than a predetermined threshold value
音素組抽出ステップと、抽出したm音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する対話音声m音素組モデル学習ステップとを有するものである。 The phoneme pair extraction step, the extracted m phoneme sets, those having an interactive voice m phoneme sets Model learning step for learning a spoken dialogue m phoneme sets model using the interactive voice learning data.

【0030】この発明に係る音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体は、m音素組抽出ステップが、対話音声学習データ中から同一m音素組表記をもつデータ数が所定数以上であるm音素組を選択し、読み上げ音声m音素組モデルを用いて選択した上記m音素組を認識し、認識率が所定の閾値以下であるならば選択した上記m音素組を抽出するものである。 The computer-readable recording medium recording a speech pattern model learning program according to the present invention, m phoneme sets extraction step, the number of data having the same m phoneme set notation from interacting speech training data for at least a predetermined number select some m phoneme set, reading recognizes the m phoneme sets selected using the voice m phoneme set model, the recognition rate is to extract the m phoneme sets selected if it is less than a predetermined threshold value .

【0031】この発明に係る音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体は、テキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、対話音声学習データから認識率が第1の所定の閾値以下であるm音素組を抽出するm音素組抽出ステップと、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する対話音声m音素組モデル学習ステップと、上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いて、上記対話音声学習データから認識率が第2の所定の閾値以下のn音素組を抽出するn音素組抽出ステップと、抽出した各n音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習する対 The computer-readable recording medium recording a speech pattern model learning program according to the present invention, using the speech reading m phoneme sets model was trained with speech reading text, the recognition rate from conversation voice learning data and m phoneme sets extracting a first m phoneme sets is less than a predetermined threshold value, for each m phoneme sets extracted, interactive voice m to learn the spoken dialogue m phoneme sets model using the interactive voice learning data the phoneme sets model learning step, the reading by using the voice m phoneme sets model and the spoken dialogue m phoneme set model, the recognition rate from the interactive voice learning data to extract a second predetermined threshold below n phoneme pairs and n phoneme sets extraction step, for each n phoneme sets extracted pairs to learn the spoken dialogue n phoneme sets model using the interactive voice learning data 音声n音素組モデル学習ステップとを有するものである。 Those having an audio n phoneme sets model learning step.

【0032】この発明に係る音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体は、n音素組抽出ステップが、対話音声学習データ中から同一n音素組表記をもつデータ数が所定数以上であるn音素組を選択し、読み上げ音声m音素組モデルと対話音声m音素組モデルとを用いて選択した上記n音素組を認識し、認識率が第2の所定の閾値以下であるならば、選択した上記n音素組を抽出するものである。 The computer-readable recording medium recording a speech pattern model learning program according to the present invention, n phoneme sets extraction step, the number of data having the same n phoneme sets notation from interacting speech training data for at least a predetermined number to select a n phoneme sets, reading and recognizing the n phonemes sets selected by using the interactive voice m phoneme sets model voice m phoneme sets model, if the recognition rate is less than a second predetermined threshold, selected and extracts the n phoneme sets.

【0033】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声パターンモデル学習方法によって学習された読み上げ音声m The computer-readable recording medium recording a speech recognition program according to the present invention, reading voice m learned by the voice pattern model learning method
音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデルを作成する認識対象語彙モデル作成ステップと、該認識対象語彙モデル作成ステップで作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行う認識ステップとを有するものである。 Phoneme set model, the recognition target vocabulary model generating step of generating a speech pattern models for the recognition target vocabulary by connecting an interactive voice m phoneme sets model and interactive voice n phoneme sets model in parallel, with the recognition target words model creation step using the speech pattern model for recognition target words created, and has a recognition step for recognizing the input speech.

【0034】 [0034]

【発明の実施の形態】以下、この発明の実施の一形態を説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, an embodiment of the present invention. 実施の形態1. The first embodiment. 図1はこの発明の実施の形態1による音声パターンモデル学習装置の構成を示すブロック図である。 Figure 1 is a block diagram showing a configuration of a speech pattern model learning device according to a first embodiment of the present invention. 図において、3は、読み上げ音声学習データメモリ6に格納された各m音素組についてテキストを読み上げた音声を用いて読み上げ音声m音素組モデルを学習するとともに、m音素組抽出部(m音素組抽出手段)10によって抽出された各m音素組について、対話音声学習データメモリ8に格納された対話音声学習データを用いて対話音声m音素組モデルを学習するモデル学習部(モデル学習手段)、7は読み上げ音声学習データメモリ6に含まれる読み上げ音声の特徴ベクトルの時系列、9は対話音声学習データメモリ8に含まれる対話音声の特徴ベクトルの時系列、11はm音素組抽出部10によって抽出されたm音素組のm音素組表記、12は抽出m音素組表記メモリ、13は読み上げ音声m音素組モデルのパラメータおよびm音素組 In FIG, 3 is adapted to learn the voice learning data memory 6 audio m phonemic sets model reading using speech reading text for each m phoneme sets stored in the speech, m phoneme set extraction unit (m phoneme sets extraction for each m phoneme sets extracted by means) 10, the model learning unit for learning the spoken dialogue m phoneme sets model using interactive voice learning data stored in the interactive voice learning data memory 8 (model learning means), 7 time series of feature vectors of the speech reading included in the speech reading learning data memory 6, 9 time series of feature vectors of interactive voice included in the conversation voice learning data memory 8, 11 extracted by m phoneme set extraction unit 10 m phoneme sets of m phoneme set notation, 12 is extracted m phoneme set notation memory, 13 read aloud m phoneme sets model parameters and m phonemes sets 記、14は読み上げ音声m音素組モデルメモリ、15は対話音声m音素組モデルのパラメータおよびm音素組表記、16は対話音声m音素組モデルメモリである。 Serial, the reading voice m phoneme sets model memory 14, 15 parameters and m phonemes sets representation of interactive voice m phoneme sets model 16 is an interactive voice m phoneme sets model memory. なお、以下ではm=3である3音素組を例にして説明する。 In the following is described as an example 3 phoneme set is m = 3. また、典型的には、この実施の形態1で使用される読み上げ音声m音素組モデルおよび対話音声m音素組モデルはともに連続分布型のHMMである。 Also, typically, voice m phoneme sets model and interactive voice m phonemic sets model reading is used in the first embodiment are both HMM of continuous distribution type.

【0035】読み上げ音声学習データメモリ6は、多様なm音素組のコンテキストを含んだ単語や文章を多数の話者が読み上げた音声を音響分析して得られる、特徴ベクトルの時系列と発話内容を示す音素組表記とを含む読み上げ音声学習データを格納するものであって、具体的には、読み上げ音声学習データは、テキストを読み上げた音声波形を音響分析して得られる特徴ベクトルの時系列を音素区間ごとに切り出したトークンの集合と、m音素組のm音素組表記の集合とを対応づけるm音素組テーブルである。 The read-aloud voice learning data memory 6 is obtained by acoustic analysis of the large number of voice the speaker was reading a word or sentence that contains a variety of m phoneme sets of context, time series and the speech content of the feature vector It is one that stores the voice learning data reading and a phoneme pairs written as, in particular, speech reading training data, phoneme time series of feature vectors obtained by voice waveform read the text by acoustic analysis a set of tokens cut into each section, a m phoneme set table associating the set of m phoneme sets of m phoneme pairs notation. このm音素組テーブルは例えば従来技術と同様に図24のように記述されている。 The m phoneme pair table is described as shown in Figure 24 as in the prior art example. ここで、音響分析方法としては従来技術と同様に例えばLPC分析を用い、特徴ベクトルはLPCケプストラムである。 Here, using conventional techniques as well as for example LPC analysis as acoustic analysis methods, the feature vector is LPC cepstrum. 音素区間ごとへの切り出しは例えば人間がスペクトログラムを観察して行う。 Cut to each phoneme segment is performed by observing the spectrogram human example. また、読み上げ音声学習データメモリ6 In addition, read-aloud voice learning data memory 6
が保持する各トークン(各トークンにはトークン番号が付されている)には各トークンの音素名、先行音素名および後続音素名を記したm音素組表記が付与されている。 There phoneme name for each token in each token (each token are assigned the token number), the preceding phoneme name and the subsequent phoneme name m phoneme set notation describing the has been granted to hold. 各m音素組表記は、例えばm=3の場合、従来技術と同様に図25のように記述される。 Each m phoneme set notation, for example, in the case of m = 3, is described as the prior art as in FIG. 25.

【0036】対話音声学習データメモリ8は、多様な場面での人対人の対話音声を音響分析して得られる、特徴ベクトルの時系列と発話内容を示す音素組表記とを含む対話音声学習データを格納するものであって、具体的には、対話音声学習データは、人対人の対話音声波形を音響分析して得られる特徴ベクトルの時系列を音素区間ごとに切り出したトークンの集合と、m音素組のm音素組表記の集合とを対応づけるm音素組テーブルである。 [0036] Interactive voice learning data memory 8, the interactive voice of human interpersonal at various scenes obtained by acoustic analysis, a spoken dialogue learning data including the phoneme sets representation showing a time-series and utterance feature vectors be those stored, specifically, interactive voice learning data includes a set of tokens cut for each phoneme section time series of feature vectors obtained dialogue speech waveform of person-to-person and acoustic analysis, m phonemes a set of pairs of m phoneme pairs notation is associating m phoneme pair table. このm音素組テーブルは、読み上げ音声学習データメモリ6のm音素組テーブルと同様の形式を有している。 The m phoneme set table has the same format as m phoneme pair table voice learning data memory 6 reading. また、音響分析の方法としては、読み上げ音声学習データと同様に例えばLPC分析を用い、特徴ベクトルはLP As a method of acoustic analysis, using the same for example LPC analysis and read speech training data, the feature vector LP
Cケプストラムである。 It is a C cepstrum. 音素区間ごとへの切り出しも読み上げ音声学習データと同様に例えば人間がスペクトログラムを観察して行うものとする。 Similarly example man and audio training data is also read aloud Cut to each phoneme segment is assumed to be performed by observing the spectrogram. また対話音声学習データメモリ8が保持する各トークンにも(各トークンにはトークン番号が付されている)各トークンの音素名、 Further also the token spoken dialogue learning data memory 8 holds (for each token are assigned the token number) phoneme name of each token,
先行音素名および後続音素名を記したm音素組表記が付与されているものとする。 Preceding phoneme name and the subsequent phoneme name m phoneme set notation describing the are assumed to be granted. 各m音素組表記は、読み上げ音声学習データメモリ6のm音素組表記と同様のものである。 Each m phoneme set notation are those reading the same m phoneme sets representation of speech training data memory 6.

【0037】読み上げ音声学習データは、テキストを読み上げた音声のように比較的丁寧で明瞭な発声に関する学習データであるのに対し、対話音声学習データは人対人の自然な対話音声に関する学習データであるので音素の特徴ベクトルの変形が激しくなっているのが特徴である。 The read-aloud voice training data, whereas the learning data about the relatively polite and clear Say the voice that reads out the text, interactive voice learning data is a learning data on the natural dialogue voice of the person-to-person it is characterized by the deformation of the phoneme feature vector has intensified since.

【0038】次に動作について説明する。 [0038] Next, the operation will be described. この発明の実施の形態1による音声パターンモデル学習装置は、読み上げ音声m音素組モデルを次のようにして作成し、読み上げ音声m音素組モデルメモリ14に格納する。 Speech pattern model learning device according to a first embodiment of the invention, the reading voice m phoneme sets model created as follows, and stores the speech reading m phoneme sets model memory 14. この場合、音声パターンモデル学習装置は、モデル学習部3の入力端子Aを読み上げ音声学習データメモリ6の出力端子B1に接続することにより、読み上げ音声学習データメモリ6が保持するデータをモデル学習部3へ入力するようにセットする。 In this case, the speech pattern model learning device, by connecting the output terminal B1 of the speech training data memory 6 reading the input terminal A of the model learning unit 3, reading voice learning data memory 6 model learning unit 3 data held It is set to enter into. さらに、モデル学習部3の出力端子Cが読み上げ音声m音素組モデルメモリ14の入力端子D1に接続される。 Further, the output terminal C of the model learning unit 3 is connected to the input terminal D1 of the speech m phoneme sets model memory 14 reading. この接続状態で、以下の手順にしたがって、この実施の形態1による音声パターンモデル学習装置は読み上げ音声m音素組モデルを学習する。 In this connected state, the following steps are speech pattern model learning device according to the first embodiment learns the voice m phonemic sets model reading.

【0039】(1)読み上げ音声モデル学習手順1:モデル学習部3は、読み上げ音声学習データメモリ6が保持するm音素組テーブルを読み込み、このm音素組テーブルの記述内容にしたがって先頭のm音素組をまず学習対象として選択する。 [0039] (1) read speech model learning procedure 1: model learning unit 3, reading reads m phoneme set table speech training data memory 6 holds, leading m phoneme sets in accordance with the description contents of the m phoneme set table the first selected as the learning target. この場合、m=3であるm音素組テーブルが従来技術と同様に例えば図24のように記述されているならば、モデル学習部3はまず先頭のm音素組である(a)a(a)を学習対象として選択する。 In this case, if m phoneme sets table is m = 3 is described as the prior art as well as example 24, the model learning unit 3 is a first leading m phoneme set (a) a (a ) is selected as the learning target.

【0040】(2)読み上げ音声モデル学習手順2:モデル学習部3は、上記読み上げ音声モデル学習手順1または下記読み上げ音声モデル学習手順3において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列7を読み上げ音声学習データメモリ6から読み込み、例えばフォワード・バックワードアルゴリズムを用いて選択した上記m音素組についてモデルを学習する。 [0040] (2) read speech model learning procedure 2: model learning unit 3, all with m phonemic sets notation consistent with m phoneme sets selected in the read speech model training step 1 or the following reading voice model learning procedure 3 read from the voice learning data memory 6 reading time series 7 of the feature vectors of the tokens to learn a model for the above m phoneme sets selected using, for example, forward-backward algorithm. 学習を終了すると、モデル学習部3 Upon completion of the learning, the model learning unit 3
はモデルのパラメータである状態遷移確率およびラベル出力確率ならびにそのm音素組表記13を読み上げ音声m音素組モデルメモリ14に送出する。 Sends the voice m phoneme sets model memory 14 read the state transition probabilities and label output probabilities and the m phoneme sets denoted 13, which is a parameter of the model. 読み上げ音声m Read speech m
音素組モデルメモリ14は上記のように学習を終了したモデルのパラメータとそのm音素組表記13を保持する。 Phoneme sets model memory 14 retains its m phoneme pairs denoted 13 and parameters of the model ended learning as described above.

【0041】(3)読み上げ音声モデル学習手順3:その後、モデル学習部3は読み上げ音声学習データメモリ6が保持するm音素組テーブルを参照し、読み上げ音声学習データメモリ6に存在する全てのm音素組についてモデルの学習が終了するまで、上記m音素組テーブルに記述されている順番にしたがって次のm音素組を学習対象として選択し、上記読み上げ音声モデル学習手順2を繰り返して、全てのm音素組について読み上げ音声m音素組モデルの学習を終了する。 [0041] (3) read speech model training Step 3: Then, all m phonemes voice learning data memory 6 model learning unit 3 reading refers to the m phoneme set table held, present in the voice learning data memory 6 reading for up model learning is finished set, it selects the next m phoneme sets as a learning object in accordance with the order described in the m phoneme set table, repeating the above read speech model training step 2, all m phonemes to end the learning of voice m phoneme sets of model reading aloud for the set.

【0042】次に、モデル学習部3は、m音素組抽出部10と協働して、対話音声m音素組モデルを学習し、学習によって得た結果を対話音声m音素組モデルメモリ1 Next, the model learning unit 3, in cooperation with m phoneme set extraction unit 10 learns the interactive voice m phoneme sets model, interaction results obtained by the learning speech m phoneme sets model memory 1
6に格納する。 And stores it in the 6. 学習を開始する前に、音声パターンモデル学習装置は、モデル学習部3の入力端子Aを対話音声学習データメモリ8の出力端子B2に接続することにより、対話音声学習データメモリ8が保持するデータをモデル学習部3へ入力するようにセットする。 Before starting the training, speech pattern model learning device, by connecting the input terminal A of the model learning unit 3 to the output terminal B2 of the interactive voice learning data memory 8, the data interaction voice learning data memory 8 holds It is set to enter into the model learning unit 3. さらに、モデル学習部3の出力端子Cが対話音声m音素組モデルメモリ16の入力端子D2に接続される。 Further, the output terminal C of the model learning unit 3 is connected to an input terminal D2 of the interactive voice m phoneme sets model memory 16. この接続状態で、以下の手順にしたがって、この実施の形態1による音声パターンモデル学習装置は対話音声m音素組モデルを学習する。 In this connected state, the following steps speech pattern model learning device according to the first embodiment learns the interactive voice m phoneme sets model.

【0043】この対話音声m音素組モデルの学習手順は、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ8に格納されている各トークンの認識を行い、認識率の低いm音素組を抽出する手順と、このようにして抽出した各m音素組について対話音声m音素組モデルを学習する手順との2つの手順からなる。 The learning procedure of the interactive voice m phoneme set model, each stored in the interactive voice learning data memory 8 using the voice m phonemic sets model reading stored in the speech reading m phoneme sets model memory 14 tokens perform recognition, the procedure for extracting a low recognition rate m phoneme set, consisting of two steps of the procedure for learning a spoken dialogue m phoneme sets model for each m phoneme sets extracted in this way.

【0044】まず、認識率の低いm音素組を抽出する手順について説明する。 [0044] First, the procedure for extracting a low recognition rate m phoneme sets. (1)m音素組抽出手順1:m音素組抽出部10は、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータとそのm音素組表記とを読み込む。 (1) m phoneme sets extraction procedure 1: m phoneme set extraction unit 10 reads the parameters of all speech reading m phoneme sets model from the speech m phoneme sets model memory 14 reading and its m phoneme pairs notation.

【0045】(2)m音素組抽出手順2:m音素組抽出部10は、対話音声学習データメモリ8が保持するm音素組テーブルを参照しこのm音素組テーブルの記述内容にしたがって、先頭のm音素組を認識対象として選択する。 [0045] (2) m phoneme sets extraction procedure 2: m phoneme set extraction unit 10, according to the description contents of the m phoneme set table with reference to the m phoneme set table interactive voice learning data memory 8 holds, the head of the to select the m phoneme set as the recognition target. m=3のm音素組テーブルが例えば図24のように記述されている場合、m音素組抽出部10はまず先頭のm音素組である(a)a(a)を認識対象として選択する。 If m = 3 in the m phoneme pair table is written as in FIG. 24, for example, m phoneme set extraction unit 10 selects a first leading m phoneme sets of (a) a (a) as the recognition target.

【0046】(3)m音素組抽出手順3:m音素組抽出部10は、上記m音素組抽出手順2または下記m音素組抽出手順4において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列9 [0046] (3) m phoneme sets extraction procedure 3: m phoneme set extraction unit 10, the m phoneme pairs notation match m phonemes set and selected in the m phoneme sets extraction procedure 2 or below m phoneme sets extraction procedure 4 time series 9 of feature vectors of all tokens with
を対話音声学習データメモリ8から読み込み、読み込んだ各トークンのそれぞれについて、上記m音素組抽出手順1で読み込んだ全ての読み上げ音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm音素組モデルのm音素組表記を当該トークンの認識結果とする。 Reads from an interactive voice learning data memory 8, for each of the token read, the likelihood of all of the voice reading m phoneme sets model read in the m phoneme sets extraction step 1 is calculated and the highest likelihood the m phoneme sets notation m phoneme sets model illustrated that the recognition result of the token. なお、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, for example, it is used Viterbi algorithm to the likelihood calculation.
m音素組抽出部10は、読み込んだ全てのトークンについて認識結果を求めた後、下記(1)式にしたがって認識率R を計算する。 m phoneme set extraction unit 10, after obtaining the recognition result for all tokens read, calculates the recognition rate R t in accordance with the following equation (1).

【0047】 R = C /N *100.0 (1) [0047] R t = C t / N t * 100.0 (1)

【0048】但し、(1)式中で添字tは選択したm音素組の種類を示しており、N はm音素組表記がm音素組の種類がtであるトークンの個数、C はその中で正認識であったトークンの個数である。 [0048] However, (1) subscript t denotes the m phoneme sets of type selected in formula, N t is the number of tokens m phoneme pairs notation is m phoneme sets of types t, C t is is the number of tokens was a positive recognition in it. ここで正認識とは、読み込んだ各トークンのm音素組表記が一番高い尤度を示したm音素組モデルのm音素組表記と一致する場合を正認識とする。 Here, the positive recognition, and positive recognize if m phoneme sets representation of each token read matches the m phonemic sets notation m phoneme sets model showing the highest likelihood.

【0049】m音素組抽出部10は、上記認識率R を予め定めた閾値T と比較し、閾値T 以下であれば、 [0049] m phoneme set extraction unit 10 compares the threshold T r determined in advance of the recognition rate R t, equal to or less than the threshold value T r,
そのm音素組のm音素組表記を抽出m音素組表記メモリ12に送出する。 The m phoneme sets of m phoneme sets notation sends the extracted m phoneme sets representation memory 12. 抽出m音素組表記メモリ12は、入力されたm音素組表記を保持する。 Extracting m phonemes sets representation memory 12 holds m phoneme set notation entered.

【0050】(4)m音素組抽出手順4:m音素組抽出部10は、対話音声学習データメモリ8が保持するm音素組テーブルを参照し、対話音声学習データメモリ8に存在する全てのm音素組から認識率の低いものを抽出するために、上記m音素組テーブルに記述されている順番にしたがって次のm音素組を選択し、上記m音素組抽出手順3を繰り返す。 [0050] (4) m phoneme sets extraction procedure 4: m phoneme set extraction unit 10 refers to the m phoneme set table interactive voice learning data memory 8 holds, all present in the interactive voice learning data memory 8 m to extract the intended low phoneme pair recognition rate, in the order described in the m phoneme set table selects the next m phoneme pairs and repeats the above m phoneme sets extraction procedure 3.

【0051】以上のように、m音素組抽出部10は、上記m音素組抽出手順1〜4を行うことによって、認識率R が閾値T 以下である全てのm音素組を抽出し、それらのm音素組表記を抽出m音素組表記メモリ12に格納する。 [0051] As described above, m phoneme set extraction unit 10 performs the m phoneme sets extraction steps 14, extracts all m phoneme sets recognition rate R t is equal to or less than the threshold value T r, store those m phonemes sets notation extract m phoneme sets representation memory 12.

【0052】次に上記のようにして抽出した各m音素組について対話音声m音素組モデルを学習する手順を説明する。 [0052] Next will be described a procedure to learn the spoken dialogue m phoneme sets model for each m phoneme sets extracted as described above.

【0053】(1)抽出m音素組モデル学習手順1:モデル学習部3は、抽出m音素組表記メモリ12に保持されているm音素組表記を読み込み、抽出m音素組表記メモリ12に保持されている順番にしたがい、まず先頭のm音素組を学習対象として選択する。 [0053] (1) extracting m phonemes sets Model learning procedure 1: model learning unit 3 extracts m read phoneme set notation m phonemic sets notation held in the memory 12 is held in the extraction m phoneme sets representation memory 12 according to the order in which, first select the first m phoneme sets as a learning object. 抽出m音素組表記メモリ12の内容が例えば図2のようである場合、モデル学習部3は先頭のm音素組である(a)a(u)を学習対象として選択する。 If the content of the extracted m phoneme sets representation memory 12 is shown in FIG. 2 for example, the model learning unit 3 selects a leading m phoneme sets of (a) a (u) as a learning object.

【0054】(2)抽出m音素組モデル学習手順2:モデル学習部3は、上記抽出m音素組モデルの学習手順1 [0054] (2) Extraction m phoneme sets Model learning procedure 2: model learning unit 3, the learning step 1 above extraction m phonemic sets Model
または下記抽出m音素組モデルの学習手順3において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ8から読み込み、例えばフォワード・バックワードアルゴリズムを用いて選択したm音素組に対する対話音声m音素組モデルを学習する。 Or reads the time series 9 of feature vectors of all tokens with m phonemic sets notation consistent m phonemes set and selected in the learning step 3 below extracting m phonemes sets model from the interactive voice learning data memory 8, for example, forward-back learning a spoken dialogue m phoneme sets model for m phoneme sets selected using word algorithm. そして、モデル学習部3は、学習したモデルのパラメータとそのm音素組表記を対話音声m音素組モデルメモリ16に送出する。 The model learning unit 3 sends the parameters and their m phoneme sets notation learned model interactive voice m phoneme sets model memory 16. 対話音声m音素組モデルメモリ16は、受け取ったモデルのパラメータおよびm音素組表記を保持する。 Interactive Voice m phoneme sets model memory 16 holds parameters and m phonemes sets representation of the received model.

【0055】(3)抽出m音素組モデル学習手順3:次に、モデル学習部3は、抽出m音素組表記メモリ12に保持されている順番にしたがって、抽出m音素組表記メモリ12に保持されている次のm音素組を選択し、上記の抽出m音素組モデル学習手順2を繰り返す。 [0055] (3) extracting m phonemes sets Model learning procedure 3: Next, the model learning unit 3, according to the order stored in the extracted m phoneme sets representation memory 12 is held in the extraction m phoneme sets representation memory 12 and which selects the next m phoneme sets, repeating the above extraction m phoneme sets model learning procedure 2.

【0056】次にこの実施の形態1による音声パターンモデル学習装置が使用する、m音素組モデルを学習する方法を具体的に説明する。 Next using the speech pattern model learning device according to the first embodiment will be specifically described the method of learning the m phoneme sets model. 図3はこの発明の実施の形態1による音声パターンモデル学習方法の手順を示すフローチャートである。 Figure 3 is a flowchart showing a procedure of a speech pattern model learning method according to the first embodiment of the present invention. 図3に示すとおり、この実施の形態1による音声パターンモデル学習装置ではm音素組モデルの学習手順は大きく3つのステップに分けられる。 As shown in FIG. 3, the learning procedure of m phoneme sets model speech pattern model learning device according to the first embodiment is divided into three steps significantly.

【0057】まず、モデル学習部3は、第1ステップであるステップST101において、読み上げ音声m音素組モデルを学習し学習した結果であるモデルのパラメータおよびm音素組表記を読み上げ音声m音素組モデルメモリ14に格納する。 Firstly, the model learning unit 3, in step ST101 is a first step, reading voice m phoneme sets model to learn reading parameters and m phonemes sets representation model is the result of training speech m phoneme sets model memory and stores it in the 14.

【0058】次に、m音素組抽出部10は、第2ステップであるステップST102において、読み上げ音声m Next, m phoneme set extraction unit 10 in step ST102 is a second step, reading voice m
音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ8に格納されている各トークンの認識を行い、認識率の低いm音素組を抽出する。 Performs recognition of the tokens stored in the interactive voice learning data memory 8 using the voice m phonemic sets model reading stored in the phoneme sets model memory 14, extracts a low recognition rate m phoneme sets.

【0059】その後、モデル学習部3は、第3ステップであるステップST103において、対話音声学習データメモリ8に格納されているトークンを用いて上記第2 [0059] Then, the model learning unit 3, in step ST103 is the third step, interactive voice learning data by using the token to the memory 8 is stored the second
ステップで抽出したm音素組について、対話音声m音素組モデルを学習する。 m phoneme sets the extracted in step learns the interactive voice m phoneme sets model.

【0060】次に上記第1〜第3ステップを詳しく説明する。 [0060] will be described in detail the first to third steps. 図4は上記第1ステップである読み上げ音声m音素組モデルの学習手順を示すフローチャートである。 Figure 4 is a flowchart showing a learning procedure of speech m phonemic sets model reading is the first step. 図4を参照しながら読み上げ音声m音素組モデルの学習手順を詳細に説明する。 Detailed description of the learning procedure of speech m phonemic sets model reading with reference to FIG.

【0061】モデル学習部3は、ステップST201において、読み上げ音声学習データメモリ6のm音素組テーブルを読み込み、このm音素組テーブルの記述内容にしたがって、先頭のm音素組を学習対象として選択する。 [0061] model learning unit 3, in step ST 201, read the m phoneme pair table voice learning data memory 6 reading, according to the description contents of the m phoneme set table, selecting the leading m phoneme sets as a learning object. m音素組テーブルが従来技術と同様に例えば図24 m phoneme pair table prior art similarly to example 24
のように記述されている場合、モデル学習部3は先頭のm音素組である(a)a(a)を学習対象として選択する。 If it is described as a model learning unit 3 selects a leading m phoneme sets of (a) a (a) as a learning object.

【0062】モデル学習部3は、次に、ステップST2 [0062] model learning unit 3, then, step ST2
02において、上記ステップST201またはステップST206において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列7 In 02, the time series of feature vectors of all tokens with m phonemic sets notation consistent with m phoneme sets selected in step ST201 or step ST 206 7
を読み上げ音声学習データメモリ6から読み込む。 The reading read from the speech learning data memory 6.

【0063】そして、モデル学習部3は、ステップST [0063] Then, the model learning unit 3, step ST
203において、例えばフォワード・バックワードアルゴリズムを用いて上記ステップST201またはステップST206において選択したm音素組について読み上げ音声m音素組モデルを学習する。 In 203, we learn the voice m phonemic sets model reading the m phoneme sets selected in step ST201 or step ST206, for example, using forward-backward algorithm.

【0064】その後、モデル学習部3は、ステップST [0064] After that, the model learning unit 3, step ST
204において、学習を終了すると上記ステップST2 In 204, the step ST2 Upon completion of learning
03における学習の結果得たモデルのパラメータである状態遷移確率およびラベル出力確率ならびにそのm音素組表記13を読み上げ音声m音素組モデルメモリ14に送出する。 State transition probabilities and label output probability is a parameter of the resulting model of learning in 03 well reading the m phoneme sets denoted 13 and sends the voice m phoneme sets model memory 14. 読み上げ音声m音素組モデルメモリ14は受け取ったこれらのモデルのパラメータおよびm音素組表記13を保持する。 Reading voice m phoneme sets model memory 14 holds the parameter and m phonemic sets representation 13 of these models received.

【0065】次に、モデル学習部3は、ステップST2 Next, the model learning unit 3, step ST2
05において、読み上げ音声学習データメモリ6が保持するm音素組テーブルを参照し、読み上げ音声学習データメモリ6に存在する全てのm音素組について読み上げ音声m音素組モデルの学習を終了したか否かを判定し、 In 05, reading with reference to the m phoneme set table speech training data memory 6 holds, whether or not it is completed to learn voice m phonemic sets model reading for all m phonemes sets present in the voice learning data memory 6 reading the judgment,
全てのm音素組について学習が終了していない場合は、 If learning about all of the m phoneme sets has not been completed,
ステップST206において、m音素組テーブルに記述されている順番にしたがって次のm音素組を学習対象として選択し、上記ステップST202に戻る。 In step ST 206, according to the order described in the m phoneme set table selects the next m phoneme sets as a learning object, the flow returns to the step ST 202. 一方、全てのm音素組について学習が終了したならば、モデル学習部3はこの読み上げ音声m音素組モデル学習手順を終了する。 On the other hand, if the learning for all m phonemes sets completed, the model learning unit 3 ends the reading voice m phoneme sets model learning procedure.

【0066】次に、m音素組抽出部10が、第2ステップにおいて、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ8に格納されている各トークンの認識を行い、認識率の低いm音素組を抽出する。 Next, m phoneme set extraction unit 10, is stored in a second step, the conversation voice learning data memory 8 using the voice m phonemic sets model reading stored in the voice m phoneme sets model memory 14 reading and performs recognition of each token has, extracts the low recognition rate m phoneme sets. 図5 Figure 5
はこの第2ステップの抽出手順を示すフローチャートであり、以下では、図5を参照しながらこの抽出手順を詳細に説明する。 Is a flowchart showing the procedure of extracting the second step, in the following, with reference to FIG. 5 describes this extraction procedure in detail.

【0067】まず、m音素組抽出部10は、ステップS [0067] First, m phoneme set extraction unit 10, the step S
T301において、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータおよびそのm音素組表記13を読み込む。 In T301, read parameter and m phonemes sets representation 13 of every speech reading m phoneme sets model from the speech m phoneme sets model memory 14 reading.

【0068】次に、m音素組抽出部10は、ステップS Next, m phoneme set extraction unit 10, the step S
T302において、対話音声学習データメモリ8に格納されているm音素組テーブルを読み込み、このm音素組テーブルの記述内容にしたがって、先頭のm音素組を認識対象として選択する。 In T302, it reads the m phoneme sets table stored in the interactive voice learning data memory 8, according to the description contents of the m phoneme set table, selecting the leading m phoneme sets as the recognition target. m音素組テーブルが例えば図2 m phoneme pair table example 2
4のように記述されている場合、m音素組抽出部10は先頭のm音素組である(a)a(a)を認識対象として選択する。 If 4 is described as, m phoneme set extraction unit 10 selects a leading m phoneme sets of (a) a (a) as the recognition target.

【0069】そして、m音素組抽出部10は、ステップST303において、上記ステップST302またはステップST308において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ8から読み込む。 [0069] Then, m phoneme set extraction unit 10, at step ST 303, interactive time series 9 of feature vectors of all tokens with m phonemic sets notation consistent with m phoneme sets selected in step ST302 or step ST308 read from the speech learning data memory 8.

【0070】その後、m音素組抽出部10は、ステップST304において、読み込んだ全てのトークンのそれぞれについて、上記ステップST301で読み込んだ全ての読み上げ音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm音素組モデルのm音素組表記を、 [0070] Thereafter, m phoneme set extraction unit 10, at step ST 304, for each of all the tokens read, calculates the likelihoods of all speech reading m phoneme sets model read in the step ST 301, most the m phoneme sets notation m phoneme sets model showed high likelihood,
当該トークンの認識結果とする。 The recognition result of the token. なお、既に述べたように、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, as already mentioned, it is used, for example Viterbi algorithm to the likelihood calculation.
m音素組抽出部10は、読み込んだ全てのトークンに対する認識結果を求めた後、上記(1)式にしたがって認識率R を計算する。 m phoneme set extraction unit 10, after obtaining the recognition result for all tokens read, calculates the recognition rate R t in accordance with the equation (1).

【0071】次に、m音素組抽出部10は、ステップS [0071] Next, m phoneme set extraction unit 10, the step S
T305において、上記ステップST304で求めた認識率R を予め定めた閾値T と比較し、閾値T 以下であれば、ステップST306に進み、選択したm音素組のm音素組表記11を抽出m音素組表記メモリ12に送出する。 In T305, is compared with a threshold value T r which defines a recognition rate R t obtained in step ST304 in advance, if less than the threshold value T r, the process proceeds to step ST 306, the m phoneme sets of m phonemic sets notation 11 selected extracted and it sends the m phoneme sets representation memory 12. 抽出m音素組表記メモリ12は、入力されたm音素組表記11を保持する。 Extracting m phonemes sets representation memory 12 holds m phonemic sets representation 11 entered. 一方、上記認識率R が閾値T よりも大きいならば、m音素組抽出部10は何も抽出m音素組表記メモリ12へ送出せずにステップS On the other hand, if the recognition rate R t is larger than the threshold value T r, step without the m phoneme set extraction unit 10 sends nothing to extract m phonemic sets representation memory 12 S
T307に進む。 Proceed to the T307.

【0072】ステップST307に進むと、m音素組抽出部10は、対話音声学習データメモリ8に格納されたm音素組テーブルを参照し、対話音声学習データメモリ8に存在する全てのm音素組について認識率R を計算したか否かを判定し、全てのm音素組について認識が終了していない場合は、ステップST308へ進み、m音素組テーブルに記述されている順番にしたがって次のm [0072] In step ST 307, m phoneme set extraction unit 10 refers to the m phoneme pair table stored in the interactive voice learning data memory 8, for all m phonemes sets present in the interactive voice learning data memory 8 the recognition rate R t is determined whether the calculated, if the recognition for all the m phonemes sets not ended, the process proceeds to step ST 308, the next in the order described in the m phoneme pair table m
音素組を認識対象として選択し、ステップST303に戻る。 Select the phoneme set as the recognition target, the flow returns to step ST303. 一方、m音素組抽出部10が全てのm音素組について認識を終了しているならばこのm音素組抽出手順を終了する。 On the other hand, if m phoneme set extraction unit 10 has ended the recognition for all m phonemes sets to end the m phoneme sets extraction procedure.

【0073】このようにm音素組抽出部10がm音素組抽出手順(図5のステップST301〜ステップST3 [0073] Step ST301~ step ST3 of the thus m phoneme set extraction unit 10 m phoneme sets extraction procedure (Fig. 5
08)を行うことによって、認識率R が閾値T 以下である全てのm音素組を抽出しそれらのm音素組表記1 By performing 08), the recognition rate R t extracts all m phonemes sets is equal to or less than the threshold T r thereof m phonemes sets notation 1
1を抽出m音素組表記メモリ12に格納することができる。 Can store 1 the extraction m phoneme sets representation memory 12.

【0074】最後に、モデル学習部3は第3ステップで対話音声学習データメモリ8に格納されているトークンを用いて上記第2ステップで抽出した各m音素組について対話音声m音素組モデルを学習する。 [0074] Finally, the model learning unit 3 learning dialogue voice m phoneme sets model for each m phoneme sets extracted in the second step by using a token stored in the interactive voice learning data memory 8 in the third step to. 図6は第3ステップの学習手順を示すフローチャートであり、以下では、図6を参照しながら学習手順の詳細を説明する。 Figure 6 is a flowchart showing a procedure of a learning third step, in the following, details of the learning procedure with reference to FIG.

【0075】モデル学習部3は、まず、ステップST4 [0075] model learning unit 3, first, step ST4
01において、抽出m音素組表記メモリ12に保持されているm音素組表記11を読み込み、抽出m音素組表記メモリ12に保持されている順番にしたがって、まず先頭のm音素組を学習対象として選択する。 In 01 reads the extracted m phoneme sets notation m phonemic sets notation 11 held in the memory 12, the order in which they are held in the extracted m phoneme sets representation memory 12, first select the first m phoneme sets as a learning target to. 抽出m音素組表記メモリ12の内容が例えば図2のようである場合、 If the content of the extracted m phoneme sets representation memory 12 is shown in FIG. 2, for example,
モデル学習部3はまず先頭のm音素組である(a)a Model learning unit 3 is a first leading m phoneme set (a) a
(u)を学習対象として選択する。 A (u) is selected as the learning target.

【0076】次に、モデル学習部3は、ステップST4 [0076] Next, the model learning unit 3, step ST4
02において、上記ステップST401またはステップST406において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列9 In 02, the time series of feature vectors of all tokens with m phonemic sets notation consistent with m phoneme sets selected in step ST401 or step ST 406 9
を対話音声学習データメモリ8から読み込む。 Read from the interactive voice learning data memory 8.

【0077】そして、モデル学習部3は、ステップST [0077] Then, the model learning unit 3, step ST
403において、例えばフォワード・バックワードアルゴリズムを用いて選択したm音素組について対話音声m In 403, the m phoneme set, for example were selected using the forward-backward algorithm interactive voice m
音素組モデルを学習する。 To learn the phoneme set model.

【0078】その後、モデル学習部3は、ステップST [0078] After that, the model learning unit 3, step ST
404において、上記ステップST403における学習の結果得たモデルのパラメータおよびそのm音素組表記15を対話音声m音素組モデルメモリ16に送出する。 In 404, it sends the parameters and their m phoneme sets representation 15 resulting model of learning in the step ST403 interactive voice m phoneme sets model memory 16.
対話音声m音素組モデルメモリ16は受け取ったモデルのパラメータおよびm音素組表記15を保持する。 Interactive Voice m phoneme sets model memory 16 holds the parameter and m phonemic sets representation 15 of the model received.

【0079】次に、モデル学習部3は、ステップST4 [0079] Next, the model learning unit 3, step ST4
05において、抽出m音素組表記メモリ12に保持されている全てのm音素組について、全てのm音素組モデルを学習したか否かを判定し、全てのm音素組について学習が終了していない場合は、ステップST406に進み、抽出m音素組表記メモリ12に記述されている順番にしたがって次のm音素組を学習対象として選択し、ステップST402に戻る。 In 05, for all m phonemes sets stored in the extracted m phoneme sets representation memory 12, it is determined whether or not the learning of all m phoneme sets model, no learning for all m phoneme sets are completed If, the process proceeds to step ST 406, according to the order described in the extracted m phoneme sets representation memory 12 selects the next m phoneme sets as a learning object, the flow returns to step ST 402. 一方、モデル学習部3は、全てのm音素組について学習を終了しているならば、この対話音声m音素組モデル学習手順を終了する。 On the other hand, the model learning unit 3, if has completed the learning for all m phonemes sets to end the conversation voice m phoneme sets model learning procedure.

【0080】この実施の形態1による音声パターンモデル学習方法をソフトウェアで実現する場合、読み上げ音声m音素組モデルを学習し読み上げ音声m音素組モデルメモリ14に格納する、読み上げ音声m音素組モデルを学習する第1ステップと、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ8に格納されている各トークンの認識を行い、認識率の低いm音素組を抽出する第2ステップと、対話音声学習データメモリ8に格納されているトークンを用いて上記第2ステップで抽出した全てのm音素組のそれぞれについて、対話音声m [0080] storing sound pattern model learning method according to the first embodiment For a software implementation, the voice m phoneme sets model memory 14 reading learning voice m phonemic sets model reading, learning voice m phonemic sets model reading first carried out the steps, the recognition of the tokens stored in the interactive voice learning data memory 8 using the voice m phonemic sets model reading stored in the voice m phoneme sets model memory 14 reading, low recognition rate of a second step of extracting m phonemes sets, the interaction voice learning data in the memory 8 with the token stored each and every m phonemes sets extracted in said second step, interactive voice m
音素組モデルを学習する第3ステップとを有する、コンピュータに音声パターンモデルを学習させるための音声パターンモデル学習プログラムを記録したコンピュータで読み取り可能な記録媒体が必要である。 And a third step for learning a phoneme sets model, it is necessary readable medium having thereon computer speech pattern model learning program for learning the voice pattern model on the computer.

【0081】以上説明したように、この実施の形態1の音声パターンモデル学習装置および音声パターンモデル学習方法によれば、読み上げ音声m音素組モデルを用いて対話音声学習データメモリ8に保持されている全てのm音素組のそれぞれの認識を行い、認識率の低いm音素組を抽出して、抽出したm音素組についてのみ対話音声学習データメモリ8が保持するトークンの特徴ベクトルの時系列を用いて対話音声m音素組モデルを学習するので、全てのm音素組に対して対話音声m音素組モデルを学習することなしに、読み上げ音声で学習した読み上げ音声m音素組モデルでは認識が困難であった対話音声をも認識可能な対話音声m音素組モデルを効率良く学習できる効果を奏する。 [0081] As described above, according to the speech pattern model learning apparatus and speech pattern model learning method of the first embodiment, is held in the interactive voice learning data memory 8 using the voice m phonemic sets model reading It performs each of the recognition of all m phonemes sets, to extract a low recognition rate m phoneme sets, extract only interactive voice learning data memory 8 for m phoneme pairs that are using the time series of feature vectors of tokens held since learning a spoken dialogue m phoneme sets model, without learning a spoken dialogue m phoneme sets model for all m phoneme sets, recognized by the read speech m phoneme sets model learned by reading voice is difficult dialogue also exhibits the effect of the recognizable interactive voice m phoneme sets model efficiently learn speech. なお、この実施の形態1ではm=3 Incidentally, Embodiment 1, m = 3 in this embodiment
として説明したが、mが3以外の任意の整数を選ぶことも可能であり、その場合にも同様の効果を奏する。 It has been described as, m is also possible to choose an arbitrary integer other than 3, the same effect even if the.

【0082】実施の形態2. [0082] Embodiment 2. この発明の実施の形態2による音声パターンモデル学習装置は、上記実施の形態1 Speech pattern model learning device according to a second embodiment of the invention, the above-described embodiments 1
によるm音素組抽出手順1〜4に代わって以下に示す改良m音素組抽出手順1〜4を実行するm音素組抽出部1 On behalf of the m phoneme sets extraction procedure 1-4 by performing an improved m phoneme sets extraction procedure 1-4 shown below m phoneme sets extractor 1
0を備えたものである。 It is those with a 0. なお、この実施の形態2による音声パターンモデル学習装置は図1に示す上記実施の形態1によるものと同一の構成を有しており、m音素組抽出部10以外の構成要素は上記実施の形態1による音声パターンモデル学習装置と同じ動作をするので、以下ではその他の構成要素の説明を省略する。 Incidentally, the speech pattern model learning device according to the second embodiment has the same configuration as those of the aforementioned first embodiment shown in FIG. 1, the components other than the m phoneme set extraction unit 10 in the above embodiment since the same operation as the speech pattern model learning device according to 1, in the following description thereof is omitted other components. また、この実施の形態2においてもm=3のm音素組を対象として説明する。 Also described as a target of m phoneme sets of m = 3 in the second embodiment.

【0083】次に動作について説明する。 [0083] Next, the operation will be described. (1)改良m音素組抽出手順1:m音素組抽出部10 (1) Improvement m phoneme sets extraction procedure 1: m phoneme set extraction unit 10
は、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータおよびそのm The parameters of all the reading voice m phoneme sets model memory 14 speech reading m phoneme sets model and its m
音素組表記13を読み込む。 Read the phoneme set notation 13.

【0084】(2)改良m音素組抽出手順2:次に、m [0084] (2) improving m phoneme sets extraction procedure 2: Next, m
音素組抽出部10は、対話音声学習データメモリ8に格納されたm音素組テーブルを読み込み、このm音素組テーブルの記述内容にしたがって、対話音声学習データ中から先頭のm音素組を認識対象として選択する。 Phoneme set extraction unit 10 reads the m phoneme pair table stored in the interactive voice learning data memory 8, according to the description contents of the m phoneme set table, as the recognition target the leading m phoneme sets from interacting speech training data select. m音素組テーブルが例えば図24のように記述されている場合、m音素組抽出部10は先頭のm音素組である(a) If m phoneme pair table is written as in FIG. 24, for example, m phoneme set extraction unit 10 is the head of the m phoneme set (a)
a(a)を認識対象として選択する。 To select a: (a) as the recognition target.

【0085】(3)改良m音素組抽出手順3:m音素組抽出部10は、上記改良m音素組抽出手順2または下記改良m音素組抽出手順4において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ8から読み込む。 [0085] (3) improving m phoneme sets extraction procedure 3: m phoneme set extraction unit 10, m phonemes coincident with m phoneme sets selected in the improvement m phoneme sets extraction procedure 2 or below improvements m phoneme sets extraction procedure 4 read time series 9 of feature vectors of all tokens from the interactive voice learning data memory 8 with a set notation. 読み込んだトークンの数N (添字tは選択したm M is the number N t (subscript t of the selected read token
音素組の名前を示す)が予め定めた閾値N未満であれば、m音素組抽出部10は抽出m音素組表記メモリ12 If it is less than the threshold value N indicating the name of the phoneme pair) is predetermined, m phoneme set extraction unit 10 extracts m phoneme sets representation memory 12
には何も送出せず、下記改良m音素組抽出手順4に移る。 Nothing is sent out, it moves to the following improvements m phoneme sets extraction procedure 4. 一方、N が予め定めた閾値N以上であれば、上記実施の形態1と同様に認識を行う。 On the other hand, if the threshold value N or more that N t is predetermined, for recognizing as in the first embodiment. すなわち、読み込んだ各トークンについて、上記改良m音素組抽出手順1で読み込んだ全ての読み上げ音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm音素組モデルのm音素組表記を、当該トークンの認識結果とする。 That is, for each token read, the improvement m phoneme sets extraction procedure the likelihood of all of the voice reading m phoneme sets model read in 1 calculates, m phoneme m phoneme sets model showing the highest likelihood a set notation, the recognition result of the token. なお、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, for example, it is used Viterbi algorithm to the likelihood calculation. 読み込んだ全てのトークンに対する認識結果を求めた後、m音素組抽出部10は、上記実施の形態1と同様に上記(1)式によって認識率R を計算する。 After obtaining the recognition result for all tokens read, m phoneme set extraction unit 10 calculates the recognition rate R t in the same manner as the first embodiment by the expression (1). そして、m音素組抽出部10は、上記認識率R を予め定めた閾値T Then, m phoneme set extraction unit 10, the threshold value T determined in advance of the recognition rate R t
と比較し、閾値T 以下であれば、そのm音素組のm compared to r, equal to or less than the threshold value T r, the m phoneme sets of m
音素組表記11を抽出m音素組表記メモリ12に送出する。 Phoneme set notation 11 sends the extracted m phoneme sets representation memory 12. 抽出m音素組表記メモリ12は入力されたm音素組表記11を保持する。 Extracting m phonemes sets representation memory 12 holds m phonemic sets representation 11 entered.

【0086】(4)改良m音素組抽出手順4:m音素組抽出部10は、対話音声学習データメモリ8が保持するm音素組テーブルを参照し、対話音声学習データ中に存在する全てのm音素組について上記改良m音素組抽出手順3を実行するために、上記m音素組テーブルに記述されている順番にしたがって次のm音素組を選択し、上記改良m音素組抽出手順3を繰り返す。 [0086] (4) Improved m phoneme sets extraction procedure 4: m phoneme set extraction unit 10 refers to the m phoneme set table interactive voice learning data memory 8 holds, all m present in the interactive voice learning data to perform the improvement m phoneme sets extraction step 3 for phoneme set, according to the order described in the m phoneme set table selects the next m phoneme pairs and repeats the above improvements m phoneme sets extraction procedure 3. このようにして、 In this way,
対話音声学習データ中に存在する全てのm音素組について認識率を求めると、m音素組抽出部10は改良m音素組抽出手順を終了する。 For all m phoneme sets when determining the recognition rate present in the interactive voice learning data, m phoneme set extraction unit 10 ends the improvement m phoneme sets extraction procedure.

【0087】次にこの実施の形態2による音声パターンモデル学習装置が使用するm音素組モデルを学習する方法を具体的に説明する。 [0087] Next will be described specifically how to learn m phoneme sets model used by the speech pattern model learning device according to the second embodiment. 実施の形態2による音声パターンモデル学習装置では、上記実施の形態1による音声パターンモデル学習装置と同様にm音素組モデルの学習手順は大きく3つのステップに分けられる。 In the voice pattern model learning unit the second embodiment, the learning procedure of the speech pattern model learning device as well as m phoneme sets model according to the above-mentioned first embodiment is divided into three steps significantly.

【0088】まず、第1ステップは、読み上げ音声m音素組モデルを学習し学習により得た結果であるモデルのパラメータおよびそのm音素組表記13を読み上げ音声m音素組モデルメモリ14に格納する、読み上げ音声m [0088] First, the first step is stored in the voice m phoneme sets model memory 14 read the parameters and their m phoneme sets representation 13 of the model is the result obtained by learning learns voice m phonemic sets model reading, reading voice m
音素組モデルを学習するステップである。 It is a step of learning the phoneme set model.

【0089】次の第2ステップは、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて、対話音声学習データメモリ8が保持するm音素組テーブルに記述されたm音素組の中からトークンの数N が閾値N以上でかつ認識率R が閾値T 以下であるm音素組を抽出するステップである。 [0089] The next second step, reading with a voice m phonemic sets model reading stored in the voice m phoneme sets model memory 14, interactive voice learning data memory 8 is described in m phoneme set table held the number N t of tokens from the m phoneme set is a step of threshold N or more and recognition rate R t to extract m phonemes sets is equal to or less than the threshold T r.

【0090】そして、次の第3ステップは、対話音声学習データメモリ8に格納されているトークンを用いて上記第2ステップで抽出した各m音素組について、対話音声m音素組モデルを学習するステップである。 [0090] Then, step following the third step, for each m phoneme sets extracted in the second step by using a token stored in the interactive voice learning data memory 8, to learn the spoken dialogue m phoneme sets Model it is.

【0091】上記第1〜第3ステップのうち、第1および第3ステップは上記実施の形態1と全く同じ手順であるので以下ではその説明を省略し、第2ステップであるm音素組の抽出手順を詳細に説明する。 [0091] Among the first to third step, the first and third steps in the following since it is exactly the same procedure as the first embodiment and description thereof is omitted, the extraction of m phoneme sets a second step procedure will be described in detail. 図7はこの第2 Figure 7 is the second
ステップの抽出手順を示すフローチャートであり、以下では図7を参照しながら抽出手順を詳細に説明する。 Is a flowchart showing the extraction procedure of the step, referring to the extraction procedure will be described in detail with Figure 7 below.

【0092】m音素組抽出部10は、まず、ステップS [0092] m phoneme set extraction unit 10 first step S
T501において、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータおよびそのm音素組表記13を読み込む。 In T501, read parameter and m phonemes sets representation 13 of every speech reading m phoneme sets model from the speech m phoneme sets model memory 14 reading.

【0093】次に、m音素組抽出部10は、ステップS [0093] Next, m phoneme set extraction unit 10, the step S
T502において、対話音声学習データメモリ8に格納されたm音素組テーブルを読み込み、このm音素組テーブルの先頭に記述されているm音素組を認識対象として選択する。 In T502, it reads the m phoneme pair table stored in the interactive voice learning data memory 8 selects m phonemes sets described in the beginning of the m phoneme pair table as the recognition target. m音素組テーブルが例えば図24のように記述されている場合、m音素組抽出部10は先頭のm音素組である(a)a(a)を認識対象として選択する。 If m phoneme pair table is written as in FIG. 24, for example, m phoneme set extraction unit 10 selects a leading m phoneme sets of (a) a (a) as the recognition target.

【0094】そして、m音素組抽出部10は、ステップST503において、上記ステップST502またはステップST509において選択したm音素組と一致するm音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ8から読み込む。 [0094] Then, m phoneme set extraction unit 10, at step ST 503, interactive time series 9 of feature vectors of all tokens with m phonemic sets notation consistent with m phoneme sets selected in step ST502 or step ST509 read from the speech learning data memory 8.

【0095】その後、m音素組抽出部10は、ステップST504において、読み込んだトークンの数N (添字tは選択したm音素組の名前を示す)を予め定めた閾値Nと比較し、N <Nであれば、抽出m音素組表記メモリ12には何も送出せず、ステップST508に移る。 [0095] Thereafter, m phoneme set extraction unit 10, at step ST 504, compared to the number N t (subscript t indicates the name of the m phoneme sets selected) threshold N a predetermined a read token, N t <if N, nothing is sent to the extraction m phoneme sets representation memory 12 proceeds to step ST 508. 一方、N >=Nであれば、m音素組抽出部10はステップST505に移る。 On the other hand, if N t> = N, m phoneme set extraction unit 10 proceeds to step ST505.

【0096】ステップST505においては、m音素組抽出部10は、読み込んだ各トークンについて、上記ステップST503で読み込んだ全ての読み上げ音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm [0096] In step ST505, the m phoneme set extraction unit 10, for each token read, the likelihood of all of the voice reading m phoneme sets model read in the step ST503 calculates a highest likelihood indicated m
音素組モデルのm音素組表記を、当該トークンの認識結果とする。 The m phoneme sets representation of phoneme set model, the recognition result of the token. なお、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, for example, it is used Viterbi algorithm to the likelihood calculation. 読み込んだ全てのトークンについて認識結果を求めた後、m音素組抽出部10は上記(1)式にしたがって認識率R を計算する。 After obtaining the recognition result for all tokens read, m phoneme set extraction unit 10 calculates the recognition rate R t in accordance with the equation (1).

【0097】次に、m音素組抽出部10は、ステップS [0097] Next, m phoneme set extraction unit 10, the step S
T506において、上記ステップST505において求めた認識率R を予め定めた閾値T と比較し、閾値T In T506, is compared with a threshold value T r which defines a recognition rate R t determined in advance at step ST505, the threshold T
以下であれば、ステップST507に進み、そのm音素組のm音素組表記11を抽出m音素組表記メモリ12 If r or less, the process proceeds to step ST 507, extracting m phonemes sets representation memory 12 the m phoneme sets of m phonemic sets notation 11
に送出する。 And it sends it to. 抽出m音素組表記メモリ12は入力されたm音素組表記11を保持する。 Extracting m phonemes sets representation memory 12 holds m phonemic sets representation 11 entered. 一方、上記認識率R が閾値T よりも大きいならば、m音素組抽出部10はステップST508に進む。 On the other hand, if the recognition rate R t is larger than the threshold value T r, m phoneme set extraction unit 10 proceeds to step ST 508.

【0098】そして、ステップST508では、m音素組抽出部10は、対話音声学習データメモリ8に格納されたm音素組テーブルを参照し、対話音声学習データメモリ8に存在する全てのm音素組を既に選択し終えたか否かを判定し、未選択のm音素組が存在する場合は、ステップST509に進み上記m音素組テーブルに記述されている順番にしたがって次のm音素組を認識対象として選択し、ステップST503に戻る。 [0098] Then, in step ST 508, m phoneme set extraction unit 10 refers to the m phoneme pair table stored in the interactive voice learning data memory 8, all m phonemes sets present in the interactive voice learning data memory 8 already determines whether have selected, choose if unselected m phoneme pairs are present, as the recognition target the next m phoneme sets in the order described in the m phoneme pair table proceeds to step ST509 then, the flow returns to step ST503. 一方、m音素組抽出部10は、既に全てのm音素組を選択し終えたのであるならばm音素組の抽出手順を終了する。 On the other hand, m phoneme set extraction unit 10 ends the m phoneme sets of extraction procedure if it was finished already selected all the m phonemes sets.

【0099】なお、この実施の形態2による音声パターンモデル学習方法をソフトウェアで実現する場合、読み上げ音声m音素組モデルを学習し学習により得た結果を読み上げ音声m音素組モデルメモリ14に格納する、読み上げ音声m音素組モデルを学習する第1ステップと、 [0099] Incidentally, stores speech pattern model learning method according to the second embodiment For a software implementation, the voice m phoneme sets model memory 14 read the results obtained by learning learns voice m phonemic sets model reading, a first step of learning speech m phonemic sets model reading,
読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ8に格納されたm音素組テーブルに記述されたm音素組の中からトークンの数N が閾値N以上でかつ認識率R が閾値T 以下であるm音素組を抽出する第2ステップと、対話音声学習データメモリ8に格納されているトークンを用いて上記第2ステップで抽出したm音素組について、対話音声m音素組モデルを学習する第3ステップとを有した、コンピュータに音声パターンモデルを学習させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体が必要である。 The number of reading voice m phonemic sets model reading stored in the memory 14 audio m phoneme sets model tokens from the m phoneme set described in the stored m phoneme pair table interactive voice learning data memory 8 with N using a second step of extracting m phonemes sets t is a threshold value N or more and recognition rate R t is less than the threshold value T r, the token stored in the interactive voice learning data memory 8 is extracted with the second step for the m phoneme sets and a third step of learning a spoken dialogue m phoneme sets model, it is necessary readable medium having thereon computer program for training the speech pattern model on the computer.

【0100】以上説明したように、この実施の形態2による音声パターンモデル学習装置は、上記改良m音素組抽出手順1〜4(図7のステップST501〜ステップST509)を実行することによって、トークンの数N [0101] As described above, the speech pattern model learning apparatus according to the second embodiment, by executing the above improvements m phoneme sets extraction procedure 1-4 (Step ST501~ step ST509 in FIG. 7), the token The number N
が閾値N以上でかつ認識率R が閾値T 以下である全てのm音素組のm音素組表記11を抽出し、抽出した全てのm音素組のm音素組表記11を抽出m音素組表記メモリ12に格納する。 t is extracted m phonemic sets representation 11 of every m phonemes sets the threshold value N or more and recognition rate R t is equal to or less than the threshold value T r, extracting m phonemes all m phoneme sets of m phonemic sets notation 11 extracted and stores it in the set notation memory 12. したがって、この実施の形態2 Therefore, in this embodiment 2
による音声パターンモデル学習装置は、抽出m音素組モデルの学習においてトークンの数N が閾値N以上のm Speech pattern model learning device according to the extracted m number N t is the threshold value N or more m tokens in the training of phoneme pairs model
音素組のみモデルを学習するので、読み上げ音声m音素組モデルで認識率が低い対話音声のm音素組のうち、トークンの数N が閾値N未満で統計的に信頼度の低いモデルの学習を回避し、統計的に信頼度の高いモデルのみを効率的に学習できるという効果を奏する。 Since learning model only phoneme set, reading of the m phoneme sets of low recognition rate interactive voice sound m phoneme sets model, a statistically of low reliability model learning number N t is less than the threshold value N of tokens avoiding an effect that only efficiently learn highly statistically reliable model. なお、この実施の形態2ではm=3として説明したが、mが3以外の任意の整数を選ぶことも可能であり、その場合にも同様の効果を奏する。 Although described as m = 3 in the second embodiment, m is also possible to choose an arbitrary integer other than 3, the same effect even if the.

【0101】実施の形態3. [0101] Embodiment 3. 図8はこの発明の実施の形態3による音声パターンモデル学習装置の構成を示すブロック図である。 Figure 8 is a block diagram showing a configuration of a speech pattern model learning device according to a third embodiment of the present invention. 図において、30は、読み上げ音声学習データメモリ6に格納された各m音素組についてテキストを読み上げた音声を用いて読み上げ音声m音素組モデルを学習するとともに、m音素組抽出部(m音素組抽出手段)10によって抽出された各m音素組について、 In the figure, 30 is adapted to learn the voice learning data memory 6 audio m phonemic sets model reading using speech reading text for each m phoneme sets stored in the speech, m phoneme set extraction unit (m phoneme sets extraction for each m phoneme sets extracted by means) 10,
対話音声学習データメモリ80に格納された対話音声学習データを用いて対話音声m音素組モデルを学習し、さらに、上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いてn音素組抽出部(n音素組抽出手段)17によって上記対話音声学習データから抽出された各n音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習するモデル学習部(対話音声m音素組モデル学習手段、対話音声n音素組モデル学習手段)、7は読み上げ音声学習データメモリ6に含まれる読み上げ音声の特徴ベクトルの時系列、9 Using interactive voice learning data stored in the interactive voice learning data memory 80 learns interactive voice m phoneme sets model, further the reading n phonemes with a voice m phoneme sets model and the spoken dialogue m phoneme sets Model for the set extraction unit (n phoneme sets extracting means) each n phoneme sets extracted from the interactive voice learning data by 17, the model learning unit for learning the spoken dialogue n phoneme sets model using the interactive voice learning data (interactive voice m phoneme sets model learning unit, interactive voice n phoneme sets model learning means), 7 time series of feature vectors of reading voice included in the voice learning data memory 6 reading, 9
は対話音声学習データメモリ80に含まれる対話音声の特徴ベクトルの時系列、11はm音素組抽出部10によって抽出されたm音素組のm音素組表記、12は抽出m The time series of feature vectors of interactive voice included in the conversation voice learning data memory 80, 11 m phoneme set extraction unit 10 m phoneme sets of m phoneme set notation extracted by 12 extracts m
音素組表記メモリ、13は読み上げ音声m音素組モデルのパラメータおよびm音素組表記、14は読み上げ音声m音素組モデルメモリ、15は対話音声m音素組モデルのパラメータおよびm音素組表記、16は対話音声m音素組モデルメモリ、18はn音素組抽出部17によって抽出されたn音素組のn音素組表記、19は抽出n音素組表記メモリ、20は対話音声n音素組モデルのパラメータおよびn音素組表記、21は対話音声n音素組モデルメモリである。 Phoneme set notation memory, 13 parameter and m phonemes sets representation of speech m phonemic sets model reading, the reading voice m phoneme sets model memory 14, 15 parameters and m phonemes sets representation of interactive voice m phoneme sets model, 16 interact voice m phoneme sets model memory, 18 n phoneme sets of n phoneme sets notation extracted by n phoneme set extraction unit 17, the extraction n phoneme sets representation memory 19, 20 parameters and n phonemes spoken dialogue n phoneme sets model set notation, 21 is an interactive voice n phoneme sets model memory. なお、図8において、図1に示すものと同一の符号は上記実施の形態1による音声パターンモデル学習装置の構成要素と同一または相当するものを示している。 In FIG. 8, the same reference numerals as those shown in FIG. 1 shows what same or corresponding to the components of the speech pattern model learning device according to the first embodiment. なお、以下では、m=3、n=5として説明する。 In the following, described as m = 3, n = 5. また、この実施の形態3による音声パターンモデル学習装置が使用する音声パターンモデルは、上記実施の形態1と同じく連続分布型のHMMであるとする。 Also, the audio pattern model learning device according to a third embodiment the speech pattern model to be used, and which is also HMM of continuous distribution type in the first embodiment.

【0102】対話音声学習データメモリ80は、上記実施の形態1による対話音声学習データメモリ8が保持するデータに加えて、対話音声学習データ中に存在するn [0102] Interactive voice learning data memory 80, in addition to the data dialogue speech learning data memory 8 according to the first embodiment is held, present in the interactive voice learning data n
音素組の種類を記述したn音素組テーブルを保持する。 Holding the n phoneme sets table describing phoneme set of types.
ここでnはn>mなる整数であり、n音素組とは、m音素組よりも長い範囲の音素の違いを考慮したn個の音素のセットである。 Where n is an integer comprised n> m, and n-phoneme pairs, a set of n phonemes in consideration of differences in long range phonemes than m phoneme sets. 例えばn=5の場合には、/saQp For example, in the case of n = 5 is, / saQp
oro(札幌)/の/p/はn(=5)音素組では(a oro (Sapporo) / Bruno / p / is n (= 5) in the phoneme set (a
Q)p(or)となる。 Q) becomes a p (or). なお、この(aQ)p(or) It should be noted that this (aQ) p (or)
等の表記法を以後、5音素組表記と呼ぶことにする。 Thereafter notation etc., it will be referred to as 5 phoneme set notation. 5
音素組テーブルの例を図9に示す。 An example of a phoneme set table shown in Fig. また、対話音声学習データメモリ80が保持する各トークン(各トークンにはトークン番号が付されている)には、3音素組表記とともに当該トークンの音素名と先々行音素名、先行音素名および後続音素名、後々続音素名とを記した5音素組表記が付与されている。 Further, each token interactive voice learning data memory 80 holds (each token are assigned the token number), 3 phoneme name of the token along with phonemic sets notation and wherever line phoneme name, preceding phoneme name and subsequent phonemes name, 5 phoneme set notation wrote and later continued phoneme name is assigned. 3音素組表記とともに付与された5音素組表記の例を図10に示す。 3 shows an example of a phoneme set 5 phoneme set notation granted with notation in FIG.

【0103】次に動作について説明する。 [0103] Next, the operation will be described. この実施の形態3による音声パターンモデル学習装置は、以下のように分かれた5つの手順:(1)読み上げ音声m音素組モデルの学習手順、(2)対話音声学習データメモリ80 Speech pattern model learning device according to the third embodiment, the following as separate five steps: (1) reading procedure of training speech m phoneme sets model, (2) interactive voice learning data memory 80
が保持する認識率の低いm音素組の抽出手順、(3)抽出したm音素組に対する対話音声m音素組モデルの学習手順、(4)対話音声学習データメモリ80が保持する認識率の低いn音素組の抽出手順、(5)抽出した対話音声n音素組モデルの学習手順を順番に実行することによりモデル学習を行う。 There extraction procedure recognition rate lower m phoneme set to hold, (3) procedures for learning interactive voice m phoneme sets model for the extracted m phoneme set, (4) low recognition rate interactive voice learning data memory 80 holds n phoneme sets of extraction procedure, to model learning by performing sequentially (5) learning procedure of the extracted interactive voice n phoneme sets model.

【0104】まず、読み上げ音声m音素組モデルの学習手順について説明する。 [0104] First, a description will be given of learning procedure of the reading voice m phoneme set model. 音声パターンモデル学習装置は、図8に示すモデル学習部30の入力端子Aを読み上げ音声学習データメモリ6に接続された端子B1に接続し、読み上げ音声学習データメモリ6中のデータを入力とするようにセットする。 Speech pattern model learning device is connected to a terminal B1 connected to the sound learning data memory 6 reading the input terminal A of the model learning unit 30 shown in FIG. 8, reading to the input data of the audio training in data memory 6 It is set to. また、音声パターンモデル学習装置は、モデル学習部30の出力端子Cを読み上げ音声m音素組モデルメモリ14に接続された端子D1に接続する。 The voice pattern model learning device is connected to the terminal D1 connected to the audio m phoneme sets model memory 14 read the output terminal C of the model learning unit 30. 音声パターンモデル学習装置は、まず、この接続状態で読み上げ音声m音素組モデルを学習する。 Speech pattern model learning apparatus first learns the voice m phonemic sets model read by the connected state. この実施の形態3による音声パターンモデル学習装置のモデル学習部30は、上記実施の形態1で説明した読み上げ音声モデル学習手順1〜3にしたがって、読み上げ音声m音素組モデルを学習し、読み上げ音声m音素組モデルメモリ14に学習の結果得たモデルのパラメータとそのm音素組表記を格納する。 Model learning unit 30 of the speech pattern model learning device according to the third embodiment, according to the voice model learning steps 13 reading described in the first embodiment, learning voice m phonemic sets model reading, reading voice m storing parameters and m phonemes sets representation of resulting model of learning phoneme sets model memory 14. 読み上げ音声学習データメモリ6に存在する全てのm音素組について読み上げ音声m Voice m reading for all m phonemes sets present in the voice learning data memory 6 reading
音素組モデルの学習を終了した時に、モデル学習部30 When you exit the learning of phoneme set model, the model learning unit 30
は読み上げ音声m音素組モデルの学習手順を終了する。 To end the learning procedure of the voice m phoneme sets of model reading aloud is.

【0105】次に音声パターンモデル学習装置はm音素組抽出部10により対話音声学習データメモリ80が保持する認識率の低いm音素組の抽出を行う。 [0105] Then voice pattern model learning device performs the recognition rate lower m phoneme sets of extraction interactive voice learning data memory 80 by m phoneme set extraction unit 10 holds. m音素組抽出部10は、上記実施の形態1で説明したm音素組抽出手順1〜4にしたがって認識率の低いm音素組の抽出手順を実行し、抽出した全てのm音素組のm音素組表記を抽出m音素組表記メモリ12に格納する。 m phoneme set extraction unit 10 performs a low m phoneme sets of extraction procedure recognition rate in accordance with m phoneme sets extraction procedure 1-4 described in the first embodiment, all the extracted m phoneme sets of m phonemes that storing a set notation extract m phoneme sets representation memory 12.

【0106】次にモデル学習部30は対話音声m音素組モデルの学習を行う。 [0106] Next, the model learning unit 30 performs learning of interactive voice m phoneme set model. 学習を開始する前に、音声パターンモデル学習装置はモデル学習部30の入力端子Aを対話音声学習データメモリ80の出力端子B2に接続し、 Before starting the training, speech pattern model learning unit connects the input terminal A of the model learning unit 30 to the output terminal B2 of the interactive voice learning data memory 80,
また、モデル学習部30のもう一つの入力端子Eを抽出m音素組表記メモリ12の出力端子F1に接続する。 Further, connecting the other input terminal E of the model learning unit 30 to the output terminal F1 of the extracted m phoneme sets representation memory 12. さらに、音声パターンモデル学習装置はモデル学習部30 Furthermore, the speech pattern model learning device model learning unit 30
の出力端子Cを対話音声m音素組モデルメモリ16の入力端子D2に接続する。 Connecting the output terminal C to the input terminal D2 of the interactive voice m phoneme sets model memory 16. この接続状態で、モデル学習部30は対話音声m音素組モデルを学習する。 In this connected state, the model learning unit 30 learns the interactive voice m phoneme sets model.

【0107】モデル学習部30は、上記実施の形態1による抽出m音素組モデルの学習手順1〜3にしたがって、対話音声m音素組モデルを学習し、対話音声m音素組モデルメモリ16に学習の結果得たモデルのパラメータとそのm音素組表記を格納する。 [0107] model learning unit 30 in accordance with the learning steps 1-3 of extracting m phonemes sets model according to the first embodiment, learns interactive voice m phoneme sets model, learning interactive voice m phoneme sets model memory 16 parameters resulting model and store the m phoneme pairs notation. そして、モデル学習部30は抽出m音素組表記メモリ12に保持された全てのm音素組について対話音声m音素組モデルの学習を終了した時に対話音声m音素組モデルの学習手順を終了する。 The model learning unit 30 terminates the learning procedure of the interactive voice m phoneme sets model when finished learning of spoken dialogue m phoneme sets model for all m phonemes sets held in the extracted m phoneme sets representation memory 12.

【0108】次に音声パターンモデル学習装置はn音素組抽出部17により対話音声学習データメモリ80が保持する認識率の低いn音素組の抽出を行う。 [0108] Then voice pattern model learning device performs interactive voice learning data memory 80 recognition rate lower n phoneme sets of extraction for holding the n phoneme set extraction unit 17. n音素組を抽出する手順は以下のとおりである。 Procedure for extracting the n phonemes sets is as follows.

【0109】(1)n音素組抽出手順1:n音素組抽出部17は、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータとそのm音素組表記13を読み込む。 [0109] (1) n phoneme sets extraction procedure 1: n phoneme set extraction unit 17 reads the parameters of all the speech reading m phoneme sets model from the speech m phoneme sets model memory 14 reading and its m phoneme set notation 13. n音素組抽出部17は、 n phoneme set extraction unit 17,
さらに、対話音声m音素組モデルメモリ16から全ての対話音声m音素組モデルのパラメータとそのm音素組表記15を読み込む。 Furthermore, the parameters of all interactive voice m phoneme sets model from the interactive voice m phoneme sets model memory 16 and reads the m phoneme pair notation 15.

【0110】(2)n音素組抽抽出手順2:次に、n音素組抽出部17は、対話音声学習データメモリ80が保持するn音素組テーブルを参照し、この音素組テーブルの記述内容にしたがって先頭のn音素組を認識対象として選択する。 [0110] (2) n phoneme sets 抽抽 out Step 2: Next, n phoneme set extraction unit 17 refers to the n phoneme sets table interactive voice learning data memory 80 is held, the description contents of the phoneme pair table Therefore selecting the first n phoneme sets as the recognition target. n=5でn音素組テーブルが例えば図9のように記述されている場合、n音素組抽出部17は、まず、先頭のn音素組である(ka)a(ai)を認識対象として選択する。 If n phoneme sets table n = 5 is described as in FIG. 9, for example, n phoneme set extraction unit 17 first selects a first n phoneme sets of (ka) a (ai) as the recognition target to.

【0111】(3)n音素組抽出手順3:n音素組抽出部17は、上記n音素組抽出手順3または下記n音素組抽出手順4において選択したn音素組と一致するn音素組表記を持つ全てのトークンの特徴ベクトルの時系列9 [0111] (3) n phoneme sets extraction procedure 3: n phoneme set extraction unit 17, an n-phoneme pairs notation match the n phonemes sets selected in the n phoneme sets extraction procedure 3 or below n phoneme sets extraction procedure 4 time series 9 of feature vectors of all tokens with
を対話音声学習データメモリ80から読み込み、読み込んだ各トークンについて、上記n音素組抽出手順1で読み込んだ全ての読み上げ音声m音素組モデルおよび全ての対話音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm音素組モデルのm音素組表記を、当該トークンの認識結果とする。 Read from an interactive voice learning data memory 80, for each token read, calculates the likelihoods of matches between the above n phoneme sets extraction procedure for all read in 1 read speech m phoneme sets model and all interactive voice m phoneme sets Model the m phoneme sets notation m phoneme sets model showing the highest likelihood, the recognition result of the token. なお、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, for example, it is used Viterbi algorithm to the likelihood calculation. 読み込んだ全てのトークンに対する認識結果を求めた後、n音素組抽出部17は下記(2)式にしたがって認識率R を計算する。 After obtaining the recognition result for all tokens read, n phoneme set extraction unit 17 calculates the recognition rate R q in accordance with the following equation (2).

【0112】 R =C /N *100.0 (2) [0112] R q = C q / N q * 100.0 (2)

【0113】但し、添字qは選択したn音素組の種類を示し、N は、n音素組表記のn音素組種類がqであるトークンの個数、C はその中で正認識であったトークンの個数である。 [0113] However, the subscript q is an n phoneme sets of the selected type, N q is the number of tokens n phoneme sets the type of n phonemes sets notation is q, C q was positive recognition therein is the number of tokens. ここで正認識とは、当該トークンのm Here, the positive recognition, m of the token
音素組表記が一番高い尤度を示したm音素組モデルのm m of m phoneme sets model phoneme set notation showed the highest likelihood
音素組表記と一致する場合を正認識とする。 And the positive recognition the case that matches the phoneme set notation. 例えばn音素組表記(n=5)が(ka)a(ai)であるトークンはm音素組表記(m=3)が(a)a(a)であるので、一番高い尤度を示したm音素組モデルのm音素組表記が(a)a(a)であれば正認識とする。 For example, since the token n phoneme sets notation (n = 5) is (ka) a (ai) is the m phoneme set notation (m = 3) is (a) a (a), shows the highest likelihood m phoneme sets notation m phonemic sets model is to correct recognition if (a) a (a).

【0114】n音素組抽出部17は、上記認識率R を予め定めた閾値T と比較し、閾値T 以下であれば、 [0114] n phoneme set extraction unit 17 compares the threshold T q determined in advance of the recognition rate R q, equal to or less than the threshold value T q,
そのn音素組のn音素組表記18を抽出n音素組表記メモリ19に送出する。 The n phoneme sets of n phoneme sets denoted 18 and sends the extracted n phoneme sets representation memory 19. 抽出n音素組表記メモリ19は入力されたn音素組表記18を保持する。 Extracting n phoneme sets representation memory 19 holds the n phoneme sets representation 18 entered.

【0115】(4)n音素組抽出手順4:n音素組抽出部17は、対話音声学習データメモリ80が保持するn [0115] (4) n phoneme sets extraction procedure 4: n phoneme set extraction unit 17, dialogue voice learning data memory 80 holds n
音素組テーブルを参照し、対話音声学習データメモリ8 Referring to the phoneme set table, interactive voice learning data memory 8
0中に存在する全てのn音素組について上記n音素組抽出手順3を実行するために、上記n音素組テーブルに記述されている順番にしたがって次のn音素組を選択し、 For all n phonemes sets present in the 0 to perform the n phoneme sets extraction procedure 3, according to the order described in the above n phoneme set table selects the next n phoneme sets,
上記n音素組抽出手順3を繰り返す。 Repeating the above n phoneme sets extraction procedure 3.

【0116】このようにしてn音素組抽出部17はn音素組を抽出する手順を終了する。 [0116] n phoneme set extraction unit 17 in this way is to complete the process of extracting the n phoneme sets. n音素組抽出部17 n phoneme set extraction unit 17
は、上記n音素組抽出手順1〜4を実行することによって、認識率R が閾値T 以下である全てのn音素組のn音素組表記18を抽出し、抽出n音素組表記メモリ1 Is the n by performing a phoneme sets extraction steps 14, recognition rate R q extracts the threshold value T q all is less than n phoneme sets of n phoneme sets notation 18, extracts n phoneme pairs notation memory 1
9に格納することができる。 It can be stored in the 9.

【0117】次にモデル学習部30は上記のようにして抽出した各n音素組について対話音声n音素組モデルを学習する。 [0117] Next model learning unit 30 learns the interactive voice n phoneme sets model for each n phoneme sets extracted as described above. 学習を開始する前に、音声パターンモデル学習装置は、モデル学習部30の入力端子Aを対話音声学習データメモリ80の出力端子B2に接続し、またモデル学習部30のもう一つの入力端子Eを抽出n音素組表記メモリ19の出力端子F2に接続する。 Before starting the training, speech pattern model learning unit connects the input terminal A of the model learning unit 30 to the output terminal B2 of the interactive voice learning data memory 80, also the other input terminal E of the model learning unit 30 connected to the output terminal F2 of the extracted n phoneme sets representation memory 19. さらに、音声パターンモデル学習装置は、モデル学習部30の出力端子Cを対話音声n音素組モデルメモリ21の入力端子D Furthermore, the speech pattern model learning device has an input terminal D of the output terminal dialogue C audio n phoneme sets model memory 21 in the model learning unit 30
3に接続する。 To connect to the 3. この接続状態で、モデル学習部30は対話音声n音素組モデルを学習する。 In this connected state, the model learning unit 30 learns the interactive voice n phoneme sets model. 学習手順を以下に示す。 The learning procedure is shown below.

【0118】(1)抽出n音素組モデル学習手順1:モデル学習部30は、まず、抽出n音素組表記メモリ19 [0118] (1) extracting n phoneme sets Model learning procedure 1: model learning unit 30 first extracts n phoneme sets representation memory 19
に保持されている各n音素組表記を読み込み、抽出n音素組表記メモリ19に保持されていた順番にしたがって、先頭のn音素組を学習対象として選択する。 Read each n phoneme sets notation held in, according to the order which has been held in the extraction n phoneme sets representation memory 19, to select the first n phoneme sets as a learning object. 抽出n Extraction n
音素組表記メモリ19の内容が例えば図11のようである場合、モデル学習部30は先頭のn音素組である(k If the content of the phoneme sets representation memory 19 is shown in FIG. 11 for example, the model learning unit 30 is a first n phoneme sets (k
a)a(ai)を学習対象として選択する。 To select a) a the (ai) as a learning object.

【0119】(2)抽出n音素組モデル学習手順2:次に、モデル学習部30は、上記抽出n音素組モデル学習手順1または下記抽出n音素組モデル学習手順3において選択したn音素組と一致するn音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ80から読み込み、例えばフォワード・バックワードアルゴリズムを用いて選択したn音素組に対するモデルを学習する。 [0119] (2) extracting n phoneme sets Model learning procedure 2: Next, the model learning unit 30, n phoneme sets selected in the extracted n phonemic sets Model learning procedure 1 or the following extract n phoneme sets Model learning procedure 3 and reads the time series 9 of feature vectors of all tokens from the interactive voice learning data memory 80 with n phoneme pairs notation match, learn a model for the n phoneme sets selected using, for example, a forward-backward algorithm. そして、モデル学習部30は、学習の結果得たモデルのパラメータとそのn音素組表記を対話音声n音素組モデルメモリ21に送出する。 The model learning unit 30 sends the parameters and their n phoneme sets representation of resulting model learning interactive voice n phoneme sets model memory 21. 対話音声n音素組モデルメモリ21は受け取ったモデルのパラメータとそのn音素組表記を保持する。 Interactive Voice n phoneme sets model memory 21 holds parameters and n phoneme sets representation of the model received.

【0120】(3)抽出n音素組モデル学習手順3:モデル学習部30は、抽出n音素組表記メモリ19に保持されている全てのn音素組について上記抽出n音素組モデル学習手順2を実行するために、抽出n音素組表記メモリ19に保持されている順番にしたがって次のn音素組を選択し、上記抽出n音素組モデル学習手順2を繰り返す。 [0120] (3) extracting n phoneme sets Model learning procedure 3: model learning unit 30 performs the above extract n phonemic sets Model learning procedure 2 for all n phonemes sets stored in the extracted n phoneme sets representation memory 19 to, the order in which they are held in the extracted n phoneme sets representation memory 19 selects the next n phoneme sets, repeating the above extraction n phonemic sets model learning procedure 2. このようにして、モデル学習部30は抽出n音素組モデルの学習を終了する。 In this way, the model learning unit 30 terminates the learning of the extracted n phoneme sets model.

【0121】次にこの実施の形態3による音声パターンモデル学習装置が使用する、m音素組モデルとn音素組モデルを学習する方法を具体的に説明する。 [0121] Next, using the speech pattern model learning device according to the third embodiment will be specifically described the method of learning the m phoneme sets model and n phoneme sets model. 図12はこの発明の実施の形態3による音声パターンモデル学習方法の手順を示すフローチャートである。 Figure 12 is a flowchart showing a procedure of a speech pattern model learning method according to Embodiment 3 of the present invention. 図12に示すとおり、この実施の形態3による音声パターンモデル学習方法における読み上げ音声m音素組モデル、対話音声m As shown in FIG. 12, the audio m phonemic sets model reading the speech pattern model learning method according to the third embodiment, interactive voice m
音素組モデルおよび対話音声n音素組モデルの学習手順は大きく5つのステップに分けられる。 Learning procedure phoneme sets model and interactive voice n phoneme sets model is divided into five steps increases.

【0122】すなわち、第1ステップ(図12のステップST601)は、読み上げ音声m音素組モデルを学習し学習の結果得たモデルのパラメータおよびm音素組表記13を読み上げ音声m音素組モデルメモリ14に格納する、読み上げ音声m音素組モデル学習手順である。 [0122] That is, first step (step ST601 in FIG. 12) is a voice m phoneme sets model memory 14 read the parameters and m phonemic sets representation 13 resulting model of learning to learn voice m phonemic sets model reading storing a voice reading m phoneme sets model learning procedure.

【0123】次の第2ステップ(図2のステップST6 [0123] following the second step (step ST6 in FIG. 2
02)は、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ80に格納されている各トークンの認識を行い、認識率の低いm音素組を抽出する手順である。 02) performs recognition of the tokens stored in the interactive voice learning data memory 80 by using the voice m phonemic sets model reading stored in the speech reading m phoneme sets model memory 14, a low recognition rate m phonemes it is a procedure to extract the set.

【0124】次の第3ステップ(図12のステップST [0124] Step a next third step (FIG. 12 ST
603)は、対話音声学習データメモリ80に格納されているトークンを用いて上記第2ステップで抽出した各m音素組について、対話音声m音素組モデルを学習し学習の結果得たモデルのパラメータおよびm音素組表記1 603), for each m phoneme sets extracted in the second step by using a token stored in the interactive voice learning data memory 80, the parameter of the resulting model of learned dialogue voice m phoneme sets Model learning and m phoneme set notation 1
5を対話音声m音素組モデルメモリ16に格納する、対話音声m音素組モデル学習手順である。 5 stores the interactive voice m phoneme sets model memory 16, an interactive voice m phoneme sets model learning procedure.

【0125】次の第4ステップ(図12のステップST [0125] Step of the following fourth step (FIG. 12 ST
604)は、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルと対話音声m音素組モデルメモリ16に格納されている対話音声m 604), the voice interaction is stored in the reading and speech reading m phoneme sets model stored in the voice m phoneme sets model memory 14 Interactive Voice m phoneme sets model memory 16 m
音素組モデルとを用いて対話音声学習データメモリ80 Dialogue by using the phoneme set model voice learning data memory 80
に格納されている各トークンの認識を行い、認識率の低いn音素組を抽出する手順である。 It performs recognition of the tokens stored in a procedure for extracting a low recognition rate n phoneme sets.

【0126】次の第5ステップ(図12のステップST [0126] The steps of the next of the fifth step (Figure 12 ST
605)は、対話音声学習データメモリ80に格納されているトークンを用いて上記第4ステップで抽出したn 605) were extracted in the fourth step by using a token stored in the interactive voice learning data memory 80 n
音素組に対する対話音声n音素組モデルを学習し学習の結果得たモデルのパラメータおよびn音素組表記20を対話音声n音素組モデルメモリ21に格納する、対話音声n音素組モデル学習手順である。 Storing interactive audio n phoneme sets model learns the parameters and n phonemic sets representation of resulting model of learning 20 interactive voice n phoneme sets model memory 21 for phoneme sets, an interactive voice n phoneme sets model learning procedure.

【0127】上記第1〜第5ステップのうち、第1、第2および第3ステップは上記実施の形態1のものと全く同じであるので説明を省略し、以下では第4ステップと第5ステップを説明する。 [0127] Among the first to fifth step, first, second and third steps will be omitted since it is identical to that of the first embodiment, the fifth step and the fourth step in the following It will be described. 図13は第4ステップの詳細を示すフローチャートであり、以下では図13を参照しながら第4ステップである認識率の低いn音素組の抽出手順を詳細に説明する。 Figure 13 is a flow chart showing the details of the fourth step, following the reference to the fourth recognition rate lower n phoneme sets of extraction procedure is a step will be described in detail with Figure 13.

【0128】まず、n音素組抽出部17は、ステップS [0128] First, n phoneme set extraction unit 17, step S
T701において、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータとそのm音素組表記13を読み込む。 In T701, it reads parameters of all speech reading m phoneme sets model from the speech m phoneme sets model memory 14 reading and its m phoneme set notation 13. また、n音素組抽出部17は、ステップST702において、対話音声m音素組モデルメモリ16から全ての対話音声m音素組モデルのパラメータとそのm音素組表記15を読み込む。 Further, n phoneme set extraction unit 17, at step ST 702, parameters of all interactive voice m phoneme sets model from the interactive voice m phoneme sets model memory 16 and reads the m phoneme pair notation 15.

【0129】次に、n音素組抽出部17は、ステップS [0129] Then, n phoneme set extraction unit 17, step S
T703において、対話音声学習データメモリ80が保持するn音素組テーブルを参照し、このn音素組テーブルの記述内容にしたがって先頭のn音素組を認識対象として選択する。 In T 703, with reference to the n phoneme sets table interactive voice learning data memory 80 is held, to select the first n phoneme sets as the recognition target in accordance with the description contents of the n phoneme pair table. n音素組テーブルが例えば図9のように記述されている場合、n音素組抽出部17はまず先頭のn音素組である(ka)a(ai)を認識対象として選択する。 If n phoneme sets table is written as in FIG. 9, for example, selects n phoneme sets extraction unit 17 is a first leading n phoneme sets of (ka) a (ai) as the recognition target.

【0130】そして、n音素組抽出部17は、ステップST704において、上記ステップST703またはステップST709において選択したn音素組と一致するn音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ80から読み込む。 [0130] Then, n phoneme set extraction unit 17, in step ST704, interactive time series 9 of feature vectors of all tokens with n phonemic sets notation consistent with n phoneme sets selected in step ST703 or step ST709 read from the speech learning data memory 80.

【0131】その後、n音素組抽出部17は、ステップST705において、読み込んだ各トークンについて、 [0131] Thereafter, n phoneme set extraction unit 17, at step ST 705, for each token read,
上記ステップST701と上記ステップST702で読み込んだ全ての読み上げ音声m音素組モデルおよび全ての対話音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm音素組モデルのm音素組表記を、当該トークンの認識結果とする。 The likelihood of all of the voice reading read in step ST701 and the step ST 702 m phoneme sets model and all interactive voice m phoneme sets model calculates, m phoneme m phoneme sets model showing the highest likelihood a set notation, the recognition result of the token. なお、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, for example, it is used Viterbi algorithm to the likelihood calculation. 読み込んだ全てのトークンについて認識結果を求めた後、n音素組抽出部17は上記(2)式によって認識率R を計算する。 After obtaining the recognition result for all tokens read, n phoneme set extraction unit 17 calculates the recognition rate R q by the above equation (2).

【0132】次に、n音素組抽出部17は、ステップS [0132] Then, n phoneme set extraction unit 17, step S
T706において、上記認識率R を予め定めた閾値T In T706, the threshold T determined in advance of the recognition rate R q
と比較し、閾値T 以下であれば、ステップST70 compared to q, equal to or less than the threshold value T q, step ST70
7に進み、そのn音素組のn音素組表記18を抽出n音素組表記メモリ19に送出する。 Proceeds to 7, and sends the n phoneme sets of n phoneme sets notation 18 in the extracted n phoneme sets representation memory 19. 抽出n音素組表記メモリ19は入力されたn音素組表記18を保持する。 Extracting n phoneme sets representation memory 19 holds the n phoneme sets representation 18 entered. 一方、上記認識率R が閾値T よりも大きいならば、n On the other hand, if the recognition rate R q is greater than the threshold value T q, n
音素組抽出部17はステップST708に進む。 Phoneme set extraction unit 17 proceeds to step ST708.

【0133】ステップST708では、n音素組抽出部17は、対話音声学習データメモリ80が保持するn音素組テーブルを参照し、対話音声学習データ中に存在する全てのn音素組について認識率を計算したか否かを判定する。 [0133] In step ST708, n phoneme set extraction unit 17 refers to the n phoneme sets table interactive voice learning data memory 80 holds, calculates the recognition rate for all n phonemes sets present in the interactive voice learning data determining whether the not. そして、全てのn音素組について認識が終了していない場合は、n音素組抽出部17は、ステップST Then, if it is aware of all the n phonemes sets not ended, n phoneme set extraction unit 17, step ST
709において、上記n音素組テーブルに記述されている順番にしたがって次のn音素組を認識対象として選択し、ステップST704に戻る。 In 709, according to the order described in the above n phoneme set table selects the next n phoneme sets as the recognition target, the flow returns to step ST704. 一方、全てのn音素組について認識が終了していれば、n音素組抽出部17はn音素組を抽出する手順を終了する。 On the other hand, is aware of all the n phonemes sets if completed, n phoneme set extraction unit 17 ends the procedure for extracting the n phonemes sets.

【0134】以上のように、n音素組抽出部17は、上記n音素組抽出手順(図13におけるステップST70 [0134] As described above, n phoneme set extraction unit 17, the step in the n phoneme sets extraction procedure (Fig. 13 ST70
1〜ステップST709)を実行することによって、認識率R が閾値T 以下である全てのn音素組のn音素組表記18を抽出して、抽出n音素組表記メモリ19に格納することができる。 By performing the 1 step ST709), and extracts a recognition rate R q all is less than the threshold value T q n phoneme sets of n phoneme sets notation 18, be stored in the extracted n phoneme sets representation memory 19 it can.

【0135】次に、モデル学習部30は、第5ステップである対話音声n音素組モデル学習手順を実行する。 [0135] Next, the model learning unit 30 performs an interactive voice n phoneme sets Model learning procedure is the fifth step. 学習を実行する前に、音声パターンモデル学習装置は、モデル学習部30の入力端子Aを対話音声学習データの出力端子B2に接続し、またモデル学習部30のもう一つの入力端子Eを抽出n音素組表記メモリ19の出力端子F2に接続する。 Before running the learning speech pattern model learning unit connects the input terminal A of the model learning unit 30 to the output terminal B2 of the interactive voice learning data, also extracted another input terminal E of the model learning unit 30 n connected to the output terminal F2 of the phoneme sets representation memory 19. さらに、音声パターンモデル学習装置はモデル学習部30の出力端子Cを対話音声n音素組モデルメモリ21の入力端子D3に接続する。 Furthermore, the speech pattern model learning device connects the output terminal C of the model learning unit 30 to the input terminal D3 of the interactive voice n phoneme sets model memory 21. この接続状態で、モデル学習部30は対話音声n音素組モデルを学習する。 In this connected state, the model learning unit 30 learns the interactive voice n phoneme sets model.

【0136】図14は対話音声n音素組モデル学習手順の詳細を示すフローチャートであり、以下では、図14 [0136] Figure 14 is a flowchart showing details of a conversation speech n phoneme sets Model learning procedure, in the following, FIG. 14
を参照しながら学習手順の詳細について説明する。 It will be described in detail while referring to the learning procedure. まず、モデル学習部30は、ステップST801において、抽出n音素組表記メモリ19に保持されているn音素組表記18を読み込み、抽出n音素組表記メモリ19 First, the model learning unit 30, in step ST 801, reads the n phoneme sets notation 18 held in the extracted n phoneme sets representation memory 19, extracts n phoneme sets representation memory 19
に保持されていた順番にしたがって先頭のn音素組を学習対象として選択する。 Selecting a first n phoneme sets as a learning target in the order that is held in. 抽出n音素組表記メモリ19の内容が例えば図11のようである場合、モデル学習部3 If the content of the extracted n phoneme sets representation memory 19 is shown in FIG. 11 for example, the model learning unit 3
0は先頭のn音素組である(ka)a(ai)を学習対象として選択する。 0 selects a first n phoneme sets of (ka) a (ai) as a learning object.

【0137】次に、モデル学習部30は、ステップST [0137] Next, the model learning unit 30, step ST
802において、上記ステップST801またはステップST806において選択したn音素組と一致するn音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ80から読み込む。 In 802, it reads the time series 9 of feature vectors of all tokens with n phonemic sets notation consistent with n phoneme sets selected in step ST801 or step ST806 from the interactive voice learning data memory 80. そして、モデル学習部30は、ステップST803において、例えばフォワード・バックワードアルゴリズムを用いて選択したn音素組についてモデルを学習する。 The model learning unit 30, in step ST 803, to learn a model for n phoneme sets selected using, for example, a forward-backward algorithm.

【0138】その後、モデル学習部30は、ステップS [0138] After that, the model learning unit 30, the step S
T804において、学習の結果得た上記モデルのパラメータとそのn音素組表記を対話音声n音素組モデルメモリ21に送出する。 In T804, and it sends the parameters and their n phoneme sets representation of the model obtained as a result of the learning interactive voice n phoneme sets model memory 21. 対話音声n音素組モデルメモリ21 Interactive voice n phoneme sets model memory 21
は受け取ったモデルのパラメータおよびn音素組表記を保持する。 Holding the parameters and n phonemic sets representation of the model The received.

【0139】次に、モデル学習部30は、ステップST [0139] Next, the model learning unit 30, step ST
805において、抽出n音素組表記メモリ19に保持されている全てのn音素組について対話音声n音素組モデルを学習したか否かを判定し、全てのn音素組について学習が終了していない場合には、モデル学習部30は、 In 805, extracts n whether judges learned phoneme sets for all n phonemes sets stored in the title memory 19 Interactive Voice n phoneme sets model, if the learning of all the n phonemes sets not completed the model learning unit 30,
ステップST806において、抽出n音素組表記メモリ19に記述されている順番にしたがって次のn音素組を学習対象として選択し、ステップST802に戻る。 In step ST806, according to the order described in the extracted n phoneme sets representation memory 19 selects the next n phoneme sets as a learning object, the flow returns to step ST 802. 一方、全てのn音素組について学習が終了しているならば、モデル学習部30は、第5ステップである対話音声n音素組モデルの学習手順を終了する。 On the other hand, if the learning of all the n phonemes sets has been completed, the model learning unit 30 terminates the learning procedure of the interactive voice n phoneme pairs model the fifth step.

【0140】なお、この実施の形態3による音声パターンモデル学習方法をソフトウェアで実現する場合、読み上げ音声m音素組モデルを学習し学習の結果を読み上げ音声m音素組モデルメモリ14に格納する、読み上げ音声m音素組モデルを学習する第1の手順と、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ80に格納されている各トークンの認識を行う、認識率の低いm音素組を抽出する第2の手順と、対話音声学習データメモリ80に格納されているトークンを用いて上記第2の手順で抽出した各m音素組について、対話音声m音素組モデルを学習する第3の手順と、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデル [0140] Incidentally, stores speech pattern model learning method according to the third embodiment For a software implementation, the voice m phoneme sets model memory 14 read the results of learning learning voice m phonemic sets model reading, reading voice recognition of the first procedure and, each stored in spoken dialogue learning data memory 80 by using the voice m phonemic sets model reading stored in the speech reading m phoneme sets model memory 14 tokens to learn m phoneme sets model performing a second procedure for extracting a low recognition rate m phoneme sets, for each m phoneme sets that use the token stored in the interactive voice learning data memory 80 and extracted by the second procedure, interactive voice third procedure and, reading voice m phonemic sets model reading stored in the memory 14 audio m phoneme sets model to learn m phoneme sets model 対話音声m音素組モデルメモリ16 Interactive voice m phoneme sets model memory 16
に格納されている対話音声m音素組モデルとを用いて対話音声学習データメモリ80に格納されている各トークンの認識を行い認識率の低いn音素組を抽出する第4の手順と、対話音声学習データメモリ80に格納されているトークンを用いて抽出した各n音素組について対話音声n音素組モデルを学習する第5の手順とを有した、コンピュータに音声パターンモデルを学習させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体が必要である。 A fourth step of extracting the recognition rate lower n phoneme sets performs recognition of the tokens stored in the interactive voice learning data memory 80 by using the interactive voice m phoneme sets model stored in, interactive voice having a fifth procedure for learning the spoken dialogue n phoneme sets model for each n phoneme sets extracted with token stored in the learning data memory 80, a program for training the speech pattern models in the computer readable recording medium recording a computer is required.

【0141】以上説明したように、この実施の形態3による音声パターンモデル学習装置および音声パターンモデル学習方法では、上記n音素組抽出手順(図14のステップST801〜ステップST806)を行うことによって、認識率R が閾値T [0141] As described above, in this speech pattern model according to the third embodiment learning apparatus and speech pattern model learning method, by performing the n phoneme sets extraction procedure (Step ST801~ step ST806 in FIG. 14), the recognition rate R q is the threshold T 以下である全てのn音素組を抽出し、抽出した各n音素組について、対話音声学習データが保持するトークンを用いて対話音声n音素組モデルを学習するので、対話音声のように発話速度がはやくかつ曖昧な音声で読み上げ音声m音素組モデルと対話音声m音素組モデルでは十分な認識性能が得られない各n音素組について効率的に対話音声n音素組モデルを学習することができる効果を奏する。 Extract all n phonemes sets is q less, extracted for each n phoneme sets that, since learning the spoken dialogue n phoneme sets model using tokens interact speech training data held, speech rate as interactive voice effect can be learned efficiently interact audio n phoneme sets model for fast and ambiguous each n phoneme sets a sufficient recognition performance can not be obtained in the speech m phoneme sets model dialogue voice m phonemic sets model reading by voice achieve the. なお、この実施の形態3では、m=3、n=5として説明したが、m、n In the third embodiment has been described as m = 3, n = 5, m, n
は、m<nなる任意の整数の組を選択してもよく、この場合にも同様の効果を奏する。 May select any integer set of m <n, the same effect also in this case.

【0142】実施の形態4. [0142] Embodiment 4. この発明の実施の形態4による音声パターンモデル学習装置は、上記実施の形態3 Speech pattern model learning device according to a fourth embodiment of the invention, the above-described embodiment 3
によるn音素組抽出手順1〜4に代わって以下に示す改良n音素組抽出手順1〜4を実行するn音素組抽出部1 In place of the n phoneme sets extraction procedure 1-4 by performing an improved n phoneme sets extraction procedure 1-4 shown below n phoneme sets extractor 1
7を備えたものである。 7 are those with a. なお、実施の形態4による音声パターンモデル学習装置は図8に示す上記実施の形態3 Incidentally, the speech pattern model learning device according to a fourth embodiment above embodiment 3 shown in FIG. 8
によるものと同一の構成を有しており、n音素組抽出部17以外の構成要素は上記実施の形態3による音声パターンモデル学習装置と同じ動作をするので、以下ではその他の構成要素の説明を省略する。 Has the same structure as those of the so components other than n phoneme set extraction unit 17 performs the same operation as the speech pattern model learning device according to the third embodiment, the description of the other components in the following omitted. また、この実施の形態4においてもm=3のm音素組およびn=5のn音素組を対象として説明する。 Also described as a target n-phoneme sets of m phoneme set and n = 5 for m = 3 in the fourth embodiment.

【0143】次に動作について説明する。 [0143] Next, the operation will be described. (1)改良n音素組抽出手順1:n音素組抽出部17 (1) Improvement n phoneme sets extraction procedure 1: n phoneme set extraction unit 17
は、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータとそのm音素組表記13を読み込む。 Reads the parameters of all the speech reading m phoneme sets model from the speech m phoneme sets model memory 14 reading and its m phoneme set notation 13. n音素組抽出部17は、さらに、対話音声m音素組モデルメモリ16から全ての対話音声m音素組モデルのパラメータとそのm音素組表記1 n phoneme set extraction unit 17 further includes parameters and m phonemes sets representation of all interactive voice m phoneme sets model from the interactive voice m phoneme sets model memory 16 1
5を読み込む。 5 read.

【0144】(2)改良n音素組抽出手順2:次に、n [0144] (2) improved n phoneme sets extraction Step 2: Next, n
音素組抽出部17は、対話音声学習データメモリ80に格納されたn音素組テーブルを読み込み、このn音素組テーブルの記述内容にしたがって、対話音声学習データ中から先頭のn音素組を認識対象として選択する。 Phoneme set extraction unit 17 reads the n phoneme sets table stored in the interactive voice learning data memory 80, according to the description contents of the n phoneme sets table, as the recognition target the first n phoneme sets from interacting speech training data select. n音素組テーブルが例えば図9のように記述されている場合、n音素組抽出部17は先頭のn音素組である(k If n phoneme sets table is written as in FIG. 9 eg, n phoneme set extraction unit 17 is a first n phoneme sets (k
a)a(ai)を認識対象として選択する。 To select a) a the (ai) as the recognition target.

【0145】(3)改良n音素組抽出手順3:n音素組抽出部17は、上記改良n音素組抽出手順2または下記改良n音素組抽出手順4において選択したn音素組と一致するn音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ80から読み込む。 [0145] (3) improved n phoneme sets extraction procedure 3: n phoneme set extraction unit 17, n phonemes coincident n phoneme pairs and selected in the improved n phoneme sets extraction procedure 2 or below improvements n phoneme sets extraction procedure 4 read time series 9 of feature vectors of all tokens from the interactive voice learning data memory 80 with a set notation. そして読み込んだトークンの数N (添字qは選択したn音素組の名前を示す)が予め定めた閾値N未満であれば、抽出n音素組表記メモリ19には何も送出せず、次の改良n音素組抽出手順4に移る。 And if it is less than the threshold value N of the number N q (subscript q represents the name of the n phonemes sets selected) is predetermined for read token, nothing is sent to the extraction n phoneme sets representation memory 19, the following Turning to improvements n phoneme sets extraction procedure 4. 一方、N が予め定めた閾値N以上であれば、n音素組抽出部17は上記実施の形態3と同様に認識を行う。 On the other hand, if the threshold value N or more N q is predetermined, n phoneme set extraction unit 17 performs the recognition as in the third embodiment. すなわち、n音素組抽出部17は、読み込んだ各トークンについて、上記改良n音素組抽出手順1で読み込んだ全ての読み上げ音声m音素組モデルおよび全ての対話音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm音素組モデルのm音素組表記を、当該トークンの認識結果とする。 That, n phoneme set extraction unit 17, for each token read, calculates the likelihoods of all speech reading m phoneme sets model read in the improved n phoneme sets extraction procedure 1 and all interactive voice m phoneme sets Model and the m phoneme sets notation m phoneme sets model showing the highest likelihood, the recognition result of the token. なお、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, for example, it is used Viterbi algorithm to the likelihood calculation. 読み込んだ全てのトークンに対する認識結果を求めた後、n音素組抽出部17は、上記(2)式によって認識率R を計算する。 After obtaining the recognition result for all tokens read, n phoneme set extraction unit 17 calculates the recognition rate R q by the above equation (2). そして、n音素組抽出部17 Then, n phoneme set extraction unit 17
は、上記認識率R を予め定めた閾値T と比較し、閾値T 以下であれば、そのn音素組のn音素組表記を抽出n音素組表記メモリ19に送出する。 Compares with a predetermined threshold value T q the recognition rate R q, equal to or less than the threshold value T q, and sends the n phonemes sets representation of the n phoneme sets the extracted n phoneme sets representation memory 19. 抽出n音素組表記メモリ19は、入力されたn音素組表記を保持する。 Extracting n phoneme sets representation memory 19 holds n phonemic sets notation entered.

【0146】(4)改良n音素組抽出手順4:n音素組抽出部17は、対話音声学習データメモリ80が保持するn音素組テーブルを参照し、対話音声学習データメモリ80に存在する全てのn音素組について上記改良n音素組抽出手順3を実行するために、上記n音素組テーブルに記述されている順番にしたがって次のn音素組を認識対象として選択し、上記改良n音素組抽出手順3を繰り返す。 [0146] (4) Improvement n phoneme sets extraction procedure 4: n phoneme set extraction unit 17 refers to the n phoneme sets table interactive voice learning data memory 80 is held, all present in the interactive voice learning data memory 80 to perform the improvement n phoneme sets extraction step 3 for n phoneme sets, according to the order described in the above n phoneme set table selects the next n phoneme sets as the recognition target, the improved n phoneme sets extraction procedure 3 repeated. このようにして、対話音声学習データ中に存在する全てのn音素組について認識率を求めると、n音素組抽出部17は改良n音素組抽出手順を終了する。 In this way, when determining the recognition rate for all n phonemes sets present in the interactive voice learning data, n phoneme set extraction unit 17 ends the improved n phoneme sets extraction procedure.

【0147】次にこの実施の形態4による音声パターンモデル学習装置が使用する、m音素組モデルとn音素組モデルを学習する方法を具体的に説明する。 [0147] Next, using the speech pattern model learning device according to the fourth embodiment will be specifically described the method of learning the m phoneme sets model and n phoneme sets model. 実施の形態4による音声パターンモデル学習装置では、上記実施の形態3による音声パターンモデル学習装置と同様にm音素組モデルとn音素組モデルの学習手順は大きく5つのステップに分けられる。 In the voice pattern model learning device according to the fourth embodiment, the learning procedure of the speech pattern model learning device as well as m phoneme sets model and n phoneme sets model according the third embodiment is divided into five steps increases.

【0148】まず、第1ステップは、読み上げ音声m音素組モデルを学習し学習により得た結果であるモデルのパラメータおよびm音素組表記13を読み上げ音声m音素組モデルメモリ14に格納する、読み上げ音声m音素組モデルを学習するステップである。 [0148] First, the first step is stored in the voice m phoneme sets model memory 14 read the parameters and m phonemic sets representation 13 of the model is the result obtained by learning learns voice m phonemic sets model reading, reading voice it is a step to learn m phoneme set model.

【0149】次の第2ステップは、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて、対話音声学習データメモリ80に格納されている各トークンの認識を行い、認識率の低いm音素組を抽出するステップである。 [0149] The second step of the next, reading with a voice m phonemic sets model reading stored in the voice m phoneme sets model memory 14, performs the recognition of the tokens stored in the interactive voice learning data memory 80 a step of extracting a low recognition rate m phoneme sets.

【0150】次の第3ステップは、対話音声学習データメモリ80に格納されているトークンを用いて上記第2 [0150] The next third step, interacts with the token stored in the voice learning data memory 80 and the second
ステップで抽出したm音素組について、対話音声m音素組モデルを学習するステップである。 m phoneme sets the extracted in step is a step of learning a spoken dialogue m phoneme sets model.

【0151】次の第4ステップは、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルおよび対話音声m音素組モデルメモリ16に格納されている対話音声m音素組モデルを用いて、対話音声学習データメモリ80が保持するn音素組テーブルに記述されたn音素組の中からトークンの数N が閾値N以上でかつ認識率R が閾値T 以下であるn音素組を抽出するステップである。 [0151] The fourth step of the next, the interactive voice m phoneme sets model stored in the voice m phoneme sets model and interactive voice m phoneme sets model memory 16 reading stored in the voice m phoneme sets model memory 14 reading used, n phonemes interaction number n q of tokens from the described n phoneme sets the n phoneme sets table voice learning data memory 80 holds the threshold n or more and recognition rate R q is equal to or less than the threshold value T q it is a step of extracting a set.

【0152】次の第5ステップは、対話音声学習データメモリ80に格納されているトークンを用いて上記第4 [0152] The next fifth step, the fourth with the token stored in the interactive voice learning data memory 80
ステップで抽出した各n音素組について、対話音声n音素組モデルを学習するステップである。 For each n phoneme sets extracted in step is a step of learning a spoken dialogue n phoneme sets model.

【0153】上記第1〜第5ステップのうち、第1、第2、第3および第5ステップは上記実施の形態3と全く同じ手順であるので以下ではその説明を省略し、第4ステップであるn音素組の抽出手順を詳細に説明する。 [0153] Among the first to fifth steps, the first, second, third and fifth steps in the following since it is exactly the same procedure in the third embodiment the description is omitted, the fourth step describing certain n phoneme sets of extraction steps in detail. 図15はこの第4ステップの抽出手順を示すフローチャートであり、以下では図15を参照しながら抽出手順を詳細に説明する。 Figure 15 is a flowchart showing the procedure of extracting the fourth step, referring to the extraction procedure will be described in detail with Figure 15 below.

【0154】n音素組抽出部17は、まず、ステップS [0154] n phoneme set extraction unit 17, first, step S
T901において、読み上げ音声m音素組モデルメモリ14から全ての読み上げ音声m音素組モデルのパラメータとそのm音素組表記13を読み込む。 In T901, it reads parameters of all speech reading m phoneme sets model from the speech m phoneme sets model memory 14 reading and its m phoneme set notation 13. 続いて、n音素組抽出部17は、ステップST902において、対話音声m音素組モデルメモリ16から全ての対話音声m音素組モデルのパラメータとそのm音素組表記15を読み込む。 Subsequently, n phoneme set extraction unit 17, at step ST 902, parameters of all interactive voice m phoneme sets model from the interactive voice m phoneme sets model memory 16 and reads the m phoneme pair notation 15.

【0155】次に、n音素組抽出部17は、ステップS [0155] Then, n phoneme set extraction unit 17, step S
T903において、対話音声学習データメモリ80が保持するn音素組テーブルを読み込み、このn音素組テーブルの記述内容にしたがって先頭のn音素組を認識対象として選択する。 In T903, reads the n phoneme sets table interactive voice learning data memory 80 is held, to select the first n phoneme sets as the recognition target in accordance with the description contents of the n phoneme pair table. n音素組テーブルが例えば図9のように記述されている場合、n音素組抽出部17は先頭のn If n phoneme sets table is written as in FIG. 9 eg, n phoneme set extraction unit 17 first n
音素組である(ka)a(ai)を認識対象として選択する。 Selecting a phoneme sets of (ka) a (ai) as the recognition target.

【0156】次に、n音素組抽出部17は、ステップS [0156] Next, n phoneme set extraction unit 17, step S
T904において、上記ステップST903またはステップST910において選択したn音素組と一致するn In T904, n matching the n phonemes sets selected in step ST903 or step ST910
音素組表記を持つ全てのトークンの特徴ベクトルの時系列9を対話音声学習データメモリ80から読み込む。 Read time series 9 of feature vectors of all tokens from the interactive voice learning data memory 80 with the phoneme pair notation.

【0157】そして、n音素組抽出部17は、ステップST905において、読み込んだトークンの数N (添字qは選択したn音素組の名前を示す)を予め定めた閾値Nと比較し、N <Nであれば、抽出n音素組表記メモリ19には何も送出せず、ステップST909に移る。 [0157] Then, n phoneme set extraction unit 17, at step ST 905, it is compared with a threshold value N which defines the number N q of the read tokens (subscript q represents the name of the n phonemes sets selected) beforehand, N q <if n, nothing is sent to the extraction n phoneme sets representation memory 19 and proceeds to a step ST 909. 一方、N >=Nであれば、n音素組抽出部17はステップST906に移る。 On the other hand, if N q> = N, n phoneme set extraction unit 17 proceeds to step ST 906.

【0158】次に、n音素組抽出部17は、ステップS [0158] Then, n phoneme set extraction unit 17, step S
T906において、読み込んだ各トークンについて、上記ステップST902およびステップST903で読み込んだ全ての読み上げ音声m音素組モデルおよび全ての対話音声m音素組モデルとの尤度を計算し、一番高い尤度を示したm音素組モデルのm音素組表記を、当該トークンの認識結果とする。 In T906, for each token read, the likelihood of the step ST902 and all speech reading m phoneme sets model read in step ST903 and all interactive voice m phoneme sets model calculates, showed the highest likelihood the m phoneme sets representation of m phoneme sets model, the recognition result of the token. なお、尤度計算には例えばビタビアルゴリズムを用いる。 Incidentally, for example, it is used Viterbi algorithm to the likelihood calculation. 読み込んだ全てのトークンについて認識結果を求めた後、n音素組抽出部17は上記(2)式によって認識率R を計算する。 After obtaining the recognition result for all tokens read, n phoneme set extraction unit 17 calculates the recognition rate R q by the above equation (2).

【0159】次に、n音素組抽出部17は、ステップS [0159] Next, n phoneme set extraction unit 17, step S
T907において、上記ステップST906において求めた認識率R を予め定めた閾値T と比較し、閾値T In T907, it is compared with a threshold value T q that defines a recognition rate R q previously determined in step ST 906, the threshold value T
以下であれば、ステップST908に進み、そのn音素組のn音素組表記18を抽出n音素組表記メモリ19 If q or less, the process proceeds to step ST 908, the n phoneme sets of n phoneme sets denoted 18 extracts n phoneme sets representation memory 19
に送出する。 And it sends it to. 抽出n音素組表記メモリ19は入力されたn音素組表記18を保持する。 Extracting n phoneme sets representation memory 19 holds the n phoneme sets representation 18 entered. 一方、上記認識率R が閾値T よりも大きいならば、n音素組抽出部17はステップST909に進む。 On the other hand, if the recognition rate R q is greater than the threshold value T q, n phoneme set extraction unit 17 proceeds to step ST 909.

【0160】そして、ステップST909では、n音素組抽出部17は、対話音声学習データメモリ80に格納されたn音素組テーブルを参照し、対話音声学習データメモリ80に存在する全てのn音素組を既に選択し終えたか否かを判定し、未選択のn音素組が存在する場合は、ステップST910に進み上記n音素組テーブルに記述されている順番にしたがって次のn音素組を認識対象として選択し、ステップST904に戻る。 [0160] Then, in step ST 909, n phoneme set extraction unit 17 refers to the n phoneme sets table stored in the interactive voice learning data memory 80, all the n phonemes sets present in the interactive voice learning data memory 80 already determines whether have selected, choose if unselected n phoneme pairs are present, as the recognition target for the next n phoneme sets in the order described in the above n phoneme sets table proceeds to step ST910 then, the flow returns to step ST904. 一方、n On the other hand, n
音素組抽出部17は、既に全てのn音素組を選択し終えたのであるならばn音素組の抽出手順を終了する。 Phoneme set extraction unit 17 ends the n phoneme sets of extraction procedure if it was finished already selected all the n phonemes sets.

【0161】なお、この実施の形態4による音声パターンモデル学習方法をソフトウェアで実現しようとする場合、読み上げ音声m音素組モデルを学習し学習により得た結果を読み上げ音声m音素組モデルメモリ14に格納する、読み上げ音声m音素組モデルを学習する第1ステップと、読み上げ音声m音素組モデルメモリ14に格納されている読み上げ音声m音素組モデルを用いて対話音声学習データメモリ80に格納されている各トークンの認識を行い、認識率の低いm音素組を抽出する第2ステップと、対話音声学習データメモリ80に格納されているトークンを用いて上記第2ステップで抽出した各m音素組について、対話音声m音素組モデルを学習する第3 [0161] Incidentally, stores speech pattern model learning method according to the fourth embodiment when attempting to realize by software, a voice m phoneme sets model memory 14 read the results obtained by learning learns voice m phonemic sets model reading to each stored in the first step, the speech reading m phonemic sets model reading stored in the memory 14 by using the voice m phoneme sets model interactive voice learning data memory 80 for learning the voice m phonemic sets model reading It performs recognition of a token, and a second step of extracting a low recognition rate m phoneme sets, for each m phoneme sets extracted in the second step by using a token stored in the interactive voice learning data memory 80, dialogue third to learn the voice m phoneme sets model
ステップと、対話音声学習データメモリ80が保持するn音素組テーブルに記述されたn音素組のなかからトークンの数N が閾値N以上でかつ認識率R が閾値T Steps and the number N q of tokens from among n phoneme sets described in n phoneme sets table held spoken dialogue learning data memory 80 is the threshold N or more and recognition rate R q is a threshold value T q
以下であるn音素組を抽出する第4ステップと、対話音声学習データメモリ80に格納されているトークンを用いて抽出した各n音素組について対話音声n音素組モデルを学習するステップとを有した、コンピュータに音声パターンモデルを学習させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体が必要である。 A fourth step of extracting the n phonemes sets of which less, and a step of learning a spoken dialogue n phoneme sets model for each n phoneme sets extracted with token stored in the interactive voice learning data memory 80 is required readable recording medium having recorded a computer program for training the speech pattern model on the computer.

【0162】以上説明したように、この実施の形態4による音声パターンモデル学習装置は、上記改良n音素組抽出手順(図15のステップST901〜ステップST [0162] As described above, the speech pattern model learning device according to the fourth embodiment, step ST901~ step ST of the improved n phoneme sets extraction procedure (Fig. 15
910)を実行することによって、トークンの数N が閾値N以上でかつ認識率R が閾値T 以下である全てのn音素組のn音素組表記を抽出し、抽出した全てのn By performing a 910), all n the number N q of token extraction threshold value N or more and recognition rate R q is a threshold value T q less is n phoneme sets representation of all n phonemes sets, and extracted
音素組のn音素組表記18を抽出n音素組表記メモリ1 Extracting phoneme sets of n phoneme sets notation 18 n phonemic sets notation memory 1
9に格納する。 And stores it in the 9. したがって、この実施の形態4による音声パターンモデル学習装置は、抽出n音素組モデルの学習においてトークンの数N が閾値N以上のn音素組のみモデルを学習するので、読み上げ音声m音素組モデルと対話音声m音素組モデルでは認識率が低い対話音声のn音素組のうち、トークンの数N が閾値N未満で統計的に信頼度の低いモデルの学習を回避し、統計的に信頼度の高いモデルのみを効率的に学習できるという効果を奏する。 Therefore, the speech pattern model learning device according to the fourth embodiment, the number N q of tokens in the learning of the extracted n phoneme sets model to learn a model only the threshold N or more n phonemes sets, a voice m phonemic sets model reading interactive voice m phoneme sets model of n phoneme sets of low recognition rate interactive voice is to avoid statistically the low reliability model learning number n q is less than the threshold value n of tokens statistically reliable an effect that only efficiently learn higher model. なお、この実施の形態4ではm=3、n=5として説明したが、m、nは、m<nなる任意の整数の組を選択してもよく、その場合にも同様の効果を奏する。 Although described as Embodiment 4, m = 3, n = 5 in this embodiment, m, n may select any integer set of m <n, the same effect even when the .

【0163】実施の形態5. [0163] Embodiment 5. 図16はこの発明の実施の形態5による音声認識装置の構成を示すブロック図である。 Figure 16 is a block diagram showing a configuration of a speech recognition apparatus according to a fifth embodiment of the present invention. 図において、14は読み上げ音声m音素組モデルメモリ、16は対話音声m音素組モデルメモリ、21は対話音声n音素組モデルメモリ、22は音声信号の入力端子、23は音声信号の入力端子22から入力された音声信号、24は音声信号23の音響特徴ベクトルの時系列を算出する音響分析部、25は音響分析部24の出力である特徴ベクトルの時系列、26は認識対象語彙の音素表記を格納する認識対象語彙メモリ、27は認識対象語彙の音素組表記、28は上記実施の形態3または4による音声パターンモデル学習装置によって学習された読み上げ音声m音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデル(すなわち認識対象語彙モデル) In the figure, the reading voice m phoneme sets model memory 14, 16 interactive voice m phoneme sets model memory, 21 an interactive voice n phoneme sets model memory, 22 denotes an input terminal for the audio signal, 23 an input terminal 22 of the audio signal input audio signal, acoustic analysis section 24 for calculating a time series of acoustic feature vectors of the speech signal 23, 25 is the time series of feature vectors, which is the output of the acoustic analysis section 24, 26 a phonemic transcription of the vocabulary to be recognized recognition target vocabulary memory for storing, 27 phoneme sets representation of the recognition target words, 28 voice m phonemic sets model reading learned by the voice pattern model learning device according to embodiment 3 or 4 above, interactive voice m phoneme sets model and speech pattern models for the recognition target vocabulary by connecting an interactive voice n phoneme sets model in parallel (i.e. the recognition target words model) 作成する認識対象語彙モデル作成部(認識対象語彙モデル作成手段)、29は認識対象語彙モデルのパラメータおよび音素組表記、31は認識対象語彙モデルメモリ、32は認識対象語彙モデル作成部28によって作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行う認識部(認識手段)、33は認識結果である。 Recognition target vocabulary model creation unit that creates (recognition target vocabulary model generating means), 29 parameters and the phoneme sets representation of the recognition target words model, the recognition target vocabulary model memory 31, 32 created by the recognition target words model creation unit 28 using the speech pattern model for recognition target words, the recognition unit for recognizing the input speech (recognition means), 33 is a recognition result. なお、図16において、図8に示すものと同一の符号は上記実施の形態3による音声パターンモデル学習装置の構成要素と同一または相当するものを示している。 In FIG. 16, the same reference numerals as those shown in FIG. 8 shows what the same or equivalent to the components of the speech pattern model learning device according to the third embodiment.

【0164】読み上げ音声m音素組モデルメモリ14 [0164] reading aloud m phoneme sets model memory 14
は、上記実施の形態3または4による音声パターンモデル学習装置によって作成された全ての読み上げ音声m音素組モデルのパラメータおよびそのm音素組表記を保持している。 Holds parameters and m phonemes sets representation of all speech reading m phoneme sets model created by the speech pattern model learning device according to Embodiment 3 or 4 above. また、対話音声m音素組モデルメモリ16 In addition, interactive voice m phoneme sets model memory 16
は、同様に、上記実施の形態3または4による音声パターンモデル学習装置によって作成された全ての対話音声m音素組モデルのパラメータおよびそのm音素組表記を保持している。 Likewise it holds parameters and m phonemes sets representation of all interactive voice m phoneme sets model created by the speech pattern model learning device according to Embodiment 3 or 4 above. さらに、対話音声n音素組モデルメモリ21は、上記実施の形態3または4による音声パターンモデル学習装置によって作成された全ての対話音声n音素組モデルのパラメータおよびそのn音素組表記を保持している。 Furthermore, interactive voice n phoneme sets model memory 21 holds the parameter and its n phonemes sets representation of all interactive voice n phoneme sets model created by the speech pattern model learning device according to Embodiment 3 or 4 above . なお、以下では、m=3、n=5として説明する。 In the following, described as m = 3, n = 5. また、以下では、対話音声m音素組モデルメモリ16は、上記実施の形態4による音声パターンモデル学習装置によって作成された全ての対話音声m音素組モデルのパラメータおよびそのm音素組表記を保持しており、対話音声n音素組モデルメモリ21は、上記実施の形態4による音声パターンモデル学習装置によって作成された全ての対話音声n音素組モデルのパラメータおよびそのn音素組表記を保持していると仮定する。 In the following, interactive voice m phoneme sets model memory 16 holds the parameter and its m phonemes sets representation of all interactive voice m phoneme sets model created by the speech pattern model learning device according to the fourth embodiment cage, assuming interactive voice n phoneme sets model memory 21 holds the parameter and its n phonemes sets representation of all interactive voice n phoneme sets model created by the speech pattern model learning device according to the fourth embodiment to.

【0165】次に動作について説明する。 [0165] Next, the operation will be described. この実施の形態5による音声認識装置は、認識を行う前に認識対象語彙モデルを作成し、作成した認識対象語彙モデルを認識対象語彙モデルメモリ31に保持する。 The speech recognition apparatus according to the fifth embodiment is to create a recognition target vocabulary model before performing the recognition, to hold the recognition target vocabulary model created in the recognition target words model memory 31.

【0166】まずこの実施の形態5による音声認識装置が用いる認識対象語彙モデルの作成方法について説明する。 [0166] First create a recognition target vocabulary model this embodiment the speech recognition device according to a fifth is used it will be described. 認識対象語彙モデル作成部28は、認識対象語彙メモリ26に格納されている認識対象語彙のモデルを作成する。 Recognition target vocabulary model creation unit 28 creates a model of the vocabulary to be recognized stored in the recognition target words memory 26. 認識対象語彙メモリ26にはまた認識対象とする語彙の音素表記が記述されている。 Or phonemic transcription vocabulary to be recognized is described in the vocabulary to be recognized memory 26. 認識対象語彙メモリ26の内容の例を図17に示す。 The example of the contents of the vocabulary to be recognized memory 26 shown in FIG. 17. この例ではホテル予約を想定したユーザの発話を認識対象としており、語彙番号1の語彙は「予約お願いします」、語彙番号2は「あした空いてますか」、1000は「駅から近いですか」 In this example has been the utterance of the user who assumed the hotel reservations and the recognition target, the vocabulary of the vocabulary number 1 is "thank you reservation", vocabulary number 2 is "Do you have free tomorrow", or 1000 is close to the "station "
である。 It is. 認識対象語彙モデル作成部28は、以下のように認識対象語彙モデルを作成する。 Recognition target vocabulary model creation unit 28 creates a recognition target vocabulary model as follows.

【0167】(1)認識対象語彙モデル作成手順1:認識対象語彙モデル作成部28は、認識対象語彙メモリ2 [0167] (1) the recognition target vocabulary model created Step 1: recognition target vocabulary model creation unit 28, the recognition target vocabulary memory 2
6に記載されている語彙番号の順番にモデル作成の対象とする認識対象語彙を選択してこの認識対象語彙の音素表記27を読み込む。 6 Select vocabulary to be recognized as a target of the model created in the order of the vocabulary number on the read phoneme notation 27 of the vocabulary to be recognized. 例えば認識対象語彙メモリ26の内容が図17のようであれば、認識対象語彙モデル作成部28はまず語彙番号1である/yoyakuoneg For example, if the contents of the vocabulary to be recognized memory 26 is like a 17, the recognition target words modeling unit 28 is initially in the vocabulary number 1 / yoyakuoneg
aisimasu/を選択する。 To select the aisimasu /.

【0168】(2)認識対象語彙モデル作成手順2:次に、認識対象語彙モデル作成部28は、選択した認識対象語彙の音素表記27にしたがって読み上げ音声m音素組モデルメモリ14から、読み上げ音声m音素組モデルのパラメータ13を読み込み、読み上げ音声m音素組モデルを直列接続して、選択した認識対象語彙について直列接続モデルを作成する。 [0168] (2) the recognition target words modeling Step 2: Next, the recognition target words model generation unit 28, a voice m phoneme sets model memory 14 reading according phonemic representation 27 of the recognition target words selected, reading voice m reading parameters 13 phoneme set model, the speech reading m phoneme sets model are connected in series, to create a series model for the recognition target words selected. 例えば音素表記が/yoya For example, phonemic notation / yoya
kuonegaisimasu/の場合、m=3であるので、/(#)y(o)/,/(y)o(y)/,/ Kuonegaisimasu / cases, since it is m = 3, / (#) y (o) /, / (y) o (y) /, /
(o)y(a)/,/(y)a(k)/,/(a)k (O) y (a) /, / (y) a (k) /, / (a) k
(u)/,/(k)u(o)/,/(u)o(n)/, (U) /, / (k) u (o) /, / (u) o (n) /,
/(o)n(e)/,/(n)e(g)/,/(e)g / (O) n (e) /, / (n) e (g) /, / (e) g
(a)/,/(g)a(i)/,/(a)i(s)/, (A) /, / (g) a (i) /, / (a) i (s) /,
/(i)s(i)/,/(s)i(m)/,/(i)m / (I) s (i) /, / (s) i (m) /, / (i) m
(a)/,/(m)a(s)/,/(a)s(u)/, (A) /, / (m) a (s) /, / (a) s (u) /,
/(s)u(#)/の計18個のm音素組モデルを接続する。 / (S) to connect the u (#) / of the total of 18 m phoneme set model. ここで、/#/は発話の前後の無音区間を意味する。 Here, / # / means before and after the silent section of the utterance. この実施の形態5では、各m音素組モデルは図26 In the fifth embodiment, each m phoneme sets model 26
に示すように5状態の構造を有しているとする。 As it is shown to to have a structure of 5 states. 図26 Figure 26
において、状態1が初期状態、状態5が最終状態である。 In the state 1 is the initial state, state 5 is the final state. /yoyakuonegaisimasu/に対する直列接続モデルは図18のようになる。 / Series model for Yoyakuonegaisimasu / is as shown in FIG 18.

【0169】(3)認識対象語彙モデル作成手順3:次に、認識対象語彙モデル作成部28は、対話音声m音素組モデルメモリ16が保持するm音素組表記を参照し、 [0169] (3) the recognition target words modeling Step 3: Next, the recognition target words model generation unit 28, dialogue speech m phoneme sets model memory 16 with reference to the m phoneme set notation held,
上記/yoyakuonegaisimasu/を構成するm(=3)音素組である/(#)y(o)/,/ m constituting the / yoyakuonegaisimasu / (= 3) is a phoneme group / (#) y (o) /, /
(y)o(y)/,/(o)y(a)/,/(y)a (Y) o (y) /, / (o) y (a) /, / (y) a
(k)/,/(a)k(u)/,/(k)u(o)/, (K) /, / (a) k (u) /, / (k) u (o) /,
/(u)o(n)/,/(o)n(e)/,/(n)e / (U) o (n) /, / (o) n (e) /, / (n) e
(g)/,/(e)g(a)/,/(g)a(i)/, (G) /, / (e) g (a) /, / (g) a (i) /,
/(a)i(s)/,/(i)s(i)/,/(s)i / (A) i (s) /, / (i) s (i) /, / (s) i
(m)/,/(i)m(a)/,/(m)a(s)/, (M) /, / (i) m (a) /, / (m) a (s) /,
/(a)s(u)/,/(s)u(#)/のうち、対話音声m音素組モデルメモリ16が保持するm音素組表記に存在するm音素組のモデルのパラメータ15を対話音声m音素組モデルメモリ16から読み込み、上記認識対象語彙モデル作成手順1で作成した直列接続モデルの該当する場所に読み上げ音声m音素組モデルと対話音声m / (A) s (u) /, / (s) u (#) / among the interactive dialogue voice m phoneme sets m phoneme sets of model parameters 15 of the model memory 16 is present in the m phonemic sets notation for holding reading from the sound m phoneme sets model memory 16, interacts with the recognition target words model reading in the appropriate location of the series connected models created with create procedure 1 audio m phonemic sets model voice m
音素組モデルとを並列に接続することによって、選択した認識対象語彙に対する並列接続モデルを作成する。 By connecting the phoneme set model in parallel, creating a parallel connection model for recognition target words selected.

【0170】並列に接続するとは、接続対象とする読み上げ音声m音素組モデルと対話音声m音素組モデルの初期状態同士と最終状態同士を共有化し、一個の初期状態からどちらのモデルへも遷移が可能で、どちらのモデルへ遷移した場合でも、共通の最終状態で遷移を終えるように接続するものである。 [0170] and is connected in parallel to share the initial state to each other and the final state between speech reading m phoneme sets model dialogue voice m phoneme sets model the connection target, the transition also to either model from one of the initial state possible, even when the transition to either model, connects to finish the transition common final state. 例えば、対話音声m音素組モデルメモリ16が保持するm音素組表記に存在するm音素組が、/(y)o(y)/,/(o)y(a)/,/ For example, m phoneme sets of interactive voice m phoneme sets model memory 16 is present in the m phoneme set notation held, / (y) o (y) /, / (o) y (a) /, /
(a)k(u)/,/(u)o(n)/,/(n)e (A) k (u) /, / (u) o (n) /, / (n) e
(g)/,/(e)g(a)/,/(g)a(i)/, (G) /, / (e) g (a) /, / (g) a (i) /,
/(i)m(a)/の8個であるとすると、対話音声m / (I) When a m (a) / 8 amino, interactive voice m
音素組モデルを図19のように図18の直列接続モデルに並列に接続して並列接続モデルを作成する。 Connect the phoneme sets model in parallel with the series connection model of Figure 18 as shown in FIG. 19 to create a parallel connection model.

【0171】(4)認識対象語彙モデル作成手順4:次に、認識対象語彙モデル作成部28は、対話音声n音素組モデルメモリ21が保持するn音素組表記を参照し、 [0171] (4) recognition target vocabulary model creation procedure 4: Next, the recognition target words model generation unit 28, dialogue speech n phoneme sets model memory 21 with reference to the n phoneme sets notation for holding,
上記/yoyakuonegaisimasu/を構成するn(本例ではn=5)音素組である/(##)y (In this example n = 5) n constituting the / yoyakuonegaisimasu / a phoneme sets / (# #) y
(oy)/,/(#y)o(ya)/,/(yo)y (Oy) /, / (# y) o (ya) /, / (yo) y
(ak)/,/(oy)a(ku)/,/(ya)k (Ak) /, / (oy) a (ku) /, / (ya) k
(uo)/,/(ak)u(on)/,/(ku)o (Uo) /, / (ak) u (on) /, / (ku) o
(ne)/,/(uo)n(eg)/,/(on)e (Ne) /, / (uo) n (eg) /, / (on) e
(ga)/,/(ne)g(ai)/,/(eg)a (Ga) /, / (ne) g (ai) /, / (eg) a
(is)/,/(ga)i(si)/,/(ai)s (Is) /, / (ga) i (si) /, / (ai) s
(im)/,/(is)i(ma)/,/(si)m (Im) /, / (is) i (ma) /, / (si) m
(as)/,/(im)a(su)/,/(ma)s (As) /, / (im) a (su) /, / (ma) s
(u#)/,/(as)u(##)/のうち、対話音声n音素組モデルメモリ21が保持するn音素組表記に存在するn音素組のモデルのパラメータ20を対話音声n (U #) /, / (as) u (##) / of the dialogue voice n phoneme sets model dialogue n phoneme sets of model parameters 20 that the memory 21 is present in the n phoneme sets notation for holding voice n
音素組モデルメモリ21から読み込み、上記認識対象語彙モデル作成手順3で作成した並列接続モデルの該当する場所にさらに並列に接続することによって、選択した認識対象語彙に対する認識対象語彙モデルを作成する。 Read from the phoneme sets model memory 21, by further connected in parallel to the appropriate location of the parallel connection models created with the recognition target words model creation step 3, to create a vocabulary to be recognized model for the recognition target words selected.
例えば、対話音声n音素組モデルメモリ21が保持するn音素組表記に存在するn音素組が/(#y)o(y Eg, n phoneme sets of interactive voice n phoneme sets model memory 21 is present in the n-phoneme pairs notation held by / (# y) o (y
a)/,/(yo)y(ak)/,/(ne)g(a a) /, / (yo) y (ak) /, / (ne) g (a
i)/の3個であるとすると、認識対象語彙モデル作成部28は対話音声n音素組モデルを図20のように接続して認識対象語彙モデルを作成する。 When i) / of a three, recognition target vocabulary model creation unit 28 creates a recognition target vocabulary model the connections shown in Figure 20 the spoken dialogue n phoneme sets model. 認識対象語彙モデル作成部28は、接続を完了した上記認識対象語彙モデルのパラメータおよびその音素表記29を認識対象語彙モデルメモリ31に送出する。 Recognition target vocabulary model generation unit 28 sends the parameters of the recognition target vocabulary model and the phoneme notation 29 to complete the connection to the vocabulary to be recognized model memory 31.

【0172】(5)認識対象語彙モデル作成手順5:次に、認識対象語彙モデル作成部28は、認識対象語彙メモリ26を参照して認識対象語彙メモリ26に存在する全ての認識対象語彙について認識対象語彙モデルの作成が終了するまで語彙番号の順番にモデル作成の対象とする次の認識対象語彙を選択し、上記認識対象語彙モデル作成手順2〜4を繰り返す。 [0172] (5) recognition vocabularies modeling Step 5: Next, the recognition target words model generation unit 28, the recognition for all the vocabulary to be recognized that exists in the recognition target words memory 26 with reference to the recognition target vocabulary memory 26 select the following vocabulary to be recognized that the creation of the target vocabulary model is the subject of the model created in the order of the vocabulary number until the end, repeat the above recognition target vocabulary model creation procedure 2-4. このようにして、認識対象語彙モデル作成部28は、認識対象語彙メモリ26に存在する全ての認識対象語彙について認識対象語彙モデルを作成すると、認識対象語彙モデル作成手順を終了する。 In this way, the recognition target vocabulary model generation unit 28, as for all the vocabulary to be recognized that exists in the recognition target words memory 26 to create a recognition target vocabulary model, to terminate the recognition target vocabulary model creation procedure.

【0173】次にこの実施の形態5による音声認識装置の認識動作について説明する。 [0173] Next will be described operation of recognizing the speech recognition apparatus according to the fifth embodiment. 認識動作を開始する前に、認識部32は、認識対象語彙モデルメモリ31に保持されている全ての認識対象語彙モデルのパラメータと各認識対象語彙モデルがモデル化する音素表記とを読み込む。 Before starting the recognition operation, the recognition unit 32, all of the recognition target vocabulary model parameter and the recognized vocabulary models stored in the recognition target vocabulary model memory 31 reads a phoneme notation to model. 例えば認識対象語彙が図17のようであれば、認識部32は、1000個の認識対象語彙モデルとこれらの認識対象語彙モデルに対応する音素表記とを認識対象語彙モデルメモリ31から読み込む。 For example, if the recognition target words is shown in FIG. 17, the recognition unit 32 reads a phoneme notation corresponding to 1000 of the recognition target vocabulary model and those of the recognition target words model from the recognition target words model memory 31.

【0174】認識部32の認識動作は次のように行う。 [0174] recognition operation of the recognition unit 32 is performed as follows.
入力端子22から音声信号23が入力されると、音響分析部24は音声信号23を特徴ベクトルの時系列25に変換する。 When a voice signal 23 is inputted from the input terminal 22, the acoustic analyzing section 24 converts the time-series 25 speech signal 23 of the feature vector. この特徴ベクトルの時系列25は例えばLP Time series 25 of the feature vector, for example LP
Cケプストラムの時系列である。 It is a time-series of C cepstrum.

【0175】認識部32は特徴ベクトルの時系列25を入力とし、予め読み込んである全ての認識対象語彙モデルとの尤度を例えばビタビアルゴリズムによって計算し、一番高い尤度を示した認識対象語彙モデルがモデル化する音素表記を認識結果33として出力する。 [0175] recognizing unit 32 inputs the time-series 25 of feature vectors, calculated by the Viterbi algorithm for example the likelihood of all of the vocabulary to be recognized models read in advance, the recognition target words showing the highest likelihood model outputs the phonemic representation to model as a recognition result 33.

【0176】次にこの実施の形態5による音声認識装置が使用する、音声認識方法を具体的に説明する。 [0176] Next, using the speech recognition apparatus according to the fifth embodiment will be specifically described speech recognition method. 上記したように、この実施の形態5による音声認識方法では、 As described above, in the speech recognition method according to the fifth embodiment,
認識を行う前に認識対象語彙モデルを作成し、作成した認識対象語彙モデルを認識対象語彙モデルメモリ31に保持する。 Create a vocabulary to be recognized model before performing the recognition, to hold the vocabulary to be recognized model that was created in recognition target vocabulary model memory 31. まず、認識対象語彙モデルの作成手順について説明する。 First, a description is given of the procedure of creating recognition target vocabulary model.

【0177】図21はこの発明の実施の形態5による音声認識方法における認識対象語彙モデルの作成手順の詳細を示したフローチャートであり、以下では、図21を参照しながら認識対象語彙モデルの作成手順について説明する。 [0177] Figure 21 is a flowchart showing the details of the creation procedure of a recognition target words models in speech recognition method according to a fifth embodiment of the present invention, the following procedure for creating reference while recognition target vocabulary model Figure 21 It will be described.

【0178】まず、認識対象語彙モデル作成部28が、 [0178] First, the recognition target vocabulary model creation unit 28,
ステップST1001において、認識対象語彙メモリ2 In step ST 1001, the recognition target words memory 2
6を参照して、モデル作成の対象となる語彙番号1の認識対象語彙を選択してこの認識対象語彙の音素表記27 6 See, select the vocabulary to be recognized vocabulary number 1 to be modeling phonemic transcription of the vocabulary to be recognized 27
を認識対象語彙メモリ26から読み込む。 Read from the recognition target vocabulary memory 26. 例えば認識対象語彙メモリ26の内容が図17のようであれば、認識対象語彙モデル作成部28はまず語彙番号1である/y For example, if the contents of the vocabulary to be recognized memory 26 is like a 17, the recognition target words modeling unit 28 is initially in the vocabulary number 1 / y
oyakuonegaisimasu/を選択する。 To select the oyakuonegaisimasu /.

【0179】次に、認識対象語彙モデル作成部28は、 [0179] Next, the recognition target vocabulary model creation unit 28,
ステップST1002において、上記ステップST10 In step ST1002, step ST10
01またはステップST1007において選択した認識対象語彙の音素表記27にしたがって読み上げ音声m音素組モデルメモリ14から、読み上げ音声m音素組モデルのパラメータ13を読み込み、読み上げ音声m音素組モデルを直列接続して、認識対象語彙に対する直列接続モデルを作成する。 01 or audio m phoneme sets model memory 14 reading according phonemic representation 27 of the recognition target words selected in step ST 1007, reading reads the parameters 13 of the sound m phoneme set model, the speech reading m phoneme sets model are connected in series, to create a series connection model for the recognition target vocabulary. 例えば音素表記が/yoyakuo For example, phonemic notation / yoyakuo
negaisimasu/の場合、m=3であるならば、/(#)y(o)/,/(y)o(y)/,/ Negaisimasu / cases, if it is m = 3, / (#) y (o) /, / (y) o (y) /, /
(o)y(a)/,/(y)a(k)/,/(a)k (O) y (a) /, / (y) a (k) /, / (a) k
(u)/,/(k)u(o)/,/(u)o(n)/, (U) /, / (k) u (o) /, / (u) o (n) /,
/(o)n(e)/,/(n)e(g)/,/(e)g / (O) n (e) /, / (n) e (g) /, / (e) g
(a)/,/(g)a(i)/,/(a)i(s)/, (A) /, / (g) a (i) /, / (a) i (s) /,
/(i)s(i)/,/(s)i(m)/,/(i)m / (I) s (i) /, / (s) i (m) /, / (i) m
(a)/,/(m)a(s)/,/(a)s(u)/, (A) /, / (m) a (s) /, / (a) s (u) /,
/(s)u(#)/の計18個のm音素組モデルを接続する。 / (S) to connect the u (#) / of the total of 18 m phoneme set model. ここで/#/は発話の前後の無音区間を意味するものとする。 Where / # / it is intended to mean the front and rear of the silent section of speech. 上記したように、この実施の形態5では図26に示すような各m音素組モデルは5状態の構造を有しているとする。 As described above, each of m phoneme sets model as shown in FIG. 26 in the fifth embodiment is to have the structure of the 5 states. したがって、音素表記/yoyaku Therefore, phonemic notation / yoyaku
onegaisimasu/に対する直列接続モデルは図18のようになる。 Series model for Onegaisimasu / is as shown in FIG 18.

【0180】次に、認識対象語彙モデル作成部28は、 [0180] Next, the recognition target vocabulary model creation unit 28,
ステップST1003において、対話音声m音素組モデルメモリ16が保持するm音素組表記を参照し、上記音素表記/yoyakuonegaisimasu/を構成するm音素組である/(#)y(o)/,/(y)o In step ST 1003, with reference to the m phoneme set notation interactive voice m phoneme sets model memory 16 holds a m phoneme sets constituting said phonemic transcription / yoyakuonegaisimasu / / (#) y (o) /, / (y ) o
(y)/,/(o)y(a)/,/(y)a(k)/, (Y) /, / (o) y (a) /, / (y) a (k) /,
/(a)k(u)/,/(k)u(o)/,/(u)o / (A) k (u) /, / (k) u (o) /, / (u) o
(n)/,/(o)n(e)/,/(n)e(g)/, (N) /, / (o) n (e) /, / (n) e (g) /,
/(e)g(a)/,/(g)a(i)/,/(a)i / (E) g (a) /, / (g) a (i) /, / (a) i
(s)/,/(i)s(i)/,/(s)i(m)/, (S) /, / (i) s (i) /, / (s) i (m) /,
/(i)m(a)/,/(m)a(s)/,/(a)s / (I) m (a) /, / (m) a (s) /, / (a) s
(u)/,/(s)u(#)/のうち、対話音声m音素組モデルメモリ16が保持するm音素組表記に存在するm音素組のモデルのパラメータ15を対話音声m音素組モデルメモリ16から読み込み、上記ステップST10 (U) /, / (s) u (#) / out, interactive voice m phoneme sets model m phoneme sets of model parameters 15 that are present in m phoneme set notation interactive voice m phoneme sets model memory 16 holds read from the memory 16, the above-mentioned step ST10
02で作成した直列接続モデルの該当する場所に読み上げ音声m音素組モデルと対話音声m音素組モデルとを並列に接続することによって、選択した認識対象語彙に対する並列接続モデルを作成する。 By connecting in parallel with the voice m phonemic sets model reading in the appropriate location of the series model created a spoken dialogue m phoneme sets model 02, to create a parallel connection model for recognition target words selected.

【0181】例えば、対話音声m音素組モデルメモリ1 [0181] For example, interactive voice m phoneme sets model memory 1
6が保持するm音素組表記に存在するm音素組が、/ m phoneme sets of 6 is present in the m phoneme set notation held, /
(y)o(y)/,/(o)y(a)/,/(a)k (Y) o (y) /, / (o) y (a) /, / (a) k
(u)/,/(u)o(n)/,/(n)e(g)/, (U) /, / (u) o (n) /, / (n) e (g) /,
/(e)g(a)/,/(g)a(i)/,/(i)m / (E) g (a) /, / (g) a (i) /, / (i) m
(a)/の8個であるとすると、認識対象語彙モデル作成部28は、これらの対話音声m音素組モデルを図19 (A) When an eight /, recognition target vocabulary model generation unit 28, 19 of these interactive voice m phoneme sets Model
のように接続して並列接続モデルを作成する。 Connection to create a parallel connection model and so on.

【0182】次に、認識対象語彙モデル作成部28は、 [0182] Next, the recognition target vocabulary model creation unit 28,
ステップST1004において、対話音声n音素組モデルメモリ21が保持するn音素組表記を参照し、上記音素表記/yoyakuonegaisimasu/を構成するn(この実施の形態5ではn=5)音素組である/(##)y(oy)/,/(#y)o(ya)/,/ In step ST 1004, interactive voice n phoneme sets model memory 21 with reference to the n phoneme sets notation for holding, the phonemic transcription / Yoyakuonegaisimasu / a constituting n (n = 5 in the fifth embodiment) is the phoneme sets / ( ##) y (oy) /, / (# y) o (ya) /, /
(yo)y(ak)/,/(oy)a(ku)/,/ (Yo) y (ak) /, / (oy) a (ku) /, /
(ya)k(uo)/,/(ak)u(on)/,/ (Ya) k (uo) /, / (ak) u (on) /, /
(ku)o(ne)/,/(uo)n(eg)/,/ (Ku) o (ne) /, / (uo) n (eg) /, /
(on)e(ga)/,/(ne)g(ai)/,/ (On) e (ga) /, / (ne) g (ai) /, /
(eg)a(is)/,/(ga)i(si)/,/ (Eg) a (is) /, / (ga) i (si) /, /
(ai)s(im)/,/(is)i(ma)/,/ (Ai) s (im) /, / (is) i (ma) /, /
(si)m(as)/,/(im)a(su)/,/ (Si) m (as) /, / (im) a (su) /, /
(ma)s(u#)/,/(as)u(##)/のうち、対話音声n音素組モデルメモリ21が保持するn音素組表記に存在するn音素組のモデルのパラメータ20 (Ma) s (u #) /, / (as) u (##) / of the dialogue voice n phoneme sets Model n phoneme sets of model parameters 20 that the memory 21 is present in the n phoneme sets notation for holding
を対話音声n音素組モデルメモリ21から読み込み、上記ステップST1003で作成した並列接続モデルの該当する場所にさらに並列に接続することによって、選択した認識対象語彙に対する認識対象語彙モデルを作成する。 Read from an interactive voice n phoneme sets model memory 21, by further connected in parallel to the appropriate location of the parallel connection model created in step ST 1003, to create a vocabulary to be recognized model for the recognition target words selected. 例えば、対話音声n音素組モデルメモリ21が保持するn音素組表記に存在するn音素組が/(#y)o Eg, n phoneme sets of interactive voice n phoneme sets model memory 21 is present in the n-phoneme pairs notation held by / (# y) o
(ya)/,/(yo)y(ak)/,/(ne)g (Ya) /, / (yo) y (ak) /, / (ne) g
(ai)/の3個であるとすると、対話音声n音素組モデルを図20のように接続して認識対象語彙モデルを作成する。 When a three (ai) /, the dialogue speech n phoneme pairs model the connections shown in Figure 20 to create a recognition target vocabulary model.

【0183】次に、認識対象語彙モデル作成部28は、 [0183] Next, the recognition target vocabulary model creation unit 28,
ステップST1005において、並列接続を完了した上記認識対象語彙モデルのパラメータおよびその音素表記29を認識対象語彙モデルメモリ31に送出する。 In step ST1005, it transmits the parameters and the phoneme notation 29 of the recognition target words model completing a parallel connection to the vocabulary to be recognized model memory 31. 認識対象語彙モデルメモリ31は、受け取った上記認識対象語彙モデルのパラメータおよび上記音素表記29を保持する。 Recognition target vocabulary model memory 31 holds the parameter recognition target vocabulary model and the phoneme notation 29 received.

【0184】次に、認識対象語彙モデル作成部28が、 [0184] Next, the recognition target vocabulary model creation unit 28,
ステップST1006において、認識対象語彙メモリ2 In step ST 1006, the recognition target words memory 2
6を参照して認識対象語彙メモリ26中に存在する全ての認識対象語彙について認識対象語彙モデルを作成したか否かを調べ、未作成の認識対象語彙が存在する場合は、ステップST1007に進み、認識対象語彙メモリ26から次の認識対象語彙を選択し、ステップST10 For all of the recognition target vocabulary 6 with reference to the present in the recognition target words memory 26 examines whether or not to create a recognition target vocabulary model, if the recognition target vocabulary uncreated exists, the process proceeds to step ST 1007, from the recognition target words memory 26 to select the next recognition target words, step ST10
02に戻る。 Back to 02. 一方、認識対象語彙モデル作成部28は、 On the other hand, the recognition target vocabulary model creation unit 28,
認識対象語彙モデルが未作成の認識対象語彙が認識対象語彙メモリ26に存在しない場合は認識対象語彙モデル作成手順を終了する。 If the vocabulary to be recognized model is the recognition target vocabulary of not been created does not exist in the vocabulary to be recognized memory 26 ends the recognition target vocabulary model creation procedure.

【0185】次にこの実施の形態5による音声認識方法の音声認識手順を具体的に説明する。 [0185] Next will be specifically described speech recognition procedure of the speech recognition method according to the fifth embodiment. 既に述べたように、認識動作を開始する前に、認識部32は、認識対象語彙モデルメモリ31に保持されている全ての認識対象語彙モデルのパラメータと各認識対象語彙モデルがモデル化する音素表記とを読み込む。 As already mentioned, before starting the recognition operation, the recognition unit 32, the phoneme notation all recognized vocabulary model parameter and the recognized vocabulary models stored in the recognition target vocabulary model memory 31 is modeled read the door. 例えば認識対象語彙が図17のようであれば、認識部32は、1000個の認識対象語彙モデルとこれらの認識対象語彙モデルに対応する音素表記とを認識対象語彙モデルメモリ31から読み込む。 For example, if the recognition target words is shown in FIG. 17, the recognition unit 32 reads a phoneme notation corresponding to 1000 of the recognition target vocabulary model and those of the recognition target words model from the recognition target words model memory 31.

【0186】図22はこの発明の実施の形態5による音声認識方法における音声認識手順の詳細を示したフローチャートであり、以下では、図22を参照しながら音声認識手順について説明する。 [0186] Figure 22 is a flow chart showing details of the speech recognition procedure in the speech recognition method according to a fifth embodiment of the present invention, the following describes the speech recognition procedure with reference to FIG. 22. まず、音響分析部24は、 First, acoustic analysis unit 24,
ステップST1201において、入力端子22から入力された音声信号23を特徴ベクトルの時系列25に変換する。 In step ST1201, it converts the audio signal 23 that is input from the input terminal 22 in time series 25 of feature vectors. この特徴ベクトルの時系列25はLPCケプストラムの時系列である。 Time series 25 of the feature vector is a time series of LPC cepstrum.

【0187】次に、認識部32が、ステップST120 [0187] Next, the recognition unit 32, step ST120
2において、特徴ベクトルの時系列25を入力とし、予め読み込んである全ての認識対象語彙モデルとの尤度を例えばビタビアルゴリズムによって計算し、一番高い尤度を示した認識対象語彙モデルがモデル化する音素表記を認識結果33として出力する。 In 2, when an input a sequence 25, computed by the Viterbi algorithm for example the likelihood of all of the vocabulary to be recognized models read in advance, the recognition target words model modeling showing the highest likelihood of the feature vector and it outputs a phoneme representation of the recognition result 33.

【0188】なお、この実施の形態5による音声認識方法をソフトウェアで実現しようとする場合、認識対象語彙に対する音声パターンモデル(すなわち認識対象語彙モデル)を作成する認識対象語彙モデル作成ステップと、音声信号の入力端子22から入力された音声信号2 [0188] Incidentally, when trying to realize a speech recognition method according to the fifth embodiment in software, the recognition target vocabulary model generating step of generating a speech pattern model (i.e. recognition target vocabulary model) for the recognition target words, the audio signal audio signal 2 inputted from the input terminal 22 of the
3を特徴ベクトルの時系列25に変換する音響分析のステップと、特徴ベクトルの時系列25を入力とし、予め読み込んである全ての認識対象語彙モデルとの尤度を例えばビタビアルゴリズムによって計算し、一番高い尤度を示した認識対象語彙モデルがモデル化する音素表記を認識結果33として出力するステップとを有した、コンピュータに音声認識を実行させるための音声認識プログラムを記録したコンピュータで読み取り可能な記録媒体が必要である。 3 and steps of the sound analysis to convert the time series 25 of feature vectors as input time series 25 of feature vectors, calculated by the Viterbi algorithm for example the likelihood of all of the vocabulary to be recognized models read in advance one Ban recognition target vocabulary model showed a high likelihood had and outputting as a recognition result 33 phonemes representation to model, readable by a computer which records a speech recognition program for executing the speech recognition in a computer the recording medium is a need.

【0189】以上説明したように、この実施の形態5による音声認識装置は、図20に示すように、上記実施の形態3または4による音声パターンモデル学習装置によって学習された読み上げ音声m音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを用いて、対話音声のように発話速度がはやく曖昧な音声で認識性能が低いm音素組やn音素組に対して、認識対象語彙について別個に音声パターンモデルを作成してそのm [0189] As described above, the speech recognition apparatus according to the fifth embodiment, as shown in FIG. 20, reading voice m phoneme sets models learned by the voice pattern model learning device according to Embodiment 3 or 4 above using the interactive voice m phoneme sets model and interactive voice n phoneme sets model for recognition performance in fast ambiguous speech utterance speed like an interactive voice low m phoneme sets or n phoneme sets, the recognition target words the m create a separate voice pattern model
音素組やn音素組の音響特徴を高精度にモデル化し、読み上げ音声m音素組モデルと並列接続して認識対象語彙モデルを作成する。 Phoneme pairs and n phonemes sets of acoustic feature models with high accuracy, to create a recognition target vocabulary model connected in parallel with the voice m phonemic sets model reading. したがって、この実施の形態5によれば、読み上げ音声のような丁寧な発声を高精度に認識でき、かつ対話音声のように発話速度がはやく曖昧な音声でも認識精度を改善することができるという効果を奏する。 Therefore, the effect that according to the fifth embodiment, reading can be recognized with high accuracy polite utterances such as voice, and may be speech rate as interactive voice improves the recognition accuracy even faster ambiguous voice achieve the. なお、この実施の形態5では、m=3、n=5として説明したが、m、nは、m<nなる任意の整数の組を選択してもよく、この場合でも同様の効果を奏する。 Incidentally, in the fifth embodiment has been described as m = 3, n = 5, m, n may select any integer set of m <n, the same effect even in this case .

【0190】 [0190]

【発明の効果】以上のように、この発明によれば、テキストを読み上げた音声を用いて学習した読み上げ音声m As is evident from the foregoing description, according to the present invention, reading voice learned using speech reading text m
音素組モデルを用い、対話音声学習データから認識率が所定の閾値以下であるm音素組を抽出するm音素組抽出手段またはm音素組抽出ステップと、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習するモデル学習手段またはモデル学習ステップとを備えるように構成したので、全てのm Using phoneme set model, and interactive voice learning m phoneme sets extraction means or m phoneme sets extraction step recognition rate from the data to extract the m phonemes sets is less than a predetermined threshold value, for each m phoneme sets extracted, the interactive voice since it is configured to include a model learning means or model learning step learns the interactive voice m phoneme sets model using learning data, all m
音素組に対して対話音声m音素組モデルを学習することなしに、読み上げ音声で学習した読み上げ音声m音素組モデルでは認識が困難であった対話音声をも認識可能な対話音声m音素組モデルを効率良く学習できる効果がある。 Without learning a spoken dialogue m phoneme sets model for phoneme set, read a recognizable interactive voice m phoneme sets model dialogue speech recognition has been difficult in the read speech m phoneme sets model trained with speech there is an efficient learning can effect.

【0191】この発明によれば、m音素組抽出手段またはm音素組抽出ステップが、対話音声学習データ中から同一m音素組表記をもつデータ数が所定数以上であるm [0191] According to the present invention, m phoneme sets extraction means or m phoneme sets extraction step, the number of data having the same m phoneme set notation from interacting speech training data is greater than or equal to the predetermined number m
音素組を選択し、読み上げ音声m音素組モデルを用いて選択した該m音素組を認識し、認識率が所定の閾値以下であるならば選択した上記m音素組を抽出するようにしたので、読み上げ音声m音素組モデルで認識率が低い対話音声のm音素組のうち、データ数が所定数未満で統計的に信頼度の低いモデルの学習を回避し、統計的に信頼度の高いモデルのみを効率的に学習できるという効果がある。 Select phoneme set, reading and recognizing the m phoneme sets selected using the voice m phoneme sets model, since the recognition rate was made to extract the m phoneme sets selected if it is below a predetermined threshold value, reading out the m phoneme sets of low recognition rate interactive voice sound m phoneme sets model, the number of data to avoid learning low model statistically confidence in less than the predetermined number, only the most statistically reliable model there is an effect that can be efficiently learning.

【0192】この発明によれば、テキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、対話音声学習データから認識率が第1の所定の閾値以下であるm音素組を抽出するm音素組抽出手段またはm音素組抽出ステップと、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する対話音声m音素組モデル学習手段または対話音声m音素組モデル学習ステップと、上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いて、上記対話音声学習データから認識率が第2の所定の閾値以下のn音素組を抽出するn音素組抽出手段またはn音素組抽出ステップと、抽出した各n音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習す [0192] Extraction According to the present invention, using the speech reading m phoneme sets model was trained with speech reading text, the m phoneme pair recognition rate is equal to or less than the first predetermined threshold from the interactive voice learning data and m phoneme sets extraction means or m phoneme sets extraction step of, for each m phoneme sets extracted, interactive voice m phoneme sets model learning unit or interactive voice to learn the spoken dialogue m phoneme sets model using the interactive voice learning data extraction and m phoneme sets model learning step, the reading by using the voice m phoneme sets model and the spoken dialogue m phoneme set model, the recognition rate from the interactive voice learning data the second predetermined threshold below n phoneme pairs and n phoneme sets extraction means or n phoneme sets extraction step of, for each n phoneme sets extracted, to learn the interactive voice n phoneme sets model using the interactive voice learning data 対話音声n音素組モデル学習手段または対話音声n音素組モデル学習ステップとを備えるように構成したので、対話音声のように発話速度がはやくかつ曖昧な音声で読み上げ音声m音素組モデルと対話音声m音素組モデルでは十分な認識性能が得られない各n音素組について効率的に対話音声n音素組モデルを学習することができる効果がある。 Since it is configured to include the interactive voice n phoneme sets Model learning unit or interactive audio n phoneme sets Model learning step, read by the speech speed is fast and ambiguous voice like an interactive voice sound m phoneme sets model dialogue voice m the phoneme set model has an advantage of being able to learn effectively interact audio n phoneme sets model for each n phoneme sets that sufficient recognition performance.

【0193】この発明によれば、n音素組抽出手段またはn音素組抽出ステップが、対話音声学習データ中から同一n音素組表記をもつデータ数が所定数以上であるn [0193] According to the present invention, n phoneme sets extraction means or n phoneme sets extraction step, the number of data having the same n phoneme sets notation from interacting speech training data is equal to or more than a predetermined number n
音素組を選択し、読み上げ音声m音素組モデルと対話音声m音素組モデルとを用いて選択した上記n音素組を認識し、認識率が第2の所定の閾値以下であるならば選択した上記n音素組を抽出するようにしたので、読み上げ音声n音素組モデルで認識率が低い対話音声のn音素組のうち、データ数が所定数未満で統計的に信頼度の低いモデルの学習を回避し、統計的に信頼度の高いモデルのみを効率的に学習できるという効果がある。 Select phoneme set, reading and recognizing the n phonemes sets selected by using the interactive voice m phoneme sets model voice m phoneme set model, the recognition rate is selected if it is less than the second predetermined threshold above since to extract the n phonemes sets, among the n phoneme sets of recognition rate is lower dialogue speech voice n phonemic sets model reading, the number of data avoidance learning low model statistically confidence in less than a predetermined number and, there is an effect that only efficiently learn highly statistically reliable model.

【0194】この発明によれば、音声パターンモデル学習装置または音声パターンモデル学習方法によって学習された読み上げ音声m音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデルを作成する認識対象語彙モデル作成手段または認識対象語彙モデル作成ステップと、該認識対象語彙モデル作成手段によって作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行う認識手段または認識ステップとを備えるように構成したので、読み上げ音声のような丁寧な発声を高精度に認識でき、かつ対話音声のように発話速度がはやく曖昧な音声でも認識精度を改善することができるという効果がある。 [0194] To connect according to the present invention, the speech pattern model learning device or speech pattern model reading learned by the learning process audio m phoneme set model, the interactive voice m phoneme sets model and interactive voice n phoneme sets model in parallel using the speech pattern model for recognition target words that created the recognition target vocabulary model generating means or recognition target vocabulary model creation step to create a voice pattern models, by the recognition target vocabulary model generating means for the recognition target vocabulary allows the input speech since it is configured to include a recognition means or recognition step for recognizing, reading can be recognized with high accuracy polite utterances such as voice, and also improves the recognition accuracy in fast ambiguous speech utterance speed like an interactive voice there is an effect that can be.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】 この発明の実施の形態1による音声パターンモデル学習装置の構成を示すブロック図である。 1 is a block diagram showing a configuration of a speech pattern model learning device according to a first embodiment of the present invention.

【図2】 この発明の実施の形態1による音声パターンモデル学習装置の抽出m音素組表記メモリの内容の一例を示す図である。 2 is a diagram showing an example of the contents of the extracted m phoneme sets representation memory of the speech pattern model learning device according to a first embodiment of the present invention.

【図3】 この発明の実施の形態1による音声パターンモデル学習方法の手順を示すフローチャートである。 3 is a flowchart showing a procedure of a speech pattern model learning method according to the first embodiment of the present invention.

【図4】 この発明の実施の形態1における読み上げ音声m音素組モデルの学習手順を示すフローチャートである。 4 is a flowchart showing a learning procedure of speech m phonemic sets model reading in the first embodiment of the present invention.

【図5】 この発明の実施の形態1における認識率の低いm音素組を抽出する抽出手順を示すフローチャートである。 5 is a flowchart showing an extraction procedure for extracting the lower m phoneme sets recognition rate in the first embodiment of the present invention.

【図6】 この発明の実施の形態1における対話音声m [6] Interactive voice m in the first embodiment of the present invention
音素組モデルの学習手順を示すフローチャートである。 It is a flowchart showing a learning procedure of the phoneme sets model.

【図7】 この発明の実施の形態2による音声パターンモデル学習装置におけるトークン数が所定数以上で認識率の低いm音素組を抽出する抽出手順を示すフローチャートである。 7 is a flowchart showing the extraction procedure the number of tokens in a speech pattern model learning device according to a second embodiment of the invention extracts a low m phoneme sets recognition rate less than the predetermined number.

【図8】 この発明の実施の形態3による音声パターンモデル学習装置の構成を示すブロック図である。 8 is a block diagram showing a configuration of a speech pattern model learning device according to a third embodiment of the present invention.

【図9】 この発明の実施の形態3による音声パターンモデル学習装置の対話音声学習データメモリが保持する5音素組テーブルの一例を示す図である。 9 is a diagram showing an example of a 5 phoneme set table interactive voice learning data memory of the speech pattern model learning device according to a third embodiment of the present invention holds.

【図10】 この発明の実施の形態3による音声パターンモデル学習装置の対話音声学習データメモリが保持する、3音素組表記とともに付与された5音素組表記の一例を示す図である。 [10] Interactive voice learning data memory of the speech pattern model learning device according to a third embodiment of the present invention holds a diagram showing an example of a three phonemes set 5 phoneme set notation granted with notation.

【図11】 この発明の実施の形態3による音声パターンモデル学習装置の抽出n音素組表記メモリの内容の一例を示す図である。 11 is a diagram showing an example of the contents of the extracted n phoneme sets representation memory of the speech pattern model learning device according to a third embodiment of the present invention.

【図12】 この発明の実施の形態3による音声パターンモデル学習方法の手順を示すフローチャートである。 12 is a flowchart showing a procedure of a speech pattern model learning method according to the third embodiment of the present invention.

【図13】 この発明の実施の形態3における認識率の低いn音素組を抽出する抽出手順を示すフローチャートである。 13 is a flowchart showing an extraction procedure for extracting the lower n phoneme sets recognition rate in the third embodiment of the present invention.

【図14】 この発明の実施の形態3における対話音声n音素組モデルの学習手順を示すフローチャートである。 14 is a flowchart showing a learning procedure of the interactive voice n phoneme sets model in the third embodiment of the present invention.

【図15】 この発明の実施の形態4による音声パターンモデル学習装置におけるトークン数が所定数以上で認識率の低いn音素組を抽出する抽出手順を示すフローチャートである。 15 is a flowchart showing the extraction procedure the number of tokens in a speech pattern model learning device according to a fourth embodiment of the invention extracts a low n phoneme sets recognition rate less than the predetermined number.

【図16】 この発明の実施の形態5による音声認識装置の構成を示すブロック図である。 16 is a block diagram showing a configuration of a speech recognition apparatus according to a fifth embodiment of the present invention.

【図17】 この発明の実施の形態5による音声認識装置の認識対象語彙メモリの内容の一例を示す図である。 17 is a diagram showing an example of the contents of the recognition target words memory of the speech recognition apparatus according to a fifth embodiment of the present invention.

【図18】 認識対象語彙/yoyakuonegai [18] recognition target vocabulary / yoyakuonegai
simasu/に対する直列接続モデルを示す図である。 It is a diagram showing a series connection model for simasu /.

【図19】 この発明の実施の形態5による音声認識装置により作成され、図18の直列接続モデルに対話音声m音素組モデルが並列に接続された並列接続モデルを示す図である。 [19] created by the speech recognition device according to a fifth embodiment of the invention, showing the parallel connection model dialogue speech m phoneme sets model in series connection model of Figure 18 are connected in parallel.

【図20】 この発明の実施の形態5による音声認識装置により作成され、図18の直列接続モデルに対話音声n音素組モデルおよび対話音声n音素組モデルが並列に接続された認識対象語彙モデルを示す図である。 [20] created by the speech recognition device according to a fifth embodiment of the present invention, a recognition target vocabulary model interactive voice n phoneme sets model and interactive voice n phoneme sets model in series connection model of Figure 18 are connected in parallel It illustrates.

【図21】 この発明の実施の形態5による音声認識方法における認識対象語彙モデルの作成手順を示すフローチャートである。 21 is a flowchart showing the procedure for creating recognition target vocabulary model in a speech recognition method according to a fifth embodiment of the present invention.

【図22】 この発明の実施の形態5による音声認識方法における音声認識手順の詳細を示したフローチャートである。 22 is a flowchart showing details of the speech recognition procedure in the speech recognition method according to a fifth embodiment of the present invention.

【図23】 従来の音声パターンモデル学習装置の一例の構成を示すブロック図である。 FIG. 23 is a block diagram showing an example of a configuration of a conventional speech pattern model learning device.

【図24】 従来の音声パターンモデル学習装置の学習データメモリが保持する3音素組テーブルの一例を示す図である。 [Figure 24] learning data memory of the conventional speech pattern model learning device is a diagram showing an example of a 3 phoneme set table held.

【図25】 従来の音声パターンモデル学習装置の学習データメモリが保持するトークンの3音素組表記の一例を示す図である。 25 is a diagram showing an example of a three phonemes sets representation of tokens learning data memory of the conventional speech pattern model learning device is held.

【図26】 3音素組モデルの構造の一例である5状態のleft−to−rightモデルを示す図である。 26 is a diagram showing a 3 phoneme sets Model 5 states of left-to-right model is an example of the structure.

【符号の説明】 DESCRIPTION OF SYMBOLS

3 モデル学習部(モデル学習手段)、6 読み上げ音声学習データメモリ、8,80 対話音声学習データメモリ、10 m音素組抽出部(m音素組抽出手段)、1 3 model learning unit (model learning means), 6 reading voice learning data memory, 8,80 spoken dialogue learning data memory, 10 m phoneme set extraction unit (m phoneme set extracting means), 1
2 抽出m音素組表記メモリ、14 読み上げ音声m音素組モデルメモリ、16 対話音声m音素組モデルメモリ、17 n音素組抽出部(n音素組抽出手段)、19 2 Extraction m phonemes sets representation memory, 14 voice reading m phoneme sets model memory, 16 interactive voice m phoneme sets model memory, 17 n phoneme set extraction unit (n phoneme sets extraction means), 19
抽出n音素組表記メモリ、21 対話音声n音素組モデルメモリ、24 音響分析部、26 認識対象語彙メモリ、28 認識対象語彙モデル作成部(認識対象語彙モデル作成手段)、30 モデル学習部(対話音声m音素組モデル学習手段、対話音声n音素組モデル学習手段)、31 認識対象語彙モデルメモリ、32 認識部(認識手段)。 Extracting n phoneme sets representation memory, 21 interactive audio n phoneme sets model memory, 24 acoustic analysis section, 26 recognition target vocabulary memory, 28 recognition target vocabulary model generation unit (recognition target vocabulary model generating means), 30 model learning unit (Interactive Voice m phoneme sets model learning unit, interactive voice n phoneme sets model learning means), 31 recognition target vocabulary model memory, 32 recognition unit (recognizing means).

───────────────────────────────────────────────────── フロントページの続き (54)【発明の名称】 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プ ログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方 法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 ────────────────────────────────────────────────── ─── front page of continued (54) [Title of invention] speech pattern model learning device, voice pattern model learning method, and speech pattern model training program the computer-readable recording medium, and the speech recognition device, speech recognition how, and computer-readable recording medium a voice recognition program

Claims (15)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 前後の各(m−1)/2個の音素の違いを考慮した音素である、m音素組についてテキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、人対人の対話音声を音響分析して得られる対話音声学習データに含まれる各m音素組を認識し、認識率が所定の閾値以下であるm音素組を抽出するm音素組抽出手段と、 該m音素組抽出手段によって抽出された各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習するモデル学習手段とを備えた音声パターンモデル学習装置。 [Claim 1] Each of the front and rear (m-1) / 2 pieces of a phoneme in consideration of the difference in phonemes, using voice reading m phoneme sets model was trained with speech reading text for m phoneme sets, dialogue human voice interpersonal recognizes each m phoneme sets included in the interactive voice learning data obtained by acoustic analysis, and m phoneme set extracting means recognition rate for extracting m phonemes sets a specific threshold or less, the for each m phoneme sets extracted by m phoneme sets extracting means, speech pattern model learning apparatus and a model learning means for learning an interactive voice m phoneme sets model using the interactive voice learning data.
  2. 【請求項2】 m音素組抽出手段は、対話音声学習データ中から同一m音素組表記をもつデータ数が所定数以上であるm音素組を選択し、読み上げ音声m音素組モデルを用いて選択した上記m音素組を認識し、認識率が所定の閾値以下であるならば選択した上記m音素組を抽出することを特徴とする請求項1記載の音声パターンモデル学習装置。 Wherein m phoneme set extracting means selectively the number of data having the same m phoneme set notation from interacting speech training data and select m phoneme sets is equal to or more than a predetermined number, using the speech reading m phoneme sets Model the above m recognized phoneme pair, the recognition rate speech pattern model learning device according to claim 1, wherein the extracting the m phoneme sets selected if it is below a predetermined threshold.
  3. 【請求項3】 前後の各(m−1)/2個の音素の違いを考慮した音素である、m音素組についてテキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、人対人の対話音声を音響分析して得られる対話音声学習データに含まれる各m音素組を認識し、認識率が第1の所定の閾値以下であるm音素組を抽出するm音素組抽出手段と、 該m音素組抽出手段によって抽出された各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する対話音声m音素組モデル学習手段と、 上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いて、n>mなる上記m音素組よりさらに長い範囲の音素の違いを考慮した音素である、上記対話音声学習データに含まれる各n音素組を認識し Wherein each of the front and rear (m-1) / 2 pieces of a phoneme in consideration of the difference in phonemes, using voice reading m phoneme sets model was trained with speech reading text for m phoneme sets, dialogue human voice interpersonal recognizes each m phoneme sets included in the interactive voice learning data obtained by acoustic analysis, m phoneme sets extraction means for extracting m phonemes sets recognition rate is below a first predetermined threshold If, for each m phoneme sets extracted by the m phoneme set extraction unit, and interactive voice m phoneme sets model learning means for learning an interactive voice m phoneme sets model using the interactive voice learning data, the voice reading m phonemes using a set model and the spoken dialogue m phoneme sets model, n> m becomes a phoneme in consideration of differences in phonemes of said m phoneme sets from longer range, each n phoneme sets included in the interactive voice learning data It recognizes the 認識率が第2の所定の閾値以下のn音素組を抽出するn音素組抽出手段と、 該n音素組抽出手段によって抽出された各n音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習する対話音声n音素組モデル学習手段とを備えた音声パターンモデル学習装置。 And n phoneme sets extraction means recognition rate to extract a second predetermined threshold below n phoneme sets, for each n phoneme sets extracted by the n phoneme sets extraction means, interactive voice by using the interactive voice learning data speech pattern model learning device including an interactive voice n phoneme sets model learning means for learning the n phoneme sets model.
  4. 【請求項4】 n音素組抽出手段は、対話音声学習データ中から同一n音素組表記をもつデータ数が所定数以上であるn音素組を選択し、読み上げ音声m音素組モデルと対話音声m音素組モデルとを用いて選択した上記n音素組を認識し、認識率が第2の所定の閾値以下であるならば選択した上記n音素組を抽出することを特徴とする請求項3記載の音声パターンモデル学習装置。 Wherein n phoneme set extraction unit, the number of data having the same n phoneme sets notation from interacting speech training data and select n phoneme sets is equal to or more than a predetermined number, reading voice m phoneme sets model dialogue voice m recognizing the n phonemes sets selected using the phoneme pair model, recognition rate according to claim 3, characterized in that extracting the n phonemes sets selected if it is less than the second predetermined threshold voice pattern model learning device.
  5. 【請求項5】 請求項3または請求項4記載の音声パターンモデル学習装置によって学習された読み上げ音声m 5. A learned by the voice pattern model learning device according to claim 3 or claim 4, wherein the reading voice m
    音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデルを作成する認識対象語彙モデル作成手段と、 該認識対象語彙モデル作成手段によって作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行う認識手段とを備えた音声認識装置。 Phoneme set model, the recognition target vocabulary model creation means for creating a speech pattern models for the recognition target vocabulary by connecting an interactive voice m phoneme sets model and interactive voice n phoneme sets model in parallel, by the recognition target vocabulary model generating means using the speech pattern model for recognition target words created, a voice recognition device and a recognition means for recognizing the input speech.
  6. 【請求項6】 前後の各(m−1)/2個の音素の違いを考慮した音素である、m音素組についてテキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、人対人の対話音声を音響分析して得られる対話音声学習データに含まれる各m音素組を認識し、認識率が所定の閾値以下であるm音素組を抽出し、抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する音声パターンモデル学習方法。 6. Each of the front and rear (m-1) / 2 pieces of a phoneme in consideration of the difference in phonemes, using voice reading m phoneme sets model was trained with speech reading text for m phoneme sets, dialogue human voice interpersonal recognizes each m phoneme sets included in the interactive voice learning data obtained by acoustic analysis, recognition rate extracting m phonemes sets is less than a predetermined threshold value, the m phoneme sets extracted for speech pattern model learning method for learning a spoken dialogue m phoneme sets model using the interactive voice learning data.
  7. 【請求項7】 m音素組を抽出する際に、対話音声学習データ中から同一m音素組表記をもつデータ数が所定数以上であるm音素組を選択し、読み上げ音声m音素組モデルを用いて選択した上記m音素組を認識し、認識率が所定の閾値以下であるならば選択した上記m音素組を抽出することを特徴とする請求項6記載の音声パターンモデル学習方法。 When extracting 7. m phonemes sets, the number of data having the same m phoneme set notation from interacting speech training data and select m phoneme sets is equal to or more than a predetermined number, using the voice m phonemic sets model reading the m phoneme sets recognize speech pattern model learning method according to claim 6, wherein the recognition rate and extracting the m phoneme sets selected if it is below a predetermined threshold value selected Te.
  8. 【請求項8】 前後の各(m−1)/2個の音素の違いを考慮した音素である、m音素組についてテキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、人対人の対話音声を音響分析して得られる対話音声学習データに含まれる各m音素組を認識し、認識率が第1の所定の閾値以下であるm音素組を抽出し、 8. Each of the front and rear (m-1) / 2 pieces of a phoneme in consideration of the difference in phonemes, using voice reading m phoneme sets model was trained with speech reading text for m phoneme sets, dialogue human voice interpersonal recognizes each m phoneme sets included in the interactive voice learning data obtained by acoustic analysis, extracts m phoneme pair recognition rate is below a first predetermined threshold,
    抽出した各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習し、上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いて、n>mなる上記m音素組よりさらに長い範囲の音素の違いを考慮した音素である、上記対話音声学習データに含まれる各n音素組を認識して認識率が第2の所定の閾値以下のn音素組を抽出し、抽出した各n音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習する音声パターンモデル学習方法。 For each m phoneme sets extracted learns interactive voice m phoneme sets model using the interactive voice learning data, by using the above-described voice reading m phoneme sets model and the spoken dialogue m phoneme sets model, comprising n> m a phoneme in consideration of differences in phonemes longer range than the m phoneme set, each n phoneme sets of recognition to the recognition rate is a second predetermined threshold below n phoneme sets included in the interactive voice learning data extracted, extracted for each n phoneme sets that speech pattern model learning method for learning an interactive voice n phoneme sets model using the interactive voice learning data.
  9. 【請求項9】 n音素組を抽出する際に、対話学習音声データ中から同一n音素組表記をもつデータ数が所定数以上であるn音素組を選択し、読み上げ音声m音素組モデルと対話音声m音素組モデルとを用いて選択した上記n音素組を認識し、認識率が第2の所定の閾値以下であるならば選択した上記n音素組を抽出することを特徴とする請求項8記載の音声パターンモデル学習方法。 When extracting 9. n phonemes sets, the number of data having the same n phoneme sets notation from interacting training speech data selects the n phonemes sets is equal to or more than a predetermined number, interact with voice m phonemic sets model reading claim, characterized in that voice m recognize phonemes sets model and the n phoneme pairs was selected using, extracting the n phonemes sets selected if the recognition rate is less than a second predetermined threshold 8 voice pattern model learning method described.
  10. 【請求項10】 請求項8または請求項9記載の音声パターンモデル学習方法によって学習された読み上げ音声m音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデルを作成し、作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行う音声認識方法。 10. The method of claim 8 or claim 9 wherein the speech pattern model reading learned by the learning process audio m phoneme sets model, by connecting an interactive voice m phoneme sets model and interactive voice n phoneme sets model in parallel create a speech pattern model for recognition target words, using the voice pattern model for recognition target words created, a voice recognition method for recognizing the input speech.
  11. 【請求項11】 前後の各(m−1)/2個の音素の違いを考慮した音素である、m音素組についてテキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、人対人の対話音声を音響分析して得られる対話音声学習データに含まれる各m音素組を認識し、 11. Each of the front and rear (m-1) / 2 pieces of a phoneme in consideration of the difference in phonemes, using voice reading m phoneme sets model was trained with speech reading text for m phoneme sets, dialogue human voice interpersonal recognizes each m phoneme sets included in the interactive voice learning data obtained by acoustic analysis,
    認識率が所定の閾値以下であるm音素組を抽出するm音素組抽出ステップと、該m音素組抽出ステップによって抽出されたm音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する対話音声m And m phoneme sets extraction step of recognition rate for extracting m phonemes sets is less than a predetermined threshold value, the m phoneme sets extracted by the m phoneme sets extraction step, interactive voice m phoneme sets with the interactive voice learning data interactive voice m to learn the model
    音素組モデル学習ステップとを有する、音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体。 Phoneme sets Model learning and a step, a computer-readable recording medium recording a speech pattern model training program.
  12. 【請求項12】 m音素組抽出ステップは、対話音声学習データ中から同一m音素組表記をもつデータ数が所定数以上であるm音素組を選択し、読み上げ音声m音素組モデルを用いて選択した上記m音素組を認識し、認識率が所定の閾値以下であるならば選択した上記m音素組を抽出するステップであることを特徴とする請求項11記載の記録媒体。 12. m phoneme sets extraction step, the number of data having the same m phoneme set notation from interacting speech training data and select m phoneme sets is equal to or more than a predetermined number, using the speech reading m phoneme sets model selection and recognized the m phoneme set, recording medium according to claim 11, wherein the recognition rate is a step for extracting the m phoneme sets selected if it is below a predetermined threshold.
  13. 【請求項13】 前後の各(m−1)/2個の音素の違いを考慮した音素である、m音素組についてテキストを読み上げた音声を用いて学習した読み上げ音声m音素組モデルを用い、人対人の対話音声を音響分析して得られる対話音声学習データに含まれる各m音素組を認識し、 13. Each of the front and rear (m-1) / 2 pieces of a phoneme in consideration of the difference in phonemes, using voice reading m phoneme sets model was trained with speech reading text for m phoneme sets, dialogue human voice interpersonal recognizes each m phoneme sets included in the interactive voice learning data obtained by acoustic analysis,
    認識率が第1の所定の閾値以下であるm音素組を抽出するm音素組抽出ステップと、該m音素組抽出ステップにおいて抽出された各m音素組について、上記対話音声学習データを用いて対話音声m音素組モデルを学習する対話音声m音素組モデル学習ステップと、上記読み上げ音声m音素組モデルと上記対話音声m音素組モデルとを用いて、n>mなる上記m音素組よりさらに長い範囲の音素の違いを考慮した音素である、上記対話音声学習データに含まれる各n音素組を認識し、認識率が第2の所定の閾値以下のn音素組を抽出するn音素組抽出ステップと、該n音素組抽出ステップにおいて抽出された各n音素組について、上記対話音声学習データを用いて対話音声n音素組モデルを学習する対話音声n音素組モデル学習ステップとを有 And m phoneme sets extracting the m phoneme pair recognition rate is below a first predetermined threshold, for each m phoneme sets extracted in said m phoneme sets extraction step, it interacts with the interactive voice learning data a dialogue speech m phoneme sets model learning step of learning the speech m phoneme set model, the speech by using the speech m phoneme sets model and the spoken dialogue m phoneme sets model, n> m be even longer range than the m phoneme pairs a phoneme in consideration of the difference in phoneme, recognizes each n phoneme sets included in the interactive voice learning data, and n phoneme sets extraction step of recognition rate to extract a second predetermined threshold below n phoneme pairs for each n phoneme sets extracted in said n phoneme sets extraction step, have a dialogue voice n phoneme sets model learning step for learning a spoken dialogue n phoneme sets model using the interactive voice learning data る、音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体。 That a computer-readable recording medium recording a speech pattern model training program.
  14. 【請求項14】 n音素組抽出ステップは、対話音声学習データ中から同一n音素組表記をもつデータ数が所定数以上であるn音素組を選択し、読み上げ音声m音素組モデルと対話音声m音素組モデルとを用いて選択した上記n音素組を認識し、認識率が第2の所定の閾値以下であるならば、選択した上記n音素組を抽出するステップであることを特徴とする請求項13記載の記録媒体。 14. n phoneme sets extraction step, the number of data having the same n phoneme sets notation from interacting speech training data and select n phoneme sets is equal to or more than a predetermined number, reading voice m phoneme sets model dialogue voice m recognizing the n phonemes sets selected using the phoneme pair model, if the recognition rate is less than a second predetermined threshold, wherein, characterized in that the step of extracting the n phonemes sets the selected recording medium of claim 13, wherein.
  15. 【請求項15】 請求項8または請求項9記載の音声パターンモデル学習方法によって学習された読み上げ音声m音素組モデル、対話音声m音素組モデルおよび対話音声n音素組モデルを並列に接続することによって認識対象語彙に対する音声パターンモデルを作成する認識対象語彙モデル作成ステップと、該認識対象語彙モデル作成ステップで作成した認識対象語彙に対する音声パターンモデルを用いて、入力音声の認識を行う認識ステップとを有する、音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 15. The method of claim 8 or claim 9 wherein the speech pattern model reading learned by the learning process audio m phoneme sets model, by connecting an interactive voice m phoneme sets model and interactive voice n phoneme sets model in parallel has a recognition target vocabulary model generating step of generating a speech pattern model for recognition target words, using the voice pattern models for the recognition target vocabulary created in the vocabulary to be recognized model building step, and recognition step for recognizing the input speech the computer readable recording medium recording a speech recognition program.
JP2000162964A 2000-05-31 2000-05-31 Speech pattern model learning device, voice pattern model learning method, and speech pattern model training program and computer readable recording medium, and the speech recognition device, speech recognition method, and computer-readable recording medium a voice recognition program Expired - Fee Related JP4004716B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000162964A JP4004716B2 (en) 2000-05-31 2000-05-31 Speech pattern model learning device, voice pattern model learning method, and speech pattern model training program and computer readable recording medium, and the speech recognition device, speech recognition method, and computer-readable recording medium a voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000162964A JP4004716B2 (en) 2000-05-31 2000-05-31 Speech pattern model learning device, voice pattern model learning method, and speech pattern model training program and computer readable recording medium, and the speech recognition device, speech recognition method, and computer-readable recording medium a voice recognition program

Publications (2)

Publication Number Publication Date
JP2001343992A true JP2001343992A (en) 2001-12-14
JP4004716B2 JP4004716B2 (en) 2007-11-07

Family

ID=18666799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000162964A Expired - Fee Related JP4004716B2 (en) 2000-05-31 2000-05-31 Speech pattern model learning device, voice pattern model learning method, and speech pattern model training program and computer readable recording medium, and the speech recognition device, speech recognition method, and computer-readable recording medium a voice recognition program

Country Status (1)

Country Link
JP (1) JP4004716B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009532743A (en) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド Method and system for optimizing the model fit to the speech recognition system
JP2012113251A (en) * 2010-11-26 2012-06-14 Nippon Telegr & Teleph Corp <Ntt> Acoustic model creation apparatus, acoustic model creation method and program therefor
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
JP2014102345A (en) * 2012-11-19 2014-06-05 Nippon Telegr & Teleph Corp <Ntt> Text creation device for acoustic model learning, method of the same, and program
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
JP2014224857A (en) * 2013-05-15 2014-12-04 日本電信電話株式会社 Dialogue control learning device, dialogue control device and method, and program for the same
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US9928829B2 (en) 2005-02-04 2018-03-27 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US9202458B2 (en) 2005-02-04 2015-12-01 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US10068566B2 (en) 2005-02-04 2018-09-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
JP2009532743A (en) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド Method and system for optimizing the model fit to the speech recognition system
JP2013232017A (en) * 2006-04-03 2013-11-14 Vocollect Inc Method and system for assessing and improving performance of speech recognition system
JP2012113251A (en) * 2010-11-26 2012-06-14 Nippon Telegr & Teleph Corp <Ntt> Acoustic model creation apparatus, acoustic model creation method and program therefor
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9697818B2 (en) 2011-05-20 2017-07-04 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
JP2014102345A (en) * 2012-11-19 2014-06-05 Nippon Telegr & Teleph Corp <Ntt> Text creation device for acoustic model learning, method of the same, and program
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
JP2014224857A (en) * 2013-05-15 2014-12-04 日本電信電話株式会社 Dialogue control learning device, dialogue control device and method, and program for the same

Also Published As

Publication number Publication date
JP4004716B2 (en) 2007-11-07

Similar Documents

Publication Publication Date Title
Juang et al. Automatic speech recognition–a brief history of the technology development
CN1150452C (en) Speech recongnition correction method and equipment
JP4351385B2 (en) Speech recognition system for recognizing continuous and isolated speech
EP0965979B1 (en) Position manipulation in speech recognition
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
JP5327054B2 (en) Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
JP3762327B2 (en) Speech recognition method and a speech recognition apparatus and speech recognition program
JP4542974B2 (en) Speech recognition device, speech recognition method and a speech recognition program
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP4709663B2 (en) User adaptive speech recognition method and a speech recognition device
JP4393494B2 (en) Machine translation equipment, machine translation method and machine translation program
JP4734155B2 (en) Speech recognition device, speech recognition method and a speech recognition program
CN1321401C (en) Speech recognition apparatus, speech recognition method, conversation control apparatus, conversation control method
US9640175B2 (en) Pronunciation learning from user correction
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JP2965537B2 (en) Speaker clustering processing device and a voice recognition device
Fosler-Lussier Dynamic pronunciation models for automatic speech recognition
CN100371926C (en) Apparatus and method for dialogue, and storage medium including a program stored therein
EP0965978B9 (en) Non-interactive enrollment in speech recognition
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US8532993B2 (en) Speech recognition based on pronunciation modeling
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
US5199077A (en) Wordspotting for voice editing and indexing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070822

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees