JP2008129527A - Sound model generating device, method and program, and its recording medium - Google Patents

Sound model generating device, method and program, and its recording medium Download PDF

Info

Publication number
JP2008129527A
JP2008129527A JP2006317361A JP2006317361A JP2008129527A JP 2008129527 A JP2008129527 A JP 2008129527A JP 2006317361 A JP2006317361 A JP 2006317361A JP 2006317361 A JP2006317361 A JP 2006317361A JP 2008129527 A JP2008129527 A JP 2008129527A
Authority
JP
Japan
Prior art keywords
learning data
acoustic model
keyword
reinforcement
model generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006317361A
Other languages
Japanese (ja)
Other versions
JP4705557B2 (en
Inventor
Satoru Kobashigawa
哲 小橋川
Katsutoshi Ofu
克年 大附
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006317361A priority Critical patent/JP4705557B2/en
Publication of JP2008129527A publication Critical patent/JP2008129527A/en
Application granted granted Critical
Publication of JP4705557B2 publication Critical patent/JP4705557B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound model generating technique in which recognition performance of an important keyword to be recognized is improved. <P>SOLUTION: A learning section 13 calculates a sufficient amount of statistics from a learning data which is read from a learning data recording section 11, and a base sound model. An enhancement learning data selection section 22 extracts the learning data including the same key word as or similar keyword to a predetermined keyword from the learning data recording section 11, and makes the extracted data an enhancement learning data. An enhancement learning section 24 calculates an enhancement sufficient amount of statistics from the enhancement learning data and the base sound model. An enhancement model combining section 26 generates the enhancement sound model from the sufficient amount of statistics and a value in which weight is multiplied by the enhancement sufficient statistic. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、入力された音声信号から計算した音響特徴パラメータ系列に対して、各音素の音響的特徴を表現した確率モデルを作成する音響モデル生成装置、方法、プログラム及びその記録媒体に関する。   The present invention relates to an acoustic model generation apparatus, method, program, and recording medium for creating a probability model that represents the acoustic features of each phoneme for an acoustic feature parameter sequence calculated from an input speech signal.

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model;以下「HMM」と表す。)によってモデル化して音響モデルを作成する手法は、認識性能が高く、現在の音声認識技術の主流となっている。HMMについては、例えば非特許文献1に詳しい。   In conventional speech recognition, an acoustic model is created by modeling with a Hidden Markov Model (hereinafter referred to as “HMM”) for each category of speech units such as phonemes, syllables, and words constituting the recognition result candidate. The method has high recognition performance and has become the mainstream of current speech recognition technology. The HMM is detailed in Non-Patent Document 1, for example.

図3を参照して、従来技術による音響モデル生成装置の例について説明する。図3は、従来技術による音響モデル生成装置9の機能構成を例示する図である。図4は、従来技術による音響モデル生成方法の処理手順を例示する図である。
音響モデル生成装置9は、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが記録された学習データ記録部11、学習前の音響モデルであるベース音響モデルが記録されたベース音響モデル記録部12、学習部13、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部14、モデル合成部15、学習後の音響モデルが記録される音響モデル記録部16から構成される。
With reference to FIG. 3, the example of the acoustic model production | generation apparatus by a prior art is demonstrated. FIG. 3 is a diagram illustrating a functional configuration of the acoustic model generation device 9 according to the related art. FIG. 4 is a diagram illustrating a processing procedure of a conventional acoustic model generation method.
The acoustic model generation device 9 records a learning data recording unit 11 in which learning data including voice data and a label in which phonemes are associated with the voice data is recorded, and a base acoustic model that is an acoustic model before learning is recorded. Base acoustic model recording unit 12, learning unit 13, sufficient statistic recording unit 14 in which sufficient statistic necessary for calculating acoustic parameters is recorded, model synthesis unit 15, and acoustic model after learning Is recorded from the acoustic model recording unit 16.

学習部13は、学習データ記録部11から読み出した学習データと、ベース音響モデル記録部12から読み出したベース音響モデルとから統計量の蓄積を行って十分統計量を計算する(ステップS91)。計算された十分統計量は十分統計量記録部14に格納される。十分統計量については、例えば非特許文献2に詳しい。
モデル合成部15は、十分統計量記録部14から読み出した十分統計量を用いて学習後の音響モデルを生成する(ステップS92)。生成された音響モデルは音響モデル記録部16に記録される。学習部13の処理とモデル合成部15の処理は、例えば非特許文献2に詳しい。
中川聖一著,「確率モデルによる音声認識」,電子情報通信学会編,コロナ社,1988年7月 Lawrence Rabiner, Biing-Hwang Juang 共著,古井貞熙監訳,「音声認識の基礎(下)」,NTTアドバンステクノロジ、1995年
The learning unit 13 accumulates statistics from the learning data read from the learning data recording unit 11 and the base acoustic model read from the base acoustic model recording unit 12, and calculates sufficient statistics (step S91). The calculated sufficient statistics are stored in the sufficient statistics recording unit 14. The sufficient statistics are detailed in Non-Patent Document 2, for example.
The model synthesis unit 15 generates an acoustic model after learning using the sufficient statistics read from the sufficient statistics recording unit 14 (step S92). The generated acoustic model is recorded in the acoustic model recording unit 16. The processing of the learning unit 13 and the processing of the model synthesis unit 15 are detailed in Non-Patent Document 2, for example.
Seiichi Nakagawa, “Speech recognition using probabilistic models”, edited by IEICE, Corona, July 1988 Lawrence Rabiner and Biing-Hwang Juang, written by Sadahiro Furui, “Basics of Speech Recognition (Part 2)”, NTT Advanced Technology, 1995

従来技術の音響モデル生成装置9では、学習データにおける出現頻度が高い音素系列を持つ単語ほど、認識されやすいように音響モデルが生成される。逆に言えば、学習データにおける出現頻度が低い音素系列を持つ単語ほど、音響モデルで認識されづらくなる。このため、認識しようとする重要単語・キーワードの音素系列が、学習データに含まれる割合が小さい場合には、この重要単語・キーワードの認識性能が低くなるという問題があった。   In the acoustic model generation device 9 of the prior art, an acoustic model is generated so that a word having a phoneme sequence having a high appearance frequency in the learning data is easily recognized. In other words, a word having a phoneme sequence with a low appearance frequency in the learning data is harder to be recognized by the acoustic model. For this reason, when the phoneme series of the important word / keyword to be recognized is included in the learning data, there is a problem that the recognition performance of the important word / keyword is lowered.

本発明は、学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する。所定のキーワードと同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする。上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する。上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する。   In the present invention, sufficient statistics are calculated from the learning data read from the learning data recording means and the base acoustic model. Learning data including a keyword that is the same as and / or similar to a predetermined keyword is extracted from the learning data recording means and used as reinforcement learning data. A reinforcement sufficient statistic is calculated from the reinforcement learning data and the base acoustic model. A reinforced acoustic model is generated from the sufficient statistic and the weighted reinforced sufficient statistic.

所定のキーワードと同一及び/又は類似のキーワードを含む学習データから計算した強化十分統計量に重みを付けて強化音響モデルを生成することにより、その所定のキーワードの認識性能を改善することができる。また、これにより、誤って認識する単語の数が減少するため、音声認識性能を改善することができる。   The recognition performance of the predetermined keyword can be improved by generating a reinforcement acoustic model by weighting the reinforcement sufficient statistics calculated from the learning data including the same and / or similar keyword as the predetermined keyword. In addition, this reduces the number of words that are erroneously recognized, thereby improving speech recognition performance.

図1と図2を参照して、本発明による音響モデル生成装置1について説明する。図1は、音響モデル生成装置1の機能構成を例示する図である。図2は、音響モデル生成装置1の処理を例示する図である。
図1に例示するように、音響モデル生成装置1は、学習データ記録部11、ベース音響モデル記録部12、学習部13、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部14、強化キーワードリスト記録部21、強化学習データ選択部22、強化学習データ記録部23、強化学習部24、強化十分統計量記録部25、強化モデル合成部26、学習後の音響モデルである音響モデルが記録される強化音響モデル記録部27、から構成される。
With reference to FIG. 1 and FIG. 2, the acoustic model production | generation apparatus 1 by this invention is demonstrated. FIG. 1 is a diagram illustrating a functional configuration of the acoustic model generation device 1. FIG. 2 is a diagram illustrating processing of the acoustic model generation device 1.
As illustrated in FIG. 1, the acoustic model generation apparatus 1 records a learning data recording unit 11, a base acoustic model recording unit 12, a learning unit 13, and sufficient statistics that are statistics necessary for calculating acoustic parameters. Sufficient statistics recording unit 14, reinforcement keyword list recording unit 21, reinforcement learning data selection unit 22, reinforcement learning data recording unit 23, reinforcement learning unit 24, reinforcement sufficient statistics recording unit 25, reinforcement model synthesis unit 26, learning It is comprised from the reinforcement | strengthening acoustic model recording part 27 by which the acoustic model which is a later acoustic model is recorded.

<ステップS1>
学習データ記録部11には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデルには、学習前の音響モデルであるベース音響モデルが予め格納されている。
学習部13は、学習データ記録部11から読み出した学習データと、ベース音響モデルから読み出したベース音響モデルとから、十分統計量を計算して十分統計量記録部14に格納する(ステップS1)。
<Step S1>
The learning data recording unit 11 stores in advance a plurality of learning data composed of voice data and a label in which phonemes are associated with the voice data. In the base acoustic model, a base acoustic model that is an acoustic model before learning is stored in advance.
The learning unit 13 calculates a sufficient statistic from the learning data read from the learning data recording unit 11 and the base acoustic model read from the base acoustic model, and stores it in the sufficient statistic recording unit 14 (step S1).

以下、十分統計量について説明する。十分統計量とは、HMMを特徴付けるパラメータであり、遷移確率に関わる統計量、混合正規分布の混合重み、平均、分散に関わる統計量等である。具体的には、音響モデルλと、観測系列Oが与えられたとき、時刻tに状態iに存在し、時刻t+1に状態jに存在する確率ξ(i,j)、また、音響モデルλと観測系列Oが与えられ、状態はN個の状態から構成されるとき、時刻tに状態iに存在する確率γ(i)をそれぞれ、

Figure 2008129527
とする。このとき、音響モデルパラメータである、時刻t=1に状態iに存在すると期待される頻度(回数)π、状態遷移確率aij、状態jで特徴ベクトルvが観測される確率b(k)、状態iのm番目の混合分布に対する混合重み係数cjm、状態iのm番目の混合分布の平均ベクトルμjm、共分散行列Ujmは、例えば、それぞれ次のように定義される。
Figure 2008129527
ここで、プライムはベクトルの転置を表し、γ(i,k)は、観測された特徴量oを考慮したときに、時刻tに状態iのm番目の混合要素に存在する確率である。 Hereinafter, sufficient statistics will be described. Sufficient statistics are parameters that characterize the HMM and include statistics related to transition probabilities, mixing weights of mixed normal distribution, average, statistics related to variance, and the like. Specifically, when an acoustic model λ and an observation sequence O are given, the probability ξ t (i, j) that exists in state i at time t and in state j at time t + 1, and acoustic model λ And an observation sequence O, and the state is composed of N states, the probability γ t (i) existing in the state i at time t is
Figure 2008129527
And At this time, the frequency (number of times) π j that is expected to exist in the state i at time t = 1, the state transition probability a ij , and the probability b j (where the feature vector v k is observed in the state j, which are acoustic model parameters. k), the mixture weight coefficient c jm for the m-th mixture distribution in state i, the mean vector μ jm of the m-th mixture distribution in state i, and the covariance matrix U jm are defined as follows, for example.
Figure 2008129527
Here, the prime denotes the transpose of a vector, gamma t (i, k), when considering the observed feature quantity o t, is the probability that exists m th mixture component of the state i at time t .

このとき、上記式の分子と分母に記載された各数式で定義される値がそれぞれ十分統計量となる。すなわち、aijについては、Σt=1 T−1ξ(i,j)と、Σt=1 T−1γ(i)とがそれぞれ十分統計量となる。また、b(k)についは、Σt=1(s.t. ot=Vk) γ(j)と、Σt=1 γ(j)とがそれぞれ十分統計量となる。cim,μim,Ujkについても同様である。なお、πについては、γ(i)が十分統計量となる。これらの十分統計量は、学習データ記録部11から読み出した学習データを用いて、例えば、Baum−Welchアルゴリズム等の既存のアルゴリズムを用いて推定することができる。Baum−Welchアルゴリズムは、非特許文献2に詳しい。
なお、後述するように、十分統計量は、学習データ記録部11に記録された学習データ毎に計算される。
At this time, the values defined by the mathematical formulas described in the numerator and denominator of the above formula are sufficient statistics. That is, for a ij , Σ t = 1 T−1 ξ t (i, j) and Σ t = 1 T−1 γ t (i) are sufficient statistics. For b j (k), Σt = 1 (st. Ot = Vk) T γ t (j) and Σ t = 1 T γ t (j) are sufficient statistics. The same applies to c im , μ im , and U jk . For π i , γ 1 (i) is a sufficient statistic. These sufficient statistics can be estimated using the learning data read from the learning data recording unit 11 and using an existing algorithm such as a Baum-Welch algorithm, for example. The Baum-Welch algorithm is detailed in Non-Patent Document 2.
As will be described later, a sufficient statistic is calculated for each learning data recorded in the learning data recording unit 11.

<ステップS2>
強化キーワードリスト記録部21には、所定のキーワードのリストが記録されている。所定のキーワードとは、例えば、認識性能を改善したいキーワードや、誤認識キーワードであり、ステップS2の処理に先立ち予め登録しておく。ここで、本発明において、キーワードとは、ひとつの単語に限らず、複数の単語から構成される分節や、キーフレーズをも意味することにする。
<Step S2>
The strengthened keyword list recording unit 21 records a list of predetermined keywords. The predetermined keyword is, for example, a keyword whose recognition performance is to be improved or a misrecognition keyword, and is registered in advance prior to the process of step S2. Here, in the present invention, the keyword is not limited to one word, but also means a segment composed of a plurality of words and a key phrase.

強化学習データ選択部22は、強化キーワードリスト記録部21から読み出したキーワードと同一及び/又は類似のキーワードを含む学習データを、学習データ記録部11から抽出して、強化学習データを作成する(ステップS2)。作成された強化学習データは、強化学習データ記録部23に記録される。   The reinforcement learning data selection unit 22 extracts learning data including the same and / or similar keyword as the keyword read from the reinforcement keyword list recording unit 21 from the learning data recording unit 11 and creates reinforcement learning data (step) S2). The created reinforcement learning data is recorded in the reinforcement learning data recording unit 23.

例えば、強化学習データ選択部22は、ある学習データの一部に所定のキーワードと同一及び/又は類似のキーワードが含まれている場合には、その学習データのうち所定のキーワードと同一及び/又は類似のキーワードに係る部分の学習データを抜き出して強化学習データとする。また、所定のキーワードと同一及び/又は類似のキーワードが含まれている文節や文や発話や発声を抜き出して、強化学習データとしてもよい。さらに、例えば、学習データが、発話・発声毎に作成されている場合には、所定のキーワードと同一及び/又は類似のキーワード含まれている学習データの全体を抜き出して強化学習データを作成しても良い。   For example, when a part of certain learning data includes a keyword that is the same as and / or similar to the predetermined keyword, the reinforcement learning data selection unit 22 is the same as the predetermined keyword in the learning data and / or The learning data of the part related to the similar keyword is extracted and used as reinforcement learning data. In addition, phrases, sentences, utterances, and utterances containing keywords that are the same and / or similar to predetermined keywords may be extracted and used as reinforcement learning data. Further, for example, when learning data is created for each utterance / utterance, the entire learning data including the same and / or similar keyword as the predetermined keyword is extracted to create reinforcement learning data. Also good.

「同一及び/類似のキーワード」とは、同一のキーワードと類似のキーワードの何れか一方のキーワード、又は、同一のキーワードと類似のキーワードの両方のキーワードを意味する。すなわち、「強化キーワードリスト記録部21から読み出したキーワードと同一及び/類似のキーワード」とは、強化キーワードリスト記録部21から読み出したキーワードと同一のキーワードと強化キーワードリスト記録部21から読み出したキーワードと類似のキーワードとの何れか一方のキーワード、又は、強化キーワードリスト記録部21から読み出したキーワードと同一のキーワードと強化キーワードリスト記録部21から読み出したキーワードと類似のキーワードの両方のキーワードを意味する。   The “same and / or similar keyword” means any one keyword of the same keyword and similar keyword, or both the same keyword and similar keyword. That is, “the same and / or similar keyword as the keyword read from the enhanced keyword list recording unit 21” refers to the same keyword as the keyword read from the enhanced keyword list recording unit 21 and the keyword read from the enhanced keyword list recording unit 21. This means either one of the similar keywords, or the same keyword as the keyword read from the enhanced keyword list recording unit 21 and the keyword similar to the keyword read from the enhanced keyword list recording unit 21.

学習データの中に所定のキーワードと同一のキーワードが含まれていない場合に、又は、学習データの中に含まれている、所定のキーワードと同一のキーワードの数が少ない場合に、所定のキーワードと類似のキーワードを含む学習データを抽出することにするとよい。これにより、後述する強化十分統計量の量を確保することができ、認識性能を向上することができる。もちろん、学習データの中に含まれている、所定のキーワードと同一のキーワードの数が多い場合も、所定のキーワードと類似のキーワードを含む学習データを抽出してもよい。   When the learning keyword does not include the same keyword as the predetermined keyword, or when the learning data includes a small number of the same keywords as the predetermined keyword, Learning data including similar keywords may be extracted. As a result, it is possible to secure an amount of an enhanced sufficient statistic, which will be described later, and improve recognition performance. Of course, learning data including a keyword similar to the predetermined keyword may be extracted even when the number of the same keywords as the predetermined keyword included in the learning data is large.

なお、所定のキーワードと同一のキーワードとは、称呼と観念が共通しているキーワードだけではなく、称呼が共通しているが観念が異なるキーワードを含んでもよい。例えば、「雲」と「蜘蛛」は、称呼が「クモ」で共通しているが、観念が異なる。所定のキーワードである「雲」と称呼と観念が共通するキーワード「蜘蛛」が含まれている学習データの数が少ない場合には、「雲」と称呼が共通しているが観念が異なるキーワード「蜘蛛」を含む学習データを抽出することにしてもよい。このように、観念が異なるが称呼が共通するキーワードを含む学習データも抽出することにより、後述する強化十分統計量の量を確保することができ、認識性能を向上することができる。   Note that the same keyword as the predetermined keyword is not limited to a keyword having a common name and concept, but may include a keyword having a common name but a different concept. For example, “clouds” and “蜘蛛” have the same name as “spider” but have different concepts. If there is a small amount of learning data that includes the keyword “蜘蛛” that has the same concept as “cloud” as the predetermined keyword, the keyword “cloud” that has the same name but different concept Learning data including “蜘蛛” may be extracted. As described above, by extracting learning data including keywords having different ideas but having common names, it is possible to secure an amount of a sufficient reinforcement statistic described later and improve recognition performance.

なお、所定のキーワードと類似しているかどうかの類比判断は例えば以下のようにして行うことができる。所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素を比較して、一致する音素の割合が閾値z以上である場合に類似していると判断する。かかる場合には、強化学習データ選択部22の音素系列変換部31が、強化キーワードリスト記録部21から読み出した各キーワードを音素系列に変換する。強化学習データ選択部22は、所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素を比較して、一致する音素の割合が閾値z以上である場合に類似していると判断する。 Note that the similarity determination as to whether or not the keyword is similar to a predetermined keyword can be performed as follows, for example. And phonemes constituting the predetermined keyword, by comparing the phonemes constituting the keywords to be analogy determination, it is determined to be similar if the ratio of the matching phoneme is the threshold value z 1 or more. In such a case, the phoneme sequence conversion unit 31 of the reinforcement learning data selection unit 22 converts each keyword read from the reinforcement keyword list recording unit 21 into a phoneme sequence. The reinforcement learning data selection unit 22 compares the phonemes constituting the predetermined keyword with the phonemes constituting the keyword that is the target of similarity determination, and is similar to the case where the proportion of matching phonemes is equal to or greater than the threshold z 1. Judge that

また、強化学習データ選択部22が、所定のキーワードと、類比判断の対象となるキーワードとについて音韻論上の音素間類似距離を求め、その距離の総和の逆数が閾値z以上であるかどうかにより類比を判断してもよい。かかる場合、音素系列変換部31が所定のキーワードを音素系列に変換し、強化学習データ選択部22の距離計算部32が音韻論上の音素間類似距離を計算する。 Further, the reinforcement learning data selection unit 22 obtains phoneme similarity distances in terms of phonology for a predetermined keyword and a keyword to be compared, and whether the reciprocal of the sum of the distances is greater than or equal to a threshold z 2 The analogy may be determined by In such a case, the phoneme sequence conversion unit 31 converts a predetermined keyword into a phoneme sequence, and the distance calculation unit 32 of the reinforcement learning data selection unit 22 calculates a phoneme similarity distance in phonological theory.

さらに、強化学習データ選択部22が、ベース音響モデル記録部12から読み出したベース音響モデルにおいて、所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素との分布間距離を求め、その距離の総和の逆数が閾値z以上であるかどうかにより類比を判断してもよい。すなわち、分布間距離の和を求めることにより状態間距離を求め、その状態間距離の和を求めることにより音素間の距離を求め、その音素間の距離から類比の判断を行う。かかる場合、音素系列変換部31が強化キーワードリスト記録部21から読み出した所定のキーワードを音素系列に変換し、距離計算部32’が分布間距離を計算する。 Further, in the base acoustic model read out from the base acoustic model recording unit 12 by the reinforcement learning data selection unit 22, the inter-distribution distance between the phonemes constituting the predetermined keyword and the phonemes constituting the keyword to be compared is determined. determined may determine analogy depending on whether the inverse of the sum of the distance is the threshold value z 3 or more. That is, the distance between states is obtained by obtaining the sum of the distances between distributions, the distance between phonemes is obtained by obtaining the sum of the distances between states, and the analogy is judged from the distance between the phonemes. In such a case, the phoneme sequence conversion unit 31 converts a predetermined keyword read from the enhanced keyword list recording unit 21 into a phoneme sequence, and the distance calculation unit 32 ′ calculates the inter-distribution distance.

<ステップS3>
強化学習部24は、強化学習データ記録部23から読み出した強化学習データから、強化十分統計量を計算する(ステップS3)。計算された強化十分統計量は、強化十分統計量記録部25に格納される。
強化十分統計量は、強化学習データ記録部23から読み出した強化学習データに基づいて計算された十分統計量のことである。すなわち、十分統計量と強化十分統計量は、数式で表現した定義は同じであるが、十分統計量は学習データ記録部11から読み出した学習データに基づいて計算されたものであるのに対し、強化十分統計量は強化学習データ記録部23から読み出した強化学習データに基づいて計算されたものである点において異なる。強化十分統計量の計算方法は、ステップS1で説明した十分統計量の計算方法と同様である。
<Step S3>
The reinforcement learning unit 24 calculates a sufficient reinforcement statistic from the reinforcement learning data read from the reinforcement learning data recording unit 23 (step S3). The calculated enhanced sufficient statistic is stored in the enhanced sufficient statistic recording unit 25.
The reinforcement sufficient statistic is a sufficient statistic calculated based on the reinforcement learning data read from the reinforcement learning data recording unit 23. That is, the sufficient statistic and the enhanced sufficient statistic have the same definition expressed by mathematical formulas, but the sufficient statistic is calculated based on the learning data read from the learning data recording unit 11, whereas The reinforcement sufficient statistic is different in that it is calculated based on the reinforcement learning data read from the reinforcement learning data recording unit 23. The method for calculating the enhanced sufficient statistics is the same as the method for calculating the sufficient statistics described in step S1.

<ステップS4>
強化モデル合成部26は、十分統計量記録部14から読み出した十分統計量と、強化十分統計量記録部25から読み出した強化十分統計量に重みをかけたものとから強化音響モデルを生成する(ステップS4)。生成された強化音響モデルは、強化音響モデル記録部27に格納される。
ステップS1の処理において複数の学習データからG個の十分統計量が得られたとする。このとき、十分統計量は、g=1,…,Gとして、

Figure 2008129527
と表現される。 <Step S4>
The reinforced model synthesizing unit 26 generates a reinforced acoustic model from the sufficient statistics read from the sufficient statistic recording unit 14 and the weighted reinforced sufficient statistics read from the reinforced sufficient statistic recording unit 25 ( Step S4). The generated enhanced acoustic model is stored in the enhanced acoustic model recording unit 27.
It is assumed that G sufficient statistics are obtained from a plurality of learning data in the process of step S1. At this time, the sufficient statistics are g = 1,.
Figure 2008129527
It is expressed.

また、ステップS3の処理において複数の強化学習データからH個の強化十分統計量が得られたとする。このとき、強化十分統計量は、h=1,…,Hとして、

Figure 2008129527
と表現される。 Further, it is assumed that H reinforcement sufficient statistics are obtained from a plurality of reinforcement learning data in the process of step S3. At this time, the strengthening sufficient statistics are set as h = 1,.
Figure 2008129527
It is expressed.

このとき、強化モデル合成部26は、下式で各音響パラメータを計算することにより、強化音響モデルを生成する。

Figure 2008129527
At this time, the reinforcement model synthesis unit 26 generates a reinforcement acoustic model by calculating each acoustic parameter using the following equation.
Figure 2008129527

ここで、w(h=1,…,H)は、強化十分統計量にかけられる重みであり1以上の数である。重みw(h=1,…,H)は、同一の値であってもよいし、互いに異なる値であってもよい。例えば、所定のキーワードと同一のキーワードに係る学習データから計算された十分統計量にかける重みを、所定のキーワードと類似のキーワードに係る学習データから計算された強化十分統計量にかける重みよりも大きくすることができる。このように、より信頼性が高いデータにより大きな重みをつけることにより、さらに認識性能を向上させた音響モデルを生成することができる。 Here, w h (h = 1,..., H) is a weight to be applied to the reinforcement sufficient statistics, and is a number of 1 or more. The weights w h (h = 1,..., H) may be the same value or different values. For example, the weight applied to the sufficient statistics calculated from the learning data related to the same keyword as the predetermined keyword is larger than the weight applied to the enhanced sufficient statistics calculated from the learning data related to the keyword similar to the predetermined keyword. can do. In this way, an acoustic model with further improved recognition performance can be generated by assigning a greater weight to more reliable data.

≪変形例等≫
図1に破線で示すように、生成された音響モデルの認識性能を評価する評価部41、強化十分統計量にかける適切な重みを計算する重み決定部40、評価対象データを近似した開発データが記録された開発データ記録部42を設けて、強化十分統計量にかける適切な重みを決定するようにしてもよい。
≪Modifications etc.≫
As shown by a broken line in FIG. 1, an evaluation unit 41 that evaluates the recognition performance of the generated acoustic model, a weight determination unit 40 that calculates an appropriate weight to be applied to the enhanced sufficient statistics, and development data that approximates the evaluation target data A recorded development data recording unit 42 may be provided to determine an appropriate weight to be applied to the enhanced sufficient statistics.

音響モデル生成装置1は、予め定められた複数の重みに基づいてそれぞれ強化音響モデルを生成して、強化音響モデル記録部27に格納する。評価部41は、生成された強化音響モデル毎に、開発データ記録部42から読み出した、評価対象データを近似した開発データについての認識精度を調べ、その認識精度についての評価値を重み決定部40に出力する。重み決定部40は、最も良い認識精度が得られた強化音響モデルに対応した重みを決定する。すなわち、重み決定部40は、最も高い評価値が得られた強化音響モデルを生成するために用いた重みを選択して、その重みを強化モデル合成部26に設定する。重み決定部40で決定された重みについての情報は、強化モデル合成部26に出力される。   The acoustic model generation device 1 generates a reinforced acoustic model based on a plurality of predetermined weights and stores the reinforced acoustic model in the reinforced acoustic model recording unit 27. The evaluation unit 41 checks the recognition accuracy of the development data approximated to the evaluation target data read out from the development data recording unit 42 for each generated enhanced acoustic model, and the weight determination unit 40 uses the evaluation value for the recognition accuracy. Output to. The weight determination unit 40 determines the weight corresponding to the reinforced acoustic model with the best recognition accuracy. That is, the weight determination unit 40 selects a weight used for generating the enhanced acoustic model that has obtained the highest evaluation value, and sets the weight in the enhanced model synthesis unit 26. Information about the weight determined by the weight determination unit 40 is output to the strengthened model synthesis unit 26.

また、閾値決定部43を設けて、強化学習データ選択部22の処理で用いる閾値についての適切な値を決定することができる。適切な閾値の決定方法は、上記説明した適切な重みの決定方法と同様である。すなわち、予め定められた複数の閾値に基づいてそれぞれ生成された強化音響モデル毎に、開発データについての認識精度を調べ、最も良い認識精度が得られた強化音響モデルを生成するために用いた閾値を、強化学習データ選択部22で用いる閾値として設定する。なお、図1において、閾値決定部43から出力され強化学習データ選択部22に入力されているアスタリスク「*」は、閾値決定部43で決定された閾値についての情報が、強化学習データ選択部22に入力されることを意味する。   Moreover, the threshold value determination part 43 can be provided and the appropriate value about the threshold value used by the process of the reinforcement learning data selection part 22 can be determined. A method for determining an appropriate threshold is the same as the method for determining an appropriate weight described above. That is, for each of the enhanced acoustic models generated based on a plurality of predetermined threshold values, the threshold value used to check the recognition accuracy of the development data and generate the enhanced acoustic model with the best recognition accuracy. Is set as a threshold used in the reinforcement learning data selection unit 22. In FIG. 1, the asterisk “*” output from the threshold determination unit 43 and input to the reinforcement learning data selection unit 22 indicates that the information about the threshold determined by the threshold determination unit 43 is the reinforcement learning data selection unit 22. It means that it is input to.

なお、ステップS1の処理よりも、ステップS2とS3の処理を先に行ってもよいし、ステップS1の処理と、ステップS2とS3の処理を並列して行ってもよい。
上記音響モデル生成装置1の処理機能をコンピュータによって実現することができる。この場合、音響モデル生成装置1の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図5に示すようなコンピュータで実行することにより、上記音響モデル生成装置1の処理機能がコンピュータ上で実現される。
In addition, the process of step S2 and S3 may be performed before the process of step S1, and the process of step S1 and the process of step S2 and S3 may be performed in parallel.
The processing function of the acoustic model generation device 1 can be realized by a computer. In this case, the content of the processing function of the acoustic model generation device 1 is described by a program. Then, by executing this program on a computer as shown in FIG. 5, the processing function of the acoustic model generation device 1 is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is provided for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル生成装置1を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である音響モデル生成装置、方法、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
In this embodiment, the acoustic model generation apparatus 1 is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware. .
In addition to the above embodiments, the acoustic model generation device, method, program, and recording medium according to the present invention are not limited to the above-described embodiments, and can be appropriately changed without departing from the spirit of the present invention. It is.

[実験例]
学習データ全45264発話から、開発データにおける音声認識結果から誤認識となった6つのキーワードを含む2718発話を選択し、強化十分統計量の重みを50倍とし、ベースとなる十分統計量と統合(マージ)して作成した強化音響モデルを用いることで、キーワード再現率を82.4%から83.6%へと改善した(誤り削減率6.5%)。
[Experimental example]
From all the learning data 45264 utterances, 2718 utterances containing 6 keywords that were misrecognized from the speech recognition results in the development data are selected, and the weight of the reinforcement sufficient statistic is multiplied by 50 and integrated with the base sufficient statistic ( The keyword reproduction rate was improved from 82.4% to 83.6% (error reduction rate 6.5%) by using the enhanced acoustic model created by merging.

本発明による音響モデル生成装置の機能構成を例示する図。The figure which illustrates the function structure of the acoustic model production | generation apparatus by this invention. 本発明による音響モデル生成装置の処理を例示する図。The figure which illustrates the process of the acoustic model production | generation apparatus by this invention. 従来技術による音響モデル生成装置の機能構成を例示する図。The figure which illustrates the function structure of the acoustic model production | generation apparatus by a prior art. 従来技術による音響モデル生成装置の処理を例示する図。The figure which illustrates the process of the acoustic model production | generation apparatus by a prior art. 本発明による音響モデル生成装置をコンピュータに実行させる場合の機能構成を例示する図。The figure which illustrates the functional structure in the case of making a computer perform the acoustic model production | generation apparatus by this invention.

符号の説明Explanation of symbols

1 音響モデル生成装置
9 音響モデル生成装置
11 学習データ記録部
12 ベース音響モデル記録部
13 学習部
14 十分統計量記録部
15 モデル合成部
16 音響モデル記録部
21 強化キーワードリスト記録部
22 強化学習データ選択部
23 強化学習データ記録部
24 強化学習部
25 強化十分統計量記録部
26 強化モデル合成部
27 強化音響モデル記録部
31 音素系列変換部
32 距離計算部
40 決定部
41 評価部
42 開発データ記録部
43 閾値決定部
DESCRIPTION OF SYMBOLS 1 Acoustic model production | generation apparatus 9 Acoustic model production | generation apparatus 11 Learning data recording part 12 Base acoustic model recording part 13 Learning part 14 Sufficient statistics recording part 15 Model synthetic | combination part 16 Acoustic model recording part 21 Reinforcement keyword list recording part 22 Reinforcement learning data selection Unit 23 Reinforcement learning data recording unit 24 Reinforcement learning unit 25 Reinforcement sufficient statistics recording unit 26 Reinforcement model synthesis unit 27 Reinforcement acoustic model recording unit 31 Phoneme sequence conversion unit 32 Distance calculation unit 40 Determination unit 41 Evaluation unit 42 Development data recording unit 43 Threshold determination unit

Claims (10)

学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習手段と、
所定のキーワードと同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択手段と、
上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習手段と、
上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成手段と、
を有する音響モデル生成装置。
Learning means for calculating sufficient statistics from the learning data read from the learning data recording means and the base acoustic model;
Reinforcement learning data selection means that extracts learning data including the same and / or similar keywords as the predetermined keyword from the learning data recording means, and uses it as reinforcement learning data;
Reinforcement learning means for calculating reinforcement sufficient statistics from the reinforcement learning data and the base acoustic model,
Enhanced model synthesis means for generating a reinforced acoustic model from the sufficient statistic and the weighted reinforced sufficient statistic;
An acoustic model generation device having:
請求項1に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列を音素毎に一致しているかどうかを比較することにより、上記所定のキーワードと同一及び/又は類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。
The acoustic model generation device according to claim 1,
The reinforcement learning data selection means is:
The predetermined keyword is converted into a phoneme sequence, and the same and / or similar keyword as the predetermined keyword is determined by comparing whether the converted phoneme sequence matches another phoneme sequence for each phoneme. A means for extracting learning data including
An acoustic model generation device characterized by that.
請求項1に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードと、類比判断の対象となるキーワードとについて音韻論上の音素間類似距離を求めることにより、上記所定のキーワードと同一及び/類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。
The acoustic model generation device according to claim 1,
The reinforcement learning data selection means is:
A means for extracting learning data including a keyword that is the same as and / or similar to the predetermined keyword by obtaining a similar distance between phonemes in phonology for the predetermined keyword and a keyword to be compared;
An acoustic model generation device characterized by that.
請求項1に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列の、上記ベース音響モデルにおける音素毎の分布間距離の和を計算することにより、上記所定のキーワードと同一及び/又は類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。
The acoustic model generation device according to claim 1,
The reinforcement learning data selection means is:
By converting the predetermined keyword into a phoneme sequence and calculating the sum of the distance between distributions for each phoneme in the base acoustic model of the converted phoneme sequence and other phoneme sequences, It is a means for extracting learning data containing similar keywords.
An acoustic model generation device characterized by that.
請求項1から4の何れかに記載の音響モデル生成装置において、
上記所定のキーワードと同一のキーワードには、観念が異なるが称呼が共通しているキーワードが含まれる、
ことを特徴とする音響モデル生成装置。
In the acoustic model generation device according to any one of claims 1 to 4,
The same keyword as the predetermined keyword includes keywords that have different ideas but have common names.
An acoustic model generation device characterized by that.
請求項1から5の何れかに記載の音響モデル生成装置において、
上記強化モデル合成手段における、上記所定のキーワードと同一のキーワードを含む学習データから計算された強化十分統計量にかける重みの方が、上記所定のキーワードと類似のキーワードを含む学習データから計算された強化十分統計量にかける重みよりも大きい、
ことを特徴とする音響モデル生成装置。
In the acoustic model generation device according to any one of claims 1 to 5,
The weight applied to the reinforcement sufficient statistic calculated from the learning data including the same keyword as the predetermined keyword in the reinforcing model synthesizing means is calculated from the learning data including a keyword similar to the predetermined keyword. Is larger than the weight applied to the statistic
An acoustic model generation device characterized by that.
請求項1から6の何れかに記載の音響モデル生成装置において、
請求項1から6の何れかに記載の音響モデル生成装置により複数の重みに基づいてそれぞれ生成された強化音響モデル毎に、評価対象データを近似したデータについての認識精度を調べ、最も良い認識精度が得られた強化音響モデルに対応した重みを、上記強化十分統計量にかける重みとする重み決定手段を有する、
ことを特徴とする音響モデル生成装置。
In the acoustic model generation device according to any one of claims 1 to 6,
7. The recognition accuracy of the data approximating the evaluation target data is checked for each of the enhanced acoustic models generated by the acoustic model generation device according to claim 1 based on a plurality of weights, and the best recognition accuracy is obtained. A weight determination means for setting the weight corresponding to the enhanced acoustic model obtained as a weight to be applied to the sufficient reinforcement statistic.
An acoustic model generation device characterized by that.
学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習ステップと、
所定のキーワードと同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択ステップと、
上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習ステップと、
上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成ステップと、
を有する音響モデル生成方法。
A learning step for calculating sufficient statistics from the learning data read from the learning data recording means and the base acoustic model;
Reinforcement learning data selection step of extracting learning data including the same and / or similar keyword as a predetermined keyword from the learning data recording means and using it as reinforcement learning data;
A reinforcement learning step of calculating a reinforcement sufficient statistic from the reinforcement learning data and the base acoustic model;
A reinforcement model synthesis step for generating a reinforcement acoustic model from the sufficient statistics and the weighting of the reinforcement sufficient statistics;
An acoustic model generation method comprising:
請求項1から7に記載の何れかの音響モデル生成装置の各手段としてコンピュータを機能させるための音響モデル生成プログラム。   The acoustic model generation program for functioning a computer as each means of the acoustic model generation apparatus in any one of Claims 1-7. 請求項9に記載の音響モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the acoustic model generation program according to claim 9 is recorded.
JP2006317361A 2006-11-24 2006-11-24 Acoustic model generation apparatus, method, program, and recording medium thereof Expired - Fee Related JP4705557B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006317361A JP4705557B2 (en) 2006-11-24 2006-11-24 Acoustic model generation apparatus, method, program, and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006317361A JP4705557B2 (en) 2006-11-24 2006-11-24 Acoustic model generation apparatus, method, program, and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2008129527A true JP2008129527A (en) 2008-06-05
JP4705557B2 JP4705557B2 (en) 2011-06-22

Family

ID=39555354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006317361A Expired - Fee Related JP4705557B2 (en) 2006-11-24 2006-11-24 Acoustic model generation apparatus, method, program, and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4705557B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010096899A (en) * 2008-10-15 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for creating acoustic model, program and recording medium
WO2010050414A1 (en) * 2008-10-31 2010-05-06 日本電気株式会社 Model adaptation device, method thereof, and program thereof
WO2020183864A1 (en) * 2019-03-13 2020-09-17 株式会社明電舎 Learning system and learning method for operation inference learning model for controlling automatic driving robot
JP2021033228A (en) * 2019-08-29 2021-03-01 株式会社東芝 Information processing device, keyword detection device, information processing method, and program
CN115831100A (en) * 2023-02-22 2023-03-21 深圳市友杰智新科技有限公司 Voice command word recognition method, device, equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104779A (en) * 1993-10-01 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> Voice recognizing method
JP2000352993A (en) * 1999-06-14 2000-12-19 Oki Electric Ind Co Ltd Voice recognition system and learning method of hidden markov model
JP2002372987A (en) * 2001-06-13 2002-12-26 Nec Corp Acoustic model learning device, acoustic model learning method, and program for the same
JP2003099086A (en) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> Method, device and program for generating language/ acoustic model
JP2004317845A (en) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst Model data generation device, model data generation method, and method therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104779A (en) * 1993-10-01 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> Voice recognizing method
JP2000352993A (en) * 1999-06-14 2000-12-19 Oki Electric Ind Co Ltd Voice recognition system and learning method of hidden markov model
JP2002372987A (en) * 2001-06-13 2002-12-26 Nec Corp Acoustic model learning device, acoustic model learning method, and program for the same
JP2003099086A (en) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> Method, device and program for generating language/ acoustic model
JP2004317845A (en) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst Model data generation device, model data generation method, and method therefor

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010096899A (en) * 2008-10-15 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for creating acoustic model, program and recording medium
WO2010050414A1 (en) * 2008-10-31 2010-05-06 日本電気株式会社 Model adaptation device, method thereof, and program thereof
JP5376341B2 (en) * 2008-10-31 2013-12-25 日本電気株式会社 Model adaptation apparatus, method and program thereof
WO2020183864A1 (en) * 2019-03-13 2020-09-17 株式会社明電舎 Learning system and learning method for operation inference learning model for controlling automatic driving robot
JP2021033228A (en) * 2019-08-29 2021-03-01 株式会社東芝 Information processing device, keyword detection device, information processing method, and program
CN112447176A (en) * 2019-08-29 2021-03-05 株式会社东芝 Information processing apparatus, keyword detection apparatus, and information processing method
JP7098587B2 (en) 2019-08-29 2022-07-11 株式会社東芝 Information processing device, keyword detection device, information processing method and program
CN115831100A (en) * 2023-02-22 2023-03-21 深圳市友杰智新科技有限公司 Voice command word recognition method, device, equipment and storage medium

Also Published As

Publication number Publication date
JP4705557B2 (en) 2011-06-22

Similar Documents

Publication Publication Date Title
US8301450B2 (en) Apparatus, method, and medium for dialogue speech recognition using topic domain detection
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
JP5072206B2 (en) Hidden conditional random field model for speech classification and speech recognition
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US7103544B2 (en) Method and apparatus for predicting word error rates from text
US8224648B2 (en) Hybrid approach in voice conversion
JP5752060B2 (en) Information processing apparatus, large vocabulary continuous speech recognition method and program
JP6552999B2 (en) Text correction device, text correction method, and program
JP2004226982A (en) Method for speech recognition using hidden track, hidden markov model
JP4705557B2 (en) Acoustic model generation apparatus, method, program, and recording medium thereof
JP2018081169A (en) Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program
JP4829871B2 (en) Learning data selection device, learning data selection method, program and recording medium, acoustic model creation device, acoustic model creation method, program and recording medium
JP2010139745A (en) Recording medium storing statistical pronunciation variation model, automatic voice recognition system, and computer program
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP4964194B2 (en) Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof
JP2007078943A (en) Acoustic score calculating program
JP6542823B2 (en) Acoustic model learning device, speech synthesizer, method thereof and program
JP4881357B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP2009300716A (en) Speech recognition device and its method, and program and its recording medium
JP2020129099A (en) Estimation device, estimation method and program
JP4801107B2 (en) Voice recognition apparatus, method, program, and recording medium thereof
JP6006678B2 (en) Speech model generation apparatus, method, and program
JP4801108B2 (en) Voice recognition apparatus, method, program, and recording medium thereof
JP5369079B2 (en) Acoustic model creation method and apparatus and program thereof
JP5155811B2 (en) Acoustic model creation method, apparatus, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110311

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees