JP2010145784A - Voice recognizing device, acoustic model learning apparatus, voice recognizing method, and program - Google Patents

Voice recognizing device, acoustic model learning apparatus, voice recognizing method, and program Download PDF

Info

Publication number
JP2010145784A
JP2010145784A JP2008323495A JP2008323495A JP2010145784A JP 2010145784 A JP2010145784 A JP 2010145784A JP 2008323495 A JP2008323495 A JP 2008323495A JP 2008323495 A JP2008323495 A JP 2008323495A JP 2010145784 A JP2010145784 A JP 2010145784A
Authority
JP
Japan
Prior art keywords
likelihood
recognition
acoustic model
group
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008323495A
Other languages
Japanese (ja)
Other versions
JP5315976B2 (en
Inventor
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2008323495A priority Critical patent/JP5315976B2/en
Publication of JP2010145784A publication Critical patent/JP2010145784A/en
Application granted granted Critical
Publication of JP5315976B2 publication Critical patent/JP5315976B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To accurately perform voice recognition using hidden Markov model. <P>SOLUTION: A feature amount extracting means 111 assigns a frame to input voice, and extracts the feature amount for each frame. A cumulative likelihood calculating means 113, using a hidden Markov model, calculates cumulative likelihood for each state in each frame. At this time, normal likelihood operation is performed in a frame showing consonant, and likelihood operation is performed for a group obtained by collecting similar models in a frame showing vowel. After a group providing a maximum cumulative likelihood is determined, the likelihood operation is performed only for the group. Thus, consonant with small individual difference between speakers is separated from vowel with large individual difference, recognition considering individual difference is performed only for vowel, and as a result, the accuracy of voice recognition processing is increased. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、音声認識装置、音響モデル学習装置、音声認識方法、および、プログラムに関し、特に、隠れマルコフモデルを用いた音声認識を高精度に行うことができる音声認識装置、音響モデル学習装置、音声認識方法、および、プログラムに関する。   The present invention relates to a speech recognition device, an acoustic model learning device, a speech recognition method, and a program, and in particular, a speech recognition device, an acoustic model learning device, and a speech that can perform speech recognition using a hidden Markov model with high accuracy. The present invention relates to a recognition method and a program.

機械的な音声認識は、一つの音、例えば、「あ」だけを認識するのであれば、以下の手法で行うこともできる。
まず、音声信号波形に対して所定長のフレーム(時間窓)を設定し、各フレームから数値的な特徴量を抽出する。
そして、各フレームで抽出された特徴量と、標準パターンである音響モデルとを比較する。
その比較の結果、その特徴量と一致する音響モデルの音を認識結果とする。
Mechanical speech recognition can also be performed by the following method if only one sound, for example, “A” is recognized.
First, a frame (time window) having a predetermined length is set for the audio signal waveform, and a numerical feature amount is extracted from each frame.
And the feature-value extracted in each flame | frame is compared with the acoustic model which is a standard pattern.
As a result of the comparison, the sound of the acoustic model that matches the feature amount is set as the recognition result.

例えば、日本語の母音には、「あ」、「い」、「う」、「え」、「お」の5音があり、マイクロフォンで捉えて電気信号に変換された波形から抽出された特徴量が「あ」の音響モデルと一致すれば、「あ」を認識結果とする。   For example, there are five Japanese vowels, “A”, “I”, “U”, “E”, and “O”, which are extracted from a waveform that is captured by a microphone and converted into an electrical signal. If the amount matches the acoustic model “A”, “A” is taken as the recognition result.

ここで、音響モデルとは、「あ」は、この特徴量、「い」は、この特徴量、という具合に予め用意されている特徴量である。また、このような用意をしておくことは音響モデルの学習に相当する。   Here, the acoustic model is a feature amount prepared in advance such that “A” is the feature amount, and “I” is the feature amount. Such preparation is equivalent to learning of an acoustic model.

しかしながら、このような音響モデルは、個人用の認識装置であれば、その個人が装置に学習させておけばよいが、音声認識は、例えば、公共の機関での電話応対とか、不特定人が使用するディクテーション装置のように、未知の人物の声を認識することが必要な場合もある。   However, if such an acoustic model is a personal recognition device, it is sufficient that the individual learns the device. However, for example, voice recognition can be performed by a telephone in a public institution or by an unspecified person. It may be necessary to recognize the voice of an unknown person, such as the dictation device used.

そのため、なるべく多数の人の声から学習した音響モデルを用意する。その場合、「あ」は、この数値範囲、「い」は、この数値範囲、という具合に、音響モデルは数値範囲で用意され、音声認識は、マイクロフォンを通じて得られた特徴量が、この数値範囲に入れば、「あ」、この数値範囲に入れば、「い」という具合に決められる。   Therefore, an acoustic model learned from the voices of as many people as possible is prepared. In that case, “A” is this numerical range, “I” is this numerical range, and so on, and the acoustic model is prepared in the numerical range. For voice recognition, the feature value obtained through the microphone is the numerical range. If it enters, it will be decided as "A", if it enters this numerical range, it will be decided as "I".

ところが、人の話す音声を認識する場合では、音素の連続を認識することとなり、同じ「あ」という音素でも、その前後の音素とのつながりによって上述した特徴量は異なった数値を取る。このため、音声認識において、上述した手法は使うことができない。   However, when recognizing a voice spoken by a person, the continuation of phonemes is recognized, and the above-described feature amount takes different numerical values depending on the connection with the phonemes before and after the same phoneme “A”. For this reason, the above-described method cannot be used in speech recognition.

一般に、音声認識では、音素の連続を、ある定常状態から他の定常状態への遷移として捉え、この遷移がいわゆるマルコフ過程であるとし、音響モデルとして「隠れマルコフモデル」(Hidden Malkov Model:以下「HMM」とする)を用いる統計的な手法により音声信号からその信号が出力される元となった言葉を確率的に推定する。   In general, in speech recognition, a phoneme sequence is regarded as a transition from one steady state to another steady state, and this transition is a so-called Markov process. As an acoustic model, a “Hidden Malkov Model” (hereinafter “Hidden Malkov Model”) The word from which the signal is output is stochastically estimated from the speech signal by a statistical method using “HMM”.

この手法では、いずれのHMMに対応する特徴量が最も高い確率で出力されるかを示す尤度が計算され、その確率を最大とするHMMに対応する単語を音声認識結果として出力する。このような音声認識の手法は、例えば、特許文献1などに開示されている。   In this method, a likelihood indicating which feature quantity corresponding to which HMM is output with the highest probability is calculated, and a word corresponding to the HMM having the maximum probability is output as a speech recognition result. Such a speech recognition method is disclosed in, for example, Patent Document 1.

この尤度計算は、例えば、以下のガウス分布の数式(1)を演算することで求められる。   This likelihood calculation is calculated | required by calculating the following numerical formula (1) of Gaussian distribution, for example.

(Y;μ,Σ
={1/√((2π)n|Σ|)}exp(−1/2(yt−μtΣ−1(yt−μt))
J:状態数 t:time
(1)
P m (Y; μ m , Σ m )
= {1 / √ ((2π ) n | Σ j |)} exp (-1/2 (y t -μ t) T Σ -1 (y t -μ t))
J: Number of states t: time
(1)

そして、算出された各HMM毎の尤度を、前フレームで計算された累積尤度値の最大値に対して累積するというビタビアルゴリズムにより、累積尤度値を更新する。   Then, the cumulative likelihood value is updated by a Viterbi algorithm in which the calculated likelihood for each HMM is accumulated with respect to the maximum value of the cumulative likelihood value calculated in the previous frame.

上記のような演算を行う音声認識において、HMMは大量の発声データからの学習により作成される。特に、不特定話者を対象とする音声認識では、発声データは年齢層や性別などについて幅広く収集される。この結果、あらゆる人の音声が認識できる。   In speech recognition that performs the above-described calculation, the HMM is created by learning from a large amount of utterance data. In particular, in speech recognition for unspecified speakers, utterance data is collected widely for age groups, genders, and the like. As a result, the speech of any person can be recognized.

ところが、あらゆる人の音声が認識できる反面、各音素についてHMMの数値の取り得る範囲(実際は、多数次元のベクトルの範囲)が広がり、その結果、認識の精度が下がる可能性があった。   However, while the speech of any person can be recognized, the range that can be taken by the HMM values for each phoneme (actually, the range of a multidimensional vector) is expanded, and as a result, the recognition accuracy may be reduced.

特開2001−356790号公報JP 2001-356790 A

本発明は上記実状に鑑みてなされたもので、隠れマルコフモデル(HMM)を用いる音声認識を高精度に行うことを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to perform speech recognition using a hidden Markov model (HMM) with high accuracy.

上記目的を達成するため、本発明の第1の観点に係る音声認識装置は、
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、複数の母音認識用の音響モデルと、を記憶した記憶部と、
入力された音声について複数の所定長フレーム毎に抽出した特徴量と、前記記憶部に記憶された各音響モデルとに基づいて、前記入力された音声についての各音素の状態遷移確率を算出する確率算出手段と、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出手段と、
当該フレームより前のフレームで算出された尤度の累積値を順次算出する累積尤度算出手段と、
前記累積尤度算出手段が算出した累積尤度に基づいて、前記入力された音声の認識を行う音声認識手段と、
を備えたことを特徴とする。
In order to achieve the above object, a speech recognition apparatus according to the first aspect of the present invention provides:
A storage unit that stores an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Probability of calculating the state transition probability of each phoneme for the input speech based on the feature quantity extracted for each of the plurality of predetermined long frames for the input speech and each acoustic model stored in the storage unit A calculation means;
A likelihood calculating means for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating means for sequentially calculating a cumulative value of likelihood calculated in a frame before the frame;
Speech recognition means for recognizing the input speech based on the cumulative likelihood calculated by the cumulative likelihood calculation means;
It is provided with.

このように、音響モデルを分けたのは、次の理由による。まず、子音認識用と、母音認識用とに分けたのは、子音が話者による個人差が少ない反面、母音は声帯の影響による個人差が大きいからである。また、母音認識用の音響モデルを複数に分けたのは、母音の個人差に対応するためである。   The reason why the acoustic models are divided in this way is as follows. First, the consonant recognition and the vowel recognition are divided because the consonant has a small individual difference among speakers, whereas the vowel has a large individual difference due to the influence of the vocal cords. The reason why the acoustic model for vowel recognition is divided into a plurality is to deal with individual differences in vowels.

上記音声認識装置において、
各フレームの音声が母音であるか子音であるかを判別するフレーム識別手段と、
入力される音声が母音である場合に、前記母音認識用の音響モデルを学習したグループを決定するグループ決定手段と、
を備えることが望ましい。
In the above speech recognition apparatus,
Frame identification means for determining whether the voice of each frame is a vowel or a consonant;
Group determination means for determining a group that has learned the acoustic model for vowel recognition when the input speech is a vowel;
It is desirable to provide.

これは、所定数以上の母音が認識された後は、グループを決定して効率的な認識処理をすることが望ましいためである。   This is because after a predetermined number of vowels have been recognized, it is desirable to determine a group and perform efficient recognition processing.

上記目的を達成するため、本発明の第2の観点に係る音響モデル学習装置は、
全音声データから学習する、子音認識用の音響モデルと、各グループ別の音声データから学習する、各グループ毎の母音認識用の音響モデルと、を記憶する記憶部と、
母音認識用の音響モデルのグループ数を指定するグループ数指定手段と、
前記母音認識用の音響モデルのグループ間の距離を算出する距離算出手段と、
最短距離の2つのグループを1つのグループとするグループ化手段と、
全グループ数が指定された数以下になったかを判定するグループ数判定手段と、
を備えたことを特徴とする。
In order to achieve the above object, an acoustic model learning device according to the second aspect of the present invention provides:
A storage unit that stores an acoustic model for consonant recognition that learns from all speech data, and an acoustic model for vowel recognition for each group that learns from speech data for each group,
A group number specifying means for specifying the number of groups of an acoustic model for vowel recognition;
Distance calculating means for calculating a distance between groups of the acoustic model for vowel recognition;
Grouping means for making two groups of the shortest distance into one group;
A group number determination means for determining whether the total number of groups is equal to or less than a specified number;
It is provided with.

上記目的を達成するため、本発明の第3の観点に係る音声認識方法は、
所定の装置による音響モデルを用いた音声認識を高精度化する音声認識方法であって、
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を取得するモデル取得ステップと、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出する特徴量抽出ステップと、
各フレームにおいて抽出された特徴量に基づいて、前記対象音声についての各音素の状態遷移確率を算出する確率算出ステップと、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出ステップと、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出する累積尤度算出ステップと、
前記算出された累積尤度に基づいて音声認識を行う音声認識ステップと、
を備えたことを特徴とする。
In order to achieve the above object, a speech recognition method according to a third aspect of the present invention includes:
A speech recognition method for improving accuracy of speech recognition using an acoustic model by a predetermined device,
A model acquisition step of acquiring an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
A feature amount extraction step for setting a plurality of predetermined length frames at a predetermined cycle for the target speech and extracting a feature amount for each frame;
A probability calculating step of calculating a state transition probability of each phoneme for the target speech based on the feature amount extracted in each frame;
A likelihood calculating step for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating step for sequentially calculating the cumulative likelihood based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame;
A speech recognition step for performing speech recognition based on the calculated cumulative likelihood;
It is provided with.

上記目的を達成するため、本発明の第4の観点に係るプログラムは、
コンピュータを
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を記憶し、
対象音声を取り込み、該取り込んだ音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出し、
各フレームにおいて抽出された特徴量に基づいて、状態遷移確率を算出し、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出し、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出し、
前記算出された累積尤度に基づいて音声認識を行う、
ことを特徴とする音声認識装置として機能させる。
In order to achieve the above object, a program according to the fourth aspect of the present invention provides:
Storing an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Capture the target voice, set a plurality of predetermined length frames for the captured voice in a predetermined cycle, extract the feature amount for each frame,
Based on the feature amount extracted in each frame, the state transition probability is calculated,
Accumulate the calculated state transition probabilities, calculate the likelihood for each acoustic model,
Based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame, the cumulative likelihood is sequentially calculated,
Performing speech recognition based on the calculated cumulative likelihood,
It is made to function as a voice recognition device characterized by this.

本発明によれば、隠れマルコフモデル(HMM)を用いた音声認識を高精度に行うことができる。   According to the present invention, speech recognition using a hidden Markov model (HMM) can be performed with high accuracy.

本発明に係る実施の形態を、以下図面を参照して説明する。   Embodiments according to the present invention will be described below with reference to the drawings.

(実施形態1)
(音声認識装置)
図1は、本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。図示するように、音声認識装置100は、制御部110と、入力制御部1 20と、出力制御部130と、プログラム格納部140と、記憶部150と、から構成される。
(Embodiment 1)
(Voice recognition device)
FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention. As shown in the figure, the speech recognition apparatus 100 includes a control unit 110, an input control unit 120, an output control unit 130, a program storage unit 140, and a storage unit 150.

制御部110は、例えば、CPU(Central Processing Unit:中央演算処理装置)やワークエリアとなる所定の記憶装置(RAM(Random Access Memory)など)から構成され、音声認識装置100の各部を制御するとともに、プログラム格納部140に格納されている所定の動作プログラムに基づいて後述する各処理を実行する。   The control unit 110 includes, for example, a CPU (Central Processing Unit) and a predetermined storage device (RAM (Random Access Memory)) serving as a work area, and controls each unit of the speech recognition apparatus 100. Each process to be described later is executed based on a predetermined operation program stored in the program storage unit 140.

入力制御部120は、例えば、PCM(Pulse Code Modulation)などのサンプリングを行うADC(Analog Digital Converter:アナログ−デジタル変換器)などから構成され、マイクロフォンなどの所定の入力装置12から入力されたアナログ音声信号をデジタル信号に変換する。   The input control unit 120 includes, for example, an ADC (Analog Digital Converter) that performs sampling such as PCM (Pulse Code Modulation) and the like, and analog audio input from a predetermined input device 12 such as a microphone. Convert the signal to a digital signal.

出力制御部130は、例えば、スピーカやディスプレイ装置などの所定の出力装置13を接続し、制御部110による音声認識結果などを出力装置13から出力する。   The output control unit 130 connects, for example, a predetermined output device 13 such as a speaker or a display device, and outputs a voice recognition result or the like by the control unit 110 from the output device 13.

プログラム格納部140は、例えば、ROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置などの所定の記憶装置から構成され、制御部110が実行する種々の動作プログラムが格納されている。プログラム格納部140には、以下のような動作プログラムが格納されている。後述する音声認識装置100の各処理は、制御部110がこれらの動作プログラムを実行することで実現される。   The program storage unit 140 includes a predetermined storage device such as a ROM (Read Only Memory), a flash memory, and a hard disk device, for example, and stores various operation programs executed by the control unit 110. The program storage unit 140 stores the following operation programs. Each process of the speech recognition apparatus 100 to be described later is realized by the control unit 110 executing these operation programs.

(1)「特徴量抽出プログラム」:入力制御部120で変換された音声信号の特徴量(特徴パラメータ)を抽出するプログラム
(2)「尤度算出プログラム」: 各フレーム毎の尤度を算出するとともに、累積尤度を算出するプログラム
(3)「音声認識プログラム」: 算出された累積尤度と音響モデルとに基づいて音声認識するプログラム
(1) “feature amount extraction program”: a program for extracting feature amounts (feature parameters) of the audio signal converted by the input control unit 120 (2) “likelihood calculation program”: calculating the likelihood for each frame And a program (3) “voice recognition program” for calculating cumulative likelihood: a program for voice recognition based on the calculated cumulative likelihood and an acoustic model

制御部110は、プログラム格納部140に格納されている上記各プログラムを実行することにより、図2に示すように、特徴量抽出手段111、尤度算出手段112、累積尤度算出手段113、ノード作成手段114、音声認識手段115、として機能する。図2は、制御部110の機能を模式的に示す機能ブロック図である。   As shown in FIG. 2, the control unit 110 executes each program stored in the program storage unit 140, so that the feature amount extraction unit 111, likelihood calculation unit 112, cumulative likelihood calculation unit 113, node It functions as the creation unit 114 and the voice recognition unit 115. FIG. 2 is a functional block diagram schematically showing functions of the control unit 110.

特徴量抽出手段111は、入力制御部120で変換された音声信号に対し、複数の所定長のフレームを所定周期で設定し、各フレーム毎のパワー成分(特徴量)を抽出する。   The feature amount extraction unit 111 sets a plurality of predetermined length frames at a predetermined period for the audio signal converted by the input control unit 120, and extracts a power component (feature amount) for each frame.

尤度算出手段112は、各フレーム毎に抽出された特徴量と、後述する音響モデル格納部153に格納されている隠れマルコフモデル(HMM)とを比較することで、各フレーム毎の連続音素認識を行い、各HMM毎の状態遷移確率(尤度)を算出する。ここでは、各音素毎に所定の状態数が予め定められており、各音素のある状態からどの状態に遷移するかの確率を、取得された特徴量とHMMとを比較することで求める。例えば、「はちのへ」という単語の音素は「h・a・c h・i・n・o・h・e」となるが、状態数を「3 」とした場合、各音素を「h1,h2,h3」「a1,a2,a3」「ch1,ch2,ch3」…、と表すことができる。本実施の形態では、各音素毎の状態数が「3」であるものとして以下の各処理を行うものとする。   The likelihood calculating unit 112 compares the feature amount extracted for each frame with a hidden Markov model (HMM) stored in an acoustic model storage unit 153 to be described later, thereby performing continuous phoneme recognition for each frame. The state transition probability (likelihood) for each HMM is calculated. Here, a predetermined number of states is predetermined for each phoneme, and the probability of transition from one state of each phoneme to which state is obtained by comparing the acquired feature quantity with the HMM. For example, the phoneme of the word “Hachinohe” is “h, a, ch, i, n, o, h, e”, but when the number of states is “3”, each phoneme is “h1, h2”. , h3 ”,“ a1, a2, a3 ”,“ ch1, ch2, ch3 ”, and so on. In this embodiment, it is assumed that the number of states for each phoneme is “3” and the following processes are performed.

累積尤度算出手段113は、尤度算出手段112がこれまで算出した尤度に基づいて、各フレームにおける各状態毎に尤度の累積値を求める。   The cumulative likelihood calculating unit 113 obtains a cumulative value of likelihood for each state in each frame, based on the likelihood calculated by the likelihood calculating unit 112 so far.

ノード作成手段114は、後述する文法格納部154に格納されている文法情報に基づき、後述する辞書格納部155から取得する候補単語と累積尤度とを対応付けて展開する。   Based on grammatical information stored in a grammar storage unit 154, which will be described later, the node creation unit 114 expands a candidate word acquired from the dictionary storage unit 155, which will be described later, in association with a cumulative likelihood.

音声認識手段115は、ノード作成手段114が展開した累積尤度に基づいて、候補単語を音声認識結果として取得して出力する。   The speech recognition unit 115 acquires and outputs candidate words as speech recognition results based on the cumulative likelihood developed by the node creation unit 114.

記憶部150は、例えば、RAM(Random Access Memory)やフラッシュメモリ、ハードディスク装置などの記憶装置などから構成され、音声認識装置100の音声認識処理に必要となる各種情報を記憶する。記憶部150は図3に示すように、音声格納部151、特徴格納部152、音響モデル格納部153、文法格納部154、辞書格納部155、および、累積尤度格納部156から構成される。   The storage unit 150 includes, for example, a RAM (Random Access Memory), a flash memory, a storage device such as a hard disk device, and the like, and stores various types of information necessary for the speech recognition processing of the speech recognition device 100. As shown in FIG. 3, the storage unit 150 includes a voice storage unit 151, a feature storage unit 152, an acoustic model storage unit 153, a grammar storage unit 154, a dictionary storage unit 155, and a cumulative likelihood storage unit 156.

音声格納部151は、入力制御部120が変換したデジタル信号を随時バッファリングする。   The audio storage unit 151 buffers the digital signal converted by the input control unit 120 as needed.

特徴格納部152は、特徴量抽出手段111が抽出した各フレーム毎の特徴量を示す情報(以下、「特徴量データ」とする)を随時格納(展開)する。   The feature storage unit 152 stores (develops) information indicating the feature amount for each frame extracted by the feature amount extraction unit 111 (hereinafter referred to as “feature amount data”) as needed.

音響モデル格納部153は、音声認識装置100が対応する言語について、認識対象となる音声を構成する全ての音素をモデル化した音響モデル(音素モデル)を予め蓄積する。本実施の形態では、音響モデルとして「隠れマルコフモデル」(HMM)を用いるものとする。また、本実施の形態における音響モデル格納部153では、HMMを子音と母音とに分け、全音声データから学習した、子音認識用のHMMと、母音認識用のHMMと、を記憶する。さらに、母音認識用のHMMは、各グループ別の音声データから学習した、複数のHMMから成る。
以下、このグループ分けについて説明する。
The acoustic model storage unit 153 stores in advance an acoustic model (phoneme model) obtained by modeling all the phonemes constituting the speech to be recognized for the language supported by the speech recognition apparatus 100. In the present embodiment, a “hidden Markov model” (HMM) is used as the acoustic model. The acoustic model storage unit 153 in the present embodiment stores the HMM for consonant recognition and the HMM for vowel recognition learned from all speech data by dividing the HMM into consonants and vowels. Furthermore, the vowel recognition HMM is composed of a plurality of HMMs learned from voice data for each group.
Hereinafter, this grouping will be described.

人が発する音声には、子音よりも母音の方に、個人差が多く含まれる。そこで、母音のみを対象に、HMMを人のグループに分ける。具体的には、メル周波数ケプストラム係数(MFCC)の距離を求め、この距離が近い者同士をグループとしてグループ分けを行い、各グループごとに音声認識できるようにする。   Voices uttered by people contain more individual differences in vowels than consonants. Therefore, HMMs are divided into groups of people for only vowels. Specifically, the distance of the mel frequency cepstrum coefficient (MFCC) is obtained, and persons having a short distance are grouped into groups so that voice recognition can be performed for each group.

ここで、MFCCの次元数をNとする。そして、認識対象言語にV個の母音があるとし、それらに0〜V−1の番号を振る。また、発声者の数をMとし、m番目の人が発声した母音vの音素片の数をKmvとする。 Here, the number of dimensions of the MFCC is N. Then, assuming that there are V vowels in the recognition target language, numbers 0 to V-1 are assigned to them. Also, let M be the number of speakers and K mv be the number of phonemes of the vowel v uttered by the mth person.

そして、m番目の人が発声したk番目の母音vのMFCCをCm,k,v={cn,m,k,v|n=0,…,N−1}とし、その平均値Gm,v={gn,m,v|n=0,…,N−1}を次式のように定義する。
n,m,v=(1/Km,v)Σk=0 Km,v−1n,m,k,v
(2)
Then, the MFCC of the kth vowel v uttered by the mth person is C m, k, v = {cn , m, k, v | n = 0,..., N−1}, and the average value G m, v = {gn , m, v | n = 0,..., N−1} is defined as follows.
g n, m, v = (1 / K m, v ) Σk = 0 Km, v−1 c n, m, k, v
(2)

また、m1番目の人とm2番目の人とがそれぞれ発声した母音相互の距離D(m1,m2)を次式のように定義する。
D(m1,m2)=Σv=0 V-1Σn=0 N-1(gn,m1,v−gn,m2,v)
(3)
ここで、sは、MFCCのn次元目の重み係数である。
Further, a distance D (m1, m2) between vowels uttered by the m1st person and the m2nd person is defined as follows.
D (m1, m2) = Σ v = 0 V-1 Σ n = 0 N-1 s n (g n, m1, v -g n, m2, v) 2
(3)
Here, s n is an n-dimensional weighting coefficient of MFCC.

さらに、これらの距離が近い者同士を集めてM人のグループAと、M人のグループBとができたとする。その場合、グループAと、グループBとの相互間の距離DG(A,B)を次式のように定義する。
DG(A,B)=MAX(D(ma,mb)) (4)
In addition, the group A M A person collects these distances closer's together, and could and group B of human M B. In that case, the distance DG (A, B) between the group A and the group B is defined as follows.
DG (A, B) = MAX (D (ma i , mb j )) (4)

ここで、maの範囲は、{ma|i=0,…,M−1}であり、MはグループAに属する人数である。また、mbの範囲は、{mb|j=0,…,M−1}であり、MはグループBに属する人数である。
以上の計算によって、母音のHMMを所定数のグループに分ける。
Here, the range of ma i is, {ma i | i = 0 , ..., M A -1} is, M A is a number of people belonging to the group A. The range of mb j is {mb j | j = 0,..., M B −1}, where M B is the number of people belonging to group B.
By the above calculation, the vowel HMMs are divided into a predetermined number of groups.

また、距離の代わりに、n次元ベクトルの角度の大きさDAを用いる方法もある。これは、次式により求められる。
DA(m1,m2)
=Σv=0 V-1[{Σn=0 N-1(gn,m1,v×gn,m2,v)}/{√(Σn=0 N-1n,m1,v )√(Σn=0 N-1n,m2,v )}
(5)
これも、広い意味で、m1番目の人とm2番目の人との間の距離(広義の距離)とみなせる。
ここで、音響モデル格納部153の説明を終わり、記憶部150の次の部分の説明に移る。
There is also a method of using the angle magnitude DA of the n-dimensional vector instead of the distance. This is obtained by the following equation.
DA (m1, m2)
= Σv = 0 V-1 [{Σn = 0 N-1 (g n, m1, v × g n, m2, v )} / {√ (Σ n = 0 N-1 g n, m1, v 2 ) √ (Σ n = 0 N-1 gn , m2, v 2 )}
(5)
In a broad sense, this can also be regarded as a distance (broadly defined distance) between the m1st person and the m2nd person.
Here, the description of the acoustic model storage unit 153 is finished, and the description of the next part of the storage unit 150 is started.

文法格納部154は、音声認識装置100が対応する言語の文法規則を定義したファイルを格納する。   The grammar storage unit 154 stores a file that defines grammar rules for a language supported by the speech recognition apparatus 100.

辞書格納部155は、音声認識装置100が対応する言語の単語毎の音素パターン系列情報を登録した単語辞書を格納する。   The dictionary storage unit 155 stores a word dictionary in which phoneme pattern sequence information is registered for each word in a language supported by the speech recognition apparatus 100.

累積尤度格納部156は、累積尤度算出手段113が算出した累積尤度を示す累積尤度情報を格納する。すなわち、累積尤度算出手段113が累積尤度を算出すると、ノード作成手段114により、図4に示すような累積尤度マップが累積尤度格納部156に展開される。図4に示す例では、単語「けせんぬま」について、各フレームの状態番号毎に累積尤度値が展開されている。なお、本実施の形態では、算出された累積尤度の逆数が累積尤度格納部156に展開されるものとする。したがって、図4に示す累積尤度のうち、数値が小さいほど尤度が大きいことを示す。   The cumulative likelihood storage unit 156 stores cumulative likelihood information indicating the cumulative likelihood calculated by the cumulative likelihood calculating means 113. That is, when the cumulative likelihood calculating unit 113 calculates the cumulative likelihood, the node creating unit 114 develops a cumulative likelihood map as shown in FIG. 4 in the cumulative likelihood storage unit 156. In the example shown in FIG. 4, the cumulative likelihood value is developed for each state number of each frame for the word “kensenuma”. In the present embodiment, the reciprocal of the calculated cumulative likelihood is developed in the cumulative likelihood storage unit 156. Therefore, it shows that likelihood is so large that a numerical value is small among the cumulative likelihoods shown in FIG.

上記のように構成された音声認識装置100の動作を以下図面を参照して説明する。以下に示す各動作は、制御部110がプログラム格納部140に格納されている各プログラムのいずれかまたはすべてを適時実行することで実現されるものである。   The operation of the speech recognition apparatus 100 configured as described above will be described below with reference to the drawings. Each operation shown below is realized when the control unit 110 executes any or all of the programs stored in the program storage unit 140 in a timely manner.

最初に、本発明の実施の形態に係る音声認識装置100による音声認識動作の概略(「音声認識処理」)を図5に示すフローチャートを参照して説明する。この「音声認識処理」は、音声認識装置100の入力装置12から音声が入力され、入力制御部120によりデジタル変換された音声信号が音声格納部151にバッファされたことを契機に開始されるものとする。   First, an outline of a speech recognition operation (“speech recognition processing”) by the speech recognition apparatus 100 according to the embodiment of the present invention will be described with reference to a flowchart shown in FIG. This “voice recognition processing” is started when a voice is input from the input device 12 of the voice recognition device 100 and the voice signal digitally converted by the input control unit 120 is buffered in the voice storage unit 151. And

まず、特徴量抽出手段111は、音声格納部151にバッファされた音声信号に対し、所定長のフレームを所定周期毎に割り当てるとともに、各フレームにおける特徴量を抽出して、特徴量データを特徴格納部152に格納する(ステップS501)。なお、各フレームを示す「フレーム番号」は、「0」から割り当てられるものとする。   First, the feature quantity extraction unit 111 assigns a frame having a predetermined length to the audio signal buffered in the audio storage unit 151 for each predetermined period, extracts the feature quantity in each frame, and stores the feature quantity data as a feature. The data is stored in the unit 152 (step S501). The “frame number” indicating each frame is assigned from “0”.

そして、尤度算出手段112は、フレーム番号を指定するフレームポインタ(f)に、初期値「0」を設定する(ステップS502)。   Then, the likelihood calculating means 112 sets an initial value “0” to the frame pointer (f) that designates the frame number (step S502).

次に、尤度算出手段112は、当該フレームの直前のフレームにおいて尤度演算を行ったか否かを判別する(ステップS503)。ステップS502で0番フレームが指定されているので、直前フレームでの尤度演算は行われていない。したがって、図6に示すステップS601に進む。   Next, the likelihood calculating unit 112 determines whether or not the likelihood calculation has been performed on the frame immediately before the frame (step S503). Since the 0th frame is designated in step S502, the likelihood calculation in the immediately preceding frame is not performed. Therefore, the process proceeds to step S601 shown in FIG.

そして、尤度算出手段112は、当該フレームにおける状態番号を示す状態番号ポインタ(s)に、初期値「0」を設定する(ステップS601)。   Then, the likelihood calculating unit 112 sets an initial value “0” to the state number pointer (s) indicating the state number in the frame (step S601).

また、尤度算出手段112は、当該状態数における尤度に初期値「0」を設定する(ステップS602)。   Further, the likelihood calculating means 112 sets an initial value “0” as the likelihood in the number of states (step S602).

次に、尤度算出手段112は、音響モデル格納部153に格納されているガウス分布を用いて、確率演算を行う(ステップS603)。この演算は、前記数式(1)を用いて行うが、実際は混合ガウス分布であり、数式(1)の正規分布の重み付け和を求める。そして、ステップS603で算出された確率で尤度を更新する(ステップS604)。なお、算出された確率および尤度を示す情報は、例えば、ワークエリアなどの所定の記憶領域に保持されるものとする。   Next, the likelihood calculating unit 112 performs a probability calculation using the Gaussian distribution stored in the acoustic model storage unit 153 (step S603). This calculation is performed using Equation (1) above, but is actually a mixed Gaussian distribution, and the weighted sum of the normal distribution of Equation (1) is obtained. Then, the likelihood is updated with the probability calculated in step S603 (step S604). Note that the information indicating the calculated probability and likelihood is held in a predetermined storage area such as a work area, for example.

そして、尤度算出手段112は、当該フレームにおいてさらなる状態数があるか否かを判別する(ステップS605)。   Then, the likelihood calculating unit 112 determines whether there is a further number of states in the frame (step S605).

当該フレームにさらなる状態数がある場合には(ステップS605:No)、状態番号ポインタ(s)を1インクリメントし(ステップS606)、次の状態数に対応するガウス分布を用いて確率演算および尤度更新を行う(ステップS603、S604)。   If there is a further number of states in the frame (step S605: No), the state number pointer (s) is incremented by 1 (step S606), and probability calculation and likelihood are performed using a Gaussian distribution corresponding to the next number of states. Update is performed (steps S603 and S604).

すべての状態数における確率演算および尤度更新が終了すると(ステップS605:Yes)、累積尤度算出手段113は、当該フレームの各状態で算出された尤度を用いて、例えば、ビタビアルゴリズムにより各状態毎の累積尤度を算出して更新し(ステップS607)、ノード作成手段114が候補単語と累積尤度とを対応付けて展開する。   When the probability calculation and the likelihood update in all the number of states are completed (step S605: Yes), the cumulative likelihood calculating unit 113 uses the likelihood calculated in each state of the frame, for example, by Viterbi algorithm. The cumulative likelihood for each state is calculated and updated (step S607), and the node creation unit 114 expands the candidate word and the cumulative likelihood in association with each other.

当該フレームについての累積尤度が更新されると、尤度算出手段112は、さらなるフレームがあるか否かを判別する(ステップS507)。さらなるフレームがある場合(ステップS507:No)、尤度算出手段112は、フレームポインタ(f)を1インクリメントし(ステップS508)、次のフレームについて、ステップS503以下で同様の処理を行う。   When the cumulative likelihood for the frame is updated, the likelihood calculating unit 112 determines whether there is a further frame (step S507). When there is a further frame (step S507: No), the likelihood calculating means 112 increments the frame pointer (f) by 1 (step S508), and the same processing is performed in step S503 and subsequent steps for the next frame.

上述のように、先頭フレーム(0番)では尤度演算が行われたので、ステップS503では「直前フレームで確率演算あり」と判別される(ステップS503:Yes)。この場合、尤度算出手段112は、累積尤度格納部156に展開されている累積尤度を参照して、累積尤度値が最大となっている状態番号を特定する(ステップS504)。これは、各フレーム中で累積尤度が最大となっている部分のモデルと状態番号とを調べることで当該部分の音声が子音であるか母音であるかを判別するためである。   As described above, since the likelihood calculation is performed in the first frame (number 0), it is determined in step S503 that “there is a probability calculation in the immediately preceding frame” (step S503: Yes). In this case, the likelihood calculating unit 112 refers to the cumulative likelihood developed in the cumulative likelihood storage unit 156, and specifies the state number having the maximum cumulative likelihood value (step S504). This is in order to determine whether the speech of the part is a consonant or a vowel by examining the model and state number of the part having the maximum cumulative likelihood in each frame.

図4の例では、例えば、第19フレームにおける最大累積尤度値は「4939」(上述のように、累積尤度値の逆数を取っているため、絶対値が最も小さいものが最大尤度を示す)であり、対応する状態数は「k3」である。「k3」は、「けせんぬま(k・e・s・e・N・n・u・m・a)」の「k」の第3状態部分であるから「子音」であることがわかる。   In the example of FIG. 4, for example, the maximum cumulative likelihood value in the 19th frame is “4939” (as described above, since the reciprocal of the cumulative likelihood value is taken, the one with the smallest absolute value has the maximum likelihood. The corresponding state number is “k3”. Since “k3” is the third state part of “k” in “Kenuma (k, e, s, e, N, n, u, m, a)”, it is understood that it is a “consonant”.

このようにして、尤度算出手段112は、当該フレームの音声が「子音」であるか母音であるかを判別する(ステップS505)。   In this way, the likelihood calculating means 112 determines whether the sound of the frame is a “consonant” or a vowel (step S505).

当該音声が「母音」でない場合(ステップS505:No)、上述した図6に示すステップS601に進む。
一方、当該音声が「母音」である場合(ステップS505:Yes)、ステップS506で母音比較処理を行う。以下、この処理を図7及び図8を参照して説明する。
If the voice is not a “vowel” (step S505: No), the process proceeds to step S601 shown in FIG.
On the other hand, when the voice is a “vowel” (step S505: Yes), a vowel comparison process is performed in step S506. Hereinafter, this process will be described with reference to FIGS.

図7において、尤度算出手段112は、まず、特徴量データと比較する対象であるグループが決定済みか否かを判別する(ステップS701)。この処理は、例えば、グループが決定済みの旨を表示するフラグを参照することで行い得る。   In FIG. 7, the likelihood calculating unit 112 first determines whether or not a group to be compared with the feature amount data has been determined (step S701). This process can be performed, for example, by referring to a flag indicating that the group has been determined.

グループが決定済みであるときは(ステップS701:Yes)、すべての母音HMMのうち、決定済みのグループの母音HMMのみに着目する(ステップS702)。この処理は、例えば、ポインタgに決定済みのグループの番号を設定することにより行い得る(ステップS702)。   When the group has been determined (step S701: Yes), only the vowel HMMs of the determined group among all the vowel HMMs are focused (step S702). This process can be performed, for example, by setting the determined group number in the pointer g (step S702).

そして、該当するグループの状態番号ポインタsgに初期値「0」を設定し(ステップS711)、この後は、ステップS712〜S717で上述したステップS602〜S607と同様の処理をその該当するグループの母音HMMを比較対象として行う。   Then, an initial value “0” is set to the state number pointer sg of the corresponding group (step S711), and thereafter, the same processing as that of steps S602 to S607 described above in steps S712 to S717 is performed. HMM is used as a comparison target.

以上の処理を終了した後は、上述したステップS507に戻って既に説明したステップS507〜S509の処理を行う。   After the above process is completed, the process returns to step S507 described above and the processes of steps S507 to S509 already described are performed.

一方、ステップS701でグループが決定済みでないときは(ステップS701:No)、図8に示す処理を行う。   On the other hand, when the group has not been determined in step S701 (step S701: No), the processing shown in FIG. 8 is performed.

図8においては、まず、各グループの参照回数をそれぞれ計数する各グループごとのカウンタに初期値「0」を設定する(ステップS801)。そして、すべてのグループを比較の対象として処理すべく、ポインタgに最初のグループの番号「1」を設定する(ステップS802)。   In FIG. 8, first, an initial value “0” is set in a counter for each group that counts the number of times each group is referenced (step S801). Then, the first group number “1” is set in the pointer g to process all the groups as comparison targets (step S802).

そして、該当するグループの状態番号ポインタsgに初期値「0」を設定し(ステップS811)、この後は、ステップS812〜S817で、上述したステップS712〜S717、ステップS602〜S607と同様の処理をその最初のグループの母音HMMを比較対象として行う。   Then, an initial value “0” is set to the state number pointer sg of the corresponding group (step S811), and thereafter, in steps S812 to S817, the same processes as in steps S712 to S717 and steps S602 to S607 described above are performed. The vowel HMM of the first group is used as a comparison target.

最初のグループの処理が終了すると、尤度算出手段112は、さらなるグループがあるか否かを判別する(ステップS818)。さらなるグループがある場合(ステップS818:No)、尤度算出手段112は、グループポインタ(g)を1インクリメントし(ステップS819)、次のグループについて、ステップS811以下で同様の処理を行う。   When the processing of the first group is completed, the likelihood calculating unit 112 determines whether there is a further group (step S818). When there is a further group (step S818: No), the likelihood calculating unit 112 increments the group pointer (g) by 1 (step S819), and the same processing is performed in step S811 and subsequent steps for the next group.

一方、さらなるグループがない場合(ステップS818:Yes)、以上の処理を終了し、最も確率の高いHMMを輩出したグループのカウンタを1インクリメントする(ステップS820)。そして、現在がグループを決定する時期か否かを判定する(ステップS821)。この判定は、例えば、所定の回数以上、母音の比較処理が行われたか否かを判定することにより行い得る。   On the other hand, when there is no further group (step S818: Yes), the above process is complete | finished and the counter of the group which produced HMM with the highest probability is incremented by 1 (step S820). Then, it is determined whether or not it is time to determine a group (step S821). This determination can be made, for example, by determining whether or not a vowel comparison process has been performed a predetermined number of times or more.

この判定の結果、グループを決定する時期であるときは(ステップS821:Yes)、グループカウンタcnt(g)に最も大きい値が示されているグループの番号を、決定済みグループに設定する(ステップS822)。この設定により、次のフレームの処理では、上述したステップS702でグループポインタ(g)に上記決定済みグループの設定番号が移され、決定されたグループだけについて母音比較処理が行われる。   As a result of this determination, when it is time to determine a group (step S821: Yes), the group number for which the largest value is indicated in the group counter cnt (g) is set to the determined group (step S822). ). With this setting, in the processing of the next frame, the set number of the determined group is moved to the group pointer (g) in step S702 described above, and vowel comparison processing is performed only for the determined group.

以上の処理を終了した後は、上述したステップS507に戻って既に説明したステップS507、S508の処理を行う。ここで、さらなるフレームがある場合(ステップS507:No)、尤度算出手段112は、フレームポインタ(f)を1インクリメントし(ステップS508)、次のフレームについて、ステップS503以下で同様の処理を行う。   After the above process is completed, the process returns to the above-described step S507 and the processes of steps S507 and S508 already described are performed. Here, when there is a further frame (step S507: No), the likelihood calculating unit 112 increments the frame pointer (f) by 1 (step S508), and performs the same processing in step S503 and subsequent steps for the next frame. .

一方、当該フレームが最終フレームである場合(ステップS507:Yes)は、所定の出力処理(ステップS509)を行って、音声認識結果の出力を行う。ここでは、音声認識手段115が、累積尤度格納部156に展開されている候補単語と累積尤度を参照し、最終フレームの最終状態からノードを遡ってトレースして出力すべき認識結果(単語)を取得し、出力制御部130により音声あるいは文字情報として出力する。   On the other hand, when the frame is the final frame (step S507: Yes), a predetermined output process (step S509) is performed to output the voice recognition result. Here, the speech recognition means 115 refers to the candidate words and the cumulative likelihood expanded in the cumulative likelihood storage unit 156, and traces the node back from the final state of the final frame to output the recognition result (word ) And output as voice or text information by the output control unit 130.

以上のように、音声を子音と母音とに分けて認識し、母音についてはグループに分け、決定されたグループからHMMを決めるようにしたので、認識処理の高速化を図りつつ、より認識精度を高めることができる。   As described above, the speech is recognized by separating it into consonants and vowels, and the vowels are divided into groups, and the HMM is determined from the determined group, so that the recognition process can be speeded up and the recognition accuracy can be improved. Can be increased.

ところで、母音のグループを決定する方法には、上述した、指定回数以上母音が比較された時点で決定する方法のほかに、以下の方法がある。これは、上述したステップS820〜S822の代わりに図9に示すステップS830〜S832の処理を実行することにより行われる。   By the way, as a method for determining a group of vowels, there are the following methods in addition to the above-described method for determining when a vowel is compared more than a specified number of times. This is performed by executing the processes of steps S830 to S832 shown in FIG. 9 instead of steps S820 to S822 described above.

この方法では、ステップS818でさらなるグループがない場合(ステップS818:Yes)、各グループの平均尤度を算出する(ステップS830)。これは、各グループごとの尤度を合計し、それぞれのグループ内のHMM総数で除算して求められる。   In this method, when there is no further group at step S818 (step S818: Yes), the average likelihood of each group is calculated (step S830). This is obtained by summing the likelihood for each group and dividing by the total number of HMMs in each group.

そして、最大の平均尤度のグループと、第2位の平均尤度のグループとの平均尤度の比が、予め指定された比以上か否かを判定する(ステップS831)。   Then, it is determined whether or not the ratio of the average likelihood between the maximum average likelihood group and the second average likelihood group is equal to or higher than a ratio specified in advance (step S831).

この比が、予め指定された比以上である場合(ステップS831:Yes)、最大の平均尤度のグループに決定する(ステップS832)。   When this ratio is equal to or higher than a ratio specified in advance (step S831: Yes), the group is determined as the maximum average likelihood group (step S832).

以上の処理によれば、決定の時期を別の要因で定める必要がなく、グループの採用回数をカウントする必要もなく、音声認識に伴い算出されている尤度について、平均値とその最大値などを算出することで自ずと採用すべきグループを決定できるという利点がある。   According to the above processing, there is no need to determine the timing of determination by another factor, no need to count the number of times the group has been adopted, and the average value and the maximum value of the likelihood calculated with speech recognition, etc. By calculating, there is an advantage that the group to be adopted can be determined by itself.

(実施形態2)
(音響モデル学習装置)
次に、上述したグループ別のHMMを学習する装置について説明する。
(Embodiment 2)
(Acoustic model learning device)
Next, an apparatus for learning the above-described group-specific HMM will be described.

この装置は、上述した図1の装置を使って実現される。
図1において、記憶部150の音響モデル格納部153(図3参照)には、まず、子音と母音とに分けない通常のHMMが格納される。そして、制御部110は、プログラム格納部140に格納された図示しないHMM学習プログラムを実行することで音響モデル学習装置として機能する。
This apparatus is realized by using the apparatus of FIG. 1 described above.
In FIG. 1, the acoustic model storage unit 153 (see FIG. 3) of the storage unit 150 first stores a normal HMM that cannot be divided into consonants and vowels. The control unit 110 functions as an acoustic model learning device by executing an HMM learning program (not shown) stored in the program storage unit 140.

この装置は、機能的には、図10に示すように、グループ数指定手段116と、距離算出手段117と、グループ化手段118と、グループ数判定手段119と、母音子音選別手段1110と、を備える。   As shown in FIG. 10, this apparatus functionally includes a group number designating unit 116, a distance calculating unit 117, a grouping unit 118, a group number determining unit 119, and a vowel consonant sorting unit 1110. Prepare.

グループ数指定手段116は、記憶部150の音響モデル格納部153(図3参照)に設けられた、所定のエリアにおいて、母音認識用のHMMのグループ数を指定する。これは、入力装置12によってユーザが例えばキーボードにより指定することで、制御部110がこの指定値を記憶部150に記憶させることにより行い得る。   The group number designation means 116 designates the number of vowel recognition HMM groups in a predetermined area provided in the acoustic model storage unit 153 (see FIG. 3) of the storage unit 150. This can be performed by causing the control unit 110 to store the specified value in the storage unit 150 by the user specifying the input device 12 using, for example, a keyboard.

距離算出手段117は、前述した数式(3)及び数式(4)、又は、数式(5)及び数式(4)に従って、母音認識用のHMMのグループ間の距離を算出する。   The distance calculation means 117 calculates the distance between groups of HMMs for vowel recognition in accordance with the above-described mathematical expressions (3) and (4), or mathematical expressions (5) and (4).

グループ化手段118は、すべてのグループのうち、最短距離にある2つのグループを1つのグループとする。これは、最短距離にあると判定された2つのグループのそれぞれ異なるグループ番号をいずれか1つの番号に統一し、全グループ数から数値「1」を減ずることで行い得る。   The grouping means 118 sets two groups at the shortest distance among all the groups as one group. This can be done by unifying the different group numbers of the two groups determined to be at the shortest distance into any one number and subtracting the numerical value “1” from the total number of groups.

グループ数判定手段119は、グループの統一により全グループ数が減少していき、その全グループ数が指定された数以下になったかを判定する。
母音子音選別手段1110は、記憶部150の所定領域に記憶されたHMMが母音か子音かを選別してそれぞれ別々の領域に格納する。
The group number determination means 119 determines whether the total number of groups has decreased as a result of group unification, and the total number of groups has become equal to or less than the specified number.
The vowel consonant sorting means 1110 sorts whether the HMM stored in a predetermined area of the storage unit 150 is a vowel or a consonant and stores them in separate areas.

次に、上述した装置の動作を図11を参照して説明する。
動作開始前に、人についての母音HMMの全グループ数を規定するために指定されたグループ数Gが、ユーザにより入力装置12を介して記憶部150のワークエリアなどに設定されているものとする。
Next, the operation of the above-described apparatus will be described with reference to FIG.
It is assumed that the number of groups G specified for defining the total number of vowel HMMs for a person is set in the work area of the storage unit 150 or the like via the input device 12 before the operation is started. .

まず、制御部110は、発声者の音声が録音された媒体からHMMの音声データを収集し、記憶部150の所定領域に記憶させる(ステップS901)。初期状態においては、すべての発声者の音素HMMをそれぞれ一人から成る1つずつのグループとみなす。   First, the control unit 110 collects HMM audio data from the medium on which the voice of the speaker is recorded, and stores it in a predetermined area of the storage unit 150 (step S901). In the initial state, the phoneme HMMs of all speakers are regarded as one group each consisting of one person.

そして、制御部110の母音子音選別手段1110は、人のポインタm、各人の音声データのポインタn、子音HMMのポインタs、母音HMMのポインタgに、それぞれ「0」を初期設定する(ステップS902)。   Then, the vowel consonant sorting unit 1110 of the control unit 110 initializes “0” in each of the person pointer m, the voice data pointer n of each person, the consonant HMM pointer s, and the vowel HMM pointer g (step). S902).

次に、母音子音選別手段1110は、m番目の人のn番目のデータが母音か子音かを判定する(ステップS903)。この判定は、例えば、母音か子音かの判定のみを専用に行うためのHMMを用意しておき、前述した音声認識の場合と同様に、尤度算出により母音である確率と子音である確率とを求めた上で、両者を比較することで行い得る。   Next, the vowel consonant selection unit 1110 determines whether the nth data of the mth person is a vowel or a consonant (step S903). For this determination, for example, an HMM for performing only the determination of vowels or consonants is prepared, and the probability of being a vowel and the probability of being a consonant are calculated by likelihood calculation as in the case of the speech recognition described above. This can be done by comparing the two.

そして、母音であるときは(ステップS903:Yes)、母音HMMの記憶領域にHMMを格納し(ステップS904)、母音HMMのポインタgを1インクリメントする(ステップS905)。   If it is a vowel (step S903: Yes), the HMM is stored in the storage area of the vowel HMM (step S904), and the pointer g of the vowel HMM is incremented by 1 (step S905).

また、子音であるときは(ステップS903:No)、子音HMMの記憶領域にHMMを格納し(ステップS906)、子音HMMのポインタsを1インクリメントする(ステップS907)。   If it is a consonant (step S903: No), the HMM is stored in the consonant HMM storage area (step S906), and the consonant HMM pointer s is incremented by 1 (step S907).

このようにして、最初の音声データの処理が終了すると、母音子音選別手段1110は、さらなる音声データがあるか否かを判別する(ステップS921)。さらなる音声データがある場合(ステップS921:No)、母音子音選別手段1110は、音声データのポインタnを1インクリメントし(ステップS922)、次の音声データについて、ステップS903以下で同様の処理を行う。
一方、さらなる音声データがない場合(ステップS921:Yes)、次の人の処理(ステップS903〜S907)に進む。
最初の人の処理が終了すると、母音子音選別手段1110は、さらなる人がいるか否かを判別する(ステップS908)。さらなる人がいる場合(ステップS908:No)、母音子音選別手段1110は、人のポインタmを1インクリメントし(ステップS909)、次の人について、ステップS903以下で同様の処理を行う。
In this way, when the processing of the first voice data is completed, the vowel consonant sorting unit 1110 determines whether or not there is further voice data (step S921). When there is further voice data (step S921: No), the vowel consonant sorting unit 1110 increments the pointer n of the voice data by 1 (step S922), and the same process is performed on and after the next voice data in step S903.
On the other hand, if there is no further audio data (step S921: Yes), the process proceeds to the next person's processing (steps S903 to S907).
When the processing of the first person is completed, the vowel consonant sorting unit 1110 determines whether there are more persons (step S908). When there is a further person (step S908: No), the vowel consonant selection unit 1110 increments the person's pointer m by 1 (step S909), and the same process is performed on and after the next person at step S903 and thereafter.

一方、さらなる人がいない場合(ステップS908:Yes)、次の処理(ステップS910)に進む。
続いて、グループ数判定手段119は、人の全グループ数mが指定されたグループ数G以下であるかを判定する。
On the other hand, when there is no further person (step S908: Yes), it progresses to the next process (step S910).
Subsequently, the group number determination means 119 determines whether or not the total group number m of the person is equal to or less than the specified group number G.

人の全グループ数mが指定されたグループ数G以下でない場合(ステップS910:No)、距離算出手段117は、前述した数式(3)、又は、数式(5)に従って、母音認識用のHMM間の距離を算出する(ステップS911)。   If the total group number m of the person is not less than the specified group number G (step S910: No), the distance calculation unit 117 performs inter-HMM recognition for vowel recognition according to the above-described equation (3) or equation (5). Is calculated (step S911).

続いて、グループ化手段118は、最短距離にあると判定された2つの母音認識用のHMMを、1つのグループとする(ステップS912)。これは、例えば、各HMMに割り当てられているグループ番号のうち、若い方の番号に統一することで行い得る。   Subsequently, the grouping unit 118 sets the two vowel recognition HMMs determined to be within the shortest distance as one group (step S912). This can be performed, for example, by unifying the smaller group number assigned to each HMM.

そして、グループ化手段118は、人の全グループ数mから数値「1」を減ずる(ステップS913)。その後、上述したステップS910に戻る。   Then, the grouping means 118 subtracts the numerical value “1” from the total number m of people (step S913). Thereafter, the process returns to step S910 described above.

ステップS910でさらに人の全グループ数mが指定されたグループ数G以下ではない場合(ステップS910:No)、距離算出手段117は、前述した数式(3)及び数式(4)、又は、数式(5)及び数式(4)に従って、母音認識用のHMM間の距離を算出する(ステップS911)。ここでは、上記の1グループ化により、2者以上の音声データを含むグループも存在する。   If the total group number m of the person is not less than or equal to the designated group number G in step S910 (step S910: No), the distance calculation means 117 may calculate the formula (3) and formula (4) or formula ( 5) and the distance between the HMMs for vowel recognition are calculated according to equation (4) (step S911). Here, there is also a group including two or more voice data due to the above-mentioned one grouping.

続いて、グループ化手段118は、最短距離にあると判定された2つの母音認識用のHMM又はそのグループを、1つのグループとする(ステップS912)。これは、例えば、各HMMに割り当てられているグループ番号のうち、若い方の番号に統一することで行い得る。   Subsequently, the grouping unit 118 sets two vowel recognition HMMs or groups determined to be at the shortest distance as one group (step S912). This can be performed, for example, by unifying the smaller group number assigned to each HMM.

そして、グループ化手段118は、人の全グループ数mから数値「1」を減ずる(ステップS913)。その後、上述したステップS910に戻る。   Then, the grouping means 118 subtracts the numerical value “1” from the total number m of people (step S913). Thereafter, the process returns to step S910 described above.

以上の処理を繰り返し実行し、人の全グループ数mが指定されたグループ数G以下となった場合(ステップS910:Yes)、グループ数判定手段119は、すべての処理を終了する。   When the above process is repeatedly executed and the total number of groups m of the person is equal to or less than the specified number of groups G (step S910: Yes), the group number determination unit 119 ends all the processes.

以上により、記憶部150には、全音声データから学習された、子音認識用のHMMと、人の各グループ別の音声データから学習された、人の各グループ毎の母音認識用のHMMと、が記憶される。   As described above, the storage unit 150 stores the HMM for consonant recognition learned from all speech data, the HMM for vowel recognition for each group of people learned from the speech data for each group of people, Is memorized.

なお、上記実施の形態における音声認識装置100及び音響モデル学習装置(100)は、専用装置で構成可能であることはもとより、例えば、パーソナルコンピュータなどの汎用コンピュータ装置などで構成することができる。この場合、上記実施の形態に示した処理をコンピュータ装置上で実現するためのプログラムをコンピュータ装置にインストールすることにより、本発明に係る音声認識装置100などを構成することができる。この場合のプログラムの配布方法は任意であり、例えば、CD−ROMなどの記録媒体に格納して配布可能であることはもとより、搬送波に重畳させることで、インターネットなどの通信媒体を介して配布することができる。   Note that the speech recognition device 100 and the acoustic model learning device (100) in the above embodiment can be configured with a dedicated device, for example, a general-purpose computer device such as a personal computer. In this case, the speech recognition apparatus 100 according to the present invention can be configured by installing a program for realizing the processing described in the above embodiment on the computer apparatus. The distribution method of the program in this case is arbitrary. For example, the program can be distributed by being stored in a recording medium such as a CD-ROM, and can be distributed via a communication medium such as the Internet by being superimposed on a carrier wave. be able to.

すなわち、本発明に係る音声認識装置などは、例えば、携帯型の翻訳装置などとして実現できる他、パーソナルコンピュータやゲーム装置などで動作するアプリケーションとして実現することができ、高精度の音声認識を実現するものである。   That is, the speech recognition device according to the present invention can be realized as an application that operates on a personal computer, a game device, or the like in addition to being realized as a portable translation device, for example, and realizes highly accurate speech recognition. Is.

また、既存の音声認識装置や音声認識アプリケーションなどに、本発明に係る各処理を実現するためのプログラムを追加すること(例えば、バージョンアップなど)により、音声認識処理を高精度化することができる。   Further, by adding a program for realizing each process according to the present invention to an existing voice recognition device or voice recognition application (for example, version upgrade), the voice recognition process can be made highly accurate. .

以上説明したように、本発明によれば、音声認識における高い認識精度を実現することができる。   As described above, according to the present invention, high recognition accuracy in voice recognition can be realized.

本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition apparatus which concerns on embodiment of this invention. 図1に示す音声認識装置の制御部で実現される機能を示す機能ブロック図である。It is a functional block diagram which shows the function implement | achieved by the control part of the speech recognition apparatus shown in FIG. 図1に示す記憶部の詳細を示す図である。It is a figure which shows the detail of the memory | storage part shown in FIG. 図3に示す累積尤度格納部に展開される累積尤度値の例を示す図である。It is a figure which shows the example of the cumulative likelihood value developed by the cumulative likelihood storage part shown in FIG. 本発明の実施の形態に係る「音声認識処理」を説明するためのフローチャートである。It is a flowchart for demonstrating the "voice recognition process" which concerns on embodiment of this invention. 本発明の実施の形態に係る「音声認識処理」を説明するためのフローチャートである。It is a flowchart for demonstrating the "voice recognition process" which concerns on embodiment of this invention. 本発明の実施の形態に係る「母音比較処理」を説明するためのフローチャートである。It is a flowchart for demonstrating the "vowel comparison process" which concerns on embodiment of this invention. 本発明の実施の形態に係る「母音比較処理」を説明するためのフローチャートである。It is a flowchart for demonstrating the "vowel comparison process" which concerns on embodiment of this invention. 本発明の実施の形態に係る「母音比較処理」を説明するためのフローチャートである。It is a flowchart for demonstrating the "vowel comparison process" which concerns on embodiment of this invention. 本発明の実施の形態に係る音響モデル学習装置の構成を示すブロック図である。It is a block diagram which shows the structure of the acoustic model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る「HMM学習処理」を説明するためのフローチャートである。It is a flowchart for demonstrating the "HMM learning process" which concerns on embodiment of this invention.

符号の説明Explanation of symbols

100…音声認識装置(音響モデル学習装置)、111…特徴量抽出手段、112…尤度算出手段、113…累積尤度算出手段、114…ノード作成手段、115…音声認識手段、116…グループ数指定手段、117…距離算出手段、118…グループ化手段、119…グループ数判定手段、1110…母音子音選別手段、151…音声格納部、152…特徴格納部、153…音響モデル格納部、154…文法格納部、155…辞書格納部、156…累積尤度格納部 DESCRIPTION OF SYMBOLS 100 ... Voice recognition apparatus (acoustic model learning apparatus), 111 ... Feature-value extraction means, 112 ... Likelihood calculation means, 113 ... Cumulative likelihood calculation means, 114 ... Node creation means, 115 ... Speech recognition means, 116 ... Number of groups Designating means, 117 ... distance calculating means, 118 ... grouping means, 119 ... group number judging means, 1110 ... vowel consonant sorting means, 151 ... speech storage section, 152 ... feature storage section, 153 ... acoustic model storage section, 154 ... Grammar storage unit, 155 ... dictionary storage unit, 156 ... cumulative likelihood storage unit

Claims (5)

全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、複数の母音認識用の音響モデルと、を記憶した記憶部と、
入力された音声について複数の所定長フレーム毎に抽出した特徴量と、前記記憶部に記憶された各音響モデルとに基づいて、前記入力された音声についての各音素の状態遷移確率を算出する確率算出手段と、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出手段と、
当該フレームより前のフレームで算出された尤度の累積値を順次算出する累積尤度算出手段と、
前記累積尤度算出手段が算出した累積尤度に基づいて、前記入力された音声の認識を行う音声認識手段と、
を備えたことを特徴とする音声認識装置。
A storage unit that stores an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Probability of calculating the state transition probability of each phoneme for the input speech based on the feature quantity extracted for each of the plurality of predetermined long frames for the input speech and each acoustic model stored in the storage unit A calculation means;
A likelihood calculating means for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating means for sequentially calculating a cumulative value of likelihood calculated in a frame before the frame;
Speech recognition means for recognizing the input speech based on the cumulative likelihood calculated by the cumulative likelihood calculation means;
A speech recognition apparatus comprising:
各フレームの音声が母音であるか子音であるかを判別するフレーム識別手段と、
入力される音声が母音である場合に、前記母音認識用の音響モデルを学習したグループを決定するグループ決定手段と、
を備えたことを特徴とする請求項1に記載の音声認識装置。
Frame identification means for determining whether the voice of each frame is a vowel or a consonant;
Group determination means for determining a group that has learned the acoustic model for vowel recognition when the input speech is a vowel;
The speech recognition apparatus according to claim 1, further comprising:
全音声データから学習する、子音認識用の音響モデルと、各グループ別の音声データから学習する、各グループ毎の母音認識用の音響モデルと、を記憶する記憶部と、
母音認識用の音響モデルのグループ数を指定するグループ数指定手段と、
前記母音認識用の音響モデルのグループ間の距離を算出する距離算出手段と、
最短距離の2つのグループを1つのグループとするグループ化手段と、
全グループ数が指定された数以下になったかを判定するグループ数判定手段と、
を備えたことを特徴とする音響モデル学習装置。
A storage unit that stores an acoustic model for consonant recognition that learns from all speech data, and an acoustic model for vowel recognition for each group that learns from speech data for each group,
A group number specifying means for specifying the number of groups of an acoustic model for vowel recognition;
Distance calculating means for calculating a distance between groups of the acoustic model for vowel recognition;
Grouping means for making two groups of the shortest distance into one group;
A group number determination means for determining whether the total number of groups is equal to or less than a specified number;
An acoustic model learning device comprising:
所定の装置による音響モデルを用いた音声認識を高精度化する音声認識方法であって、
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を取得するモデル取得ステップと、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出する特徴量抽出ステップと、
各フレームにおいて抽出された特徴量に基づいて、前記対象音声についての各音素の状態遷移確率を算出する確率算出ステップと、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出ステップと、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出する累積尤度算出ステップと、
前記算出された累積尤度に基づいて音声認識を行う音声認識ステップと、
を備えたことを特徴とする音声認識方法。
A speech recognition method for improving accuracy of speech recognition using an acoustic model by a predetermined device,
A model acquisition step of acquiring an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
A feature amount extraction step for setting a plurality of predetermined length frames at a predetermined cycle for the target speech and extracting a feature amount for each frame;
A probability calculating step of calculating a state transition probability of each phoneme for the target speech based on the feature amount extracted in each frame;
A likelihood calculating step for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating step for sequentially calculating the cumulative likelihood based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame;
A speech recognition step for performing speech recognition based on the calculated cumulative likelihood;
A speech recognition method comprising:
コンピュータを
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を記憶し、
対象音声を取り込み、該取り込んだ音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出し、
各フレームにおいて抽出された特徴量に基づいて、状態遷移確率を算出し、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出し、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出し、
前記算出された累積尤度に基づいて音声認識を行う、
ことを特徴とする音声認識装置として機能させるプログラム。
Storing an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Capture the target voice, set a plurality of predetermined length frames for the captured voice in a predetermined cycle, extract the feature amount for each frame,
Based on the feature amount extracted in each frame, the state transition probability is calculated,
Accumulate the calculated state transition probabilities, calculate the likelihood for each acoustic model,
Based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame, the cumulative likelihood is sequentially calculated,
Performing speech recognition based on the calculated cumulative likelihood,
A program for functioning as a voice recognition device.
JP2008323495A 2008-12-19 2008-12-19 Speech recognition apparatus, speech recognition method, and program Active JP5315976B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008323495A JP5315976B2 (en) 2008-12-19 2008-12-19 Speech recognition apparatus, speech recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008323495A JP5315976B2 (en) 2008-12-19 2008-12-19 Speech recognition apparatus, speech recognition method, and program

Publications (2)

Publication Number Publication Date
JP2010145784A true JP2010145784A (en) 2010-07-01
JP5315976B2 JP5315976B2 (en) 2013-10-16

Family

ID=42566279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008323495A Active JP5315976B2 (en) 2008-12-19 2008-12-19 Speech recognition apparatus, speech recognition method, and program

Country Status (1)

Country Link
JP (1) JP5315976B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012032538A (en) * 2010-07-29 2012-02-16 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice recognition device and voice recognition program
CN110782898A (en) * 2018-07-12 2020-02-11 北京搜狗科技发展有限公司 End-to-end voice awakening method and device and computer equipment

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02226200A (en) * 1989-02-27 1990-09-07 Nec Corp Voice recognition device
JPH04324499A (en) * 1991-04-24 1992-11-13 Sharp Corp Speech recognition device
JPH0667686A (en) * 1992-08-18 1994-03-11 Brother Ind Ltd Speech recognizing device
JP2003022093A (en) * 2001-07-09 2003-01-24 Nippon Hoso Kyokai <Nhk> Method, device, and program for voice recognition
JP2005077682A (en) * 2003-08-29 2005-03-24 Casio Comput Co Ltd Speech recognition device, speech recognition speed-up device, and program
JP2005221727A (en) * 2004-02-05 2005-08-18 Nec Corp Speech recognition system, speech recognition method, and program for speech recognition
JP2006139185A (en) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, device for implementing the method, program, and recording medium therefor
WO2008087934A1 (en) * 2007-01-16 2008-07-24 Nec Corporation Extended recognition dictionary learning device and speech recognition system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02226200A (en) * 1989-02-27 1990-09-07 Nec Corp Voice recognition device
JPH04324499A (en) * 1991-04-24 1992-11-13 Sharp Corp Speech recognition device
JPH0667686A (en) * 1992-08-18 1994-03-11 Brother Ind Ltd Speech recognizing device
JP2003022093A (en) * 2001-07-09 2003-01-24 Nippon Hoso Kyokai <Nhk> Method, device, and program for voice recognition
JP2005077682A (en) * 2003-08-29 2005-03-24 Casio Comput Co Ltd Speech recognition device, speech recognition speed-up device, and program
JP2005221727A (en) * 2004-02-05 2005-08-18 Nec Corp Speech recognition system, speech recognition method, and program for speech recognition
JP2006139185A (en) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, device for implementing the method, program, and recording medium therefor
WO2008087934A1 (en) * 2007-01-16 2008-07-24 Nec Corporation Extended recognition dictionary learning device and speech recognition system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNC201100849016; 松尾広他: '"自動性別判定を用いた母音・子音定常部の認識に関する検討"' 日本音響学会昭和62年度秋季研究発表会議講演論文集 , 198710, pp.27-28 *
JPN6012052636; 松尾広他: '"自動性別判定を用いた母音・子音定常部の認識に関する検討"' 日本音響学会昭和62年度秋季研究発表会議講演論文集 , 198710, pp.27-28 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012032538A (en) * 2010-07-29 2012-02-16 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice recognition device and voice recognition program
CN110782898A (en) * 2018-07-12 2020-02-11 北京搜狗科技发展有限公司 End-to-end voice awakening method and device and computer equipment
CN110782898B (en) * 2018-07-12 2024-01-09 北京搜狗科技发展有限公司 End-to-end voice awakening method and device and computer equipment

Also Published As

Publication number Publication date
JP5315976B2 (en) 2013-10-16

Similar Documents

Publication Publication Date Title
CN107195296B (en) Voice recognition method, device, terminal and system
CN106875942B (en) Acoustic model self-adaption method based on accent bottleneck characteristics
EP1936606B1 (en) Multi-stage speech recognition
JP5200712B2 (en) Speech recognition apparatus, speech recognition method, and computer program
JP6284462B2 (en) Speech recognition method and speech recognition apparatus
JP7342915B2 (en) Audio processing device, audio processing method, and program
JP4829477B2 (en) Voice quality conversion device, voice quality conversion method, and voice quality conversion program
CA3162378A1 (en) A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
Nanavare et al. Recognition of human emotions from speech processing
KR101068122B1 (en) Apparatus and method for rejection based garbage and anti-word model in a speech recognition
Mandal et al. Shruti-II: A vernacular speech recognition system in Bengali and an application for visually impaired community
Rahmawati et al. Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
WO2021118793A1 (en) Speech processing
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
KR102113879B1 (en) The method and apparatus for recognizing speaker&#39;s voice by using reference database
JP5315976B2 (en) Speech recognition apparatus, speech recognition method, and program
JP2012053218A (en) Sound processing apparatus and sound processing program
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
KR101066472B1 (en) Apparatus and method speech recognition based initial sound
Lingam Speaker based language independent isolated speech recognition system
JP2001005483A (en) Word voice recognizing method and word voice recognition device
JP2003271185A (en) Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R150 Certificate of patent or registration of utility model

Ref document number: 5315976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150