JPH1165590A - Voice recognition dialing device - Google Patents

Voice recognition dialing device

Info

Publication number
JPH1165590A
JPH1165590A JP22856797A JP22856797A JPH1165590A JP H1165590 A JPH1165590 A JP H1165590A JP 22856797 A JP22856797 A JP 22856797A JP 22856797 A JP22856797 A JP 22856797A JP H1165590 A JPH1165590 A JP H1165590A
Authority
JP
Japan
Prior art keywords
syllable
voice
name
recognition
code data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP22856797A
Other languages
Japanese (ja)
Other versions
JP3447521B2 (en
Inventor
Kazuhiko Tabei
和彦 田部井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP22856797A priority Critical patent/JP3447521B2/en
Publication of JPH1165590A publication Critical patent/JPH1165590A/en
Application granted granted Critical
Publication of JP3447521B2 publication Critical patent/JP3447521B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce cumbersome key operations for registering names and corresponding telephone numbers on a portable telephone by outputting the recognition result of the names and the telephone numbers by the recognition processing, which uses the monosyllable code data stream of the registered names or the telephone numbers with respect to input voices and standard pattern data in half syllable units. SOLUTION: A voice registration means, such as a general speaker half syllable voice recognizer 6 registers the uttered voices of names and telephone numbers through the voice input of the object names and the corresponding telephone numbers for a voice recognition dialing. The dialing voice means of the recognizer 6 conductors a dialing, using the monosyllablic code data column of the names and the telephone number which have been registered beforehand from the voice analog signals of the names and the telephone numbers. The recognizer 6 conducts the recognition process, which uses the monosyllablic code data column of the names and the telephone numbers that have been registered with respect to input voice and the standard pattern data in half syllable nits. Then, the name of the telephone number monosyllablic code data column of the candidate having a small cumulative distance value is outputted as the recognized result.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識ダイアル
装置に関する。
The present invention relates to a voice recognition dial device.

【0002】[0002]

【従来の技術】従来では、認識単語登録の作業には使用
者のキー入力装置ヘの操作が必要であった。例えば、氏
名と電話番号の1人分の登録を実行しようとするには、
使用者が[人名の平仮名文字数]+[電話番号桁数]分
のキー操作入力が必要となる。
2. Description of the Related Art Conventionally, the operation of registering a recognized word requires an operation on a key input device by a user. For example, to try to register one name and phone number for one person,
It is necessary for the user to perform key operation input of [number of characters of hiragana in person's name] + [number of digits of telephone number].

【0003】携帯電話では小型化のために、パソコンの
ような全文字分の入力キーを持った入力装置ではなく、
入力キーの数量が限られているため、複数文字分が重複
されて割り当てられている。
In order to reduce the size of a mobile phone, instead of an input device such as a personal computer having input keys for all characters,
Since the number of input keys is limited, a plurality of characters are duplicated and assigned.

【0004】例えば、携帯電話の入力装置を例に、人名
=7文字、電話番号=10桁を登録しようとする場合を
考える。
[0004] For example, consider the case of registering a personal name = 7 characters and a telephone number = 10 digits, using an input device of a mobile phone as an example.

【0005】携帯電話では、ア行=1キー、力行=1キ
ー〜ラ行=1キー、ワヲン=1キーという形でキーが割
り当てられており、7文字を登録する場合最短で1×7
=7回のキー入力、最長で5×7=35回のキー入力、
平均で2.5×7=17.5回のキー入力となる。
In a mobile phone, keys are assigned in the form of a row = 1 key, power row = 1 key to la row = 1 key, and wow = 1 key. When seven characters are registered, the shortest is 1 × 7.
= 7 key inputs, up to 5 x 7 = 35 key inputs,
On average, 2.5 × 7 = 17.5 key inputs.

【0006】数字は全部がキーに割り当てられており、
操作モード変更することで入力できるため、1+10回
のキー入力となる。
[0006] All numbers are assigned to keys,
Since the input can be made by changing the operation mode, the key input is 1 + 10 times.

【0007】以上の例では、平均操作時間を1キー入力
当たり=2秒とすると2秒×(17.5+10)回=5
5秒となる。
In the above example, if the average operation time is 2 seconds per key input, 2 seconds × (17.5 + 10) times = 5
5 seconds.

【0008】[0008]

【発明が解決しようとする課題】上述した従来の技術で
は、音声認識ダイアル用の氏名と電話番号の登録操作時
間が長く、また操作間違いも少なくない。
In the above-mentioned prior art, the registration operation of the name and the telephone number for the voice recognition dial is long, and there are many erroneous operations.

【0009】また音声を用いた従来技術に特開平2−1
35847号公報に開示された音声応答認識自動ダイア
ル電話機があるが、この従来技術では、音声入力信号を
認識し文字データに、変換する機能を用いているが、実
現手段が明記されていない。
[0009] Japanese Patent Laid-Open No. 2-1 has disclosed a prior art using voice.
Although there is a voice response recognition automatic dial telephone disclosed in Japanese Patent No. 35847, this conventional technique uses a function of recognizing a voice input signal and converting it into character data, but does not specify a realizing means.

【0010】本発明の目的は、携帯電話機等における氏
名と電話番号登録操作、およびダイアル操作等のキー操
作における煩雑さを低減する音声認識ダイアル装置を提
供することにある。
An object of the present invention is to provide a voice recognition dial device which reduces the complexity of key operation such as name and telephone number registration operation and dial operation on a portable telephone or the like.

【0011】[0011]

【課題を解決するための手段】本発明の音声認識ダイア
ル装置は、氏名と電話番号を発声した音声のPCM信号
から音声認識処理により単音節コードデータ列を取得
し、音声認識ダイアル用の対象氏名と電話番号を音声入
力で登録する音声登録手段と、氏名又は電話番号の音声
アナログ信号からあらかじめ登録済みの氏名と電話番号
の単音節コードデータ列を用いてダイアルをする音声ダ
イアル手段と、入力音声に対する、登録済み氏名又は電
話番号の単音節コードデータ列と半音節単位の標準パタ
ーンデータとを用いた認識処理により、累積距離値の小
さい候補の氏名又は電話番号の単音節コードデータ列を
認識結果として出力する不特定話者半音節音声認識器と
を備えている。
A voice recognition dial device of the present invention acquires a monosyllabic code data string by voice recognition processing from a PCM signal of voice uttered a name and a telephone number, and obtains a target name for voice recognition dialing. Voice registration means for registering a telephone number and a telephone number by voice input, voice dial means for dialing from a voice analog signal of a name or a telephone number using a single syllable code data string of a name and a telephone number registered in advance, and input voice. By using the registered name or telephone number monosyllabic code data string and the semi-syllable unit standard pattern data, the recognition result of the candidate or the monosyllabic code data string of the candidate whose cumulative distance value is small And an unspecified speaker half-syllable speech recognizer.

【0012】また、音声登録手段は、音声アナログ信号
をPCM信号ヘ変換するADコンバータと、PCM信号
を音声アナログ信号ヘ変換するDAコンバータと、日本
語の1音節を表す単音節コードデータを受信しひらがな
と数字と漢字の表記文字を表示する表示手段と、単音節
コードデータを受信し音声PCMデータに変換しDAコ
ンバータに出力する音声応答手段と、日本人氏名と日本
語の全単音節と数字1桁の各々について発音表記の単音
節列を単音節コードデータで格納したデータベースRO
Mと、データベースROM内の氏名項目又は単音節項目
又は1桁数字項目の何れかの項目に属する1氏名又は1
単音節又は1桁数字の何れかの1リストに対する単音節
コードデータ列を読出し認識ワークRAMへ格納する手
段と、単音節単位又は数字1桁単位に発声された音声ア
ナログ信号をAD変換したPCM信号を不特定話者半音
節音声認識器へ入力し、単音節単位又は数字1桁単位の
認識処理を行い第1候補あるいは複数候補の認識結果を
得る手段と、単音節単位又は数字1桁単位の音声認識結
果情報とデータベースROM内の氏名項目又は1桁数字
項目の単音節コードデータ列との両方の情報を用いて発
声内容に最も近いと推測される氏名あるいは数字1桁以
上の単音節コードデータ列を検索し出力する音声登録用
検索器と、検索された氏名又は電話番号の単音節コード
データ列を各氏名と電話番号を対応付けて複数の各氏名
と電話番号リストを認識ワークRAMヘ蓄積格納する手
段とを備えていてもよい。
The voice registration means receives an AD converter for converting a voice analog signal to a PCM signal, a DA converter for converting a PCM signal to a voice analog signal, and monosyllabic code data representing one Japanese syllable. Display means for displaying hiragana, numbers and kanji notation characters, voice response means for receiving single syllable code data, converting it into voice PCM data, and outputting it to a DA converter, Japanese names and all single syllables and numbers in Japanese Database RO in which monosyllable strings of phonetic notation are stored as monosyllable code data for each one digit
M and 1 name or 1 belonging to any one of a name item, a monosyllabic item, and a single digit item in the database ROM
Means for reading a single syllable code data string for one list of single syllables or single digit numbers and storing the same in a recognition work RAM, and a PCM signal obtained by AD-converting a voice analog signal uttered in single syllable units or single digit units Is input to an unspecified speaker half-syllable speech recognizer, performs recognition processing in units of single syllables or digits, and obtains a recognition result of the first candidate or a plurality of candidates. Using both the speech recognition result information and the single-syllable code data string of the name item or single-digit number item in the database ROM, the name or single-syllable code data of one digit or more that is estimated to be closest to the utterance content A voice registration searcher that searches and outputs a column, and a list of multiple names and telephone numbers by associating the searched single-syllable code data strings of names or telephone numbers with each name and telephone number It may comprise a recognition work RAM f accumulation storage for unit.

【0013】また、音声登録用検索器は、不特定話者半
音節認識器から単音節単位又は数字1桁単位の音声認識
結果情報を累積距離値と共に情報受信し、データベ−ス
ROMに格納されている氏名項目又は1単音節又は1桁
数字項目の何れかの項目に属する1氏名又は1単音節又
は1桁数字の何れかの1リスト内で、1単音節単位に発
声された音声信号から最も距離の近い単音節コードデー
タ列を検索し認識ワークRAMへ格納する手段を有して
もよい。
Further, the voice registration searcher receives the voice recognition result information in units of single syllables or single digits together with the accumulated distance value from the unspecified speaker half-syllable recognizer, and stores the information in the database ROM. From a voice signal uttered in units of one single syllable in one list of one name or one single syllable or one digit belonging to any of the following items: A means for retrieving the closest monosyllable code data string and storing it in the recognition work RAM may be provided.

【0014】また、音声ダイアル手段は、ダイアルの宛
先の氏名又は電話番号に対応する発声した音声アナログ
信号をADコンバータで変換したPCM信号を不特定話
者半音節音声認識器ヘ入力し、認識ワークRAM内の登
録済み氏名又は電話番号リストに対して発声した音声ア
ナログ信号に最も近いと推測される認識結果を単音節コ
ードデータ列で取得する手段と、認識結果が氏名の場合
は対応付けされた電話番号の単音節コードデータ列を認
識ワークRAM内から検索して出力する手段と、電話番
号の単音節コードデータ列から電話端末本体ヘの電話発
呼信号ヘ変換する手段とを有してもよい。
The voice dial means inputs a PCM signal obtained by converting an uttered voice analog signal corresponding to the name or telephone number of the dial destination by an AD converter to an unspecified speaker half-syllable voice recognizer, and performs a recognition work. Means for obtaining a recognition result estimated to be closest to the voice analog signal uttered for the registered name or telephone number list in the RAM as a single syllable code data string is associated with the recognition result if the recognition result is a name. A means for retrieving a monosyllabic code data string of a telephone number from the recognition work RAM and outputting the same, and a means for converting the monosyllabic code data string of the telephone number to a telephone call signal to the telephone terminal body Good.

【0015】また、不特定話者半音節音声認識器は、認
識ワークRAM又はデータベースROMに格納されてい
る氏名又は電話番号の単音節単位の単音節コードデータ
列に対し半音節単位の半音節コードデータ列ヘ変換する
手段と、氏名又は電話番号の半音節コードデータ列に対
して標準パターン生成器の不特定話者半音節音声認識装
置用の標準パターンデータ生成により得られた標準パタ
ーンを格納した標準パターンROM内からどの半音節単
位の隠れマルコフモデルが含まれているかを調ベ、さら
に隠れマルコフモデル状態の連結を示す半音節隠れマル
コフモデル状態コードデータ列ヘ変換する手段と、氏名
又は電話番号の半音節隠れマルコフモデル状態コードデ
ータ列を氏名−電話番号の関係で対応付けし、さらに他
の氏名−電話番号リストと識別可能なように番号付きリ
ストに変換して認識ワークRAMヘ格納する手段と、音
声アナログ信号をAD変換した音声PCM信号からフレ
ーム単位の入力特徴ベクトルを抽出する音声分析特徴抽
出器と、抽出された入力特徴ベクトルを認識ワークRA
Mヘ格納する手段と、入力特徴ベクトルと、標準半音節
隠れマルコフモデルパターンROMに格納されている全
半音節隠れマルコフモデルの全状態の標準特徴ベクトル
との状態距離値を算出する状態距離計算器と、算出され
た状態距離値に番号付けして認識ワークRAMに格納す
る手段と、認識ワークRAMに格納された認識対象の各
氏名又は電話番号に対する半音節隠れマルコフモデル状
態コードデータ列の状態結合情報と各状態距離値と標準
パターンROM内に格納されている状態間遷移距離値と
を用いてフレーム同期Viterbiアルゴリズムによ
り入力音声時間長分の全フレームに対する累積距離値を
算出する累積状態距離計算器と、最も累積距離値の小さ
い第1候補又は第1〜第N候補の氏名又は電話番号に対
する単音節コードデータ列を認識結果として出力する手
段とを有してもよい。
Further, the unspecified speaker half-syllable speech recognizer uses a half-syllable unit of a single-syllable code data string stored in a recognition work RAM or a database ROM. A means for converting to a data string, and a standard pattern obtained by generating a standard pattern data for an unspecified speaker half-syllable speech recognition device of a standard pattern generator for a half-syllable code data string of a name or a telephone number are stored. A means for checking which half-syllable unit hidden Markov model is included in the standard pattern ROM, further converting the data into a semi-syllable hidden Markov model state code data string indicating the connection of the hidden Markov model state, and a name or telephone number. The half-syllable hidden Markov model status code data string is associated with the name-telephone number relation, and the other name-telephone number Means for converting into a numbered list so that it can be distinguished from the list and storing it in a recognition work RAM; a speech analysis feature extractor for extracting an input feature vector in frame units from a speech PCM signal obtained by AD-converting a speech analog signal; Recognition work RA for extracted input feature vectors
A state distance calculator for calculating a state distance value between an input feature vector and a standard feature vector of all states of a full syllable hidden Markov model stored in a standard semisyllable hidden Markov model ROM. Means for numbering the calculated state distance value and storing the number in the recognition work RAM, and connecting the state of the half-syllable hidden Markov model state code data string for each name or telephone number of the recognition object stored in the recognition work RAM Cumulative state distance calculator that calculates the cumulative distance value for all frames of the input voice time length by the frame synchronization Viterbi algorithm using the information, each state distance value, and the state transition distance value stored in the standard pattern ROM. And a monosyllabic code for the name or telephone number of the first candidate or the first to Nth candidates with the smallest cumulative distance value It may have a means for outputting over data sequence as a recognition result.

【0016】また、標準パターン生成器は、統計的に必
要とされる人数分の多数話者の音声アナログ信号をAD
変換したPCM信号を、波形表示あるいは試聴等により
所定数の種類の単音節単位のPCM信号ヘ分割する手段
と、単音節単位に分割された全てのPCM信号をバッフ
ァリングし、波形表示あるいは試聴等により所定数の種
類の半音節単位のPCMデータ信号ヘ分割する手段と、
半音節単位に分割された全ての各PCM信号をフレーム
単位に分割する手段と、フレーム単位に分割された全て
のPCM信号に対して特徴ベクトルを抽出する音声分析
特徴抽出器と、状態数が所定の個数の隠れマルコフモデ
ルにおいて所定の個数の状態出力確率関数と所定の個数
の2倍個数分の状態遷移確率のパラメータを初期値設定
する手段と、状態出力確率関数を初期設定する際に多次
元正規分布確率密度関数を用いると共に、母数として平
均ベクトルおよび共分散行列の各成分を初期値設定する
手段と、所定の種類分の半音節毎に得られた統計的に必
要とされる人数分のフレーム単位の特徴ベクトルから、
各半音節毎に統計的に必要とされる人数分の特徴ベクト
ルサンプルとして整理して、Forward−Back
wardアルゴリズムという反復的手法により所定の個
数の平均ベクトルおよび共分散行列の各成分値と所定の
個数の2倍個数分の状態遷移確率とを得る手段と、所定
の種類分の半音節毎に得られた隠れマルコフモデルのパ
ラメータ群である多次元正規分布確率密度関数の平均ベ
クトルと共分散行列と状態遷移確率とのパラメータ値を
標準パターンデータとして標準パターンROMヘ格納す
る手段とを有してもよい。
Further, the standard pattern generator converts the analog voice signals of a large number of speakers, which are statistically required, into AD signals.
Means for dividing the converted PCM signal into PCM signals of a predetermined number of single syllable units by waveform display or sample listening, buffering all PCM signals divided by single syllable unit, and displaying waveform or sample listening Means for dividing into a predetermined number of types of semi-syllable unit PCM data signals by
Means for dividing all the PCM signals divided in units of syllables in units of frames, a speech analysis feature extractor for extracting a feature vector for all PCM signals divided in units of frames, Means for setting initial values of a predetermined number of state output probability functions and two times the predetermined number of state transition probabilities in the number of hidden Markov models, and multidimensional when initializing the state output probability functions Means for using the normal distribution probability density function, setting initial values of the mean vector and each component of the covariance matrix as parameters, and the number of statistically required persons obtained for each predetermined type of semisyllable From the frame-based feature vector of
Forward-Back is organized as feature vector samples for the number of people who are statistically required for each syllable.
means for obtaining a predetermined number of mean vector and each component value of the covariance matrix and a state transition probability of twice the predetermined number by an iterative method called a ward algorithm; Means for storing parameter values of a mean vector, a covariance matrix, and a state transition probability of a multidimensional normal distribution probability density function, which is a parameter group of the obtained hidden Markov model, as standard pattern data in a standard pattern ROM. Good.

【0017】さらに、音声分析特徴抽出器は、入力音声
のPCM信号をフレーム分割したフレームPCM信号を
プリエンフアシス処理することにより高周波数帯域を強
調する手段と、プリエンフアシス処理済みフレームPC
M信号に対し窓処理することによりこの後のFFT処理
のためのフレーム境界のスムージング処理をする手段
と、窓処理後のフレームPCM信号をN次FFT変換処
理することにより線形周波数軸上のN次複素係数ベクト
ルへ変換する手段と、N次複素係数ベクトルから複素数
の絶対値計算によりN次振幅係数ベクトルへ変換する手
段と、N次振幅係数ベクトルに対し対数演算を施してN
次対数振幅係数ベクトルを算出する手段と、N次対数振
幅係数ベクトルに対し時間軸上への逆離散余弦変換によ
りP次ケプストラムベクトルを算出する手段と、P次ケ
プストラムベクトルの高時間成分を抑圧する処理によ
り、声道特性とピッチ特性を分離し声道特性のみを抽出
したP次声道特性ケプストラムベクトルを算出する手段
と、P次声道特性ケプストラムベクトルに対し周波数軸
上ヘの離散余弦変換を行い、線形周波数軸上におけるN
次声道特性対数振幅係数ベクトルに変換する手段と、N
次声道特性対数振幅係数ベクトルに対しメル周波数軸上
における等分割点上のスペクトル成分ヘ補間あるいはス
ムージング処理を施したべクトル成分を算出することに
より人間の聴覚周波数分解能特性に合わせたN次声道特
性対数振幅メル尺度係数ベクトルヘ変換する手段と、N
次声道特性対数振幅メル尺度係数ベクトルに対し時間軸
上ヘの逆離散余弦変換によりQ次メルケプストラムベク
トルヘ変換する手段とを有してもよい。
Further, the voice analysis feature extractor includes means for emphasizing a high frequency band by performing pre-emphasis processing on a frame PCM signal obtained by dividing the PCM signal of the input voice into frames, and a pre-emphasis processed frame PC.
Means for performing window processing on the M signal to perform frame boundary smoothing processing for subsequent FFT processing; and performing N-order FFT conversion processing on the frame-processed PCM signal for N-th order on the linear frequency axis. Means for converting to a complex coefficient vector; means for converting an N-order complex coefficient vector to an N-order amplitude coefficient vector by calculating the absolute value of a complex number;
Means for calculating an order logarithmic amplitude coefficient vector, means for calculating a Pth order cepstrum vector by performing an inverse discrete cosine transform on the time axis for an Nth order logarithmic amplitude coefficient vector, and suppressing a high time component of the Pth order cepstrum vector. Means for calculating a Pth vocal tract characteristic cepstrum vector by separating the vocal tract characteristic and the pitch characteristic and extracting only the vocal tract characteristic, and performing a discrete cosine transform on the frequency axis for the Pth vocal tract characteristic cepstrum vector. And N on the linear frequency axis
Means for converting to a second vocal tract characteristic logarithmic amplitude coefficient vector;
Nth vocal tract adapted to human auditory frequency resolution characteristics by calculating vector components obtained by performing interpolation or smoothing processing on spectral components on equal division points on the mel frequency axis with respect to the logarithmic amplitude coefficient vector of the secondary vocal tract characteristics Means for transforming into a characteristic log magnitude mel scale coefficient vector;
Means for transforming the secondary vocal tract characteristic logarithmic amplitude mel scale coefficient vector into a Qth-order mel-cepstral vector by inverse discrete cosine transformation on the time axis.

【0018】さらに、状態距離計算器は、入力音声のア
ナログ信号をAD変換しさらにフレーム分割したフレー
ムPCM信号から音声分析特徴抽出器により得られた入
力特徴ベクトルと標準半音節隠れマルコフモデルの全状
態の標準特徴ベクトルとの状態距離値を所定の距離計算
式により算出する手段を有してもよい。
Further, the state distance calculator converts the analog signal of the input voice into an analog signal, converts the analog signal of the input voice into frames, and further divides the frame into PCM signals obtained by the voice analysis feature extractor and all the states of the standard semisyllable hidden Markov model. Means for calculating a state distance value with the standard feature vector by a predetermined distance calculation formula.

【0019】さらに、累積距離計算器は、認識対象の氏
名又は電話番号に対する半音節隠れマルコフモデル状態
コードデータ列の状態結合情報と各状態距離値と標準パ
ターンROM内に格納されている状態間選移距離値とを
用いてフレーム同期Viterbiアルゴリズムにより
入力音声の全フレームに対する累積距離値を算出する手
段を有してもよい。
Further, the cumulative distance calculator calculates the state combination information of the half-syllable hidden Markov model state code data string for the name or telephone number to be recognized, each state distance value, and the state selection stored in the standard pattern ROM. There may be provided means for calculating a cumulative distance value for all frames of the input voice by a frame synchronization Viterbi algorithm using the transfer distance value.

【0020】従って、本発明により、音声認識ダイアル
用の氏名と電話番号の登録操作時間が従来例と比べて短
縮され、また操作間違いも少なくなる。
Therefore, according to the present invention, the operation time for registering the name and telephone number for the voice recognition dial is reduced as compared with the conventional example, and the number of operation errors is reduced.

【0021】また、従来技術の認識自動ダイアル電話機
では、明記されていなかった音声から文字表示を行う音
声認識処理について、この技術の実現手段を明記するこ
とで本発明の属する技術分野において実際に利用可能と
なる。
Also, in the recognition automatic dial telephone of the prior art, the voice recognition processing for displaying characters from unspecified voice is actually used in the technical field to which the present invention belongs by specifying means for realizing this technology. It becomes possible.

【0022】[0022]

【発明の実施の形態】本発明の実施の形態について図面
を参照して説明する。図1は本発明の実施の形態の全体
構成を示すブロック図である。まず、記憶装置として2
種類のROM(データベースROM1、標準パタ−ンR
OM2)と、2種類のRAM(認識ワークRAM3、検
索ワークRAM4)とがある。
Embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the overall configuration of the embodiment of the present invention. First, 2 as a storage device
ROM (database ROM1, standard pattern R)
OM2) and two types of RAMs (a recognition work RAM3 and a search work RAM4).

【0023】また、機能ブロックとして標準パターン生
成器5と、不特定話者半音節音声認識器6と、音声登録
用検索器7と、ADコンバータ8と、DAコンバータ9
と、音声合成器10と、携帯電話本体部11と、キーマ
トリクス12と、表示装置13と、I/F部14とがあ
る。以降では、音声登録動作と音声ダイアル動作に分け
て実施内容を説明する。また、これに続き主要な機能ブ
ロックの内部詳細動作を、標準パターン生成器5と、不
特定話者半音節音声認識器6と、音声登録用検索器7
の、各々について各記憶装置間との連係動作内容も含め
て説明する。
The functional blocks include a standard pattern generator 5, an unspecified speaker half-syllable speech recognizer 6, a speech registration searcher 7, an AD converter 8, and a DA converter 9
, A voice synthesizer 10, a mobile phone main unit 11, a key matrix 12, a display device 13, and an I / F unit 14. Hereinafter, the contents of the implementation will be described separately for the voice registration operation and the voice dial operation. Subsequently, the internal detailed operation of the main functional blocks is described by a standard pattern generator 5, an unspecified speaker half-syllable speech recognizer 6, and a speech registration searcher 7
Are described together with the contents of the link operation with each storage device.

【0024】また、図1に示す機能ブロックに対する実
施の形態としては、基本的に半導体集積回路と複合装置
等により実現可能である。まずROM1、2と、RAM
3、4と、ADコンバータ8と、DAコンバータ9など
は、半導体集積回路となる。また、携帯電話本体11
と、キーマトリクス12と、表示装置13(これはLC
D等)と、I/F部14(これは携帯電話と拡張機器を
接続するための拡張コネクタが利用可)は、複合装置と
なる。さらに、音声登録用検索器7と、不特定話者半音
節音声認識器6と、音声合成器10は、CPUあるいは
音声信号処理を高速演算可能なDSPと呼ばれるマイク
ロプログラム内蔵可能な半導体集積回路上におけるソフ
トウェアにより実現することが可能である。
The embodiment for the functional blocks shown in FIG. 1 can be basically realized by a semiconductor integrated circuit and a composite device. First, ROM1, 2 and RAM
3, 4, the AD converter 8, the DA converter 9, and the like constitute a semiconductor integrated circuit. Also, the mobile phone body 11
, A key matrix 12 and a display device 13 (this is an LC
D, etc.) and the I / F unit 14 (which can use an expansion connector for connecting the mobile phone and the expansion device) constitute a composite device. Furthermore, the voice registration searcher 7, the unspecified speaker half-syllable voice recognizer 6, and the voice synthesizer 10 are provided on a semiconductor integrated circuit that can incorporate a microprogram called a CPU or a DSP capable of performing high-speed operation of voice signal processing. It can be realized by software in the above.

【0025】1.音声登録動作 まず、データベースROM1に格納されている全ての単
音節単位(ひらがな1文字、即ち50音+α(濁音、拗
音等))の単音節コードデータ(ASCIIあるいはJ
ISあるいはSJIS等)を読み出し、更に各単音節コ
ードデータを半音節コードデータ(半音節単位とは1音
節をさらに半分に分割した音素単位をいい、例“た”の
場合、TA→T−,−Aに分割する)に変換して認識ワ
ークRAM3ヘ格納する。なお、単音節→半音節ヘの変
換は後述の3.不特定話者半音節音声認識器に内蔵され
た機能である。
1. Speech registration operation First, single syllable code data (ASCII or J) in all single syllable units (one hiragana character, that is, 50 tones + α (dull sounds, murmur sounds, etc.)) stored in the database ROM1.
IS or SJIS, etc., and further divides each single syllable code data into half syllable code data (a half syllable unit is a phoneme unit obtained by further dividing one syllable into half. For example, in the case of “ta”, TA → T−, -Divided into -A) and stored in the recognition work RAM 3. The conversion from a single syllable to a half syllable is described in 3. This function is built into the unspecified speaker half-syllable speech recognizer.

【0026】次に登録する氏名と電話番号を離散単音節
単位あるいは数字1桁単位に離散発声することにより、
この登録氏名と登録電話番号のひらがな文字情報として
単音節コードデータを、また数字情報として数字コード
データを以下に詳細に述べる(1)氏名登録動作および
(2)電話番号登録動作により得ることができる。さら
に、得られた氏名と電話番号の対応関連情報と、登録順
の番号を付けて認識ワークRAM3ヘ格納しておく。こ
れにより、ー連の音声登録動作が終了する。以降の
(1)および(2)では、氏名を“たかはし”、電話番
号を“03−123−4567”という例を用いて、音
声登録動作の詳細内容について説明する。
Next, by discretely uttering the name and telephone number to be registered in discrete monosyllable units or single digit units,
The monosyllabic code data as the hiragana character information of the registered name and the registered telephone number and the numerical code data as the numerical information can be obtained by the following (1) name registration operation and (2) telephone number registration operation. . Further, the obtained association information between the name and the telephone number and the number in the order of registration are given and stored in the recognition work RAM 3. Thereby, the consecutive voice registration operation ends. In the following (1) and (2), the details of the voice registration operation will be described using an example in which the name is “Takahashi” and the telephone number is “03-123-4567”.

【0027】(1)氏名登録動作 図2は音声登録動作モードのフローチャートである。(1) Name Registration Operation FIG. 2 is a flowchart of the voice registration operation mode.

【0028】まず発声者は、“た”:“か”:“は”:
“し”と単音節毎に無音間隔を入れて発声した音声アナ
ログ信号をADコンバータ8によりPCM信号ヘ変換す
る(S3)。これらの4つの単音節分の各PCM信号に
対して不特定話者半音節音声認識器6により、単音節単
位の認識結果を得る(S4)。ここで認識結果は、近い
ものから第1〜第5候補まで出力されるものとする。な
お、複数の単音節認識結果候補を必要とする理由は、半
音節等の音素単位の音声認識器では通常最小音素単位の
認識精度が低く、例えば“た”と発声しても第1候補に
は同母音系の音節として、“あかさたなはまやらわ”
(拗音、濁音等の同母音系も含む)のような認識結果が
出力される確率が高いため、第1候補だけではほとんど
正確な認識結果が得られないのである。そこで認識結果
として複数候補を用いるならば真の発声音節の認識結果
がこれらの複数候補に含まれる可能性が高くなり、さら
に、次に述べる登録氏名決定のための音声登録用検索器
7とデータベースROM1の情報とから認識確度が上が
ることになる。
First, the speaker is "ta": "ka": "ha":
A voice analog signal uttered with a silence interval of "S" and a single syllable is converted into a PCM signal by the AD converter 8 (S3). An unspecified speaker half-syllable speech recognizer 6 obtains a single-syllable unit recognition result for each of the four single-syllable PCM signals (S4). Here, it is assumed that the recognition results are output from the closest one to the first to fifth candidates. The reason that a plurality of single syllable recognition result candidates are required is that the recognition accuracy of a minimum phoneme unit is usually low in a speech recognizer of a phoneme unit such as a half syllable. Is the same vowel syllable,
Since a recognition result such as a vowel system such as a murmur or a muddy tone is likely to be output, almost no accurate recognition result can be obtained by using only the first candidate. Therefore, if a plurality of candidates are used as the recognition result, there is a high possibility that the recognition result of the true vocal syllable is included in the plurality of candidates, and further, a voice registration search unit 7 and a database for determining a registration name described below. The recognition accuracy is increased from the information in the ROM 1.

【0029】さて、氏名例の“た”“か”“は”“し”
という4音節の離散発声アナログ信号をAD変換した各
々のPCM信号に対して、全ての単音節を認識候補とし
た(実際には、データベースROM1から認識ワークR
AM3ヘ全ての単音節コードデータを転送しておく)不
特定話者半音節音声認識器6により図3に示すように4
音節×5候補分の認識結果を得る。
By the way, the names "ta""ka""ha""shi"
For each PCM signal obtained by AD-converting a four-syllable discrete utterance analog signal, all single syllables were regarded as recognition candidates (actually, the recognition work R
All the monosyllable code data is transferred to AM3). As shown in FIG.
A recognition result for syllables × 5 candidates is obtained.

【0030】これらの情報は4.音声登録用検索器で説
明するように登録ワークRAMヘ格納される。
These information are described in 4. It is stored in the registration work RAM as described in the voice registration search device.

【0031】次に音声登録用検索器7により、これらの
認識結果とデータベースROM1内の4音節に限定した
(発声回数が4回のため)氏名リストから検索処理によ
リ登録氏名を決定する(S9)。
Next, the voice registration search unit 7 determines the registered name by a search process from the recognition result and the name list limited to four syllables in the database ROM 1 (since the number of utterances is four) (see FIG. 4). S9).

【0032】なお、氏名の検索結果を複数候補とる場合
には、表示機能あるいは音声合成機能等を用いて、キー
入力等により最終的に利用者(=発声者)選択させるこ
とも出来る(S10)。
If a plurality of name search results are to be obtained, a user (= speaker) can be finally selected by key input or the like using a display function or a voice synthesis function (S10). .

【0033】(2)電話番号登録動作 図4は電話番号登録動作モードのフローチャートであ
る。
(2) Telephone Number Registration Operation FIG. 4 is a flowchart of a telephone number registration operation mode.

【0034】電話番号登録は、認識ワークRAM3に数
字の単音節結合リスト「″ぜ+ろ(0)″〜″き+ゅ+
う(9)″)をあらかじめロードしておき、電話番号の
桁数分だけ数字1桁ずつ離散発声を行うことにより(S
13)得られる認識結果を図5に示すように数字を直接
表すコードに変換する(S14)。なお、数字認識の場
合は、単音節認識に比べ認識対象リストも10程度であ
り、また2音節以上の認識の場合は、認識精度も上がる
ため、あらかじめ電話番号リストをデータベースROM
1に準備する必要がない。数字の結果を複数候補とる場
合には、表示機能あるいは音声合成機能等を用いて、キ
ー入力等により最終的に利用者(=発声者)に選択させ
ることも出来る(S16)。
The telephone number is registered in the recognition work RAM 3 in a single syllable combination list of numbers "" ++ (0) "to" @ + @ +
(9) ″) is loaded in advance, and the discrete utterance is performed one digit at a time for each digit of the telephone number (S
13) The obtained recognition result is converted into a code directly representing a number as shown in FIG. 5 (S14). Note that in the case of digit recognition, the recognition target list is about 10 compared to single syllable recognition, and in the case of recognition of two or more syllables, the recognition accuracy is improved.
There is no need to prepare for 1. When a plurality of numerical results are selected, the user (= speaker) can be finally selected by key input or the like using a display function or a voice synthesis function (S16).

【0035】なお、電話番号の登録の際は、携帯電話等
においてはキー入力操作も選択可能にしておいてもよ
い。一般に数字のキー割り当ては、1桁ずつある場合が
多いので氏名入力ほど煩雑さの程度が低いからである。
When registering a telephone number, a key input operation on a mobile phone or the like may be made selectable. This is because, in general, numeric key assignment is often performed one digit at a time, and thus the input of a name is less complicated.

【0036】2.音声ダイアル動作 図6は音声ダイアル動作モードのフローチャートであ
る。
2. Voice Dial Operation FIG. 6 is a flowchart of the voice dial operation mode.

【0037】ダイアルを始める前に氏名または電話番号
の音声入力選択をキー入力等の指定により、認識ワーク
RAM3内に格納されている氏名あるいは電話番号のい
ずれを認識対象とするかの初期設定を行っておく(S2
2、S23、S30)。
Before starting dialing, an initial setting as to which of the name or telephone number stored in the recognition work RAM 3 is to be recognized is made by designating the voice input of the name or telephone number by key input or the like. (S2
2, S23, S30).

【0038】次に氏名あるいは電話番号の発声を行い
(S24、S31)、このアナログ音声信号をAD変換
したPCM信号に対して、不特定話者半音節音声認識器
により認識処理を行う(S25、S32)。
Next, a name or a telephone number is uttered (S24, S31), and the PCM signal obtained by AD-converting the analog voice signal is subjected to recognition processing by an unspecified speaker half-syllable voice recognizer (S25, S25). S32).

【0039】この認識結果は、初期設定において、氏名
なのか、それとも電話番号であるかがわかっている。そ
のため電話番号の認識結果を得た場合は、その情報によ
り電話番号の数字コード等からダイアル用の発呼信号ヘ
変換してダイアルを実行できる(S36、S37)。氏
名の認識結果を得た場合には、氏名と電話番号の関係付
けされた情報から電話番号の数字コードを特定して同様
にダイアルが可能となる(S29、S36、S37)。
なお、電話番号あるいは氏名の認識処理後にダイアルを
実行する前に氏名の文字と電話番号の数字を表示した
り、あるいは音声合成器により音を出力したりすること
により1回の確認手続きを入れたりする(S27、S3
4)ことで、より親和性のある音声ダイアル機能にする
ことも可能である。
In the initial setting, it is known whether the recognition result is a name or a telephone number. Therefore, when the telephone number recognition result is obtained, the dialing can be executed by converting the numeric code or the like of the telephone number into a dial call signal based on the information (S36, S37). When the name recognition result is obtained, the number code of the telephone number is specified from the information in which the name and the telephone number are associated with each other, and the dial can be similarly performed (S29, S36, S37).
In addition, after the telephone number or name recognition process, before executing the dial, the name character and the number of the telephone number are displayed, or the sound is output by a voice synthesizer to perform a single confirmation procedure. Yes (S27, S3
4) By doing so, it is possible to make the voice dial function more compatible.

【0040】3.不特定話者半音節音声認識動作 (1)標準パターン生成処理 図7及び図8は標準パターン生成器の機能ブロック構成
図である。
3. Unspecified speaker half-syllable speech recognition operation (1) Standard pattern generation processing FIGS. 7 and 8 are functional block configuration diagrams of the standard pattern generator.

【0041】図9は標準パターン生成器による標準パタ
ーン生成処理のフローチャートである。
FIG. 9 is a flowchart of the standard pattern generation processing by the standard pattern generator.

【0042】標準パターンの生成は、多数話者(Nmax
人とする)の発声音声サンプルから各半音節単位の隠れ
マルコフモデル(HMM;Hidden Marcov
Model)の確率パラメータを推定することにな
る。
The generation of the standard pattern is performed by using a large number of speakers (Nmax
Hidden Markov model (HMM) for each syllable unit from the uttered voice sample of
Model) probability parameter.

【0043】まず、全ての調音結合パターンを含んだバ
ランス音素テキストを用意し、統計的に十分な多数の話
者=Nmax 人に発声させて(S38)、AD変換し(S
39)、PCM信号を一旦認識ワークRAM3ヘ格納し
ておく。次にPCMデータを波形表示あるいはDA変換
することで目視あるいは試聴等の作業により、Hmax種
類の単音節単位に区切り(S40)、さらに前後の調音
結合を考慮して分類したImax 種類の半音節単位毎に半
音節PCM信号を得る(S41)。この処理の様子を図
11の例に示す。
First, a balanced phoneme text including all articulatory connection patterns is prepared, and a number of statistically sufficient speakers = Nmax are uttered (S38), and AD converted (S38).
39), and temporarily store the PCM signal in the recognition work RAM 3. Next, the PCM data is waveform-displayed or D / A-converted, and divided into Hmax-type single syllable units (S40) by work such as visual observation or sample listening, and further, Imax-type semisyllable units classified in consideration of articulation before and after. A semisyllable PCM signal is obtained every time (S41). The state of this processing is shown in the example of FIG.

【0044】ここで“K−”の“―”は後方に音が続い
ていることを示しており、“一A”の“−”は、前方の
音に続くことを示している。
Here, "-" of "K-" indicates that a sound follows, and "-" of "1A" indicates that the sound follows the preceding sound.

【0045】以上までにおいて、半音節種類数×Nmax
人分のPCM信号サンプルが準備できたことになる。こ
れらのPCM信号サンプルについてさらに1フレームあ
たり12ms〜16ms程度に分割(フレミング)した
(S42)後に、後述の音声分析特徴抽出処理により半
音節種類×Nmax 人分の特徴ベクトル(フレーム単位)
を得る(S43)。
Up to the above, the number of semisyllable types × Nmax
The PCM signal samples for the person are ready. After further dividing (framing) these PCM signal samples into frames of about 12 ms to 16 ms per frame (S42), a feature vector (frame unit) for half syllable types × Nmax is obtained by speech analysis feature extraction processing described later.
Is obtained (S43).

【0046】そして、最終的に“K−”の為の標準パタ
ーンを生成するということは、1つの半音節カテゴリー
“K−”に1つのHMMの標準パターンモデルを対応さ
せ、その半音節のFmax フレーム分の特徴ベクトル出力
が対応するHMMの4状態の遷移過程で最も高い確率で
出力されるように各状態の確率パラメータおよび状態遷
移確率を求めることにある。
Finally, generating a standard pattern for "K-" means that one HMM standard pattern model is associated with one semisyllable category "K-", and the Fmax of the half syllable is obtained. An object is to obtain a probability parameter and a state transition probability of each state so that a feature vector output for a frame is output with the highest probability in the transition process of the corresponding four states of the HMM.

【0047】次に、各半音節種類毎に状態数=Jmax 個
のLeft to Right型HMMの状態出力確率
関数Bjの母数とJmax ×2個分の状態遷移確率=α
(j−1,j)およびα(j,j)の各パラメータを求
める方法について説明する。例として、1つの半音節”
K−”に対して、図11のような状態数が4の半音節H
MMの各パラメータをNmax 人の特徴ベクトルから求め
る場合を説明する。
Next, for each semisyllable type, the number of states = Jmax The parameter of the state output probability function Bj of the Left to Right type HMM and the state transition probability of Jmax × 2 state = α
A method for obtaining each parameter of (j-1, j) and α (j, j) will be described. For example, one semisyllable "
For K- ", a semisyllable H having four states as shown in FIG.
The case where each parameter of MM is obtained from Nmax feature vectors will be described.

【0048】ここで、α00〜α33は、以下のように状態
遷移確率α[*,*]を示す。 ・α(j−1,j):状態j−1からjヘの状態遷移確
率(α01、α02、α03)。・α(j,j):状態jから
jヘの状態遷移確率(α00、α11、α22、α33)。
Here, α 00 to α 33 indicate the state transition probabilities α [*, *] as follows. Α (j−1, j): state transition probabilities from state j−1 to j (α 01 , α 02 , α 03 ). Α (j, j): state transition probability from state j to j (α 00 , α 11 , α 22 , α 33 ).

【0049】また、出力確率=B0〜B3は、以下のよう
な算出式になる。 ・Bj:下式の状態jの特徴ベクトル出力確率関数(初
期設定する際に多次元正規分布(ガウス)確率密度関数
を用いると共に、母数として平均ベクトルおよび共分散
行列の各成分を初期値設定する。)
The output probability = B 0 -B 3 is calculated as follows. Bj: a feature vector output probability function of state j in the following equation (using a multidimensional normal distribution (Gaussian) probability density function at the time of initial setting, and initial values of each component of a mean vector and a covariance matrix as parameters) Yes.)

【0050】[0050]

【数1】 (備考:tは転置操作(縦ベクトル→横ベクトル)、V
kmj の−1は逆行列を示す。) ただし、 j=状態番号、j=0〜Jmax-1 k:混合分布番号。k=0〜Kmax-1、Kmax:混合分布
数 m:特徴ベクトル種類番号。m=0〜Mmax-1、Mmax:
特徴ベクトル種類数 λkmj :混合分布の重みを決める混合分布係数 μmj:特徴ベクトル種類間の重みを決める特徴ベクトル
重み係数 Xm :入力音声サンプルのフレーム単位の特徴ベクトル
(Equation 1) (Note: t is a transpose operation (vertical vector → horizontal vector), V
kmj-1 indicates an inverse matrix. Where j = state number, j = 0 to Jmax-1 k: mixture distribution number. k = 0 to Kmax-1, Kmax: number of mixture distributions m: feature vector type number m = 0 to Mmax-1, Mmax:
Number of feature vector types λkmj: Mixture distribution coefficient that determines the weight of mixture distribution μmj: Feature vector weighting factor that determines the weight between feature vector types Xm: Feature vector of input speech sample in frame units

【0051】[0051]

【数2】 Vkmj :共分散行列 |Vkmj| :Vm のノルム(行列式) なお以降では、説明を容易にするため混合分布数を1
(Kmax=1、λkmj=1)、および特徴ベクトル種類を
1(Mmax=1、μmj=1) として下式を用いる。 [混合分布数=特徴ベクトル数=1とした場合の出力確
率密度関数]
(Equation 2) Vkmj: covariance matrix | Vkmj |: norm of Vm (determinant) In the following, the number of mixture distributions is set to 1 for ease of explanation.
(Kmax = 1, λkmj = 1) and the feature vector type is 1 (Mmax = 1, μmj = 1), and the following expression is used. [Output probability density function when the number of mixture distributions = the number of feature vectors = 1]

【0052】[0052]

【数3】 ここで求めるパラメータは、(Equation 3) The parameter to be calculated here is

【0053】[0053]

【数4】 共分散行列:Vj と、状態遷移確率:α(j−1,j)
およびα(j,j)であり、これが半音節”K−”の標
準パターンとなる。
(Equation 4) Covariance matrix: Vj and state transition probability: α (j-1, j)
And α (j, j), which are the standard patterns of the semisyllable “K−”.

【0054】これらのパラメータは、Nmax 人分の半音
節”K−”の特徴ベクトルサンプルから以下に述ベるF
B(Forward Backward)アルゴリズム
(Baum−welchアルゴリズムともいい、EM
(Expectaton Maximization)
手法を基本としたアルゴリズム)により反復的に収束す
るまで演算を繰り返すことにより得られる。
These parameters are obtained from the feature vector samples of Nmax syllables “K−” as described below.
B (Forward Backward) algorithm (also called Baum-welch algorithm, EM
(Expecton Maximization)
(Algorithm based on the method) until the convergence is repeated.

【0055】FBアルゴリズムを述べる前に、まず、半
音節”K−”のNmax 人分の特徴ベクトルを以下のよう
に再定義する。
Before describing the FB algorithm, first, the feature vectors of Nmax persons of the syllable "K-" are redefined as follows.

【0056】○再定義 話者nの特徴ベクトル:X→X(n,f) ただし、 n:話者番号、n=0〜Nmax-1 f:フレーム番号、f=0〜Fmax(n)-1 Fmax(n):話者番号nの半音節”K−”のフレーム数 (注:−般に話者毎にサンプルしたフレーム数は異な
る) さらに、以下のFBアルゴリズム処理を行う(S4
6)。
Redefinition: Feature vector of speaker n: X → X (n, f) where n: speaker number, n = 0 to Nmax−1 f: frame number, f = 0 to Fmax (n) − 1 Fmax (n): the number of frames of the half syllable “K−” of the speaker number n (Note: generally, the number of frames sampled for each speaker is different) Further, the following FB algorithm processing is performed (S4).
6).

【0057】[FBアルゴJズム] 共分散行列:Vj 、[FB algorithm] Covariance matrix: Vj,

【0058】[0058]

【数5】 状態遷移確率:α[j−1,j]およびα[j,j]の
初期値を設定する(S45)。
(Equation 5) State transition probabilities: Initial values of α [j−1, j] and α [j, j] are set (S45).

【0059】[初期設定値][Initial setting value]

【0060】[0060]

【数6】 共分散行列:Vj→Vj 0 状態遷移確率:α[j−1,j]→α[j−1,j]
0 およびα[j,j]→α[j,j] 0
(Equation 6) Covariance matrix: Vj → Vj 0 State transition probability: α [j-1, j] → α [j-1, j]
0 and α [j, j] → α [j, j] 0

【0061】半音節”K−”のHMMに対する前向き
パスアルゴリズムによる確率値の目標値(=FWD t
h)と反復処理の最大回数(=CNTmax) を設定す
る。
The target value (= FWD) of the probability value by the forward pass algorithm for the HMM of the semisyllable "K-" t
h) and the maximum number of iterations (= CNTmax) are set.

【0062】 〜の処理をcnt=1〜CNTma
x まで繰り返す。
The processing of (cnt = 1 to CNTma)
Repeat until x.

【0063】 〜の処理をj=0〜Jmax(Jmax
=3)まで繰り返す。
The above processing is performed for j = 0 to Jmax (Jmax
= 3).

【0064】下式により、各パラメ−タの更新値を算
出する。
The updated value of each parameter is calculated by the following equation.

【0065】[0065]

【数7】 (Equation 7)

【0066】新しいパラメータにより、入力特徴ベク
トル=Xm(n,f)に対する、HMMモデルの前向き
パスアルゴリズムによる出力確率を下式により求める。
Using the new parameters, the output probability of the HMM model by the forward pass algorithm for the input feature vector = Xm (n, f) is obtained by the following equation.

【0067】[0067]

【数8】 (Equation 8)

【0068】出力確率≧FWD thが成立するか(S
47)、あるいは、cnt>CNTmax となれば(S4
9)処理を終了する。
Output probability ≧ FWD th holds (S
47) Or, if cnt> CNTmax (S4
9) End the process.

【0069】この時の、パラメータを半音節“K−”
の標準パターンとする。
At this time, the parameter is set to a semisyllable “K−”.
Standard pattern.

【0070】ここで、FWD(j,f)は、前向きパス
アルゴリズムで求められる確率(Baum−Welch
スコアとも呼ばれる)であり、またBCK(j,f)
は、後向きパスアルゴリズムにより求められる確率であ
る。
Here, FWD (j, f) is the probability (Baum-Welch) obtained by the forward path algorithm.
BCK (j, f)
Is the probability determined by the backward path algorithm.

【0071】また実際には、標準パターンのパラメータ
を多数サンプルにより求める際は、状態出力確率関数を
2つ以上の多次元正規分布の混合分布としたり(例えば
男性と女性別等)、特徴ベクトルの種類を増加させる
(例えばメルケプストラムベクトルに加えて、フレーム
間差分のΔメルケプストラム、1フレームの平均パワー
のフレーム間差分:Δ平均パワー等)ことでより認識精
度を向上可能である。
In practice, when obtaining the parameters of the standard pattern from a large number of samples, the state output probability function may be a mixture distribution of two or more multidimensional normal distributions (for example, male and female), Recognition accuracy can be further improved by increasing the number of types (for example, in addition to the mel cepstrum vector, Δmel cepstrum of inter-frame difference, inter-frame difference of average power of one frame: Δ average power, etc.).

【0072】以上の処理について、Imax 種類の半音節
HMMを標準パターンとして求めて、標準パターンRO
Mに格納しておく(S50)。
In the above processing, Imax kinds of semisyllable HMMs are obtained as standard patterns, and standard patterns RO
It is stored in M (S50).

【0073】(2)音声分析特徴抽出処理 図12及び図13は不特定話者半音節音声認識器の機能
ブロック構成図である。
(2) Speech Analysis Feature Extraction Processing FIGS. 12 and 13 are functional block diagrams of an unspecified speaker half-syllable speech recognizer.

【0074】図14〜図16は不特定話者半音節音声認
識処理のフローチャートである。図17はフローチャー
トの凡例を示す図表である。
FIGS. 14 to 16 are flowcharts of the unspecified speaker half-syllable speech recognition processing. FIG. 17 is a chart showing a legend of the flowchart.

【0075】音声分析特徴抽出器の音声分析特徴抽出処
理は、以下の全工程をフレーム単位で行う処理である。
The voice analysis feature extraction process of the voice analysis feature extractor is a process in which all the following steps are performed in frame units.

【0076】入力音声のPCM信号を12ms〜16
ms程度にフレーム分割したフレームPCM信号をプリ
エンファシス処理(一次差分処理)することにより高周
波数帯域を強調する。
The PCM signal of the input voice is changed from 12 ms to 16
The high frequency band is emphasized by performing pre-emphasis processing (first-order difference processing) on the frame PCM signal obtained by dividing the frame into about ms.

【0077】プリエンファシス処理済みフレームPC
M信号に対し窓処理(ハニング窓等)することによりこ
の後のFFT処理のためのフレーム境界のスムージング
処理をする。
Pre-emphasis-processed frame PC
By performing window processing (such as a Hanning window) on the M signal, smoothing processing of frame boundaries for the subsequent FFT processing is performed.

【0078】窓処理後のフレームPCM信号をN次F
FT変換処理することにより線形周波数軸上のN次複素
係数ベクトルヘ変換する。
The frame PCM signal after the window processing is converted to an Nth order F
By performing the FT conversion processing, it is converted into an Nth-order complex coefficient vector on the linear frequency axis.

【0079】N次複素係数ベクトルから複素数の絶対
値計算によりN次振幅係数ベクトルヘ変換する。
The N-order complex coefficient vector is converted into an N-order amplitude coefficient vector by calculating the absolute value of a complex number.

【0080】N次振幅係数ベクトルに対し対数演算を
施してN次対数振幅係数ベクトルを算出する。
A logarithmic operation is performed on the Nth order amplitude coefficient vector to calculate an Nth order logarithmic amplitude coefficient vector.

【0081】N次対数振幅係数ベクトルに対し時間軸
上ヘの逆離散余弦変換によりP次ケプストラムベクトル
を算出する。
A P-order cepstrum vector is calculated by performing an inverse discrete cosine transform on the time axis for the N-th logarithmic amplitude coefficient vector.

【0082】P次ケプストラムベクトルの高時間成分
を抑圧する処理(リフタリング)により、声道特性とピ
ッチ特性(声帯特性)を分離し声道特性のみを抽出した
P次ケプストラムベクトルを算出する。
The P-order cepstrum vector is calculated by extracting the vocal tract characteristics only by extracting the vocal tract characteristics by separating the vocal tract characteristics and the pitch characteristics (vocal fold characteristics) by a process (lifting) that suppresses the high-time component of the P-order cepstrum vector.

【0083】P次声道特性ケプストラムベクトルに対
し周波数軸上ヘの離散余弦変換を行い線形周波数軸上に
おけるN次声道特性対数振幅係数ベクトルに変換する。
The P-order vocal tract characteristic cepstrum vector is subjected to a discrete cosine transform on the frequency axis, and is converted into an N-order vocal tract characteristic logarithmic amplitude coefficient vector on a linear frequency axis.

【0084】N次声道特性対数振幅係数ベクトルに対
しメル周波数軸上(近似的に対数スケール)における等
分割点上のスペクトル成分ヘ補間あるいはスムージング
処理を施したべクトル成分を算出することにより人間の
聴覚周波数分解能特性(低周波:高→高周波:低)に合
わせたN次声道特性対数振幅メル尺度係数ベクトルヘ変
換する。
By calculating vector components obtained by performing interpolation or smoothing processing on spectral components on equal division points on the mel frequency axis (approximately on a logarithmic scale) with respect to the logarithmic amplitude coefficient vector of the Nth vocal tract characteristic, An Nth vocal tract characteristic logarithmic amplitude mel scale coefficient vector is converted to an auditory frequency resolution characteristic (low frequency: high → high frequency: low).

【0085】次に、N次声道特性対数振幅メル尺度係数
ベクトルに対し時間軸上ヘの逆離散余弦変換によりQ次
メルケプストラムベクトルヘ変換する。
Next, the Nth vocal tract characteristic logarithmic amplitude mel scale coefficient vector is transformed into a Qth mel-cepstral vector by inverse discrete cosine transformation on the time axis.

【0086】以上により、1フレーム分PCM信号から
入力特徴ベクトルが得られる(S58)。
As described above, the input feature vector is obtained from the PCM signal for one frame (S58).

【0087】(3)状態距離計算 状態距離計算器は、入力音声のアナログ信号をAD変換
し、さらに12ms〜16ms程度にフレーム分割した
PCM信号から音声分析特徴抽出器の音声分析特徴抽出
処理により得られた入力特徴ベクトルと、標準半音節H
MMの全状態の標準特徴ベクトルとの状態距離値を下記
の距離計算式により算出する(S60)。
(3) State distance calculation The state distance calculator converts the analog signal of the input voice from analog to digital, and further obtains the PCM signal divided into frames of about 12 ms to 16 ms by the voice analysis feature extraction processing of the voice analysis feature extractor. Input feature vector and standard semisyllable H
The state distance value of all states of the MM with respect to the standard feature vector is calculated by the following distance calculation formula (S60).

【0088】[距離計算式] ΔXi,j,k,m =Xin −Xi,j,k,m[Distance calculation formula] ΔXi, j, k, m = Xin−Xi, j, k, m

【0089】[0089]

【数9】 (備考:tは転置操作(縦ベクトル→横ベクトル)、V
i,j,k,mの−1は逆行列を示す。) Xin: 入力音声の特徴ベクトル Xi,j,k,m:標準パターンの特徴平均ベクトル Di,j:半音節=i、状態=jの状態の状態距離計算値 Vi,j,k,m:標準パターンの特徴量共分散行列 |Vi,j,k,m|:共分散行列Vi,j,k,mのノルム(分散
値) i:半音節番号、i=0〜Imax −1、Imax :全半音
節種類 j:1半音節のHMMにおける状態番号、j=0〜Jma
x −1、Jmax :1HMMの全状態数 k:混合分布番号、k=0〜Kmax −1、Kmax :混合
分布数 m:特徴ベクトル種類番号、m=0〜Mmax −1、Mma
x :総特徴ベクトル種類数
(Equation 9) (Note: t is a transpose operation (vertical vector → horizontal vector), V
−1 of i, j, k, m indicates an inverse matrix. Xin: feature vector of input voice Xi, j, k, m: feature average vector of standard pattern Di, j: state distance calculation value of state of semisyllable = i, state = j Vi, j, k, m: standard Pattern feature covariance matrix | Vi, j, k, m |: Norm (dispersion value) of covariance matrix Vi, j, k, m i: Semisyllable number, i = 0 to Imax-1, Imax: All Semisyllable type j: State number in HMM of one syllable, j = 0 to Jma
x-1, Jmax: total number of states of 1 HMM k: mixture distribution number, k = 0 to Kmax-1, Kmax: mixture distribution number m: feature vector type number, m = 0 to Mmax-1, Mma
x: Total number of feature vector types

【0090】(4)Viterbi処理(パターンマッ
チング処理) 例として、以下のような氏名リストの認識を行うことを
考える。“たかはし”という単語はまず、“TAKAH
ASI”と母音、子音列に変換され、更に“T−,−A
−,−K−,−A−,―H−,−A−,−S−,−I”
という半音節列に規則的に、分解される。 (単音節列)“たかはし” (母音、子音列)“TAKAHASI” (半音節列) “T−,一A−,−K−,−A−,−H−,−A−,−
S−,−I” 各半音節は、前述の図11のように標準パターンHMM
を持って表現されていた。
(4) Viterbi Process (Pattern Matching Process) As an example, consider the recognition of the following name list. The word “takahashi” is first written as “TAKAH
ASI "and converted to vowel and consonant strings, and" T-, -A
-, -K-, -A-, -H-, -A-, -S-, -I "
Is regularly decomposed into a series of syllables. (Single syllable string) "Takahashi" (vowel, consonant string) "TAKAHASI" (half syllable string) "T-, one A-, -K-, -A-, -H-, -A-,-
S−, −I ″ Each semisyllable is a standard pattern HMM as shown in FIG.
Was expressed with.

【0091】これにより、“たかはし”という単語のH
MM連結モデルは図18のようになる。
As a result, the H of the word "Takahashi"
The MM connection model is as shown in FIG.

【0092】このHMM連結モデルから、−種の累積確
率を算出するのがViterbiアルゴリズムである。
The Viterbi algorithm calculates the -type cumulative probabilities from the HMM connection model.

【0093】Viterbiアルゴリズムは、基本的に
図19の最適パス選択処理の繰り返しである。
The Viterbi algorithm is basically a repetition of the optimum path selection processing of FIG.

【0094】まず分かりやすい例としてとして、1つの
半音節HMM“T−”のViterbiスコア算出例を
図20に示す。又、入力パターンはFmaxフレーム分と
する。 図20の例のように、各フレーム入力毎に、全
状態のViterbiスコアを求めていき、全フレーム
分について、算出した時の状態3のViterbiスコ
アが、“T−”の入力特徴ベクトルに対する標準パター
ンの出力確率となる。さて、これを“たかはし”という
単語のHMM連結モデルに適用する場合には、状態数
が、4×8=32、入力フレーム数=Fmax として、半
音節“−I”のHMMにおける状態3のViterbi
スコアを算出することで、入力特徴ベクトル“たかは
し”のHMM連結モデルからの出力確率が求まることに
なる。
As an easy-to-understand example, FIG. 20 shows an example of calculating a Viterbi score of one syllable HMM "T-". The input pattern is for Fmax frames. As in the example of FIG. 20, the Viterbi scores of all states are obtained for each frame input, and the calculated Viterbi scores of state 3 for all frames are the standard values for the input feature vector of “T−”. This is the output probability of the pattern. Now, when this is applied to the HMM connection model of the word “Takahashi”, the number of states is 4 × 8 = 32, the number of input frames = Fmax, and the Viterbi of the state 3 in the HMM of the semisyllable “−I” is set.
By calculating the score, the output probability of the input feature vector “Takahashi” from the HMM connection model is obtained.

【0095】実際には、認識対象リストが、“たかは
し”の他にも複数存在するので、例えば“いとう”とい
う氏名に対しても同様の半音節列ヘの変換をしてVit
erbiスコアを算出する(S75)。そして、全認識
対象リストにおけるViterbiスコアから最も確率
値の高い(距離値の小さい)認識対象リストの1つを認
識結果とする(S86)。以下にViterbiアルゴ
リズムの処理手順を示す。
Actually, since there are a plurality of recognition target lists other than "Takahashi", for example, the name "Ito" is converted into the same syllable string as Vit
An erbi score is calculated (S75). Then, one recognition target list having the highest probability value (smallest distance value) from the Viterbi score in the entire recognition target list is set as a recognition result (S86). The processing procedure of the Viterbi algorithm will be described below.

【0096】[Viterbiアルゴリズム] (S57〜S81)〜の処理をf=0〜Fmax −
1まで繰り返す。 (S73〜S79)〜の処理をw=0〜Wmax −
1まで繰り返す。 (S73〜S77)〜の処理をs=0〜Smax
(w)−1 まで繰り返す。 (S73)i←[状態=sが属する半音節番号] j←[状態=sが属している半音節番号=iにおけるH
MM内の状態番号] (S74)Path(j−1,j)=α(j−1,
j)+G(w,s−1) Path(j,j)=α(j,j)+G(w,s) (S75)累積距離値:G(w,s)=Max[Pa
th(j−1,j),Path(j,j)]+Dijの計
算 ただし、 f:入力フレーム番号、Fmax:全フレーム数 w:認識対象(氏名or電話番号)リストの番号、Wma
x:全リスト数 s:リスト内状態連結の通し番号、Smax(w): 認識
対象リスト=w番の全連結状態数 α(j−1,j):i番の半音節HMMにおいて状態j
−1からjヘの状態遷移距離値(j−1<0の場合は距
離値=0) α(j,j):i番の半音節HMMにおいて状態jから
jヘの状態遷移距離値 Dij:半音節=i、状態=jの状態の入力特徴ベクトル
との状態距離値
[Viterbi algorithm] (S57 to S81) to f = 0 to Fmax-
Repeat until 1. (S73 to S79) to w = 0 to Wmax-
Repeat until 1. (S73 to S77) to s = 0 to Smax
Repeat until (w) -1. (S73) i ← [semisyllable number to which state = s belongs] j ← [H at semisyllable number = i to which state = s belongs]
State number in MM] (S74) Path (j-1, j) = α (j-1,
j) + G (w, s-1) Path (j, j) = α (j, j) + G (w, s) (S75) Cumulative distance value: G (w, s) = Max [Pa
th (j-1, j), Path (j, j)] + Dij where f: input frame number, Fmax: total number of frames w: number of recognition target (name or telephone number) list, Wma
x: total number of lists s: serial number of state connection in the list, Smax (w): recognition target list = w total number of connected states α (j−1, j): state j in the i-th semisyllable HMM
State transition distance value from −1 to j (distance value = 0 when j−1 <0) α (j, j): State transition distance value from state j to j in the i-th semisyllable HMM Dij: State distance value from input feature vector of state of semisyllable = i, state = j

【0097】なお、Viterbiスコアは確率値とし
て説明していたが、実際には桁数の制限等でアンダーフ
ロー等の問題を避ける為に、対数演算を施したものでV
iterbiスコアを計算することもある。
The Viterbi score has been described as a probability value. However, in order to avoid a problem such as an underflow due to the limitation of the number of digits, the Viterbi score is obtained by performing a logarithmic operation on the Virbi score.
Sometimes iterbi scores are calculated.

【0098】又、演算量低減及びメモリ量低減の為に標
準パターンの平均ベクトル、共分散行列をクラスタリン
グして演算量を低減する工夫もある。
There is also a device for reducing the calculation amount by clustering the average vector and the covariance matrix of the standard pattern in order to reduce the calculation amount and the memory amount.

【0099】例えば、半音節HMMが250種類ある
と、250×4=1000種類の平均ベクトルと共分散
行列を用意しなければならないが、例えば平均ベクトル
を512カテゴリー(この場合、共分散行列も512種
類)に、また分散行列のノルムを256カテゴリーに、
ベクトル量子化の手法(セントロイドベクトル等)によ
りベクトル値を代表させることで、クラスタリングを行
うと、演算量とメモリ量が1/2〜1/4になる。実際
にこのような工夫により、認識性能は劣化することなく
演算量とメモリ量を低減することは可能である。
For example, if there are 250 types of half-syllable HMMs, 250 × 4 = 1000 types of average vectors and covariance matrices must be prepared. For example, the average vectors are classified into 512 categories (in this case, the covariance matrix is also 512). Type) and the norm of the variance matrix into 256 categories,
When clustering is performed by representing a vector value by a vector quantization method (such as a centroid vector), the amount of calculation and the amount of memory are reduced to 2〜 to 4. Actually, it is possible to reduce the calculation amount and the memory amount without deteriorating the recognition performance by such a device.

【0100】4.音声登録用検索器 音声登録用検索器(以降検索器という)は、不特定話者
半音節認識器(以降認識器という)から1音節単位の認
識結果を第1候補〜N候補まで距離値と共に情報受信
し、データベ−スROM1に格納されている日本人全氏
名の平仮名文字データリスト内で、1音節単位に発声さ
れた氏名の音声信号から最も距離の近い氏名の文字コー
ドを検索し、これを認識音節列ワークRAMヘ格納す
る。これにより、音声信号入力による氏名登録が行われ
ることになる。以降では、この音声登録動作について具
体的な実施例を説明する。
4. Search unit for voice registration The search unit for voice registration (hereinafter referred to as a search unit) is a unit for recognizing recognition results in units of one syllable from an unspecified speaker half-syllable recognizer (hereinafter referred to as a recognizer) together with distance values from the first candidate to the N candidate. When the information is received, the character code of the closest name is searched from the hiragana character data list of all Japanese names stored in the database ROM 1 from the voice signal of the name uttered in syllable units. Is stored in the recognition syllable string work RAM. As a result, the name is registered by inputting the audio signal. Hereinafter, a specific example of the voice registration operation will be described.

【0101】まず、発声される音声信号を“た”+
“か”+“は”+“し”と、1音節単位に離散発声され
たものを例とする。認識器から検索器には、1音節の発
声毎に認識結果の文字コードと距離値が図20の例のよ
うに複数候補出力される。
First, the voice signal to be uttered is "ta" +
The case where “ka” + “has” + “shi” and discretely uttered in units of one syllable is taken as an example. A plurality of candidate character codes and distance values of the recognition result are output from the recognizer to the searcher for each syllable utterance, as shown in the example of FIG.

【0102】ここで、第1候補が実際の発声音声=
“た”に対し“な”になっているのは、1音節分の発声
方法が似かよっているためである。これは、基本的に子
音+母音という1音節の構造上子音だけが異なり、母音
が全て同じ場合には、たとえ人の聴覚識別能力であって
も間違って聞き取ってしまうものと同じ事である。認識
器では、メルケプストラムという音声信号の特徴量を抽
出しているがこれは声道の特徴量を抽出していることと
同じ意味である。
Here, the first candidate is the actual uttered voice =
The reason why “na” is set to “ta” is that the utterance method for one syllable is similar. This is basically the same as that in which only consonants differ in the structure of one syllable of consonant + vowel, and when all vowels are the same, even if a person's auditory discrimination ability is erroneously heard. The recognizer extracts a feature amount of a voice signal called a mel-cepstrum, which has the same meaning as extracting a feature amount of a vocal tract.

【0103】“た”のPCM信号を実際に認識器により
認識処理した場合した場合は、“T−”+“−A”とい
う半音節HMM結合より出現される確率が最も高い(距
離値が小さい)のではなく、実際には人間の微妙な発声
変形等の影響により、“子音の半音節”+“−A”もほ
ぼ同等の認識距離となってしまうのである。例えば同母
音系の”な”を考えてみると、半音節は“N”+“−
A”となり、母音部は同じとなるため、また子音部につ
いても”た”と”な”については、どちらも子音を発声
する瞬間は舌を上あごにつけてから“−A”を発声する
ため、“た”と誤認識し易くなってしまうのである。し
かし、複数音節から通常構成される氏名の場合は、上例
において残る“か”、“は”、“し”の音節の認識結果
も誤認識し易くなるのは変わりないが、累積確率を存在
する氏名の音節列のみに対して計算することにより、単
音節認識の誤認識を補うことが出来るのである。これを
以降に示す。
In the case where the PCM signal of “ta” is actually recognized by the recognizer, the probability of occurrence of the semi-syllable HMM combination of “T −” + “− A” is the highest (the distance value is small). ), Actually, the "consonant half-syllable" + "-A" also has substantially the same recognition distance due to the influence of human subtle vocal deformation. For example, if we consider the same vowel “na”, the semisyllable is “N” + “−
A ", the vowel part is the same, and the consonant part is" ta "and" na ", because at the moment when both consonants are uttered, the tongue is put on the upper jaw and then" -A "is uttered. However, in the case of a name that is usually composed of multiple syllables, the recognition results of the remaining syllables of “ka”, “wa”, and “shi” are also different. Although it is easy to make a misrecognition, it is possible to compensate for the misrecognition of the monosyllabic recognition by calculating the cumulative probability only for the syllable string of the existing name, which will be described below.

【0104】まず、“た、”、“か”、“は”、“し”
の各発声に対する単音節認識結果が図22の例のように
なったとする。
First, "ta", "ka", "ha", "shi"
It is assumed that the monosyllable recognition result for each utterance is as shown in FIG.

【0105】まず、検索装置ではこの情報を登録用音節
列ワークRAMへ一時格納しておく。次に、発声回数が
4回であることがカウンタ等により力ウント出来るた
め、データベースROMから四文字の氏名リストを検索
し、そられもワークRAMに格納しておく。次に、4文
字氏名リストの文字コードを調ベて認識結果の全ての文
字コ―ドが1つでも含まれている氏名を絞り込む。更
に、絞り込んだ4文字氏名リストについて認識結果の距
離値でもって累積距離値を累加算演算処理により計算し
ていく。ここで、ある氏名のある文字コードには距離が
ないものがあるが、以下の方法により計算する。
First, the search device temporarily stores this information in the syllable string work RAM for registration. Next, since it is possible to count the number of utterances to four by using a counter or the like, a four-character name list is searched from the database ROM and stored in the work RAM. Next, the character codes in the four-character name list are checked to narrow down the names including at least one character code in the recognition result. Further, for the narrowed-down four-character name list, the cumulative distance value is calculated by the cumulative addition operation process using the distance value of the recognition result. Here, some character codes with a certain name have no distance, but are calculated by the following method.

【0106】ここで、また例として絞り込まれた4文字
氏名リストが図23のようになったとする。
Here, it is assumed that the narrowed down four character name list is as shown in FIG. 23 as an example.

【0107】次に、これらの候補氏名に対して累積距離
値を算出する。この際認識結果リストにある候補に対し
ては、発声順も考慮して距離値を加算していき、認識結
果リストにない文字に対しては最大距離値=5.0を設
定して累加算演算を行う。図23の例の一覧により、
“た”+“か”+“は”+“し”が最も小さい値にな
り、これが登録氏名となる。
Next, a cumulative distance value is calculated for these candidate names. At this time, distance values are added to candidates in the recognition result list in consideration of the order of utterance, and for characters not in the recognition result list, the maximum distance value is set to 5.0 and cumulative addition is performed. Perform the operation. From the list of examples in FIG.
“Ta” + “ka” + “ha” + “shi” is the smallest value, and this is the registered name.

【0108】[0108]

【発明の効果】以上説明したように本発明は、入力音声
に対する、登録済み氏名又は電話番号の単音節コードデ
ータ列と半音節単位の標準パターンデータとを用いた認
識処理により、携帯電話機等における氏名と電話番号登
録操作、およびダイアル操作等のキー操作における煩雑
さを低減することができ、音声認識ダイアル用の氏名と
電話番号の登録操作時間が従来例と比べて短縮され、ま
た操作間違いも少なくなるという効果がある。
As described above, according to the present invention, a recognition process using a single syllable code data string of registered names or telephone numbers and standard pattern data in semi-syllable units for an input voice is used in a portable telephone or the like. It is possible to reduce the complexity of key operation such as name and phone number registration operation and dial operation, shorten the registration operation time of name and phone number for voice recognition dial compared with the conventional example, There is an effect that it decreases.

【0109】また、従来技術の認識自動ダイアル電話機
では、明記されていなかった音声から文字表示を行う音
声認識処理について、この技術の実現手段を明記するこ
とで本発明の属する技術分野において実際に利用可能と
なるという効果がある。
[0109] In the recognition automatic dial telephone of the prior art, the voice recognition processing for displaying characters from unspecified voice is actually used in the technical field to which the present invention belongs by specifying means for realizing this technology. There is an effect that it becomes possible.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態の全体構成を示すブロック
図である。
FIG. 1 is a block diagram showing an overall configuration of an embodiment of the present invention.

【図2】音声登録動作モードのフローチャートである。FIG. 2 is a flowchart of a voice registration operation mode.

【図3】不特定話者半音節音声認識器により得られた4
音節×5候補分の認識結果を示す図である。
FIG. 3 shows 4 obtained by an unspecified speaker half-syllable speech recognizer.
It is a figure which shows the recognition result for syllable * 5 candidate.

【図4】電話番号登録動作モードのフローチャートであ
る。
FIG. 4 is a flowchart of a telephone number registration operation mode.

【図5】電話番号の認識結果の数字を直接表すコードへ
の変換を示す図である。
FIG. 5 is a diagram showing conversion of a telephone number recognition result into a code that directly represents a numeral.

【図6】音声ダイアル動作モードのフローチャートであ
る。
FIG. 6 is a flowchart of a voice dial operation mode.

【図7】標準パターン生成器の機能ブロック構成図であ
る。
FIG. 7 is a functional block configuration diagram of a standard pattern generator.

【図8】標準パターン生成器の機能ブロック構成図であ
る。
FIG. 8 is a functional block configuration diagram of a standard pattern generator.

【図9】標準パターン生成処理のフローチャートであ
る。
FIG. 9 is a flowchart of a standard pattern generation process.

【図10】単音節PCM信号から半音節PCM信号を得
る例の図である。
FIG. 10 is a diagram illustrating an example of obtaining a semi-syllable PCM signal from a single-syllable PCM signal.

【図11】状態数が4の半音節HMMを示す図である。FIG. 11 is a diagram showing a semisyllable HMM having four states.

【図12】不特定話者半音節音声認識器の機能ブロック
構成図である。
FIG. 12 is a functional block diagram of an unspecified speaker half-syllable speech recognizer.

【図13】不特定話者半音節音声認識器の機能ブロック
構成図である。
FIG. 13 is a functional block configuration diagram of an unspecified speaker half-syllable speech recognizer.

【図14】不特定話者半音節音声認識処理のフローチャ
ートである。
FIG. 14 is a flowchart of an unspecified speaker half-syllable speech recognition process.

【図15】不特定話者半音節音声認識処理のフローチャ
ートである。
FIG. 15 is a flowchart of an unspecified speaker half-syllable speech recognition process.

【図16】不特定話者半音節音声認識処理のフローチャ
ートである。
FIG. 16 is a flowchart of an unspecified speaker half-syllable speech recognition process.

【図17】フローチャートの凡例を示す図表である。FIG. 17 is a chart showing a legend of a flowchart.

【図18】“たかはし”という単語のHMM連結モデル
を示す図である。
FIG. 18 is a diagram illustrating an HMM connection model of the word “Takahashi”.

【図19】最適パス選択処理を示す図である。FIG. 19 is a diagram illustrating an optimal path selection process.

【図20】1つの半音節HMM“T−”のViterb
iスコア算出例を示す図である。
FIG. 20: Viterb of one semisyllable HMM “T-”
It is a figure showing the example of i score calculation.

【図21】不特定話者半音節音声認識器から音声登録用
検索器に複数候補出力される、1音節の発声毎の認識結
果の文字コードと距離値を示す図である。
FIG. 21 is a diagram showing a character code and a distance value of a recognition result for each utterance of one syllable, which is output as a plurality of candidates from an unspecified speaker half-syllable speech recognizer to a speech registration searcher.

【図22】“た、”、“か”、“は”、“し”の各発声
に対する単音節認識結果を示す図である。
FIG. 22 is a diagram showing the results of single syllable recognition for each utterance of “ta”, “ka”, “ha”, and “shi”.

【図23】絞り込まれた4文字氏名リストに対して累積
距離値を算出する図である。
FIG. 23 is a diagram for calculating an accumulated distance value for the narrowed-down four-character name list.

【符号の説明】[Explanation of symbols]

1 データベースROM 2 標準パタ−ンROM 3 認識ワークRAM 4 検索ワークRAM 5 標準パターン生成器 6 不特定話者半音節音声認識器 7 音声登録用検索器 8 ADコンバータ 9 DAコンバータ 10 音声合成器 11 携帯電話本体部 12 キーマトリクス 13 表示装置 14 I/F部 15 音声登録音声ダイアル操作者 16 制御信号バス 17 メモリバス DESCRIPTION OF SYMBOLS 1 Database ROM 2 Standard pattern ROM 3 Recognition work RAM 4 Search work RAM 5 Standard pattern generator 6 Unspecified speaker half-syllable speech recognizer 7 Voice registration searcher 8 AD converter 9 DA converter 10 Voice synthesizer 11 Mobile Telephone main unit 12 Key matrix 13 Display device 14 I / F unit 15 Voice registration voice dial operator 16 Control signal bus 17 Memory bus

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 氏名と電話番号を発声した音声のPCM
信号から音声認識処理により単音節コードデータ列を取
得し、音声認識ダイアル用の対象氏名と電話番号を音声
入力で登録する音声登録手段と、 氏名又は電話番号の音声アナログ信号からあらかじめ登
録済みの氏名と電話番号の単音節コードデータ列を用い
てダイアルをする音声ダイアル手段と、 入力音声に対する、登録済み氏名又は電話番号の単音節
コードデータ列と半音節単位の標準パターンデータとを
用いた認識処理により、累積距離値の小さい候補の氏名
又は電話番号の単音節コードデータ列を認識結果として
出力する不特定話者半音節音声認識器とを備えている音
声認識ダイアル装置。
1. PCM of a voice uttering a name and a telephone number
Voice registration means for acquiring a monosyllable code data string from the signal by voice recognition processing and registering the target name and telephone number for voice recognition dialing by voice input, and a name registered in advance from a voice analog signal of the name or telephone number Voice dial means for dialing using a single syllable code data sequence of a telephone number and a telephone number, and a recognition process for input voice using a single syllable code data sequence of a registered name or telephone number and standard pattern data of a half syllable unit And an unspecified speaker half-syllable speech recognizer that outputs a single syllable code data string of a candidate name or telephone number having a small cumulative distance value as a recognition result.
【請求項2】 前記音声登録手段は、 音声アナログ信号をPCM信号ヘ変換するADコンバー
タと、 前記PCM信号を前記音声アナログ信号ヘ変換するDA
コンバータと、 日本語の1音節を表す単音節コードデータを受信しひら
がなと数字と漢字の表記文字を表示する表示手段と、 前記単音節コードデータを受信し音声PCMデータに変
換しDAコンバータに出力する音声応答手段と、 日本人氏名と日本語の全単音節と数字1桁の各々につい
て発音表記の単音節列を単音節コードデータで格納した
データベースROMと、 該データベースROM内の氏名項目又は単音節項目又は
1桁数字項目の何れかの項目に属する1氏名又は1単音
節又は1桁数字の何れかの1リストに対する単音節コー
ドデータ列を読出し認識ワークRAMへ格納する手段
と、 単音節単位又は数字1桁単位に発声された前記音声アナ
ログ信号をAD変換した前記PCM信号を前記不特定話
者半音節音声認識器へ入力し、前記単音節単位又は数字
1桁単位の認識処理を行い第1候補あるいは複数候補の
認識結果を得る手段と、 前記単音節単位又は数字1桁単位の音声認識結果情報と
前記データベースROM内の氏名項目又は1桁数字項目
の単音節コードデータ列との両方の情報を用いて発声内
容に最も近いと推測される氏名あるいは数字1桁以上の
単音節コードデータ列を検索し出力する音声登録用検索
器と、 検索された氏名又は電話番号の単音節コードデータ列を
各氏名と電話番号を対応付けて複数の該各氏名と電話番
号リストを認識ワークRAMヘ蓄積格納する手段とを備
えている請求項1に記載の音声認識ダイアル装置。
2. The audio registration means includes: an AD converter for converting an audio analog signal to a PCM signal; and a DA for converting the PCM signal to the audio analog signal.
A converter; display means for receiving single syllable code data representing one Japanese syllable and displaying notation characters of hiragana and numbers and kanji; receiving the single syllable code data and converting it to voice PCM data and outputting it to a DA converter A voice response means, a Japanese ROM, a database ROM storing monosyllable strings of phonetic notation for each single syllable and one digit of Japanese as single syllable code data, and a name item or a single name in the database ROM. Means for reading out a single syllable code data string for one list of one name or one single syllable or one digit belonging to any one of a syllable item and a one-digit number item, and storing it in a recognition work RAM; Or inputting the PCM signal obtained by AD converting the voice analog signal uttered in units of one digit to the unspecified speaker half-syllable voice recognizer, Means for performing recognition processing in units of syllables or in units of one digit to obtain recognition results of the first candidate or a plurality of candidates; voice recognition result information in units of single syllables or in units of one digit and a name item or 1 in the database ROM A voice registration searcher that searches for and outputs a single syllable code data string of one or more digits that is assumed to be closest to the utterance content using both information of the single syllable code data string of the digit number item and And means for storing a plurality of each name and telephone number list in a recognition work RAM by associating the retrieved monosyllabic code data string of the name or telephone number with each name and telephone number. A voice recognition dial device as described.
【請求項3】 前記音声登録用検索器は、 前記不特定話者半音節認識器から前記単音節単位又は数
字1桁単位の音声認識結果情報を累積距離値と共に情報
受信し、前記データベ−スROMに格納されている氏名
項目又は1単音節又は1桁数字項目の何れかの項目に属
する1氏名又は1単音節又は1桁数字の何れかの1リス
ト内で、1単音節単位に発声された音声信号から最も距
離の近い単音節コードデータ列を検索し認識ワークRA
Mへ格納する手段を有する請求項2に記載の音声認識ダ
イアル装置。
3. The speech registration searcher receives the speech recognition result information in units of single syllables or single digits together with an accumulated distance value from the unspecified speaker half-syllable recognizer, and receives the information from the database. It is uttered in units of one single syllable in one list of one name or one single syllable or one digit belonging to either the name item or one single syllable or one digit number item stored in the ROM. Recognition work RA by searching the closest syllable code data string from the speech signal
3. The voice recognition dial device according to claim 2, further comprising means for storing the data in M.
【請求項4】 前記音声ダイアル手段は、 ダイアルの宛先の氏名又は電話番号に対応する発声した
音声アナログ信号をADコンバータで変換したPCM信
号を前記不特定話者半音節音声認識器ヘ入力し、認識ワ
ークRAM内の登録済み氏名又は電話番号リストに対し
て前記発声した音声アナログ信号に最も近いと推測され
る認識結果を単音節コードデータ列で取得する手段と、 認識結果が氏名の場合は対応付けされた電話番号の単音
節コードデータ列を前記認識ワークRAM内から検索し
て出力する手段と、 前記電話番号の単音節コードデータ列から電話端末本体
ヘの電話発呼信号ヘ変換する手段とを有する請求項1に
記載の音声認識ダイアル装置。
4. The voice dial means inputs a PCM signal obtained by converting an uttered voice analog signal corresponding to a name or a telephone number of a dial destination by an AD converter to the unspecified speaker half-syllable voice recognizer, Means for acquiring, as a monosyllabic code data sequence, a recognition result estimated to be closest to the uttered voice analog signal with respect to the registered name or telephone number list in the recognition work RAM, and corresponding when the recognition result is a name. Means for retrieving and outputting a single syllable code data string of the attached telephone number from the recognition work RAM, and means for converting the single syllable code data string of the telephone number into a telephone call signal to the telephone terminal body. The voice recognition dial device according to claim 1, further comprising:
【請求項5】 前記不特定話者半音節音声認識器は、 認識ワークRAM又はデータベースROMに格納されて
いる氏名又は電話番号の単音節単位の単音節コードデー
タ列に対し半音節単位の半音節コードデータ列ヘ変換す
る手段と、 氏名又は電話番号の前記半音節コードデータ列に対して
標準パターン生成器の不特定話者半音節音声認識装置用
の標準パターンデータ生成により得られた標準パターン
を格納した標準パターンROM内からどの半音節単位の
隠れマルコフモデルが含まれているかを調ベ、さらに前
記隠れマルコフモデル状態の連結を示す半音節隠れマル
コフモデル状態コードデータ列ヘ変換する手段と、 氏名又は電話番号の前記半音節隠れマルコフモデル状態
コードデータ列を氏名−電話番号の関係で対応付けし、
さらに他の氏名−電話番号リストと識別可能なように番
号付きリストに変換して前記認識ワークRAMヘ格納す
る手段と、 音声アナログ信号をAD変換した音声PCM信号からフ
レーム単位の入力特徴ベクトルを抽出する音声分析特徴
抽出器と、 抽出された前記入力特徴ベクトルを前記認識ワークRA
Mヘ格納する手段と、 前記入力特徴ベクトルと、標準半音節隠れマルコフモデ
ルパターンROMに格納されている全半音節隠れマルコ
フモデルの全状態の標準特徴ベクトルとの状態距離値を
算出する状態距離計算器と、 算出された前記状態距離値に番号付けして認識ワークR
AMに格納する手段と、 前記認識ワークRAMに格納された認識対象の各氏名又
は電話番号に対する前記半音節隠れマルコフモデル状態
コードデータ列の状態結合情報と各状態距離値と前記標
準パターンROM内に格納されている状態間遷移距離値
とを用いてフレーム同期Viterbiアルゴリズムに
より入力音声時間長分の全フレームに対する累積距離値
を算出する累積状態距離計算器と、 最も前記累積距離値の小さい第1候補又は第1〜第N候
補の氏名又は電話番号に対する単音節コードデータ列を
認識結果として出力する手段とを有する請求項1から請
求項4の何れか1項に記載の音声認識ダイアル装置。
5. The unspecified speaker half-syllable speech recognizer according to a single-syllable unit data sequence of a single syllable unit of a name or a telephone number stored in a recognition work RAM or a database ROM. Means for converting into a code data sequence, and a standard pattern obtained by generating a standard pattern data for an unspecified speaker half-syllable speech recognition device of a standard pattern generator with respect to the half-syllable code data sequence of a name or a telephone number. Means for examining which half-syllable unit hidden Markov model is included from the stored standard pattern ROM, and further converting to a semi-syllable hidden Markov model state code data string indicating the connection of the hidden Markov model states; Or, the half-syllable hidden Markov model status code data string of the phone number is associated with the name-phone number relationship,
Means for converting into a numbered list so that it can be distinguished from another name-telephone number list and storing it in the recognition work RAM; and extracting an input feature vector in frame units from a voice PCM signal obtained by AD-converting a voice analog signal. A speech analysis feature extractor that extracts the input feature vector
A state distance calculation for calculating a state distance value between the input feature vector and a standard feature vector of all states of the all-syllable hidden Markov model stored in the standard half-syllable hidden Markov model pattern ROM. And a recognition work R by numbering the calculated state distance values
Means for storing in the AM, state coupling information of the half-syllable hidden Markov model state code data string for each name or telephone number of the recognition object stored in the recognition work RAM, each state distance value, and in the standard pattern ROM. A cumulative state distance calculator that calculates a cumulative distance value for all frames for the input voice time length by a frame synchronization Viterbi algorithm using the stored inter-state transition distance value, and a first candidate having the smallest cumulative distance value 5. The voice recognition dial device according to claim 1, further comprising: a unit that outputs a single syllable code data string corresponding to the first to N-th candidate names or telephone numbers as a recognition result. 6.
【請求項6】 前記標準パターン生成器は、 統計的に必要とされる人数分の多数話者の音声アナログ
信号をAD変換したPCM信号を、波形表示あるいは試
聴等により所定数の種類の単音節単位のPCM信号ヘ分
割する手段と、 前記単音節単位に分割された全てのPCM信号をバッフ
ァリングし、波形表示あるいは試聴等により所定数の種
類の半音節単位のPCMデータ信号ヘ分割する手段と、 前記半音節単位に分割された全ての各PCM信号をフレ
ーム単位に分割する手段と、 前記フレーム単位に分割された全てのPCM信号に対し
て特徴ベクトルを抽出する音声分析特徴抽出器と、 状態数が所定の個数の隠れマルコフモデルにおいて前記
所定の個数の状態出力確率関数と前記所定の個数の2倍
個数分の状態遷移確率のパラメータを初期値設定する手
段と、 前記状態出力確率関数を初期設定する際に多次元正規分
布確率密度関数を用いると共に、母数として平均ベクト
ルおよび共分散行列の各成分を初期値設定する手段と、 所定の種類分の半音節毎に得られた前記統計的に必要と
される人数分のフレーム単位の前記特徴ベクトルから、
各半音節毎に前記統計的に必要とされる人数分の特徴ベ
クトルサンプルとして整理して、Forward−Ba
ckwardアルゴリズムという反復的手法により前記
所定の個数の平均ベクトルおよび共分散行列の各成分値
と前記所定の個数の2倍個数分の状態遷移確率とを得る
手段と、 所定の種類分の半音節毎に得られた隠れマルコフモデル
のパラメータ群である多次元正規分布確率密度関数の平
均ベクトルと共分散行列と状態遷移確率とのパラメータ
値を標準パターンデータとして標準パターンROMヘ格
納する手段とを有する請求項5に記載の音声認識ダイア
ル装置。
6. The standard pattern generator according to claim 1, wherein a predetermined number of single syllables of a PCM signal obtained by AD-converting voice analog signals of a number of speakers required for a statistical number are displayed by waveform display or sample listening. Means for dividing the PCM signal into unit PCM signals, means for buffering all the PCM signals divided into single syllable units, and dividing into a predetermined number of types of PCM data signals in semi-syllable units by waveform display or auditioning Means for dividing all the PCM signals divided in units of syllables in units of frames, a voice analysis feature extractor for extracting a feature vector for all PCM signals divided in units of frames, Initialize the predetermined number of state output probability functions and the number of state transition probabilities of twice the predetermined number in the hidden Markov model of a predetermined number. Means for setting, using a multidimensional normal distribution probability density function when initializing the state output probability function, and means for initializing each component of a mean vector and a covariance matrix as a parameter, a predetermined type From the feature vector in frame units for the statistically required number of people obtained for each half syllable of
For each syllable, the feature vector samples for the statistically required number of persons are arranged as Forward-Ba
means for obtaining each component value of the predetermined number of mean vectors and covariance matrices and the state transition probabilities of twice the predetermined number by an iterative technique called a ckward algorithm; Means for storing parameter values of a mean vector, a covariance matrix, and a state transition probability of a multidimensional normal distribution probability density function, which is a group of parameters of a hidden Markov model obtained in the above, as standard pattern data in a standard pattern ROM. Item 6. The voice recognition dial device according to Item 5.
【請求項7】 前記音声分析特徴抽出器は、 入力音声のPCM信号をフレーム分割したフレームPC
M信号をプリエンフアシス処理することにより高周波数
帯域を強調する手段と、 前記プリエンフアシス処理済みフレームPCM信号に対
し窓処理することによりこの後のFFT処理のためのフ
レーム境界のスムージング処理をする手段と、 前記窓処理後のフレームPCM信号をN次FFT変換処
理することにより線形周波数軸上のN次複素係数ベクト
ルへ変換する手段と、 該N次複素係数ベクトルから複素数の絶対値計算により
N次振幅係数ベクトルへ変換する手段と、 該N次振幅係数ベクトルに対し対数演算を施してN次対
数振幅係数ベクトルを算出する手段と、 該N次対数振幅係数ベクトルに対し時間軸上への逆離散
余弦変換によりP次ケプストラムベクトルを算出する手
段と、 該P次ケプストラムベクトルの高時間成分を抑圧する処
理により、声道特性とピッチ特性を分離し声道特性のみ
を抽出したP次声道特性ケプストラムベクトルを算出す
る手段と、 該P次声道特性ケプストラムベクトルに対し周波数軸上
ヘの離散余弦変換を行い、線形周波数軸上におけるN次
声道特性対数振幅係数ベクトルに変換する手段と、 該N次声道特性対数振幅係数ベクトルに対しメル周波数
軸上における等分割点上のスペクトル成分ヘ補間あるい
はスムージング処理を施したべクトル成分を算出するこ
とにより人間の聴覚周波数分解能特性に合わせたN次声
道特性対数振幅メル尺度係数ベクトルヘ変換する手段
と、 該N次声道特性対数振幅メル尺度係数ベクトルに対し時
間軸上ヘの逆離散余弦変換によりQ次メルケプストラム
ベクトルヘ変換する手段とを有する請求項5又は請求項
6に記載の音声認識ダイアル装置。
7. The speech analysis feature extractor includes a frame PC obtained by dividing an input speech PCM signal into frames.
Means for emphasizing a high frequency band by pre-emphasis processing the M signal; means for performing window processing on the pre-emphasis-processed frame PCM signal to perform smoothing processing of frame boundaries for subsequent FFT processing; Means for converting the frame-processed PCM signal after the window processing into an N-order complex coefficient vector on the linear frequency axis by performing an N-order FFT transform processing; and an N-order amplitude coefficient vector by calculating an absolute value of a complex number from the N-order complex coefficient vector Means for performing a logarithmic operation on the Nth-order amplitude coefficient vector to calculate an Nth-order logarithmic amplitude coefficient vector; and performing inverse discrete cosine transformation on the time axis for the Nth-order logarithmic amplitude coefficient vector. Means for calculating a P-order cepstrum vector, and suppressing a high-time component of the P-order cepstrum vector Means for separating a vocal tract characteristic and a pitch characteristic to extract a vocal tract characteristic cepstrum vector by extracting the vocal tract characteristic cepstrum vector, Means for converting into an Nth-order vocal tract characteristic logarithmic amplitude coefficient vector on the linear frequency axis; and interpolating the Nth-order vocal tract characteristic logarithmic amplitude coefficient vector to spectral components on equal division points on the mel frequency axis. Means for converting the vector component subjected to the smoothing process to an Nth vocal tract characteristic logarithmic amplitude mel scale coefficient vector adapted to the human auditory frequency resolution characteristic; Means for transforming into a Qth-order mel-cepstral vector by inverse discrete cosine transform on the time axis. The placing of voice recognition dialing devices.
【請求項8】 前記状態距離計算器は、 入力音声のアナログ信号をAD変換しさらにフレーム分
割したフレームPCM信号から前記音声分析特徴抽出器
により得られた入力特徴ベクトルと標準半音節隠れマル
コフモデルの全状態の標準特徴ベクトルとの状態距離値
を所定の距離計算式により算出する手段を有する請求項
5に記載の音声認識ダイアル装置。
8. The state distance calculator calculates an input feature vector obtained by the speech analysis feature extractor from a frame PCM signal obtained by AD-converting an analog signal of an input speech and further dividing the frame, and a standard semisyllable hidden Markov model. The voice recognition dial device according to claim 5, further comprising means for calculating a state distance value with respect to a standard feature vector of all states by a predetermined distance calculation formula.
【請求項9】 前記累積距離計算器は、 認識対象の氏名又は電話番号に対する半音節隠れマルコ
フモデル状態コードデータ列の状態結合情報と各状態距
離値と標準パターンROM内に格納されている状態間選
移距離値とを用いてフレーム同期Viterbiアルゴ
リズムにより入力音声の全フレームに対する累積距離値
を算出する手段を有する請求項5に記載の音声認識ダイ
アル装置。
9. The accumulative distance calculator calculates a state combination information of a half-syllable hidden Markov model state code data string for a name or a telephone number to be recognized, each state distance value, and a state stored in a standard pattern ROM. 6. The voice recognition dial device according to claim 5, further comprising means for calculating a cumulative distance value for all frames of the input voice by a frame synchronization Viterbi algorithm using the selected distance value.
JP22856797A 1997-08-25 1997-08-25 Voice recognition dial device Expired - Fee Related JP3447521B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22856797A JP3447521B2 (en) 1997-08-25 1997-08-25 Voice recognition dial device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22856797A JP3447521B2 (en) 1997-08-25 1997-08-25 Voice recognition dial device

Publications (2)

Publication Number Publication Date
JPH1165590A true JPH1165590A (en) 1999-03-09
JP3447521B2 JP3447521B2 (en) 2003-09-16

Family

ID=16878394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22856797A Expired - Fee Related JP3447521B2 (en) 1997-08-25 1997-08-25 Voice recognition dial device

Country Status (1)

Country Link
JP (1) JP3447521B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048058A (en) * 2004-08-06 2006-02-16 Motorola Inc Method and system to voice recognition of name by multi-language
US7130387B2 (en) 2001-11-15 2006-10-31 Nec Corporation Communication terminal, communication method and program thereof
US7228277B2 (en) 2000-12-25 2007-06-05 Nec Corporation Mobile communications terminal, voice recognition method for same, and record medium storing program for voice recognition
WO2008061158A3 (en) * 2006-11-14 2008-07-10 Real Phone Card Corp Method and apparatus for low cost telephone
JP2009527024A (en) * 2006-02-14 2009-07-23 インテレクチャル ベンチャーズ ファンド 21 エルエルシー Communication device with speaker-independent speech recognition
JP2011039468A (en) * 2009-08-14 2011-02-24 Korea Electronics Telecommun Word searching device using speech recognition in electronic dictionary, and method of the same
WO2012001458A1 (en) * 2010-06-29 2012-01-05 Kabushiki Kaisha Toshiba Voice-tag method and apparatus based on confidence score
JP2012090151A (en) * 2010-10-21 2012-05-10 Mazda Motor Corp Vehicular information device
WO2012073275A1 (en) * 2010-11-30 2012-06-07 三菱電機株式会社 Speech recognition device and navigation device
US9756161B2 (en) 2014-08-22 2017-09-05 Hyundai Motor Company Voice recognition apparatus, vehicle having the same, and method of controlling the vehicle

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228277B2 (en) 2000-12-25 2007-06-05 Nec Corporation Mobile communications terminal, voice recognition method for same, and record medium storing program for voice recognition
US7130387B2 (en) 2001-11-15 2006-10-31 Nec Corporation Communication terminal, communication method and program thereof
JP2006048058A (en) * 2004-08-06 2006-02-16 Motorola Inc Method and system to voice recognition of name by multi-language
JP2009527024A (en) * 2006-02-14 2009-07-23 インテレクチャル ベンチャーズ ファンド 21 エルエルシー Communication device with speaker-independent speech recognition
WO2008061158A3 (en) * 2006-11-14 2008-07-10 Real Phone Card Corp Method and apparatus for low cost telephone
JP2011039468A (en) * 2009-08-14 2011-02-24 Korea Electronics Telecommun Word searching device using speech recognition in electronic dictionary, and method of the same
WO2012001458A1 (en) * 2010-06-29 2012-01-05 Kabushiki Kaisha Toshiba Voice-tag method and apparatus based on confidence score
CN102439660A (en) * 2010-06-29 2012-05-02 株式会社东芝 Voice-tag method and apparatus based on confidence score
JP2012090151A (en) * 2010-10-21 2012-05-10 Mazda Motor Corp Vehicular information device
WO2012073275A1 (en) * 2010-11-30 2012-06-07 三菱電機株式会社 Speech recognition device and navigation device
US9756161B2 (en) 2014-08-22 2017-09-05 Hyundai Motor Company Voice recognition apparatus, vehicle having the same, and method of controlling the vehicle

Also Published As

Publication number Publication date
JP3447521B2 (en) 2003-09-16

Similar Documents

Publication Publication Date Title
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
US6154722A (en) Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
JP2826215B2 (en) Synthetic speech generation method and text speech synthesizer
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JPS62231995A (en) Decision of probability value
JP2011065120A (en) Voice recognition of all languages, and single letter input method utilizing voice recognition
JPH10503033A (en) Speech recognition method and device based on new word modeling
US20020091520A1 (en) Method and apparatus for text input utilizing speech recognition
JP3447521B2 (en) Voice recognition dial device
JP2955297B2 (en) Speech recognition system
JP2662112B2 (en) Method and apparatus for modeling uttered words
JP3948260B2 (en) Text input method and apparatus
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2898568B2 (en) Voice conversion speech synthesizer
CN110808026B (en) Electroglottography voice conversion method based on LSTM
JP4230142B2 (en) Hybrid oriental character recognition technology using keypad / speech in adverse environment
JP3403838B2 (en) Phrase boundary probability calculator and phrase boundary probability continuous speech recognizer
Manjunath et al. Development of multilingual phone recognition system for Indian languages
Jain et al. IE-CPS Lexicon: An automatic speech recognition oriented Indian-English pronunciation dictionary
EP1369847B1 (en) Speech recognition method and system
JP3277522B2 (en) Voice recognition method
JP2003271185A (en) Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
JP2943473B2 (en) Voice recognition method
JP2862306B2 (en) Voice recognition device
Sawada et al. The NITECH HMM-based text-to-speech system for the Blizzard Challenge 2015

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 4

Free format text: PAYMENT UNTIL: 20070704

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 5

Free format text: PAYMENT UNTIL: 20080704

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 7

Free format text: PAYMENT UNTIL: 20100704

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 8

Free format text: PAYMENT UNTIL: 20110704

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 9

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20120704

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees